Apache Nutch 2.3

阿帕奇Nutch的是建立在頂部的的Apache Lucene的,一個強大的Java搜索引擎。Nutch的開發人員修改了Lucene的代碼庫,轉換數據無關的代碼庫的Lucene成專門用於搜索網絡上的數據專門項目。這種技術可以用於搜索自己的Web頁面作為一個內置的搜索服務器,或爬行網頁尋找數據解析和刮除到數據庫。Nutch的可以在一台機器上運行,但效果更好的的Hadoop 集群。各種插件可用於擴大其使用範圍 什麼是此版本中的新: ...