阿帕奇Nutch的是建立在頂部的的Apache Lucene的,一個強大的Java搜索引擎。
Nutch的開發人員修改了Lucene的代碼庫,轉換數據無關的代碼庫的Lucene成專門用於搜索網絡上的數據專門項目。
這種技術可以用於搜索自己的Web頁面作為一個內置的搜索服務器,或爬行網頁尋找數據解析和刮除到數據庫。
Nutch的可以在一台機器上運行,但效果更好的的Hadoop 集群。
各種插件可用於擴大其使用範圍
什麼是此版本中的新:
- 在確保重複的標籤不存在在微格式,reltag標籤集。
- 在一個更好的回落值日期字段。
- 在擺脫可怕的。 的
- 在升級到Hadoop的1.2.0。
- 在升級到1.3蒂卡。
什麼版本2.0是新的:
- 在改名HTMLParseFilter到ParseFilter
- 在LIB-HTTP。 刪除餘下的機器人/ IP阻止代碼
- 端口記錄到SLF4J。
- 在外部分析器支持編碼屬性。
- 在常春藤配置設置不包括戈拉。
- 在噴油器應該調用injectedScore之前添加元數據。
- 在港口Nutch的標杆Nutchbase。
- 添加解析HTML的後面。
- 在MoreIndexingFilter失踪的日期格式。
- 在超時的解析器。
- 在抓取日期重試間隔設置為0。
- 在生成日誌輸出Solr的索引和dedup。
- 改進NutchConfiguration。
- 在SolrDeleteDuplicates需要克隆SolrRecord對象。
- 在Hadoop本地無法通過行家庫。
- 在分開的構建和運行時環境。
什麼是1.5版本的新:
- 在本新聞稿包含一些改進,包括幾大部分組成,包括升級提卡1.1和Hadoop的1.0.0,改善LinkRank和WebGraph元件以及若干覆蓋黑名單,過濾和分析,以命名一些新的插件。
什麼在1.4版本的新:
- 在添加Solr的4倍(主幹)示例模式李>
- 添加“/運行”使用svn忽略。
- 在應用/ xhtml + xml應解析-HTML的plugin.xml中被啟用。允許多個MIME類型的plugin.xml的。
- 在固定解析 - 蒂卡和解析HTML的使用每個RFC-3986相對URL解析。
- 在升級到提卡0.10。注意:Tika的新RTF解析器可以忽略比以前畸形文件更多的文字 - 見TIKA-748的詳細信息
- 添加聲納目標,以螞蟻的build.xml。
- 在升級SolrJ到3.4.0版本。
- 在螞蟻PMD的目標是打破了。
- 在升級Solr模式到1.4版本。
什麼是1.3版的新:
- 在本新聞稿包含一些改進(改進RSS解析的支持,更嚴格與Apache提卡,外部解析的支持,提高了語言識別和規模較小的源發行tar包的訂單整合 - !只有約2MB)
什麼版本1.2是新的:
- 請索引更多的插件配置李>
- 在配置文件的協議父目錄爬行。
- 在超時的解析器。
- 在網站仍然Lucene的品牌。
- 在抓取日期重試間隔設置為0。
什麼是1.0版本的新:
- 在允許解析器返回多個解析對象
- 在刪除冗餘的共享記錄罐子。
- 在錯誤的SegmentReader導致無限循環。
- 在得分過濾器應分配的分數為所有outlinks一次。
- 在減少在Nutch的核心警告數量。
從本體論插件
評論沒有發現