Apache Nutch

軟件截圖:
Apache Nutch
軟件詳細信息:
版本: 2.3 更新
上傳日期: 17 Jul 15
開發: Sami Siren
許可: 免費
人氣: 12

Rating: 1.0/5 (Total Votes: 2)

Apache的Nutch的項目是一個開源的,可擴展的,高度可擴展的和免費的基於​​Web的網絡爬蟲軟件建立在Apache Lucene的(Java版本)庫。
它增加了網絡的細節,諸如履帶式,鏈路圖形數據庫,解析器HTML和其他文件格式等,這是由Apache基金會,它兩個單獨的分支開發和分佈。
作為模塊化,可插拔的,Apache的Nutch的有它的好處,通過提供像解析,索引和ScoringFilter擴展接口的自定義實現,比如Apache提卡解析。
此外,Apache的Nutch的目的是在一台機器上運行,但在Hadoop集群上運行時更強大。可插拔的索引存在彈性搜尋,Apache Solr實現,等等

什麼是此版本的新

  • 在Nutch的-1779應用格式的代碼(lewismc)
  • Outlinks的Nutch的-1907錯誤的輸出到主機內HostDbUpdateReducer(lewismc)
  • Nutch的-1856文件webpage.avsc和host.avsc(lewismc)
  • Nutch的-1834 GeneratorMapper行為取決於日誌級別(格哈德通過snagel戈森)
  • Nutch的-1899升級的Restlet的lib,以防止構建失敗(塔拉特)
  • Nutch的-1797關掉不用的包oanhtml(SAURABH通過snagel Chhajed)
  • Nutch的1888指定HTMLMapper在TikaParser(通過jnioche哈利勒Simsek)使用
  • Nutch的-1897更容易調試插件XML錯誤(馬庫斯)
  • Nutch的-1823升級到elasticsearch 1.4.1(富僑,馬庫斯,lewismc)
  • Nutch的-1829發電機:無法分辨真正的錯誤(馬修布沙爾,jnioche,snagel)
  • Nutch的-1778發電機無法正常登錄一批網址數量(jnioche通過snagel)
  • Nutch的-1877後綴URL過濾忽略默認的查詢字符串(通過snagel馬庫斯)
  • Nutch的-1825協議HTTP可能會掛起的某些網頁(富通過snagel僑)
  • Nutch的-1483不能抓取文件系統,協議文件的插件(羅熱里奧·佩雷拉·阿勞霍,夢瑩王,snagel)
  • Nutch的1885協議文件應該把符號鏈接作為重定向(夢瑩王,snagel)
  • Nutch的-1880 URLUtil不應該添加的文件URL額外的斜線(snagel)
  • Nutch的-1879正則表達式的URL規範器應文件後刪除多個斜線:協議(snagel)
  • Nutch的-1820刪除字段"原稿"它複製及QUOT; ID" (lewismc,snagel)
  • Nutch的-1843升級到戈拉0.5(塔拉特,lewismc,基里爾·緬希科夫,drazzib)
  • Nutch的-1883斌/抓取:使用功能運行斌/ Nutch的時間並退出值(snagel)
  • Nutch的-1882蟻蝕目標增加輸出路徑為src /測試(snagel)
  • Nutch的-1827端口的Nutch-1467和Nutch的,1561年到2.X(snagel)
  • Nutch的-1876升級到履帶下議院0.5(jnioche)
  • Nutch的,1866年蟻蝕目標不應該刪除運行時(nimafl通過lewismc)
  • Nutch的-1859讓Nutch的Web應用程序的端口配置(通過lewismc尼瑪Falaki)
  • 在DashboardPage.html情況下反Nutch的-1848的Bug(尼瑪通過lewismc Falaki)
  • Nutch的-841創建一個Wicket的Web應用Nutch的(通過lewismc Fjodor Vershinin)
  • Nutch的-1832讓Nutch的工作,而一個索引(mattmann通過lewismc)
  • 的Nutch-1840在SolrIndexWriter的功能描述不正確(kaveh通過jnioche minooie)
  • Nutch的,1837年升級到提卡1.6(lewismc)
  • Nutch的-1829發電機:無法分辨真正的錯誤(通過jnioche馬修布沙爾)
  • Nutch的-1828斌/抓取:不正確處理Nutch的錯誤(通過jnioche馬修布沙爾)
  • Nutch的-1693 TextMD5Signature計算的文本內容(田阮孟,馬庫斯通過snagel)
  • Nutch的-1409刪除過時的屬性分貝。{默認情況下,最大} .fetch.interval,generate.max.per.host.by.ip(通過snagel馬蒂亞斯Agethle)
  • Nutch的-1819 batchId在GeneratorJob(通過lewismc Fjodor Vershinin)
  • Nutch的-1708使用相同的ID時,檢索和刪除重定向(snagel)
  • Nutch的-1817從源代碼中刪除的pom.xml(jnioche)
  • Nutch的-1811箱/ Nutch的JUnit來使用JUnit 4測試運行器(snagel)
  • Nutch的-1776登陸不正確plugin.folder文件路徑(通過snagel Diaa)
  • Nutch的-1566箱/ Nutch的允許空白的路徑(tejasp,snagel)
  • Nutch的-1605 MIME類型探測器識別XLSX為zip文件(snagel)
  • Nutch的-385改進線程相關的配置說明擷取(jnioche,陸豐)
  • Nutch的-1798抓取腳本不調用index命令正確(亞倫Bedward通過jnioche)
  • Nutch的-1769的REST API的重構(Fjodor通過lewismc Vershinin)
  • Nutch的-1633 SLF4J是由Hadoop的提供,不應包括在(通過jnioche kaveh minooie)的作業文件
  • Nutch的-1787更新和完整的API文檔總覽頁面(snagel)
  • Nutch的-1767取出的特殊治療(treatment)PARAMS"在相對鏈接(snagel)
  • Nutch的-1718重新定義http.robots.agent為"另外的代理名稱和QUOT; (snagel,Tejas的帕蒂爾,丹尼爾·庫格爾)
  • Nutch的-1796確保戈拉對象建設者被用作反對空構造函數(通過lewismc snagel)
  • Nutch的-1590 [安全]幀注射公佈的Javadoc漏洞(jnioche)
  • Nutch的-1736無法抓取頁面,如果HTTP響應報頭包含傳輸編碼:分塊(YSC通過jnioche)
  • Nutch的-1782 NodeWalker返回當前節點(馬庫斯)
  • Nutch的-1781更新山 - * - mapping.xml和gora.proeprties反映戈拉0.4(lewismc)
  • Nutch的-1768升級到ElasticSearch 1.1.0(jnioche)
  • Nutch的-1634 readdb -stats顯示結果的兩倍(kaveh通過jnioche minooie)
  • Nutch的-1780 TTL和gc_grace_seconds屬性從山 - 卡桑德拉-mapping.xml文件丟失(kaveh minooie通過le​​wismc)
  • Nutch的-1676加入基本的SSL支持協議HTTP(jnioche,馬庫斯)
  • Nutch的-1674使用batchId過濾器,使掃描(GORA-119),用於獲取,分析,更新,索引(田阮孟和Alparslan Avci的通過jnioche)
  • Nutch的-1714升級到戈拉0.4(Alparslan通過jnioche Avci的)
  • Nutch的-1752高速緩存的robots.txt規則,每個協議:主機:端口(snagel)
  • Nutch的-1613超時的協議HttpClient的爬滿了&GT相同的主機時,2個線程(brian44通過jnioche)
  • Nutch的-1182讀取器登錄掛起線程(snagel)
  • Nutch的-1618轉推測執行關閉用於讀取(塔拉特)
  • Nutch的-1657 ORIGINAL_CHAR_ENCODING和CHAR_ENCODING_FOR_CONVERSION中的HTMLParser(塔拉特)從未設置
  • Nutch的-1725 CleaningJob的減速不承諾刪除的文檔。 (通過塔拉特ilhamikalkan)
  • Nutch的-1728索引,Solr的插件不刪除Solr的文檔(ilhamikalkan通過塔拉特)
  • 的2.X的Nutch-1753,使用Eclipse的關係是不問題(塔拉特)
  • 在HttpBase.java(通過jnioche沃爾特肋軟骨炎)Nutch的-1720重複的行
  • Nutch的-797的網址不正確構造時,鏈接目標始於"?" (道格·庫克,羅伯特Hohman,Stondet,通過snagel AB)
  • Nutch的-1759升級到履帶下議院0.4(jnioche)
  • Nutch的-1700刪除棄用的src /插件代碼/項目Creativecommons / build.xml文件(lewismc)
  • Nutch的-1761抓取腳本未能找到工作的文件如果不從bin目錄內開始(大衛·霍斯金,jnioche)
  • Nutch的-1603 ZIP解析器抱怨截斷PDF文件(通過lewismc snagel)
  • Nutch的-1743 parsechecker顯示outlinks(snagel)
  • Nutch的-1732更好的CMD線(通過lewismc Fjodor Vershinin)解析為NutchServer
  • Nutch的-1751空錨不應指數(經lewismc Sertac·巴)
  • Nutch的-1733解析HTML的支持HTML5的字符集定義(snagel)
  • Nutch的-1727可配置的長度頂級域名(Sertac通過lewismc·巴)
  • Nutch的-1738暴露每批在GeneratorJob(通過ewismc塔拉特UYARER)生成的URL數量
  • Nutch的-1671 indexchecker添加信息摘要(snagel,陸豐)
  • Nutch的-1645 JUnit測試用例的自適應取附表類(亞辛Kilinc,陸豐,通過snagel Sertac URKEL)
  • Nutch的-1478解析,元標籤和索引,元數據插件Nutch的2.X系列(吉蘭,阮無水田,塔拉特UYARER,通過lewismc范吉利斯Karvounis)
  • Nutch的1729升級到提卡1.5(jnioche)
  • Nutch的-1721升級到履帶式通用0.3(tejasp)
  • Nutch的-1719 DomainStatistics失敗2.x的,因為URL不unreversed(格哈德通過lewismc戈森)
  • Nutch的-1253 Incompatableネ和Xerces版本(snagel,lewismc,塔拉特UYARER)
  • Nutch的-1715 RobotRulesParser增加了額外的“*”的機器人的名字(tejasp)
  • Nutch的-356插件庫高速緩存可能會導致內存洩漏(恩里科Triolo,Dogacan居內伊通過馬庫斯)
  • Nutch的-1164寫的JUnit測試協議HTTP(Sertac通過tejasp·巴)
  • Nutch的-1710加山包記錄到log4j.properties(lewismc)
  • Nutch的-1655索引器插件彈性搜索(塔拉特UYARER通過lewismc)
  • Nutch的-1699提卡分析器 - 圖像解析錯誤(穆罕默德·扎希德Yuzuguldu,通過lewismc snagel)
  • Nutch的-1568端口可插入索引架構2.X(通過lewismc塔拉特UYARER)
  • Nutch的-1672反向鏈接是(通過lewismc田阮孟)加兩次DbUpdateReducer
  • Nutch的-1667數據庫更新總是忽略batchId(通過lewismc田阮孟)
  • Nutch的-1695 NutchDocument.toString()(馬庫斯通過lewismc)
  • Nutch的-1696能夠使用的(強羅)快照依賴(lewismc)
  • Nutch的-1681在URLUtil.java,toUNICODE方法不能正常工作(A

意見 Apache Nutch

評論沒有發現
添加評論
打開圖片!