Reds

Reds 0.2.5

紅色基本上是一個服務器端,可以添加到任何Node.js的web應用程序的JavaScript搜索引擎。該指數基於文本的數據,將其存儲在Redis的數據庫,在那裡更容易在比解析文本真實位置更快的結果進行查詢。這是速度做為主,也更容易維護,以及。紅人專門開發用於苦厄 什麼在此版本中是新的: 加功能限制的結果(分頁)的數目。在不包含單詞串固定失敗。 什麼在0.2.2版本新: 在更新自然 什麼在0.2.1版本新: 在處理標點符號更好 什麼在0.2.0版本新: ...

阿帕奇Nutch的是建立在頂部的的Apache Lucene的,一個強大的Java搜索引擎。Nutch的開發人員修改了Lucene的代碼庫,轉換數據無關的代碼庫的Lucene成專門用於搜索網絡上的數據專門項目。這種技術可以用於搜索自己的Web頁面作為一個內置的搜索服務器,或爬行網頁尋找數據解析和刮除到數據庫。Nutch的可以在一台機器上運行,但效果更好的的Hadoop 集群。各種插件可用於擴大其使用範圍 什麼是此版本中的新: ...

PHPCrawl

PHPCrawl 0.83

可以以書面的搜索爬蟲(蜘蛛),地雷網頁的各種信息進行使用。PHPCrawl收購它被配置來獲取信息,並通過它進行進一步處理,以更強大的應用 特點: 在過濾器URL和內容類型的數據定義的方式來處理cookie 定義的方式來處理的robots.txt文件在限制它的活動以各種方式在多處理模式 什麼在此版本中是新的: 在修正錯誤:現在,正確編碼在鏈接被部分進行了urlencoded和部分沒有得到重建/。從PHPCrawlerRobotsTxtParser.class.php...