可以以書面的搜索爬蟲(蜘蛛),地雷網頁的各種信息進行使用。
PHPCrawl收購它被配置來獲取信息,並通過它進行進一步處理,以更強大的應用
特點:
- 在過濾器URL和內容類型的數據
- 定義的方式來處理cookie
- 定義的方式來處理的robots.txt文件
- 在限制它的活動以各種方式
- 在多處理模式
什麼在此版本中是新的:
- 在修正錯誤:
- 在鏈接被部分進行了urlencoded和部分沒有得到重建/。
- 在刪除一個不必要的調試的var_dump()
- 在服務器名稱指示在TLS / SSL現在可以正常工作。
- "基HREF"標籤都有效的網站得到正確的解釋,現在又
現在,正確編碼
從PHPCrawlerRobotsTxtParser.class.php
什麼版本0.80公測新:
- 在代碼完全被重構,移植到PHP5,OO-的那些代碼和大量的代碼被改寫。
- 添加到使用使用多個進程蜘蛛網站的能力。方法" goMultiProcessed()"補充說。
- 在新覆蓋的方法和QUOT; initChildProcess()"在多進程模式使用履帶式啟動時,子流程補充說。
- Implementet一個替代方案中,內部SQlite的緩存-機制的URL使得能夠蜘蛛非常大的網站。
- 在法" setUrlCacheType()"補充說。
- 新方法setWorkingDirectory()增加了臨時工作目錄手工定義爬蟲的位置。為此方法" setTmpFile()"被標記為廢棄(有沒有功能了)。
- 在新的方法和QUOT; addContentTypeReceiveRule()"取代了舊的方法和QUOT; addReceiveContentType()"
- 在功能" addReceiveContentType()"仍然存在,但被標記為過時。
要求:
- 在PHP 5或更高
- 在與OpenSSL的支持PHP
評論沒有發現