該Methabot軟件是一個速度優化,編寫腳本和高度可配置的Web,FTP和本地文件系統的抓取工具。它支持文件類型腳本解析,各種各樣的自定義選項,很容易配置,以適應任何人的特殊需要。
通過使用該模塊系統和腳本語言,用戶都能夠採取全部或部分控制抓取過程,並決定然而Methabot應存儲網絡數據,統計等等。
剛剛通過運行命令行Methabot您可以配置自定義文件類型,過濾表情,行為,等等,所以你不必成為一個編劇
功能!
- 在它速度快,從底層設計了速度優化的考慮。
- 在編寫腳本通過JavaScript使用E4X
- 在自定義文件類型過濾(根據MIME類型,文件擴展名或UMEX表達式)
- 在多線程
- 從命令行高度可配置的
- 在可擴展的模塊系統,支持自定義數據分析器和過濾器。
- 的URL通過UMEX簡單而強大的過濾功能。
- 自動下載
- 在HTTP上運行時,支持自動cookie處理
- 可靠,容錯網絡
- 便攜式,與32位/ 64位Linux 2.6測試成功,32位/ 64位的FreeBSD的6.x / 7.0,Windows XP和Mac OS X的工作應該在幾乎所有的類Unix操作系統。
什麼在此版本中是新的:
- 修正,當外部偷看使用了深度限制是搞砸了。
- 內存使用情況的清理修復
- 在動態URL選項不再默認設置為查找,因為它會減慢顯著爬行
- 在構建系統現在連接的時候創建並安裝一些模塊可以使用頭文件
- 甲基-配置工具添加
- lmm_mysql這個包的外面移動
在什麼版本1.5.0是新的:
- 在變化和新的特點:
- 支持讀取intial緩衝從標準輸入
- - 類型和--base-url命令行選項加入,以及在配置文件中的initial_filetype選項
- 餅乾和DNS信息是正確的,現在工人之間運行多線程 共享時,
- 在增加了一些例如使用命令--examples
- 要線程間通信大的改進,現在更快,更舉辦
- 新增的“初始化”功能的腳本支持。了解更多關於初始化函數在http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha沒有做多個並發的HTTP HEAD請求時凍結了。究其原因,是凍結這是現在固定在libcurl的一個bug。一些解決方法已經被添加到libmetha使用藏漢缺陷的libcurl版本時,以防止凍結從發生的歷史。
- 支持較老版本的libcurl和7.17.x 7.16.x
- 在新的信息中可用的"這" JavaScript的解析器,內容類型和傳輸狀態代碼對象。更多詳情http://bithack.se/projects/methabot/docs/e4x/this.html
- - 詳細選項與--silent更換,因為詳細模式現在默認
- 為FTP抓取和初步支持ftp_dir_url履帶選項
- 在深度限制現在是履帶式專用
- 添加命令行選項--crawler和--filetype
- 支持擴大和壓倒一切已經定義爬蟲和文件類型
- 支持在配置文件中的副本關鍵字
- 支持動態切換活動履帶,這可以讓你抓取不同的網站完全不同的方式在一個爬行會話。了解更多關於履帶式的開關在http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev版本升級到3.51
- include指令在配置文件中,現在可以確保包括配置文件尚未加載,以防止包括-環和多文件類型/履帶式定義。
- 各種SpiderMonkey的垃圾收集修復,libmetha不會崩潰了多線程會議結束後清洗時可達
- 添加了一些額外的信息到--info選項
- 在“外部”選項現在固定,並再次啟用
- 在新選項--spread工
- 新libmetha API函數lmetha_global_setopt()允許更改全局錯誤/消息/警告記者
- 在一個測試套件為開發人員的新增初步實施
- 更好的錯誤報告加載配置文件時
- 修正時,HTTP服務器HEAD請求後未返回Content-Type頭
- 修正時,多個HTTP HEAD請求後分類網址
- 修正的HTML到XML轉換器當HTML頁面沒有一個< HTML>標籤
- 修正的extless-url選項沒有工作
- 修正,HTML到XML轉換器不再字節順序標記或實際的HTML之前,其他文字扼流圈
- 修正,防止libmetha嘗試訪問協議的URL不支持
- 修正錯誤後關閉的時候。
- 修正,無法解決的網址沒有經過三次試打出來的重試循環
- 非常實驗和不穩定的Win32的支持,主要用於開發
- 新的配置文件:
- google.conf,進行谷歌搜索
- youtube.conf,YouTube的搜索
- meta.conf,版畫元信息,如關鍵字和描述的HTML頁面
- title.conf,打印HTML頁面的標題
- ftp.conf,爬行FTP服務器
什麼是1.4.1版本的新:
- 在配置找不到jsapi.h在某些系統,這應該是現在固定的。
- 配置文件是現在能夠修改和履帶文件類型的標誌,增加了選項'外部'和'external_peek“
- 修正,Methabot有時會清理空的URL時崩潰多個HTTP頭之後
- 修正了同步運行時發生崩潰。
- 在構建系統包括修復時jsconfig.h找不到。
要求:
- 在SpiderMonkey的標題
- 捲曲
評論沒有發現