廢材是用Python編寫的100%,可用於簡單的數據挖掘,以網頁監控,網絡搜索引擎,甚至進行代碼測試。
Scrapy不在字的真諦一個搜索引擎,但是它的作用就像一(不帶索引的一部分)。不過Scrapy可以是一個偉大的工具來建立你的搜索引擎的邏輯上。
這個框架的真正威力取決於在其核心的多功能性,Scrapy是在其上建立在通用或專用的搜索蜘蛛(抓取工具)的系統。
雖然這聽起來非常複雜的非技術用戶,快速查看過的文件和可用的教程,這是很簡單的,看看如何Scrapy設法採取了所有的辛勤工作了這一點,並降低整個過程只幾行代碼(更容易,更小爬蟲)
是什麼在此版本中是新的:
- 在引文結束請求路徑傳遞給FtpClient的面前,它已經逃脫路徑。
- 包含測試/以源代碼發布在MANIFEST.in。
什麼是1.0.1版新:
- 在引文結束請求路徑傳遞給FtpClient的面前,它已經逃生路徑。
- 包含測試/以源代碼發布在MANIFEST.in。
什麼的0.24.6版本是新的:
- 在加入UTF8編碼頭模板
- 在遠程控制台現在默認綁定到127.0.0.1
- 在更新的Debian / Ubuntu的安裝說明
- 禁用智能串LXML XPath計算
- 恢復基於文件的緩存默認HTTP緩存中間件
- 在當前暴露在履帶式外殼Scrapy
- 在提高比較CSV和XML出口商測試套件
- 新的異地/過濾和異地/域統計
- 支持process_links作為發電機CrawlSpider
什麼的0.24.5版本是新的:
- 在加入UTF8編碼頭模板
- 在遠程控制台現在默認綁定到127.0.0.1
- 在更新的Debian / Ubuntu的安裝說明
- 禁用智能串LXML XPath計算
- 恢復基於文件的緩存默認HTTP緩存中間件
- 在當前暴露在履帶式外殼Scrapy
- 在提高比較CSV和XML出口商測試套件
- 新的異地/過濾和異地/域統計
- 支持process_links作為發電機CrawlSpider
什麼是0.22.0版本,新的:
- 重命名scrapy.spider.BaseSpider到scrapy.spider .Spider
- 在推廣上的設置和中間件INFO級別的啟動信息
- 支持諧音
- 在允許通過TOX 運行indiviual測試
- 將鏈接提取忽略更新擴展
- 選擇器註冊EXSLT名稱空間默認
- 統一產品裝載機相似,選擇重命名
- 請RFPDupeFilter類易子類化
- 在提高測試覆蓋率和未來的Python 3支持
在get_func_args UTIL
什麼版本0.20.1為新的:
- 要建立從公佈的資料來源車輪include_package_data是必需的。
什麼的0.18.4版本是新的:
- 在固定AlreadyCalledError替換在shell命令的請求
- 固定start_requests lazyness和早期掛起。
什麼的0.18.1版本是新的:
- 在刪除多餘的進口由櫻桃採摘添加修改
- 修正下扭曲的預11.0.0爬行測試。
- 在py26無法格式化零長度字段{}
- 在未綁定的響應測試PotentiaDataLoss錯誤。
- 在未經治療的Content-Length或傳輸編碼作為良好的反應的反應。
- 難道不包括,如果http11處理程序未啟用ResponseFailed。
要求:
- 在Python的2.7或更高版本
- 扭曲2.5.0或更高版本
- 在libxml2的2.6.28或更高
- pyOpenSSL
評論沒有發現