美麗的湯項目是一個Python HTML / XML解析器專門為喜歡屏幕抓取快速周轉項目。三個特點使其功能強大:
如果你給它壞標記美麗的湯不會嗆。這產生了一個解析樹,使大約多大意義的原始文檔。這通常是不夠好,收集你需要的數據和逃跑。
美麗的湯提供了一些簡單的方法和Python化成語的導航,搜索和修改分析樹:一個工具包解剖文檔和提取你所需要的。您不必創建一個自定義的解析器為每個應用程序。
美麗的湯會自動收到的文件為Unicode和傳出的文件,以UTF-8的轉換。你不必去想編碼,除非該文件沒有指定編碼和美麗的湯不能自動檢測之一。那麼你只需要指定原始編碼。
美麗的湯解析什麼,你給它,並且做樹的遍歷的東西給你。你可以告訴它“查找所有鏈接”,或“查找類externalLink的所有鏈接”,或“查找其URL匹配所有的鏈接”foo.com“或”查找表的標題即是有大膽的文字,然後給我的文字。“
一度被關在設計拙劣的網站有價值的數據,現在唾手可得。 。將採取時間項目採取與美麗的湯唯分鐘
要求:
- 在Python中
評論沒有發現