PDFMiner通過首先考慮的PDF文件的內容,並把它轉換為如HTML一個更有延展性的格式。
從那裡,文本和數據被提取和分析,並基於分離並呈現給用戶,或傳送到其它更強大的數據分析工具的預定義的規則。
如果文本分析是不是你打算做什麼,你可以輕鬆地配置PDFMiner簡單地提取或者只是將PDF轉換數據為好。
它的功能可相互獨立工作,並允許更廣泛的使用範圍全靠它
功能:
- 100%的Python代碼,沒有C或C ++
- 解析PDF文件
- 分析PDF文件
- PDF文件轉換為其他格式
- 的ToC提取
- 只得到標記的內容
- 支持大量的文本的PDF功能
- 支持大量的字體類型的PDF文件裡面
- 基本加密(RC4)的支持
什麼在此版本中是新的:
- 在PDFDocument.initialize()方法被刪除,不再需要。密碼是作為一個PDFDocument構造函數的參數。
在什麼版本20110515是新的:
- 在API的變化
- LTPolygon類更名為LTCurve。
在什麼版本20110227是新的:
- 在Bug修復和佈局分析改進
什麼是20101226版新:
- 在一對夫婦的錯誤修正和小的改進的
什麼是20101017版新:
- 在一對夫婦的錯誤修正和小的改進李>
在什麼版本20100424是新的:
- 在錯誤修正和TOC提取微小的改進
要求:
- 在Python的2.4至3
限制:
- 在PDFMiner可以比C / C ++慢20倍 - 基於軟件李>
評論沒有發現