適用於Windows軟件開發人員的PDF Extractor SDK:PDF到文本,PDF到XML,PDF圖像,閱讀PDF信息,PDF到CSV for Excel。
Bytescout PDF Extractor SDK允許將PDF轉換為文本,PDF轉換為XML,PDF轉換為CSV,從PDF中提取圖像,在.NET和ActiveX界面中提取有關PDF文件的信息,而無需任何其他軟件。
優點:
將PDF轉換為純文本(如果您轉換PDF格式的報紙,可以按照列進行操作) - 包括隱形文本提取;
通過讀取給定矩形的單元格將PDF格式的表格轉換為Excel(CSV);
將PDF中的表格轉換為XML文件;
提取PDF文件元數據(標題,作者,描述)並獲取有關該文件的其他信息(頁數,加密與否);
從PDF文檔中提取嵌入的圖像(在ASP.NET,VB.NET,C#,VB6和VBScript中);
DocumentMerger和DocumentSplitter接口和類,用於合併和拆分PDF文檔;
不需要安裝Adobe Reader或任何其他PDF閱讀器軟件;
提供.NET和ActiveX接口;
使用100%託管的C#代碼製作。
此版本中的新功能:
版本9.0.0.3079:按字體名稱,字體大小和顏色添加了對提取內容的過濾。
將OCR引擎更新到最新版本。從'tessdata'文件夾更新語言文件。
改進了文本提取,表格數據中的行分組,性能,XFA表單提取,TableDetector,修復的PDF解析問題。
8.7.0.2980版中的新功能:
按字體名稱,字體大小和顏色添加對提取內容的過濾。
將OCR引擎更新到最新版本。從'tessdata'文件夾更新語言文件。
在8.6.0.2911版本中改進了文本提取,表格數據中的行分組,性能,XFA表單提取,TableDetector,修復的PDF解析問題。
什麼是新的:
按字體名稱,字體大小和顏色添加對提取內容的過濾。
將OCR引擎更新到最新版本。從'tessdata'文件夾更新語言文件。
在8.2.0.2699版本中改進了文本提取,表格數據中的行分組,性能,XFA表單提取,TableDetector,修復的PDF解析問題。
什麼是新:
版本8.2.0.2699可能包含未指定的更新,增強功能或錯誤修復。
8.0.0.2528版中的新功能:
新功能:
版本7.0.0.2474:
- 添加了新的DocumentPrinter實用程序類,允許以靜默方式打印PDF文檔(無需任何用戶對話框)
- 添加了新的JSONExtractor類
- 為DocumentSplitter.Split()方法添加了覆蓋,允許為生成的文件指定輸出文件夾
- 修復了DocumentSplitter中的多線程錯誤
- tableDetector現在尊重由SetExtractionArea()方法設置的提取區域
- 提取類中的新屬性:ExtractionColumns - 包含檢測到的列的坐標; CustomExtractionColumns - 允許覆蓋列檢測
- GetPageRect *方法沒有考慮頁面輪換。
修復了安裝程序中導致以前安裝的某些文件干擾更新的問題 - 重新進行了註冊檢查。現在庫不會拋出異常,但如果您錯過了或輸入錯誤的RegistrationName和RegistrationKey,則在演示模式下工作
- PDF Multitool:將最近的文檔列表添加到“打開PDF文檔”按鈕
- PDF Multitool:現在可以調整選擇大小
- PDF Multitool:添加了提取JSON功能
- PDF Multitool:改進的表檢測器UI
- PDF Multitool:大大提高了字體渲染質量
- PDF Multitool:在上下文菜單中添加了調試選項“顯示檢測到的提取列”,以在當前頁面上顯示檢測到的列。僅在對當前顯示的頁面運行任何提取後變為可見
- PDF Multitool:修復了32位Windows上的字體渲染問題
- 其他小改進和錯誤修復
版本6.30.0.2421中的新功能:
版本6.30.0.2421:
- 添加了TextComparer實用程序類(僅適用於.NET 4.0程序集),允許比較兩個PDF文檔中的文本並生成報告。
- 改進了對ICC顏色配置文件的支持。
- 對嵌入字體的處理不力。
- 改進了AttachmentExtractor。
- 修正了XMLExtractor.SaveXMLToStream()方法。
- 修復了使用OCRCacheMode.WholePage選項時提取的文本複制。
- 其他錯誤修復和改進。
版本6.20.2354中的新功能:
版本6.20.2354:
- PDF到文本,PDF到CSV,PDF到XML功能改進
- 新提取視頻,提取音頻示例
- CSV和XML提取器改進了對 中空列的表的支持
- 用於從PDF中提取視頻和音頻的新MultimediaExtractor
- 新屬性PageDataCaching
- new“MemoryCareProcessingOfHugeFiles”示例
- 在嘗試處置已經處理過的頁面時修復了空例外
- XLSExtractor:改進字體支持
- SkipInvisibleText現在跳過剪切的文本(不可見)
- 文字輸出渲染改進
- XFDF Extractor:添加了對複選框的支持
- 改進了圖像輸出以支持更多子格式
- 改進了Unicode文本處理
版本6.11.2149中的新功能:
版本6.11.2149:
- 批處理樣本已更新,以顯示Reset()方法的使用
- 為Pages Extraction添加了C ++源代碼示例
- DocumentMerger添加Merge2(inputfile1,inputfile2,outputfile)方法來合併2個文件
- XLS Extractor小錯誤修復程序
- PDF Multitool現在允許啟用/禁用文本,圖像,矢量圖層,添加文本提取的高級設置
- XML,CSV,表格提取改進了對列中具有emtpry單元格的表的支持
- .ExtractShadowLikeText屬性改進:更好地過濾類似陰影的文本
版本6.10.2136中的新功能:
版本6.10.2136:
- PDF到XML,PDF到CSV,PDF到文本功能得到改進
- PDF到XLS命令行示例添加(基於vbscript)
- PDF到HTML SDK添加新的.DetectHyperLinks屬性(默認情況下為TRUE)以啟用/禁用文本中的自動鏈接檢測
- 新的SearchablePDFMaker(可用於PRO許可證)將PDF轉換為可搜索的PDF文件
- 提取器中的新屬性:ThinkingFontNames,ConsideFontSizes,TakingFontColors,CFG文件中的ConsideVerticalBorders
- 標題列檢測(當AutoAlighHeaderToColumns = true時)得到改進
- .DetectLinesInsteadOfParagraphs替換為新的.LineGroupingMode來控制如何將行合併為段落
- 重要! PDF To XML修復了文本對象的Y坐標不正確的長時間問題(指向左下角而不是左上角)
- .TableXMinIntersectionRequiredInPercents和.TableYMinIntersectionRequiredInPercents屬性已添加
- 添加了C ++源代碼示例
- XML Extractor修復了PreserveFormatting = true模式中缺少的空列
- 對某些PDF文件中的顏色進行微小修復
- 添加了對多種OCR語言的支持
- PDF Multitool GUI:將復製到剪貼板按鈕添加到TXT,CSV,XML和光柵渲染器對話框
- XLSExtractor:添加PageToWorksheet屬性以啟用/禁用每頁生成單獨的工作表
- new .TextEncodingCodePage屬性
- PDFViewerControl:添加ValidateContextMenu,允許用戶將自定義項添加到上下文菜單
- PDF查看器控件:添加屬性ShowTextObjects,ShowImageObjects,ShowVectorObjects
- XMLExtractor現在為已識別的文本添加“OCRConfidence”屬性
- PDF / A檢查功能(測試版)
- 根據原始佈局改進控件和文本檢查和對齊。問題是由解析時控件中Y坐標的移位引起的:這是不正確的。正確的方法是shif ...
- XML Extractor已更新:現在為複選框和文本字段生成CONTROL標記
- 將當前目錄更改為臨時目錄
- 更好地支持複選框,radioboxes,editboxes,comboboxes
- 現在允許部分信任呼叫者
版本5.80.1781中的新功能:
版本5.80.1781:
- PDF到XML,PDF到CSV,PDF到文本功能已更新
- OCRMode現在提供9種模式
- .DetectLineInsteadOfParagraph現在效果更好。將其設置為False以捕獲表格單元格中的多行文本!
- PDF控件支持改進
- FDF和XFDF數據提取
版本5.10.1747中的新功能:
版本5.10.1747:
- PDF到XML,PDF到CSV,PDF到文本功能得到改進
- 現在支持從文本控件中提取文本
- XML提取器現在將字體樣式,大小,名稱,文本坐標添加到標記中
- 添加了用於OCR使用的ASP.NET示例
- 新屬性OCRLanguageDataFolder指定“tessdata”文件夾的位置
- 改進了對PDF文件的支持
- 改進了對旋轉文本的支持
- 更新了源代碼示例
- 更新了文檔
- 小改進和修復
版本5.00.1626中的新功能:
版本5.00.1626:
- 添加了OCR(圖像中的文本)功能:現在您可以從嵌入的圖像中提取文本並修復損壞的文本
- 使用CSV和XML提取程序修復的問題在某些設置中缺少最後一列
- 改進了對損壞的PDF文件的支持
- 現在支持使用單詞匹配模式的多行搜索文本搜索
- 現在可以使用連字符和不同的行搜索文本:查看新的源代碼示例查找帶連字符的文本
- 新屬性.RTLTextAutoDetectionEnabled(默認為false)自動檢測RTL語言
- 改進了PDF Viewer GUI演示
- 小改進和修復
要求:
.NET Framework 2.0或更高版本
限制:
Nag屏幕,輸出水印
評論沒有發現