Apache Tika

軟件截圖:
Apache Tika
軟件詳細信息:
版本: 1.9 更新
上傳日期: 20 Jul 15
許可: 免費
人氣: 320

Rating: 4.0/5 (Total Votes: 2)

的Apache提卡是作為一個低級別的工具包內查找其他文件的內容。
蒂卡沒有做太多自己是一個簡單的庫,但它可以集成更多的功能強大的工具,如搜索引擎,數字資產管理系統或CMS的,以提供一個全功能的文件搜索系統。
這個庫可以訪問不僅僅是文件的標題,以便快速全面的文件資料,也可以去真正深入並在該文件的正文中搜索甚至對於不同類型的數據,文本或二進制格式。
多種文件類型支持和提卡也可以與其他編程語言多虧了一系列第三方的綁定和包裝使用。

什麼是此版本的新

  • 在此版本包括bug修復和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,並整體改善提卡穩定。

什麼是1.8版本的新

  • 在此版本包括bug修復和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,並整體改善提卡穩定。

什麼是1.7版本的新

  • 在此版本包括bug修復和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,並整體改善提卡穩定。

什麼是1.6版本的新

  • 在此版本包括bug修復和新功能,包括新的翻譯API,支持更多的格式,並在提卡穩定的全面改善。

什麼是1.5版新

  • 在PDF文件中處理的嵌入式文件處理的固定的臭蟲
  • 新增SourceCodeParser支持Java,Groovy中,C ++的文件。
  • 更新提卡服務器支持的multipart / form-data的有效載荷。
  • 更新提卡服務器CXF 2.7.8。
  • 更新提卡服務器接受了通配符地址的請求。
  • 添加選項使用備用NonSequentialPDFParser。
  • 從PDF AcroForms內容現在提取。
  • 從主幻燈片固定無效的星號的PPT。
  • 添加測試用例以確認PPT和PPTX處理的自動更新。

什麼,版本1.4中新的

  • 在刪除一個選擇不當的GPL文本在測試HTML文件吧。
  • 改進提卡服務器允許它生產的text / html和text / xml內容。
  • ,改進了壓縮機分析器作出處理需要的decompressConcatenated選項設置為true g'zipped文件。
  • 在寫給一個從檢測AWK文件防止印刷錯誤。

什麼版本1.2是新的

  • 在Apache的蒂卡1.2包含了一些改進和bug修復。

什麼版本1.0是新的

  • 在Apache的蒂卡1.0包含了一些改進和bug修復。

什麼是0.9版本的新

  • 在此版本包括一些重要的錯誤修復和新功能

什麼是0.8版本的新

  • 在語言識別是目前動態配置,通過配置文件管理從classpath載入。
  • 提卡現在支持解析供稿通過封裝底層的羅馬庫。
  • 快速入門指南提卡解析了貢獻。
  • 通過XHTML屬性管道的方法加入。
  • 在媒體類型層次信息現在選擇一個給定的輸入文檔的最佳解析器的時候考慮的。
  • 支持解析共同的科學數據格式,包括的netCDF和HDF4 / 5加入。
  • 在單元測試的Windows已經被固定,允許TestParsers完成。

什麼是0.7版本的新

  • 在MP3文件的解析進行了改進,包括通道和採樣率提取ID3v2的支持。此外,音頻解析MIME檢測也得到了改善的MIDI格式。
  • 提卡不再依賴於X11以其RTF的分析功能。
  • 在AutoDetectParser線程安全漏洞被發現和解決。
  • 升級到1.0.0 PDFBox的。新PDFBox的版本改進了PDF解析性能,並修復了一些文本提取問題。<​​/ li>

要求

  • 在Java 6或更高

類似的軟件

Zend InfoCard
Zend InfoCard

13 May 15

KeyboardJS
KeyboardJS

10 Dec 15

Cheerio
Cheerio

12 Apr 15

ShellJS
ShellJS

10 Feb 16

顯影劑的其他軟件 Apache Software Foundation

意見 Apache Tika

評論沒有發現
添加評論
打開圖片!