Apache Tika

軟件截圖:
Apache Tika
軟件詳細信息:
版本: 1.4
上傳日期: 20 Feb 15
許可: 免費
人氣: 6

Rating: nan/5 (Total Votes: 0)

的Apache提卡是一個開源工具包旨在檢測並提取元數據,以及結構化的文本內容來自幾個文件,只用現有的解析器庫。
阿帕奇蒂卡支持以下文件格式:超文本標記語言(HTTP),XML和派生格式,微軟Office文檔格式,開放文檔格式(ODF),可移植文檔格式(PDF),電子出版物格式(EPF),​​富文本格式(RTF ),壓縮和封裝格式,文本/音頻/圖片/視頻格式的mbox格式,和Java類文件和檔案。
此前,阿帕奇提卡是在Apache Lucene的軟件庫的一個子項目。現在,它是分佈式作為一個獨立的包由Apache軟件基金會

什麼在此版本中是新的

  • 在刪除一個測試HTML文件,它(TIKA-1129)一個選擇不當的GPL文本。
  • 在改進提卡服務器允許它生產的text / html和文本/ xml內容(TIKA-1126,TIKA-1127)。
  • 在改進了對壓縮機解析器作出處理需要的decompressConcatenated選項設置為true(TIKA-1096)g'zipped文件。
  • 在尋址一個從檢測的awk文件(TIKA-1081)。
  • 防止印刷錯誤
  • 在增加了一個新的端點,以Tika的JAX-RS REST服務器只檢測媒體類型的基礎上提交(TIKA-1047號)文件的一小部分。
  • RTF:有序和無序列表現在提取(TIKA-1062)
  • 在MP3:音頻持續時間現在提取(TIKA-991)
  • 在Java的.class文件:升級從ASM 3.1至4.1 ASM解析了Java字節碼(TIKA-1053)
  • 在Mime類型:定義擴大到包括可選鏈接(URL)以及UTI,以及細節幾種常見的格式(TIKA-1012 / TIKA-1083)
  • 在解析時,OLE10嵌入文檔,從Office文檔解析摘要信息的時候,並保存在TikaCLI嵌入式documennts時例外現在登錄而不是放棄提取(TIKA-1074)
  • 在MS Word中:行表格的性格,現在換成換行符(TIKA-1128)
  • 在XML:ElementMetadataHandlers現在可以選擇接受重複和空值(TIKA-1133)

要求

  • 在Java 2標準版運行環境

顯影劑的其他軟件 The Apache Software Foundation

Apache Hadoop
Apache Hadoop

18 Jul 15

Apache Hive
Apache Hive

19 Feb 15

Apache Mahout
Apache Mahout

19 Feb 15

意見 Apache Tika

評論沒有發現
添加評論
打開圖片!