的Apache提卡是一個開源工具包旨在檢測並提取元數據,以及結構化的文本內容來自幾個文件,只用現有的解析器庫。
阿帕奇蒂卡支持以下文件格式:超文本標記語言(HTTP),XML和派生格式,微軟Office文檔格式,開放文檔格式(ODF),可移植文檔格式(PDF),電子出版物格式(EPF),富文本格式(RTF ),壓縮和封裝格式,文本/音頻/圖片/視頻格式的mbox格式,和Java類文件和檔案。
此前,阿帕奇提卡是在Apache Lucene的軟件庫的一個子項目。現在,它是分佈式作為一個獨立的包由Apache軟件基金會
什麼在此版本中是新的:
- 在刪除一個測試HTML文件,它(TIKA-1129)一個選擇不當的GPL文本。
- 在改進提卡服務器允許它生產的text / html和文本/ xml內容(TIKA-1126,TIKA-1127)。
- 在改進了對壓縮機解析器作出處理需要的decompressConcatenated選項設置為true(TIKA-1096)g'zipped文件。
- 在尋址一個從檢測的awk文件(TIKA-1081)。 防止印刷錯誤
- 在增加了一個新的端點,以Tika的JAX-RS REST服務器只檢測媒體類型的基礎上提交(TIKA-1047號)文件的一小部分。
- RTF:有序和無序列表現在提取(TIKA-1062)
- 在MP3:音頻持續時間現在提取(TIKA-991)
- 在Java的.class文件:升級從ASM 3.1至4.1 ASM解析了Java字節碼(TIKA-1053)
- 在Mime類型:定義擴大到包括可選鏈接(URL)以及UTI,以及細節幾種常見的格式(TIKA-1012 / TIKA-1083)
- 在解析時,OLE10嵌入文檔,從Office文檔解析摘要信息的時候,並保存在TikaCLI嵌入式documennts時例外現在登錄而不是放棄提取(TIKA-1074)
- 在MS Word中:行表格的性格,現在換成換行符(TIKA-1128)
- 在XML:ElementMetadataHandlers現在可以選擇接受重複和空值(TIKA-1133) 。
要求:
- 在Java 2標準版運行環境
評論沒有發現