免費下載 Apache Tika 為 Linux ::: 軟件

Apache Tika

軟件截圖:

軟件詳細信息:

版本: 1.4

上傳日期: 20 Feb 15

開發: The Apache Software Foundation

許可: 免費

人氣: 6

下載

Currently nan/5
1
2
3
4
5

Rating: nan/5 (Total Votes: 0)

的Apache提卡是一個開源工具包旨在檢測並提取元數據，以及結構化的文本內容來自幾個文件，只用現有的解析器庫。
阿帕奇蒂卡支持以下文件格式：超文本標記語言（HTTP），XML和派生格式，微軟Office文檔格式，開放文檔格式（ODF），可移植文檔格式（PDF），電子出版物格式（EPF），富文本格式（RTF ），壓縮和封裝格式，文本/音頻/圖片/視頻格式的mbox格式，和Java類文件和檔案。
此前，阿帕奇提卡是在Apache Lucene的軟件庫的一個子項目。現在，它是分佈式作為一個獨立的包由Apache軟件基金會

什麼在此版本中是新的：

在刪除一個測試HTML文件，它（TIKA-1129）一個選擇不當的GPL文本。
在改進提卡服務器允許它生產的text / html和文本/ xml內容（TIKA-1126，TIKA-1127）。
在改進了對壓縮機解析器作出處理需要的decompressConcatenated選項設置為true（TIKA-1096）g'zipped文件。
在尋址一個從檢測的awk文件（TIKA-1081）。
在增加了一個新的端點，以Tika的JAX-RS REST服務器只檢測媒體類型的基礎上提交（TIKA-1047號）文件的一小部分。
RTF：有序和無序列表現在提取（TIKA-1062）
在MP3：音頻持續時間現在提取（TIKA-991）
在Java的.class文件：升級從ASM 3.1至4.1 ASM解析了Java字節碼（TIKA-1053）
在Mime類型：定義擴大到包括可選鏈接（URL）以及UTI，以及細節幾種常見的格式（TIKA-1012 / TIKA-1083）
在解析時，OLE10嵌入文檔，從Office文檔解析摘要信息的時候，並保存在TikaCLI嵌入式documennts時例外現在登錄而不是放棄提取（TIKA-1074）
在MS Word中：行表格的性格，現在換成換行符（TIKA-1128）
在XML：ElementMetadataHandlers現在可以選擇接受重複和空值（TIKA-1133）

要求：

在Java 2標準版運行環境

20 Feb 15

意見 Apache Tika

按類別搜索

Apache Tika

顯影劑的其他軟件 The Apache Software Foundation

Apache Hadoop

Apache OpenMeetings

Apache Hive

Apache Mahout

意見 Apache Tika

評論沒有發現

添加評論

按類別搜索

按類別搜索

熱門軟件

Kali Linux 22 Jun 18

DEFT 9 Mar 17

AirSnort 3 Jun 15

ChaletOS 17 Feb 15

Solus 2 Sep 17

Fedora Electronic Lab Live CD 17 Feb 15

Zuma Deluxe 20 Feb 15

Apache Tika

顯影劑的其他軟件 The Apache Software Foundation

Apache Hadoop

Apache OpenMeetings

Apache Hive

Apache Mahout

意見 Apache Tika

評論沒有發現

添加評論

按類別搜索

熱門軟件

Oracle Enterprise Linux 22 Jun 18

MultiSystem 17 Feb 15

Unity Linux 15 Apr 15

Midnight Commander 29 Nov 17

Xfburn 17 Feb 15

Wifislax 9 Aug 16

NAS4Free 2 Oct 17