Apache Tika 1.4

的Apache提卡是一個開源工具包旨在檢測並提取元數據,以及結構化的文本內容來自幾個文件,只用現有的解析器庫。阿帕奇蒂卡支持以下文件格式:超文本標記語言(HTTP),XML和派生格式,微軟Office文檔格式,開放文檔格式(ODF),可移植文檔格式(PDF),電子出版物格式(EPF),​​富文本格式(RTF ),壓縮和封裝格式,文本/音頻/圖片/視頻格式的mbox格式,和Java類文件和檔案。此前,阿帕奇提卡是在Apache...