Apache Tika
Apache Tika是一个Java工具包用于利用现有的解析类库,从不同格式的文档中(例如HTML,PDF,Doc),检测和提取出元数据和结构化内容。 功能包括: 1.检测文档的类型,字符编码,语言,等其他现有文档的属性。2.提取结构化的文字内容。3.该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。目前支持的文档格式和对应的解析类库如下:
文档格式 | 相应的解析类库 |
HTML | TagSoup |
XML | 自定义 |
微软的Office文档 | Apache POI |
OpenDocument format (ODF) | 自定义 |
Apache PDFBox | |
EPUB | 自定义 |
Rich Text Format (RTF) | 自定义 |
压缩文件格式(如 ar, cpio, tar, zip, gzip, bzip2等) | Apache组织的Commons Compress |
Txt | ICU |
音频格式 | 主要采用Java的标准图像处理包javax.sound |
图像格式 | Java的标准图像处理包javax.imageio, 以及 metadata-extractor软件包。 |
视频格式 | 目前只支持Flash格式。 |
Java类文件 | 自定义 |
邮件mbox文件格式 | 自定义 |