Apache Tika

Apache Tika是一个Java工具包用于利用现有的解析类库，从不同格式的文档中（例如HTML，PDF，Doc)，检测和提取出元数据和结构化内容。功能包括： 1.检测文档的类型，字符编码，语言，等其他现有文档的属性。2.提取结构化的文字内容。3.该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。目前支持的文档格式和对应的解析类库如下：　

文档格式	相应的解析类库
HTML	TagSoup
XML	自定义
微软的Office文档	Apache POI
OpenDocument format (ODF)	自定义
PDF	Apache PDFBox
EPUB	自定义
Rich Text Format (RTF)	自定义
压缩文件格式(如 ar, cpio, tar, zip, gzip, bzip2等）	Apache组织的Commons Compress
Txt	ICU
音频格式	主要采用Java的标准图像处理包javax.sound
图像格式	Java的标准图像处理包javax.imageio，以及 metadata-extractor软件包。
视频格式	目前只支持Flash格式。
Java类文件	自定义
邮件mbox文件格式	自定义

热门搜索

Apache Tika