| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
jopen
11年前发布

多种文档的文本抽取工具:DocToText

多种文档的文本抽取工具:DocToText

SILVERCODERS DocToText是一个强大的开源免费工具,用于抽取多种文档格式中的文本内容。它包含一个控制台应用和C/C++工具包, 允许嵌入到其他应用程序中实现文本提取功能。

它支持的文档格式包括:
MS Word (DOC), MS Excel (XLS, XLSB), MS PowerPoint (PPT), Rich Text Format (RTF), OpenDocument (also known as ODF and ISO/IEC 26300, full name: OASIS Open Document Format for Office Applications): text documents (ODT), spreadsheets (ODS), presentations (ODP), graphics (ODG), Office Open XML (ISO/IEC 29500, also called OOXML, OpenXML or MSOOXML) documents: MS Word (DOCX), MS Excel (XLSX), MS PowerPoint (PPTX), iWork formats (PAGES, NUMBERS, KEYNOTE), OpenDocument Flat XML formats (FODP, FODS, FODT), Portable Document Format (PDF), Email files (EML) and HyperText Markup Language (HTML)。

提取的文本可用于搜索,索引,归档等。

DocToText不仅可以从文档中抽取文本内容,还可以提供嵌在odt, doc, docx 或 rtf文件中的注释,读取元数据如作者,最后修改时间和页数。

项目主页:http://www.open-open.com/lib/view/home/1389147082562

 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1389147082562.html
DocToText Office文档处理