PHP的PDF解析库:PdfParser
PdfParser 是一个标准的 PHP 库提供个用于从 PDF 文件中抽取数据的工具。它加载 PDF 文件并解析文件中对象、头和元数据,可抽取其中的文本信息,支持压缩的 PDF、MAC OS 罗马字符集编码、8进制和16进制编码。兼容 PSR-0 和 PSR-1。功能包括:
- Load/parse objects and headers
- Extract meta data (author, description, ...)
- Extract text from ordered pages
- Support of compressed pdf
- Support of MAC OS Roman charset encoding
- Handling of hexa and octal encoding in text sections
- PSR-0 compliant (autoloader)
- PSR-1 compliant (code styling)
示例代码:
$document = \Smalot\PdfParser\Document::parseFile('document.pdf'); $pages = $document->getPages(); $text = $pages[1]->getText();
本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!