| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
fefef123
10年前发布

.NET下读取PDF文本总结

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。

1、下载PDFBox

下载地址:http://sourceforge.net/projects/pdfbox/

2、引用动态链接库

解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
using org.pdfbox.pdmodel;
using org.pdfbox.util;

3、API的使用方法看代码:

    using org.pdfbox.pdmodel;        using org.pdfbox.util;        public void pdf2txt(FileInfo file,FileInfo txtfile)        {                PDDocument doc = PDDocument.load(file.FullName);                PDFTextStripper pdfStripper = new PDFTextStripper();                string text = pdfStripper.getText(doc);                StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));                swPdfChange.Write(text);                swPdfChange.Close();        }  


iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:

1、下载iTextSharp

下载地址:http://sourceforge.net/projects/itextsharp/

2、引用动态链接库

解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
在文件中需要引入以下3个命名空间:
using iTextSharp;
using iTextSharp.text;
using iTextSharp.text.pdf;

3、API的使用方法看代码:

    private string OnCreated(string filepath)        {            try            {                string pdffilename = filepath;                PdfReader pdfReader = new PdfReader(pdffilename);                int numberOfPages = pdfReader.NumberOfPages;                string text = string.Empty;                        for (int i = 1; i <= numberOfPages; ++i)                {                    byte[] bufferOfPageContent = pdfReader.GetPageContent(i);                    text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);                }                pdfReader.Close();                        return text;            }            catch (Exception ex)            {                StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");                wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());                wlog.Flush();                wlog.Close();return null;            }                }  


 本文由用户 fefef123 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1420012285796.html
.NET PDF PDF工具包