java操作PDF(PDFBOX和Itext框架)
java有很多可以操作pdf的框架,pdfbox和itext就是其中的两种
pdfbox有如下作用
提取文本,包括Unicode字符。
和Jakarta Lucene等文本搜索引擎的整合过程十分简单。
加密/解密PDF文档。
从PDF和XFDF格式中导入或导出表单数据。
向已有PDF文档中追加内容。
将一个PDF文档切分为多个文档。
覆盖PDF文档。
下面是一个使用pdfbox的测试程序
public class PdfBoxTest { public void getText(String file) throws Exception{ //是否排序 boolean sort = false; //pdf文件名 String pdfFile = file; //输入文本文件名称 String textFile = null; //编码方式 String encoding = "UTF-8"; //开始提取页数 int startPage = 1; //结束提取页数 int endPage = Integer.MAX_VALUE; //文件输入流,输入文本文件 Writer output = null; //内存中存储的PDF Document PDDocument document = null; try{ try{ //首先当作一个URL来加载文件,如果得到异常再从本地系统装载文件 URL url = new URL(pdfFile); document = PDDocument.load(url); String fileName = url.getFile(); if(fileName.length() > 4){ //以原来pdf名称来命名新产生的txt文件 File outputFile = new File(fileName.substring(0, fileName.length()-4) + ".txt"); textFile = outputFile.getName(); } }catch(Exception e){ //如果作为URL装载得到异常则从文件系统装载 document = PDDocument.load(pdfFile); if(pdfFile.length() > 4){ textFile = pdfFile.substring(0, pdfFile.length() - 4) + ".txt"; } } //文件输出流,写入文件到textFile output = new OutputStreamWriter(new FileOutputStream(textFile),encoding); //PDFTextStripper来提取文本 PDFTextStripper stripper = new PDFTextStripper(); //设置是否排序 stripper.setSortByPosition(sort); //设置起始页 stripper.setStartPage(startPage); //设置结束页 stripper.setEndPage(endPage); //调用PDFTextStripper的writeText提取并输出文本 stripper.writeText(document, output); }finally{ if(output != null){ output.close(); } if(document != null){ document.close(); } } } /** *//** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub PdfBoxTest test = new PdfBoxTest(); try{ test.getText("E://test.pdf"); }catch(Exception e){ e.printStackTrace(); } } }iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。
下面是一个使用itext生成pdf的例子
public class ITextTest { public static void main(String args[]){ writePdf(); } public static void writePdf(){ Document document = new Document(); try { PdfWriter.getInstance(document, new FileOutputStream("Helloworld.pdf")); } catch (DocumentException e) { e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates. } catch (FileNotFoundException e) { e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates. } document.open(); try { document.add(new Paragraph("Hello World")); } catch (DocumentException e) { e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates. } document.close(); } }
默认的iText字体设置不支持中文字体,需要下载远东字体包iTextAsian.jar,否则不能往PDF文档中输出中文字体。通过下面的代码就可以在文档中使用中文了:
BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", BaseFont.NOT_EMBEDDED);
com.lowagie.text.Font FontChinese = new com.lowagie.text.Font(bfChinese, 12, com.lowagie.text.Font.NORMAL);
Paragraph pragraph=new Paragraph("你好", FontChinese);
参考文档:http://yuleihome.iteye.com/blog/181348
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html
http://gohands.iteye.com/blog/160534
总结一下,本文采用pdfbox和itext分别演示了如何读取pdf和生成pdf的简单方法。