将 Word 文档转换为 HTML 的Java工具类
第一:下载必备工具OpenOffice.org 3.2 (zh-CN) Installation Files 使用此工具 主要是 使用 其内部服务。
如果想要 以工具形式 转换, 此8100服务必须 的开啦,要不 不能转换的啦。
第二:下载 jodconverter-2.2.2.zip 包, 该包中的 lib 包下的 jar 包 都是 为 转换准备的。
第三:下载了 不用是不对i地,默认 安装 OpenOffice.org 3.2 程序, 有的个别 杀毒软件 回报一些 警告型阻止 提示 , 直接 给 添加 到信任服务即可。
第四:安装完毕之后呢, 当然 是要 开启 服务了, 安装 OpenOffice.org 3.2 的 目的 就是 为了 使用 其中的 8100 服务地,
打开 运行文本框中 输入 cmd 进入 命令窗口, 进入到 你的 默认安装路径
【提示一下,一般都会在C:\Program Files\OpenOffice.org 3\program这个路径下,
但是 64位系统中会在 C:\Program Files(x86)\OpenOffice.org 3\program 的这个路径下 ,
其区别 就是 多了一个 (x86),我自己用的 是 64位的Win7系统,后来发现安装好多软件
都不兼容,郁闷的不得了,现在用的是公司配了 32位的Win7系统。】
依次使用如下两条命令即可:
命令1:cd C:\Program Files\OpenOffice.org 3\program
命令2:soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard
执行玩 这两条命令之后 , 8100 服务就会 被打开了 , 你也可以 使用 netstat -an 这个 命令 查看 8100 端口 是否 真的 被打开了。
打开 MyEclipse6.5 , 开发到现在 几乎 MyEclipse这些 版本 差不多 都用过了, 但是后期 还是 觉得 这个 6.5 比较好用,
8.5之后 机器 卡的的不行, 配置 好的机器还可以,配置 稍微 差点的 , 你跑起来 就是到有多么的杯具了。
呃~~~~~好似 又脱离正题了,我们继续哈.... 在其中建立一个公共类:名为WordToHtml.java 代码共享如下 :package com.stars.windpowersystem.util; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.net.ConnectException; import java.util.Date; import java.util.regex.Matcher; import java.util.regex.Pattern; import com.artofsolving.jodconverter.DocumentConverter; import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection; import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection; import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter; /** * 描述: TODO 将Word文档转换成html字符串的工具类 * * @类名称: WordToHtml * @作者: 宋延军 * @邮箱: songyanjun_stars@126.com * @日期: Feb 9, 2012 10:07:21 AM */ public class WordToHtml { /** * 描述: TODO 调用测试 * @标题: main * @设定: @param args * @返回类型: void */ public static void main(String[] args) { Long time1 = System.currentTimeMillis(); Long time2 = System.currentTimeMillis(); System.out.println( toHtmlString(new File("C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/风电可靠性管理信息系统需求分析文档V5.0(最新).doc"), "C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/tempDir")); System.out.println("执行效率为:"+(time2-time1)); } /** * 将word文档转换成html文档 * * @param docFile 需要转换的word文档 * @param filepath 转换之后html的存放路径 * @return 转换之后的html文件 */ public static File convert(File docFile, String filepath) { // 创建保存html的文件 File htmlFile = new File(filepath + "/" + new Date().getTime()+ ".html"); // 创建Openoffice连接 OpenOfficeConnection con = new SocketOpenOfficeConnection(8100); try { // 连接 con.connect(); } catch (ConnectException e) { System.out.println("获取OpenOffice连接失败..."); e.printStackTrace(); } // 创建转换器 DocumentConverter converter = new OpenOfficeDocumentConverter(con); // 转换文档问html converter.convert(docFile, htmlFile); // 关闭openoffice连接 con.disconnect(); return htmlFile; } /** * 将word转换成html文件,并且获取html文件代码。 * * @param docFile 需要转换的文档 * @param filepath 文档中图片的保存位置 * @return 转换成功的html代码 */ public static String toHtmlString(File docFile, String filepath) { // 转换word文档 File htmlFile = convert(docFile, filepath); // 获取html文件流 StringBuffer htmlSb = new StringBuffer(); try { BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(htmlFile))); while (br.ready()) { htmlSb.append(br.readLine()); } br.close(); // 删除临时文件 htmlFile.delete(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } // HTML文件字符串 String htmlStr = htmlSb.toString(); // 返回经过清洁的html文本 return clearFormat(htmlStr, filepath); } /** * 清除一些不需要的html标记 * * @param htmlStr 带有复杂html标记的html语句 * @return 去除了不需要html标记的语句 */ protected static String clearFormat(String htmlStr, String docImgPath) { // 获取body内容的正则 String bodyReg = "<BODY .*</BODY>"; Pattern bodyPattern = Pattern.compile(bodyReg); Matcher bodyMatcher = bodyPattern.matcher(htmlStr); if (bodyMatcher.find()) { // 获取BODY内容,并转化BODY标签为DIV htmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV").replaceAll("</BODY>", "</DIV>"); } // 调整图片地址 htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath + "/"); // 把<P></P>转换成</div></div>保留样式 // content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)", // "<div$2</div>"); // 把<P></P>转换成</div></div>并删除样式 htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>"); // 删除不需要的标签 htmlStr = htmlStr .replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", ""); // 删除不需要的属性 htmlStr = htmlStr .replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>"); return htmlStr; } }
来自:http://blog.csdn.net/songyanjun2011/article/details/7244767