论坛首页 Java企业应用论坛

Word/Excel/PDF文件转换成HTML整理

浏览 88444 次
该帖已经被评为良好帖
作者 正文
   发表时间:2009-08-05  
我直接在cmd中运行pdftohtml,都不通过,以下是我的执行过程

当我用pdftotext
E:\xpdf>pdftotext -f 1 -l 3 -layout  -enc GBK 森林碳汇市场发展现状及前景展望.pdf ztest.txt
生成文件成功,未出现任何异常,txt内容正常

然而用pdftohtml
E:\xpdf>pdftohtml -f 1 -l 3 -c -enc GBK 森林碳汇市场发展现状及前景展望.pdf  ztest.html
系统提示:pdftohtml.ext遇到问题需要关闭。我们对此引起的不便表示抱歉......
目录生成了文件如下:
ztest-1.html
ztest.html
ztest_ind.html

但是里面仅有一个大框,而且内容为空,而且这个文档有3页面,说明执行了一半就报错了,我更换了UTF-8也一样报错
这个文档的字体是:楷体_GB2312   宋体,
我又测试了一些其他的pdf,发现五个报错,而这五个都是这种字体!所以我怀疑pdftothml存在bug

其他字体,测试了大约20个左右,未发现问题。
0 请登录后投票
   发表时间:2009-08-12  
请问楼主,excelToHtml转xls之后完全是乱码,不知道怎么解决
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics