论坛首页 Java企业应用论坛

关于java解析pdf的问题探究

浏览 2171 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-03-01  

最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:

 


要解析出来的txt格式如下:

 


 

相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流!

pdf已经上传

  • 大小: 12.4 KB
  • 大小: 14.4 KB
   发表时间:2012-03-01  
补充一下,我现在用的是itext进行pdf文件的解析。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics