浏览 2170 次
锁定老帖子 主题:关于java解析pdf的问题探究
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-03-01
最近有个项目要解析pdf,将pdf中的文本提取到txt文件中,PDF格式如下:
要解析出来的txt格式如下:
相当于把pdf中的空格替换为逗号(,),个人以为很简单,但是通过这两天的研究发现pdf超恶心的,是一种无规则的文档,解析很困难,有没有哪们大师做过这方面的东西,请求交流! pdf已经上传 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2012-03-01
补充一下,我现在用的是itext进行pdf文件的解析。
|
|
返回顶楼 | |