ITeye问答频道

票

回答

1374 浏览

Lucene如何索引巨大的PDF文件？[已解决]5

我想用Lucene对一个529G大小的PDF文件进行索引，开始使用Tika1.5，异常为： TIKA-198: Illegal IOException from org.apache.tika.parser.pdf.PDFParser@1455935 org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:248) org ...

2014年5月06日 14:41

carlwu
11
0 0 5

票

回答

352 浏览

pdfbox[已解决]25

各位好：我需要实现的功能如下：获取pdf文件中的图片，然后根据这个图片，获取图片上下两行的文本数据。目前可以提取，每一页的图片，和他的文本信息。但是无法定位到上下两行。有没有大虾做过的，或者给他建议。我找api 找了很久，但是由于英文很烂，pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面的方法。

PDF PDFBox

2013年7月23日 22:49

qiyang199132
3
0 0 3

我的问答 FAQ | 勋章

排行榜

查看全部排名>>

本周活跃投票用户

最新评论

才看到你的提问，这个依赖的google翻译服务不可用了，应该没法用了
oznyang 评论了关于oznyang发布的i18nTool工具的使用
问题解决了吗？有源码学习下吧
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
除了去掉字段的title，还能修改MyBatis的设置：<setting name="useColumnLabel" value="false" />，哥只能帮你到这了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
因为TD有title这个鬼东西，会导致查出来的全是中文字段名，去掉title就好了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
session ID就是登陆的KEY，所有持有session ID，一般不会串号，除非你作死，把session作为全局的类变量，或者静态变量来玩。作为局部变量的情况下，session id正确，就不可能串号。另外，如果是小程序、APP，特别要注意，登陆的之前，要有一个专属接口，去拿到session id，不要用登陆的接口持有session，这里很容易出现串号。很难理解吗？将APP和小程序视为浏览器的登陆过程，就很好理解了。浏览器登陆，首先是打开登陆页面，这个时候，session id就产生了，而不是登陆的接口产生的。我们团队x-teamer刚解决这个问题，所以分享一下可以加我VX， 26762685
26762685 评论了 SOS!session串号现象
请教下，java监听打印机状态是如何解决的？
elbert 评论了 Java怎么实现打印机监控
能用字符串拼接解决的优先用字符串拼接解决。比如time=2359转成时间, 用字符串拼接time/60+":"+time%60我笔记本耗时0ms, String.format("%02d:%02d", time/60, time%60) 耗时43ms. 具体情况具体分析
sandy8508 评论了 Java String.format性能如何
去除 return；
feng_tai_jun 评论了 JSP里加return就会无法编译说Unreachable code
这么久了，问题有结果了吗，也是遇到此问题（因为pdfbox加载的内容与原文不一致才想修改实现方式）查了一下aspose这个插件，功能很多，示例太少，没找到怎么指定打印机及纸张大小
xiaojunjava 评论了 JAVA 连接打印机打印作业属性设置无效果问题
jdk有两个jar替换一下
xiaominzi 评论了 java.security.InvalidAlgorithmParameterException: Prime size must be multiple

Lucene如何索引巨大的PDF文件？[已解决]5

pdfbox[已解决]25

问答分类

移动开发技术

Web前端技术

Java企业应用

编程语言技术

综合技术

入门技术

招聘求职

海阔天空

最新问题

排行榜

本周活跃投票用户

最新评论