[] 探索建立私人的科技资料检索系统

tomfish88

浏览: 1173880 次
性别:
来自: nibiru

最近访客更多访客>>

kayok

Miss_understand

fengyangwudi

xiaoyuer9953

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

java 工作

   由于经济条件和物质基础的限制，私人在进行科研活动的时候，常常由于无法及时的查询到所需要的科技文献和资料而发愁，而由于大部分私人科技爱好者都并非正统科研体制内的人，无法从现行科研体制内获得相应的信息和技术支持，所以这些朋友们在从事私人科研活动的时候会受到很多限制，我们是否可以做一点什么来帮助大家呢？

   首先，由于互联网的发展，我们可以从互联网上面下载很多免费的扫描版电子书，很多，很多，各种类型的，所以建立私人的科技文献资料检索系统的第一步就是充分的，大量的从互联网上面下载和收集各种科技文章和科技资料

   其次，由于我们从互联网上面下载的各种资料的格式是千奇百怪的，有pdf,有dij，有各种格式的文档，所以第二步是把这些资料全部转换为txt或者doc格式的文件，以备下一步用开源软件对其建立内容信息索引，因为很多扫描版的pdf文件是无法被lucene这种开源软件所识别的，即使lucene可以识别pdf文件，也无法识别以图片格式存储的pdf文件的内容，所以这一步是必须的，谷歌的文献检索系统中好像有一种技术可以直接从图形pdf文件中查询出指定的文本内容，我们暂时没有这种技术，所以还是需要用笨办法--把pdf文件中的文档内容变成图片格式的文件，然后用ocr软件将其识别出来，保存为txt或者doc文件格式

   然后，我们用lucene-2.4或者更高的版本对这些txt或者doc格式的文件建立索引，这个过程网上有很多例子，请大家参考下。

   最后，我们把nutch网络搜索引擎和这个文献索引系统的索引进行合并，建立一个既可以从互联网上面检索信息，又可以从本地数据库中检索文档内容的多功能搜索引擎

   上面是建立这个系统的大概原理和过程，但是在实际中我们遇到了一些问题，最麻烦的是文献资料的内容很多，我私人收集了一些pdf电子书，要用手工的方式把这些pdf电子书全部转化为lucene可识别的txt或者doc文档，实在是太累了，手都弄酸了，要一页一页的虚拟打印成xps文件，然后用专门的软件把xps文件转换为jpg或者bmp图片，像素和大小还比较很合适，要不然ocr软件根本无法识别这些图片中的文字，这个还算好办，最麻烦的是，理工科电子书里面有很多数字和计算符号，公式和特殊的图形，这些东西ocr软件无法识别，最后要手工加入doc文件中。。。。

   所以，光靠自己的力量，要完成这个系统是比较费时间的，希望这篇博文能够给大家点帮助，我是私人使用，无任何商业上的用处，仅仅给大家提供一个思路，具体怎么做，还是要靠自己的努力

当我初步完成这个系统的实验之后，我会在我的pc服务器上面给大家提供一个测试平台，嘿嘿，私人adsl做线路，估计并发数上不了10个，请多多包涵

0
顶

0
踩

分享到：

Rational.Rose7.0系统软件 | 一、Java字节代码的操纵

2011-08-23 10:42
浏览 1365
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论