`

[] 探索建立私人的科技资料检索系统

    博客分类:
  • java
阅读更多
     
   由于经济条件和物质基础的限制,私人在进行科研活动的时候,常常由于无法及时的查询到所需要的科技文献和资料而发愁,而由于大部分私人科技爱好者都并非正统科研体制内的人,无法从现行科研体制内获得相应的信息和技术支持,所以这些朋友们在从事私人科研活动的时候会受到很多限制,我们是否可以做一点什么来帮助大家呢?
 
   首先,由于互联网的发展,我们可以从互联网上面下载很多免费的扫描版电子书,很多,很多,各种类型的,所以建立私人的科技文献资料检索系统的第一步就是充分的,大量的从互联网上面下载和收集各种科技文章和科技资料
 
   其次,由于我们从互联网上面下载的各种资料的格式是千奇百怪的,有pdf,有dij,有各种格式的文档,所以第二步是把这些资料全部转换为txt或者doc格式的文件,以备下一步用开源软件对其建立内容信息索引,因为很多扫描版的pdf文件是无法被lucene这种开源软件所识别的,即使lucene可以识别pdf文件,也无法识别以图片格式存储的pdf文件的内容,所以这一步是必须的,谷歌的文献检索系统中好像有一种技术可以直接从图形pdf文件中查询出指定的文本内容,我们暂时没有这种技术,所以还是需要用笨办法--把pdf文件中的文档内容变成图片格式的文件,然后用ocr软件将其识别出来,保存为txt或者doc文件格式
 
   然后,我们用lucene-2.4或者更高的版本对这些txt或者doc格式的文件建立索引,这个过程网上有很多例子,请大家参考下。
 
   最后,我们把nutch网络搜索引擎和这个文献索引系统的索引进行合并,建立一个既可以从互联网上面检索信息,又可以从本地数据库中检索文档内容的多功能搜索引擎
 
   上面是建立这个系统的大概原理和过程,但是在实际中我们遇到了一些问题,最麻烦的是文献资料的内容很多,我私人收集了一些pdf电子书,要用手工的方式把这些pdf电子书全部转化为lucene可识别的txt或者doc文档,实在是太累了,手都弄酸了,要一页一页的虚拟打印成xps文件,然后用专门的软件把xps文件转换为jpg或者bmp图片,像素和大小还比较很合适,要不然ocr软件根本无法识别这些图片中的文字,这个还算好办,最麻烦的是,理工科电子书里面有很多数字和计算符号,公式和特殊的图形,这些东西ocr软件无法识别,最后要手工加入doc文件中。。。。
 
   所以,光靠自己的力量,要完成这个系统是比较费时间的,希望这篇博文能够给大家点帮助,我是私人使用,无任何商业上的用处,仅仅给大家提供一个思路,具体怎么做,还是要靠自己的努力
 
  当我初步完成这个系统的实验之后,我会在我的pc服务器上面给大家提供一个测试平台,嘿嘿,私人adsl做线路,估计并发数上不了10个,请多多包涵
 
 
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics