- 浏览: 4371 次
- 性别:
- 来自: 北京
最新评论
文章列表
OAI-PMH: Open Archives Initiative Protocol for Metadata Harvesting
协议规范官网:http://www.openarchives.org/OAI/openarchivesprotocol.html
在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题。
对于中小型搜索引擎,最好使用开放源代码软件来实现。
一、实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软件:
(1)OAIHarvester:从支持元数据资源开放的DataProvider获取元数据资源。
(2) HTMLParser:用于解析HTML页面,并从中解析出可以有效获取与元数据对应的全文(fulltext)的url地址。
(3)Lucene:建立全文索引数据库 ,实现索引和检索。
(3)CJKAnalyzer:中文分词程序。
(4)PDFBox:用于处理PDF格式全文,可以轻 ...