`
ironpearl
  • 浏览: 4355 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【转】基于OAI-PMH的元数据搜索引擎的设计与实现

阅读更多

在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题。

对于中小型搜索引擎,最好使用开放源代码软件来实现。

一、实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软件:

(1)OAIHarvester:从支持元数据资源开放的DataProvider获取元数据资源。

(2) HTMLParser:用于解析HTML页面,并从中解析出可以有效获取与元数据对应的全文(fulltext)的url地址。

(3)Lucene:建立全文索引数据库 ,实现索引和检索。

(3)CJKAnalyzer:中文分词程序。

(4)PDFBox:用于处理PDF格式全文,可以轻易实现从PDF中提取文本、图片。

(5)tm-extracter:用于从PDF和Doc文件中提取文本。

二、设计和实现过程中需要解决的关键问题:

(1) 改进OAIHarvester,使之基于多线程下载。

(2)设计和实现简单的XMLParser。用于解析OAIHarvester的获取结果:xml文档。

(3)实现元数据对应的全文获取。需要解析html文档。

(4)各种格式文件(如:pdf、doc等)文件的索引问题。需要首先提取文本,然后对关键文本进行获取。

(5)元数据的语种识别。该问题还没有解决,如果有谁解决了该问题的话,请帮忙。据说TextCat(C语言实现)可以实现语种识别,但没找到源代码。如果谁有的话,希望能共享一下。

(6)检索界面的设计与实现。仿照cnki的界面来设计。


原文地址:http://blog.csdn.net/liuxun02/archive/2007/01/16/1484831.aspx

分享到:
评论

相关推荐

    Python库 | oarepo-oai-pmh-harvester-2.0.0a14.tar.gz

    - 构建学术搜索引擎,整合多源元数据,提供统一的检索入口。 - 自动化学术成果的监测和追踪,如新发表的论文、项目进展等。 - 数据仓库的初始化和更新,确保数据的最新状态。 - 数据分析和挖掘,如学者网络分析、...

    OAI协议应用指南

    实现OAI-PMH协议涉及多个步骤,包括定义元数据格式、设计集合结构、开发数据提供者组件、实现数据交互流、测试和注册等,以确保系统符合协议标准,能够稳定高效地运行。 #### 六、OAI-PMH与其它协议和规范的结合 ...

    ZMARCO Z39.50 MARC OAI Metadata Provider-开源

    ZMARCO作为OAI-PMH的数据提供者,使得任何支持OAI的收割器都可以轻松地获取和集成其发布的元数据,这对于构建分布式、跨机构的元数据搜索引擎和资源发现系统至关重要。 开源软件的特性使得ZMARCO具有高度的灵活性和...

    元数据与互操作 课件

    OAI-PMH允许资源提供者公开其元数据,以便其他系统可以自动收集和利用这些数据,这对于构建联合目录或实现大规模的学术资源搜索至关重要。 课程还提到了整合检索模式,包括集中式联合目录和分布式联合目录。集中式...

    Oaipmh Target Implementation:Oaipmh 目标实施-开源

    2. **Lucene索引存储**:元数据可以存储在Apache Lucene索引中,这是一种强大的全文搜索引擎库,提供了高效的搜索和分析功能。这使得用户能够快速查找和检索大量元数据记录。 3. **简单文件服务器存储**:除了...

    DSpace-Manual学习资料

    8. **索引与检索**:DSpace 内置的Solr 搜索引擎提供了快速、高效的全文和元数据检索功能,帮助用户找到所需内容。 9. **API 接口**:DSpace 提供 RESTful API,允许开发者集成外部系统或创建自定义插件,扩展其...

    Boaidp for Moodle-开源

    例如,教育机构可以通过这种方式将Moodle课程的元数据暴露给搜索引擎,提高课程的可见性和可发现性,或者与外部的学习资源库进行对接。 开源软件的特性使得Boaidp具有高度的透明度和可定制性。用户可以根据自己的...

    OJAX - Ajax powered metasearch service-开源

    总结起来,OJAX 是一个使用 Ajax 技术实现的开源元搜索引擎服务,它通过 OAI-PMH 从多源收集数据,并利用 Lucene 创建统一索引。其特点是拥有直观的用户界面和开放源代码的特性,允许用户和开发者进行定制和扩展。...

    计算机信息检索ppt教案讲义习题全部资料

    2. **信息检索系统**:讲述检索系统的类型,如全文搜索引擎、目录式搜索引擎和元搜索引擎的工作原理。 3. **查询处理**:包括查询分析、关键词匹配、布尔运算、短语查询等技术。 4. **索引构建**:讨论倒排索引的...

    CALIS数字图书馆资源统一检索系统与书附光盘数据库系统简介与利用.ppt

    4. 集成性:支持OAI-PMH、Z39.50等协议,兼容Dublin Core等元数据标准,确保不同来源的数据可无障碍整合。 5. 分布式架构:采用XML技术及WebService,保证系统的扩展性和灵活性,可以应对不断增长的数据量。 6. 异步...

    格劳宾登大学信息科学学院的库尔斯“图书馆资料和档案信息”库尔斯

    6. **元数据和互操作性**:通过OAI-PMH实现不同系统间的信息共享。 7. **编程和自动化**:通过Library Carpentry和Jupyter Notebook,培养编程和数据分析能力。 综合来看,这个课程资源包将全面覆盖图书馆和档案...

    DPubS-开源

    DPubS 设计灵活,可以与其他系统集成,如 Shibboleth 进行身份验证,或者通过 OAI-PMH 接口与其他数字库进行数据交换,以实现更广泛的数据共享。 总的来说,DPubS 是一个强大且灵活的开源数字出版工具,旨在促进...

    suprsukr-开源

    3. **OAI**:Open Archives Initiative提出了一种数据共享的标准,OAI-PMH(Protocol for Metadata Harvesting),使得数字资源的元数据能够被不同存储库检索和整合。 4. **微格式**:微格式是一种在HTML中嵌入结构...

Global site tag (gtag.js) - Google Analytics