`
coderplay
  • 浏览: 578049 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

关于分布式lucene

阅读更多

有NFS, haproxy/lvs等解决方案。

或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统

 

为什么不用hadoop的HDFS?

原因有三:

1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。

2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。

3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。

 

另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架构的认识。

 

基本设计

 

占个位先

分享到:
评论
2 楼 27g 2011-10-18  
关于Hadoop的src\contrib\index的问题想请教您一下,已经给您发了短消息,而且微博也关注了您并留言,希望您能帮帮我。qq:984419213
1 楼 beijing.josh 2008-10-30  
分布式lucene一般的话都在reduce时调用localFS写完index后copy到HDFS。实例看Hadoop的src\contrib\index。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。
可以把一个索引打成一个压缩包存储在HDFS中。
搜索节点从HDFS拷贝压缩包到本地目录,解压到一个目录后launch搜索服务。
另有个项目katta是做分布式搜索的,可去katta.sourceforge.net看看。

没有开放注册用户发文章的权限是因为怕有人乱发文章,如果你需要我可以给你开一个。
forum和wiki正在整合中,不久将开放。

感谢关注。

马士华

相关推荐

    基于文本聚类与分布式Lucene的知识检索.pdf

    随着信息技术的迅速发展,非结构化知识呈现爆炸性增长,...在未来的应用中,这种基于文本聚类与分布式Lucene的知识检索技术,有望在大数据环境下得到更广泛的应用,为非结构化知识的管理和检索提供更加高效的技术支持。

    基于lucene和nutch的开源搜索引擎资料集合

    JAVA_Lucene_in_Action教程完整版.doc Java开源搜索引擎.doc Linux下Nutch分布式配置和使用.pdf Lucene+Nutch源码.rar Lucene学习笔记.doc nutch_tutorial.pdf nutch二次开发总结.txt nutch入门.pdf nutch入门学习....

    基于Lucene的分布式并行索引.pdf

    分布式并行索引技术基于Lucene是在搜索引擎领域中的一项重要进步。随着网络技术的不断进步,互联网资源日益丰富,搜索引擎在信息检索中扮演着越来越重要的角色。搜索引擎的高效运作依赖于其核心组件——索引技术。一...

    lucene排序、设置权重、优化、分布式搜索.pdf

    Lucene 排序、设置权重、优化、分布式搜索 Lucene 是一个高性能的搜索引擎库,它提供了强大的文本搜索和索引能力。下面我们将详细介绍 Lucene 的排序、设置权重、优化和分布式搜索等知识点。 一、Lucene 排序 ...

    基于文本聚类与分布式Lucene的知识检索 (2013年)

    针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索...实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。

    基于Lucene的分布式搜索设计说明书

    **基于 Lucene 的分布式搜索设计说明书** 在当前的互联网环境中,海量数据的处理与检索成为了一个重要的挑战。Apache Lucene 是一个高性能、全文本搜索库,它为开发人员提供了强大的文本搜索功能。然而,单个 ...

    Lucene资料大全(包括Lucene_in_Action书等)

    这是一本广泛认可的关于Apache Lucene的权威指南,通常被简称为LIA,它深入介绍了Lucene搜索引擎库的使用和实现。 描述中的"Lucene资料大全"暗示了这个压缩包可能包含了除书籍之外的其他学习材料,比如教程、PPT或...

    分布式搜索引擎Elasticsearch开发实战基础篇 (ElasticSearch、ELK、搜索引擎、Lucene).rar

    分享一套完整版视频课程——分布式搜索引擎Elasticsearch开发实战基础篇 (ElasticSearch、ELK、搜索引擎、Lucene),本教程旨在带领大家进入搜索引擎领域,从无到有,深入浅出的讲解了什么是搜索引擎,搜索引擎的...

    lucene-4.7.0全套jar包

    【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。...此外,对于大型应用,可能还需要结合Solr或Elasticsearch这样的分布式搜索服务来提升搜索性能和可扩展性。

    lucene in action源码

    《Lucene in Action》是关于Apache Lucene的权威指南,这本书深入浅出地介绍了全文搜索引擎的构建和优化。源码的提供使得读者可以更直观地理解Lucene的工作原理,这对于学习和开发基于Lucene的搜索应用非常有帮助。...

    lucene的jar包,欢迎下载

    8. **分布式搜索**:随着数据量的增长,Lucene可以通过Solr或Elasticsearch等扩展,实现分布式搜索,提高性能和容错能力。 9. **社区与版本**:Lucene历经多个版本的迭代,目前最新的稳定版已经发展到8.x,拥有强大...

    Lucene的原理完整版pdf

    6. **多线程和分布式**:Lucene支持多线程索引和搜索,通过Solr或Elasticsearch等工具,还可以实现分布式搜索。 7. **倒排索引**:Lucene的核心是倒排索引,它允许快速定位含有特定术语的文档,极大提高了搜索效率...

    Java搜索引擎 Lucene

    6. **高可用性**:Lucene可以与其他Java项目无缝集成,支持多线程和分布式环境。 使用Lucene的基本步骤包括: 1. **创建索引**:首先,需要将要搜索的数据(如文件内容)读取并分词,然后使用Lucene API创建索引。 ...

    Annotated Lucene 中文版 Lucene源码剖析

    在实际应用中,Lucene通常与其他框架或库结合使用,例如Solr和Elasticsearch,它们提供了更高级的服务,如分布式搜索、集群管理和RESTful API。通过阅读《Annotated Lucene 中文版 Lucene源码剖析》,读者不仅能掌握...

    云计算中的分布式文件系统.pdf

    Google的分布式技术是云计算领域的一个重要里程碑,尤其是其发表的关于GFS、MapReduce和BigTable的三篇论文,为业界提供了一个分布式存储和计算的基本蓝图。GFS(Google File System)是一个可伸缩的分布式文件系统...

    Lucene全文检索引擎

    除了基本的搜索功能,Lucene还有许多扩展和周边工具,例如Solr和Elasticsearch,它们为Lucene提供了一个更易于部署和管理的服务器环境,支持分布式搜索和更高级的特性,如自动完成、地理位置搜索等。 **四、学习...

    lucene_demo例子

    《Lucene实战(第2版) PDF高清中文版.pdf》这本书是关于Apache Lucene的一本经典教程,适合初学者入门。Lucene是一个全文搜索引擎库,它提供了强大的文本搜索功能,被广泛应用于各种信息检索系统中。这本书详细介绍了...

Global site tag (gtag.js) - Google Analytics