`
清风
  • 浏览: 30747 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

solr+lucene+hfs心得(1)

阅读更多
这几天一直在捣鼓solr,lucene,hdfs这几个东西,在此记录几个关键点

1.solr
是一个很好的中间系统,他把lucene很好的进行了包装,几乎各个部分都可以进行自己的扩展。我们会用到的部分:


    自定义数据源格式,并添加索引
    将原始文件和索引添加到hfs
    目前搜索的部分已经够用
    Cache
    Rpc式的搜索


我们要用到的一些特性solr都提供了,而且很容易扩展

2.lucene
强大的索引功能,但不得不说其索引文件不支持直接写入hdfs,不得不说是一个挺麻烦的部分,查阅了很多文档,对于分布式文件系统,例如nfs,lucene的索引并不能直接写在文件系统上,需要先写到本地文件系统,然后在cp到分布式文件系统,详情可以见nutch的indexer部分的源代码

3.hdfs
这次对于分布式计算的部分可能不会接触太多,主要是使用hdfs的部分,用来冗余存放索引文件,原始文件等信息。看nutch的源代码中,发现其索引保存部分利用了map/reduce的方式。
分享到:
评论

相关推荐

    solr+spring+hibernate+maven+webservice整合框架

    Solr+Spring+Hibernate+Maven+WebService整合框架是一个常见的企业级应用开发模式,它将搜索引擎Solr、持久层框架Hibernate、服务层框架Spring、构建工具Maven以及Web服务接口结合在一起,提供了一种高效、灵活的...

    solr+IK分词集成tomcat实现电商项目的全文检索

    压缩包内含有solr+ik如何配置的详细介绍以及solr+ik的包,省去了自己去找地址下载的麻烦,经测试使用完全可以在电商电商项目中实现全文检索

    solr+tomcat处理后的简易部署+说明文档(下)

    Solr是Apache软件基金会的一个开源项目,基于Lucene库,提供了一个分布式、可扩展、高性能的搜索和分析引擎。它支持多种数据源,可以对文本、数值、地理位置等多种类型的数据进行快速检索。 接下来,我们关注Tomcat...

    solr+tomcat项目

    Solr+Tomcat项目整合是将Apache Solr搜索引擎与Apache Tomcat应用服务器结合使用的过程,以便在Web环境中部署和运行Solr服务。Solr是一个基于Lucene的全文搜索服务器,而Tomcat则是一个轻量级Java应用服务器,常用于...

    solr+hbase

    综上所述,"solr+hbase" 的组合为大数据环境提供了强大的实时搜索和分析能力。在实际应用中,这通常涉及到 Solr 的配置、索引建立、HBase 的表设计以及两者的交互逻辑等技术细节。通过学习和掌握这些知识,开发者...

    solr+IK分词集成tomcat实现全文检索

    Solr+IK分词集成Tomcat实现全文检索是构建高效搜索引擎的关键步骤,尤其在电子商务等大量数据检索场景中,这一技术的应用尤为重要。本教程将详细阐述如何通过Solr结合IK分词器,在Tomcat服务器上搭建一个功能完备的...

    solr+IKAnalyzer部署

    NULL 博文链接:https://lpyyn.iteye.com/blog/2074539

    1-7+HBase+for+Solr+介绍.zip

    标题中的“1-7+HBase+for+Solr+介绍”表明这是一份关于将HBase与Solr集成使用的教程或文档集,主要涵盖了从第1到第7部分的内容。HBase是一款开源的分布式列式数据库,常用于处理大规模数据,而Solr则是一款强大的...

    Nutch+solr + hadoop相关框架搭建教程

    总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...

    Solr+Tomca开发

    Solr+Tomca开发配置及步骤详解

    Apache+Solr+Reference+Guide 2018.pdf

    It does not assume that you are a Java programmer, although knowledge of Java is helpful when working directly with Lucene or when developing custom extensions to a Lucene/Solr installation.

    Solr+Paodng中文搜索引擎__Demo

    Solr+Paoding中文搜索引擎Demo是一个综合性的项目,旨在展示如何结合Apache Solr与Paoding中文分词器来构建一个高效、精准的中文搜索引擎。Apache Solr是一个流行的开源全文搜索服务器,而Paoding中文分词器是专为...

    Dubbo+Solr+RabbitMQ实现Solr数据同步 DataSyncParent.zip

    本项目“Dubbo+Solr+RabbitMQ实现Solr数据同步”结合了三个核心组件,以构建一个可靠的分布式数据同步解决方案。以下是关于这些技术的详细解释: **Dubbo** Dubbo是一款高性能、轻量级的Java开源远程服务调用框架,...

    Ajax+Lucene (H).rar

    1. **异步交互**:Ajax的核心特性,允许在不重新加载整个页面的情况下,只更新部分页面内容。这减少了用户等待时间,提高了应用的响应速度。 2. **XMLHttpRequest对象**:Ajax的核心组件,用于在后台与服务器进行...

    paoding-webx3-solr-lucene

    《剖析paoding-webx3-solr-lucene:构建高效搜索引擎的深度探索》 在现代互联网应用中,数据量的增长速度惊人,如何高效地搜索和处理这些数据成为了开发者面临的重大挑战。"paoding-webx3-solr-lucene"是一个专注于...

    SSM+spring-data-solr+solr7.7 全文搜索代码

    4. **Solr**:Apache Solr是一款基于Lucene的全文搜索引擎服务器,它提供了高性能、可扩展的搜索和分析服务。Solr 7.7版本引入了更多的优化和特性,如支持更丰富的查询语法、更快的索引构建速度以及增强的分析功能。...

    solr+IK Analyzer

    Solr是一个开源的搜索服务器,由Apache Lucene项目提供支持,它允许开发者构建和维护高度可扩展的、高性能的搜索应用。而IK Analyzer是一款针对中文的开源分词器,特别适合于搜索引擎和文本分析场景。 首先,让我们...

Global site tag (gtag.js) - Google Analytics