1、SOLR4.2集成NUTCH1.6
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件
修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/>
2、给SOLR4.2配置中文分词器word分词
参考https://github.com/ysc/word的Solr插件部分
3、运行SOLR4.2
启动SOLR4.2服务器: java -jar start.jar &
SOLR4.2 Web界面: http://host2:8983
4、运行NUTCH提交索引
运行solrindex命令:
bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments
相关推荐
- **Lucene和Solr**:Nutch的索引生成和搜索功能依赖于Apache Lucene和Solr,学习这两者的使用和API是必要的。 - **XML配置与XML Schema**:了解如何解读和修改Nutch的配置文件,理解`nutch-site.xml`的结构和作用。...
5. **生成索引**:使用`bin/nutch index`命令将解析后的数据导入到搜索引擎,如Solr或Elasticsearch,以便后续查询。 6. **监控与优化**:通过查看日志和统计信息,监控爬取进度和效果,调整配置以优化性能。 学习...
自从lucene和solr推出4.0版本后 ik分词的调用接口已经不适用了,虽说ik最新ff版适用于solr4.0 但是solr4.2出来之后发现又不适用了,本人花了一点功夫熟悉solr4.2的分词调用接口补写了一个IkTokenizerFactory类 经...
总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...
maven 整合solr4.2环境,另外整合了solr-data-import源码环境,资源10分,十分不贵!有需要的朋友请下载吧。花了我3个小时的时间整理的。下载后,使用maven导入即可使用,升级solr版本也比较方便。本环境使用了...
几乎全新搭建ssm+shiro+solr7+mybatis逆向+maven多项目初步搭建测试,只是大致框架,接下来自己写,下面是linux 下solr7+tomcat8+IK中文分词器 环境 https://download.csdn.net/download/laysolitary/10686971
Solr4.1 + IK中文分词是针对Apache Solr搜索引擎的一个重要组合,它使得在中文环境下进行全文检索和分析变得更加高效和精确。Apache Solr是一个开源的企业级搜索平台,基于Lucene库,提供了高性能、可扩展的全文索引...
标题 "solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索" 提到的是一个搜索引擎优化的解决方案,主要涉及到Apache Solr、mmseg2.0和pinyinAnalyzer这三个核心组件。这里我们将深入探讨这些概念以及它们在中文...
Solr是Apache Lucene项目的一个子项目,是一个高性能、全文本搜索服务器,广泛应用于各种大数据检索场景。在4.9版本中,Solr引入了集群功能,以支持高可用性和可扩展性。在这个集群环境中,Tomcat作为Servlet容器...
7. Lucenechapter7可能涉及Lucene的分布式搜索,如何利用Solr或Elasticsearch扩展Lucene的集群能力。 8. LuceneChapter1可能是对Lucene的整体介绍,包括历史背景、设计原则和架构概述。 9. Lucenechapter9可能探讨了...
【标题】"Tomcat8+Solr7.4+IK"是一个在Linux环境下搭建的搜索引擎解决方案,其中包含了Apache Tomcat 8作为应用服务器,Solr 7.4作为搜索引擎核心,以及IK Analyzer作为中文分词工具。这个配置适用于需要处理大量...
标题"tomcat8.5+solr7+IKAnalyzer5"指出这是一个集成项目,其中包含了三个关键组件:Tomcat 8.5版本,Solr 7版本,以及IKAnalyzer 5版本。Tomcat是Apache软件基金会的一个开源项目,用作Java Servlet和JavaServer ...
Solr3.2 + mmseg4j-1.8.4中文搜索引擎Demo是一个演示项目,旨在展示如何在Solr3.2版本中结合mmseg4j实现高效的中文搜索功能。Solr是Apache软件基金会开发的一个开源全文搜索引擎,它提供了一个分布式、可扩展且高度...
对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。 课程的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络...
Solr+Spring+Hibernate+Maven+WebService整合框架是一个常见的企业级应用开发模式,它将搜索引擎Solr、持久层框架Hibernate、服务层框架Spring、构建工具Maven以及Web服务接口结合在一起,提供了一种高效、灵活的...
Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...
Solr8是一个强大的开源搜索引擎,它允许用户对大量文本数据进行高效的检索、分析和管理。在结合Tomcat9作为应用服务器后,可以提供一个稳定且可扩展的平台,用于搭建企业的全文检索服务。本配置成功案例主要涉及了几...
Solr教程与实例详解 Apache Solr是一款开源的企业级全文搜索引擎,由Apache软件基金会开发,基于Java语言,具有高效、可扩展的特点。它为大型、分布式搜索应用提供了强大的支持,包括文档检索、拼写建议、高亮显示...
IK分词器jar包,亲测适用于solr5.5.1+jdk7。为什么不能提交免费资源了,选资源分的时候最少也是2分
6. **与Solr或Elasticsearch集成**:Nutch抓取的网页数据可以导入到Solr或Elasticsearch中,提供更高级的搜索功能和界面。 在《Lucene+nutch开发自己的搜索引擎 part2》中,作者通过实例详细讲解了如何使用Lucene...