`
wbj0110
  • 浏览: 1588306 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

SOLR4.2+NUTCH1.6

阅读更多

1、SOLR4.2集成NUTCH1.6

wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz 

tar  -xzvf  solr-4.2.0.tgz 

cd  solr-4.2.0/example 

复制nutchconf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件 

修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/> 

 

2、给SOLR4.2配置分词器mmseg4j1.9.1

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 

unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d  mmseg4j-1.9.1 

mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
schema.xml文件中的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  

  <tokenizer class="solr.StandardTokenizerFactory"/>
  
替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/> 

 

3、运行SOLR4.2

启动SOLR4.2服务器: java  -jar  start.jar &

SOLR4.2 Web界面:  http://host2:8983

 

4、运行NUTCH提交索引

运行solrindex命令
bin/nutch  solrindex  http://host2:8983/solr  data/crawldb -linkdb  data/linkdb  -dir  data/segments

分享到:
评论

相关推荐

    apache-nutch-1.6-src.tar.gz

    - **Lucene和Solr**:Nutch的索引生成和搜索功能依赖于Apache Lucene和Solr,学习这两者的使用和API是必要的。 - **XML配置与XML Schema**:了解如何解读和修改Nutch的配置文件,理解`nutch-site.xml`的结构和作用。...

    nutch1.6压缩代码

    5. **生成索引**:使用`bin/nutch index`命令将解析后的数据导入到搜索引擎,如Solr或Elasticsearch,以便后续查询。 6. **监控与优化**:通过查看日志和统计信息,监控爬取进度和效果,调整配置以优化性能。 学习...

    ik分词包 用于lucene4.2和solr4.2的最新包

    自从lucene和solr推出4.0版本后 ik分词的调用接口已经不适用了,虽说ik最新ff版适用于solr4.0 但是solr4.2出来之后发现又不适用了,本人花了一点功夫熟悉solr4.2的分词调用接口补写了一个IkTokenizerFactory类 经...

    maven 搭建solr4.2源码环境

    maven 整合solr4.2环境,另外整合了solr-data-import源码环境,资源10分,十分不贵!有需要的朋友请下载吧。花了我3个小时的时间整理的。下载后,使用maven导入即可使用,升级solr版本也比较方便。本环境使用了...

    ssm+shiro+solr7+mybatis逆向+maven多项目初步搭建测试

    几乎全新搭建ssm+shiro+solr7+mybatis逆向+maven多项目初步搭建测试,只是大致框架,接下来自己写,下面是linux 下solr7+tomcat8+IK中文分词器 环境 https://download.csdn.net/download/laysolitary/10686971

    solr4.1+IK中文分词

    Solr4.1 + IK中文分词是针对Apache Solr搜索引擎的一个重要组合,它使得在中文环境下进行全文检索和分析变得更加高效和精确。Apache Solr是一个开源的企业级搜索平台,基于Lucene库,提供了高性能、可扩展的全文索引...

    solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索

    标题 "solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索" 提到的是一个搜索引擎优化的解决方案,主要涉及到Apache Solr、mmseg2.0和pinyinAnalyzer这三个核心组件。这里我们将深入探讨这些概念以及它们在中文...

    solr4.9+tomcat+zookeeper集群

    Solr是Apache Lucene项目的一个子项目,是一个高性能、全文本搜索服务器,广泛应用于各种大数据检索场景。在4.9版本中,Solr引入了集群功能,以支持高可用性和可扩展性。在这个集群环境中,Tomcat作为Servlet容器...

    lucene+nutch搜索引擎开发源码1

    7. Lucenechapter7可能涉及Lucene的分布式搜索,如何利用Solr或Elasticsearch扩展Lucene的集群能力。 8. LuceneChapter1可能是对Lucene的整体介绍,包括历史背景、设计原则和架构概述。 9. Lucenechapter9可能探讨了...

    tomcat8+solr7.4+IK

    【标题】"Tomcat8+Solr7.4+IK"是一个在Linux环境下搭建的搜索引擎解决方案,其中包含了Apache Tomcat 8作为应用服务器,Solr 7.4作为搜索引擎核心,以及IK Analyzer作为中文分词工具。这个配置适用于需要处理大量...

    tomcat8.5+solr7+IKAnalyzer5

    标题"tomcat8.5+solr7+IKAnalyzer5"指出这是一个集成项目,其中包含了三个关键组件:Tomcat 8.5版本,Solr 7版本,以及IKAnalyzer 5版本。Tomcat是Apache软件基金会的一个开源项目,用作Java Servlet和JavaServer ...

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎_Demo

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎Demo是一个演示项目,旨在展示如何在Solr3.2版本中结合mmseg4j实现高效的中文搜索功能。Solr是Apache软件基金会开发的一个开源全文搜索引擎,它提供了一个分布式、可扩展且高度...

    基于Lucene4.6+Solr4.6+S2SH实战开发垂直搜索引擎

    对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。 课程的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络...

    solr+spring+hibernate+maven+webservice整合框架

    Solr+Spring+Hibernate+Maven+WebService整合框架是一个常见的企业级应用开发模式,它将搜索引擎Solr、持久层框架Hibernate、服务层框架Spring、构建工具Maven以及Web服务接口结合在一起,提供了一种高效、灵活的...

    Solr3.2 + Paoding中文分词的搜索引擎

    Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...

    我的配置成功的solr8+tomcat.zip

    Solr8是一个强大的开源搜索引擎,它允许用户对大量文本数据进行高效的检索、分析和管理。在结合Tomcat9作为应用服务器后,可以提供一个稳定且可扩展的平台,用于搭建企业的全文检索服务。本配置成功案例主要涉及了几...

    solr教程+实例

    Solr教程与实例详解 Apache Solr是一款开源的企业级全文搜索引擎,由Apache软件基金会开发,基于Java语言,具有高效、可扩展的特点。它为大型、分布式搜索应用提供了强大的支持,包括文档检索、拼写建议、高亮显示...

    IK分词器jar包,亲测适用于solr5.5.1+jdk7

    IK分词器jar包,亲测适用于solr5.5.1+jdk7。为什么不能提交免费资源了,选资源分的时候最少也是2分

    Lucene+nutch开发自己的搜索引擎 part2

    6. **与Solr或Elasticsearch集成**:Nutch抓取的网页数据可以导入到Solr或Elasticsearch中,提供更高级的搜索功能和界面。 在《Lucene+nutch开发自己的搜索引擎 part2》中,作者通过实例详细讲解了如何使用Lucene...

Global site tag (gtag.js) - Google Analytics