`

nutch1.2中加入中文分词以及搜索错误解决

阅读更多

在nutch当中加入中文分词。这里我使用的IK_Analyzer
1、下载IKAnalyzer3.2.5Stable.jar。
2、需要修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的tokenStream方法
  2.1 : 加入属性变量 -- private static Analyzer IK_ANALYZER;
  2.2 : NutchDocumentAnalyzer 构造方法中 加入 :
         IK_ANALYZER = new IKAnalyzer();
  2.3 : 在 tokenStream 方法中加入
         Analyzer analyzer;
     analyzer = IK_ANALYZER;
         //以下几行代码必须加上
     TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
     tokenStream.addAttribute(TypeAttribute.class);
     tokenStream.addAttribute(FlagsAttribute.class);
     tokenStream.addAttribute(PayloadAttribute.class);
     tokenStream.addAttribute(PositionIncrementAttribute.class);
         //如果不加,在search的时候报错,错误如下:
  Exception in thread "main" java.lang.IllegalArgumentException: This AttributeSource does not have the attribute     'org.apache.lucene.analysis.tokenattributes.TypeAttribute'.
  2.4 : 在这个包下找到org.apache.nutch.analysis.NutchAnalysis.jj
         将<SIGRAM: <CJK> >替换为 <SIGRAM: (<CJK>)+ >
         然后使用javacc工具编译,可以得到7个**.java文件,把这些文件覆盖这个包下面文件。
  2.5 : 编译src/build.xml
         加入 <include name="IKAnalyzer3.2.5Stable.jar"/>
3、根目录下 ant.

分享到:
评论

相关推荐

    nutch1.2 java的project

    Nutch 1.2 是一个开源的Web爬虫项目,基于Java开发,它主要用于抓取互联网上的网页并进行索引。这个项目是Apache Lucene的一部分,提供了完整的搜索引擎解决方案。Eclipse 是一个流行的Java集成开发环境(IDE),在...

    nutch1.2 java project

    8. **监控与调试**:在运行过程中,你可以通过日志文件来监控 Nutch 的运行状态,以及通过修改配置文件来解决遇到的问题。 由于缺少插件,你可能需要自行下载并配置适合你的场景的插件,例如解析 PDF、XML 等非 ...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,将SIGRAM规则调整为支持连续的汉字,然后在代码中初始化IKTokenizer,使其能够处理输入的文本流。通过这种方式,Nutch现在能够对抓取的网页内容进行...

    Nutch 1.2源码阅读

    通过深入剖析Nutch 1.2中的Crawl类,我们不仅了解了Nutch的工作流程和核心组件,还掌握了配置文件的关键作用。Nutch通过精细的模块化设计和灵活的配置机制,实现了高效的数据抓取和处理。对于希望进一步探索搜索引擎...

    nutch1.2源码

    在Nutch 1.2中,这一集成更加紧密,提高了数据处理的效率和可扩展性。MapReduce将大型任务分解为小的子任务,分发到多台机器上并行处理,然后合并结果,从而实现高效的数据处理。 三、Nutch工作流程 1. **抓取...

    myeclipse8.5导入nutch1.2源码

    ### MyEclipse 8.5 导入 Nutch 1.2 源码的知识点详解 #### 一、背景介绍 Nutch 是一个高度可扩展且开放源代码的网络爬虫项目,由 Apache 软件基金会维护。它不仅能够抓取网页,还能进行全文检索,通常运行在 Linux...

    nutch1.2测试文档

    nutch1.2测试文档

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    基于Nutch中文分词的研究与实现

    作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    ### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的...

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    Nutch搜索引擎培训讲义

    ### Nutch 搜索引擎培训讲义关键知识点解析 #### 一、Nutch 1.2 版本配置与运行步骤 1. **环境搭建** - 在进行配置之前,确保已经安装了必要的软件,如Java环境(推荐使用Java 1.6以上版本)、Eclipse等开发工具...

    nutch部分网页乱码BUG修正

    总的来说,解决Nutch的网页乱码问题需要深入理解字符编码原理,以及Nutch内部的处理流程。通过优化URL解码、HTTP头解析、字符集探测和转换逻辑,我们可以有效地避免或修复乱码问题,从而提高Nutch的抓取质量和用户...

Global site tag (gtag.js) - Google Analytics