一年多前曾经关注过一阵子nutch,那时候还是0.7,后来出了0.8版本,前面再看,已经是0.9。正好有点时间想把之前搁下来的校内搜索引擎的事情再拿起来,于是就下载来重新折腾了几天。现在终于“小有成就”,在校内跑起来了,现在来记录一下使用过程中遇到的一些问题,以及解决方法,或有用于同道。
1.加入中文分词
这是天朝人物做搜索要解决的第一件事情。我的办法也偷懒,改了一个类,重新构建一下就ok了。
首先当然是要下载nutch-0.9的压缩包。之后打开org.apache.nutch.analysis.NutchDocumentAnalyzer,按下面的方式修改:
<!---->
//加入庖丁解牛分词器属性
private static Analyzer PAODING_ANALYZER;
//修改初始化方法,初始化庖丁解牛分词器
public NutchDocumentAnalyzer(Configuration conf) {
//,加下面的一句
PAODING_ANALYZER = new PaodingAnalyzer();
}
//修改tokenStream方法,使用庖丁解牛分词器
//比较简单,就是不管三七二十一用庖丁就结了
public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
/*
if ("anchor".equals(fieldName))
analyzer = ANCHOR_ANALYZER;
else
analyzer = CONTENT_ANALYZER;
*/
analyzer = PAODING_ANALYZER;
return analyzer.tokenStream(fieldName, reader);
}
上面是索引的时候用的,下面对查询部分作修改:打开
分享到:
相关推荐
nutch应用,nutch中文分词,nutch中文乱码
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...
在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,将SIGRAM规则调整为支持连续的汉字,然后在代码中初始化IKTokenizer,使其能够处理输入的文本流。通过这种方式,Nutch现在能够对抓取的网页内容进行...
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
用于Nutch的中文分词,效果向单簧管得得好,强烈建议支持这种格式的数据,这是一个里程碑
### 基于Java的搜索引擎Nutch中文搜索技术研究 #### 摘要与背景介绍 随着互联网技术的发展,搜索引擎已成为人们获取信息的重要途径之一。Nutch作为一个优秀的基于Java的开源搜索引擎,其英文搜索功能非常强大,但在...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...
基于Nutch的中文分词插件实现,张文龙,刘一伟,中文分词是中文垂直搜索引擎中的一个关键技术,分词的好坏直接影响提取文本的精确度。Nutch是一个开源的Web搜索引擎,它为英文用户�
3. **中文分词**:由于中文文本没有明显的空格分隔单词,因此中文分词是中文信息处理中的关键步骤。Nutch支持多种中文分词工具,如HanLP、jieba和IK Analyzer等,这些工具能够将中文句子分割成有意义的词语,为后续...
配置 Nutch 创建索引需要在 Nutch 配置文件中指定索引的存储路径和索引的名称。例如,以下是 Nutch 配置文件中的一些配置项: `<property name="indexer.max.numSegments" value="10"/>` `...
### Nutch 使用指南 #### 一、概述 Nutch 是一个开源项目,旨在帮助用户构建自己的内部网搜索引擎或面向整个互联网的搜索引擎。本指南将基于 Nutch 的版本 0.7,详细介绍如何设置和配置 Nutch 以进行内部网爬取...
Nutch1.0是一款著名的开源网络爬虫项目,它的主要目标是提供一个可扩展、高效且可靠的搜索引擎...对于那些想要深入理解搜索引擎工作原理,或者想要在自己的项目中使用Nutch的开发者来说,这是一个非常有价值的资源。
在Cygwin终端中,使用`cd`命令切换到Nutch的安装目录,如`cd /cygdrive/i/nutch-0.7.1`。然后,你可以使用`ls -l`命令检查目录内容,确保Nutch的文件已经正确解压。 **5. 配置和运行Nutch** 在运行Nutch之前,你...
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene...