如何跟换nutch1.0中文分词,我在网上基本把所有的办法都是试了一遍但是没有一个是可行的,真是怀疑这些人是纯转载别人的文章还是自己确实有试过,
这里把步骤详细给大家说一下下边是别人的文章,但是其中跟真实的情况有出入,我这里有所修改
前提nutch-1.0配置正常能正常的爬取
找到 src/java/org/apache/nutch/analysis/NutchAnalysis.jj 文件
line 130:
| <SIGRAM: <CJK> >
change to:
| <SIGRAM: (<CJK>)+ >
run “javacc”
cd nutch-1.0/src/java/org/apache/nutch/analysis
/usr/local/javacc-3.2/bin/javacc NutchAnalysis.jj
3 files will be regenerated:
这里会生成7个文件,这里列举3个
NutchAnalysis.java
NutchAnalysisTokenManager.java
NutchAnalysisConstants.java
把生成的7个文件全部替换/src/java/org/apache/nutch/analysis下的七个文件
其中会抛出一个异常,捕获一下就ok了
中文分析部分(查询和索引):
将analyzer更换为ik中文分析器
a 把 IKAnalyzer3.1.5GA.jar 放到lib文件夹
b org.apache.nutch.analysis.NutchDocumentAnalyzer
修改TokenStream tokenStream(String fieldName, Reader reader)
修改后的代码 Analyzer analyzer;
analyzer=new IKAnalyzer();
return analyzer.tokenStream(fieldName, reader);
重新编译Nutch:
在build.xml添加一条指令(在第195行的下面加入一行),使的编译war文件的时候加入ik分词器的jar文件。
build.xml
<lib dir="${lib.dir}">
<include name="lucene*.jar"/>
<include name="taglibs-*.jar"/>
<include name="hadoop-*.jar"/>
<include name="dom4j-*.jar"/>
<include name="xerces-*.jar"/>
<include name="tika-*.jar"/>
<include name="apache-solr-*.jar"/>
<include name="commons-httpclient-*.jar"/>
<include name="commons-codec-*.jar"/>
<include name="commons-collections-*.jar"/>
<include name="commons-beanutils-*.jar"/>
<include name="commons-cli-*.jar"/>
<include name="commons-lang-*.jar"/>
<include name="commons-logging-*.jar"/>
<include name="log4j-*.jar"/>
<include name="IKAnalyzer3.1.5GA.jar"/> <!-- add this line -->
</lib>
用ant重新编译build.xml文件
使用新生成的含中文分词功能的模块:
只用到刚才编译生成build文件夹下面一个文件,
build/nutch-1.0.job
把这个.job文件拿出来替换原来的nutch-1.0包里的.job文件
然后用把build下的classes文件夹打成nutch-1.0.jar文件 指令:jar cvf nutch-0.9.jar org
最后把nutch-1.0.war重新生成的文件夹下lib中的nutch-1.0.jar跟换成你新生成的nutch-1.0.jar文件,还要放入ik分词器的jar文件
最后爬取,搜索的结果就是按ik分过的中文词
- 描述: 123
- 大小: 8.2 KB
- 大小: 427.4 KB
分享到:
相关推荐
### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
nutch-1.0-dev.jar nutch devlope
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
ant-eclipse-1.0 nutch
$ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效检索。Nutch 是由 Apache Software Foundation 维护,它提供了完整的网络爬虫解决方案,包括数据采集、预处理、...
- 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定插件目录的相对或绝对路径。 - 在`nutch-site.xml`中,同样更新`http.agent.name`,并提供详细的描述信息。 - **设置爬虫入口**:在...
Nutch 支持多种语言的分析,包括中文。 5. **索引器(Indexer)**:将解析和分析后的数据存储到索引库中,以便于快速查询。Nutch 可以与多种存储和索引系统集成,如Apache Solr 和Hadoop HDFS。 6. **搜索接口...
nutch配置nutch-default.xml