nutch1.2中加入中文分词以及搜索错误解决

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 2080 次

锁定老帖子主题：nutch1.2中加入中文分词以及搜索错误解决精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2011-03-02 相关推荐: 【转载】 nutch1.2 中文分词IKAnalyzer插件安装 Nutch1.2 添加IKAnalyzer中文分词 Nutch1.2二次开发(关于中文分词) Nutch1.2二次开发详细攻略(四)【图文】------Nutch1.2二次开发(关于中文分词) nutch的安装以及中文分词器的配置全部已经成功了希望大家找到这个网上很多不全面... 更多相关推荐 Java综合在nutch当中加入中文分词。这里我使用的IK_Analyzer 1、下载IKAnalyzer3.2.5Stable.jar。 2、需要修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的tokenStream方法 2.1 ：加入属性变量 -- private static Analyzer IK_ANALYZER; 2.2 ： NutchDocumentAnalyzer 构造方法中加入： IK_ANALYZER = new IKAnalyzer(); 2.3 ：在 tokenStream 方法中加入 Analyzer analyzer; analyzer = IK_ANALYZER; //以下几行代码必须加上 TokenStream tokenStream = analyzer.tokenStream(fieldName, reader); tokenStream.addAttribute(TypeAttribute.class); tokenStream.addAttribute(FlagsAttribute.class); tokenStream.addAttribute(PayloadAttribute.class); tokenStream.addAttribute(PositionIncrementAttribute.class); //如果不加，在search的时候报错，错误如下： Exception in thread "main" java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TypeAttribute'. 2.4 ：在这个包下找到org.apache.nutch.analysis.NutchAnalysis.jj 将<SIGRAM: <CJK> >替换为 <SIGRAM: (<CJK>)+ > 然后使用javacc工具编译，可以得到7个**.java文件，把这些文件覆盖这个包下面文件。 2.5 ：编译src/build.xml 加入 <include name="IKAnalyzer3.2.5Stable.jar"/> 3、根目录下 ant. 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → Java企业应用版

跳转论坛: