`
anyhuayong
  • 浏览: 3017 次
  • 性别: Icon_minigender_1
  • 来自: 天津
最近访客 更多访客>>
社区版块
存档分类
最新评论

nutch研究—遇到的错误和解决办法

阅读更多
1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log

    出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。

解决:从新完整的安装cygwin,不要按照网上说的只安装其中需要的那几个包内容。


2、右上角选项卡乱码问题

右上角“简介”、“常见问题”在搜索主界面不乱吗,但搜索时乱码的问题。

修改 Tomcat 7.0/webapps/nutch-1.2/zh/header.html 的编码为GBK

<?xml version="1.0" encoding="GBK"?>
注意:在<?xml version="1.0" encoding="GBK"?>后在添加<META http-equiv="Content-Type" content="text/html; charset=UTF-8">


3、Nutch1.2 添加IKAnalyzer中文分词(参考这篇文章)
按照这篇文章修改源码的时候会出现以下错误:
LinkDb: finished at 2011-07-14 11:34:06, elapsed: 00:00:03
Indexer: starting at 2011-07-14 11:34:06
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:167)
解决:这是在爬取网络数据的时候,可能是忘记把IKAnalyzer3.2.8.jar放到nutch/lib目录下了。

4、修改源码后,在此搜索会出现空白页问题(这个花费我三天时间啊)出现的错误是:Caused by: java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute'.

at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)

at org.apache.nutch.summary.basic.BasicSummarizer.getTokens(BasicSummarizer.java:362)

at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:134)

出现原因是:

前面我们修改过NutchDocumentAnalyzer类,使用了IKAnalyezer类。此时就需要修改中文分词的开源IKAnalyezer的源码了。
而在IKAnalyezer中并没有添加 PositionIncrementAttribute属性,所以出现异常,于是修改IKAnalyezer的源代码IKTokenizer.java文件在添加

//引入包的地方

import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;

//变量声明的地方

private PositionIncrementAttribute posIncrAtt;

//public IKTokenizer(Reader in , boolean isMaxWordLength)方法内添加

posIncrAtt = addAttribute(PositionIncrementAttribute.class);
用ant命令重新编译IKAnaalyezer,生成IKAnalyzer3.2.8.jar(此时好像需要自己写ant的build.xml文件,我用eclipse直接导出jar文件的)

替换nutch下的对应文件,重新编译nutch。


5、第四步解决之后,还是空白页(这个花费我三天时间啊)

查看tomcat下的log文件时,会有以下异常信息:

ava.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TypeAttribute'.

at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)

at org.apache.nutch.summary.basic.BasicSummarizer.getTokens(BasicSummarizer.java:364)

at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:135)

at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:263)

at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63)

at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53)

at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)

at java.util.concurrent.FutureTask.run(FutureTask.java:138)

at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)

at java.lang.Thread.run(Thread.java:662)

问题出现的原因和问题4类似。需要的同样的地方添加:

private TypeAttribute typeAtt;

typeAtt = addAttribute(TypeAttribute.class);

然后还是从新编译生成IKAnalyzer3.2.8.jar文件,

最后从新ant,生成nutch-1.2.job,nutch-1.2.war,nutch-1.2.jar。把爬去数据和搜索部分的都替换成最新的文件,别忘记IKAnalyzer3.2.8.jar哦。
分享到:
评论

相关推荐

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    Nutch_插件深入研究

    ### Nutch插件深入研究 #### 一、Nutch插件概述 Nutch是一个开源的Web爬虫项目,由Apache软件基金会维护。它基于Hadoop,能够从互联网上抓取和索引网页,构建搜索引擎。Nutch的强大之处在于其高度可定制性,这主要...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法续

    ### Nutch开源搜索引擎增量索引recrawl的终极解决办法续 #### 一、背景与问题概述 在前一篇文章中,我们探讨了Nutch开源搜索引擎在进行增量索引更新(recrawl)时遇到的问题及其初步解决方案。然而,在实际操作...

    nutch10配置(解决代理问题)

    本文将详细介绍如何在Nutch 10版本中配置代理,并解决在配置过程中可能遇到的问题。 #### 配置文件说明 Nutch 10配置文件主要分为几个部分: 1. **Crawling Configuration**:爬虫配置文件,包括`conf/crawl-...

    Apache Nutch 1.7 在windows和Linux下的安装

    Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    nutch

    Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...

    nutch解决搜索结果高亮和网页快照链接无效及网页变形

    Nutch 是一个开源的搜索引擎项目,它提供了网络爬虫、索引和搜索的功能。在构建一个自定义的搜索引擎时,可能会遇到几个常见的问题,如搜索结果的关键词高亮、快照链接无效以及网页在预览时的变形。下面将详细讨论...

    nutch使用&Nutch;入门教程

    总结,Nutch是一个强大且灵活的网络爬虫工具,对于需要进行大规模网页抓取和搜索的项目来说,是一个理想的解决方案。通过学习和实践这个入门教程,你将能够熟练地运用Nutch进行数据采集和分析。

    Nutch开源搜索引擎增量索引recrawl的终极解决办法

    ### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析: **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache ...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    Nutch搜索引擎的页面排序修改方法研究.kdh

    Nutch是一个优秀的开放源代码的Web...分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较

    nutch帮助文档;nutch学习 入门

    通过以上学习,你可以逐步掌握Nutch的基础知识和操作,为进一步深入研究搜索引擎技术和大数据分析打下坚实基础。在实践中不断探索,你会发现Nutch是一个强大且灵活的工具,能够满足各种定制化的搜索需求。

    \Lucene Nutch和安装说明文旦

    4. **故障排查**: 针对常见问题和错误提供解决方案,帮助用户顺利进行安装和配置。 **总结** Lucene和Nutch是两个强大的开源搜索和爬虫工具,它们广泛应用于信息检索、网站分析等领域。通过理解这两个工具的核心...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    nutch-1.9 源码

    它的最新版本提供了许多改进和优化,使得它成为开发者和研究者手中的利器。Nutch的设计目标是易用性和可扩展性,允许用户通过简单的配置就能实现复杂的网页抓取任务。 在Nutch-1.9中,主要包含以下几个核心知识点:...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

Global site tag (gtag.js) - Google Analytics