1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log
出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。
解决:从新完整的安装cygwin,不要按照网上说的只安装其中需要的那几个包内容。
2、右上角选项卡乱码问题
右上角“简介”、“常见问题”在搜索主界面不乱吗,但搜索时乱码的问题。
修改 Tomcat 7.0/webapps/nutch-1.2/zh/header.html 的编码为GBK
<?xml version="1.0" encoding="GBK"?>
注意:在<?xml version="1.0" encoding="GBK"?>后在添加<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
3、Nutch1.2 添加IKAnalyzer中文分词(参考这篇文章)
按照这篇文章修改源码的时候会出现以下错误:
LinkDb: finished at 2011-07-14 11:34:06, elapsed: 00:00:03
Indexer: starting at 2011-07-14 11:34:06
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:167)
解决:这是在爬取网络数据的时候,可能是忘记把IKAnalyzer3.2.8.jar放到nutch/lib目录下了。
4、修改源码后,在此搜索会出现空白页问题(这个花费我三天时间啊)出现的错误是:Caused by: java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute'.
at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)
at org.apache.nutch.summary.basic.BasicSummarizer.getTokens(BasicSummarizer.java:362)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:134)
出现原因是:
前面我们修改过NutchDocumentAnalyzer类,使用了IKAnalyezer类。此时就需要修改中文分词的开源IKAnalyezer的源码了。
而在IKAnalyezer中并没有添加 PositionIncrementAttribute属性,所以出现异常,于是修改IKAnalyezer的源代码IKTokenizer.java文件在添加
//引入包的地方
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
//变量声明的地方
private PositionIncrementAttribute posIncrAtt;
//public IKTokenizer(Reader in , boolean isMaxWordLength)方法内添加
posIncrAtt = addAttribute(PositionIncrementAttribute.class);
用ant命令重新编译IKAnaalyezer,生成IKAnalyzer3.2.8.jar(此时好像需要自己写ant的build.xml文件,我用eclipse直接导出jar文件的)
替换nutch下的对应文件,重新编译nutch。
5、第四步解决之后,还是空白页(这个花费我三天时间啊)
查看tomcat下的log文件时,会有以下异常信息:
ava.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TypeAttribute'.
at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)
at org.apache.nutch.summary.basic.BasicSummarizer.getTokens(BasicSummarizer.java:364)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:135)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:263)
at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63)
at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53)
at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
at java.util.concurrent.FutureTask.run(FutureTask.java:138)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
at java.lang.Thread.run(Thread.java:662)
问题出现的原因和问题4类似。需要的同样的地方添加:
private TypeAttribute typeAtt;
typeAtt = addAttribute(TypeAttribute.class);
然后还是从新编译生成IKAnalyzer3.2.8.jar文件,
最后从新ant,生成nutch-1.2.job,nutch-1.2.war,nutch-1.2.jar。把爬去数据和搜索部分的都替换成最新的文件,别忘记IKAnalyzer3.2.8.jar哦。
分享到:
相关推荐
本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...
### Nutch插件深入研究 #### 一、Nutch插件概述 Nutch是一个开源的Web爬虫项目,由Apache软件基金会维护。它基于Hadoop,能够从互联网上抓取和索引网页,构建搜索引擎。Nutch的强大之处在于其高度可定制性,这主要...
### Nutch开源搜索引擎增量索引recrawl的终极解决办法续 #### 一、背景与问题概述 在前一篇文章中,我们探讨了Nutch开源搜索引擎在进行增量索引更新(recrawl)时遇到的问题及其初步解决方案。然而,在实际操作...
本文将详细介绍如何在Nutch 10版本中配置代理,并解决在配置过程中可能遇到的问题。 #### 配置文件说明 Nutch 10配置文件主要分为几个部分: 1. **Crawling Configuration**:爬虫配置文件,包括`conf/crawl-...
Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...
在IT领域,Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。
Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...
Nutch 是一个开源的搜索引擎项目,它提供了网络爬虫、索引和搜索的功能。在构建一个自定义的搜索引擎时,可能会遇到几个常见的问题,如搜索结果的关键词高亮、快照链接无效以及网页在预览时的变形。下面将详细讨论...
总结,Nutch是一个强大且灵活的网络爬虫工具,对于需要进行大规模网页抓取和搜索的项目来说,是一个理想的解决方案。通过学习和实践这个入门教程,你将能够熟练地运用Nutch进行数据采集和分析。
### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析: **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache ...
Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...
Nutch是一个优秀的开放源代码的Web...分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较
通过以上学习,你可以逐步掌握Nutch的基础知识和操作,为进一步深入研究搜索引擎技术和大数据分析打下坚实基础。在实践中不断探索,你会发现Nutch是一个强大且灵活的工具,能够满足各种定制化的搜索需求。
4. **故障排查**: 针对常见问题和错误提供解决方案,帮助用户顺利进行安装和配置。 **总结** Lucene和Nutch是两个强大的开源搜索和爬虫工具,它们广泛应用于信息检索、网站分析等领域。通过理解这两个工具的核心...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
它的最新版本提供了许多改进和优化,使得它成为开发者和研究者手中的利器。Nutch的设计目标是易用性和可扩展性,允许用户通过简单的配置就能实现复杂的网页抓取任务。 在Nutch-1.9中,主要包含以下几个核心知识点:...
Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。