最近工作中遇到瓶颈,主要是没有很好的理解nutch从而使之效率低下,现在要对nutch进行优化,以后也会记录下在学习nutch的时候所遇到的问题。首先x point org.apache.nutch.net.URLNormalizer not found. 这是在运行nutch的时候报出的异常。我们可以发现和URLNormalizer这个有关,URLNormalizer是nutch在inject的时候对url进行规范化的东西,它是通过插件完成的,因此我认为是插件存在问题,后来仔细排查发现在nutch-default.xml中plugin.folders参数路径设置错误,由原来的lib/plugin改为plugin后运行正常。也有可能是配置文件的问题。
1. JAVA_HOME环境变量未设置
2. 未在conf/crawl-urlfilter.txt中设定过滤信息
3. Fetcher: No agents listed in 'http.agent.name' property.
原因:没有修改nutch-site.xml
4. 没有fetch到任何网页
原因:conf/crawl-urlfilter.txt中url匹配字符串(*.TARGET.COM)与urls中大小写不一致
调试时遇到的问题:
1. javax.login.LoginException。原因是nutch引用cygwin。必须把c:\cygwin\bin添加到path环境变量
2. OutOfMemoryException。需要在eclipse中设置VM内存大小。在debug configuration中的vm arguments中设置 -Xmx768m
3. plugin.folders没有设置java.lang.IllegalArgumentException: plugin.folders is not set:将conf加入源程序目录
4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
原因:crawl-urlfilter.txt中的正则表达式nutch不接受
5. java.lang.IllegalArgumentException:Fetcher: No agents listed in 'http.agent.name‘
原因:nutch-default.xml中http.agent.name为空
解决:
分享到:
相关推荐
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效检索。Nutch 是由 Apache Software Foundation 维护,它提供了完整的网络爬虫解决方案,包括数据采集、预处理、...
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
主要的源代码文件位于`src/java`目录下,按照包结构组织,例如`org.apache.nutch.crawl`、`org.apache.nutch.indexer`和`org.apache.nutch.parse`等。 2. **配置文件**:在`conf`目录下,有默认的Nutch配置文件,如...
5. **过滤(Filtering)**:Nutch提供了对索引内容进行预处理的功能,如去除停用词、词干化等,这些在`src/java/org/apache/nutch/indexer/tfidf`和`src/java/org/apache/nutch/analysis/lang`等目录中实现。...
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...
- `org.apache.nutch.crawl`:包含爬虫的基本流程控制,如Fetcher、Injector、Generator等。 - `org.apache.nutch.indexer`:负责索引的创建和更新,包括NutchIndexWriter接口及其实现。 - `org.apache.nutch....
nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。
新建一个Java Application,主类设为`org.apache.nutch.crawl.Crawl`。在Program Arguments中输入`urls -dir crawl -depth 3 -topN 50`,VM Arguments中输入`-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log`。...
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
总之,"org.restlet.jar"和"org.restlet.ext.jackson.jar"是Nutch 2.2.1为了实现RESTful通信和JSON处理所必需的库文件。如果在Ivy配置中遇到下载问题,需要采取手动下载和添加到类路径的方法来确保Nutch的正常运行。...
4. jdk-8u201-linux-x64.tar.gz:Java 开发工具包,Nutch 运行和构建的必需品。 5. solr-4.10.3.zip:Solr 是一个基于 Lucene 的全文搜索引擎服务器,用于存储和检索 Nutch 抓取的数据。 将这些文件复制到 `/home/...
apache-nutch-1.4-bin.tar.gz.part2
nutch配置nutch-default.xml
Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 "apach-nutch-1.9-bin.tar.gz" 包含了运行Nutch所需的全部二进制文件和...
nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。
<value>org.apache.nutch.indexer.solr.SolrIndexWriter <name>index.reader.class <value>org.apache.nutch.indexer.solr.SolrIndexReader <name>indexer.class <value>org.apache.nutch.indexer.solr...
1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........
例如,`org.apache.nutch.crawl.Crawler`类可以用于启动爬虫,而`org.apache.nutch.indexer.NutchIndexWriter`则用于写入索引。 2. **Segment Reader**:为了访问已分割的段,你需要使用`org.apache.nutch.segment....