`
youkimra
  • 浏览: 34687 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch运行x point org.apache.nutch.net.URLNormalizer not found.处理

阅读更多
最近工作中遇到瓶颈,主要是没有很好的理解nutch从而使之效率低下,现在要对nutch进行优化,以后也会记录下在学习nutch的时候所遇到的问题。首先x point org.apache.nutch.net.URLNormalizer not found. 这是在运行nutch的时候报出的异常。我们可以发现和URLNormalizer这个有关,URLNormalizer是nutch在inject的时候对url进行规范化的东西,它是通过插件完成的,因此我认为是插件存在问题,后来仔细排查发现在nutch-default.xml中plugin.folders参数路径设置错误,由原来的lib/plugin改为plugin后运行正常。也有可能是配置文件的问题。

   1. JAVA_HOME环境变量未设置
   2. 未在conf/crawl-urlfilter.txt中设定过滤信息
   3. Fetcher: No agents listed in 'http.agent.name' property.
      原因:没有修改nutch-site.xml
   4. 没有fetch到任何网页
      原因:conf/crawl-urlfilter.txt中url匹配字符串(*.TARGET.COM)与urls中大小写不一致

调试时遇到的问题:

   1. javax.login.LoginException。原因是nutch引用cygwin。必须把c:\cygwin\bin添加到path环境变量
   2. OutOfMemoryException。需要在eclipse中设置VM内存大小。在debug configuration中的vm arguments中设置 -Xmx768m
   3. plugin.folders没有设置java.lang.IllegalArgumentException: plugin.folders is not set:将conf加入源程序目录
   4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
      原因:crawl-urlfilter.txt中的正则表达式nutch不接受
   5. java.lang.IllegalArgumentException:Fetcher: No agents listed in 'http.agent.name‘
      原因:nutch-default.xml中http.agent.name为空
      解决:
分享到:
评论
1 楼 ChenHotOne 2017-10-09  
你好,我遇到你说的这个4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
问题,具体打印信息是:
java.lang.Exception: java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
	at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
	at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
	at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:141)
	at org.apache.nutch.crawl.InjectorJob$UrlMapper.setup(InjectorJob.java:94)
	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:142)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:340)
	at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
2017-10-09 19:05:08,610 ERROR crawl.InjectorJob - InjectorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local456134380_0001
	at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
	at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
	at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
	at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
	at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)


其中regex-urlfilter.txt
# accept anything else
+^http://www.aossama.com/
#+^http://([a-z0-9]*\.)*nutch.apache.org/
# +.
其中:urls里面是seed.txt,里面保存着
http://www.aossama.com/
在执行下面命令的时候报错:
./bin/nutch inject urls/

相关推荐

    apache-nutch-2.3.1-src.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效检索。Nutch 是由 Apache Software Foundation 维护,它提供了完整的网络爬虫解决方案,包括数据采集、预处理、...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    apache-nutch-1.6-src.tar.gz

    主要的源代码文件位于`src/java`目录下,按照包结构组织,例如`org.apache.nutch.crawl`、`org.apache.nutch.indexer`和`org.apache.nutch.parse`等。 2. **配置文件**:在`conf`目录下,有默认的Nutch配置文件,如...

    apache-nutch-1.7-src.tar.gz

    5. **过滤(Filtering)**:Nutch提供了对索引内容进行预处理的功能,如去除停用词、词干化等,这些在`src/java/org/apache/nutch/indexer/tfidf`和`src/java/org/apache/nutch/analysis/lang`等目录中实现。...

    apache-nutch-1.6-bin.tar.gz最新版

    nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...

    apache-nutch-2.3-src.zip

    - `org.apache.nutch.crawl`:包含爬虫的基本流程控制,如Fetcher、Injector、Generator等。 - `org.apache.nutch.indexer`:负责索引的创建和更新,包括NutchIndexWriter接口及其实现。 - `org.apache.nutch....

    nutch2.1缺少包org.restlet.ext.jackson.jar

    nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    新建一个Java Application,主类设为`org.apache.nutch.crawl.Crawl`。在Program Arguments中输入`urls -dir crawl -depth 3 -topN 50`,VM Arguments中输入`-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log`。...

    apache-nutch-1.5.1-bin.tar.gz

    Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...

    Linux下Nutch分布式配置和使用.rar

    这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...

    org.restlet.jar org.restlet.ext.jackson.jar(nutch 2.2.1无法下载的jar包)

    总之,"org.restlet.jar"和"org.restlet.ext.jackson.jar"是Nutch 2.2.1为了实现RESTful通信和JSON处理所必需的库文件。如果在Ivy配置中遇到下载问题,需要采取手动下载和添加到类路径的方法来确保Nutch的正常运行。...

    nutch2.2.1安装步骤.docx

    4. jdk-8u201-linux-x64.tar.gz:Java 开发工具包,Nutch 运行和构建的必需品。 5. solr-4.10.3.zip:Solr 是一个基于 Lucene 的全文搜索引擎服务器,用于存储和检索 Nutch 抓取的数据。 将这些文件复制到 `/home/...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    apach-nutch-1.9-bin.tar.gz

    Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 "apach-nutch-1.9-bin.tar.gz" 包含了运行Nutch所需的全部二进制文件和...

    nutch2.1缺少包org.restlet-2.0.5.jar

    nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。

    nutch2.3.1安装文档教程

    &lt;value&gt;org.apache.nutch.indexer.solr.SolrIndexWriter &lt;name&gt;index.reader.class &lt;value&gt;org.apache.nutch.indexer.solr.SolrIndexReader &lt;name&gt;indexer.class &lt;value&gt;org.apache.nutch.indexer.solr...

    Nutch入门.rar

    1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........

    如何通过java程序获得Nutch中网页的详细信息

    例如,`org.apache.nutch.crawl.Crawler`类可以用于启动爬虫,而`org.apache.nutch.indexer.NutchIndexWriter`则用于写入索引。 2. **Segment Reader**:为了访问已分割的段,你需要使用`org.apache.nutch.segment....

Global site tag (gtag.js) - Google Analytics