nutch运行x point org.apache.nutch.net.URLNormalizer not found.处理

youkimra

浏览: 35233 次
性别:
来自: 北京

最近访客更多访客>>

kangnam

fh0001234

noodv1990

ChenHotOne

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

nutch

.net Apache XML 工作

最近工作中遇到瓶颈，主要是没有很好的理解nutch从而使之效率低下，现在要对nutch进行优化，以后也会记录下在学习nutch的时候所遇到的问题。首先x point org.apache.nutch.net.URLNormalizer not found. 这是在运行nutch的时候报出的异常。我们可以发现和URLNormalizer这个有关，URLNormalizer是nutch在inject的时候对url进行规范化的东西，它是通过插件完成的，因此我认为是插件存在问题，后来仔细排查发现在nutch-default.xml中plugin.folders参数路径设置错误，由原来的lib/plugin改为plugin后运行正常。也有可能是配置文件的问题。

   1. JAVA_HOME环境变量未设置
   2. 未在conf/crawl-urlfilter.txt中设定过滤信息
   3. Fetcher: No agents listed in 'http.agent.name' property.
      原因：没有修改nutch-site.xml
   4. 没有fetch到任何网页
      原因：conf/crawl-urlfilter.txt中url匹配字符串(*.TARGET.COM)与urls中大小写不一致

调试时遇到的问题：

   1. javax.login.LoginException。原因是nutch引用cygwin。必须把c:\cygwin\bin添加到path环境变量
   2. OutOfMemoryException。需要在eclipse中设置VM内存大小。在debug configuration中的vm arguments中设置 -Xmx768m
   3. plugin.folders没有设置java.lang.IllegalArgumentException: plugin.folders is not set：将conf加入源程序目录
   4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
      原因：crawl-urlfilter.txt中的正则表达式nutch不接受
   5. java.lang.IllegalArgumentException：Fetcher: No agents listed in 'http.agent.name‘
      原因：nutch-default.xml中http.agent.name为空
      解决：

分享到：

nutch 运行中配置文件的修改 | 给字段添加索引

2011-05-11 13:31
浏览 5619
评论(1)
分类:编程语言
查看更多

1 楼 ChenHotOne 2017-10-09

你好，我遇到你说的这个4. java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
问题，具体打印信息是：

java.lang.Exception: java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
	at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
	at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
	at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:141)
	at org.apache.nutch.crawl.InjectorJob$UrlMapper.setup(InjectorJob.java:94)
	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:142)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:340)
	at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
2017-10-09 19:05:08,610 ERROR crawl.InjectorJob - InjectorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local456134380_0001
	at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
	at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)
	at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
	at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
	at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)

其中regex-urlfilter.txt
# accept anything else
+^http://www.aossama.com/
#+^http://([a-z0-9]*\.)*nutch.apache.org/
# +.
其中：urls里面是seed.txt,里面保存着
http://www.aossama.com/
在执行下面命令的时候报错：
./bin/nutch inject urls/

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip: 嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip

训练导控系统设计.pdf: 训练导控系统设计.pdf

嵌入式八股文面试题库资料知识宝典-网络编程.zip: 嵌入式八股文面试题库资料知识宝典-网络编程.zip

人脸转正GAN模型的高效压缩.pdf: 人脸转正GAN模型的高效压缩.pdf

少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip: 少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip

少儿编程scratch项目源代码文件案例素材-鸡蛋.zip: 少儿编程scratch项目源代码文件案例素材-鸡蛋.zip

嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID.zip: 嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID

嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip: 嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip

面向智慧工地的压力机在线数据的预警应用开发.pdf: 面向智慧工地的压力机在线数据的预警应用开发.pdf

基于Unity3D的鱼类运动行为可视化研究.pdf: 基于Unity3D的鱼类运动行为可视化研究.pdf

少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip: 少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip

少儿编程scratch项目源代码文件案例素材-金币冲刺.zip: 少儿编程scratch项目源代码文件案例素材-金币冲刺.zip

【HarmonyOS技术领域】HarmonyOS编译构建子系统解析：高效灵活的系统开发与优化工具: 内容概要：本文深入探讨了HarmonyOS编译构建子系统的作用及其技术细节。作为鸿蒙操作系统背后的关键技术之一，编译构建子系统通过GN和Ninja工具实现了高效的源代码到机器代码的转换，确保了系统的稳定性和性能优化。该系统不仅支持多系统版本构建、芯片厂商定制，还具备强大的调试与维护能力。其高效编译速度、灵活性和可扩展性使其在华为设备和其他智能终端中发挥了重要作用。文章还比较了HarmonyOS编译构建子系统与安卓和iOS编译系统的异同，并展望了其未来的发展趋势和技术演进方向。; 适合人群：对操作系统底层技术感兴趣的开发者、工程师和技术爱好者。; 使用场景及目标：①了解HarmonyOS编译构建子系统的基本概念和工作原理；②掌握其在不同设备上的应用和优化策略；③对比HarmonyOS与安卓、iOS编译系统的差异；④探索其未来发展方向和技术演进路径。; 其他说明：本文详细介绍了HarmonyOS编译构建子系统的架构设计、核心功能和实际应用案例，强调了其在万物互联时代的重要性和潜力。阅读时建议重点关注编译构建子系统的独特优势及其对鸿蒙生态系统的深远影响。

嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip: 嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip

嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip: 嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip

双种群变异策略改进RWCE算法优化换热网络.pdf: 双种群变异策略改进RWCE算法优化换热网络.pdf

三电平有源电力滤波器仿真：基于瞬时无功功率理论的双闭环控制与SVPWM调制技术: 内容概要：本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器（APF）仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法（ipiq）、双闭环控制策略（电压外环+电流内环PI控制）以及SVPWM矢量调制技术。仿真结果显示，在APF投入前后，电网电流THD从21.9%降至3.77%，显著提高了电能质量。适用人群：从事电力系统研究、电力电子技术开发的专业人士，尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。使用场景及目标：适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性，优化电力系统的电能质量。其他说明：文中提到的仿真模型涉及多个关键模块，如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等，这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。

工业自动化领域OPC DA转MQTT网关软件设计与实现：应对不良网络环境的数据传输解决方案: 内容概要：本文探讨了在工业自动化和物联网交汇背景下，构建OPC DA转MQTT网关软件的需求及其具体实现方法。文中详细介绍了如何利用Python编程语言及相关库（如OpenOPC用于读取OPC DA数据，paho-mqtt用于MQTT消息传递），完成从OPC DA数据解析、格式转换到最终通过MQTT协议发布数据的关键步骤。此外，还讨论了针对不良网络环境下数据传输优化措施以及后续测试验证过程。适合人群：从事工业自动化系统集成、物联网项目开发的技术人员，特别是那些希望提升跨协议数据交换能力的专业人士。使用场景及目标：适用于需要在不同通信协议间建立高效稳定的数据通道的应用场合，比如制造业生产线监控、远程设备管理等。主要目的是克服传统有线网络限制，实现在不稳定无线网络条件下仍能保持良好性能的数据传输。其他说明：文中提供了具体的代码片段帮助理解整个流程，并强调了实际部署过程中可能遇到的问题及解决方案。

基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档（毕业设计&课程设计&项目开发）: 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档~ 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档

少儿编程scratch项目源代码文件案例素材-火柴人终极之战.zip: 少儿编程scratch项目源代码文件案例素材-火柴人终极之战.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论