`
youkimra
  • 浏览: 34580 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch 在hadoop运行时引用包不同所引发的问题

阅读更多
今天在部署Nutch的时候出现一个小问题,
Exception in thread "main" java.io.IOException: Call to /172.0.8.252:9000 failed on local exception: java.io.EOFException
	at org.apache.hadoop.ipc.Client.wrapException(Client.java:1089)
	at org.apache.hadoop.ipc.Client.call(Client.java:1057)
	at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)
	at $Proxy0.getProtocolVersion(Unknown Source)
	at org.apache.hadoop.ipc.RPC.getProxy(RPC.java:369)
	at org.apache.hadoop.hdfs.DFSClient.createRPCNamenode(DFSClient.java:111)
	at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:213)
	at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:180)
	at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:89)
	at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1489)
	at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
	at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:1523)
	at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1505)
	at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:227)
	at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:110)
	at org.apache.nutch.crawl.Crawl.copyUrlFile(Crawl.java:129)
	at org.apache.nutch.crawl.Crawl.main(Crawl.java:505)
Caused by: java.io.EOFException
	at java.io.DataInputStream.readInt(DataInputStream.java:375)
	at org.apache.hadoop.ipc.Client$Connection.receiveResponse(Client.java:781)
	at org.apache.hadoop.ipc.Client$Connection.run(Client.java:689)


后来才发现是在nutch 中引用的是hadoop-core-0.20.3-CDH3-SNAPSHOT.jar 而运行的hadoop系统中是
hadoop-0.20.2-core.jar       
hadoop-0.20.2-examples.jar   
hadoop-0.20.2-fairscheduler.jar
hadoop-0.20.2-test.jar
因此造成了无法访问hdfs
分享到:
评论
1 楼 chenyuxxgl 2011-09-27  
请问你的nutch是什么版本

相关推荐

    Nutch+solr + hadoop相关框架搭建教程

    这是 Nutch 的核心配置文件,包含了 Nutch 在运行时的各种参数设置。深入理解每个配置项的含义,结合源代码,可以实现对 Nutch 的定制化配置,以适应不同的爬取需求。 【版本控制与构建工具】 在 Nutch 的开发过程...

    基于Nutch和Hadoop的分布式搜索引擎探究.pdf

    此外,Nutch的设计允许其运行在分布式平台上,并能够很好地与Hadoop进行集成。 Hadoop是一个开源框架,用于分布式存储和处理大数据。它借鉴了Google的MapReduce、Google File System和BigTable技术。Hadoop的设计...

    nutch

    这些步骤在 Hadoop 的 MapReduce 框架下运行,确保了高效性和可扩展性。 1. **种子页面生成**:用户可以提供初始的 URL 列表作为种子,Nutch 会从这些种子出发开始抓取。 2. **页面抓取**:Nutch 使用 HTTP 协议...

    Hadoop运行原理分析

    Hadoop运行原理分析主要涉及MapReduce编程模式、HDFS的架构以及Hadoop分布式计算的基本流程。以下是对该文件内容的详细解析。 1. Hadoop概述 Hadoop是一个能够处理海量数据的分布式计算框架,它基于Google开发的...

    Nutch程序运行环境配置

    Nutch程序运行环境配置是Java开发中的一个重要环节,特别是在Windows操作系统上进行Nutch相关的开发工作。Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,通常与Hadoop等大数据处理框架结合使用...

    Hadoop-core-1.2.1

    该Jar包是用来替换Nutch1.7在windows下执行因权限报错的问题。 替换掉原来的Hadoop-core-1.2.0.jar

    Eclipse中编译运行Hadoop-0.20.1源码

    在Eclipse中编译和运行Hadoop-0.20.1源码是理解Hadoop工作原理和进行源代码级调试的重要步骤。以下是一个详细的过程,涵盖了从环境准备到源码编译和运行的全部环节。 首先,确保你的开发环境满足必要的前提条件。在...

    hadoop的核心文件

    在Nutch中,使用了经过重新编译的Hadoop核心库,这些库针对特定问题进行了优化,解决了由于原版Hadoop JAR包导致的各种问题。这通常意味着修复了某些bug,提高了性能,或者增加了对新功能的支持。 Hadoop的核心文件...

    Seeker---A-Search-Engine:使用 Nutch 和 Hadoop 实现搜索引擎

    使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB数据库中,响应速度更快,扩展性更强。 Web 应用程序使用...

    提高nutch运行效率的原理与方法

    在实际应用中,由于Nutch的默认配置和工作流程可能存在效率问题,因此,理解其运行原理并进行优化是提高Nutch性能的关键。本文将详细探讨提高Nutch运行效率的原理与方法。 首先,我们要理解Nutch的运行过程。Nutch...

    Nutch入门教程 高清 带书签

    通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等步骤,逐步掌握Nutch的使用。 总结来说,Nutch是一款强大的开源搜索引擎...

    Apache Nutch v1.15

    在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析...

    Hadoop API帮助文档

    Hadoop API帮助文档,学习Nutch和Hadoop必备

    hadoop-core-1.2.0.jar

    解决nutch 1.9在cgywin中运行报Injector: java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator139727905\.staging to 0700错误的问题,即修改hadoop-...

    nutch开发资料 搜索引擎

    10. **部署与运行**:Nutch项目可以在本地单机模式下运行,也可以在Hadoop集群上分布式运行。通过命令行工具,可以启动爬虫、生成索引、执行搜索等操作。 总的来说,这份"nutch开发资料 搜索引擎"包含的资源对于想...

    eclipse配置nutch,eclipse配置nutch

    然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...

    Nutch相关框架视频教程 (1-20)(PDF)

    4. **搜索引擎三巨头**:Lucene、Nutch和Hadoop在搜索技术领域非常有名,它们共同构成了现代搜索引擎的基础。 - **Lucene**:是一个高性能的全文搜索引擎库,可以嵌入到应用程序中,实现高效的数据索引和查询。 - ...

    nutch工具包

    通过研究这个Nutch工具包,开发者可以了解到Nutch的架构设计,如何配置和运行爬虫,以及如何处理抓取的数据。这对于开发自己的网络爬虫系统或者在现有基础上进行定制化开发非常有帮助。同时,Nutch的源代码也可以...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    在搭建Hadoop-2.4.0集群时,首先需要确保系统已安装必要的依赖包和工具,包括Maven 3.0或更高版本,Findbugs 1.3.9(如果要运行findbugs),ProtocolBuffer 2.5.0以及CMake 2.6或更新版本(如果要编译本地代码)。...

Global site tag (gtag.js) - Google Analytics