`
nicegege
  • 浏览: 589498 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop显示hdfs的文件内容

 
阅读更多

1.Exception in thread "main" java.net.ConnectException: Call to master/192.168.1.101:9000 failed on connection exception: java.net.ConnectException: 拒绝连接

        at org.apache.hadoop.ipc.Client.wrapException(Client.java:1142)

        at org.apache.hadoop.ipc.Client.call(Client.java:1118)

        at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:229)

        at com.sun.proxy.$Proxy1.getProtocolVersion(Unknown Source)

        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

        at java.lang.reflect.Method.invoke(Method.java:606)

        at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:85)

hadoop的hdfs没启动,

启动hdfs:到bin目录执行start-dfs.sh

执行命令读取文件内容:

报错[root@localhost bin]# ../bin/hadoop URLCat hdfs://192.168.1.101:9000/root/in/test1.txt

Exception in thread "main" java.io.FileNotFoundException: File does not exist: /root/in/test1.txt

        at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)

        at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)

        at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.<init>(DFSClient.java:1967)

        at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:735)

        at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:165)

        at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:436)

        at org.apache.hadoop.fs.FsUrlConnection.connect(FsUrlConnection.java:46)

        at org.apache.hadoop.fs.FsUrlConnection.getInputStream(FsUrlConnection.java:56)

        at java.net.URL.openStream(URL.java:1037)

        at URLCat.main(URLCat.java:15)

其实 文件test1.txt是存在的。

 

原因:没有把本地文件放到hdfs文件系统内。所以需要本地文件通过hadoop的命令存放到hdfs上。

(1).创建本地文件,当前目录是/usr/local/hadoop1.2.1目录

 mkdir input  //创建input目录

 cd input     //到input目录上

 echo "hello world ">test1.txt  //字符串内不能包含感叹号(!),bash命令无法解析

 echo "hello hadoop">test2.txt

(2).创建好文件后,通过hadoop命令本地文件放到hdfs系统上,当前目录:usr/local/hadoop1.2.1目录

 bin/hadoop fs -put input  ./in  //放到hdf上

 bin/hadoop fs -ls     //检查hdfs文件

运行结果为:

 Found 1 items

 drwxr-xr-x   - root supergroup          0 2015-05-17 01:11 /user/root/in

 

 bin/hadoop fs -cat ./in/test1.txt  //查看文件内容

 

(3).通过hadoop提供的例子,读取刚上传的hdf文件的内容,统计单词

  bin/hadoop jar hadoop-examples-1.2.1.jar  wordcount in out  //统计in目录下,文件内容的单词数量

运行结果为:

15/05/17 01:13:40 INFO input.FileInputFormat: Total input paths to process : 2

15/05/17 01:13:40 INFO util.NativeCodeLoader: Loaded the native-hadoop library

15/05/17 01:13:40 WARN snappy.LoadSnappy: Snappy native library not loaded

15/05/17 01:13:41 INFO mapred.JobClient: Running job: job_201505170049_0001

15/05/17 01:13:42 INFO mapred.JobClient:  map 0% reduce 0%

15/05/17 01:13:52 INFO mapred.JobClient:  map 100% reduce 0%

15/05/17 01:14:28 INFO mapred.JobClient:  map 100% reduce 100%

15/05/17 01:14:31 INFO mapred.JobClient: Job complete: job_201505170049_0001

15/05/17 01:14:31 INFO mapred.JobClient: Counters: 29

15/05/17 01:14:31 INFO mapred.JobClient:   Job Counters 

15/05/17 01:14:31 INFO mapred.JobClient:     Launched reduce tasks=1

15/05/17 01:14:31 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=14618

15/05/17 01:14:31 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0

15/05/17 01:14:31 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0

15/05/17 01:14:31 INFO mapred.JobClient:     Launched map tasks=2

15/05/17 01:14:31 INFO mapred.JobClient:     Data-local map tasks=2

15/05/17 01:14:31 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=27918

15/05/17 01:14:31 INFO mapred.JobClient:   File Output Format Counters 

15/05/17 01:14:31 INFO mapred.JobClient:     Bytes Written=25

15/05/17 01:14:31 INFO mapred.JobClient:   FileSystemCounters

15/05/17 01:14:31 INFO mapred.JobClient:     FILE_BYTES_READ=55

15/05/17 01:14:31 INFO mapred.JobClient:     HDFS_BYTES_READ=241

15/05/17 01:14:31 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=173312

15/05/17 01:14:31 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=25

15/05/17 01:14:31 INFO mapred.JobClient:   File Input Format Counters 

15/05/17 01:14:31 INFO mapred.JobClient:     Bytes Read=25

15/05/17 01:14:31 INFO mapred.JobClient:   Map-Reduce Framework

15/05/17 01:14:31 INFO mapred.JobClient:     Map output materialized bytes=61

15/05/17 01:14:31 INFO mapred.JobClient:     Map input records=2

15/05/17 01:14:31 INFO mapred.JobClient:     Reduce shuffle bytes=61

15/05/17 01:14:31 INFO mapred.JobClient:     Spilled Records=8

15/05/17 01:14:31 INFO mapred.JobClient:     Map output bytes=41

15/05/17 01:14:31 INFO mapred.JobClient:     Total committed heap usage (bytes)=415969280

15/05/17 01:14:31 INFO mapred.JobClient:     CPU time spent (ms)=1550

15/05/17 01:14:31 INFO mapred.JobClient:     Combine input records=4

15/05/17 01:14:31 INFO mapred.JobClient:     SPLIT_RAW_BYTES=216

15/05/17 01:14:31 INFO mapred.JobClient:     Reduce input records=4

15/05/17 01:14:31 INFO mapred.JobClient:     Reduce input groups=3

15/05/17 01:14:31 INFO mapred.JobClient:     Combine output records=4

15/05/17 01:14:31 INFO mapred.JobClient:     Physical memory (bytes) snapshot=318287872

15/05/17 01:14:31 INFO mapred.JobClient:     Reduce output records=3

15/05/17 01:14:31 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=1041612800

15/05/17 01:14:31 INFO mapred.JobClient:     Map output records=4

[root@backup01 hadoop-1.2.1]# bin/hadoop fs -ls

Found 2 items

drwxr-xr-x   - root supergroup          0 2015-05-17 01:11 /user/root/in

drwxr-xr-x   - root supergroup          0 2015-05-17 01:14 /user/root/out

[root@backup01 hadoop-1.2.1]# bin/hadoop fs -ls ./out

Found 3 items

-rw-r--r--   1 root supergroup          0 2015-05-17 01:14 /user/root/out/_SUCCESS

drwxr-xr-x   - root supergroup          0 2015-05-17 01:13 /user/root/out/_logs

-rw-r--r--   1 root supergroup         25 2015-05-17 01:14 /user/root/out/part-r-00000

[root@backup01 hadoop-1.2.1]# bin/hadoop fs -cat ./out/part-r-00000

hadoop  1

hello   2

world   1

 

 

 

 

 

搜索

复制

<iframe src="/admin/blogs/2206799/"></iframe>
分享到:
评论

相关推荐

    hadoop-hdfs-2.6.5-API文档-中文版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.6.5.pom; 包含翻译后的API文档:hadoop-hdfs-2.6.5-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.6.5; 标签:apache、hdfs、hadoop、...

    hadoop-hdfs-client-2.9.1-API文档-中文版.zip

    赠送jar包:hadoop-hdfs-client-2.9.1.jar ...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    hadoop-hdfs-2.7.3-API文档-中英对照版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.7.3.pom; 包含翻译后的API文档:hadoop-hdfs-2.7.3-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.7.3; 标签:apache、hdfs、...

    hadoop-hdfs-client-2.9.1-API文档-中英对照版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-client-2.9.1.pom; 包含翻译后的API文档:hadoop-hdfs-client-2.9.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs-client:2.9.1;...

    大数据--Hadoop HDFS

    HDFS采用主从架构,其中NameNode负责管理文件系统的命名空间以及客户端对文件的访问,而DataNode负责存储实际的数据块。 - **MapReduce**:用于处理和生成大型数据集,是一种分布式计算模型。它将复杂的任务分解成一...

    hadoop-hdfs-2.5.1-API文档-中文版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.5.1.pom; 包含翻译后的API文档:hadoop-hdfs-2.5.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.5.1; 标签:apache、hadoop、hdfs、...

    hadoop-hdfs-2.7.3-API文档-中文版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.7.3.pom; 包含翻译后的API文档:hadoop-hdfs-2.7.3-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.7.3; 标签:apache、hdfs、hadoop、...

    hadoop-hdfs-2.5.1-API文档-中英对照版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.5.1.pom; 包含翻译后的API文档:hadoop-hdfs-2.5.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.5.1; 标签:apache、hadoop...

    java 从hadoop hdfs读取文件 进行groupby并显示为条形图

    3. **从HDFS读取文件**:使用`FileSystem`类的`open()`方法可以打开HDFS中的文件,然后通过`FSDataInputStream`读取内容。数据通常是以文本格式存储,如CSV或TSV,便于解析成Java对象。 4. **数据解析与预处理**:...

    hadoop-hdfs-2.9.1-API文档-中文版.zip

    赠送jar包:hadoop-hdfs-2.9.1.jar ...使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心使用。

    hadoop-hdfs-2.6.5-API文档-中英对照版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.6.5.pom; 包含翻译后的API文档:hadoop-hdfs-2.6.5-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.6.5; 标签:apache、hdfs、...

    hadoop-hdfs-2.9.1-API文档-中英对照版.zip

    赠送Maven依赖信息文件:hadoop-hdfs-2.9.1.pom; 包含翻译后的API文档:hadoop-hdfs-2.9.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.hadoop:hadoop-hdfs:2.9.1; 标签:apache、hadoop...

    大数据技术之Hadoop(HDFS文件系统).doc

    - `-cat`用于查看HDFS文件内容。 - `-count`统计HDFS路径下文件和目录的数量。 - `-cp`复制HDFS上的文件或目录。 - `-get`将HDFS上的文件或目录下载到本地。 - `-mkdir`创建HDFS目录等。 5. **HDFS优化** - ...

    idea hadoop-hdfs插件

    6. 日志查看:在操作HDFS文件时,插件会显示相关的操作日志,帮助开发者追踪和解决问题。 在安装与使用这款插件时,用户需要注意以下几点: 1. 安装流程:首先,从插件市场搜索"Idea hadoop-hdfs插件"并下载,然后...

    hadoop中hdfs文件(上传、下载、查看)操作.docx

    在Hadoop生态系统中,HDFS(Hadoop Distributed File System)是分布式存储的核心组件,它提供了高容错性和高吞吐量的数据访问。本文件描述的是一个名为`HdfsService`的Java类,该类用于执行HDFS上的基本文件操作,...

    hadoop 2.7.1 hdfs-over-ftp

    总结以上内容,本文档详细介绍了如何在Hadoop 2.7.1环境中设置和运行hdfs-over-ftp,包括环境准备、依赖配置、用户设置、服务配置和启动等步骤。这些步骤是操作Hadoop HDFS通过FTP协议对外提供服务的基础,有助于...

    Hadoop_HDFS系统双机热备方案.pdf

    在展开有关Hadoop HDFS系统双机热备方案的知识点前,首先需要了解双机热备的基本概念,HDFS的基本架构以及如何搭建Hadoop集群。在这些基础之上,才能更深入地理解双机热备方案的设计理念及其实施步骤。 双机热备,...

    Hadoop-HDFS-实践教程

    此外,教程还会介绍如何通过Java API来操作HDFS,例如:如何读写文件、如何查看文件系统的状态、如何管理HDFS中的数据。 学习Hadoop-HDFS实践教程,你可以了解到如何进行大规模数据集的存储和处理。Hadoop-HDFS实践...

    2大数据技术之Hadoop(HDFS文件系统).doc

    - `bin/hadoop fs -cat`:查看HDFS上的文件内容。 - `bin/hadoop fs -mv`:重命名或移动HDFS上的文件或目录。 - `bin/hadoop fs -delete`:删除HDFS上的文件或目录。 ### 数据冗余与容错性 HDFS通过在不同的...

Global site tag (gtag.js) - Google Analytics