一、添加数据
#进入hadoop安装目录
cd /usr/local/hadoop
#创建示例文件:input
#在里面输入以下内容:
Hello world, Bye world!
vi input
二、将你写的java程序导出jar包
在Eclipse上右键Export选择JAVA项 导出
在hadoop下新建sbin目录存放jar文件
#mkdir /usr/hadoop/sbin
将jar包放在/usr/hadoop/sbin目录下
三、在集群上运行
在hdfs上创建文件路径
# hadoop fs -mkdir /user/root/test/wordcount
将输入文件拷贝到hdfs
#hadoop fs -put input /user/root/test/wordcount
#执行程序
#hadoop jar /usr/hadoop/sbin/wordcount.jar /user/root/test/wordcount/ output
#程序在执行完毕后查看执行结果
#hadoop fs -cat /user/root/test/wordcount/output/*
#程序将会输出下面的结果:
Bye 1
Hello 1
world! 1
world, 1
至此完毕!
附录:HDFS文件命令
hadoop fs
查看Hadoop HDFS支持的所有命令
hadoop fs –ls
列出目录及文件信息
hadoop fs –lsr
循环列出目录、子目录及文件信息
hadoop fs –put test.txt /user/sunlightcs
将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下
hadoop fs –get /user/sunlightcs/test.txt .
将HDFS中的test.txt复制到本地文件系统中,与-put命令相反
hadoop fs –cat /user/sunlightcs/test.txt
查看HDFS文件系统里test.txt的内容
hadoop fs –tail /user/sunlightcs/test.txt
查看最后1KB的内容
hadoop fs –rm /user/sunlightcs/test.txt
从HDFS文件系统删除test.txt文件,rm命令也可以删除空目录
hadoop fs –rmr /user/sunlightcs
删除/user/sunlightcs目录以及所有子目录
hadoop fs –copyFromLocal test.txt /user/sunlightcs/test.txt
从本地文件系统复制文件到HDFS文件系统,等同于put命令
hadoop fs –copyToLocal /user/sunlightcs/test.txt test.txt
从HDFS文件系统复制文件到本地文件系统,等同于get命令
hadoop fs –chgrp [-R] /user/sunlightcs
修改HDFS系统中/user/sunlightcs目录所属群组,选项-R递归执行,跟linux命令一样
hadoop fs –chown [-R] /user/sunlightcs
修改HDFS系统中/user/sunlightcs目录拥有者,选项-R递归执行
hadoop fs –chmod [-R] MODE /user/sunlightcs
修改HDFS系统中/user/sunlightcs目录权限,MODE可以为相应权限的3位数或+/-{rwx},选项-R递归执行
hadoop fs –count [-q] PATH
查看PATH目录下,子目录数、文件数、文件大小、文件名/目录名
hadoop fs –cp SRC [SRC …] DST
将文件从SRC复制到DST,如果指定了多个SRC,则DST必须为一个目录
hadoop fs –du PATH
显示该目录中每个文件或目录的大小
hadoop fs –dus PATH
类似于du,PATH为目录时,会显示该目录的总大小
hadoop fs –expunge
清空回收站,文件被删除时,它首先会移到临时目录.Trash/中,当超过延迟时间之后,文件才会被永久删除
hadoop fs –getmerge SRC [SRC …] LOCALDST [addnl]
获取由SRC指定的所有文件,将它们合并为单个文件,并写入本地文件系统中的LOCALDST,选项addnl将在每个文件的末尾处加上一个换行符
hadoop fs –touchz PATH
创建长度为0的空文件
hadoop fs –test –[ezd] PATH
对PATH进行如下类型的检查:
-e PATH是否存在,如果PATH存在,返回0,否则返回1
-z 文件是否为空,如果长度为0,返回0,否则返回1
-d 是否为目录,如果PATH为目录,返回0,否则返回1
hadoop fs –text PATH
显示文件的内容,当文件为文本文件时,等同于cat,文件为压缩格式(gzip以及hadoop的二进制序列文件格式)时,会先解压缩
相关推荐
hadoop2.2.0/2.6.0/2.7.0/2.7.1 64位安装包。
3. 伪分布式模式安装:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。 4. 分布式模式安装:使用多个...
(这是Hadoop的基础) 2.必须ssh无密码登录 3./etc/host 里配置 master和slaves 4.修改/etc/hostname 主机名 5、/etc/profile的java和Hadoop配置路径 6.hadoop namenode format 7./hadoop/etc/slaves这个文件里必须...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
hadoop/etc/hadoop/6个文件 core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-env.sh yarn-site.xml
3. **TaskTracker(Hadoop 1.x)或NodeManager(Hadoop 2.x+)**:运行在每个节点上的进程,负责执行由ResourceManager分配的任务。 4. **Map任务**:Map函数接收输入数据,将其切分为键值对,然后应用用户定义的...
标题中的"hadoop/bin/hadoop.dll"指出这是一款与Hadoop框架相关的动态链接库(DLL)文件,它位于Hadoop安装目录的"bin"子目录下。在Windows操作系统中,DLL文件是程序运行所必需的组件,它们包含了可执行文件在运行...
在文档《Eclipse3.3_(windows7)连接远程hadoop(RedHat.Enterprise.Linux.5)并测试程序.doc》中,可能详细介绍了如何在Windows环境下使用Eclipse 3.3连接到运行在Red Hat Enterprise Linux 5上的Hadoop集群,包括了...
关于Hadoop2.7.3在Mac OS下运行时提示的警告: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 解决方法:使用此...
数据算法:Hadoop/Spark大数据处理技巧
在安装hadoop时如果遇到WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform这个错误,请下载该文件放到hadoop目录下,Mac中放到libexec目录下。
hadoop版本3.2.1 hadoop自带的Container-executor在配置yarn-kerberos时存在问题,以及在配置cgroup时需要把container-executor.cfg的上级目录拥有者均改为root,带来不便。 所以需要重新编译Container-executor,...
hadoop安装与配置 hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配置Hadoop 4. 格式化Hadoop文件系统 5. 启动Hadoop 以下是基于Linux系统的简化安装与配置步骤: 1. ...
Hadoop+HBase集群搭建详细手册 本文将详细介绍如何搭建Hadoop+HBase集群,包括前提准备、机器集群结构分布、硬件环境、软件准备、操作步骤等。 一、前提准备 在搭建Hadoop+HBase集群之前,需要准备以下几个组件:...
4. **JDK安装**:Hadoop依赖于Java运行,因此需要在每台服务器上安装JDK 1.7版本。 #### 三、环境配置步骤 1. **创建安装目录**: 在每台服务器上创建用于存放Hadoop安装文件的目录,并设置权限。 ```bash #...
1.安装 Hadoop-gpl-compression 1.1 wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz 1.2 mv hadoop-gpl-compression-0.1.0/lib/native/Linux-...
`HADOOP_HOME`指向你的Hadoop安装目录,`PATH`中添加`%HADOOP_HOME%\bin`,确保能直接运行bin目录下的命令,`JAVA_HOME`则是指向Java运行环境的路径,因为Hadoop是基于Java开发的。 对于Hadoop的本地模式(Local ...
执行`sudo chown -R dm:dm hadoop-0.20.2`,将解压后的Hadoop目录的所有权更改为之前创建的Hadoop用户。 #### 五、配置环境变量 最后,需要在用户的`.bashrc`文件中设置Hadoop和Java相关的环境变量: 1. **编辑`...
- **伪分布式模式**:在这种模式下,所有Hadoop守护进程都在单个节点上运行,但它们作为不同的Java进程运行。这意味着尽管所有组件(如NameNode、DataNode、JobTracker等)都运行在同一台机器上,但是它们之间的交互...