Hadoop集群安装好后,可以测试hadoop的基本功能。hadoop自带了一个jar包(hadoop-examples-0.20.205.0.jar,不同版本最后不同)中wordcount程序可以测试统计单词的个数,先来体验一下再说。
- [hadoop@master ~]$ mkdir input #先创建一个输入目录
- [hadoop@master ~]$ cd input/
- [hadoop@master input]$ echo "hello world">text1.txt #将要输入的文件放到该目录
- [hadoop@master input]$ echo "hello hadoop">text2.txt
- [hadoop@master input]$ ls
- text1.txt text2.txt
- [hadoop@master input]$ cat text1.txt
- hello world
- [hadoop@master input]$ cat text2.txt
- hello hadoop
- [hadoop@master input]$ cd ..
- [hadoop@master ~]$ ls
- input log 公共的 模板 视频 图片 文档 下载 新文件~ 音乐 桌面
- [hadoop@master ~]$ /usr/bin/hadoop dfs -put ./input in #将input目录中的两个文件放到hdfs中
- [hadoop@master ~]$ /usr/bin/hadoop dfs -ls ./in/* #查看hdfs中的两个文件
- -rw-r--r-- 2 hadoop supergroup 12 2012-09-13 16:16 /user/hadoop/in/text1.txt
- -rw-r--r-- 2 hadoop supergroup 13 2012-09-13 16:16 /user/hadoop/in/text2.txt
- #运行hadoop自带的一个jar包中的wordcount程序,这个程序统计单词的出现次数
- #程序的输入是in这个目录中的两个文件,结果输出到out目录
- [hadoop@master ~]$ /usr/bin/hadoop jar /usr/hadoop-examples-0.20.205.0.jar wordcount in out
- 12/09/13 16:20:32 INFO input.FileInputFormat: Total input paths to process : 2
- 12/09/13 16:20:36 INFO mapred.JobClient: Running job: job_201209131425_0001
- 12/09/13 16:20:37 INFO mapred.JobClient: map 0% reduce 0%
- 12/09/13 16:23:38 INFO mapred.JobClient: map 50% reduce 0%
- 12/09/13 16:24:31 INFO mapred.JobClient: map 100% reduce 16%
- 12/09/13 16:24:40 INFO mapred.JobClient: map 100% reduce 100%
- 12/09/13 16:24:45 INFO mapred.JobClient: Job complete: job_201209131425_0001
- 12/09/13 16:24:45 INFO mapred.JobClient: Counters: 29
- 12/09/13 16:24:45 INFO mapred.JobClient: Job Counters
- 12/09/13 16:24:45 INFO mapred.JobClient: Launched reduce tasks=1
- 12/09/13 16:24:45 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=230205
- 12/09/13 16:24:45 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
- 12/09/13 16:24:45 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
- 12/09/13 16:24:45 INFO mapred.JobClient: Launched map tasks=3
- 12/09/13 16:24:45 INFO mapred.JobClient: Data-local map tasks=3
- 12/09/13 16:24:45 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=58667
- 12/09/13 16:24:45 INFO mapred.JobClient: File Output Format Counters
- 12/09/13 16:24:45 INFO mapred.JobClient: Bytes Written=25
- 12/09/13 16:24:45 INFO mapred.JobClient: FileSystemCounters
- 12/09/13 16:24:45 INFO mapred.JobClient: FILE_BYTES_READ=55
- 12/09/13 16:24:45 INFO mapred.JobClient: HDFS_BYTES_READ=241
- 12/09/13 16:24:45 INFO mapred.JobClient: FILE_BYTES_WRITTEN=64354
- 12/09/13 16:24:45 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=25
- 12/09/13 16:24:45 INFO mapred.JobClient: File Input Format Counters
- 12/09/13 16:24:45 INFO mapred.JobClient: Bytes Read=25
- 12/09/13 16:24:45 INFO mapred.JobClient: Map-Reduce Framework
- 12/09/13 16:24:45 INFO mapred.JobClient: Map output materialized bytes=61
- 12/09/13 16:24:45 INFO mapred.JobClient: Map input records=2
- 12/09/13 16:24:45 INFO mapred.JobClient: Reduce shuffle bytes=61
- 12/09/13 16:24:45 INFO mapred.JobClient: Spilled Records=8
- 12/09/13 16:24:45 INFO mapred.JobClient: Map output bytes=41
- 12/09/13 16:24:45 INFO mapred.JobClient: CPU time spent (ms)=13840
- 12/09/13 16:24:45 INFO mapred.JobClient: Total committed heap usage (bytes)=319361024
- 12/09/13 16:24:45 INFO mapred.JobClient: Combine input records=4
- 12/09/13 16:24:45 INFO mapred.JobClient: SPLIT_RAW_BYTES=216
- 12/09/13 16:24:45 INFO mapred.JobClient: Reduce input records=4
- 12/09/13 16:24:45 INFO mapred.JobClient: Reduce input groups=3
- 12/09/13 16:24:45 INFO mapred.JobClient: Combine output records=4
- 12/09/13 16:24:45 INFO mapred.JobClient: Physical memory (bytes) snapshot=329932800
- 12/09/13 16:24:45 INFO mapred.JobClient: Reduce output records=3
- 12/09/13 16:24:45 INFO mapred.JobClient: Virtual memory (bytes) snapshot=1133260800
- 12/09/13 16:24:45 INFO mapred.JobClient: Map output records=4
- #运行完成后,可以看到多了一个out目录,注意hdfs中没有当前目录的概念,也不能使用cd命令
- [hadoop@master ~]$ /usr/bin/hadoop dfs -ls
- Found 2 items
- drwxr-xr-x - hadoop supergroup 0 2012-09-13 16:16 /user/hadoop/in
- drwxr-xr-x - hadoop supergroup 0 2012-09-13 16:24 /user/hadoop/out
- [hadoop@master ~]$ /usr/bin/hadoop dfs -ls ./out #进入到out目录
- Found 3 items
- -rw-r--r-- 2 hadoop supergroup 0 2012-09-13 16:24 /user/hadoop/out/_SUCCESS
- drwxr-xr-x - hadoop supergroup 0 2012-09-13 16:20 /user/hadoop/out/_logs
- -rw-r--r-- 2 hadoop supergroup 25 2012-09-13 16:24 /user/hadoop/out/part-r-00000
- [hadoop@master ~]$ /usr/bin/hadoop dfs -cat ./out/part-r-00000 #查看结果
- hadoop 1
- hello 2
- world 1
- [hadoop@master ~]$
相关推荐
Hadoop集群测试报告
### Hadoop集群测试报告知识点详解 #### 一、集群设置 **1. 服务器配置** - **CPU**: 每台服务器配置了24个核心,这意味着每台服务器具有较高的并行处理能力,适合进行大规模的数据处理任务。 - **内存**: 128GB...
八、Hadoop集群测试 前言 Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台,用户可借助Hadoop存有基础环境的配置(虚拟机安装、Linux安装等),Hadoop集群搭建,配置和测试。 一、虚拟机的安装 ...
VMware虚拟机可以模拟多台机器,方便Hadoop集群的安装和测试。 安装环境 在安装Hadoop集群之前,需要安装好JDK。JDK是Hadoop的基本组件,用于编译和运行Hadoop应用程序。 修改主机名 在安装Hadoop集群时,可以...
3. **Hadoop集群测试**: - 执行简单的MapReduce任务测试集群的运行情况。 - 使用Hadoop自带的WordCount示例程序验证集群工作状态。 #### 五、Hadoop集群运维管理 1. **监控工具**: - 使用Hadoop自带的Web界面...
自动化安装hadoop集群 脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,...
本篇将详细讲解如何利用Ansible自动安装Hadoop集群。 首先,理解Ansible的工作原理至关重要。Ansible基于SSH(Secure Shell)协议,无需在目标节点上安装任何代理,通过控制节点即可实现远程管理。它使用YAML格式的...
最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群。 0. 写在前面 网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程。 目标:使用docker搭建一个一主两从三台机器...
#### 四、Hadoop集群测试 - **WordCount案例**:实验最后将测试运行Hadoop的经典案例——WordCount程序,以验证Hadoop集群的正确配置及功能完整性。 ### 结语 通过以上步骤,不仅可以完成Hadoop集群的基础部署,...
《Hadoop集群程序设计与开发教材最终代码》这个压缩包文件是针对学习和理解Hadoop分布式计算框架的重要教学资源。Hadoop是Apache软件基金会开发的一个开源项目,它为大规模数据处理提供了一种分布式、容错性强的解决...
7. **Hadoop集群测试**:包括格式化NameNode,启动HDFS服务,运行WordCount等示例程序,验证Hadoop集群的正确性和功能性。 8. **使用Hadoop集群**:学习如何提交任务、监控作业状态、查看日志等,理解Hadoop ...
标题 "IDE直接和Hadoop集群连接" 描述的是如何利用集成开发环境(IDE)与Hadoop分布式文件系统(HDFS)以及MapReduce框架进行交互,从而实现直接在IDE内进行开发和测试的功能。Hadoop是一个开源的大数据处理框架,由...
7. **Hadoop集群测试**:通过运行简单的MapReduce任务来验证集群的正确性,例如WordCount程序,检查数据的分发和处理是否正常。 8. **使用Hadoop集群**:了解如何在Hadoop集群上提交作业,处理大数据任务。 在教学...
5. 测试Hadoop集群 常见错误总结: * Namenode未启动 * Datanode未启动 * JobTracker未启动 * TaskTracker未启动 * 数据存储错误 * 任务执行错误 解决方法: * Namenode未启动:检查 Namenode 配置文件,检查 ...
本文将详细阐述如何搭建Hadoop集群以及进行MapReduce程序的关键点个性化开发。 首先,我们来看任务1——Hadoop集群的部署。这一步至关重要,因为它为整个大数据处理系统提供了基础架构。在虚拟机中安装Ubuntu Kylin...
通过对Mapred-site.xml和core-site.xml中的各项参数进行细致调整,并结合合适的压缩算法和调度策略,可以实现Hadoop集群性能的最大化。这需要根据具体的工作负载和硬件环境进行试验和分析,找到最适合的配置组合。
将myEclipse与Hadoop集群远程连接起来,可以方便地在开发环境中编写、测试和部署Hadoop应用程序,从而实现高效的数据分析和处理。 首先,我们需要了解myEclipse中的远程系统视图(Remote Systems View)。这是...
最后,进行集群测试。可以使用Hadoop自带的WordCount程序,将文本数据输入HDFS,然后运行MapReduce作业,观察输出结果是否正确。如果一切顺利,恭喜你,你已经成功搭建了一个基本的Hadoop集群。 Hadoop集群的维护和...