hadoop启动后,
1.首先查看下是否有可以上传的目录,避免再创建的话会重名:
hdfs dfs -ls /
2.创建一个文件夹,专门存放要hadoop要分析的数据文件(注意,这个命令创建的文件夹好像是不存在的,你找不到的,所以你要记住你创建的这个路径文件夹,下面用得着):
hdfs dfs -mkdir -p /home/input
3.把要分析的文件上传上去:
hdfs dfs -put /etc/profile /home/input
4.可以查看下是否已经上传上去了:
hdfs dfs -ls /home/input
5.执行job,其中out目录你可以随便自己定义,命令的意思是通过执行Hadoop自带测试算法“单词wordcount统计算法”,将/home/input下所有的文件执行分析job,得出的结果输出到/home/out(注意:这个输出的目录只能用一次,第二次执行别的计算就得要换个输出目录了)目录里面:
hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /home/input /home/out
6.你可以查看下统计的结果,它会在这个文件夹下生成类似part-****的文件:
hdfs dfs -ls /home/out
7.将结果输出到terminate中进行查看:
hdfs dfs -cat /home/out/part-r-00000
OVER!是否觉得so easy啊,妈妈再也不用担心我的学习了,^-^。。。。
相关推荐
在这个“weekend110--rpcserver”和“weekend110”的小测试例子中,我们可以预期看到吴超老师如何创建一个简单的RPC服务器和客户端。可能包含以下内容: - 服务器端实现一个接口,该接口定义了可供客户端调用的方法...
8. **测试Hadoop**:通过运行简单的Hadoop命令,如 `hadoop fs -ls /` 来检查HDFS是否正常工作。 了解Hadoop的工作原理也很重要。MapReduce的Map阶段将输入数据分片,然后在多个节点上并行处理。Reduce阶段收集Map...
在这个“hadoop简单单词统计”的项目中,我们看到了开发者首次尝试使用Hadoop进行程序编写,实现了对文本数据进行单词统计的功能。这个过程中涉及到的核心知识点包括Hadoop的MapReduce编程模型、Hadoop分布式文件...
在这个例子中,我们将深入理解Hadoop MapReduce的工作原理以及如何在Eclipse环境下实现WordCount源码。 1. **Hadoop MapReduce概述**: Hadoop MapReduce是由两个主要部分组成的:Map阶段和Reduce阶段。Map阶段将...
【标题】中的“hadoop scala spark 例子项目,运行了单机wordcount”指的是一个使用Hadoop、Scala和Spark框架实现的简单WordCount程序。在大数据处理领域,WordCount是入门级的经典示例,用于统计文本文件中单词出现...
总结来说,Hadoop Eclipse插件使得开发者能在熟悉的开发环境中编写、调试和测试Hadoop作业,极大地简化了Hadoop开发流程。通过实例程序的学习,不仅可以加深对Hadoop MapReduce机制的理解,还能提高实际操作能力。...
### Python 成功运行 Hadoop 的关键技术点 ...通过编写简单的Mapper和Reducer程序,以及配置Hadoop环境,可以有效地处理大规模的数据集。这种方式不仅提高了开发效率,而且简化了大数据处理流程。
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 Web...
在本项目“Hadoop的Demo”中,我们深入探索了Hadoop生态系统,这是一个广泛用于大数据处理和分析的开源框架。这个项目特别针对Hadoop初学者,旨在通过一系列实例帮助他们理解并掌握Hadoop的核心概念和技术。 Hadoop...
为了更好地理解HBase的应用场景和优势,我们可以通过一个简单的例子来进行对比分析:假设我们需要存储一篇博客文章的相关信息,包括文章标题、内容、作者姓名和昵称等。 - **关系型数据库(RDBMS)的设计**:在传统...
- **Hadoop集群基准测试**:介绍了如何对Hadoop集群进行基准测试,以评估其性能。 - **云计算中的Hadoop**:探讨了Hadoop在云计算环境下的应用和优势。 #### 十一、Hadoop的管理 - **HDFS管理**:介绍了如何管理和...
在伪分布式环境中,可以测试Hadoop集群的基本功能,如HDFS的读写操作和MapReduce的简单任务。 7. **Web访问Hadoop**:在伪分布式模式下,可以通过浏览器访问Hadoop的Web界面,监控HDFS和YARN的状态,通常默认的Web...
- 在这个例子中,我们有三台机器组成的集群,IP分别为192.168.134.161、162和163,分别作为NameNode(主节点)、DataNode1和DataNode2(从节点)。所有机器上都使用'hadoop'作为用户名,并已预装了JDK1.6。 2. **...
VMware Workstation 16是在个人电脑上创建虚拟机的流行软件,它允许用户在单一...通过搭建这样的环境,可以深入地学习Hadoop的工作原理,进行有效的软件开发和测试,从而为大数据领域的深入研究和开发奠定坚实的基础。
这是一个wordcount的一个简单实例jar包,仅仅用来做测试。 map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer
本教程将引导你通过构建、测试一个简单的MapReduce作业来理解Hadoop的工作流程。 首先,我们要准备MapReduce的输入文件。在Master节点上,我们以root用户登录并切换至hadoop用户,这是因为Hadoop服务通常是以特定...
4. **测试Hadoop功能**:上传文件到HDFS,运行简单的MapReduce作业。 #### 练习题 - 在伪分布式模式下,如何监控HDFS的状态? - 如何使用YARN提交一个MapReduce任务? ### Hadoop完全分布式集群模式 #### 实验...
例如,在文档统计单词出现次数的例子中,`map()`函数遍历文档内容,对每个单词w,输出中间键值对(w, "1")。 2. **Shuffle和Group阶段**: MapReduce库会自动将所有具有相同中间key的value聚合到一起,这一过程称为...
通过上述步骤,我们可以了解到Hadoop MapReduce的基本工作原理及其如何应用于实际问题中,特别是WordCount这类简单但经典的例子。这种分布式处理模型极大地提高了大规模数据处理的效率和性能,为大数据领域的发展...