所有操作,假定hadoop集群已经正常部署。
Python源码
mapper.py
#!/usr/bin python
import sys
# input comes from STDIN (standard input)
for line in sys.stdin:
line = line.strip()
words = line.split()
for word in words:
print '%s\\t%s' % (word, 1)
reduce.py
#!/usr/bin python
from operator import itemgetter
import sys
word2count = {}
# input comes from STDIN
for line in sys.stdin:
line = line.strip()
word, count = line.split('\\t', 1)
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
except ValueError:
# count was not a number, so silently
# ignore/discard this line
pass
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))
for word, count in sorted_word2count:
print '%s\\t%s'% (word, count)
先后存储在/home/src下,然后,cd到此目录
在hdfs上建立测试目录:
ls
hadoop fs -ls /user/hdfs
mkdir
hadoop fs -mkdir /user/hdfs/test
从本地磁盘copy测试文件到hdfs
hadoop fs -copuFromLocal /home/src/*.txt /user/hdfs/test/
使用streaming.jar执行mapreduce任务
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -mapper mapper.py -reducer reducer.py -file mapper.py -file reducer.py -input /user/hdfs/test/* -output /user/hdfs/test/reducer -mapper cat -reducer aggregate
执行结果:
......
14/11/26 12:54:52 INFO mapreduce.Job: map 0% reduce 0%
14/11/26 12:54:59 INFO mapreduce.Job: map 100% reduce 0%
14/11/26 12:55:04 INFO mapreduce.Job: map 100% reduce 100%
14/11/26 12:55:04 INFO mapreduce.Job: Job job_1415798121952_0179 completed successfully
......
14/11/26 12:55:04 INFO streaming.StreamJob: Output directory: /user/hdfs/test/reducer
......
查看执行结果集文件
hadoop fs -ls /user/hdfs/test
......
drwxr-xr-x - root Hadoop 0 2014-11-26 12:55 /user/hdfs/test/reducer
......
分享到:
相关推荐
python实现mapreduce词频统计 执行方式:打开cmd命令,cd到代码所在文件夹,输入python wordcout_map.py > words.txt | sort | python wordcout_reduce.py执行
这个压缩包“使用hadoop-streaming运行Python编写的MapReduce程序.rar”显然是一个教程或示例,旨在指导用户如何利用Python编写MapReduce任务,并通过Hadoop Streaming进行执行。 MapReduce是一种编程模型,由...
在大数据处理领域,Python、Hadoop MapReduce是两个非常重要的工具。本文将深入探讨如何使用Python来编写Hadoop MapReduce程序,以实现微博关注者之间的相似用户分析。这个任务的关键在于理解并应用分布式计算原理,...
这个示例是关于如何使用Python来实现MapReduce的简单演示。Python虽然不是原生支持MapReduce的语言(如Java),但通过自定义编程可以实现类似的功能。下面我们将详细讨论Python MapReduce的基本概念、实现原理以及...
这个名为"Python中Hadoop MapReduce的一个简单示例.zip"的压缩包,显然是为了帮助用户理解如何在Python环境下利用Hadoop MapReduce框架进行数据处理。我们将详细探讨MapReduce的基本概念、工作原理以及Python在...
标题“Mapreduce-1python中的MapReduce的孙子祖父母对”可能是指一个Python项目,该项目使用MapReduce模式来处理数据,特别是关于“孙子”和“祖父母”的关系分析。这种关系可能出现在如社交网络、家族树或历史记录...
在大数据处理领域,Java 通常是首选语言,但考虑到Python在数据挖掘和深度学习中的便利性,我们可以使用Python来实现MapReduce。本篇文章将探讨如何在Hadoop平台上利用Python实现WordCount,一个经典的MapReduce示例...
Python手撕算法MapReduce_and_filter
本项目是一个基于Java和Python语言的MapReduce实现关系数据库学生表自然连接的源码,包含28个文件,包括6个类文件、4个Java源文件、2个文档文件、2个属性文件、2个Markdown文件、2个CSV文件、2个Excel文件、1个数据...
Hadoop和Python的Mapreduce 关于如何使用Python和Hadoop执行MapReduce的一小段回购。 映射器和化简器都是用Python编写的。 有关如何在Hadoop中实现这两个脚本的教程位于。
高分毕业设计 基于Python爬虫+MapReduce分析的招聘信息大数据可视化系统源码+部署文档+全部数据资料高分毕业设计 基于Python爬虫+MapReduce分析的招聘信息大数据可视化系统源码+部署文档+全部数据资料 【备注】 1、...
在本篇文章中,我们将深入探讨如何使用 Python 实现一个简单的 MapReduce WordCount 应用。 #### 二、MapReduce 基本思想 MapReduce 的工作原理依赖于将大数据集分割成多个小块,然后将这些小块并行地处理。具体来...
在这个场景中,"Mapreduce-1:python中的MapReduce的孙子/祖父母对"可能是指一个具体的示例或练习,其中涉及到对数据进行层次关系分析,比如找出数据集中某个节点的所有子孙或祖父母节点。 Map阶段是MapReduce的第一...
dpark, 在 python 中,Spark的python 克隆,一个MapReduce相似的框架 DPark DPark是Spark的python 克隆,类似于支持迭代计算的MapReduce(R) 计算框架。单词计数( wc.py )的示例:import dparkfile = dpark.textFi
利用hadoop-streaming框架运行python脚本指令
可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./
Python的`mrjob`库是开发和运行MapReduce作业的强大工具,尤其适用于在Hadoop或Amazon Web Services (AWS)环境中。这个库简化了在分布式计算系统中执行数据处理任务的过程,使得Python开发者无需深入理解Hadoop的...