用python编写MapReduce - soledede - ITeye博客

`

wbj0110

浏览: 1618170 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

用python编写MapReduce

博客分类：

Python
MapReduce.Hadoop

用python编写MapReduce Hadoop Mapreduce

阅读更多

vi mapper.py

输入：

#!/usr/bin/env python

importsys

for linein sys.stdin:

line= line.strip()

words= line.split()

forword in words:

print'%s\t%s' % (word,1)

chmod +x mapper.py

vi reducer.py

输入：

#!/usr/bin/envpython

from operator import itemgetter

import sys

current_word = None

current_count = 0

word = None

for line in sys.stdin:

line = line.strip()

word, count =line.split('\t', 1)

try:

count =int(count)

except ValueError:

continue

if current_word ==word:

current_count+= count

else:

ifcurrent_word:

print'%s\t%s' % (current_word, current_count)

current_count= count

current_word= word

if current_word:

print'%s\t%s' % (current_word, current_count)

chmod +x reducer.py

本地操作系统测试：

echo "foo fooquux labs foo bar quux" | ./mapper.py | sort | ./reducer.py

提交HADOOP集群运行：

hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -input input -output output-streaming-python -mapper /home/ysc/mapper.py -reducer /home/ysc/reducer.py

分享到：

linux 查找目录或文件 | How to get thread dump in linux using js ...

2013-11-01 08:40
浏览 707
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python 实现mapreduce词频统计: python实现mapreduce词频统计执行方式：打开cmd命令，cd到代码所在文件夹，输入python wordcout_map.py > words.txt | sort | python wordcout_reduce.py执行

使用hadoop-streaming运行Python编写的MapReduce程序.rar: 这个压缩包“使用hadoop-streaming运行Python编写的MapReduce程序.rar”显然是一个教程或示例，旨在指导用户如何利用Python编写MapReduce任务，并通过Hadoop Streaming进行执行。 MapReduce是一种编程模型，由...

Python执行MapReduce测试: 通过上述步骤，我们成功地使用Python实现了MapReduce的基本功能，并在Hadoop平台上进行了测试。这种测试不仅验证了MapReduce程序的正确性，也为实际应用中处理大规模数据提供了基础。需要注意的是，在实际生产环境中...

使用python实现mapreduce（wordcount）.doc: 尽管Hadoop的原生实现是基于Java，但Hadoop Streaming允许我们使用任意语言（如Python）编写MapReduce程序。Hadoop Streaming的工作原理是，mapper和reducer程序只需从标准输入读取并写入标准输出即可。 1. **...

python hadoop mapreduce 相似用户|mapreduce.rar: 本文将深入探讨如何使用Python来编写Hadoop MapReduce程序，以实现微博关注者之间的相似用户分析。这个任务的关键在于理解并应用分布式计算原理，以及熟悉Python编程语言在大数据环境下的应用。首先，Hadoop ...

windows下编写mapreduce程序: 在Windows上编写MapReduce程序时，UnxUtils可以帮助你模拟Linux环境，因为Hadoop通常是与Unix/Linux环境一起使用的。 3. **编程语言**：MapReduce程序通常用Java编写，因为它是最兼容的编程语言，Hadoop的API也主要...

hadoop-python-mapreduce:有关如何使用Python运行Hadoop MapReduce的教程: Hadoop和Python的Mapreduce 关于如何使用Python和Hadoop执行MapReduce的一小段回购。映射器和化简器都是用Python编写的。有关如何在Hadoop中实现这两个脚本的教程位于。

hadoop运行python编写的mapreduce程序: 利用hadoop-streaming框架运行python脚本指令

python MapReduce的wordcount: 在本篇文章中，我们将深入探讨如何使用 Python 实现一个简单的 MapReduce WordCount 应用。 #### 二、MapReduce 基本思想 MapReduce 的工作原理依赖于将大数据集分割成多个小块，然后将这些小块并行地处理。具体来...

Python——机器学习实战——大数据与MapReduce: 这些API提供了方便的接口，使得开发者可以用Python编写MapReduce作业。例如，你可以在map函数中使用scikit-learn的模型进行训练，然后在reduce函数中进行模型的融合或结果的统计。在大数据与机器学习实战中，我们...

Python-mrjob在Hadoop或AmazonWebServices上运行MapReduce作业: 这个库简化了在分布式计算系统中执行数据处理任务的过程，使得Python开发者无需深入理解Hadoop的底层细节也能编写MapReduce程序。 MapReduce是一种编程模型，由Google提出，用于大规模数据集的并行处理。它将大数据...

python hadoop: 5. **JPython MapReduce框架Pydoop等**：Pydoop是一个Python接口，用于Hadoop的MapReduce，它允许开发者使用Python编写MapReduce程序，从而充分利用Python的灵活性和易用性。 #### 四、Python结合Hadoop构建数据...

Python中Hadoop MapReduce的一个简单示例.zip: 在Python中，我们通常使用Pydoop库来编写MapReduce作业。Pydoop提供了Python接口，允许开发者以Python代码编写Map和Reduce函数，然后提交到Hadoop集群运行。例如，Map函数可能会解析文本行，寻找关键词，而Reduce...

MapReduce2.0程序设计多语言编程（理论+实践）: 在这个框架下，程序员可以使用多种语言编写应用程序，不仅限于Java，还包括Python、Scala和其他支持的脚本语言。理论部分： 1. **MapReduce编程模型**：MapReduce的核心是Map和Reduce两个函数。Map负责将输入数据...

python编写MR: Python 编写 MR，即 MapReduce，是一种分布式计算模型，常用于大数据处理。Hadoop 是一个开源框架，它实现了 Google 的 MapReduce 模型，并且提供了数据存储（HDFS）和计算（MapReduce）的能力。在 Hadoop 中，...

HadoopStreamingPythonDemo:一个使用Hadoop流和Python编写MapReduce程序的演示: HadoopStreamingPython演示这是使用Hadoop流和Python实现“字数统计”示例的经典演示。 runStreaming.sh运行hadoop2.5.2流jar。 testLocally.sh使用本地Linux排序和管道工具测试映射器和化简器。

Python-CouchApp是一个开发使用CouchDB的Web应用的小型框架: 1. **视图（Views）**：使用Python编写MapReduce函数，用于数据的检索和聚合。 2. **验证函数（Validation Functions）**：确保文档在存储到数据库前满足特定的业务规则。 3. **更新函数（Update Functions）**：...

Mapreduce-1python中的MapReduce的孙子祖父母对.zip: 这个"Mapreduce-1python中的MapReduce的孙子祖父母对"主题可能涉及到使用Python实现MapReduce模型，并专注于一个特定的应用场景：寻找数据结构中的孙子与祖父母关系。 MapReduce的核心思想是将大型数据集分割成小块...

Mapreduce-1:python中的MapReduce的孙子/祖父母对: Python中实现MapReduce的一个常见库是`mrjob`，它是一个用于编写Hadoop和Amazon EMR MapReduce作业的库。`mrjob`简化了本地测试和集群部署的过程。在`mrjob`中，你可以定义`run_mapper`和`run_reducer`方法来实现...

使用 python 操作大数据的各种组件.zip: Python的Hadoop库，如Pydoop，允许开发者使用Python编写MapReduce作业。 5. **Apache Hive**: Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Python可以使用...

Global site tag (gtag.js) - Google Analytics