`
wbj0110
  • 浏览: 1604610 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

用python编写MapReduce

阅读更多

  vi mapper.py

      输入:

             #!/usr/bin/env python

 

             importsys

 

             for linein sys.stdin:

                           line= line.strip()

                           words= line.split()

                           forword in words:

                                         print'%s\t%s' % (word,1)

      chmod +x mapper.py

      vi reducer.py

      输入:

            #!/usr/bin/envpython

 

            from operator import itemgetter

 

            import sys

 

            current_word = None

            current_count = 0

            word = None

 

            for line in sys.stdin:

                          line = line.strip()

                          word, count =line.split('\t', 1)

                          try:

                                        count =int(count)

                          except ValueError:

                                        continue

                          if current_word ==word:

                                        current_count+= count

                          else:

                                        ifcurrent_word:

                                                      print'%s\t%s' % (current_word, current_count)

                                        current_count= count

                                        current_word= word

            if current_word:

                           print'%s\t%s' % (current_word, current_count)

      chmod +x reducer.py

      本地操作系统测试:

      echo "foo fooquux labs foo bar quux" | ./mapper.py | sort | ./reducer.py

      提交HADOOP集群运行:

      hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -input input -output output-streaming-python  -mapper /home/ysc/mapper.py -reducer /home/ysc/reducer.py

分享到:
评论

相关推荐

    python 实现mapreduce词频统计

    python实现mapreduce词频统计 执行方式:打开cmd命令,cd到代码所在文件夹,输入python wordcout_map.py > words.txt | sort | python wordcout_reduce.py执行

    使用hadoop-streaming运行Python编写的MapReduce程序.rar

    这个压缩包“使用hadoop-streaming运行Python编写的MapReduce程序.rar”显然是一个教程或示例,旨在指导用户如何利用Python编写MapReduce任务,并通过Hadoop Streaming进行执行。 MapReduce是一种编程模型,由...

    使用python实现mapreduce(wordcount).doc

    尽管Hadoop的原生实现是基于Java,但Hadoop Streaming允许我们使用任意语言(如Python)编写MapReduce程序。Hadoop Streaming的工作原理是,mapper和reducer程序只需从标准输入读取并写入标准输出即可。 1. **...

    python hadoop mapreduce 相似用户|mapreduce.rar

    本文将深入探讨如何使用Python来编写Hadoop MapReduce程序,以实现微博关注者之间的相似用户分析。这个任务的关键在于理解并应用分布式计算原理,以及熟悉Python编程语言在大数据环境下的应用。 首先,Hadoop ...

    windows下编写mapreduce程序

    在Windows上编写MapReduce程序时,UnxUtils可以帮助你模拟Linux环境,因为Hadoop通常是与Unix/Linux环境一起使用的。 3. **编程语言**:MapReduce程序通常用Java编写,因为它是最兼容的编程语言,Hadoop的API也主要...

    hadoop-python-mapreduce:有关如何使用Python运行Hadoop MapReduce的教程

    Hadoop和Python的Mapreduce 关于如何使用Python和Hadoop执行MapReduce的一小段回购。 映射器和化简器都是用Python编写的。 有关如何在Hadoop中实现这两个脚本的教程位于。

    hadoop运行python编写的mapreduce程序

    利用hadoop-streaming框架运行python脚本指令

    python MapReduce的wordcount

    在本篇文章中,我们将深入探讨如何使用 Python 实现一个简单的 MapReduce WordCount 应用。 #### 二、MapReduce 基本思想 MapReduce 的工作原理依赖于将大数据集分割成多个小块,然后将这些小块并行地处理。具体来...

    Python——机器学习实战——大数据与MapReduce

    这些API提供了方便的接口,使得开发者可以用Python编写MapReduce作业。例如,你可以在map函数中使用scikit-learn的模型进行训练,然后在reduce函数中进行模型的融合或结果的统计。 在大数据与机器学习实战中,我们...

    Python-mrjob在Hadoop或AmazonWebServices上运行MapReduce作业

    这个库简化了在分布式计算系统中执行数据处理任务的过程,使得Python开发者无需深入理解Hadoop的底层细节也能编写MapReduce程序。 MapReduce是一种编程模型,由Google提出,用于大规模数据集的并行处理。它将大数据...

    python hadoop

    5. **JPython MapReduce框架Pydoop等**:Pydoop是一个Python接口,用于Hadoop的MapReduce,它允许开发者使用Python编写MapReduce程序,从而充分利用Python的灵活性和易用性。 #### 四、Python结合Hadoop构建数据...

    Python中Hadoop MapReduce的一个简单示例.zip

    在Python中,我们通常使用Pydoop库来编写MapReduce作业。Pydoop提供了Python接口,允许开发者以Python代码编写Map和Reduce函数,然后提交到Hadoop集群运行。例如,Map函数可能会解析文本行,寻找关键词,而Reduce...

    MapReduce2.0程序设计多语言编程(理论+实践)

    在这个框架下,程序员可以使用多种语言编写应用程序,不仅限于Java,还包括Python、Scala和其他支持的脚本语言。 理论部分: 1. **MapReduce编程模型**:MapReduce的核心是Map和Reduce两个函数。Map负责将输入数据...

    python编写MR

    Python 编写 MR,即 MapReduce,是一种分布式计算模型,常用于大数据处理。Hadoop 是一个开源框架,它实现了 Google 的 MapReduce 模型,并且提供了数据存储(HDFS)和计算(MapReduce)的能力。在 Hadoop 中,...

    HadoopStreamingPythonDemo:一个使用Hadoop流和Python编写MapReduce程序的演示

    HadoopStreamingPython演示 这是使用Hadoop流和Python实现“字数统计”示例的经典演示。 runStreaming.sh运行hadoop2.5.2流jar。 testLocally.sh使用本地Linux排序和管道工具测试映射器和化简器。

    Python-CouchApp是一个开发使用CouchDB的Web应用的小型框架

    1. **视图(Views)**:使用Python编写MapReduce函数,用于数据的检索和聚合。 2. **验证函数(Validation Functions)**:确保文档在存储到数据库前满足特定的业务规则。 3. **更新函数(Update Functions)**:...

    Mapreduce-1python中的MapReduce的孙子祖父母对.zip

    这个"Mapreduce-1python中的MapReduce的孙子祖父母对"主题可能涉及到使用Python实现MapReduce模型,并专注于一个特定的应用场景:寻找数据结构中的孙子与祖父母关系。 MapReduce的核心思想是将大型数据集分割成小块...

    Mapreduce-1:python中的MapReduce的孙子/祖父母对

    Python中实现MapReduce的一个常见库是`mrjob`,它是一个用于编写Hadoop和Amazon EMR MapReduce作业的库。`mrjob`简化了本地测试和集群部署的过程。在`mrjob`中,你可以定义`run_mapper`和`run_reducer`方法来实现...

    使用 python 操作大数据的各种组件.zip

    Python的Hadoop库,如Pydoop,允许开发者使用Python编写MapReduce作业。 5. **Apache Hive**: Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Python可以使用...

Global site tag (gtag.js) - Google Analytics