`
backsnow
  • 浏览: 130928 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

wordcount程序

 
阅读更多

import sys
def mapper(lines):
    maps=''
    lines.strip()
    lines=lines.split("\n")
    for line in lines:
        line.strip()
        words=line.split()
        for word in words:
            maps=maps+word+'\t1\n'
    return maps

def reducer(lines):
    wordCount={}
    lines.strip()    
    lines=lines.split("\n")
    lines=lines[0:len(lines)-2]
#    print lines
    for line in lines:
        line.strip()
        word,count=line.split('\t',1)
        try:
            count=int(count)
            wordCount[word]=wordCount.get(word,0)+count
        except ValueError:
            pass
    print wordCount.items()
    sorted_wordCount=sorted(wordCount.items(),key=lambda x:x[0])
    for word,count in sorted_wordCount:
        print("%s\t%s"%(word,count))
            

reducer(mapper("foo foo test show my mapp reduce quux labs\n"))
 代码很容易改造成mapreduce形式在hadoop上运行,如http://blog.csdn.net/yaoyepeng/article/details/5929457
分享到:
评论

相关推荐

    实验2-在Hadoop平台上部署WordCount程序-孙淼1

    实验2的目的是在Hadoop平台上部署WordCount程序,以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点: 1. **Linux系统基础**:实验要求学生具备Linux系统的使用知识,包括基本的命令行操作、...

    centos下配置hadoop环境并运行wordcount程序

    最详细hadoop配置教程!centos下完美运行wordcount程序,从无到有,初学者必备!我自己亲自试了一遍并加以修改,准确无误~

    实验2-在Hadoop平台上部署WordCount程序1

    【标题】:在Hadoop平台上部署WordCount程序的详解 【描述】:本实验旨在让学生掌握如何在Hadoop平台上部署并运行WordCount程序,这是Hadoop入门的经典案例,旨在统计文本中的单词出现次数。通过实践,学生将了解...

    Hadoop的单机伪分布式搭建和运行第一个WordCount程序

    Hadoop单机伪分布式搭建和运行第一个WordCount程序 Hadoop是Apache基金会下的一个开源的大数据处理框架,它广泛应用于数据处理、数据分析和机器学习等领域。下面是关于Hadoop单机伪分布式搭建和运行第一个WordCount...

    hadoop wordCount程序

    hadoop wordCount 程序 hadoop wordCount 程序是一种基于 Hadoop платформы的数据处理程序,用于统计文本文件中的单词出现次数。下面是该程序的详细知识点: Hadoop 介绍 Hadoop 是一个由 Apache ...

    Hadoop示例程序WordCount运行及详解

    基于Hadoop的map-reduce模型,WordCount程序可以将输入的文本文件进行词频统计,并将结果输出到HDFS中。在这个示例程序中,我们使用了Hadoop的map-reduce框架来实现WordCount。 首先,我们需要准备好输入文件和输出...

    在最终部署的Hadoop上运行WordCount程序实验报告.pdf

    【在最终部署的Hadoop上运行WordCount程序实验报告】 实验报告主要涵盖了以下几个关键知识点: 1. **Linux系统与KVM虚拟机**:在实验中,学生们通过安装Linux系统(如Ubuntu 14.04)和KVM(Kernel-based Virtual ...

    使用hadoop实现WordCount实验报告.docx

    实验报告的目的是详细记录使用Hadoop在Windows环境下实现WordCount应用的过程,包括环境配置、WordCount程序的实现以及实验结果分析。本实验旨在理解Hadoop分布式计算的基本原理,并熟悉Hadoop集群的搭建与管理。 #...

    使用Scala设计WordCount程序

    使用Scala设计WordCount程序 软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz

    wordcount运行分析

    《WordCount程序运行分析及其应用》 WordCount是Hadoop框架中的一个经典示例程序,它主要用于演示分布式计算的基本操作,特别是在大规模数据处理中的文本词频统计。在深入理解WordCount的工作流程之前,我们首先...

    实验3 分析和编写 WordCount 程序 (2021).html

    实验3 分析和编写 WordCount 程序 (2021).html

    Hadoop单机模式的安装以与执行WordCount程序文件.doc

    Hadoop单机模式的安装以与执行WordCount程序文件.doc

    06.HDFS版wordcount程序的开发实现--框架式开发.mp4

    06.HDFS版wordcount程序的开发实现--框架式开发.mp4

    hadoop集群通用wordcount测试程序

    在学术研究中,WordCount程序可以用来验证新Hadoop平台的性能、稳定性,或者对比不同优化策略的效果。通过运行WordCount并分析执行时间、资源利用率等指标,研究人员可以评估并优化Hadoop集群的配置。 五、Hadoop-...

    hadoop1.2.1修改WordCount并编译

    "Hadoop 1.2.1 版本下修改 WordCount 程序并编译" Hadoop 是一种基于分布式处理的大数据处理框架,其中 WordCount 程序是一个经典的示例程序,用于统计文本文件中的词频信息。在 Hadoop 1.2.1 版本下,我们可以修改...

    Hadoop集群中WordCount示例

    WordCount程序通常包含以下几个核心部分:输入数据的准备、Mapper类的实现、Reducer类的实现以及程序的驱动代码。 #### 输入数据准备 在执行WordCount程序之前,首先需要准备一组文本文件作为输入数据。这些文本...

    hadoop 运行成功代码(wordcount)

    本项目将详细介绍如何在Hadoop环境中成功运行WordCount程序,以及涉及到的相关知识点。 首先,`Hadoop`是一个基于Java的框架,设计用来处理和存储大规模数据。它采用了分布式计算模型,即MapReduce,将大型任务分解...

    Hadoop mapreduce实现wordcount

    在实际环境中,我们需要配置 Hadoop 集群,设置输入文件路径,编译并打包 WordCount 程序,最后通过 Hadoop 的 `hadoop jar` 命令提交作业到集群运行。调试时,可以查看日志输出,检查错误信息,优化性能。 通过...

    Hadoop集群-WordCount运行详解.pdf

    本篇文档深入浅出地介绍了Hadoop集群的WordCount运行详解,从MapReduce理论到WordCount程序的运行,再到源码分析,内容丰富且详细,对于想要入门和深入了解Hadoop分布式计算和MapReduce模型的读者来说,是一份宝贵的...

Global site tag (gtag.js) - Google Analytics