wordcount程序 - backsnow - ITeye博客

`

backsnow

浏览: 133458 次
性别:
来自: 广州

最近访客更多访客>>

sqllib

zangyk

huang2011

沐小枫

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

saieuler：最近想学，标记一下
Programming.Collective.Intelligence中对常用机器学习算法的总结
backsnow： Primal中，显式计算Hessian矩阵的复杂度为nd^2, ...
svm的复杂度
backsnow：调试运行时报~/workspace/mahout/exampl ...
mahout在eclipse下的开发环境
backsnow：真见鬼，之前中文论文用latex打开变成乱码，把编码改一下再改 ...
Latex简历模板下载位置
backsnow：我在将当前用户加入hadoop组的时候发现原来所属的组不见了， ...
ubuntu中用户组的问题

wordcount程序

博客分类：

python

阅读更多

import sys
def mapper(lines):
    maps=''
    lines.strip()
    lines=lines.split("\n")
    for line in lines:
        line.strip()
        words=line.split()
        for word in words:
            maps=maps+word+'\t1\n'
    return maps

def reducer(lines):
    wordCount={}
    lines.strip()    
    lines=lines.split("\n")
    lines=lines[0:len(lines)-2]
#    print lines
    for line in lines:
        line.strip()
        word,count=line.split('\t',1)
        try:
            count=int(count)
            wordCount[word]=wordCount.get(word,0)+count
        except ValueError:
            pass
    print wordCount.items()
    sorted_wordCount=sorted(wordCount.items(),key=lambda x:x[0])
    for word,count in sorted_wordCount:
        print("%s\t%s"%(word,count))
            

reducer(mapper("foo foo test show my mapp reduce quux labs\n"))

代码很容易改造成mapreduce形式在hadoop上运行，如http://blog.csdn.net/yaoyepeng/article/details/5929457

分享到：

[笔试] 雅虎笔试大全（含答案） | 抽取豆瓣小组文章的程序

2011-09-26 10:58
浏览 959
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

实验2-在Hadoop平台上部署WordCount程序-孙淼1: 实验2的目的是在Hadoop平台上部署WordCount程序，以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点： 1. **Linux系统基础**：实验要求学生具备Linux系统的使用知识，包括基本的命令行操作、...

centos下配置hadoop环境并运行wordcount程序: 最详细hadoop配置教程！centos下完美运行wordcount程序，从无到有，初学者必备！我自己亲自试了一遍并加以修改，准确无误～

实验2-在Hadoop平台上部署WordCount程序1: 【标题】：在Hadoop平台上部署WordCount程序的详解【描述】：本实验旨在让学生掌握如何在Hadoop平台上部署并运行WordCount程序，这是Hadoop入门的经典案例，旨在统计文本中的单词出现次数。通过实践，学生将了解...

Hadoop的单机伪分布式搭建和运行第一个WordCount程序: Hadoop单机伪分布式搭建和运行第一个WordCount程序 Hadoop是Apache基金会下的一个开源的大数据处理框架，它广泛应用于数据处理、数据分析和机器学习等领域。下面是关于Hadoop单机伪分布式搭建和运行第一个WordCount...

hadoop wordCount程序: hadoop wordCount 程序 hadoop wordCount 程序是一种基于 Hadoop платформы的数据处理程序，用于统计文本文件中的单词出现次数。下面是该程序的详细知识点： Hadoop 介绍 Hadoop 是一个由 Apache ...

Hadoop示例程序WordCount运行及详解: 基于Hadoop的map-reduce模型，WordCount程序可以将输入的文本文件进行词频统计，并将结果输出到HDFS中。在这个示例程序中，我们使用了Hadoop的map-reduce框架来实现WordCount。首先，我们需要准备好输入文件和输出...

在最终部署的Hadoop上运行WordCount程序实验报告.pdf: 【在最终部署的Hadoop上运行WordCount程序实验报告】实验报告主要涵盖了以下几个关键知识点： 1. **Linux系统与KVM虚拟机**：在实验中，学生们通过安装Linux系统（如Ubuntu 14.04）和KVM（Kernel-based Virtual ...

使用hadoop实现WordCount实验报告.docx: 实验报告的目的是详细记录使用Hadoop在Windows环境下实现WordCount应用的过程，包括环境配置、WordCount程序的实现以及实验结果分析。本实验旨在理解Hadoop分布式计算的基本原理，并熟悉Hadoop集群的搭建与管理。 #...

使用Scala设计WordCount程序: 使用Scala设计WordCount程序软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz

Spark的安装与使用.docx【大数据处理】Spark集群安装与配置：涵盖Standalone、Yarn模式及本地调试WordCount程序详解: 对于Spark的使用，分别介绍了在Standalone和Yarn模式下执行Spark程序的方法，启动Spark Shell的方式，并演示了如何在IDEA中进行本地调试WordCount程序。适合人群：有一定Linux操作基础，对大数据处理有兴趣的技术...

wordcount运行分析: 《WordCount程序运行分析及其应用》 WordCount是Hadoop框架中的一个经典示例程序，它主要用于演示分布式计算的基本操作，特别是在大规模数据处理中的文本词频统计。在深入理解WordCount的工作流程之前，我们首先...

实验3 分析和编写 WordCount 程序 (2021).html: 实验3 分析和编写 WordCount 程序 (2021).html

Hadoop单机模式的安装以与执行WordCount程序文件.doc: Hadoop单机模式的安装以与执行WordCount程序文件.doc

eclipse下运行wordcount: 3. **编写WordCount程序**："WordCount.java"通常包含两个主要部分：`Mapper`和`Reducer`。Mapper负责将输入文本分割成单词，Reducer则统计每个单词的总数。 ```java // 简化的WordCount示例 public static ...

06.HDFS版wordcount程序的开发实现--框架式开发.mp4: 06.HDFS版wordcount程序的开发实现--框架式开发.mp4

hadoop集群通用wordcount测试程序: 在学术研究中，WordCount程序可以用来验证新Hadoop平台的性能、稳定性，或者对比不同优化策略的效果。通过运行WordCount并分析执行时间、资源利用率等指标，研究人员可以评估并优化Hadoop集群的配置。五、Hadoop-...

hadoop1.2.1修改WordCount并编译: "Hadoop 1.2.1 版本下修改 WordCount 程序并编译" Hadoop 是一种基于分布式处理的大数据处理框架，其中 WordCount 程序是一个经典的示例程序，用于统计文本文件中的词频信息。在 Hadoop 1.2.1 版本下，我们可以修改...

Hadoop集群中WordCount示例: WordCount程序通常包含以下几个核心部分：输入数据的准备、Mapper类的实现、Reducer类的实现以及程序的驱动代码。 #### 输入数据准备在执行WordCount程序之前，首先需要准备一组文本文件作为输入数据。这些文本...

hadoop 运行成功代码（wordcount）: 本项目将详细介绍如何在Hadoop环境中成功运行WordCount程序，以及涉及到的相关知识点。首先，`Hadoop`是一个基于Java的框架，设计用来处理和存储大规模数据。它采用了分布式计算模型，即MapReduce，将大型任务分解...

Global site tag (gtag.js) - Google Analytics