`

hadoop 运行自带包的单词计数位置和写法

 
阅读更多

 

0 准备文件 test 内容如下,中间用 \t间隔

[root@hadoop3 ~]# cat test 
hello   you
hello   me

 

 

 1 找到如下路径

hadoop2.5.2/share/hadoop/mapreduce:  位置下找到 example.jar 

 

 2 执行如下命令:

[root@hadoop3 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.5.2.jar   wordcount /input/test /output

 

 

其中,如果不知道能运行的主函数名称 可以使用:

 

hadoop jar hadoop-mapreduce-examples.jar 然后回车

此时会提示 可供调用的主函数名词, eg:

 

[root@hadoop3 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.5.2.jar  
An example program must be given as the first argument.
Valid program names are:
  aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
  aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
  bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to compute exact digits of Pi.
  dbcount: An example job that count the pageview counts from a database.
  distbbp: A map/reduce program that uses a BBP-type formula to compute exact bits of Pi.
  grep: A map/reduce program that counts the matches of a regex in the input.
  join: A job that effects a join over sorted, equally partitioned datasets
  multifilewc: A job that counts words from several files.
  pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
  pi: A map/reduce program that estimates Pi using a quasi-Monte Carlo method.
  randomtextwriter: A map/reduce program that writes 10GB of random textual data per node.
  randomwriter: A map/reduce program that writes 10GB of random data per node.
  secondarysort: An example defining a secondary sort to the reduce.
  sort: A map/reduce program that sorts the data written by the random writer.
  sudoku: A sudoku solver.
  teragen: Generate data for the terasort
  terasort: Run the terasort
  teravalidate: Checking results of terasort
  wordcount: A map/reduce program that counts the words in the input files.
  wordmean: A map/reduce program that counts the average length of the words in the input files.
  wordmedian: A map/reduce program that counts the median length of the words in the input files.
  wordstandarddeviation: A map/reduce program that counts the standard deviation of the length of the words in the input files.

 

 

运行结果如下:

 

hello	2
me	1
you	1

 

分享到:
评论

相关推荐

    Hadoop中单词统计案例运行的代码

    在这个"单词统计案例"中,我们将深入探讨Hadoop如何处理文本数据,进行简单的单词计数任务。这个任务是Hadoop初学者经常接触的经典示例,它展示了Hadoop MapReduce的基本工作原理。 MapReduce是Hadoop的核心计算...

    hadoop组件程序包.zip

    总结,"hadoop组件程序包.zip"是一个为Hadoop初学者量身定制的学习资源,通过深入学习和实践,初学者可以全面掌握Hadoop的核心组件及其工作原理,为未来在大数据领域的探索和发展打下坚实基础。

    词频统计,利用Hadoop中mappereduce进行单词的计数

    【标题】:“词频统计,利用Hadoop中mapper/reduce进行单词的计数” 在大数据处理领域,Hadoop是一个至关重要的框架,它以其分布式、容错性和可扩展性而受到广泛应用。本主题聚焦于如何利用Hadoop的MapReduce模型...

    MapReduce编程实例:单词计数

    在前面《MapReduce实例分析:单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。下面将介绍如何编写具体实现代码及如何运行程序。 首先,在本地创建 3 个文件:file00l、file002 和 ...

    hadoop的各种jar包

    本文将详细介绍如何在Eclipse中使用Hadoop的各种JAR包,包括HDFS、MapReduce、YARN、HTTPFS和KMS,以实现高效的数据操作。 首先,我们需要理解这些组件在Hadoop生态系统中的角色: 1. HDFS(Hadoop Distributed ...

    hadoop运行wordcount实例

    - 执行 `hadoop jps` 命令查看当前运行的服务,应该能看到 NameNode 和 DataNode 的进程号。 2. **准备输入文件**: - 使用文本编辑器创建一个文本文件 `f1.txt`,其中包含文本内容,例如:“hello boy heibaby ...

    Hadoop的jar包

    这个压缩包文件包含了运行和开发Hadoop应用程序所需的所有jar包。这些jar包是Hadoop生态系统的关键组成部分,它们提供了核心Hadoop的功能,包括分布式文件系统(HDFS)和MapReduce计算模型。 1. **Hadoop核心**:...

    Java实现Hadoop下词配对Wordcount计数代码实现

    在"Java实现Hadoop下词配对Wordcount计数代码实现"这个项目中,我们的目标是读取文档,对每一行进行处理,去除标点符号,将所有单词转换为小写,然后统计每个单词出现的次数。以下是一般的步骤: 1. **Mapper阶段**...

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    总之,要在Windows下的Eclipse环境中成功运行MapReduce程序,关键在于正确配置Hadoop环境,导入所有必要的jar包,并理解如何设置和提交MapReduce作业。这个过程可能需要一些时间和实践,但一旦配置完成,将为高效...

    Windows系统Hadoop包

    该压缩包是在官方包的基础上进行修改的,将Windows运行hadoop所需配置文件和部分插件已经导入,电脑只需安装64位java环境,修改hadoop-env.cmd配置即可使用

    hadoop jar包.rar

    这个"hadop jar包.rar"文件很显然是包含了运行Hadoop相关程序所需的jar包集合,用户解压后可以直接使用,省去了自行编译和配置的步骤。 Hadoop的核心组件主要包括两个:HDFS(Hadoop Distributed File System)和...

    Hadoop3.0 + JDK1.8.1+Hadoop-win运行包2.6.0--3.0.0

    在这个组合包中,我们看到的是Hadoop 3.0版本与JDK 1.8.1的集成,以及一个专为Windows环境优化的Hadoop运行包。这个组合对于在Windows平台上搭建Hadoop开发或测试环境非常有帮助。 首先,让我们详细了解一下Hadoop ...

    大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

    本实验报告旨在介绍使用 Hadoop 编程实现 wordcount 单词统计程序的步骤和代码实现。实验的目的在于熟悉 Hadoop 虚拟机的安装与环境的配置,初步理解 MapReduce 方法,熟悉相关语法,基本掌握编程框架。 实验环境:...

    hadoop简单单词统计

    开发者通常会将Hadoop程序编译成JAR包,以便在Hadoop集群上运行。`wc.jar`很可能包含了`WordCount`类,这是实现单词统计的核心类。 4. **words.txt**:这可能是测试数据文件,用于验证MapReduce程序的功能。当运行`...

    hadoop 运行成功代码(wordcount)

    为了运行Hadoop项目,你需要一个配置完善的Hadoop环境,包括安装Hadoop和配置Hadoop的环境变量。同时,为了方便管理和构建项目,通常会使用Maven作为构建工具。Maven是一个项目管理和依赖管理工具,可以帮助我们管理...

    hadoop hbase 全jar包

    在实际使用中,开发者可能需要将这些jar包添加到类路径(classpath)中,以便编译和运行HBase相关的Java程序。例如,如果要编写一个连接HBase的Java应用程序,需要包含HBase的client jar包,这样程序才能调用HBase的...

    win10下编译过的hadoop jar包--hadoop-2.7.2.zip

    一旦Hadoop环境配置完成,你可以尝试运行Hadoop自带的示例程序,如WordCount,来验证安装是否成功。WordCount程序会统计文本文件中每个单词出现的次数,是MapReduce的经典示例。 总的来说,Hadoop 2.7.2在Win10上的...

    Hadoop- 单词计数(Word Count)的MapReduce实现.doc

    Hadoop单词计数(Word Count)的MapReduce实现 Hadoop是一个基于Java的开源大数据处理框架,它提供了一个分布式计算模型,称为MapReduce,用于处理大规模数据。MapReduce模型主要由两个阶段组成:Map阶段和Reduce...

    hadoop的外部依赖jar包

    有时候在eclipse上运行项目,需要引用的Hadoop的jar包,也就是hadoop的外部依赖包,有conf,fs,io,mapreduce等等,这里列举了一部分,基本上hadoop的所有外部依赖jar包都包含在内了,如果下载了不会使用,可以看我...

Global site tag (gtag.js) - Google Analytics