`
小网客
  • 浏览: 1241158 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop之RandomTextWriter说明

 
阅读更多

需求:

需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。

详述:

MRv1:

<config>  
    <property>
      <name>test.randomtextwrite.min_words_key</name>
      <value>5</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_key</name>
      <value>10</value>
    </property>
    <property>
      <name>test.randomtextwrite.min_words_value</name>
      <value>20</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_value</name>
      <value>100</value>
    </property>
    <property>
      <name>test.randomtextwrite.total_bytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

test.randomtextwrite.maps_per_host
test.randomtextwrite.bytes_per_map

MRv2:

<config>  
    <property>
      <name>mapreduce.randomtextwriter.minwordskey</name>
      <value>5</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordskey</name>
      <value>10</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.minwordsvalue</name>
      <value>20</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordsvalue</name>
      <value>100</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.totalbytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

mapreduce.randomtextwriter.bytespermap
mapreduce.randomtextwriter.mapsperhost

 

 

 

 

0
0
分享到:
评论

相关推荐

    hadoopAPI说明文档

    hadoopAPI说明文档,

    hadoop安装部署说明文档

    《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...

    hadoop学习步骤说明

    Hadoop的配置文件是其核心组成部分之一,通过深入理解这些配置文件,可以更灵活地调整Hadoop的性能。主要配置文件包括: - `core-site.xml`:配置HDFS的默认FS路径、临时目录等。 - `hdfs-site.xml`:配置HDFS的...

    apache hadoop1.0.3配置说明 doc

    本文档用于说明hadoop1.0.3安装配置的步骤 以及其中需要注意的事项

    hadoop-api中文说明文档

    Hadoop API中文说明文档是针对Apache Hadoop框架的开发者指南,它详细解释了如何使用Hadoop的编程接口来处理大规模数据。Hadoop是开源的分布式计算框架,它允许在廉价硬件集群上存储和处理海量数据。这个文档对于...

    hadoop3.3.1部署说明.zip

    hadoop3.3.1部署说明.zip

    Hadoop之HDFS思维导图

    Hadoop之HDFS思维导图

    hadoop2.7.3 Winutils.exe hadoop.dll

    hadoop.dll则是一个动态链接库文件,它是Hadoop在Windows平台上运行时所依赖的组件之一。DLL文件通常包含可由多个程序同时调用的函数和资源,这样可以节省内存并提高系统效率。在Hadoop的情况下,hadoop.dll可能包含...

    hadoop的dll文件 hadoop.zip

    总的来说,Hadoop的dll文件是Windows环境下运行Hadoop所必需的组件之一,它提供了Hadoop在本地系统上运行所需的部分功能。正确配置和使用这个dll文件,对于在Windows上搭建和操作Hadoop集群至关重要。理解DLL文件的...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    hadoop环境缺少的hadoop.dll ,winutils.exe包

    5. 阅读说明:在提供的`说明.txt`文件中,可能包含了更具体的安装步骤和注意事项,务必仔细阅读并遵循。 总之,`hadoop.dll`和`winutils.exe`是Hadoop在Windows环境下运行的关键组件,确保它们正确配置对于成功搭建...

    hadoop2.7.3的hadoop.dll和winutils.exe

    首先,`hadoop.dll`是一个动态链接库文件,它是Hadoop在Windows操作系统上的核心组件之一。DLL文件在Windows系统中起到共享代码和资源的作用,可以被多个程序同时调用,以减少内存占用和提高效率。在Hadoop的上下...

    hadoop安装配置说明-加词云.pdf

    HADOOP 安装配置实践手册 0 Linux 基础 1 Hadoop 安装配置 2 HDFS 编程 3 MYSQL 4 HIVE 5 Sqoop 6 Storm 7 Kafka 8 RDS 9 词云

    Hadoop源码分析 完整版 共55章

    ### Hadoop源码分析知识点概览 #### 一、Hadoop概述与背景 - **Google核心技术**:Hadoop的设计理念很大程度上受到了Google一系列核心技术的影响,包括Google File System (GFS)、BigTable以及MapReduce等。这些...

    Hadoop2.2.0环境测试详细傻瓜说明

    标题中的“Hadoop2.2.0环境测试详细傻瓜说明”表明了本文将要讨论的是关于Hadoop 2.2.0版本的环境配置和简单的应用测试,特别是针对新手的指南。描述中的“配置以后的一些测试,wordcount啥的,有信心的就不用下了”...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

Global site tag (gtag.js) - Google Analytics