需求:
需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。
详述:
MRv1:
<config> <property> <name>test.randomtextwrite.min_words_key</name> <value>5</value> </property> <property> <name>test.randomtextwrite.max_words_key</name> <value>10</value> </property> <property> <name>test.randomtextwrite.min_words_value</name> <value>20</value> </property> <property> <name>test.randomtextwrite.max_words_value</name> <value>100</value> </property> <property> <name>test.randomtextwrite.total_bytes</name> <value>1099511627776</value> </property> </config>
在执行的时候要通过-D传入,还有一些其他的参数:
test.randomtextwrite.maps_per_host test.randomtextwrite.bytes_per_map
MRv2:
<config> <property> <name>mapreduce.randomtextwriter.minwordskey</name> <value>5</value> </property> <property> <name>mapreduce.randomtextwriter.maxwordskey</name> <value>10</value> </property> <property> <name>mapreduce.randomtextwriter.minwordsvalue</name> <value>20</value> </property> <property> <name>mapreduce.randomtextwriter.maxwordsvalue</name> <value>100</value> </property> <property> <name>mapreduce.randomtextwriter.totalbytes</name> <value>1099511627776</value> </property> </config>
在执行的时候要通过-D传入,还有一些其他的参数:
mapreduce.randomtextwriter.bytespermap mapreduce.randomtextwriter.mapsperhost
相关推荐
hadoopAPI说明文档,
《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...
Hadoop的配置文件是其核心组成部分之一,通过深入理解这些配置文件,可以更灵活地调整Hadoop的性能。主要配置文件包括: - `core-site.xml`:配置HDFS的默认FS路径、临时目录等。 - `hdfs-site.xml`:配置HDFS的...
本文档用于说明hadoop1.0.3安装配置的步骤 以及其中需要注意的事项
Hadoop API中文说明文档是针对Apache Hadoop框架的开发者指南,它详细解释了如何使用Hadoop的编程接口来处理大规模数据。Hadoop是开源的分布式计算框架,它允许在廉价硬件集群上存储和处理海量数据。这个文档对于...
hadoop3.3.1部署说明.zip
Hadoop之HDFS思维导图
hadoop.dll则是一个动态链接库文件,它是Hadoop在Windows平台上运行时所依赖的组件之一。DLL文件通常包含可由多个程序同时调用的函数和资源,这样可以节省内存并提高系统效率。在Hadoop的情况下,hadoop.dll可能包含...
总的来说,Hadoop的dll文件是Windows环境下运行Hadoop所必需的组件之一,它提供了Hadoop在本地系统上运行所需的部分功能。正确配置和使用这个dll文件,对于在Windows上搭建和操作Hadoop集群至关重要。理解DLL文件的...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...
5. 阅读说明:在提供的`说明.txt`文件中,可能包含了更具体的安装步骤和注意事项,务必仔细阅读并遵循。 总之,`hadoop.dll`和`winutils.exe`是Hadoop在Windows环境下运行的关键组件,确保它们正确配置对于成功搭建...
首先,`hadoop.dll`是一个动态链接库文件,它是Hadoop在Windows操作系统上的核心组件之一。DLL文件在Windows系统中起到共享代码和资源的作用,可以被多个程序同时调用,以减少内存占用和提高效率。在Hadoop的上下...
HADOOP 安装配置实践手册 0 Linux 基础 1 Hadoop 安装配置 2 HDFS 编程 3 MYSQL 4 HIVE 5 Sqoop 6 Storm 7 Kafka 8 RDS 9 词云
### Hadoop源码分析知识点概览 #### 一、Hadoop概述与背景 - **Google核心技术**:Hadoop的设计理念很大程度上受到了Google一系列核心技术的影响,包括Google File System (GFS)、BigTable以及MapReduce等。这些...
标题中的“Hadoop2.2.0环境测试详细傻瓜说明”表明了本文将要讨论的是关于Hadoop 2.2.0版本的环境配置和简单的应用测试,特别是针对新手的指南。描述中的“配置以后的一些测试,wordcount啥的,有信心的就不用下了”...
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...