`

阿里云上运行MapReduce例子

 
阅读更多
接着上次博客记录, 例子虽然可以在本地运行,如果将写好的代码在阿里云上运行。
基本步骤如下:
1.将写好的代码导出成jar文件,代码里面的字段名用小写,ODPS都转为小写,用大写会报错找不到相应的字段,在后面执行才知道这个问题。
  EtlTools.java-->Export--->Jar file-->name-mr.jar
2.从Eclipse workspace拷贝到D:\odpscmd_public\bin,路径不能有中文,否则后面会报错找不到相应的jar包
3.数据准备,建表
CREATE TABLE etl_in (idCard STRING, name STRING, dept STRING);
CREATE TABLE etl_out (idCard STRING, name STRING);

将数据用txt文本保存,记得txt文件用UTF-8编码,否则数据在ODPS客户端查看是乱码

命令行:tunnel upload data.txt  etl_in; 导入数据

4.上传jar包,运行MR
jar  add   name-mr.jar;
jar -resources name-mr.jar -classpath name-mr.jar com.aliyun.odps.examples.mr.EtlTools ;

5.验证结果 select * from etl-out;
分享到:
评论

相关推荐

    阿里云E-MapReduce-常见问题指南-D.docx

    在阿里云E-MapReduce中,创建一个作业实际上是创建一个作业运行配置,该配置包括了作业要运行的jar包、数据的输入输出地址、运行参数等信息。执行计划是将作业与集群关联起来的一个纽带,通过它可以把多个作业组合...

    阿里云E-MapReduce-快速入门.pdf

    阿里云E-MapReduce快速入门 阿里云E-MapReduce是阿里云提供的一种大数据处理服务,基于Hadoop和Spark的分布式计算引擎,可以对大规模数据进行快速处理和分析。本资源摘要信息将指导您快速开始使用阿里云E-...

    阿里云E-MapReduce-SDK手册.pdf

    阿里云E-MapReduce SDK是针对大数据处理场景的开发工具包,主要面向使用阿里云Hadoop和Spark...通过以上知识点,开发者可以有效地利用阿里云E-MapReduce SDK进行大数据处理和分析工作,实现高效、安全的云上数据操作。

    阿里云E-MapReduce-快速入门-D.docx

    阿里云E-MapReduce是一款基于Hadoop大数据处理的云服务,它为企业提供了高效、便捷的大规模数据处理解决方案。本文将详细介绍如何快速入门阿里云E-MapReduce,包括准备工作、创建集群以及集群配置等方面。 首先,要...

    阿里云E-MapReduce-产品简介.pdf

    阿里云E-MapReduce是一款基于开源Hadoop和Spark的大数据处理系统解决方案,旨在简化用户在云环境中运行分布式处理任务的复杂过程。该产品是构建在阿里云ECS(Elastic Compute Service)实例之上,提供了一整套从集群...

    阿里云E-MapReduce-产品简介-D.docx

    在E-MapReduce中,集群由一个或多个阿里云ECS实例构成,每个实例上运行着Hadoop或Spark的守护进程。例如,NameNode和ResourceManager所在的节点称为Master节点,DataNode和NodeManager所在的节点称为Slave节点。这种...

    阿里云E-MapReduce-最佳实践-D.docx

    阿里云E-MapReduce-最佳实践-D.docx

    阿里云E-MapReduce-常见问题指南.pdf

    阿里云E-MapReduce是一个基于Hadoop和Spark的云服务,提供大数据处理的便捷解决方案。在使用E-MapReduce过程中,可能会遇到各种问题,本文主要针对其中的一些常见问题进行解答。 1. **作业与执行计划的区别** - **...

    阿里云E-MapReduce-API手册.pdf

    阿里云E-MapReduce是一个基于...综上,阿里云E-MapReduce的OpenAPI调用涉及多个层面,包括请求构建、签名验证、错误处理和安全机制。理解和熟练掌握这些知识点对于有效地利用E-MapReduce服务进行大数据处理至关重要。

    阿里云E-MapReduce-使用手册-D.docx

    阿里云E-MapReduce是一款基于开源Hadoop和Spark生态系统的云端大数据处理服务,它提供了便捷的集群管理和数据处理能力。E-MapReduce旨在简化大数据工作流,让用户无需关心底层基础设施的运维,专注于数据分析本身。 ...

    阿里云E-MapReduce-API手册-D.docx

    阿里云E-MapReduce是一款基于开源大数据生态技术的托管服务,它提供了丰富的API接口供用户进行管理和操作。本文档主要介绍E-MapReduce的OpenAPI调用机制和相关的请求参数,帮助用户理解如何安全地与服务进行交互。 ...

    阿里云E-MapReduce-SDK手册-D.docx

    阿里云E-MapReduce(EMR)是一款基于大数据处理的云端服务,它提供了便捷的MapReduce、Hadoop、Spark等计算框架的管理和运行能力。SDK(Software Development Kit)是为开发者提供的工具包,使得用户能够通过编程...

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    6. **测试和运行**:编写MapReduce程序后,可以使用Eclipse的“运行”菜单选择“运行配置”来创建一个MapReduce配置。配置包括指定主类、输入输出路径、集群地址等参数。然后点击“运行”执行程序。 7. **提交作业*...

    扩展了对阿里云 E-MapReduce 上 Spark/Hadoop 数据源的支持

    本项目支持在Spark运行环境中与阿里云的基础服务OSS、ODPS、LogService、ONS等进行交互。 构建和安装 git clone https://github.com/aliyun/aliyun-emapreduce-datasources.git cd aliyun-emapreduce-data...

    阿里云 专有云企业版 V3.8.1 E-MapReduce 技术白皮书 20200330

    "阿里云专有云企业版 V3.8.1 E-MapReduce 技术白皮书 20200330" 1. 阿里云专有云企业版E-MapReduce技术白皮书的法律声明:该技术白皮书的内容视为阿里云的保密信息,用户应当严格遵守保密义务,不得向任何第三方...

    MapReduce的两个简单例子

    利用MapReduce,我们可以将这个任务分布到整个集群上,每个节点负责一部分文件的复制。 1. **Map阶段**: 输入是源文件目录和目标文件目录,Map函数根据文件名生成键值对,键是文件名,值是文件路径。这样,每个...

    阿里云 专有云企业版 V3.8.1 E-MapReduce 安全白皮书 20190910

    E-MapReduce是阿里云上的大数据处理服务,基于Apache Hadoop和Spark等开源技术,为企业提供了高效、易用的大数据处理环境。 白皮书首先强调了法律声明,指出用户在使用或引用文档时需遵守一定的规定。用户应通过...

    mapreduce例子

    标题“MapReduce例子”可能是指一个具体的MapReduce编程示例,展示了如何使用MapReduce模型解决实际问题。MapReduce的工作流程通常包括以下几个步骤: 1. **数据分片(Input Split)**:输入的数据集被分割成多个...

    阿里云 专有云企业版 V3.8.1 E-MapReduce 用户指南 20200330

    阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南 20200330 本文档是阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南,旨在帮助用户快速了解和使用 E-MapReduce 产品。该指南包括法律声明、通用约定、E-MapReduce ...

    hadoop mapreduce 例子项目,运行了单机wordcount

    这个例子项目是关于在单机环境中运行WordCount程序的,这是一个经典的MapReduce示例,用于统计文本文件中每个单词出现的次数。 首先,让我们深入了解Hadoop。Hadoop是由Apache软件基金会开发的开源框架,专门设计...

Global site tag (gtag.js) - Google Analytics