阿里云上运行MapReduce例子 - LakerHu - ITeye博客

`

h_1_y_m

浏览: 26566 次
性别:
来自: 深圳

最近访客更多访客>>

gfansenhua

F1L

clifford9

binma85

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

阿里云上运行MapReduce例子

博客分类：

大数据云计算

阅读更多

接着上次博客记录，例子虽然可以在本地运行，如果将写好的代码在阿里云上运行。
基本步骤如下：
1.将写好的代码导出成jar文件,代码里面的字段名用小写，ODPS都转为小写，用大写会报错找不到相应的字段，在后面执行才知道这个问题。
EtlTools.java-->Export--->Jar file-->name-mr.jar
2.从Eclipse workspace拷贝到D:\odpscmd_public\bin，路径不能有中文，否则后面会报错找不到相应的jar包
3.数据准备，建表
CREATE TABLE etl_in (idCard STRING, name STRING, dept STRING);
CREATE TABLE etl_out (idCard STRING, name STRING);

将数据用txt文本保存，记得txt文件用UTF-8编码，否则数据在ODPS客户端查看是乱码

命令行:tunnel upload data.txt etl_in; 导入数据

4.上传jar包，运行MR
jar add name-mr.jar;
jar -resources name-mr.jar -classpath name-mr.jar com.aliyun.odps.examples.mr.EtlTools ;

5.验证结果 select * from etl-out;

分享到：

再谈SOAP webservice 与 Restful webservic ... | 基于ODPS的MapReduce例子

2016-05-23 18:09
浏览 690
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

阿里云E-MapReduce-常见问题指南-D.docx: 在阿里云E-MapReduce中，创建一个作业实际上是创建一个作业运行配置，该配置包括了作业要运行的jar包、数据的输入输出地址、运行参数等信息。执行计划是将作业与集群关联起来的一个纽带，通过它可以把多个作业组合...

阿里云E-MapReduce-快速入门.pdf: 阿里云E-MapReduce快速入门阿里云E-MapReduce是阿里云提供的一种大数据处理服务，基于Hadoop和Spark的分布式计算引擎，可以对大规模数据进行快速处理和分析。本资源摘要信息将指导您快速开始使用阿里云E-...

阿里云E-MapReduce-SDK手册.pdf: 阿里云E-MapReduce SDK是针对大数据处理场景的开发工具包，主要面向使用阿里云Hadoop和Spark...通过以上知识点，开发者可以有效地利用阿里云E-MapReduce SDK进行大数据处理和分析工作，实现高效、安全的云上数据操作。

阿里云E-MapReduce-快速入门-D.docx: 阿里云E-MapReduce是一款基于Hadoop大数据处理的云服务，它为企业提供了高效、便捷的大规模数据处理解决方案。本文将详细介绍如何快速入门阿里云E-MapReduce，包括准备工作、创建集群以及集群配置等方面。首先，要...

阿里云E-MapReduce-产品简介.pdf: 阿里云E-MapReduce是一款基于开源Hadoop和Spark的大数据处理系统解决方案，旨在简化用户在云环境中运行分布式处理任务的复杂过程。该产品是构建在阿里云ECS（Elastic Compute Service）实例之上，提供了一整套从集群...

阿里云E-MapReduce-产品简介-D.docx: 在E-MapReduce中，集群由一个或多个阿里云ECS实例构成，每个实例上运行着Hadoop或Spark的守护进程。例如，NameNode和ResourceManager所在的节点称为Master节点，DataNode和NodeManager所在的节点称为Slave节点。这种...

阿里云E-MapReduce-最佳实践-D.docx: 阿里云E-MapReduce-最佳实践-D.docx

阿里云E-MapReduce-常见问题指南.pdf: 阿里云E-MapReduce是一个基于Hadoop和Spark的云服务，提供大数据处理的便捷解决方案。在使用E-MapReduce过程中，可能会遇到各种问题，本文主要针对其中的一些常见问题进行解答。 1. **作业与执行计划的区别** - **...

阿里云E-MapReduce-API手册.pdf: 阿里云E-MapReduce是一个基于...综上，阿里云E-MapReduce的OpenAPI调用涉及多个层面，包括请求构建、签名验证、错误处理和安全机制。理解和熟练掌握这些知识点对于有效地利用E-MapReduce服务进行大数据处理至关重要。

阿里云E-MapReduce-使用手册-D.docx: 阿里云E-MapReduce是一款基于开源Hadoop和Spark生态系统的云端大数据处理服务，它提供了便捷的集群管理和数据处理能力。E-MapReduce旨在简化大数据工作流，让用户无需关心底层基础设施的运维，专注于数据分析本身。 ...

阿里云E-MapReduce-API手册-D.docx: 阿里云E-MapReduce是一款基于开源大数据生态技术的托管服务，它提供了丰富的API接口供用户进行管理和操作。本文档主要介绍E-MapReduce的OpenAPI调用机制和相关的请求参数，帮助用户理解如何安全地与服务进行交互。 ...

阿里云E-MapReduce-SDK手册-D.docx: 阿里云E-MapReduce（EMR）是一款基于大数据处理的云端服务，它提供了便捷的MapReduce、Hadoop、Spark等计算框架的管理和运行能力。SDK（Software Development Kit）是为开发者提供的工具包，使得用户能够通过编程...

window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包: 6. **测试和运行**：编写MapReduce程序后，可以使用Eclipse的“运行”菜单选择“运行配置”来创建一个MapReduce配置。配置包括指定主类、输入输出路径、集群地址等参数。然后点击“运行”执行程序。 7. **提交作业*...

扩展了对阿里云 E-MapReduce 上 Spark/Hadoop 数据源的支持: 本项目支持在Spark运行环境中与阿里云的基础服务OSS、ODPS、LogService、ONS等进行交互。构建和安装 git clone https://github.com/aliyun/aliyun-emapreduce-datasources.git cd aliyun-emapreduce-data...

阿里云专有云企业版 V3.8.1 E-MapReduce 技术白皮书 20200330: "阿里云专有云企业版 V3.8.1 E-MapReduce 技术白皮书 20200330" 1. 阿里云专有云企业版E-MapReduce技术白皮书的法律声明：该技术白皮书的内容视为阿里云的保密信息，用户应当严格遵守保密义务，不得向任何第三方...

MapReduce的两个简单例子: 利用MapReduce，我们可以将这个任务分布到整个集群上，每个节点负责一部分文件的复制。 1. **Map阶段**：输入是源文件目录和目标文件目录，Map函数根据文件名生成键值对，键是文件名，值是文件路径。这样，每个...

mapreduce例子: 标题“MapReduce例子”可能是指一个具体的MapReduce编程示例，展示了如何使用MapReduce模型解决实际问题。MapReduce的工作流程通常包括以下几个步骤： 1. **数据分片（Input Split）**：输入的数据集被分割成多个...

阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南 20200330: 阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南 20200330 本文档是阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南，旨在帮助用户快速了解和使用 E-MapReduce 产品。该指南包括法律声明、通用约定、E-MapReduce ...

hadoop mapreduce 例子项目，运行了单机wordcount: 这个例子项目是关于在单机环境中运行WordCount程序的，这是一个经典的MapReduce示例，用于统计文本文件中每个单词出现的次数。首先，让我们深入了解Hadoop。Hadoop是由Apache软件基金会开发的开源框架，专门设计...

阿里云专有云企业版 V3.7.0 E-MapReduce 技术白皮书 20181201.pdf: E-MapReduce是基于开源Hadoop和Spark生态构建的企业级大数据处理服务，它为企业在阿里云上构建大数据平台提供了高效、稳定和易用的解决方案。 1. **产品概述** - E-MapReduce旨在简化大数据处理的复杂性，通过集成...

Global site tag (gtag.js) - Google Analytics