- 浏览: 25452 次
- 性别:
- 来自: 深圳
文章分类
最新评论
接着上次博客记录, 例子虽然可以在本地运行,如果将写好的代码在阿里云上运行。
基本步骤如下:
1.将写好的代码导出成jar文件,代码里面的字段名用小写,ODPS都转为小写,用大写会报错找不到相应的字段,在后面执行才知道这个问题。
EtlTools.java-->Export--->Jar file-->name-mr.jar
2.从Eclipse workspace拷贝到D:\odpscmd_public\bin,路径不能有中文,否则后面会报错找不到相应的jar包
3.数据准备,建表
CREATE TABLE etl_in (idCard STRING, name STRING, dept STRING);
CREATE TABLE etl_out (idCard STRING, name STRING);
将数据用txt文本保存,记得txt文件用UTF-8编码,否则数据在ODPS客户端查看是乱码
命令行:tunnel upload data.txt etl_in; 导入数据
4.上传jar包,运行MR
jar add name-mr.jar;
jar -resources name-mr.jar -classpath name-mr.jar com.aliyun.odps.examples.mr.EtlTools ;
5.验证结果 select * from etl-out;
基本步骤如下:
1.将写好的代码导出成jar文件,代码里面的字段名用小写,ODPS都转为小写,用大写会报错找不到相应的字段,在后面执行才知道这个问题。
EtlTools.java-->Export--->Jar file-->name-mr.jar
2.从Eclipse workspace拷贝到D:\odpscmd_public\bin,路径不能有中文,否则后面会报错找不到相应的jar包
3.数据准备,建表
CREATE TABLE etl_in (idCard STRING, name STRING, dept STRING);
CREATE TABLE etl_out (idCard STRING, name STRING);
将数据用txt文本保存,记得txt文件用UTF-8编码,否则数据在ODPS客户端查看是乱码
命令行:tunnel upload data.txt etl_in; 导入数据
4.上传jar包,运行MR
jar add name-mr.jar;
jar -resources name-mr.jar -classpath name-mr.jar com.aliyun.odps.examples.mr.EtlTools ;
5.验证结果 select * from etl-out;
发表评论
-
Canal相关理解
2017-12-29 16:18 460转载:http://www.importnew.com/251 ... -
kettle部署
2017-12-26 16:04 7201.将jmbi sql先上生产环境, 参考附件jmbi.sql ... -
crontab定时运行MR不行,手动shell可以执行成功问题排查过程
2017-12-26 15:48 859设置了定时任务,但MR任务没有执行。 第一步:手动执行she ... -
Flume+kafka+Spark Steaming demo2
2017-11-22 13:15 459一,flume配置 # Name the components ... -
Flume+Kafka+Spark Steaming demo
2017-11-21 15:21 441一.准备flume配置 a1.sources = r1 a1. ... -
HBase表导出成HDFS
2017-10-19 19:40 898导出步骤:在old cluster上/opt/cloudera ... -
zepplin实战
2017-10-13 16:10 361一句话介绍Zeppelin 以笔记(Note)的形式展示的数据 ... -
Azkaban安装
2017-10-10 18:32 905一.下载 https://github.com/azkaban ... -
KYKIN安装
2017-09-30 17:35 121. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
KYKIN安装
2017-09-30 17:40 3611. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
Logstash安装部署配置
2017-04-28 10:24 1023为了实现各业务平台日志信息采集到大数据平台hdf ... -
HBASE API
2017-04-18 11:01 472package org.jumore.test; impor ... -
Ambari卸载shell
2017-03-28 17:28 466#!/bin/bash # Program: # uni ... -
linux ssh 相互密码登录
2017-02-22 13:40 4161.修改集群各机器名称 vim /etc/sysconfig/ ... -
Kettle Linux 安装部署
2017-02-15 17:20 1352一.安装JDK环境:根据自己的linux系统选择相应的版本,比 ... -
hadoop环境搭建
2017-01-23 17:31 351192.168.23.231 server1 192.168. ... -
环境安装
2017-01-17 16:26 391物理机部署分配 3台物理机上部署 Zookeeper 3个,F ... -
Storm demo
2016-12-19 15:50 439public class SentenceSpout exte ... -
运行Hadoop jar 第三方jar包依赖
2016-08-22 13:47 1018将自己编写的MapReduce程序打包成jar后,在运行 ha ... -
windows10下运行MR错误
2016-07-05 13:45 1654当在windows下运行MR程序时,会报各种错误。现把这次碰到 ...
相关推荐
在阿里云E-MapReduce中,创建一个作业实际上是创建一个作业运行配置,该配置包括了作业要运行的jar包、数据的输入输出地址、运行参数等信息。执行计划是将作业与集群关联起来的一个纽带,通过它可以把多个作业组合...
阿里云E-MapReduce快速入门 阿里云E-MapReduce是阿里云提供的一种大数据处理服务,基于Hadoop和Spark的分布式计算引擎,可以对大规模数据进行快速处理和分析。本资源摘要信息将指导您快速开始使用阿里云E-...
阿里云E-MapReduce SDK是针对大数据处理场景的开发工具包,主要面向使用阿里云Hadoop和Spark...通过以上知识点,开发者可以有效地利用阿里云E-MapReduce SDK进行大数据处理和分析工作,实现高效、安全的云上数据操作。
阿里云E-MapReduce是一款基于Hadoop大数据处理的云服务,它为企业提供了高效、便捷的大规模数据处理解决方案。本文将详细介绍如何快速入门阿里云E-MapReduce,包括准备工作、创建集群以及集群配置等方面。 首先,要...
阿里云E-MapReduce是一款基于开源Hadoop和Spark的大数据处理系统解决方案,旨在简化用户在云环境中运行分布式处理任务的复杂过程。该产品是构建在阿里云ECS(Elastic Compute Service)实例之上,提供了一整套从集群...
在E-MapReduce中,集群由一个或多个阿里云ECS实例构成,每个实例上运行着Hadoop或Spark的守护进程。例如,NameNode和ResourceManager所在的节点称为Master节点,DataNode和NodeManager所在的节点称为Slave节点。这种...
阿里云E-MapReduce-最佳实践-D.docx
阿里云E-MapReduce是一个基于Hadoop和Spark的云服务,提供大数据处理的便捷解决方案。在使用E-MapReduce过程中,可能会遇到各种问题,本文主要针对其中的一些常见问题进行解答。 1. **作业与执行计划的区别** - **...
阿里云E-MapReduce是一个基于...综上,阿里云E-MapReduce的OpenAPI调用涉及多个层面,包括请求构建、签名验证、错误处理和安全机制。理解和熟练掌握这些知识点对于有效地利用E-MapReduce服务进行大数据处理至关重要。
阿里云E-MapReduce是一款基于开源Hadoop和Spark生态系统的云端大数据处理服务,它提供了便捷的集群管理和数据处理能力。E-MapReduce旨在简化大数据工作流,让用户无需关心底层基础设施的运维,专注于数据分析本身。 ...
阿里云E-MapReduce是一款基于开源大数据生态技术的托管服务,它提供了丰富的API接口供用户进行管理和操作。本文档主要介绍E-MapReduce的OpenAPI调用机制和相关的请求参数,帮助用户理解如何安全地与服务进行交互。 ...
阿里云E-MapReduce(EMR)是一款基于大数据处理的云端服务,它提供了便捷的MapReduce、Hadoop、Spark等计算框架的管理和运行能力。SDK(Software Development Kit)是为开发者提供的工具包,使得用户能够通过编程...
6. **测试和运行**:编写MapReduce程序后,可以使用Eclipse的“运行”菜单选择“运行配置”来创建一个MapReduce配置。配置包括指定主类、输入输出路径、集群地址等参数。然后点击“运行”执行程序。 7. **提交作业*...
本项目支持在Spark运行环境中与阿里云的基础服务OSS、ODPS、LogService、ONS等进行交互。 构建和安装 git clone https://github.com/aliyun/aliyun-emapreduce-datasources.git cd aliyun-emapreduce-data...
"阿里云专有云企业版 V3.8.1 E-MapReduce 技术白皮书 20200330" 1. 阿里云专有云企业版E-MapReduce技术白皮书的法律声明:该技术白皮书的内容视为阿里云的保密信息,用户应当严格遵守保密义务,不得向任何第三方...
利用MapReduce,我们可以将这个任务分布到整个集群上,每个节点负责一部分文件的复制。 1. **Map阶段**: 输入是源文件目录和目标文件目录,Map函数根据文件名生成键值对,键是文件名,值是文件路径。这样,每个...
E-MapReduce是阿里云上的大数据处理服务,基于Apache Hadoop和Spark等开源技术,为企业提供了高效、易用的大数据处理环境。 白皮书首先强调了法律声明,指出用户在使用或引用文档时需遵守一定的规定。用户应通过...
标题“MapReduce例子”可能是指一个具体的MapReduce编程示例,展示了如何使用MapReduce模型解决实际问题。MapReduce的工作流程通常包括以下几个步骤: 1. **数据分片(Input Split)**:输入的数据集被分割成多个...
阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南 20200330 本文档是阿里云专有云企业版 V3.8.1 E-MapReduce 用户指南,旨在帮助用户快速了解和使用 E-MapReduce 产品。该指南包括法律声明、通用约定、E-MapReduce ...
这个例子项目是关于在单机环境中运行WordCount程序的,这是一个经典的MapReduce示例,用于统计文本文件中每个单词出现的次数。 首先,让我们深入了解Hadoop。Hadoop是由Apache软件基金会开发的开源框架,专门设计...