阅读原文请点击:
http://click.aliyun.com/m/22981/
摘要: 案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。
案例说明
本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。
适用人群
MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。
案例侧重
数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。
示例介绍
房产网上经常会看到一些排行榜,如最近30日签约的楼盘排行、签约金额的楼盘排行等,本示例我们简单介绍通过对二手房产数据信息表(house_basic_info)统计分析出每个城市二手房均价top 5的楼盘并且给出该楼盘所在城区,最后需要让这些数据在房产网上呈现。
数据说明
二手房网产品数据信息表house_basic_info存储于RDS-MySQL(区域:阿里云华南1可用区A;网络:专有网络),表数据每天全量更新。
“二手房网产品数据信息表”在数加平台公开数据集-二手房产数据集上有,可以直接使用,不过数据量会与本案例呈现的可能不完全一致。
具体表信息如下:
字段 字段类型 字段说明
house_id varchar 房产 ID
house_city varchar 房产所在城市
house_total_price Double 房产总价
house_unit_price Double 房产均价
house_type varchar 房产类型
house_floor varchar 房产楼层
house_direction varchar 房产方向
house_deckoration varchar 房产装修
house_area Double 房产面积
house_community_name varchar 房产所在小区
house_region varchar 房产所在地区
proj_name varchar 楼盘名称
proj_addr varchar 项目地址
period int 产权年限
property varchar 物业公司
greening_rate varchar 绿化率
property_costs varchar 物业费用
datetime varchar 数据日期
数据样例(英文逗号分隔):
000404705c6add1dc08e54ba10720698,beijing,8000000,72717,3室1厅,低楼层/共24层,南,平层/精装,137,玺萌丽苑,丰台 草桥 三至四环,null,null,null,null,null,null,20170605
RDS-MySQL上house_basic_info表的建表语句,如:
CREATE TABLE `house_basic_info` (
`house_id` varchar(1024) NOT NULL COMMENT '房产 ID',
`house_city` varchar(1024) NULL COMMENT '房产所在城市',
`house_total_price` double NULL COMMENT '房产总价',
`house_unit_price` double NULL COMMENT '房产均价',
`house_type` varchar(1024) NULL COMMENT '房产类型',
`house_floor` varchar(1024) NULL COMMENT '房产楼层',
`house_direction` varchar(1024) NULL COMMENT '房产方向',
`house_deckoration` varchar(512) NULL COMMENT '房产装修',
`house_area` double NULL COMMENT '房产面积',
`house_community_name` varchar(1024) NULL COMMENT '房产所在小区',
`house_region` varchar(1024) NULL COMMENT '房产所在地区',
`proj_name` varchar(1024) NULL,
`proj_addr` varchar(1024) NULL,
`period` int(11) NULL,
`property` varchar(1024) NULL,
`greening_rate` varchar(1024) NULL,
`property_costs` varchar(1024) NULL,
`datetime` varchar(512) NULL COMMENT '数据日期'
) ENGINE=InnoDB
DEFAULT CHARACTER SET=utf8 COLLATE=utf8_general_ci
COMMENT='二手房网产品数据信息表';
需求分析
阅读原文请点击:
http://click.aliyun.com/m/22981/
分享到:
相关推荐
4. 简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 5. 在 ETL过程中四个基本的过程分别是什么? 6. 从 ERP源系统中抽取数据最好的方法是什么? 7. 简述直接连接数据库和...
数据仓库ETL工具箱 Data Warehouse ETL Toolkit
数据仓库ETL(Extract, Transform, Load)工具箱是构建数据仓库系统的关键组成部分,它涵盖了从源系统中抽取数据、转换数据以及加载到目标数据仓库的一系列过程。在这个压缩包中,我们找到了“数据仓库ETL工具箱 ...
在物理层面,Web服务器部署了Web服务、元数据配置接口和服务,ETL配置信息库用于存储元数据,代理服务器上的ETL JOB生成服务生成ETL作业,而ETL服务器上则部署了调度控制服务和ETL工具如DataStage来执行作业。...
数据仓库和ETL数据仓库和ETL数据仓库和ETL数据仓库和ETL
1. ETL的定义:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据...
作为一位ETL工程师,你需要对数据的提取、转换和加载过程有深入的理解,并且熟悉Oracle数据库系统。以下是一些关于这两个主题的核心知识点: 1. **Oracle数据库系统**: - **SQL基础**:了解SQL语言,包括DML...
### 数据仓库与ETL工具箱概念 在企业信息化过程中,数据仓库作为核心组件,承担着存储、处理和提供决策支持数据的职责。ETL(抽取、转换、加载)是数据仓库建设的关键环节,负责从业务系统中抽取数据,经过清洗、...
ETL是数据仓库系统的核心部分,它负责从不同的源系统中抽取数据,进行清洗、转换,然后加载到数据仓库中,以便进行高效的数据分析和决策支持。 在本书中,读者将深入理解ETL流程的各个方面,包括: 1. **ETL概念与...
数据仓库工程师面试题 下面是对数据仓库的详细介绍和知识点总结: 什么是数据仓库? 数据仓库(Data Warehouse)是指一个大型的存储数据的集合,用于解决企业数据分析和决策目的。它将来自多个数据源的数据进行...
### ETL构建数据仓库 #### 一、ETL的概念及其重要性 ETL(Extract-Transform-Load)是数据抽取(Extract)、转换(Transform)、加载(Load)的简称,是构建数据仓库过程中不可或缺的关键环节。它负责从各种来源的...
数据仓库ETL工具箱是构建和管理数据仓库过程中的核心组成部分。ETL是Extract, Transform, Load的缩写,分别代表数据抽取、转换和加载这三个关键步骤。在本资料包中,我们有多个章节深入探讨了这个主题,包括第二章、...
在详细介绍数据仓库ETL(抽取、转换、装载)技术之前,我们先来了解一下与之相关的背景知识,以便更好地掌握ETL在整个数据处理过程中的作用和重要性。 首先,数据仓库是一种特殊的数据库,专门用于支持决策过程。它...
数据仓库ETL(Extract, Transform, Load)是构建和维护数据仓库的核心过程,涉及从不同源头抽取数据、清洗转换数据以及加载到目标系统的过程。在本"数据仓库ETL建设宝典"中,我们将深入探讨这个领域的重要概念、工具...
在面试中,考察者需要具备扎实的 ETL 知识和实践经验,本文将从标题、描述、标签和部分内容四个方面对 ETL 数据仓库技术面试题进行详细解析。 ETL 基础知识 ETL 是什么?ETL 是 Extract、Transform、Load 的缩写,...