最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。
以下从 数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。
1、1.0(2012.07)
1.1 数据:
1. 以支持用户报表需求为主
2. 初步沉淀出了一些底层模型
3. 模型计算程序以python为主
1.2 架构:
1. 存储和计算都在GreenPlum
2. GreenPlum采用双集群热备,一大一小,部分关键报表数据同时在两个集群存储、计算。
3.传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输程序每天凌晨解析落地的文件,然后将数据load到greenplum
4.调度:使用Quartz框架,依赖关系存放到表中,将依赖检查做成一个脚本,下游job 调用方法check上游任务是否完成
5.监控:用户程序自主判断异常,邮件、手机报警。
1.3 数据应用:
1.报表数据以邮件的形式发送给用户
2.用户可以使用自定义sql的web查询工具主动查询数据
2、2.0(2013.04)
2.1 数据:
1. 有了明确的模型分层:
a) ODS:存放从原系统采集来的原始数据
b) DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需要
c) DM: 数据集市。基于部门或某一特定分析主题需要
d) RPT:直接面向用户的报表
2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市
3. 基于volocity开发了canaan计算框架。
4. 开发了一些自定义的UDF
2.2 架构:
1. 存储和计算都基于HIVE
2. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储。
3. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖。
4. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互。
5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。
6. 传输:
a)参考阿里DataX的设计,实现了点评的异构数据离线传输工具wormhole
b)可视化界面,用户通过界面操作,方便的将数据导入导出数据
c)和调度、主数据等系统打通
7. 监控:由于任务数量增长较快(2000+),运维已经是个问题此外,因此,我们花了较大精力做了可视化的工作:
2.3 数据应用
1. 运营工具:用户自定义SQL,存储基于HIVE
2. 指标(KPI):用户自定义SQL,计算基于HIVE,结果放到GREENPLUM中,用户可以根据指标通过时间拼接成报表
3. HIVE WEB:非常便捷的HIVE WEB工具,可用性可以甩hive原生的web界面HWI几条街了
3、3.0(2013.12)
3.1 数据:
1. 有了明确的上层数据集市,各层数据集市打通,例如团购数据和流量数据打通
2. 形成了用户集市、商户集市两大主题
3. 和算法团队合作建设推荐系统
4. 提供框架和工具支持,引入外部数据开发者
3.2 架构:
1. 引入mysql、hbase,支持线上服务
2. 数据访问接口支持:API、Query Engine、RPC Service
3. 引入shark支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离
4. 数据质量:用户指定以条件,对计算结果做检查
3.3 数据产品:
支持DashBoard
4、4.0(2014.12)
4.1 数据:
1. 持续扩充/完善数据模型
2. 数据规范化,主要包括:APP日志、渠道
3. 完善数据开发平台,其他部门数据开发者100+
4.2 架构:
1. 建设Redis Cluster,支持实时推荐、用户画像等服务
2. Hadoop升级到YARN
3. 引入Storm支持实时计算
4. 推出类Kafka的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入
5. 建设元数据中心
4.3 数据产品:
推出专有数据产品,包括:运营效果评估、流量分析产品等。
Refer:
[1] 大众点评数据平台架构变迁
[2] 饿了么数据仓库治理及数据使用
http://www.infoq.com/cn/presentations/data-warehouse-management-and-data-use-of-eleme
转自:http://my.oschina.net/leejun2005
相关推荐
TalkingData-大数据统计分析平台架构故事-数据库技术进化 数据库架构变迁 共28页.pptx
架构设计与成长 知乎架构变迁发展史 架构设计是指根据业务需求和技术约束,设计和实现一个系统的整体结构和组件的过程。架构设计对系统的性能、可扩展性、可维护性和可靠性都有着至关重要的影响。知乎的架构变迁...
- **架构升级**:进一步明确了WebServer、AppServer、Cache和Database等架构层次,增强了全局缓存能力,采用NoSQL技术减少数据冗余,并实现了服务化改造。 #### 缓存策略与实现细节 - **缓存粒度与管理**:在缓存...
在余额宝2.0到4.0的发展过程中,数据架构也经历了从传统数据库到大数据处理平台的转变。这不仅包括了从交易数据中提取有价值信息的能力,还包括利用大数据技术对用户行为进行预测,为用户理财提供更加精准的服务。 ...
### 互联网时代的架构变迁 #### 单机时代与单体架构 互联网的早期阶段,特别是在资源有限、人力资源紧张的情况下,为了能够快速推出产品或者上线网站,单机模式成为了一个非常实用的选择。在这种模式下,所有的...
### 小米网架构变迁实践 #### 一、小米网技术架构的发展历程 小米网作为小米公司的官方网站,自诞生之初就面临着巨大的挑战和技术难题。在小米网发展的早期阶段,技术团队仅有三位开发工程师,在短短两个月的时间...
TalkingData的数据库技术进化历程为我们揭示了大数据统计分析平台从草根阶段到云端发展的全貌,同时也展示了数据库架构如何适应日益增长的数据处理需求。 TalkingData作为一个专注于移动互联网数据分析的平台,其...
知乎的架构变迁史是一部典型的互联网企业技术成长史,它反映了从初创公司到大规模平台的转型过程中,如何通过不断的技术迭代和创新,解决日益复杂的业务挑战。这一过程涉及了数据库优化、高可用架构设计、分布式系统...
豆瓣是中国知名的社交网络及评分平台,它的架构变迁代表了从早期的单体架构到微服务化架构的转变。早期,豆瓣可能采用的是传统的垂直架构,随着用户量的增加,这种架构难以扩展,因此逐渐转向分布式服务。微服务架构...
豆瓣网技术架构变迁的知识点主要包括以下几个方面: 1. 豆瓣网简介:2005年3月上线,是一个以分享和发现为核心内容的社区,主要内容包括读书、电影、音乐、小组、同城以及九点等板块,同时还有“我的豆瓣”和“友邻...
### 知乎架构变迁史概览 #### 一、引言 知乎作为中国最大的问答社区之一,自2010年成立以来经历了多次架构调整和技术迭代。本文将基于《知乎架构变迁史》PDF文档中的信息,深入探讨知乎的技术发展历程及其背后的...
金融行业数据库架构变迁
总之,金融行业数据库架构变迁反映了对数据安全、标准化、自动化和高可用性的追求。随着技术的不断发展,DBA的角色将更加多元化,涵盖更广泛的领域,如云数据库管理、大数据分析等,以应对未来的挑战。
美丽说数据库架构变迁
支付宝作为中国领先的第三方在线支付平台,其组织架构的变迁反映了互联网行业快速发展的特性与需求。在分析支付宝组织架构的过程中,我们可以看到几个关键的知识点: 1. **组织架构的重要性**:组织架构是企业运营...
百度贴吧作为中国最大的兴趣社区平台,承载着数百万个兴趣话题,每日吸引数百亿次流量,其架构的演变反映了互联网产品如何应对流量增长、功能扩展以及技术革新的挑战。 在2003年至2008年间,贴吧的核心功能相对集中...