参加了2012中国数据库技术大会,综合各方的演讲、资料和个人理解,总结出Big data(大数据)的趋势。
本次技术大会议题众多,但无论是企业级应用还是互联网应用,关注的焦点无一不是“大数据”。
传统的IBM、Oracle关注企业级大数据的统一解决方案,并已经提供了商业的产品;互联网的百度、淘宝、腾讯等都基于自己的业务和互联网的特点,构建了自己的大数据系统。一些研究机构或者学术机构,也已经被这个由互联网刮起的“大数据”旋风吸引,开始投入更多的精力进行相关理论上的研究。
现在比较流行的所谓“大数据”一般都是指历史的静态数据,例如日志数据、历史的业务数据;但经过我个人的理解和观察,其实“大数据”目前已经划分为两大部分“在线大数据(Online big data)”、“离线大数据(Offline big data)”。由于两类数据的访问要求不同,虽然不同公司的业务不一样,但基本上都殊途同归,两类数据的处理基本类似。
在线大数据
在线大数据主要是在线业务数据,比如百度的贴吧、淘宝的商品等,这类数据具有“海量访问”的特点,对读写要求特别高,包括读写的时延(决定用户的响应速度)、并发量(决定用户的并行数量)都比较苛刻,一般都要求时延在毫秒级,并发量在万级甚至十万级。
从这次大会的内容来看,无论是企业级应用,还是互联网级的应用,都采用了“数据库集群”的解决方案。企业级应用采用了商用数据库集群,例如Oracle Rac;互联网企业基本都是基于mysql构建自己的集群,例如淘宝的TDDL,百度的dbproxy等。
另外,淘宝使用了HBase集群提供在线大数据的服务,这可能是未来互联网在线大数据应用的一个趋势,个人分析原因如下:
1)业务复杂多变:互联网业务存在复杂多变的特征,传统的关系型数据库(例如MySQL)在应对数据变化方面存在天然的不足(特别是MySQL在线修改的能力更弱),
2)数据库集群存在中间层瓶颈:基于MySQL构建的数据库集群存在中间层的瓶颈(例如proxy本身成为瓶颈,估计只能达到10万量级)。
离线大数据
离线数据主要是历史数据,例如日志,历史业务数据,这部分数据主要用于数据分析和数据挖掘,不直接面向最终用户,具有“海量存储”的特点,对于存储容量要求特别高,一般都是PB级别的数据,存储服务器达到几百上千台,但这类数据对读写要求不像在线数据那么严格。
从这次大会的演讲内容来看,企业级的应用倾向于提供一体机(包括解决方案、软件、硬件)来完成离线大数据的处理,互联网应用毫无例外的都集中到了Hadoop体系上面,其中几个先行的公司已经在定制Hadoop了,例如百度、淘宝。
总结:
Big data的现状可以总结为如下图:
在RDBMS集群方面,国内的几个大公司都有自己的解决方案,但都不开源,开放心态还远远不够,令人遗憾!!
幸运的是最近已经看到Youtube已经开源了类似的解决方案Vitess,大家有时间研究一下,没有必要自己又造一个轮子啦!!!
另外,HBase是一个令人惊讶的产品,能够同时为两种不同类型的数据提供解决方案,值得大家深入研究!
附:
1)文中提到的相关互联网企业的信息都是从DTCC大会获取的,可能存在不准确或者错误的地方,如果需要引用,请三思!
2)Vitess项目地址: http://code.google.com/p/vitess/
分享到:
相关推荐
在2021年的DTCC大会上,众多嘉宾围绕着IT领域的前沿技术和应用进行了深入的探讨。这个主题为“2021年DTCC大会分享PDF”的压缩包文件,包含了大会三天的主要分享内容,聚焦于云原生数据库的开发实践、分布式数据库的...
【标题】"2020年DTCC大会嘉宾分享PDF" 涵盖了数据库技术领域的前沿议题,展示了各大企业在数据库服务、架构、云平台建设以及分布式系统等方面的实践成果。以下将详细介绍这些主题: 1. **工商银行核心业务MySQL实践...
【标题】"2018DTCC中国数据库大会"是一个重要的行业盛会,专注于探讨和分享数据库领域的最新技术、趋势和实践经验。这场大会是中国数据库行业内的一大盛事,汇聚了国内外的专家、学者、开发者以及企业代表,共同交流...
DTCC(Data Technology and Cloud Computing)是中国最具影响力的数据库与云计算技术交流平台之一,每年都会汇集业界专家、学者以及从业者,分享最新的技术发展、最佳实践和未来趋势。 【描述】"2016DTCC中国数据库...
在中国数据库大会2019(DTCC2019)上,各行业的技术专家和企业领袖汇聚一堂,分享了他们在数据库领域的最新成果和前沿技术。这个名为"DTCC2019-part1.zip"的压缩包文件包含了这场盛会的部分演讲PPT,让我们通过解析...
DTCC中国数据库技术大会是中国数据库行业最顶尖的盛会,已经举行多年。每年都有很多重量级嘉宾进行主题演讲,同时也有厂商发布最新的产品和技术。这个盛会不仅汇聚了国内外的行业专家和学者,也展示了数据库技术的...
《2017DTCC中国数据库大会PPT》是一份集合了当年数据库技术领域的精华分享文档,涵盖了数据库行业的最新趋势、前沿技术以及实践案例。DTCC(Data Technology and Cloud Conference)是中国最具影响力的数据库与...
《2017中国数据库技术大会(DTCC)》是一场专注于探讨数据库技术和大数据领域的盛会。这场大会汇聚了国内外顶尖的数据库专家、大数据分析师以及行业内的领军人物,旨在分享最新的技术趋势、实践经验以及创新解决方案...
2011数据库技术大会(DTCC)演讲PPT.part1.rar 2011数据库技术大会(DTCC)演讲PPT.part1.rar
2011数据库技术大会(DTCC)演讲PPT.part2.rar 2011数据库技术大会(DTCC)演讲PPT.part2.rar
【DTCC2015中国数据库技术大会】是中国数据库领域的一次重要盛会,汇集了业界顶尖的技术专家和学者,分享了最新的数据库技术研发、应用实践以及未来趋势。这次大会的全面材料为我们提供了深入理解数据库技术的宝贵...
2013中国数据库技术大会DTCC_PPT_PDF_打包下载.part1.rar for 2part
【2010年中国数据库技术大会(DTCC)】是中国数据库领域的一次重要盛会,汇聚了众多业内专家、学者和企业代表,共同探讨了数据库技术的最新进展和未来趋势。这个压缩包文件包含了该大会的PPT演讲资料,是了解当时...
2013中国数据库技术大会DTCC_PPT_PDF_打包下载.part2.rar for 2 part
DTCC2015中国数据库技术大会会议全部材料DTCC2015中国数据库技术大会会议全部材料DTCC2015中国数据库技术大会会议全部材料
DTCC2021第12届中国数据库技术大会,共88份 HTAP系统的问题与主义之争 OushuDB性能调优实战 TDSQL全局一致性读技术详解 万亿级湖仓一体架构下的统一数据服务平台应用实践 滴普基于ClickHouse的实时分析引擎应用实践 ...
DTCC,即Data Technology & Cloud Computing Conference,是中国最具影响力的数据库与云计算技术交流平台之一。2020年的大会尤其聚焦于在数字化转型浪潮中,数据库如何适应并引领技术创新。 【描述】"(DTCC2020)...
2011年数据库大会部分ppt下载 丁原:海量数据迁移方案.pdf 王龙:百度数据库架构演变与设计.pdf 杨海潮: 基于MySQL的分布式数据库实践_公开.pdf 姜承尧:MySQL创新工厂.pdf 邵宗文:数据库托管平台介绍.pdf 杨涛:...
2019年5月8日~5月10日,由 IT168 旗下 ITPUB 企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度...
DTCC 2019 PPT 主场 1 数据架构 十年变迁 主场 2 数据架构 十年变迁 专场1 数据库内核技术 专场2 AI与大数据应用(上) 专场3 NoSQL 技术与实践 专场4 金融行业数据库实践(上) 专场5 云时代的数据库(上) 专场7 ...