一直觉得“大数据”这个名词离我很近,却又很遥远。最近不管是微博上,还是各种技术博客、论坛,碎碎念大数据概念的不胜枚举。在我的理解里,从概念理解上来讲,大数据的目的在于更好的数据分析,否则如此大数据的存储便没有这么大的意义了。至于从技术上,恰好之前在《淘宝技术这十年》的引言部分,读到一篇小文,觉得放在这个大数据的讨论下,也还很贴切:
“据不可靠消息,在双十一当天高峰,淘宝的访问流量最巅峰达到871GB/S。这个数字意味着需要178万个4Mb带宽的家庭宽带才能负担的起,也完全有能力拖垮一个中小城市的全部互联网带宽。那么显然,这些访问流量不可能集中在一起。并且大家都知道,不同地区不同网络(电信、联通等)之间互访会非常缓慢,但是你却发现很少发现淘宝网访问缓慢。这便是CDN(Content Delivery Network),即内容分发网络的作用。淘宝在全国各地建立了数十上百个CDN节点,利用一些手段保证你访问的(这里主要指js、css、图片等)地方是离你最近的CDN节点,这样便保证了大流量分散在各地访问的加速节点上。”
“假若一个卖家发布了一个新的宝贝,上传了几张新的宝贝图片,那么淘宝网如何保证全国各地的CDN节点中都会同步的存在这几张图片供用户使用呢?这里边就涉及到了大量的内容分发与同步的相关技术。淘宝开发了分布式文件系统TFS(Taobao File System)来处理这类问题。”
“当你买过了一个宝贝之后,即便是商家多次修改了宝贝详情页,你仍然能够通过‘已买到的宝贝’查看当时的快照。这是为了防止商家对在商品详情中承诺过的东西赖账不认。那么显然,对于每年数十上百亿比交易的商品详情快照进行保存和快速调用不是一个简单的事情。这 其中又涉及到数套系统的共同协作,其中较为重要的是Tair,淘宝自行研发的分布式KV存储方案。”
“无论你是否真正进行了交易,你的这些访问行为便忠实的被系统记录下来,用于后续的业务逻辑和数据分析。这些记录中访问日志记录便是最重要的记录之一, 但是前边我们得知,这些访问是分布在各个地区很多不同的服务器上的,并且由于用户众多,这些日志记录都非常庞大,达到TB级别非常正常。那么为了快速及时 传输同步这些日志数据,淘宝研发了TimeTunnel,用于进行实时的数据传输,交给后端系统进行计算报表等操作。”
“你的浏览数据、交易数据以及其它很多很多的数据记录均会被保留下来。使得淘宝存储的历史数据轻而易举的便达到了十数甚至更多个 PB(1PB=1024TB=1048576GB)。如此巨大的数据量经过淘宝系统1:120的极限压缩存储在淘宝的数据仓库中。并且通过一个叫做云梯的,由2000多台服务器组成的超大规模数据系统不断的进行分析和挖掘。”
这是我摘用了几段文章中的内容,CDN(内容分发网络)、TFS(淘宝分布式文件系统)、分布式存储方案、即时数据传输、极限压缩、云梯数据中心系统等等等等,这就构成了现在国内数据量最大的C2C(B2C)商城—淘宝的大数据处理体系。
现在生活中仿佛越来越多的接触到大数据了,从大数据技术到数据挖掘技术,都在我们身边发生,譬如我们常常看到邮箱里有一些商城的商品推荐,也是在分析了我们网上购物,浏览轨迹后有目标的推销给适合人群的。就像我经常在邮箱里收到当当给我推荐的我很感兴趣的书。
试读章节里还用大篇幅给我们介绍了大数据的另一产物—Nosql数据库。我个人对nosql数据库的了解仅限于使用过MongoDB,确没有认真去想过Nosql数据库的优势具体在哪些方面。通过阅读了试读章节部分,有了更全面的印象,包括相比传统关系型数据库,Nosql数据库由于其简单的数据模型避免了不必要的复杂性,同样的也具有了高吞吐量的优势;由于使用了元数据和应用数据分离的技术,使其有很强的水平扩展能力;同时Nosql数据库还很有效的避免了对象-关系映射带来的高额代价。在大数据时代即将到来的今天,Nosql数据库也将逐步占据数据存储市场的主导地位,成为大多数应用的不二之选。
相关推荐
《大数据挑战与NoSQL数据库技术》... 《大数据挑战与NoSQL数据库技术》对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。
### 《大数据挑战-NoSQL数据库技术》读书笔记 #### 一、概论 NoSQL数据库是一种新型数据库管理系统,它区别于传统的关系型数据库,具备非关系型、分布式、不具备传统意义上的ACID特性的三大特点。 - **非关系型**...
NoSQL 数据库技术原理与应用 NoSQL 数据库是大数据时代的产物,旨在解决关系数据库无法满足的...NoSQL 数据库具有灵活的可扩展性、灵活的数据模型和与云计算紧密融合等特点,是大数据技术原理与应用的重要组成部分。
大数据挑战与NoSQL数据库技术是当今信息技术领域中的热门话题,特别是在数据量呈指数级增长的背景下,传统的数据库管理系统已经无法满足高效存储和处理大规模数据的需求。NoSQL(Not Only SQL)数据库应运而生,成为...
NoSQL数据库则是大数据时代的重要存储解决方案之一。 NoSQL,全称"Not Only SQL",意为“不仅仅是SQL”,是一种非关系型数据库模型,旨在应对大规模分布式数据存储的需求。相较于关系型数据库,NoSQL数据库具有以下...
5.1 NoSQL简介 5.2 NoSQL兴起的原因 5.3 NoSQL与关系数据库的比较 5.4 NoSQL的四大类型 5.5 NoSQL的三大基石 5.6 从NoSQL到NewSQL数据库 5.7 文档数据库MongoDB 本章小结
《大数据技术基础》课程的第五章重点探讨了NoSQL数据库,并通过上机练习来深化学生对关系数据库和NoSQL数据库的理解。在这个环节中,学生将有机会实际操作四种不同类型的数据存储系统:MySQL(关系型数据库)、Redis...
《大数据挑战与NoSQL数据库技术》一书,由陆嘉恒编著,深入探讨了在当前数据爆炸的时代,如何应对大数据带来的挑战,并介绍了NoSQL数据库技术作为解决方案的重要角色。本书内容丰富,旨在帮助读者理解大数据的特性、...
5-大数据导论-第五章-NoSQL数据库(共63页).ppt 6-大数据导论-第六章-云数据库(共44页).ppt 7-大数据导论-第七章-MapReduce(共38页).ppt 8-大数据导论-第八章-流计算(共32页).ppt 9-大数据导论-第九章-图计算...
大数据,这个21世纪的新词汇,正逐渐渗透到我们生活的各个角落。大数据,简单来说,就是...因此,无论是企业管理者还是技术人员,都需要深入了解大数据的定义、特性以及相关技术,以便更好地适应这个大数据时代的需求。
总结,分布式数据库和NoSQL数据库是现代信息技术中的重要组成部分,理解它们的原理和应用可以帮助我们更好地应对大数据时代的挑战。通过学习本课件,你将能深入理解这些技术,并能在实际工作中灵活运用。
大数据技术是21世纪信息化时代的基石之一,它涵盖了海量数据的采集、存储、处理和分析,为各行各业提供了深刻的洞见和决策支持。本实验数据集是针对大数据技术的一个实际应用案例,旨在帮助学习者理解并掌握大数据的...
数据存储则需要考虑大数据存储解决方案,如Hadoop HDFS或NoSQL数据库;数据处理可能运用到MapReduce、Spark等分布式计算框架;而数据分析结果通常通过数据可视化工具如Tableau、Power BI等展示,以便于决策者直观...
此外,还涉及到NoSQL数据库MongoDB和内存数据存储系统Redis的相关资料。这个压缩包为想要深入学习大数据技术的初学者或专业人士提供了全面的学习资源。 首先,Hadoop2.x是Hadoop的第二个主要版本,引入了YARN(Yet ...
标题中的“大数据导论-第六章-云数据库”揭示了本课件主要聚焦于大数据的基础理论,并特别关注云数据库这一主题。云数据库是大数据处理和存储的重要...通过深入学习,可以提升对大数据技术和云数据库应用的全面认识。
"大数据技术原理与应用之NoSQL数据库" 在大数据技术原理与应用领域中,NoSQL数据库扮演着非常重要的角色。NoSQL数据库是指不遵循传统关系数据库管理系统(RDBMS)的数据库管理系统,主要特点是去中心化、可扩展性强...
二.NoSQL数据库的产生 关系数据库面临挑战 关系数据库面对超大规模和高并发的SNS类型的web2.0纯动态网站显得力不从心,暴露了很多难以克服的问题 A 大数据发展 大规模数据集合,多重数据带来了许多挑战,尤其是...
Chapter5--大数据技术原理与应用-第5讲-NoSQL数据库.pdf Chapter6--大数据技术原理与应用-第6讲-云数据库.pdf Chapter7--大数据技术原理与应用-第7讲-MapReduce.pdf Chapter8--大数据技术原理与应用-第8讲-基于...