`

大数据不是只有Hadoop

阅读更多

这段时间接触大数据相关项目比较多,自然有些体会和感触。感觉到自己之前对于这个领域的认识并不全面,甚至有点盲目,然后在具体项目或者概念认证阶段走了不少弯路。但好在在这些项目过程中认识接触了不少合作伙伴的兄弟姐妹们,从他们那里学到了不少东西。现在试着把这些心得整理下分享给大家,希望对于各位对大数据感兴趣的童鞋们有点帮助吧。这篇PPT主要有两个部分:一个部分是讲大数据应用场景以及和传统方案的区别等等,还有一个部分是介绍国内大数据一些解决方案提供商和一些实际应用案例的。这里只贴出第一部分,希望能够帮大家理清些大 数据的概念性问题。


上图中,精确数据是指每条数据都有着准确的含义和确定的价值,表达很明确的信息。比如,制造业的一条生产记录。传统关系型数据库以处理这类数据。并基于此类数据通过复杂逻辑分析推演出业务价值为强项。

大数据时代数据的特点是大量模糊数据。单条数据没有确定的价值和明确的含义。比如,一个网页的点击记录。Hadoop的优势是能对海量模糊数据进行汇总排序比对等操作,把他们变成有意义的数据,再通过海量的样本比对等方式归纳产生业务价值。

所以,从本质上说这是两种针对不同场景不同对象的不同技术。如果要采用Hadoop去取代RISC架构的数据库,BI应用。那么必须打破原来企业经典的沿用几十年的数据结构,重新定义数据模型,表结构等等。还是我以前提过的,就是要重新从头练另一门武功。但那样下来效率是否一定就会比以前高, 效果是否一定比以前好,从我几个项目试验的结果来看也并不乐观。

但是,在某些情况下大数据技术也能比RISC架构更好的解决一些传统的结构化数据问题,比如ETL。在一些行业里,ETL工作往往需要一个很长的处理流程。利用Map/Reduce技术可以大大缩短ETL的工作流程,提高效率,而且随着数据量的不断增长,这种优势会越来越明显。所以说,是否用Hadoop去尝试替代原先的RISC架构,关键还是看数据量是否够大以及数据类型是否多样化。


以上这张图取自BI Reasrch。以数据查询的延迟性需求为纵轴,数据量和结构化程度为横轴列出了Hadoop技术和传统关系型即RDBMS的应用场景区别。Hadoop 之所以会出现其实就是为了应付海量的非结构化数据的离线分析的。所以其应用场景也基本是以此类为强项,即数据量大,结构化程度低,分析的实时性要求不高。当然随着其技术的发展,外沿通过不同组件如Hive的补充有所拓展。但要其完全取代原先的RDBMS基本是不可能的事情。

正如第一张图所说,大数据时代,没有一种方案是可以包打天下的。企业内部未来也必将是多种方案并存来处理各类不同类型数据的环境。下面试着将目前数据库的几类应用场景分分类,同时列出了每一类国内外的一些解决方案名字。国外的方案我为了简单起见,只列出特性比较鲜明的。没有写Exadata是因为它有点属于混合方案,把它简单定位在一个领域有点不太合适。而且国内可以和它具备相同类型的方案也没有,就先不提了。改天有空我再整理下我对于Exadata的一 些粗浅认识给大家来喷一下。 关于国内方案,我列出的是仅限于我知道的或是合作过的方案提供商,当然还有很多遗漏的。当然也有些我认为特色不鲜明没有什么核心技术的也就不提了。这里只列出他们的名字和专注领域类型,详细的一些介绍就不在这里贴出来了,反正他们都可以在新浪微博里找到,呵呵。


当然,上图所列出的场景所针对的解决方案也不是唯一的。一些场景是多个方案都可以胜任的。

比如Mongo DB也可以做MAP/Reduce的工作。Hive能够为Hadoop体系提供SQL的接口等等

最后,再谈一下我对国内大数据解决方案提供商的一些总体感觉。当然,还是那句话,这些观点只是在我接触过的几个方案中得出的,并不代表国内总体的情况,我没有这么多的精力去了解,也没有这个能力。这些感觉仅供参考。


关于适宜客户群,我上面说的也只是我个人的一些建议。我觉得,这些国内解决方案的供应商,需要通过一些实际企业应用案例实施的磨练,以及一些合作伙伴的帮助,才能真正走向成熟,走向商用,去挑战那些国外的知名产品。我觉得从目前来看,技术不是问题,路线方向也没有什么错误。关键是 对自身的规划和技术走向商用,走向产品化流程化的运作能力。我也真心希望国内的那些大企业大公司能够给国内的这些有技术有想法的方案提供商一些机会,让他们能够积累经验,成长壮大。

先写这些吧。还有一部分关于国内那些大数据方案同国外方案的对比,以及Intel Hadoop方案同Cloudera的对比,目前我写的主要还是针对我们公司内部分享的用途,就不对外公开了。有兴趣的朋友我们下次可以口头讨论。还有几个我自己亲身参与的行业案例,回头如果得到那些公司许可了再公开给大家分享吧。


ref:http://datacenter.watchstor.com/news-140637.htm
  • 大小: 40.4 KB
  • 大小: 32.1 KB
  • 大小: 44.1 KB
  • 大小: 28 KB
分享到:
评论

相关推荐

    大数据课程-Hadoop集群程序设计与开发-9.Azkaban工作流管理器_lk_edit.pptx

    6. **身份验证和授权**:内置的身份验证和授权机制确保只有授权用户可以访问和操作工作流,增强了安全性。 7. **操作跟踪**:记录用户操作,便于审计和故障排查。 8. **邮件提醒**:对于任务的失败或成功,Azkaban...

    3、大数据环境-安装Hadoop2.5.2完全分布式傻瓜教程(Virtual5+CentOS6.8).

    这份教程不是独立的完全分布式安装教程,而是在先前已经安装了VirtualBox5和CentOS6.8以及安装了Hadoop2.5.2伪分布式集群教程的基础上进行的。 知识点详细解析如下: 1. 大数据环境和Hadoop基础知识:Hadoop是一个...

    大数据技术Hadoop面试题,看看你能答对多少?(3).pdf

    【大数据技术Hadoop面试题解析】 在大数据领域,Hadoop是一个关键的技术,它提供了分布式存储和计算的能力。这里我们分析一些Hadoop相关的面试题,帮助理解其核心组件和工作原理。 1. **NameNode的角色**:...

    大数据之hadoop多节点集群搭建.docx

    大数据之 Hadoop 多节点集群搭建 本文将详细介绍如何搭建一个多节点 Hadoop 集群,包括集群架构设计、虚拟机配置、节点设置等内容。 一、集群架构设计 在搭建 Hadoop 集群之前,需要设计集群的架构。本文中的示例...

    大数据之hadoop分布式集群参数配置.docx

    在之前伪分布集群中只有一个节点,因此我们使用的是localhost,如今在集群中有三个节点,我们约定使用master。具体操作步骤如下: 首先,打开虚拟机,在终端中输入vim core-site.xml命令进入vim编辑界面。然后,...

    大数据培训零基础教学 Hadoop模式与搭建的相关问题.pdf

    【大数据Hadoop模式与搭建详解】 在大数据领域,Hadoop是一个关键的开源框架,用于处理和存储海量数据。...同时,不断实践和调试是提升Hadoop技能的关键,只有通过动手操作,才能真正掌握这个强大的大数据处理工具。

    大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

    Kerberos技术就是一种广泛应用的身份验证协议,常用于确保大数据平台如Hadoop的安全性。本资源提供的是Hadoop的大数据安全组件——Kerberos的集成安装包,具体版本为hadoop-3.3.4.tar.gz,这是一款针对Hadoop进行...

    Hadoop大数据平台构建、规划大数据平台集群教学课件.pptx

    在构建Hadoop大数据平台时,理解集群的三种模式至关重要。首先,单机模式主要用于学习和测试,它在本地操作系统上运行,不涉及分布式文件系统,数据读写直接操作本地文件。这种模式简单易用,但不具备扩展性和容错性...

    大数据+NameNode和DataNode工作机制+Hadoop的环境搭建学习

    只有安装和创建好NameNode和DataNode,并进行测试可以打开和运行,才完成了Hadoop的环境搭建基础的一个部分,除此之外,还有主节点也要安装、测试。把这些度安装好了,Hadoop的环境搭建才算完成了基础部分,后期还有...

    清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(25页) 第5章 安全管理.rar

    【压缩包子文件的文件名称列表】中的"清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(25页) 第5章 安全管理.pptx"是唯一一个文件,这意味着压缩包内只有一个PPTX文档,这将是一个完整的...

    hadoop 安全设置guide

    在大数据领域,Hadoop作为分布式计算的基石,其安全设置对于保护数据至关重要。本实践指南将带领你深入了解如何确保你的Hadoop集群的安全性。由Cloudera的专业团队,包括Principal Solutions Architect、Software ...

    基于Hadoop生态系统的大数据解决方案综述.docx

    ### 基于Hadoop生态系统的大数据解决方案综述 #### 一、绪论 随着互联网技术的迅猛发展,数据量呈爆炸式增长,这不仅带来了前所未有的机遇,也对数据处理能力提出了更高要求。大数据技术应运而生,旨在解决大规模...

    清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(25页) 第5章 安全管理.pptx

    总之,大数据安全是大数据技术发展中的核心问题之一,只有建立和完善全面的安全管理体系,才能真正发挥大数据在推动社会进步中的巨大作用。清华大学的这门课程无疑为我们提供了理解和掌握大数据安全管理的利器,使得...

    大数据(Bigdata)详解完整版

    可能涉及的内容包括Hadoop生态系统的组件(如Hive、Pig、HBase等)、Spark SQL和DataFrame、数据可视化工具(如Tableau)以及大数据项目实战经验。 总之,大数据是现代信息技术的重要组成部分,它改变了我们处理和...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第5期副刊_JDK和SSH无密码配置 共9页.pdf

    在当今这个数据爆炸的时代,大数据与云计算已经成为信息科技领域的热点话题。随之兴起的大数据处理技术...只有通过熟练地搭建和配置Hadoop集群,才能在未来的大数据时代中,更好地处理和利用信息,驱动业务的增长。

    Hadoop之电商广告数据分析系统的设计有实现

    在这种背景下,利用Hadoop大数据平台进行广告数据分析变得至关重要。本文将深入探讨如何设计并实现一个基于Hadoop的电商广告数据分析系统,并通过MapReduce进行数据处理,最后通过可视化技术展示分析结果。 首先,...

    大数据知识总结

    ### 大数据领域下的Zookeeper解析 #### 一、Zookeeper概述 Zookeeper是一个非常重要的分布式协调服务软件,主要用于辅助其他集群确保数据的一致性。它通过一个小文件系统来存储和管理数据,确保集群间数据的同步。...

    大数据培训心得.docx

    在实际应用中,大数据技术如Hadoop、Spark等被用来进行数据的存储、处理和分析。它们能够帮助企业和政府从海量数据中发现模式、趋势和关联,从而实现商业智能(BI)和数据分析。通过这些分析结果,企业可以预测市场...

Global site tag (gtag.js) - Google Analytics