大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不再是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Storm由java和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。
spark弥补了hadoop的不足,使之各有各的优势和用处。三者的适用范围如下:Hadoop常用于离线的复杂的大数据处理;Spark常用于离线的快速的大数据处理;Storm常用于在线的实时的大数据处理。
那么,大数据的核心是什么?依笔者愚见,有三个方面:一是数据,没有数据扯啥都是白搭;二是技术,没有大数据的处理技术,那么数据也就只是一些磁盘;三是思想,有了数据和处理技术,还要有idea,也就是怎么让数据产生更大的价值。
大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。
另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。
Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?其实这些只是表面不同的工具而已,本质上的思想是一致,相信未来还会有更多的工具涌现出来,但思想确很难有所变化,比如,你要想快,那么从计算机的体系结构来看,就得多内存,而少硬盘,因为硬盘太慢了。
另外,从处理问题的角度也是一样的,通过采用更多的资源,以分布式的方式,来同时处理那么的数据,速度也肯定会快,当然前提是,不同机器之间交互通信的成本,低于由此带来的益处。
storm是实时处理,spark和hadoop是批处理,两者是互补。而spark和hadoop比较的话,spark主要是充分利用内存计算并且支持更多的操作而不仅是map/reduce,这样有些迭代密集的算法执行效率会更高,而hadoop可能需要多个mr任务来完成。在2.0之后,hadoop使用了新的yarn框架,map/reduce只是其中一种默许了,spark也可以在hadoop的yarn框架下运行的,所以2者还会是融合的。
今后大数据的发展趋势,套用一条耳熟能详的口号就是,更快、更高、更强。不过也需要更加规范,这些个东西,A工具、B工具、C工具,感觉有点像一个个玩具,还不是一个成熟的产品,所以,以后可能会有专门的公司来做商业化的软件,更加成熟的软件。经过几年的酝酿应该会有更多的应用出现,除了互联网,在某些行业用户中也会有落地的成果。
分享到:
相关推荐
Python大数据处理与分析习题答案 本资源摘要信息涵盖了 Python 大数据处理与分析的多个方面,包括 Python 语言的简介、Anaconda 平台的特点、Jupyter 和 PyCharm 的区别、NumPy 库的安装和使用等。 Python 语言...
本文将深入探讨“荷兰耕地语义分割遥感影像数据集”这一资源,以及它对相关领域的价值。 首先,让我们了解什么是语义分割。在计算机视觉和图像处理中,语义分割是将图像的每个像素分配到特定类别或对象的过程。它...
【公共自行车服务系统】的研究与大数据处理主要关注的是如何运用数学建模和数据分析技术优化城市中的公共自行车系统。这一系统最初起源于欧洲,如荷兰和丹麦等国,随着时间的推移,结合计算机、无线通信和互联网技术...
提取三维体积属性的技术已应用于北海荷兰地区F3区块的3D地震数据体积。 使用这些体积属性的目的是从烃类岩相中提取信号特征。 结果为油藏位置,油气探测和油藏岩性预测中的瞬时地震属性提供了显着贡献。 瞬时振幅,...
标题中的“荷兰国家旅游文化介绍英文ppt模板.rar”指出,这是一个关于荷兰旅游文化的英文演示文稿模板,可能包含了荷兰的主要旅游景点、民俗风情以及文化特色的详细介绍。这种模板通常用于教育、旅游宣传或对外文化...
荷兰的糖尿病视网膜病变筛数据集是一份重要的医学影像资源,主要针对糖尿病视网膜病变(Diabetic Retinopathy, DR)的研究。这个数据集包含199张荷兰人群的视网膜照片,旨在为开发和优化糖尿病检查图像模型提供训练...
为了验证新方法的有效性,研究者选取了荷兰代尔夫特的一条城市道路作为研究对象,利用实际收集的数据对比分析了新方法与现有方法。结果显示,新方法在噪声数据剔除方面表现出更高的准确性和鲁棒性,能够更有效地保留...
本文档详细介绍了如何使用Labview软件开发一个用于PCR分析仪温度校准数据处理系统的过程和结果。首先,文档描述了聚合酶链反应(PCR)分析仪的重要性和其温度校准的必要性。PCR技术依赖于在不同温度下进行DNA的变性...
荷兰留学资料荷兰留学资料荷兰留学资料荷兰留学资料 荷兰留学资料
在数据处理与信息提取方面,3Dsurs动态激光测图数据处理系统利用VB6.0和AutoCAD作为开发平台自行开发,可实现激光扫描仪原始数据的预处理、多传感器数据融合、特征信息的提取以及可视化等功能。该系统的开发成功突破...
对于波文比在湿润地表的精确确定,以及如何处理零平面位移等问题,也是数据处理过程中的关键步骤。 此外,文中提到的稳定条件下的普适函数目前没有统一的表达式,一般采用仪器说明书推荐的函数进行计算。通过多个...
总之,这个荷兰的大型4级NER模型是人工智能领域的一个先进成果,它利用Flair库和大规模预训练模型,实现了在荷兰语文本中高效且准确地识别实体,其在CoNLL-03数据集上的高F1分数证明了其卓越的性能。对于需要处理...
荷兰以数据中心为核心打造云计算产业.pdf
大国崛起荷兰PPT教案.pptx
设有一个仅由红、白、蓝三种颜色的条块组成的序列。试设计一个时间复杂度为O(n)的算法,使得这些条块按红、白、蓝的顺序排好,即排成荷兰国旗图案。
一旦解压并打开这个文件,用户将能够看到模板的实际内容,包括各种幻灯片布局、图片、图表和文字框,这些都预设好了内容和设计,只需添加具体的信息和数据即可。 总结来说,这个“荷兰旅游文化介绍英文ppt模板”是...
快速排序的随机化版本在最坏情况下具有O(n log n)的时间复杂度,但在处理荷兰国旗问题时,由于我们只关心特定值的划分,可以进一步优化至O(n)的时间复杂度。 以下是荷兰国旗问题的算法步骤: 1. 初始化三个指针:`...
荷兰皇家图书馆致力于保存国家的文化遗产,通过使用 CD-ROMs、磁盘和磁性光存储磁盘,保存了大量电子化的资料。由于预计该馆的数字内容将达到几百TB,因此该馆认为此时他们需要一种可扩展、可靠的数字媒体管理解决...
《DEC-学客荷兰语手机词典最新试用版V1.4》是一款专为学习荷兰语设计的移动应用,提供了便捷的词汇查询和学习功能。这款试用版旨在帮助用户在移动端轻松掌握荷兰语词汇,提升语言学习效率。下面我们将深入探讨这款...