`
sharong
  • 浏览: 496280 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
D1667ae2-8cfc-3b68-ac7c-5e282789fa4a
论开源
浏览量:8819
7eb53364-fe48-371c-9623-887640be0185
Spring-data-j...
浏览量:13164
社区版块
存档分类
最新评论

大数据处理之荷兰三剑客

阅读更多
大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不再是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Storm由java和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。

spark弥补了hadoop的不足,使之各有各的优势和用处。三者的适用范围如下:Hadoop常用于离线的复杂的大数据处理;Spark常用于离线的快速的大数据处理;Storm常用于在线的实时的大数据处理。

那么,大数据的核心是什么?依笔者愚见,有三个方面:一是数据,没有数据扯啥都是白搭;二是技术,没有大数据的处理技术,那么数据也就只是一些磁盘;三是思想,有了数据和处理技术,还要有idea,也就是怎么让数据产生更大的价值。
大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。
另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。

Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?其实这些只是表面不同的工具而已,本质上的思想是一致,相信未来还会有更多的工具涌现出来,但思想确很难有所变化,比如,你要想快,那么从计算机的体系结构来看,就得多内存,而少硬盘,因为硬盘太慢了。
另外,从处理问题的角度也是一样的,通过采用更多的资源,以分布式的方式,来同时处理那么的数据,速度也肯定会快,当然前提是,不同机器之间交互通信的成本,低于由此带来的益处。

storm是实时处理,spark和hadoop是批处理,两者是互补。而spark和hadoop比较的话,spark主要是充分利用内存计算并且支持更多的操作而不仅是map/reduce,这样有些迭代密集的算法执行效率会更高,而hadoop可能需要多个mr任务来完成。在2.0之后,hadoop使用了新的yarn框架,map/reduce只是其中一种默许了,spark也可以在hadoop的yarn框架下运行的,所以2者还会是融合的。

今后大数据的发展趋势,套用一条耳熟能详的口号就是,更快、更高、更强。不过也需要更加规范,这些个东西,A工具、B工具、C工具,感觉有点像一个个玩具,还不是一个成熟的产品,所以,以后可能会有专门的公司来做商业化的软件,更加成熟的软件。经过几年的酝酿应该会有更多的应用出现,除了互联网,在某些行业用户中也会有落地的成果。
1
1
分享到:
评论

相关推荐

    反编译工具,可以看C#代码

    反编译工具,可以看C#代码

    谷歌浏览器,安卓离线版APK

    谷歌浏览器,安卓离线版APK

    Delphi 12.3控件之SiComponents TsiLang Components Suite V7.6.0.1 for D7-DX10.3 WIN32-WIN64 ONLY.7z

    Delphi 12.3控件之SiComponents TsiLang Components Suite V7.6.0.1 for D7-DX10.3 WIN32-WIN64 ONLY.7z

    MySQL课程考试题.txt

    MySQL课程考试题.txt

    深度神经网络并行化技术综述与发展前景

    内容概要:本文详细探讨了深度神经网络(DNN)并行化技术的发展历程、现有技术和未来挑战。文章首先介绍了DNN的发展背景及其在图像分析、语音识别、自动驾驶等领域的广泛应用。随着DNN模型复杂度和训练数据量的增长,训练时间和计算成本急剧上升,促使研究人员寻求并行化解决方案。文中讨论了多核CPU、GPU、MIC、FPGA和ASIC等多种硬件平台的并行计算能力,并分析了CUDA、OpenCL、OpenMP、MPI和Spark等并行编程框架的特点和适用范围。接着,文章深入讲解了DNN的模型并行和数据并行两种主要并行化方法,并通过AlexNet案例展示了这两种方法的具体实施过程。此外,文章还比较了几款流行的DNN开源软件系统(如Caffe、TensorFlow、MXNet等)的并行化策略。最后,文章总结了当前DNN并行化存在的挑战,包括性能可移植性、任务自动划分、通信瓶颈等,并对未来的发展方向进行了展望。 适合人群:从事深度学习研究的科研人员、工程师和技术爱好者。 使用场景及目标:帮助读者全面了解DNN并行化技术的现状和发展趋势,指导他们在实际工作中选择合适的硬件平台和编程框架,优化DNN模型的训

    网络工程师备考资源库80M(笔记和历年真题).zip

    网络工程师备考资源库80M(笔记和历年真题).zip

    ssm旅游资源网站lw+ppt.zip

    Java项目基于ssm框架的课程设计,包含LW+ppt

    chromedriver-win32-135.0.7049.41.zip

    chromedriver-win32-135.0.7049.41.zip

    Delphi 12.3控件之文件系统生成器GenFs(File System Generator)源代码包.zip

    Delphi 12.3控件之文件系统生成器GenFs(File System Generator)源代码包.zip

    Fannker 3D Metahuman UE开发资源合集

    Fannker 3D Metahuman UE开发资源合集 探索UE5的高效开发利器!本合集整合Fannker精选3D Metahuman资源,涵盖角色模型、材质、动画及插件,助你快速打造逼真数字人。适用于游戏、影视及虚拟制作,提升工作流效率。兼容UE5先进功能,如Nanite与Lumen,让创作更流畅。立即获取,开启次世代角色开发之旅!

    uTPLb-StreamUtils.pas

    uTPLb_StreamUtils.pas

    Delphi 12.3控件之UPXShell.rar

    Delphi 12.3控件之UPXShell.rar

    基于JAVA的股票交易管理系统.zip

    Java项目基于ssm框架的课程设计,包含LW+ppt

    一些最近整理的很多系噶噶是噶比巴格达杀我如果噶嘎嘎莎莎微软尬舞

    发嘎嘎撒日嘎三个人个人嘎斯人噶世人公认嘎嘎微软给我个如果

    使用DeeplabV3和Resnet50 BB预测脑肿瘤-DeeplabV3和Resnet50 BB预测脑肿瘤

    My project aims to develop a brain tumor segmentation model using DeepLabV3+ with ResNet-50 使用DeepLabV3+和ResNet-50开发一个脑肿瘤分割模型 具有resnet50骨干的deeplabv3开发脑肿瘤分割的正在进行的项目

    第六周上课内容.odt

    第六周上课内容.odt

    java面向对象:用Java写一个计算器

    java面向对象 - 类与对象 java面向对象:用Java写一个计算器.

    三菱PLC在六层电梯控制系统中的应用及其实现详解

    内容概要:本文详细介绍了三菱PLC在日本六层电梯控制系统中的应用及其具体实现方法。首先概述了电梯系统的工作原理,然后重点讲解了三菱PLC在电梯控制系统中的优势,包括高性能、高可靠性和易用性。接着深入探讨了电梯控制程序设计的关键环节,如系统初始化、中断处理机制、人机界面设计以及具体的梯形图编程逻辑。文中展示了如何通过位移寄存器、矩阵扫描法、方向判断、停靠逻辑等技术手段实现电梯的高效运行,并强调了故障处理机制的重要性。最后,通过对硬件配置、按钮处理、方向控制和联锁逻辑等方面的讨论,进一步揭示了三菱PLC在电梯控制系统中的核心地位。 适合人群:从事工业自动化、电梯控制系统设计的技术人员,尤其是熟悉三菱PLC编程的专业人士。 使用场景及目标:适用于需要深入了解三菱PLC在电梯控制系统中具体应用的场合,旨在帮助技术人员掌握电梯控制系统的编程技巧和优化方法,提高系统的稳定性和安全性。 其他说明:本文不仅提供了理论知识,还结合了大量实际代码示例,有助于读者更好地理解和实践三菱PLC在电梯控制系统中的应用。

    Delphi 12.3控件之PowerPDF for D12.7z

    Delphi 12.3控件之PowerPDF for D12.7z

    基于Maxwell仿真的8极12槽永磁同步电机设计及应用:优化农村三轮车动力系统的转矩脉动

    内容概要:本文详细介绍了为农村三轮车定制的48V直流供电8极12槽永磁同步电机的设计过程。作者通过Maxwell软件进行电磁场仿真,优化了磁钢形状、绕组布局以及控制策略,成功将转矩脉动控制在3%以内。具体措施包括采用斜槽结构、Halbach阵列V型磁钢、双层短距绕组等技术手段,确保电机在复杂工况下仍能保持高效稳定运行。此外,文中还提供了多个Python脚本用于辅助设计和自动化生产流程。 适合人群:从事电机设计、电磁兼容性研究的技术人员,特别是关注农业机械化领域的工程师。 使用场景及目标:适用于需要改进现有车辆动力系统的场合,尤其是希望提高电机效率、减少振动噪音的应用场景。目标是帮助技术人员理解和掌握如何利用现代仿真工具和技术优化电机性能。 其他说明:文章不仅涵盖了理论分析,还包括大量实战经验和技巧分享,如磁钢形状优化、绕组路径规划、温度对转矩影响等方面的内容。同时,附带的实际测量数据和图表有助于读者更好地理解设计方案的有效性和优越性。

Global site tag (gtag.js) - Google Analytics