阅读更多

1顶
0踩

互联网

原创新闻 运用Spark加速实时数据分析

2015-10-30 14:04 by 副主编 mengyidan1988 评论(1) 有5692人浏览
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。

在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天,能够满足上文提到的需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术,就是Apache Spark。从能源产业到金融行业,Spark凭借其高效性与多功能性已经成为当今大数据处理栈中的关键部分。

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算,在函数式编程中与Hadoop相比更具生产力。例如,如图1所示,在逻辑回归算法性能测试中,Spark内存计算下的运行比Hadoop MapReduce快了几个数量级的速度。



图1:逻辑回归算法性能测试。图片来源:Apache Spark,使用已经过授权。

其中Spark的一些特性包括:
  • 它利用分布式内存进行计算。
  • 它支持完整的用有向无环图(DAG)来展示数据的并行计算。
  • 它可以提高开发人员的经验。
  • 它提供了线性可伸缩性与数据本地化。
  • 它具有容错机制。

Spark为各种不同的用户提供着便利:信息技术开发人员可以受益于Spark支持各种流行的开发语言,例如Java、Python、R语言;而数据科学家可以在Spark支持的机器学习(ML)库中获得研究便利。

在Spark中还有一个庞大且不断增长的第三方包列表,将各式各样的工具、环境、框架、语言整合到一起,从而扩展Spark的复杂性以及能力。

Spark用例可以部署在不同的生产场景中,其中包括在一个大型技术公司中运用Spark通过使用机器学习来进行个性化搜索;在一个金融系统中仅需数小时便可以处理数以百万计的股票分析,要知道相同的工作量下此前使用Hadoop MapReduce起码得耗费一周的时间;在学术环境中进行基因科学研究;在视频系统中,Spark与Spark Streaming被用于处理流媒体及其分析;以及卫生保健领域中Spark被用于进行疾病的预测建模。

如此看来似乎各式各样不同的问题都能通过Spark成功地被解决,但是最重要的是我们仍需要不断去优化Spark的架构,以处理任何所提及到的用例。正如Spark拥有强大的特性,简而言之,这也意味着它的复杂性。因此,为了获得最佳性能的Spark,它需要成为一个更广泛的Hadoop基础数据管理平台的重要组成部分。此外,为了能在实时或者预测分析中得到更大收益,那么优化整个数据供应链也是至关重要的。

原文链接:Accelerating real-time analytics with Spark(翻译/丘志鹏 审校/林炀 责编/仲浩 )
  • 大小: 12.3 KB
1
0
评论 共 1 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 基于spark及用户行为标签的日志大数据分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • Spark 高级数据分析(第2版)

    作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过...

  • Spark成为大数据分析领域新核心的五个理由

    YARN是大数据环境下理想的资源分配与管理框架选项。第三也是最重要的一点,没有哪套单一处理框架能够...企业客户需要数据准备、描述性分析、搜索、预测性分析以及机器学习与图形处理等更为先进的功能。与此同时,企...

  • 基于Spark框架的新闻网大数据实时分析可视化系统项目.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark2.2的新闻网大数据实时分析系统设计与实现.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Flume&spark&Flask的分布式实时日志分析与入侵检测系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark+flume+kafka+hbase的实时日志处理分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark的地铁大数据客流分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于spark的外卖大数据平台分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark的行为日志分析系统设计与实现.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • Spark:实时数据微批处理(2.Spark Core:核心)

    文章目录1.RDD 概述1.1 什么是 RDD?1.2 RDD 的 5 个主要属性(property)1.3 理解 RDD1.3.1 RDD 特点2.RDD 编程2.1 RDD 编程模型...RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数...

  • 基于Spark MLlib 的 ALS 算法实现的电影推荐系统,采用MovieLens数据集进行分析建模.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 机器学习_深度学习毕设题目汇总——数据分析_数据挖掘

    基于可调Q因子小波变换和迁移学习的脑电数据分析方法研究 基于深度学习的烟草近红外光谱数据分析 基于自回归模型和机器学习的大气电场数据分析和应用研究 基于可视化技术的音乐数据分析平台的研究 面向数据...

  • 运用这招,让 Spark 提速 45 倍!

    通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们在单一平台上所能执行的数据分析类型方面,还是在执行这些任务的速度方面,Spark和Hadoop这一代框架都轻松胜过传统框架。Spark利用内存来处理数据,...

  • 基于spark streaming和kafka,hbase的日志统计分析系统.zip

    最终,我能够使用Spark处理大规模数据集,并通过并行化和分布式计算加速任务的执行。 其次,我开始了对Spring Boot的学习。Spring Boot是一种快速构建基于Spring框架的应用程序的方式。通过学习Spring Boot,我了解...

  • 基于Spark、NoSQL实时数据处理实践

    本文基于TalkingData 张学敏 在公司内部KOL的分享主题《基于Spark、NoSQL实时数据处理实践》的整理,同时也在DTCC大会上做了同主题的分享。主要介绍了项目的技术选型、技术架构,重点介绍下项目面临的挑战和解决办法...

  • 2000-2021年中国科技统计年鉴(分省年度)面板数据集-最新更新.zip

    2000-2021年中国科技统计年鉴(分省年度)面板数据集-最新更新.zip

  • PPT保护工具PDFeditor专业版-精心整理.zip

    PPT保护工具PDFeditor专业版-精心整理.zip

  • Spring Boot Docker 项目:含项目构建、镜像创建、应用部署及相关配置文件,容器化部署.zip

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。

Global site tag (gtag.js) - Google Analytics