`
mo默芯
  • 浏览: 17835 次
社区版块
存档分类
最新评论

浅聊Spark的应用场景有哪些?

阅读更多

  

  Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下:

 

  1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小;

 

  2. 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合:

 

  3. 数据量不是特别大,但是要求实时统计分析需求。

 

  满足以上条件的均可采用Spark技术进行处理,在实际应用中,目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上,在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。

 

  这些应用场景的普遍特点是计算量大、效率要求高,Spark恰恰可以满足这些要求,该项目一经推出便受到开源社区的广泛关注和好评,并在近两年内发展成为大数据处理领域炙手可热的开源项目。

 

 

  Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有运行速度快、易用性好、通用性强以及随处运行等特点,适合大多数批处理工作,并已成为大数据时代企业大数据处理优选技术,其中有代表性企业有腾讯、Yahoo、淘宝以及优酷土豆等。

分享到:
评论

相关推荐

    Spark的应用场景

    1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统 2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案 3.Spark所提供的的生态系统可对应以下三种场景: 复杂的批量...

    spark常用应用场景分析.pdf

    Spark的核心组件包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算库),这些组件覆盖了从批处理到实时处理,再到机器学习和图计算的各种场景。 1. 离线场景:在离线数据分析中,...

    Spark应用程序WebUI详解.docx

    Spark Web UI 是一个图形化的用户界面,用于监控正在运行的 Spark 应用程序的状态。它提供了丰富的信息,帮助用户了解应用程序的运行情况、性能瓶颈以及资源使用情况等。 - **启动 Spark 和 HDFS**:在使用 Spark ...

    大数据技术原理及应用课实验7 :Spark初级编程实践

    在实验中,推荐使用Scala编写独立的应用程序,这需要对Spark的API有一定的了解。比如,统计文件行数可以使用`count()`方法,而创建Spark应用并打包成JAR文件则涉及到构建工具如sbt或Maven的使用。一旦应用编写完成,...

    浅谈spark技术,pdf版本

    spark技术的流程及简单的概述,又兴趣的朋友可以下载看看

    Apache Spark的面试题.zip

    以上内容涵盖了Apache Spark面试中可能遇到的一些关键知识点,涵盖了Spark的基础、核心组件、架构、SQL、流处理、性能优化、容错机制、应用场景及未来发展趋势等方面。理解并掌握这些知识点将对准备Spark相关的面试...

    深入浅出 spark

    Spark是一个开源的集群计算框架,主要应用于大规模数据处理。它的核心是一个称为RDD的抽象,即弹性分布式数据集。RDD是一种分布式内存抽象,其核心特点包括基于内存的计算、容错能力以及高度受限的共享内存模型。 ...

    Spark核心技术与高级应用

    Spark核心技术与高级应用+,于俊等著 完整版带书签 好好学习天天向上

    MAPR公司的大数据课程(适用spark开发应用程序)

    大数据课程 Spark 应用开发 本资源是 MAPR 公司推出的大数据...本资源提供了一个全面的 Spark 应用开发课程,涵盖了 Spark 的基本概念、组件和应用场景。通过学习本课程,您将获得 Spark 应用开发的实践经验和知识。

    Spark大数据处理技术、应用与性能优化高清完整版PDF

    12. **案例应用**:书中可能涵盖各种实际应用场景,如Web日志分析、推荐系统、实时数据分析等,展示Spark在不同领域的应用。 13. **Spark与其他系统集成**:Spark可以与Hadoop、Cassandra、HBase等大数据存储系统...

    Spark大数据技术与应用课件

    spark学习课件,让你深入浅出学习spark。Spark是Hadoop MapReduce的替代方案。MapReudce不适合迭代和交互式任务,Spark主要为交互式查询和迭代算法设计,支持内存存储和高效的容错恢复。Spark拥有MapReduce具有的...

    Spark大数据技术与应用-第7章.pptx

    本章主要讲解 Spark 机器学习库(Spark MLlib)的概念、类型、应用场景等相关知识点。 机器学习简介 机器学习(Machine Learning,ML)是人工智能的子领域,也是人工智能的核心。机器学习是一门多领域交叉学科,...

    46488-Spark大数据技术与应用(1-3).pdf

    为了满足您的要求,我需要有关Spark大数据技术与应用的具体内容。例如,文档中关于Spark的架构、组件、生态系统、使用场景、编程模型、性能优化、集群管理和部署等方面的内容。这将帮助我提供一个详尽的知识点说明。...

    Spark大数据处理 技术 应用与性能优化 完整版 pdf

    下面将对Spark的关键特性、应用场景以及性能优化进行详细阐述。 一、Spark核心技术 1. Resilient Distributed Datasets (RDDs):RDD是Spark的基础数据结构,具有容错性和并行性,能够高效地在集群中进行计算。 2....

    深入浅出spark.pptx

    Spark 的应用场景很广泛,包括大数据的电花火石、Spark 应用库、Spark 与 Hadoop 的区别与联系、Spark 总体流程等。Spark 的发展前景非常广阔,已经逐渐形成了一套自己的生态圈,提供了 full-stack 的解决方案。

    46488_Spark大数据技术与应用_习题数据和答案.rar

    《Spark大数据技术与应用》是一本深入探讨Apache Spark在大数据处理领域的专著。习题数据和答案的提供,旨在帮助读者更好地理解和掌握书中的概念、技术和实战应用。在这个压缩包中,包含了书中不同章节的习题及对应...

    大数据技术分享 Spark技术讲座 Apache Spark应用程序资源分配的动态优先级 共21页.pdf

    本文将深入探讨Spark应用程序资源分配中的动态优先级机制,并分析其在“Spark作为服务”(Spark as a Service)应用场景下的重要性。 #### 二、Spark作为服务(Spark as a Service) 在“Spark作为服务”的应用场景...

    Spark Contributor陈超分享深入浅出Spark

    Spark的运行模式有四种:local模式主要用于测试,Standalone是Spark自带的集群管理器,Mesos是一个通用的集群管理器,可以用来管理Spark和其他应用程序,YARN是Hadoop的资源管理平台,也可以作为Spark应用程序的运行...

Global site tag (gtag.js) - Google Analytics