什么是spark？

huyumin

浏览: 393240 次
性别:
来自: 深圳

最近访客更多访客>>

一往无前bhz

morelily

loginboot

涓滴之水

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

关于Spark：

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，

拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，

因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

Spark与Hadoop的对比

Spark的中间数据放到内存中，对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。

Spark比Hadoop更通用。

Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

容错性。

在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。

可用性。

Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小

由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

分享到：

grep使用多个查询条件－－或 | dubbo 教程

2015-04-10 09:37
浏览 505
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

什么是spark？

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

什么是spark？

评论

发表评论

相关推荐

将json格式的字符数组转为List对象

用httpPost对JSON发送和接收的例子

zookeeper适用场景：zookeeper解决了哪些问题

java泛型

Java线程Dump分析工具--jstack

dubbo 教程

jre/bin目录下面工具说明

JVM系列三:JVM参数设置、分析

jstat使用

查看java堆栈情况（cpu占用过高）

慎用ArrayList的contains方法，使用HashSet的contains方法代替

Java虚拟机工作原理详解

jdk1.5-1.9新特性

java动态代理（JDK和cglib）

Java动态代理机制详解（JDK 和CGLIB，Javassist，ASM）

怎么用github下载资源

maven项目时jar包没有到lib目录下

使用并行计算大幅提升递归算法效率

JAVA 实现FTP

jsp防止xss转义方法

最近访客更多访客>>