spark热门博客列表 - ITeye博客频道 - 第21页

Spark：一个高效的分布式计算系统

概述什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要 ...

Spark

wbj0110 评论(0) 有1155人浏览 2014-08-04 13:17

Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HBA ...

Spark

wbj0110 评论(0) 有679人浏览 2014-08-04 10:01

近日，Databricks官方网站发表了一篇博文，用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出，Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁，但由于缺少函数表达式，Java API有些冗长。因此，随着Java 8增加了lambda表达式，他们更新了Spark的API。Spark 1.0将提供Java 8 la ...

Java Spark Lambda

wbj0110 评论(0) 有909人浏览 2014-08-01 15:41

Spark之我看（I）什么是RDD

一般来讲，对于陌生的名词，大家的第一个反应都是“What is it？”。 RDD是Spark的核心内容，在Spark的官方文档中解释如下：RDD is a fault-tolerant collection of elements that can be operated on in parallel。由此可见，其中有两个关键词：fault-tolerant &am ...

RDD Spark

鞠文婷评论(2) 有3799人浏览 2014-07-29 13:58

Spark学习：利用Eclipse搭建Spark集成开发环境

（1）准备工作在正式介绍之前，先要以下软硬件准备：软件准备： Eclipse Juno版本（4.2版本），可以直接点击这里下载：Eclipse 4.2 Scala 2.9.3版本，Window安装程序可以直接点击这里下载：Scala 2.9.3 Eclipse Scala IDE插件，可直接点击这里下载：

scala apache Spark eclipse

MNTMs 评论(0) 有4137人浏览 2014-07-29 11:51

Spark：一个高效的分布式计算系统

概述什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭 ...

Spark

wbj0110 评论(0) 有1277人浏览 2014-07-08 13:26

Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HBASE ...

Spark

wbj0110 评论(0) 有786人浏览 2014-07-08 11:58

hadoop研究-spark研究

博客地址： http://gjggw123.blog.163.com/ Hadoop/storm技术扣扣群:275079200 数据采集/数据挖掘扣扣群:296920753 扣扣 365600975 E-Mail　gjggw123@163.com

hadoop 数据挖掘 spark

快乐的一只小青蛙评论(0) 有315人浏览 2014-06-25 14:18

基于Hadoop2.2.0安装Spark 1.0

基于Hadoop2.2.0安装spark1.0 转至元数据结尾 Created by spark.long 昨天7:33 上午转至元数据起始

spark

longxiping 评论(0) 有1985人浏览 2014-06-23 17:24

Spark学习笔记-安装部署与运行实例

首先解压scala，本次选用版本scala-2.11.1 [hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz [hadoop@centos software]$ su - [root@centos ~]# vi /etc/profile 添加如下内容： SCALA_HOME=/home/hadoop/software/scala-2. ...

SPARK HADOOP scala python java

fighting_2013 评论(0) 有855人浏览 2014-06-13 17:11

管中窥豹：腾讯大数据平台

腾讯有中国最全的社交数据，面对一个数据金矿，腾讯不可能坐视不理，腾讯基于hadoop研究了自己的大数据平台，最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。下面这个图是腾讯的技术架构图：整个系统相对比较简单，主要有以下几大组件组成。 TDBank（Tencent Data Bank）：数据实时收集与分发平台。将数据处理系统同数据源解耦，基于“发布-订阅 ...

kafka storm gaia yarn spark

jiezhu2007 评论(0) 有3837人浏览 2014-05-18 08:32

定制Flex Spark组件外观

原文：http://ycoder.com/定制flex-spark组件外观/ Flex3到Flex4，增加了Spark组件，这是Flex的一次重要升级，基本上组件全部重写了一套，为了保持向下兼容� ...

flex spark mx flash builder

nosand 评论(0) 有153人浏览 2014-05-07 22:42

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析，源代码下载地址：https://github.com/cloudera/spark.git 下载方式：git clone url ./spark 进入spark目录，执行git checkout cdh5-0.9.0_5.0.0 ...

spark spark源代码编译 spark on yarn

hongs_yang 评论(0) 有1778人浏览 2014-04-28 14:40

类Hadoop的高效分布式计算系统Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法 ...

Spark

wbj0110 评论(0) 有1440人浏览 2014-04-25 07:56

Hadoop vs Spark性能对比

基于Spark-0.4和Hadoop-0.20.2 1. Kmeans 数据：自己产生的三维数据，分别围绕正方形的8个顶点 {0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10}, {10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10} Point number 189,918,082 ...

Spark

wbj0110 评论(0) 有920人浏览 2014-04-25 07:55

迭代计算的一些开源框架

迭代计算是一种通过多次循环得出结果的计算方式，一般需要将上一次计算的结果代入到下一步的计算中去。当计算数据和计算规模都比较小时，可以� ...

Spark 迭代计算

wbj0110 评论(0) 有642人浏览 2014-04-24 09:27

maven编译Spark源码

Spark 源码除了用 sbt/sbt assembly 编译，也可用Maven进行编译，具体步骤如下：详见：http://www.micmiu.com/bigdata/spark/spark-building-with-maven/

micmiu spark maven

sjsky 评论(0) 有1853人浏览 2014-04-14 23:37

Spark On Yarn编译，部署和测试

环境 Spark On Yarn环境准备： Spark：0.9.1 release。注意要选择relase版本（不是incubating版），踩到的坑会比较少。下载页面 http://spark.apache.org/downloads.html Hadoop：2.0.0-cdh4.2.1。MRv2（Yarn）环境：cygwin（Git console also works） ...

spark

deepnighttwo 评论(0) 有3873人浏览 2014-04-11 16:50

Spark的TaskScheduler和DagScheduler

原创，转载请注明出处。开始研究神奇的spark。会陆续将研究的心得放上来。在Spark中一个核心的是模块就是调度器（Scheduler），在spark中Scheduler有两种TaskScheduler（是低级的调度器接口），DagScheduler（是高级的调度）我们在创建SparkContext对象的时候，sparkcontext内部就会创建TaskScheduler和DagSche ...

spark

扬州老鬼评论(0) 有8018人浏览 2014-04-03 16:56

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

Spark：一个高效的分布式计算系统

Spark - 大数据Big Data处理框架

Lambda表达式让Spark编程更容易

Spark之我看（I）什么是RDD

Spark学习：利用Eclipse搭建Spark集成开发环境

Spark：一个高效的分布式计算系统

Spark - 大数据Big Data处理框架

hadoop研究-spark研究

基于Hadoop2.2.0安装Spark 1.0

Spark学习笔记-安装部署与运行实例

管中窥豹：腾讯大数据平台

定制Flex Spark组件外观

spark编译与onyarn的运行

类Hadoop的高效分布式计算系统Spark

Hadoop vs Spark性能对比

迭代计算的一些开源框架

maven编译Spark源码

Spark On Yarn编译，部署和测试

Spark的TaskScheduler和DagScheduler

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论