最新文章列表

Spark:一个高效的分布式计算系统

概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要 ...
wbj0110 评论(0) 有1155人浏览 2014-08-04 13:17

Spark - 大数据Big Data处理框架

  Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。   Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。   Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBA ...
wbj0110 评论(0) 有679人浏览 2014-08-04 10:01

Lambda表达式让Spark编程更容易

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 la ...
wbj0110 评论(0) 有909人浏览 2014-08-01 15:41

Spark之我看(I)什么是RDD

       一般来讲,对于陌生的名词,大家的第一个反应都是“What is it?”。       RDD是Spark的核心内容,在Spark的官方文档中解释如下:RDD is a fault-tolerant collection of elements that can be operated on in parallel。由此可见,其中有两个关键词:fault-tolerant &am ...
鞠文婷 评论(2) 有3799人浏览 2014-07-29 13:58

Spark学习:利用Eclipse搭建Spark集成开发环境

(1) 准备工作 在正式介绍之前,先要以下软硬件准备: 软件准备: Eclipse Juno版本(4.2版本),可以直接点击这里下载:Eclipse 4.2 Scala 2.9.3版本,Window安装程序可以直接点击这里下载:Scala 2.9.3 Eclipse Scala IDE插件,可直接点击这里下载:
MNTMs 评论(0) 有4137人浏览 2014-07-29 11:51

Spark:一个高效的分布式计算系统

概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭 ...
wbj0110 评论(0) 有1277人浏览 2014-07-08 13:26

Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。   Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。   Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBASE ...
wbj0110 评论(0) 有786人浏览 2014-07-08 11:58

hadoop研究-spark研究

博客地址: http://gjggw123.blog.163.com/ Hadoop/storm技术扣扣群:275079200 数据采集/数据挖掘扣扣群:296920753 扣扣 365600975 E-Mail gjggw123@163.com
快乐的一只小青蛙 评论(0) 有315人浏览 2014-06-25 14:18

基于Hadoop2.2.0安装Spark 1.0

基于Hadoop2.2.0安装spark1.0     转至元数据结尾   Created by spark.long 昨天7:33 上午 转至元数据起始  
longxiping 评论(0) 有1985人浏览 2014-06-23 17:24

Spark学习笔记-安装部署与运行实例

首先解压scala,本次选用版本scala-2.11.1 [hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz [hadoop@centos software]$ su - [root@centos ~]# vi /etc/profile 添加如下内容: SCALA_HOME=/home/hadoop/software/scala-2. ...
fighting_2013 评论(0) 有855人浏览 2014-06-13 17:11

管中窥豹:腾讯大数据平台

腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。 下面这个图是腾讯的技术架构图:   整个系统相对比较简单,主要有以下几大组件组成。 TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅 ...
jiezhu2007 评论(0) 有3837人浏览 2014-05-18 08:32

定制Flex Spark组件外观

原文:http://ycoder.com/定制flex-spark组件外观/   Flex3到Flex4,增加了Spark组件,这是Flex的一次重要升级,基本上组件全部重写了一套,为了保持向下兼容 ...
nosand 评论(0) 有153人浏览 2014-05-07 22:42

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析   目前的分析主要基于spark0.9.0的cdh5的版本进行分析,   源代码下载地址:https://github.com/cloudera/spark.git   下载方式:git clone url ./spark   进入spark目录,执行git checkout cdh5-0.9.0_5.0.0       ...
hongs_yang 评论(0) 有1778人浏览 2014-04-28 14:40

类Hadoop的高效分布式计算系统Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法 ...
wbj0110 评论(0) 有1440人浏览 2014-04-25 07:56

Hadoop vs Spark性能对比

基于Spark-0.4和Hadoop-0.20.2 1. Kmeans 数据:自己产生的三维数据,分别围绕正方形的8个顶点 {0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10}, {10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10} Point number 189,918,082 ...
wbj0110 评论(0) 有920人浏览 2014-04-25 07:55

迭代计算的一些开源框架

迭代计算是一种通过多次循环得出结果的计算方式,一般需要将上一次计算的结果代入到下一步的计算中去。当计算数据和计算规模都比较小时,可以 ...
wbj0110 评论(0) 有642人浏览 2014-04-24 09:27

maven编译Spark源码

Spark 源码除了用 sbt/sbt assembly 编译,也可用Maven进行编译,具体步骤如下:   详见:http://www.micmiu.com/bigdata/spark/spark-building-with-maven/
sjsky 评论(0) 有1853人浏览 2014-04-14 23:37

Spark On Yarn编译,部署和测试

  环境 Spark On Yarn环境准备: Spark:0.9.1 release。注意要选择relase版本(不是incubating版),踩到的坑会比较少。下载页面 http://spark.apache.org/downloads.html  Hadoop:2.0.0-cdh4.2.1。MRv2(Yarn) 环境:cygwin(Git console also works) ...
deepnighttwo 评论(0) 有3873人浏览 2014-04-11 16:50

Spark的TaskScheduler和DagScheduler

原创,转载请注明出处。 开始研究神奇的spark。会陆续将研究的心得放上来。 在Spark中一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种TaskScheduler(是低级的调度器接口),DagScheduler(是高级的调度) 我们在创建SparkContext对象的时候,sparkcontext内部就会创建TaskScheduler和DagSche ...
扬州老鬼 评论(0) 有8018人浏览 2014-04-03 16:56

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics