最新文章列表

spark架构设计&编程模型-01

RDD操作例子: RDD的依赖和运行时
Stark_Summer 评论(0) 有2001人浏览 2015-01-16 17:28

hadoop&spark mapreduce对比 & 框架设计和理解

Hadoop MapReduce: MapReduce在每次执行的时候都要从磁盘读数据,计算完毕后都要把数据放到磁盘 spark map reduce:     RDD is everything for dev:
Stark_Summer 评论(0) 有2009人浏览 2015-01-16 15:17

大数据” Hadoop,Spark和Storm

大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大 ...
abc123456789cba 评论(0) 有713人浏览 2015-01-14 23:27

本地开发spark代码上传spark集群服务并运行(基于spark官网文档)

打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下   import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def ...
Stark_Summer 评论(0) 有5645人浏览 2015-01-08 18:50

spark-1.2.0 集群环境搭建

1、下载scala2.11.4版本 下载地址为:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768  2、解压和安装: 解压 :[spark@ ...
Stark_Summer 评论(5) 有35950人浏览 2015-01-06 17:19

spark-sumbit返回状态为0的问题

spark是一个实时的分布式计算引擎,在大叔据领域属于后起之秀,表现非凡,但是spark在使用的过程中也存在不少问题,这里主要说一下spark-sumbit的问题。 spark-sumbit是spark提交任务的一个脚本,这个脚本提交的任务可能失败也可能成功,但是spark-sumbit这个脚本总是执行成功的,也就是说我们不能根据spark-sumbit 来判断我们提交的任务是否成功了,这是个 ...
robbieFENG 评论(0) 有1484人浏览 2014-12-05 14:19

idea导入sbt项目

idea导入sbt项目   在使用idea开发spark过程中,使用sbt工具构建是个相当好的构建方式,本文针对,用idea导入已经是sbt的项目进行说明: 1.导入项目 2.在弹出框中选择sbt项目: 3.选择箭头处的两个地方: 4.选择自动导入,箭头示意处:  接下来等待导入的依赖包和预编译即可,如果不限则如上图的两个auto,则出现找不到类的异常。
duguyiren3476 评论(0) 有8957人浏览 2014-11-29 23:02

两款高性能并行计算引擎Storm和Spark比较 (转)

Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。 所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。 Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析 ...
jackiee_cn 评论(0) 有918人浏览 2014-11-20 14:37

Spark Standalone 集群部署图文分享

JDK和Scala的安装 请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007 SSH无密码登录 请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007 Spark的下载和安装包解压 1、  下载spark,我用的是1.1.0 for hadoop2.4版本,不用自己编译(暂时没有需 ...
congli 评论(0) 有1392人浏览 2014-11-19 16:37

Spark学习-关于Spark的开发语言Scala

说到Spark,我一定要先说说Hadoop及Java. 现在我是一个Java开发者,几年前就开始接触和使用Hadoop. 最初的一个项目其实是一个后台并行计算的项目,那时经过选型后,最后决定使用Hadoop,当时是基于几个原因: 1. Apache下的项目质量都是很高的,很多项目都广为Java开发者使用,到今天来看,这个结论也不为过,如(Ant, ActiveMQ, Axis2,CXF,Cassa ...
Djava.sohu.com 评论(1) 有2928人浏览 2014-10-26 12:10

Spark学习-3 运行一个example

开始学习Spark了,先看看Spark能做点什么吧。 最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7, 64bits) 。 我们在官方网站: http://spark.apache.org/downloads.html下载一个版本: 我选 Spark 1.0 + Prebuild for Hadoop 2.3, Link为 http://d3kbcq ...
Djava.sohu.com 评论(0) 有10774人浏览 2014-10-15 11:10

Spark的学习2-IDE

  当使用Maven构建好项目后,现在要开始学习Spark的设计及具体实现,就是源码了。     在Google上查到的比较多的IDE就是Scala + Eclipse , Scala + NetBeans和Scala ...
Djava.sohu.com 评论(1) 有2112人浏览 2014-10-15 09:36

Spark的学习1-编译

这两天开始学Spark, 因此把相应的步骤记录下来. 下载最新的Spark代码,使用maven进行编译在win8(64位)上进行编译: (参考https://spark.apache.org/docs/latest/building-with-maven.html) 现在Spark主要以Standalone方式或Spark on yarn方式运行,因此在使用maven构建时,使用以下参数 mvn ...
Djava.sohu.com 评论(0) 有2251人浏览 2014-10-13 23:40

转载 Spark 0.9 & Shark 0.9安装手册

研究Spark & Shark的安装,找到几篇写的比较全面和详细的好文章,转载一下; http://www.hellofjn.com/blog/index.php/archives/258,by Eric Van,非常详细; http://www.aboutyun.com/thread-8442-1-1.html,by xioaxu790,这篇也可以;
pzx888 评论(0) 有571人浏览 2014-09-23 14:00

Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比

Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。  首先我们来看看我的环境: 3台DataNode,2台NameNode,每台机器20G内存,24核 数据都是lzo格式的,共336个文件,338.6 G 无其他任务执行 如果想及时了解
wbj0110 评论(0) 有1111人浏览 2014-09-02 14:10

Hadoop、Spark、HBase与Redis的适用性讨论

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很“狭义”的Hadoop,即 ...
wbj0110 评论(0) 有1171人浏览 2014-09-02 13:36

spark streaming JavaQueueStream实例改造测试数据流

为了搞清楚Spark Streaming处理数据流,改造了以有的例子来进行测试数据在Spark内部的流向。   package org.apache.spark.examples.streaming; import java.util.LinkedList; import java.util.List; import java.util.Queue; import scala ...
ganliang13 评论(0) 有3912人浏览 2014-08-29 10:31

Spark on Yarn:性能调优

1. 调优经验 应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。 (1)配置项的使用 熟悉Hadoop开发的同学应该对配置项不陌生。根据不同问题,调整不同的配置项参数,是比较基本的调 ...
wbj0110 评论(0) 有1379人浏览 2014-08-26 15:13

Spark安装部署

 spark单节点local安装:  1.解压包: scala-2.10.4.tgz scala-intellij-bin-0.38.437.zip spark-0.9.1-bin-hadoop1.tgz 2.配置/etc/profile 3.直接输入scala如果进入scala界面表示安装成功
501311837 评论(0) 有1056人浏览 2014-08-04 23:09

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics