本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
hadoop&spark mapreduce对比 & 框架设计和理解
Hadoop MapReduce:
MapReduce在每次执行的时候都要从磁盘读数据,计算完毕后都要把数据放到磁盘
spark map reduce:
RDD is everything for dev:
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def ...
spark-1.2.0 集群环境搭建
1、下载scala2.11.4版本 下载地址为:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768
2、解压和安装: 解压 :[spark@ ...
spark-sumbit返回状态为0的问题
spark是一个实时的分布式计算引擎,在大叔据领域属于后起之秀,表现非凡,但是spark在使用的过程中也存在不少问题,这里主要说一下spark-sumbit的问题。
spark-sumbit是spark提交任务的一个脚本,这个脚本提交的任务可能失败也可能成功,但是spark-sumbit这个脚本总是执行成功的,也就是说我们不能根据spark-sumbit 来判断我们提交的任务是否成功了,这是个 ...
idea导入sbt项目
idea导入sbt项目
在使用idea开发spark过程中,使用sbt工具构建是个相当好的构建方式,本文针对,用idea导入已经是sbt的项目进行说明:
1.导入项目 2.在弹出框中选择sbt项目:
3.选择箭头处的两个地方: 4.选择自动导入,箭头示意处: 接下来等待导入的依赖包和预编译即可,如果不限则如上图的两个auto,则出现找不到类的异常。
两款高性能并行计算引擎Storm和Spark比较 (转)
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。
所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。
Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析 ...
Spark Standalone 集群部署图文分享
JDK和Scala的安装
请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007
SSH无密码登录
请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007
Spark的下载和安装包解压
1、 下载spark,我用的是1.1.0 for hadoop2.4版本,不用自己编译(暂时没有需 ...
Spark学习-关于Spark的开发语言Scala
说到Spark,我一定要先说说Hadoop及Java.
现在我是一个Java开发者,几年前就开始接触和使用Hadoop. 最初的一个项目其实是一个后台并行计算的项目,那时经过选型后,最后决定使用Hadoop,当时是基于几个原因:
1. Apache下的项目质量都是很高的,很多项目都广为Java开发者使用,到今天来看,这个结论也不为过,如(Ant, ActiveMQ, Axis2,CXF,Cassa ...
Spark学习-3 运行一个example
开始学习Spark了,先看看Spark能做点什么吧。
最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7, 64bits) 。
我们在官方网站: http://spark.apache.org/downloads.html下载一个版本:
我选 Spark 1.0 + Prebuild for Hadoop 2.3, Link为
http://d3kbcq ...
Spark的学习2-IDE
当使用Maven构建好项目后,现在要开始学习Spark的设计及具体实现,就是源码了。
在Google上查到的比较多的IDE就是Scala + Eclipse , Scala + NetBeans和Scala ...
Spark的学习1-编译
这两天开始学Spark, 因此把相应的步骤记录下来.
下载最新的Spark代码,使用maven进行编译在win8(64位)上进行编译:
(参考https://spark.apache.org/docs/latest/building-with-maven.html)
现在Spark主要以Standalone方式或Spark on yarn方式运行,因此在使用maven构建时,使用以下参数
mvn ...
Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。 首先我们来看看我的环境:
3台DataNode,2台NameNode,每台机器20G内存,24核
数据都是lzo格式的,共336个文件,338.6 G
无其他任务执行
如果想及时了解
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很“狭义”的Hadoop,即 ...
spark streaming JavaQueueStream实例改造测试数据流
为了搞清楚Spark Streaming处理数据流,改造了以有的例子来进行测试数据在Spark内部的流向。
package org.apache.spark.examples.streaming;
import java.util.LinkedList;
import java.util.List;
import java.util.Queue;
import scala ...
Spark on Yarn:性能调优
1. 调优经验
应该说,Spark开发中,具体采用什么调优方法去优化性能,需要根据具体算法和实现而定,适合我们这个问题的方法不一定就适合其他问题,但希望我们的经验可以让其他人少踩点坑,更多的调优方法还可以参考官方文档中的 Configuration 和 Tuning 部分。
(1)配置项的使用
熟悉Hadoop开发的同学应该对配置项不陌生。根据不同问题,调整不同的配置项参数,是比较基本的调 ...