本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
zysnba - xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- zw7534313
- qepwqnp
- 龙儿筝
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- kaizi1992
- gaojingsong
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- zhanjia
- ajinn
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- kingwell.leng
- mwhgJava
- lich0079
最新文章列表
在window7中使用Intellij IDEA 提交job到Spark Yarn (模式)
使用window提交到Spark cluster中出现下面错误:
Exit code: 1
Exception message: /bin/bash: line 0: fg: no job control
Stack trace: ExitCodeException exitCode=1: /bin/bash: line 0: fg: no job control
at org.apache.had ...
spark运行在yarn上的一个异常
主机配置内存不足,导致在yarn上运行job异常,下面是spark运行在yarn上的一个异常:
17/05/03 17:58:02 ERROR client.TransportClient: Failed to send RPC 7785784597803174149 to /172.26.159.91:56630: java.nio.channels.ClosedChannelExcepti ...
spark实现倒排索引
[color=green][/color]package sparkTest.rdd;
import java.util.ArrayList;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark ...
spark 提交任务参数说明
1.参数选取
当我们的代码写完,打好jar,就可以通过bin/spark-submit 提交到集群,命令如下:
./bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=& ...
ES-Hadoop插件介绍
上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。
我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,大多 ...
spark on yarn 如何集成elasticsearch
随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题:
(1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所有依赖,不 ...
Hadoop生态圈完全分布式集群环境搭建
一:事前准备工作:
1.最少4台服务器,当然也可以为虚拟机
2.hadoop、hbase、spark、jdk、zookeeper的安装包(需要版本都是相互兼容的,这个可以从官网看到)
3.系统为centos7
如果是新学者可以看我另一篇关于单节点大数据环境部署和安装的文章
二:Linux系统配置
更改linux名称
hostnamectl set-hostname host ...
spark官网文档也愚人
在spark sql中使用hive的ddl语句时报出以下异常:
ERROR Task: Failed with exception Unable to alter table. Invalid method name: 'alter_table_with_cascade'org.apache.hadoop.hive.ql.metadata.HiveException: Unable to al ...
如何使用Spark的local模式远程读取Hadoop集群数据
我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux上,再扔到正式的集群上进行测试,像功能性验证直接使用local模式来快速调测是非常方便的,当然功能测试之后,我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题,这个在local模 ...
Spark通过JdbcRdd连接Oracle数据库(scala)
一、代码
package com.sgcc.hj
import java.sql.DriverManager
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}
object JdbcTest {
def main(args: Array[St ...
MongoDB + Spark: 完整的大数据解决方案
Spark介绍
按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。
通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来来做流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。
快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的 ...
spark性能调优与BUG修正
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。
spark 内存泄露
1.高并发情况下的内存泄露的具体表现
很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。
a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui ...
那些年我们在spark SQL上踩过的坑
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。
spark 内存泄露
1.高并发情况下的内存泄露的具体表现
很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。
a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui ...