最新文章列表

在window7中使用Intellij IDEA 提交job到Spark Yarn (模式)

使用window提交到Spark cluster中出现下面错误: Exit code: 1 Exception message: /bin/bash: line 0: fg: no job control Stack trace: ExitCodeException exitCode=1: /bin/bash: line 0: fg: no job control at org.apache.had ...
yjsmask 评论(0) 有2617人浏览 2017-05-05 16:39

spark运行在yarn上的一个异常

主机配置内存不足,导致在yarn上运行job异常,下面是spark运行在yarn上的一个异常: 17/05/03 17:58:02 ERROR client.TransportClient: Failed to send RPC 7785784597803174149 to /172.26.159.91:56630: java.nio.channels.ClosedChannelExcepti ...
duguyiren3476 评论(0) 有9738人浏览 2017-05-03 18:08

spark 参数

从其他地方拷贝的,自己存一份 http://guoke456.iteye.com/admin/blogs/2372445 以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spa ...
guoke456 评论(0) 有1912人浏览 2017-05-03 15:29

spark实现倒排索引

[color=green][/color]package sparkTest.rdd; import java.util.ArrayList; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark ...
sunline_yuzhijun 评论(0) 有1840人浏览 2017-05-03 10:11

spark 提交任务参数说明

1.参数选取 当我们的代码写完,打好jar,就可以通过bin/spark-submit 提交到集群,命令如下: ./bin/spark-submit \  --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=& ...
daizj 评论(0) 有2934人浏览 2017-04-28 14:32

ES-Hadoop插件介绍

上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。 我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,大多 ...
qindongliang1922 评论(0) 有1993人浏览 2017-04-27 18:07

大数据处理之荷兰三剑客

大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不再是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点 ...
sharong 评论(0) 有1396人浏览 2017-04-25 20:16

spark on yarn 如何集成elasticsearch

随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题: (1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所有依赖,不 ...
qindongliang1922 评论(0) 有1559人浏览 2017-04-11 16:16

Hadoop生态圈完全分布式集群环境搭建

 一:事前准备工作: 1.最少4台服务器,当然也可以为虚拟机 2.hadoop、hbase、spark、jdk、zookeeper的安装包(需要版本都是相互兼容的,这个可以从官网看到) 3.系统为centos7 如果是新学者可以看我另一篇关于单节点大数据环境部署和安装的文章   二:Linux系统配置 更改linux名称 hostnamectl set-hostname host ...
三年计划 评论(0) 有817人浏览 2017-04-08 10:48

大数据学习笔记(七)-运行spark脚本【原创】

   在启动了hadoop 和 spark之后,就可以运行spark 脚本环境,在其上可以运行scala脚本。 1. cd $SPARK_HOME/bin 2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell 然后就可以运行脚本了 scala> val a = sc.parallelize(1 to 9, 3) ...
zhenggm 评论(0) 有1052人浏览 2017-04-06 14:36

spark官网文档也愚人

在spark sql中使用hive的ddl语句时报出以下异常: ERROR Task: Failed with exception Unable to alter table. Invalid method name: 'alter_table_with_cascade'org.apache.hadoop.hive.ql.metadata.HiveException: Unable to al ...
lb4java 评论(0) 有958人浏览 2017-04-01 00:34

如何使用Spark的local模式远程读取Hadoop集群数据

我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux上,再扔到正式的集群上进行测试,像功能性验证直接使用local模式来快速调测是非常方便的,当然功能测试之后,我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题,这个在local模 ...
qindongliang1922 评论(0) 有3011人浏览 2017-03-31 11:49

Spark通过JdbcRdd连接Oracle数据库(scala)

一、代码 package com.sgcc.hj import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcTest { def main(args: Array[St ...
kevin19900306 评论(0) 有2788人浏览 2017-03-28 14:52

SparkStreaming如何优雅的停止服务

我们都知道SparkStreaming程序是一个长服务,一旦运转起来不会轻易停掉,那么如果我们想要停掉正在运行的程序应该怎么做呢? 如果运行的是spark on yarn ...
qindongliang1922 评论(0) 有4162人浏览 2017-03-22 14:08

MongoDB + Spark: 完整的大数据解决方案

 Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来来做流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的 ...
zhangfeilo 评论(0) 有764人浏览 2017-03-14 09:16

spark 环境搭建备注

终于用IDEA跑SPARK算是成功了。 有几个地方要注意    1 需要引入两个包。    2 运行时使用VM 参考本地化运行 -Dspark.master=local    3 怎样查看idea运行时用的命令?答案是直接看。    4 使用IDEA打出来的包会多好多东东。多余的直接删除掉先。
jybbh 评论(0) 有432人浏览 2017-03-07 10:25

spark性能调优与BUG修正

做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现 很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。 a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui ...
z01_ejdazhi 评论(0) 有403人浏览 2017-03-07 10:07

那些年我们在spark SQL上踩过的坑

做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现 很遗憾,Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。 a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui ...
z01_ejdazhi 评论(0) 有988人浏览 2017-03-07 10:05

sparksql性能比对测试

关于spark的性能,基于YDB的对比,做了一个测试,保留备用。   一、YDB与spark sql在排序上的性能对比测试     在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀Spark任何格式。   测试结果(时间单位为秒)  
czy160214 评论(0) 有1523人浏览 2017-03-07 09:57

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics