Spark的日志配置

博客分类：

spark

在测试spark计算时，将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的，因为作业是提交到yarn的集群上，so 去yarn集群上看日志是很麻烦的，但有特别想看下print的信息，方便调试或者别的目的在Sp ...

2015-08-03 17:20
浏览 3489
评论(0)
分类:编程语言

SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SPARK_HISTORY_OPTS=”-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logD ...

2015-06-11 17:09
浏览 13601
评论(0)
分类:编程语言

spark总体概况

博客分类：

spark

netty akka tachyon shuffle

1. spark vs hadoop PS:Databricks团队特别说明，为了和Hadoop对比，这次用于排序的Spark集群没有使用它们的内存缓存机制，他们也是用硬盘存储的中间结果！ http://tieba.yunxunmi.com/mtieba-hadoop-kz-58b9e430a78747f7fb1ea9f9e6374597.html 但是我们要明白，spark的目标是与hadoop共存的，就算很多地方比hadoop优秀，但spark绝对不是替代hadoop的，目前 spark的standalone模式还是有很多局限性，而在中国像董西成这样hadoop 以及YARN的布 ...

2015-05-27 14:55
浏览 3644
评论(3)
分类:编程语言

基于spark1.3.1的spark-sql实战－02

博客分类：

spark

spark 数据库 performance jdbc select

Hive Tables 将HIVE_HOME/conf/hive-site.xml 文件copy到SPARK_HOME/conf/下 When not configured by the hive-site.xml, the context automatically creates metastore_db and warehouse in the current directory. // sc is an existing SparkContext. val sqlContext

2015-05-20 14:45
浏览 2889
评论(0)
分类:编程语言

HiveServer2 入门使用

博客分类：

hive

hive

Beeline – 一个新的命令行Shell HiveServer2 supports a new command shell Beeline that works with HiveServer2. It's a JDBC client that is based on the SQLLine CLI (http://sqlline.sourceforge.net/). There’s detailed documentation of SQLLine which is applicable to Beeline as well. The Beeline shell works in b ...

2015-05-20 14:40
浏览 17656
评论(0)
分类:互联网

基于spark1.3.1的spark-sql实战－01

博客分类：

spark

spark sqlrelational database 商业智能 structure

sqlContext总的一个过程如下图所示： SQL语句经过SqlParse解析成UnresolvedLogicalPlan；使用analyzer结合数据数据字典（catalog）进行绑定，生成resolvedLogicalPlan；使用optimizer对resolvedLogicalPlan进行优化，生成optimizedLogicalPlan；使用

2015-05-19 13:51
浏览 11594
评论(0)
分类:编程语言

个人微信公众号，每天推送一篇高质量文章

博客分类：

微信

微信

个人微信公众号，每天推送一篇高质量文章，喜欢的就订阅吧

2015-03-11 12:40
浏览 1353
评论(0)
分类:非技术

HBase 系统架构

博客分类：

hbase

hbase 负载均衡文件系统 timestamp zookeeper

HBase 系统架构图　　　　组成部件说明　　Client：　　使用HBase RPC机制与HMaster和HRegionServer进行通信　　Client与HMaster进行通信进行管理类操作　　Client与HRegionServer进行数据读写类操作　　Zookeeper：　　Zookeeper Quorum存储-ROOT-表地址、HMaster地址　　HRegionServer把自己以Ephedral方式注册到Zookeeper中，HMaster随时感知各个HRegionServer的健康状况　　Zookeeper避免HMaster单点问题　　HMaster ...

2015-03-10 15:22
浏览 2236
评论(0)
分类:编程语言

非mapreduce生成Hfile，然后导入hbase当中

博客分类：

hbase

hbase map reduce Hfile path实例

最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile的方式，实现了之后，发现单线程入库速度才达到1w4左右，和之前的多线程的全速差不多了，百思不得其解之时，调整了一下代码把列的Byte.toBytes(cols)这个方法调整出来只做一次，速度立马就到3 ...

2015-03-10 15:19
浏览 3706
评论(0)
分类:编程语言

Spark 性能相关参数配置详解－任务调度篇

博客分类：

spark

任务调度 spark yarn cache cpu

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便于更新内容 schedule调度相关

2015-03-05 18:31
浏览 2539
评论(0)
分类:编程语言

整合Kafka到Spark Streaming——代码示例和挑战

博客分类：

spark

spark storm processing zookeeper parallelism

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版本中已发生了一些变化，比如HA策略：通过Spark Contributor、Spark布道者陈超我们了解到，在Spark 1.2版本中，Spark Streaming开始支持fully HA模式（ ...

2015-03-03 15:01
浏览 4470
评论(0)
分类:编程语言

spark SQL编程动手实战-01

博客分类：

spark

SQLContext case class registerAsTable SchemaRDD DSL

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use.txt增加内容并上传到hdfs中： web控制台查询：

2015-03-02 18:28
浏览 2140
评论(1)
分类:编程语言

zookeeper伪分布安装和使用

博客分类：

zookeeper

zookeeper zkServer zkCli zoo.cfg

1、下载路径为：http://mirrors.cnnic.cn/apache/zookeeper/stable/ 2、安装：第一步解压zookeeper压缩包：进入 zookeeper安装目录第二步创建一个data目录：第三步修改 conf/zoo.cfg文件：先将zoo_sample.cfg copy 为 zoo.cfg

2015-02-13 11:00
浏览 2002
评论(0)
分类:编程语言

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

博客分类：

spark

Artifacts Build Rebuild spark-submi jar

接下来进行打包，使用Project Structure的Artifacts：使用From modules with dependencies：选择Main Class：点击“OK”: 把名称改为SparkDemoJar：因为每台机器上都安装了Scala和Spark，所以可以把Scala和Spark相关的jar文件都删除掉：

2015-02-12 13:04
浏览 1559
评论(0)
分类:编程语言

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01

博客分类：

spark

SparkConf SparkContext map filter sortByKey

创建一个Scala IDEA工程：点击“Next”：点击“Finish”完成工程的创建：修改项目的属性：首先修改Modules选项：

2015-02-10 13:10
浏览 2518
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark的日志配置

spark 查看 job history 日志

spark总体概况

基于spark1.3.1的spark-sql实战－02

HiveServer2 入门使用

基于spark1.3.1的spark-sql实战－01

个人微信公众号，每天推送一篇高质量文章

HBase 系统架构

非mapreduce生成Hfile，然后导入hbase当中

Spark 性能相关参数配置详解－任务调度篇

整合Kafka到Spark Streaming——代码示例和挑战

spark SQL编程动手实战-01

zookeeper伪分布安装和使用

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>