- 浏览: 186396 次
- 性别:
- 来自: 北京
最新评论
-
一碗单炒饭:
正需要,谢谢
清除eclipse中 Launch configuration的历史记录 -
heweina2007:
非常有用。谢谢!
清除eclipse中 Launch configuration的历史记录 -
功夫小当家:
这个也不好用了吗?之前这个办法,我这里可以解决,那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法 -
ziyue137:
设置----->安全----->未知来源,这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法 -
zfc645486908:
您好,感谢你写这篇技术文章,对我帮助很大,刚好用到,但是我需要 ...
Android中如何把bitmap存成BMP格式的图片
文章列表
1.spark web ui
web ui(4040端口)也看的stages tab页面,展示job的运行情况,调优的时候需要跟进这个页面的去分析
但是 web ui 在job跑完或者sc.stop 之后,4040页面会关闭,无法访问
在spark的官网More -> Moniting页面(http://spark.apache.org/docs/latest/monitoring.html)有介绍History Server可以解决上面的问题
2.History Server参数配置
(1)spark-default.conf文件配置:
spark.even ...
(1)spark on yarn有两种模式
cluster模式:spark driver运行在nodemanager的Application Master中(申请资源,分发作业,没有master节点和worker节点的概念)
client模式:driver运行在客户端进程里,作用是任务的分发,资源的申请是由Applicatio ...
(1)hadoop1.x 和 hadoop2.x对比
hadoop1.x:
JobTracker做资源管理和任务调度,存在单点问题,如果集群扩张,TaskTracker变多,JobTracker压力就会变大(因为是1对多,只有1个JobTracker);如果JobTracher挂掉无法提交
只支持mr作业,不支持其他类型作业(spark等)
静态资源分配,资源利用率不好
hadoop2.x:
支持mr以外的其他作业
可以通过配置任务队列优先级,跑多种作业等方式提高资源利用率
1个resourmanager对应多个nodemanager,resourcemaneger支持 ...
(1)名词解释:
概念
解释
Application
用户基于spark构建的应用程序,在集群上运行时,包含一个driver和多个executor
Driver
Driver program
一个进程,执行Application的main方法,并创建SparkContext
Cluster program
1个额外的服务,用来申请集群的资源(standlone manager,Messos,yarn),
通过--master参数动态指定
Deploy mode
辨别driver进程启动在哪里?(1)cluster:dr ...
问题描述:数据是json格式存储的,需要创建一张hive表支持json格式
(1)低版本的hive创建json格式的表,需要add jar...,hive2.3.0版本默认支持json格式的表
(2)创建json格式的表需要建表语句加
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'STORED AS TEXTFILE
完整sql如下:
CREATE EXTERNAL TABLE `test_json`(字段 类型 ...)PARTITIONED BY ( 分区..)ROW FORMAT SERD ...
(1)血缘关系:
通过血缘关系,可以知道一个RDD是如何从父RDD计算过来的
A =map=> B =filter=> C
(2)窄依赖:一个父RDD的partition最多被子RDD中的partition使用一次(一父对应一子),窄依赖无shuffle
(3)宽依赖:
父RDD中的一个partition会被子RDD中的partition使用多次(一父多子)
宽依赖有shuffle,一个shuffle会拆成一个stage,2个shuffle拆成3个stage
以wordcount为例(reduceBykey是宽依赖,把stage拆为2 ...
1.RDD的cache和persist
cache:存储级别是MEMORY_ONLY的, 是个transformation,是lazy的,只有触发了action,才会真正执行(spark sql中的cache是立刻执行的)
persist:可以指定存储级别
spark使用lru算法移除过期的cache数据,用户也可以手动取消序列化:unpersist(立即执行,不是lazy的)
2.存储级别StorageLevel
(1)存储级别有哪些?
(2) 如何选择存储级别
存储方式
描述
资源占用
适用场景
MEMORY_ONLY
内存,反序列化
内存占用大
...
测试下spark.yarn.archive 和 spark.yarn.jars 参数的作用,官网对这俩参数的描述如下:
(1)spark-defaults.conf配置下面两个参数
spark.yarn.archive hdfs://hd1:9000/archive/spark-libs.jar
spark.yarn.jars hdfs://hd1:9000/spark_jars/*
查看web ui ...
本地环境:
hadoop3.0
spark2.3
注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1 和 hd1) ,不影响实际结果,下面的配置依然是正确的,实际测试中以自己的hostname,spark版本为准!
1.下载,解压
2.目录结构
bin:本地脚本
sbin:服务端脚本
conf:配置文件
examples:样例代码
jars:依赖包(1.x是在lib目录,很少的几个大包, 2.x是在jars目录下,很多个小包)
1.x的lib目录
2.x的ja ...
1.RDD是什么?
RDD源码中的五个特性:弹性的,分布式的,不可变的,支持并行化操作,可以分区的数据集
五个主要属性:
1个rdd可以有多个partition
如果对1个rdd作用于一个function,其实是对里面的每个split做function,1个split就是一个partition
rdd间是有一系列依赖的,例如:
(可选)对于(groupbykey)有一个Hashpartition对应于key-value类型的rdd,sortbykey对应一个range-partitioned
(可选)每个split都有一个优先推荐的locations list (注意这 ...
(一)环境:
hadoop
2.8.1
hive
1.2.2
core-site.xml 配置项
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec ...
lzop命令用途:操作lzo文件
创建:
lzop -v 1.txt #创建test.lzo压缩文件,输出详细信息,保留test文件不变
lzop -Uv 1.txt #创建test.lzo压缩文件,输出详细信息,删除test文件
cat 1.txt | lzop > t.lzo #压缩标准输入并定向到标准输出
检测:
lzop -t 1.txt.lzo #测试1.txt.lzo压缩文件的完整性
lzop --info 1.txt.lzo # 列出1.txt.lzo中各个文件的文件头
lzop -l 1.txt.lzo #列出1.txt.lzo中各个文件 ...
1.安装:
(1)安装依赖:
yum -y install lzo-devel zlib-devel gcc autoconf automake libtool
(2)安装maven
wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.3/binaries/apache-maven-3.5.3-bin.tar.gz
tar -xzvf apache-maven-3.5.3-bin.tar.gz
修改环境变量 vi /etc/profile, 添加下面两句(路径按自己的写)
export MA ...
知识点:隐式变量
注意点:
不声明,不能直接用
一个方法,不能同时找到多个隐式变量,否则会报错
如果显示指定了值,则隐式的值不会起到作用
测试代码:
package demo.scala
object TestImplicit1 {
def test(implicit name: String) = {
println("name=" + name)
}
def main(args: Array[String]): Unit = {
//1.直接调用,没走隐式参数,结果:name=abc
...