- 浏览: 1067647 次
- 性别:
- 来自: 北京
最新评论
-
jchubby:
关于第一个reduceByKey对应的cache,shuffl ...
【Spark三十七】Spark Cache机制 -
bo_hai:
看了你的文章,updateStateByKey 这个方式的使用 ...
【Spark八十八】Spark Streaming累加器操作(updateStateByKey) -
bo_hai:
棒极啦,解决了我的问题。
【Spark七十二】Spark的日志配置 -
tivan:
你好,这个代码生成主要在,那个地方使用。
【Spark105】Spark SQL动态代码生成一 -
zxsz4085:
看楼主这么厉害的样子,请问楼主如何知道类库的版本呢?比如g++ ...
【Thrift一】Thrift编译安装
文章列表
数据算法:Hadoop/Spark大数据处理技巧
https://item.jd.com/11993447.html
图解Spark:核心技术与案例实战
https://item.jd.com/12021791.html
https://item.jd.com/11889267.html
Hadoop 2.X HDFS源码剖析
Spark大数据分析实战
https://item.jd.com/11860186.html
深入理解Spark:核心思想与源码分析
https://item.jd.com/11846120.html
如何在Windows上运行spark-shell
1. 下载winutils.exe,加入放置到d:/software/Hadoop/bin/winutils.exe目录下,注意,winutils.exe文件的上级目录一定是bin
2. 开启一个windows命令行窗口,在d:/software/Hadoop/bin目录下执行winutils.exe chmod 777 D:\tmp\hive
3. 打开一个windows命令行窗口,cd到解压的Spark的目录下,比如d:/software/spark-1.6.2/bin/执行如下命令
set HADOOP_HOME=d:/so ...
【Linux八】查看某个进程的线程数
- 博客分类:
- Linux
pstree -p `ps -e | grep cassandra| awk '{print $1}'` | wc -l
查看Cassandra进程的线程数
pstree -p | wc -l
查看所有的线程数
pstree -p <pid> | wc -l
查看指定进程的线程数
class CSuper {
}
class C extends CSuper {
}
class C2 extends CSuper {
}
class CSub extends C {
}
object Scala8 {
/***
*
* @return
*/
val func1 : C=>C = (c : CSuper) => new CSub
val func2 : C=>C = (c : C) => new C
//val func3 ...
对于如下的Hive JDBC连接串,
!connect jdbc:hive2://hiverserver.node:10000/default;principal=hive/_HOST@HADOOP.JD;kerberosAuthType=kerberos;hive.server2.proxy.user=0e276318a87ced54171884ed765e9962;
使用hive代理了proxy.user(此处是MD5编码的用户名),问题是:1. 连接上Hive Server后,执行create database db1;use db1;create table abc(l ...
关于Hadoop ProxyUser的出现动机,参看
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/Superusers.html
线上环境做了如下配置
<!--hadoop proxyuser--> <property> <name>hadoop.proxyuser.hdfs.groups</name> <value>*</value> </property> <pro ...
【Hadoop二十】WebHDFS
- 博客分类:
- Hadoop
访问地址是
http://hadoop.bit.com:50070/webhdfs/v1/user?op=LISTSTATUS
其中的user是HDFS上的文件路径/user,
HTTP REST API的详细信息参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/WebHDFS.html
【Hadoop十九】HDFS权限设置
- 博客分类:
- Hadoop
1.
hdfs权限检查启用,需要在hdfs-site.xml中做如下配置:
<property> <name>dfs.permissions.enabled</name> <value>true</value>
1.1. 默认情况下,用户在HDFS上创建的文件和目录的权限是rwxr-xr-x,即732,x表示有ls权限
默认的权限可以通过如下配置属性在hdfs-site.xml中进行配置
<property> <name>fs.permission ...
【Hive十八】Hive QL中使用配置的变量
- 博客分类:
- Hive
1. 使用set命令,设置参数
hive>set XYZ=abc
hive>select * from t1 where line = '${hiveconf:XYZ}'
等价于
hive>set XYZ=’abc‘
hive>select * from t1 where line = ${hiveconf:XYZ}
2.以hive --hiveconf XYZ=abc启动
hive>set XYZ
输出abc
hive>select * from t1 where line = ${hiveconf:XYZ} ...
【Linux命令七】tar命令
- 博客分类:
- Linux
1. 创建tar包,对目录打包
tar czvf localdir.tar.gz localdir
2. 不解压的情况下,查看tar.gz包的内容
tar ft localdir.tar.gz
注意ft是没有-的,这个跟jar ft abc.jar的格式一样
【Linux命令六】CP命令
- 博客分类:
- Linux
建立如下的目录结构:
.└── d1 ├── d10 │ └── scheduler-center.log └── result.json
1. 执行如下命令
cp d1 d2
那么报错,cp: 略过目录"d1",并且当前目录下并没有d2目录
2. cp -r d1 d2
【Linux命令五】SCP命令
- 博客分类:
- Linux
SCP命令可以将本机的一个文件复制到远程指定目录下,也可以将本机的一个目录递归复制到远程的指定目录下,
远程递归复制很重要,比如对于hadoop集群,在一台机器上配置完成,需要将整个目录复制到远程各个节点
scp -r localdir hadoop@localhost:/home/hadoop/learninglinux/ddd
以上命令将本机的localdir递归复制到远程机器下的ddd目录,结果是ddd目录下产生了一个localdir
如果不指定-r选项,那么不允许复制一个目录,报如下错:
localdir: not a regular file
...
【Linux命令四】SSH命令
- 博客分类:
- Linux
ssh命令在分布式集群环境下很重要,可以用于在一台机器XYZ上通过将要执行的shell脚本分发各个节点机器,然后通过ssh命令,在XYZ这台机器上,远程执行各个节点上的这个脚本,
1. 如果要远程执行的命令很多很长,可以写一个脚本,然后首先分发这个脚本,再执行这个脚本ssh
可以借助for循环依次执行下面的语句,从而达到在各个节点执行a.sh的目的
REMOTE_HOST=localhost
ssh hadoop@$REMOTE_HOME 'sh /home/hadoop/learninglinux/a.sh'
2. 如果要远程执行的命令只有一个或者两个,可以直接使用命令 ...
<property> <name>hive.server2.support.dynamic.service.discovery</name> <value>true</value> </property> <property> <name>hive.server2.zookeeper.namespace</name> <value>hiveserver2</value> </property> <property ...
启用授权选项,默认是false,后面的授权操作基于此选项为true进行set hive.security.authorization.enabled=true========================基于用户的授权===============================获取当前用户set system:user.name授权在指定库下面删除表grant drop on database db_1 to user yuzt授权在指定库下面创建表GRANT CREATE ON DATABASE db_1 TO USER yuzt;授权查询某个表grant select on table ...