`
bit1129
  • 浏览: 1069503 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表

xyz

    博客分类:
  • 111
数据算法:Hadoop/Spark大数据处理技巧 https://item.jd.com/11993447.html   图解Spark:核心技术与案例实战 https://item.jd.com/12021791.html   https://item.jd.com/11889267.html Hadoop 2.X HDFS源码剖析   Spark大数据分析实战 https://item.jd.com/11860186.html   深入理解Spark:核心思想与源码分析 https://item.jd.com/11846120.html
如何在Windows上运行spark-shell   1. 下载winutils.exe,加入放置到d:/software/Hadoop/bin/winutils.exe目录下,注意,winutils.exe文件的上级目录一定是bin 2. 开启一个windows命令行窗口,在d:/software/Hadoop/bin目录下执行winutils.exe chmod 777 D:\tmp\hive 3. 打开一个windows命令行窗口,cd到解压的Spark的目录下,比如d:/software/spark-1.6.2/bin/执行如下命令 set HADOOP_HOME=d:/so ...
pstree -p `ps -e | grep cassandra| awk '{print $1}'` | wc -l 查看Cassandra进程的线程数   pstree -p | wc -l 查看所有的线程数   pstree -p <pid> | wc -l 查看指定进程的线程数
class CSuper { } class C extends CSuper { } class C2 extends CSuper { } class CSub extends C { } object Scala8 { /*** * * @return */ val func1 : C=>C = (c : CSuper) => new CSub val func2 : C=>C = (c : C) => new C //val func3 ...
对于如下的Hive JDBC连接串, !connect jdbc:hive2://hiverserver.node:10000/default;principal=hive/_HOST@HADOOP.JD;kerberosAuthType=kerberos;hive.server2.proxy.user=0e276318a87ced54171884ed765e9962;     使用hive代理了proxy.user(此处是MD5编码的用户名),问题是:1. 连接上Hive Server后,执行create database db1;use db1;create table abc(l ...
关于Hadoop ProxyUser的出现动机,参看 https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/Superusers.html   线上环境做了如下配置    <!--hadoop proxyuser-->  <property>    <name>hadoop.proxyuser.hdfs.groups</name>    <value>*</value>  </property>  <pro ...
访问地址是   http://hadoop.bit.com:50070/webhdfs/v1/user?op=LISTSTATUS   其中的user是HDFS上的文件路径/user,   HTTP REST API的详细信息参看https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/WebHDFS.html
1. hdfs权限检查启用,需要在hdfs-site.xml中做如下配置:        <property>    <name>dfs.permissions.enabled</name>    <value>true</value>   1.1. 默认情况下,用户在HDFS上创建的文件和目录的权限是rwxr-xr-x,即732,x表示有ls权限   默认的权限可以通过如下配置属性在hdfs-site.xml中进行配置     <property>  <name>fs.permission ...
1. 使用set命令,设置参数 hive>set XYZ=abc hive>select * from t1 where line = '${hiveconf:XYZ}'   等价于   hive>set XYZ=’abc‘ hive>select * from t1 where line = ${hiveconf:XYZ}   2.以hive --hiveconf XYZ=abc启动   hive>set XYZ 输出abc   hive>select * from t1 where line = ${hiveconf:XYZ} ...
1. 创建tar包,对目录打包 tar czvf localdir.tar.gz localdir   2. 不解压的情况下,查看tar.gz包的内容 tar ft localdir.tar.gz 注意ft是没有-的,这个跟jar ft abc.jar的格式一样
建立如下的目录结构: .└── d1    ├── d10    │   └── scheduler-center.log    └── result.json   1. 执行如下命令 cp d1 d2 那么报错,cp: 略过目录"d1",并且当前目录下并没有d2目录   2. cp -r d1 d2
SCP命令可以将本机的一个文件复制到远程指定目录下,也可以将本机的一个目录递归复制到远程的指定目录下, 远程递归复制很重要,比如对于hadoop集群,在一台机器上配置完成,需要将整个目录复制到远程各个节点   scp  -r localdir hadoop@localhost:/home/hadoop/learninglinux/ddd   以上命令将本机的localdir递归复制到远程机器下的ddd目录,结果是ddd目录下产生了一个localdir   如果不指定-r选项,那么不允许复制一个目录,报如下错:   localdir: not a regular file ...
ssh命令在分布式集群环境下很重要,可以用于在一台机器XYZ上通过将要执行的shell脚本分发各个节点机器,然后通过ssh命令,在XYZ这台机器上,远程执行各个节点上的这个脚本,   1. 如果要远程执行的命令很多很长,可以写一个脚本,然后首先分发这个脚本,再执行这个脚本ssh 可以借助for循环依次执行下面的语句,从而达到在各个节点执行a.sh的目的 REMOTE_HOST=localhost ssh hadoop@$REMOTE_HOME 'sh /home/hadoop/learninglinux/a.sh'   2. 如果要远程执行的命令只有一个或者两个,可以直接使用命令 ...
<property>    <name>hive.server2.support.dynamic.service.discovery</name>    <value>true</value>  </property>  <property>    <name>hive.server2.zookeeper.namespace</name>    <value>hiveserver2</value>  </property>  <property ...
启用授权选项,默认是false,后面的授权操作基于此选项为true进行set hive.security.authorization.enabled=true========================基于用户的授权===============================获取当前用户set system:user.name授权在指定库下面删除表grant drop on database db_1 to user yuzt授权在指定库下面创建表GRANT CREATE ON DATABASE db_1 TO USER yuzt;授权查询某个表grant select on table ...
Global site tag (gtag.js) - Google Analytics