`
文章列表
1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 2、元数据节点(Namenode)和数据节点(datanode) namenode用来管理文件系统的命名空间 其将所有的文件和文件夹的元数据保存在一个文件系统树中。 这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit l ...
1 Map side tuning参数 1.1 MapTask运行内部原理     当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内 ...
1.部署hadoop 和普通的datanode一样。安装jdk,ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker 5.均衡block [root@slave-004 hadoop]# ...

Hive左连接

    博客分类:
  • hive
CREATE EXTERNAL TABLE IF NOT EXISTS a( telno STRING, other STRING ) PARTITIONED BY(day String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; CREATE EXTERNAL TABLE IF NOT EXISTS b( telno STRING, other STRING ) PARTITIONED BY(day String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; 测试表a中数据如下: hiv ...
cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 /sbin/service crond reload //重新载入配置     你也可以将这个服务在系统启动的时候自动启动: 在/etc/rc.d/rc.local这个脚本的末尾加上: /sbin/service crond ...
shell脚本编写技巧 " 1.test测试命令 test命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试, 其测试符和相应的功能分别如下: (1)数值测试: -eq:等于则为真 -ne:不等于则为真 -gt:大于则为真 -ge:大于等于则为真 -lt:小于则为真 -le:小于等于则为真 (2)字符串测试: =:等于则为真 !=:不相等则为真 -z 字符串:字符串长度伪则为真 -n 字符串:字符串长度不伪则为真 (3)文件测试: -e 文件名:如果文件存在则为真 -r 文件名:如果文件存在且可读则为真 -w 文件名:如果文件存在且可写则为真 -x 文件名:如果文件存在且可执 ...

安装hive0.12

    博客分类:
  • hive
1.下载解压hive0.12   tar -zxvf hive-0.12.0.tar.gz 2.在.bashrc下添加   export HIVE_HOME=/home/hadoop/cdh3/hive-0.7.1-cdh3u1   export PATH=$PATH:HIVE_HOME/bin 3.在hive下执行     bin/hive
网络接口配置文件 [root@localhost ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0 # Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) TYPE=Ethernet       #网卡类型 DEVICE=eth0         #网卡接口名称 ONBOOT=yes          #系统启动时是否自动加载 BOOTPROTO=static    #启用地址协议 --static:静态协议 --bootp协议 --dhcp协议 IPADDR=192.16 ...
1. 基本的替换 :s/vivian/sky/ 替换当前行第一个 vivian 为 sky :s/vivian/sky/g 替换当前行所有 vivian 为 sky :n,$s/vivian/sky/ 替换第 n 行开始到最后一行中每一行的第一个 vivian 为 sky :n,$s/vivian/sky/g 替换第 n 行开始到最后一行中每一行所有 vivian 为 sky (n 为数字,若 n 为 .,表示从当前行开始到最后一行) :%s/vivian/sky/(等同于 :g/vivian/s//sky/) 替换每一行的第一个 vivian 为 sky :%s/v ...
1.把内部表设置成外部表: alter table table_name set TBLPROPERTIES ('EXTERNAL'='TRUE'); 2.查看Hadoop的hdfs文件 hadoop fs -text | more 3.查看外部表信息 describe extended table_name 4.创建外部表 CREATE EXTERNAL TABLE IF NOT EXISTS table_name(id int,name string)         partitioned by(day string) row format delimited fields te ...
Global site tag (gtag.js) - Google Analytics