- 浏览: 48975 次
- 性别:
- 来自: 北京
-
最新评论
-
dk101:
不错,与君共勉。
你和你自己聊过天吗?
文章列表
1、数据块(block)
HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。
和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。
不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
2、元数据节点(Namenode)和数据节点(datanode)
namenode用来管理文件系统的命名空间
其将所有的文件和文件夹的元数据保存在一个文件系统树中。
这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit l ...
1 Map side tuning参数
1.1 MapTask运行内部原理
当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内 ...
1.部署hadoop
和普通的datanode一样。安装jdk,ssh
2.修改host
和普通的datanode一样。添加namenode的ip
3.修改namenode的配置文件conf/slaves
添加新增节点的ip或host
4.在新节点的机器上,启动服务
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker
5.均衡block
[root@slave-004 hadoop]# ...
CREATE EXTERNAL TABLE IF NOT EXISTS a(
telno STRING,
other STRING
)
PARTITIONED BY(day String)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
CREATE EXTERNAL TABLE IF NOT EXISTS b(
telno STRING,
other STRING
)
PARTITIONED BY(day String)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
测试表a中数据如下:
hiv ...
cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务:
/sbin/service crond start //启动服务
/sbin/service crond stop //关闭服务
/sbin/service crond restart //重启服务
/sbin/service crond reload //重新载入配置
你也可以将这个服务在系统启动的时候自动启动:
在/etc/rc.d/rc.local这个脚本的末尾加上:
/sbin/service crond ...
shell脚本编写技巧
"
1.test测试命令
test命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试,
其测试符和相应的功能分别如下:
(1)数值测试:
-eq:等于则为真
-ne:不等于则为真
-gt:大于则为真
-ge:大于等于则为真
-lt:小于则为真
-le:小于等于则为真
(2)字符串测试:
=:等于则为真
!=:不相等则为真
-z 字符串:字符串长度伪则为真
-n 字符串:字符串长度不伪则为真
(3)文件测试:
-e 文件名:如果文件存在则为真
-r 文件名:如果文件存在且可读则为真
-w 文件名:如果文件存在且可写则为真
-x 文件名:如果文件存在且可执 ...
1.下载解压hive0.12
tar -zxvf hive-0.12.0.tar.gz
2.在.bashrc下添加
export HIVE_HOME=/home/hadoop/cdh3/hive-0.7.1-cdh3u1
export PATH=$PATH:HIVE_HOME/bin
3.在hive下执行
bin/hive
网络接口配置文件
[root@localhost ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0
# Intel Corporation 82545EM Gigabit Ethernet Controller (Copper)
TYPE=Ethernet #网卡类型
DEVICE=eth0 #网卡接口名称
ONBOOT=yes #系统启动时是否自动加载
BOOTPROTO=static #启用地址协议 --static:静态协议 --bootp协议 --dhcp协议
IPADDR=192.16 ...
1. 基本的替换
:s/vivian/sky/ 替换当前行第一个 vivian 为 sky
:s/vivian/sky/g 替换当前行所有 vivian 为 sky
:n,$s/vivian/sky/ 替换第 n 行开始到最后一行中每一行的第一个 vivian 为 sky
:n,$s/vivian/sky/g 替换第 n 行开始到最后一行中每一行所有 vivian 为 sky
(n 为数字,若 n 为 .,表示从当前行开始到最后一行)
:%s/vivian/sky/(等同于 :g/vivian/s//sky/) 替换每一行的第一个 vivian 为 sky
:%s/v ...
1.把内部表设置成外部表:
alter table table_name set TBLPROPERTIES ('EXTERNAL'='TRUE');
2.查看Hadoop的hdfs文件
hadoop fs -text | more
3.查看外部表信息
describe extended table_name
4.创建外部表
CREATE EXTERNAL TABLE IF NOT EXISTS table_name(id int,name string)
partitioned by(day string)
row format delimited fields te ...