- 浏览: 48038 次
- 性别:
- 来自: 北京
最新评论
-
dk101:
不错,与君共勉。
你和你自己聊过天吗?
文章列表
hive文件存储格式包括以下几类:
1.TEXTFILE
2.SEQUENCEFILE
3.RCFILE
4.自定义格式
其中TEXTFILE为默认格式,建表时不指定,默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。
SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到SequenceFile,RCFile表中。
TEXTFIEL
默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自 ...
shell的输入与输出
1.echo7.文件重定向2.read8.标准输入,输出与错误3.cat9.文件重定向4.管道10.合并标准输出和标准错误5.tee11.使用文件描述符6.exec
1.echo
echo命令的功能是在显示器上显示一段文字,一般起到一个提示的作用,或者 ...
变量和运算符
1.什么是shell变量
2.本地变量
variable_name=value
set查看本地变量
readonly variable_name 变量值不能被改变
readonly查看只读的变量
3.环境变量
环境变量是适用于所有用户进程(通常称为子进程)。登录进程称为父进程。shell中执行的用户进程均称为子进程。不像本地变量只用于现在的shell,环境变量可用户所有子进程,这包括,编辑器,脚本,应用。
位置:$HOME/.bash_profile()(/et ...
1.1 什么是shell
shell是核心程序(kernel)之外的指令解析器,是一个程序同时一中命令语言和程序设计语言。
shell的类型:ash,bash,sh,ksh,csh,tcsh
-/etc/shells
-echo $SHELL
程序在shell中运行
shell中可以运行子shell
#!/bin/bash
echo "hello word"
chmod +x xx.txt
./xx.txt
1.2存取权限与安全
文件和目录的权限(-rwrr--r--)
setuid(suid/guid)(chm ...
http://www.iteye.com/blogs/subjects/zy19982004?page=2
hadoop快速入门
http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html#%E8%BF%90%E8%A1%8CHadoop%E9%9B%86%E7%BE%A4%E7%9A%84%E5%87%86%E5%A4%87%E5%B7%A5%E4%BD%9C
在夜深人静的时候,躺在床上,与自己的心去对话:
1、问问自己:这辈子到底想要什么?
这是很重要的问题,一定要仔细问自己,你一生到底想要什么?你的人生目标是什么?你最终想过什么样的生活?不要告诉别人,告诉自己就行了。
2、你现在能够做什么?
你想不想买好车?你想不想住高级别墅?你想不想自由地全球旅行?肯定想吧?没有不想的,那你为什么不去做呢?有人说我不喜欢,如果你能在家什么事都不做就有充足的钱花,能想买车就买车,能想买房就买房,能想旅游就去旅游,那你内心富足愉悦吗?
3、你正在做什么?
你现在做的事能够实现你的人生目标吗?如果不能,那么五年以后 ...
linux 下使用gzip压缩与解压文件
gzip 和 gunzip
要使用 gzip 来压缩文件,在 shell 提示下键入以下命令:
gzip filename
文件即会被压缩,并被保存为 filename.gz。
要扩展压缩的文件,键入以下命令:
gunzip filename.gz
filename.gz 会被删除,而继之以 filename。
你可以使用 gzip 命令同时处理多个文件和目录,方法是将它们逐一列出,并用空格间隔:
gzip -r filename.gz file1 file2 file3 /usr/work/school
上面的命令把 file1 ...
字符串函数
字符串长度函数:length
语法: length(string A)
返回值: int
说明:返回字符串A的长度
举例:
hive> select length(‘abcedfg’) from dual;
7
字符串反转函数:reverse
语法: reverse(string A)
返回值: string
说明:返回字符串A的反转结果
举例:
hive> select reverse(‘abcedfg’) from dual;
gfdecba
字符串连接函数:concat
语法: concat(string A, string B…)
返回值: string
说明:返 ...
一. Hive 简介
Hive 是基于 hadoop 分布式文件系统的一种数据库,它的数据都是以文件文件形式存在的。
Hive 中的每一条记录对应于文件中的一行,各个字段的值是被指定的分隔符分隔的。在读数据的时候,会将文件行以分隔符分隔字段值,并将各个值按顺序给字段;现有的 hive 的权限基于文件的,如果某个用户对表对应的文件有读的权限,那么用户就对表有读的权限。
当前 hive 运用最多的是分区,hive 会将各个分区的数据分别放在不同的文件夹下;
在用 hive 执行 SQL 语句时,是将语句处理成 mapreduce 程序运行的。
二. 数据类型
整型
int 4 字节 ...
线程池的作用:
线程池作用就是限制系统中执行线程的数量。
根据系统的环境情况,可以自动或手动设置线程数量,达到运行的最佳效果;少了浪费了系统资源,多了造成系统拥挤效率不高。用线程池控制线程数量,其他线程排队等候。一个任务执行完毕,再从队列的中取最前面的任务开始执行。若队列中没有等待进程,线程池的这一资源处于等待。当一个新任务需要运行时,如果线程池中有等待的工作线程,就可以开始运行了;否则进入等待队列。
为什么要用线程池:
1.减少了创建和销毁线程的次数,每个工作线程都可以被重复利用,可执行多个任务。
2.可以根据系统的承受能力,调整线程池中工作线线程的数目,防 ...
1.安装:
1.1:下载: http://mirrors.cnnic.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
1.2:解压:tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
1.3:重命名:mv sqoop-1.4.4.bin__hadoop-2.0.4-alpha sqoop1.4.4
2.配置环境变量
2.1:
#sqoop1.4.4
export SQOOP_HOME=/opt/program/sqoop1.4.4 ...
PIG latin常用命令语句
1.LOAD : 指出载入数据的方法
2.FOREACH:逐行扫描金星某种处理
3.FILTER:过滤航
4.DUMP :把结果显示到屏幕
5.STORE:把结果保存到文件
下载pig的安装文件:
http://mirrors.cnnic.cn/apache/pig/pig-0.12.1/pig-0.12.1.tar.gz
安装:
tar -zxvf pig-0.12.1.tar.gz
重命名:
mv pig-0.12.1 pig0.12
配置环境变量:
在cetos下 .bashrc
#add for pig0.12
export PIG_HOME=/opt/program/pig0.12
export PATH=$PIG_HOME/bin:$PATH
#hadoop2.0以上版本
export PIG_HADOOP_VERS ...
执行hive查询实例
执行select查询
$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'
加入配置变量的查询
$HIVE_HOME/bin/hive -e 'select a.col from tab1 a' -hiveconf hive.exec.scratchdir=/home/my/hive_scratch -hiveconf mapred.reduce.tasks=32
查询结果输出为文本
$HIVE_HOME/bin/hive -S -e 'select a.col from tab1 a' > ...
我们可以使用任意一种文字编辑器,比如gedit、kedit、emacs、vi等来编写shell脚本,它必须以如下行开始(必须放在文件的第一行):
#!/bin/bash
...
注意:最好使用“!/bin/bash”而不是“!/bin/sh”,如果使用tc shell改为tcsh,其他类似。
符号#!用来告诉系统执行该脚本的程序,本例使用/bin/bash。编辑结束并保存后,如果要执行该脚本,必须先使其可执行:
chmod +x filename
此后在该脚本所在目录下,输入 ./filename 即可执行该脚本。
变量赋值和引用
Shell编程中,使用变量无需事先声明,同时变量名 ...