- 浏览: 111875 次
- 性别:
- 来自: 深圳
最新评论
-
土豆蛋儿:
我想读取一个外部文件,以什么方式好了? 文件内容经常编辑
flume 自定义source -
土豆蛋儿:
大神,您好。
flume 自定义source
文章列表
Azkaban的安装
- 博客分类:
- Azkaban
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
它有如下功能特点:
• Web用户界面
•方便上传工作流
•方便设置任务之间的关系
•调度工作流
• 认证/授权(权限的工作)
•能够杀死并重新启动工作流
•模块化和可插拔的插件机制
•项目工作区
•工作流和任务的日志记录和审计
准备工作
Azkaban Web服务器
azkaban-web-server-2.5.0.tar.gz
Azkaba ...
Hive 中内部表与外部表的区别与创建方法
- 博客分类:
- hive
分类: Hive 2013-12-07 11:56 1806人阅读 评论(0) 收藏 举报
先来说下Hive中内部表与外部表的区别:
Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,
不对数据的位置做任何改变。在 ...
hive map和reduce的控制
- 博客分类:
- hive
一、 控制hive任务中的map数:
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);
2. 举例:
a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数
b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130 ...
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。
在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本 ...
hive 在mysql中创建备用数据库
- 博客分类:
- hive
修改hive-site.xml
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&characterEncoding=UTF-8</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName& ...
HIVE 窗口及分析函数
- 博客分类:
- hive
HIVE 窗口及分析函数 使用场景
www.MyException.Cn 发布于:2013-07-20 11:07:48 浏览:49次 1
HIVE 窗口及分析函数 应用场景
窗口函数应用场景:
(1)用于分区排序
(2)动态Group By
(3)Top N
(4)累计计算
(5)层次查询
一、分析 ...
1.sort_array():
sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements.
Example:
>SELECT sort_array(array('b', 'd', 'c', 'a')) FROM src LIMIT 1;
'a', 'b', 'c', 'd'
2.ads():
abs(x) - returns the absolute value of x
Ex ...
hive lateral view
- 博客分类:
- hive
通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。
因为直接在SELECT使用UDTF会存在限制,即仅仅能包含单个字段,如下:
hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01;
FAILED: Error in semantic analysis: Only a single expression in the SELECT clause is supported with UDTF’s
hive> select my_test(“abc ...
在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。
一、导出到本地文件系统
hive> insert overwrite local directory '/home/wyp/wyp'
> select * from wyp;
这条HQL的执行需要启用Mapredu ...
package com.lwz.udaf;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
//1.此函数区分一条记录的方法,如果没有group by和where的检索,那么整个表的数据都会被作为一条数据,从而只会init()一次
//然后再把这条数据根据表里面的行数依次进行iterator(),再把iterator()方法返回的结果通过terminatePartial()返回,当再次
//进行iterator()时,结果就会累加,当最后通过term ...
hbase scan问题
- 博客分类:
- hbase
1.通过scan取完数据后,记得要关闭ResultScanner,否则RegionServer可能会出现问题
2.scan时指定需要的Column Family,可以减少网络传输数据量,否则默认scan操作会返回整行所有Column Family的数据。
3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBase scanner一次从服务端抓取的数据条数,
默认情况下一次一条。通过将此值设置成一个合理的值,可以减少scan过程中next()的时间开销,
代价是scanner需要通过客户端的内存来维 ...
hive自定义InputFormat
- 博客分类:
- hive
自定义分隔符
package com.lwz.inputf;
import java.io.IOException;
import java.io.InputStream;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable; ...
HiveServer2连接ZooKeeper出现Too many connections问题的解决
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息
网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html
HiveServer2支持多客户端的并发访问,使用ZooKeeper来管理Hive表的读写锁。实际环境中,遇到了HiveServer2连接ZooKeeper出现Too many connecti ...
1.hive通过外部设置参数传入脚本中:
hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql
脚本调用参数:use test;
select * from student where pdate='${hiveconf:enter_school_date}' and sage > '${hiveconf:min_ag}' limit 8;
hadoop配置的修改
- 博客分类:
- hadoop
1.修改/etc目录下yarn-site.xml的配置,重启机器配置不生效
修改/var/run/clouder-scm-agent目录下yarn-site.xml的配置,重启节点配置不生效
在cloudera manager控制面板中在服务yarn中查看和编辑下的默认中
高级选项内,能修改yarn-site.xml配置,重启集群生效