`
乡里伢崽
  • 浏览: 111875 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表

Azkaban的安装

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有如下功能特点: • Web用户界面 •方便上传工作流 •方便设置任务之间的关系 •调度工作流 • 认证/授权(权限的工作) •能够杀死并重新启动工作流 •模块化和可插拔的插件机制 •项目工作区 •工作流和任务的日志记录和审计 准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaba ...
分类: Hive 2013-12-07 11:56 1806人阅读 评论(0) 收藏 举报 先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在 ...
一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b)    假设input目录下有3个文件a,b,c,大小分别为10m,20m,130 ...

hive 压缩策略

    博客分类:
  • hive
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。          在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本 ...
修改hive-site.xml <property>     <name>javax.jdo.option.ConnectionURL</name>     <value>jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&amp;characterEncoding=UTF-8</value>   </property>   <property>     <name>javax.jdo.option.ConnectionDriverName& ...
HIVE 窗口及分析函数 使用场景 www.MyException.Cn   发布于:2013-07-20 11:07:48   浏览:49次 1 HIVE 窗口及分析函数 应用场景 窗口函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 一、分析 ...

hive 内置函数

    博客分类:
  • hive
1.sort_array(): sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements. Example:   >SELECT sort_array(array('b', 'd', 'c', 'a')) FROM src LIMIT 1;   'a', 'b', 'c', 'd' 2.ads(): abs(x) - returns the absolute value of x Ex ...

hive lateral view

    博客分类:
  • hive
通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。 因为直接在SELECT使用UDTF会存在限制,即仅仅能包含单个字段,如下: hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01; FAILED: Error in semantic analysis: Only a single expression in the SELECT clause is supported with UDTF’s hive> select my_test(“abc ...

hive数据的导出

    博客分类:
  • hive
在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。   一、导出到本地文件系统    hive> insert overwrite local directory '/home/wyp/wyp'     > select * from wyp;   这条HQL的执行需要启用Mapredu ...

hive udaf

    博客分类:
  • hive
package com.lwz.udaf; import org.apache.hadoop.hive.ql.exec.UDAF; import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; //1.此函数区分一条记录的方法,如果没有group by和where的检索,那么整个表的数据都会被作为一条数据,从而只会init()一次 //然后再把这条数据根据表里面的行数依次进行iterator(),再把iterator()方法返回的结果通过terminatePartial()返回,当再次 //进行iterator()时,结果就会累加,当最后通过term ...

hbase scan问题

    1.通过scan取完数据后,记得要关闭ResultScanner,否则RegionServer可能会出现问题     2.scan时指定需要的Column Family,可以减少网络传输数据量,否则默认scan操作会返回整行所有Column Family的数据。     3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBase scanner一次从服务端抓取的数据条数,     默认情况下一次一条。通过将此值设置成一个合理的值,可以减少scan过程中next()的时间开销,     代价是scanner需要通过客户端的内存来维 ...

hive自定义InputFormat

    博客分类:
  • hive
自定义分隔符 package com.lwz.inputf; import java.io.IOException;    import java.io.InputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable;   ...
HiveServer2连接ZooKeeper出现Too many connections问题的解决 作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html HiveServer2支持多客户端的并发访问,使用ZooKeeper来管理Hive表的读写锁。实际环境中,遇到了HiveServer2连接ZooKeeper出现Too many connecti ...

hive 常用命令

    博客分类:
  • hive
1.hive通过外部设置参数传入脚本中:        hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql        脚本调用参数:use test;              select * from student where pdate='${hiveconf:enter_school_date}' and  sage > '${hiveconf:min_ag}' limit 8;

hadoop配置的修改

1.修改/etc目录下yarn-site.xml的配置,重启机器配置不生效     修改/var/run/clouder-scm-agent目录下yarn-site.xml的配置,重启节点配置不生效     在cloudera manager控制面板中在服务yarn中查看和编辑下的默认中     高级选项内,能修改yarn-site.xml配置,重启集群生效
Global site tag (gtag.js) - Google Analytics