使用LineageInfo分析hive sql中的表关系

博客分类：

hadoop

org.apache.hadoop.hive.ql.tools.LineageInfo public static void main(String[] args) throws IOException, ParseException, SemanticException { //String query = args[0]; //String query = "select a.* from a join (select * from b where id like '%哈哈%') c on a.id = c.id"; ...

2012-06-11 11:10
浏览 3846
评论(0)
分类:互联网

hive权限控制---限定用户的某些操作权限

博客分类：

hadoop

hadoop hive 权限控制

package com.lxw.hive; import org.apache.hadoop.hive.ql.parse.ASTNode; import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook; import org.apache.hadoop.hive.ql.parse.HiveParser; import org.apache.hadoop.hive.ql.parse.HiveSemanticAnalyzerHookContext; import org.apache.hadoop.hiv ...

2012-06-05 16:31
浏览 3704
评论(3)
分类:互联网

【转】Hadoop0.23.0初探2---HDFS Federation部署

博客分类：

hadoop

hadoop2 hadoop

2012-06-01 16:46
浏览 1600
评论(0)
分类:互联网

【转】Hadoop0.23.0初探1---前因后果

博客分类：

hadoop

hadoop2 hadoop 新版本

最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0)，它标志着Hadoop新时代的到来。本文作为系列文章的第一篇，将结合Hadoop-0.20.*的特点，以及Hadoop核心理念，分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性 ...

2012-06-01 16:44
浏览 1765
评论(0)
分类:互联网

【转】Linux下rz/sz安装及使用方法

博客分类：

linux&shell

linux shell rz lrz

1) 工具说明在SecureCRT这样的ssh登录软件里, 通过在Linux界面里输入rz/sz命令来上传/下载文件. 对于RHEL5, rz/sz默认没有安装所以需要手工安装. sz: 将选定的文件发送(send)到本地机器; rz：运行该命令会弹出一个文件选择窗口, 从本地选择文件上传到服务器(receive). 下载安装包lrzsz-0.12.20.tar.gz: http://www.ohse.de/uwe/software/lrzsz.html 2) 软件安装首先通过sftp工具把安装文件上传到/tmp目录下. # cd /tmp # w ...

2012-06-01 15:14
浏览 2356
评论(0)
分类:互联网

hive--Sort Merge Bucket Map Join

博客分类：

hadoop

hadoop hive mapjoin bucket

Bucket Map Join 1. 测试1：两个1亿多记录的表，不存在数据倾斜与笛卡尔积，测试下来与普通的join差不多； 2. 测试2：一个4000万和一个5000多万的表join,关联键数据倾斜，并且笛卡尔积，效果明显； create table lxw_test(imei string,sndaid string,data_time string) CLUSTERED BY(imei) SORTED BY(imei) INTO 10 BUCKETS; create table lxw_test1(imei string,sndaid strin ...

2012-05-30 19:31
浏览 8851
评论(1)
分类:互联网

单独启动datanode和tasktracker遇到的小问题

博客分类：

hadoop

hadoop datanode tasktracker

在测试集群上拉了5台机器，自己另外搭建了一个小集群，不影响原来的集群。 1.规划，jobtracker一台，namenode一台，datanode三台，secondNamenode和网关机一台 2.新建用户lxw,并打通无密码ssh 3.安装版本0.20.2 完成之后先启� ...

2012-05-28 19:45
浏览 2574
评论(0)
分类:互联网

Hadoop HDFS Balancer介绍

博客分类：

hadoop

hadoop hdfs balance

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网� ...

2012-05-25 17:03
浏览 1554
评论(0)
分类:互联网

hive中合理使用union all与multi insert

博客分类：

hadoop
hadoop

对同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表； http://www.apacheserver.net/How-is-Union-All-optimized-in-Hive-at229466.htm 而多重insert也只扫描一次，但应为要insert到多个分区，所以做了很多其他的事情，导致消耗的时间非常长；希望大家在开发的时候多测，多试！ lxw_test3 12亿左右记录数 Union all : 耗时7分钟左右 create table lxw_test5 as select t ...

2012-05-21 16:53
浏览 13742
评论(4)
分类:互联网

hive 多字段同时count(distinct)优化

博客分类：

hadoop

1. 需求与现状：源表：pcup_3month_login_dtl_mes ，记录数12亿，文件数 300 统计SQL: insert overwrite table pcup_logininfo_tmp partition(data_type = 1) select popt_id, null as sndaid, count(distinct case when login_date>='2012-02-01' and login_date<'2012-05-01' then login_date else null ...

2012-05-18 15:04
浏览 12792
评论(0)
分类:互联网

为hive设置输出压缩的参数

博客分类：

hadoop

<property> <name>mapred.compress.map.output</name> <value>true</value> </property> <property> <name>mapred.output.compress</name> <value>true</value> </property> < ...

2012-05-17 16:41
浏览 2426
评论(0)
分类:互联网

perl DBI连接oracle的问题

博客分类：

perl

对于不同的ORACLE连接串，可能需要调整连接方式,都需要有ORACLE客户端： 1. dwapprac = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.25)(PORT = 1521)) (ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.26)(PORT = 1521)) (LOAD_BALANCE = yes) (CONNECT_DATA = (SERVER = DEDICATED) ...

2012-05-17 15:58
浏览 2037
评论(0)
分类:互联网

java api读取RCFile

博客分类：

hadoop

private static List<String> showRCFile (Path src,Configuration conf) { List<String> list = new ArrayList<String>(); try { FileSystem fs = FileSystem.get(src.toUri(), conf); long fileLen = fs.getFileStatus(src).getLen(); FileSplit split = new FileSplit(src,0, fileLe ...

2012-05-17 10:05
浏览 2507
评论(0)
分类:互联网

大概记录一下hive安装步骤

博客分类：

hadoop

hive 安装

1. rpm安装mysql groupadd mysql useradd -g mysql mysql rpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm 启动mysql:/etc/init.d/mysql start 添加系统启动:/sbin/chkconfig --add mysql create database hive; grant all on hive.* to hive@'%' identified by 'hive ...

2012-05-14 21:46
浏览 6467
评论(0)
分类:互联网

hadoop dfsadmin -setSpaceQuota 设置目录配额的问题

博客分类：

hadoop

通过该命令可以来限定某个hdfs目录的大小： hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen 但设定之后，put一个2000多字节的文件时候报错： 12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededE ...

2012-05-14 16:12
浏览 3114
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

使用LineageInfo分析hive sql中的表关系

hive权限控制---限定用户的某些操作权限

【转】Hadoop0.23.0初探2---HDFS Federation部署

【转】Hadoop0.23.0初探1---前因后果

【转】Linux下rz/sz安装及使用方法

hive--Sort Merge Bucket Map Join

单独启动datanode和tasktracker遇到的小问题

Hadoop HDFS Balancer介绍

hive中合理使用union all与multi insert

hive 多字段同时count(distinct)优化

为hive设置输出压缩的参数

perl DBI连接oracle的问题

java api读取RCFile

大概记录一下hive安装步骤

hadoop dfsadmin -setSpaceQuota 设置目录配额的问题

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>