- 浏览: 553894 次
- 性别:
- 来自: 西安
-
博客专栏
-
-
Hive入门
浏览量:44761
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
org.apache.hadoop.hive.ql.tools.LineageInfo
public static void main(String[] args) throws IOException, ParseException,
SemanticException {
//String query = args[0];
//String query = "select a.* from a join (select * from b where id like '%哈哈%') c on a.id = c.id";
...
package com.lxw.hive;
import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook;
import org.apache.hadoop.hive.ql.parse.HiveParser;
import org.apache.hadoop.hive.ql.parse.HiveSemanticAnalyzerHookContext;
import org.apache.hadoop.hiv ...
Hadoop的目录文件结构:
.
|-- LICENSE.txt
|-- NOTICE.txt
|-- README.txt
|-- bin
|-- conf
|-- etc
|-- export_hadoop.sh
|-- hadoop-0.23.0-gridmix.jar
|-- hadoop-0.23.0-streaming.jar
|-- hadoop-mapreduce-0.23.0-sources.jar
|-- hadoop-mapreduce-0.23.0.jar
|-- hadoop-mapreduce-examples-0.23.0-sources. ...
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作
为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性
...
1) 工具说明
在SecureCRT这样的ssh登录软件里, 通过在Linux界面里输入rz/sz命令来上传/下载文件.
对于RHEL5, rz/sz默认没有安装所以需要手工安装.
sz: 将选定的文件发送(send)到本地机器;
rz:运行该命令会弹出
一个文件选择窗口, 从本地选择文件上传到服务器(receive).
下载安装包lrzsz-0.12.20.tar.gz:
http://www.ohse.de/uwe/software/lrzsz.html
2) 软件安装
首先通过sftp工具把安
装文件上传到/tmp目录下.
# cd /tmp
# w ...
Bucket Map Join
1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多;
2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显;
create table lxw_test(imei string,sndaid string,data_time string)
CLUSTERED BY(imei) SORTED BY(imei) INTO 10 BUCKETS;
create table lxw_test1(imei string,sndaid strin ...
在测试集群上拉了5台机器,自己另外搭建了一个小集群,不影响原来的集群。
1.规划,jobtracker一台,namenode一台,datanode三台,secondNamenode和网关机一台
2.新建用户lxw,并打通无密码ssh
3.安装版本0.20.2
完成之后先启 ...
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将
引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网 ...
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; http://www.apacheserver.net/How-is-Union-All-optimized-in-Hive-at229466.htm 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长; 希望大家在开发的时候多测,多试!
lxw_test3 12亿左右记录数 Union all : 耗时7分钟左右
create table lxw_test5 as
select t ...
1. 需求与现状:
源表:pcup_3month_login_dtl_mes , 记录数12亿,文件数 300
统计SQL:
insert overwrite table pcup_logininfo_tmp partition(data_type = 1)
select popt_id,
null as sndaid,
count(distinct case when login_date>='2012-02-01' and login_date<'2012-05-01' then login_date else null ...
为hive设置输出压缩的参数
- 博客分类:
- hadoop
<!-- map output compress begin-->
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>
<property>
<name>mapred.output.compress</name>
<value>true</value>
</property>
< ...
perl DBI连接oracle的问题
- 博客分类:
- perl
对于不同的ORACLE连接串,可能需要调整连接方式,都需要有ORACLE客户端:
1. dwapprac =
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.25)(PORT = 1521))
(ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.26)(PORT = 1521))
(LOAD_BALANCE = yes)
(CONNECT_DATA =
(SERVER = DEDICATED)
...
java api读取RCFile
- 博客分类:
- hadoop
private static List<String> showRCFile (Path src,Configuration conf) {
List<String> list = new ArrayList<String>();
try {
FileSystem fs = FileSystem.get(src.toUri(), conf);
long fileLen = fs.getFileStatus(src).getLen();
FileSplit split = new FileSplit(src,0, fileLe ...
1. rpm安装mysql
groupadd mysql
useradd -g mysql mysql
rpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm
rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm
启动mysql:/etc/init.d/mysql start
添加系统启动:/sbin/chkconfig --add mysql
create database hive;
grant all on hive.* to hive@'%' identified by 'hive ...
通过该命令可以来限定某个hdfs目录的大小:
hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen
但设定之后,put一个2000多字节的文件时候报错:
12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededE ...