本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- benladeng5225
- ranbuijj
- wallimn
- javashop
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- robotmen
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- ganxueyun
- xyuma
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- nychen2000
- zxq_2017
- lzyfn123
- wjianwei666
- forestqqqq
- ajinn
- siemens800
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
- 喧嚣求静
- Xeden
最新文章列表
hive安装完成后遇到的问题
安装好hive后,使用mysql存储元数据。
在启动hive是没有问题。
使用hive命令:show tables;是会出现以下错误。
hive> show tables
> ;
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Communications link failure
...
hive中转义特殊字符
原SQL如下:
regexp_extract(lower(url), 'bookid\\=([^&$]+)', 1)
封装hive sql用的是perl,perl中用hive -e的方式将sql传给hive执行,上面的语句中perl经过转义,变成了
regexp_extract(lower(url), 'bookid=([^&5.008008+)', 1)
...
hive的不等值关联
hive中不支持不等值关联,诸如:
select a.app_name,
b.app_name
from a
left outer join b
on (b.app_name like a.app_name)
select a.app_name,
b.app_name
from a
left outer join b
on (b.num < a.n ...
hive中一些实用的小技巧
1. 忽略错误,继续执行下面的语句,特别是在使用hive -f "xxx.sql"时候比较实用:
hive --hiveconf hive.cli.errors.ignore=true -f "xxx.sql"
2. 虚拟列:
INPUT__FILE__NAME(输入文件的路径)
BLOCK__OFFSET__INS ...
mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000.
Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000.
Aborting job job_201205162059_1073852 at
org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.re ...
hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info
Exception in thread "main" java.lang.NoSuchFieldError: info
at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:583)
at org.apache.hadoop.hive.cli.CliDriver.main(CliD ...
hive0.80, 0.90新特性
目前使用的hive版本为0.70,看了一下0.80和0.90的新特性,还是有蛮多实用的东西,
主要是性能的提升,但是metastore变动较大,升级有一定的风险,目前正在测试:
0.80:
https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12310843&version=12316178
0 ...
Hive常用的SQL命令操作
创建表
hive> CREATE TABLE pokes (foo INT, bar STRING);
创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
显示所有表
hive> SHOW TABLES;
按正条件(正则表达式)显示表,
...
HIVE中row_number函数的描述与使用场景
假设一个场景:存在表user_score,该表的数据如下
idratescore1'0-4'102'0-4'403'0-4'304'0-4'205'5-10'106'5-10'407'5-10'308'5-10'209'11-20'1010'11-20'4011'11-20'3012'11-20'20
现在要求用一条查询语句取出每种rate下score最大的两条记录,也就算取出id为:2,3,6,7 ...
使用LineageInfo分析hive sql中的表关系
org.apache.hadoop.hive.ql.tools.LineageInfo
public static void main(String[] args) throws IOException, ParseException,
SemanticException {
//String query = args[0];
//String quer ...
hive权限控制---限定用户的某些操作权限
package com.lxw.hive;
import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook;
import org.apache.hadoop.hive.ql.parse.HiveParser;
i ...
Hive对形如f(column)进行分组的两种办法
在使用HIVE时,如果某个列应用了某个函数并使用如f(col) 重新命名列f(col) as fc,
对想基于fc直接直接group by时,如:
select f(col) as fc, count(*) from table_name group by fc
HIVE是不支持的,运行该语句会报错。
可以使用以下的两种方式来达到相同的目的:
(1)使用子查询
select sq.fc, c ...
LINUX下单机安装HADOOP+HIVE手册
HADOOP篇
HADOOP安装
1.tar -zvxf hadoop-0.19.2.tar.gz
2.HADOOP的安装路径添加到环境文件/etc/profile中:
export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2
export PATH=$HADOOP_HOME/bin:$PATH
HADOOP配置
1.在$ ...
hive--Sort Merge Bucket Map Join
Bucket Map Join
1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多;
2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显;
create table lxw_test(imei string,sndaid string,data_time string)
CL ...
HIVE简单部署
1.下载 http://labs.renren.com/apache-mirror/hive/stable/hive-0.8.1.tar.gz
2.安装
安装hive之前确保已经安装了hadoop,hadoop简单安装请查看[url] http://alikevin2011.iteye.com/blog/1534712[/url]
[root@inc-platform-dev-145-5 h ...