最新文章列表

Hive使用LEFT OUTER JOIN 实现not in 子句

当前HIVE 不支持 not in 中包含查询子句的语法,形如如下的HQ语句是不被支持的: 查询在key字段在a表中,但不在b表中的数据 select a.key from a where key not in(select key from b) 可以通过left outer join进行查询,(假设B表中包含另外的一个字段 key1 select a.key from a left out ...
chiyx 评论(3) 有16938人浏览 2012-05-15 18:55

大概记录一下hive安装步骤

1. rpm安装mysql groupadd mysql useradd -g mysql mysql rpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm  rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm      启动mysql:/etc/init.d/mysql start 添加系统启动:/sb ...
superlxw1234 评论(0) 有6432人浏览 2012-05-14 21:46

hadoop上运行java程序

1,分词统计 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hado ...
hao3721 评论(0) 有1986人浏览 2012-05-14 17:39

小文件合并

文件数目过多,增加namenode的压力,hdfs的压力,同时需要更多map进程,影响处理效率。 可以通过配置如下几个参数,合并Map和Reduce的结果文件,消除这些影响。 控制每个任务合并小文件后的文件大小(默认256000000):hive.merge.size.per.task 告诉hadoop什么样的文件属于小文件(默认16000000):hive.merge.sma ...
hugh.wangp 评论(0) 有3198人浏览 2012-05-03 13:07

提取各大类目下分享量top500的用户的需求总结

历经了一周几乎天天加班的日子,终于把这个提取靠谱数据的复杂规则需求搞定了,现在对做这次需求做一些总结: ①、接到需求时是三周以前,当时 ...
Yinny 评论(1) 有1269人浏览 2012-04-27 14:48

写好Hive 程序的五个提示

原文引自:http://www.tbdata.org/archives/622   使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵 ...
solitary 评论(0) 有860人浏览 2012-04-23 11:25

java 通过jdbc驱动连接hive操作实例

1,hive首先要起动远程服务接口,命令: nohup hive –service hiveserver  &  2,java工程中导入相应的需求jar包,列表如下: antlr-runtime-3.0.1.jar hive-exec-0.7.1.jar hive-jdbc-0.7.1.jar hive-metastore-0.7.1.jar hive-service- ...
hmilyzhangl 评论(0) 有2843人浏览 2012-04-10 20:48

五个最给力的Hadoop项目

  1.Cascading:Cascading是基于Hadoop集群之上的数据处理API。它通过实现了丰富的功能化API,使你不需要接触MapReduce任务就能使用分布式计算能力,其核心概念是基于管道和流的数据处理。 2.Mahout:Mahout是一个基于Hadoop实现各种机器学习与数据挖掘算法库。被用来提供推荐服务。 3.Hive:Hive由Facebook出品,它为Hadoop提供 ...
yaweidai 评论(0) 有1360人浏览 2012-04-10 11:26

hive执行作业时reduce任务个数设置为多少合适?

Hive怎样决定reducer个数? Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率 ,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的 估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定: 1. hive.exec.reducers.bytes.per.reducer(默认为1 ...
黎明lm 评论(0) 有1364人浏览 2012-04-05 18:05

HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板

  自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evaluate函数,evaluate函数支持重载 package com.alibaba.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF public cla ...
hugh.wangp 评论(0) 有5939人浏览 2012-04-01 10:09

Hadoop中提供了balancer的机制,解决我的hive统计group问题

如果是select * from saleslog where `date`='2012-02-29' limit 5;这句是可以吐出五条数据的。 但是如下却出错了。。 hive> select goods_name,count(1) from saleslog where `date`='2012-02-29' group by goods_name; Total MapReduce ...
hao3721 评论(0) 有3732人浏览 2012-03-26 17:16

JDBC 客户端 连接hive

Hive的JDBC连接 博客分类: hive JDBCDerbySQLSQL ServerHadoop 一、环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 二、使用目的 1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适 ...
黎明lm 评论(0) 有1340人浏览 2012-03-26 16:29

HIVE 设置参数

转自 http://www.tbdata.org/archives/716     对于一般的参数,hive有以下的几种设置方式:1》配置文件:2》命令行参数:3》set参数声明:配置文件包括:用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xml默认配置文件:$HIVE_CONF_DIR/hive-default.xml用户自定义配置会覆盖默认配置。另外,hive也会读 ...
ama2000 评论(0) 有2077人浏览 2012-03-13 12:01

HIVE desc formatted ${tableName}

查看表结构的详细信息,如   desc formatted cv4_20120201;  
ama2000 评论(0) 有4234人浏览 2012-03-07 19:32

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics