1 hive结果用gzip压缩输出
在运行查询命令之前,设置下面参数:
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRITE DIRECTORY 'hive_out' select * from tables limit 10000;
2 应用cloudera 的cdh3进行 hive left outer join,并且两个表都有分区的时候:
方法一:用子查询
方法二:select a.*,b.* from table a left outer join table b on(a.uid=b.uuid and b.dt='2011-08-21') where a.dt='2011-08-21';
3 hive写sql的时候注意数据类型:
当uid是string的时候
select count(distinct uid) from table where dt = '2011-08-28' and type=2 and loginflag='3' and (uid<'23000000' or (uid>'50000000' and uid<'1500000000'))
select count(distinct uid) from newbehavior_table where dt='2011-08-28' and type=2 and (uid<23000000 or (uid<1500000000 and uid>50000000)) and loginflag='3';
两个sql的结果是不一样的。。。。。
4 在hive建立一个存储apache 日志的表
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\])
([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^
\"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
分享到:
相关推荐
蜂巢用于Hive备忘录加密和解密的小型JavaScript模块。 适应了从未合并到。 使用实施,使其与所有JavaScript环境(包括Electron JS应用程序)兼容。为什么创建这个? 我需要一种在Electron应用程序中使用Hive发布密钥...
【Hadoop期末操作备忘录】是一份针对学习和使用Hadoop技术的学生或专业人士的重要参考资料。这份备忘录旨在帮助用户在期末复习阶段系统地回顾和掌握Hadoop的核心概念、关键组件以及实际操作技巧,从而在考试或项目中...
这就注定了这本小册子并不是一本 “全面”、“详尽” 的书籍,它是一个对常用知识点的概括性总结,或者也可以称之为 “备忘录”。它适合于对 Hive 已经有一定了解的人群,亦或是作为面试前的知识回顾手册。 写这本...
包括mybatis、spring、spring-boot、hbase、hive、impala、guava、jdk等 包含的模块 spring-demo mybatis-demo spring-mybatis-jetty springboot-demo opensource-utils spring-demo spring依赖注入相关demo,包括...
任何人都可以设置Web应用程序,用户可以将HIVE / HBD发送到所有者的帐户,他们将获得帐户创建代码/令牌(以加密备忘录的形式发回)。 然后,用户可以使用此代码创建新帐户。 如果用户不使用备注account_creation ,...
这是旧版,这里有新版本: – Hive桌面客户端 :party_popper: 这是和Lead Surfer ,由和广大Hive社区支持者支持的桌面客户端Esteem ... 评论/备忘录加密 夜间模式(深色主题) 钱包转账 图片库 详细的选民信息
当收到以太坊地址作为备忘录的新存款时,应用程序将铸造新的WHIVE令牌并将其发送给用户。 要处理从WHIVE到HIVE的提款,应用会为每个用户生成有效期为7天的存款地址。 这样可以重复使用地址,并减少要监视的地址...
例如,备忘录部分的清单放置在章/ chapter-5 / memoization文件夹中。 这本书是关于什么的? Apache Ignite是使用最广泛的以开源内存为中心的分布式,缓存和处理平台之一。 这使用户可以将该平台用作内存计算框架...
notes目录可能存放了学习笔记或者配置的备忘录;code目录则可能包含了相关的代码示例或脚本。 Hadoop的安装与配置是大数据处理领域的基石之一。对于希望从事大数据相关工作的IT专业人员来说,掌握这一技能是十分...
- Hadoop生态系统:包括HDFS、MapReduce、HBase、Hive等组件及其作用。 - Spark框架:了解Spark Core、Spark SQL、Spark Streaming和MLlib等模块,以及如何使用Spark进行大数据处理和机器学习。 - 数据流处理:...