最新文章列表

Hive内置数据类型

一、概述 Hive的内置数据类型可以分为两大类: 基础数据类型 复杂数据类型 二、基本数据类型包括 数据类型 所占字节 开始支持版本 TINYINT 1byte,-128 ~ 127   SMALLINT 2byte,-32,768 ~ 32,767    INT  4byte,-2,147,483,648 ~ 2,147,483,647   ...
eksliang 评论(0) 有1623人浏览 2016-05-18 16:29

【hive学习】

Installing Hive on OSX Lion (10.9) with Brewhive报Unable to instantiate org.apache.hadoop.hivehive启动时报Relative path in absolute URI:${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D解决办法:解决办法:创建iotmp目 ...
ncutlh 评论(0) 有484人浏览 2016-05-13 10:10

开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添加了对solrcloud集群的支持 (2)修复了在反序列时对于hive中null列和空值的处理bug (3)优化了在构建 ...
qindongliang1922 评论(0) 有1983人浏览 2016-05-06 16:15

Spark SQL内置函数应用

简单说明     使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果返回一个Column对象,而DataFrame天生就是“A distributed collection of data organized into named columns”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性,例如说,我们在操作 ...
Kevin12 评论(0) 有8672人浏览 2016-04-22 07:00

Spark SQL操作Hive数据库

本次例子通过scala编程实现Spark SQL操作Hive数据库! Hadoop集群搭建:http://kevin12.iteye.com/blog/2273532 Spark集群搭建:http://kevin12.iteye.com/blog/2273532 数据准备 在/usr/local/sparkApps/SparkSQL2Hive/resources/目录下创建people.txt内容 ...
Kevin12 评论(2) 有17608人浏览 2016-04-13 22:37

hive show databases 出错

hive 进入客户段后,能够创建database,但是进行show databases;时出错: Failed with exception java.io.IOException:java.io.IOException: Cannot create an instance of InputFormat class org.apache.hadoop.mapred.TextInputFormat ...
beat_it_ 评论(0) 有942人浏览 2016-04-12 15:28

hive 启动报错汇总及修复办法

  1.A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.   默认启动情况下metastore_db在hive的bin目录下. cd /var/lib/hive/metastore/metastore_db ch ...
zhaoshengbo 评论(0) 有4704人浏览 2016-04-12 12:43

hive常见优化问题汇总

一、总体思想 http://blog.csdn.net/u011750989/article/details/12024301 1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡。 比如: (1)  启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做  通常来说前面的任务启动可以稍带一起做的事情就一起做 ...
daizj 评论(0) 有6164人浏览 2016-04-11 11:20

hive-数据倾斜解决详解

hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案   1、join的key值发生倾斜,key值包含很多空值或是异常值 这种情况可以对异常值赋一个随机值来分散key 如: select userid,name  from user_info ...
daizj 评论(0) 有8685人浏览 2016-04-11 11:11

Spark SQL on hive配置和实战

spark sql 官网:http://spark.apache.org/docs/latest/sql-programming-guide.html#starting-point-sqlcontext 首先要配置好hive,保存元数据到mysql中,参考:http://kevin12.iteye.com/blog ...
Kevin12 评论(0) 有5581人浏览 2016-03-26 18:40

hive配置详解

hive中有许多配置将帮助我们提升性能,其详细配置如下:   1、hive.auto.convert.join  默认值为true 是否根据输入小表的大小,自动将 Reduce 端的 Common ...
daizj 评论(0) 有1303人浏览 2016-03-18 10:48

hive打开调试信息方法

当用hive查询时,有时可能会报错,当要查看详细的报错信息时,可以打开调试状态, 其设置方法如下:   hive -hiveconf hive.root.logger=DEBUG,console
daizj 评论(0) 有1081人浏览 2016-03-17 17:53

如何使用Hive集成Solr?

(一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一 ...
qindongliang1922 评论(0) 有2855人浏览 2016-03-17 15:05

hive常用命令

1. 删除分区 alter table user_info drop partition(dt='2016-03-15');   show create table app.app_uuid_pin_mapping;
商人shang 评论(0) 有1046人浏览 2016-03-17 14:56

set hive.groupby.skewindata与数据倾斜

hive和其它关系数据库一样,支持count(distinct)操作,但是对于大数据量中,如果出现数据倾斜时,会使得性能非常差,解决办法为设置数据负载均衡,其设置方法为设置hive.groupby.skewindata参数   hive (default)> set hive.groupby.skewindata; hive.groupby.skewindata=false   默 ...
daizj 评论(0) 有12368人浏览 2016-03-16 10:03

Hive分析搜索引擎的数据(搜狗实验室数据)

搜狗实验室:http://www.sogou.com/labs/resources.html 用户查询日志:http://www.sogou.com/labs/dl/q.html 将上面三种数据全部下载下来,解压后拷贝到虚拟机的/usr/local/hive/hivedata目录中; 注意:如果数据乱码的情况下,请先转成utf-8的格式,方便后面的练习; 数据格式为 访问时间\t用户ID ...
Kevin12 评论(0) 有1927人浏览 2016-03-13 12:48

hive shell 导入数据

数据 10046,108100000036-IOS,2.4,appStore,34C11930-796E-4F79-892D-D648052C06BF1457624722526,20160310235139299,20160310,376774,f2aa9902e665afe1feceb9502d7bec0ca5acc6fddfd69d1c7eaf5a51503afd78,iPhone,app ...
knight_black_bob 评论(0) 有1767人浏览 2016-03-11 17:50

hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded

向动态分区时,报错:hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded hive.exec.max.dynamic.partitions.pernode.   其原因是动态分区数太多,需要修改hive.exec.max.dynamic.partitions.pernode参数 查看最 ...
daizj 评论(0) 有1103人浏览 2016-03-10 10:44

Hive使用默认数据库derby报错及解决方法

在使用derby数据库时,遇到了很多错误,报错信息和解决方法如下,记录下来: 一,配置问题 Logging initialized using configuration in jar:file:/usr/local/hive/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties Exception in th ...
Kevin12 评论(0) 有3147人浏览 2016-03-05 21:19

Hive1.2.1安装和使用(基于Hadoop2.6.0)

安装hive,这里使用mysql作为hive的metastore; Ubuntu 15.10虚拟机中安装mysql方法请看:http://kevin12.iteye.com/admin/blogs/2280771 Hadoop2.6.0集群安装:http://kevin12.iteye.com/blog/2273532 1.查看spark 1.6.0版本支持hive的版本从0.12.0~1.2. ...
Kevin12 评论(0) 有8859人浏览 2016-03-05 20:22

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics