最新文章列表

利用udf函数将hive统计结果直接插入到mysql

大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。 ...
翻滚吧--少年 评论(0) 有1266人浏览 2014-06-12 15:21

Hive getstarted

https://cwiki.apache.org/confluence/display/Hive/GettingStarted
wbj0110 评论(0) 有774人浏览 2014-06-11 09:05

hive shell脚本生成大量测试数据

背景:接到老大的指示,要为hive生成2000W条测试数据,这可愁死偶了,苦思之后,想到我写文章 hive 快速插入测试数据,可以在此基础上扩展。思路是用shell 脚本生成包含大量数据的data文件,然后导入hive中。 生成 测试数据的shell脚本 data_create.sh rm -rf ./data.txt touch data.txt for((i=0;i<20000 ...
chenchangqun 评论(0) 有5792人浏览 2014-06-06 10:31

Hive如何加载和导入HBase的数据

当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job。 Hive 主要是用来做数据分析的数据仓库 ...
wbj0110 评论(0) 有1171人浏览 2014-06-03 09:52

hive的优化1

一、join优化     Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。     Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个m ...
雨一直下 评论(0) 有760人浏览 2014-05-26 11:31

hive文件压缩存储格式

hive文件存储格式包括以下几类: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.自定义格式     其中TEXTFILE为默认格式,建表时不指定,默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。     SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用 ...
雨一直下 评论(0) 有750人浏览 2014-05-26 11:19

Hadoop-Hive-Hbase-Sqoop相关技术分享

  http://lvwenwen.iteye.com/blog/1781980   大家好!欢迎大家加入:(141570425)吖大哥QQ技术交流群,在这 你可以将你的Hadoop领域的相关经验分享给大家,该群也会为大家免费分享很多关于Hadoop领域的技术文档、视频、资料及在线技术探讨会,期待你的加入!!!   http://yunpan.cn/QipHycMQIwWIS  访问 ...
wang吖 评论(0) 有998人浏览 2014-05-23 08:50

hive 快速插入测试数据

vi  /root/data.txt 1,sss 2,dfdf 3,dfdf 4,changqun data.txt中不要有空行,空行也是一条数据. $ hive 创建一个表 hive>create table test(id int,name string) row format delimited fields terminated by ','; 加载数据 hive>LOAD ...
chenchangqun 评论(0) 有4529人浏览 2014-05-20 17:52

hive 安装 bug汇总

一  Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient 1  hive配置文件的问题    初学者只要使用数据库连接的属性就可以啦 <property> <name>javax.jdo.option.ConnectionURL</name> < ...
chenchangqun 评论(1) 有1268人浏览 2014-05-20 17:49

hive 函数

字符串函数 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse 语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果 举例: hive> select r ...
雨一直下 评论(0) 有696人浏览 2014-05-20 16:47

hive入门知识

一.  Hive 简介   Hive 是基于 hadoop 分布式文件系统的一种数据库,它的数据都是以文件文件形式存在的。   Hive 中的每一条记录对应于文件中的一行,各个字段的值是被指定的分隔符分隔的。在读数据的时候,会将文件行以分隔符分隔字段值,并将各个值按顺序给字段;现有的 hive 的权限基于文件的,如果某个用户对表对应的文件有读的权限,那么用户就对表有读的权限。 当前 hive 运用最 ...
雨一直下 评论(0) 有1099人浏览 2014-05-20 10:19

Hadoop1运行Hive内存溢出Java heap space

1、原文链接:http://www.tuicool.com/articles/iQb6bq   2、配置文件:  
wang吖 评论(0) 有6801人浏览 2014-05-20 09:00

HIve的JavaAPI操作

基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 WebGUI是通过浏览器访问 Hive 本文主要介绍的就是第二种用户接口,直接进入正题。  1、Hive 安装 ...
wang吖 评论(0) 有42267人浏览 2014-05-19 15:50

使用php连接hive

使用php连接hive的条件 1  需要安装thrift  安装步骤 安装依赖库 yum install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-d ...
serisboy 评论(0) 有2432人浏览 2014-05-13 18:02

shell语句执行hive查询

执行hive查询实例 执行select查询      $HIVE_HOME/bin/hive -e 'select a.col from tab1 a' 加入配置变量的查询      $HIVE_HOME/bin/hive -e 'select a.col from tab1 a' -hiveconf hive.exec.scratchdir=/home/my/hive_scratch -hiv ...
雨一直下 评论(0) 有1435人浏览 2014-05-09 15:41

Hive左连接

CREATE EXTERNAL TABLE IF NOT EXISTS a( telno STRING, other STRING ) PARTITIONED BY(day String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; CREATE EXTERNAL TABLE IF NOT EXISTS b( telno STRING, other ...
雨一直下 评论(0) 有862人浏览 2014-05-05 10:32

DatanodeID

DatanodeID public String name;     /// 内容存放 :“hostname:portNumber” 也可以没有端口 ///name 的值配置在这个 hdfs-site.xml的{dfs.datanode.address} public String storageID; /// 存放介质 不同机器存放不同介质。 protected int infoPor ...
zhaomengsen 评论(0) 有397人浏览 2014-05-04 15:32

实时分析系统(HIVE/HBASE/IMPALA)浅析

1. 什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。
jiezhu2007 评论(6) 有8427人浏览 2014-04-27 22:15

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics