最新文章列表

hive常用函数

字符串函数 字符串长度函数:length   语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7       字符串反转函数:reverse   语法: reverse(string A) 返回值: string 说明:返回字符串A ...
blackproof 评论(1) 有99159人浏览 2014-08-24 21:44

hbase结合hive和sqoop实现导数据到mysql

hive整合hbase表的两点好处:    1.实现数据导入到MYSQL。    2.实现hbase表转换为另外一张hbase表。 三个操作环节:     1.hbase关联hive作为外部表: CREATE EXTERNAL TABLE hive_device_app(row_key string,genera_type string,install_type string,label str ...
zhangxiong0301 评论(0) 有1876人浏览 2014-08-21 18:07

Hive中的用户自定义函数UDF

  Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能。Hive中具有多种类型的用户自定义函数。show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的以及用户加载的函数。   函数都有自身的使用文档,使用describe function命令就可以展示对应函数基本介绍。   标准函数UDF 用户自定义函数指的是一行数据中的一列 ...
brandNewUser 评论(0) 有2785人浏览 2014-08-17 16:03

hive中UDF、UDAF和UDTF使用

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。   一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer ...
xiaofengxbf 评论(0) 有2231人浏览 2014-08-10 22:47

Hadoop2.2.0+Hive0.13+Hbase0.96.2集成

本篇,散仙主要讲的是使用Hive如何和Hbase集成,Hbase和Hive的底层存储都在HDFS上,都是hadoop生态系统中的重要一员,所以他们之间有着很亲密的联系,可以相互转换与操作。 hadoop,hbase和hive的搭建就不重复说了,不会的朋友,可以看散仙前面的博客,下面直接进入重点,关于hive集成hbase这一块,网上资料不算多,有的版本比较旧,散仙这里使用的版本是hive0.12 ...
qindongliang1922 评论(0) 有1862人浏览 2014-08-06 20:49

hive常用命令

整理一下,用的时候照着贴就行了。 1.hive数据导出 将select的结果放到本地文件系统中 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a; 将select的结果放到hdfs文件系统中 INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FR ...
lookqlp 评论(0) 有11928人浏览 2014-08-06 10:59

Eclipse+JDBC远程操作Hive0.13

在前几篇的博客里,散仙已经写了如何在Liunx上安装Hive以及如何与Hadoop集成和将Hive的元数据存储到MySQL里,今天散仙就来看下,如何在Eclipse里通过JDBC的方式操作Hive. 我们都知道Hive是一个类SQL的框架,支持HSQL语法操作Hive,而Hive内部,会转成一个个MapReduce作业来完成具体的数据统计,虽然我们可以直接在Hive的shell里,向Hive发起命 ...
qindongliang1922 评论(0) 有2015人浏览 2014-08-04 20:45

Hive使用入门

  Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 建立Hive表 hive中创建表时,默认情况下hi ...
brandNewUser 评论(0) 有1255人浏览 2014-07-30 22:26

Hadoop2.2.0+Hive0.13+MySQL5.1集成安装

本次散仙安装的Hive是Hive最新版本中的稳定版本,是基于Hadoop2.2.0,以前有写过,如何在hadoop1.x下面安装Hive0.8,本次Hive的版本是Hive0.13,可以直接在Hive官网上下载二进制包,无须进行源码编译。Hive需要依赖底层的Hadoop环境,所以在安装Hive前,请确保你的hadoop集群环境已经可以正常工作。 Hive0.13稳定版本的下载地址 http://a ...
qindongliang1922 评论(0) 有2215人浏览 2014-07-29 20:33

表创建语句及参数详解

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [数据库名.]表名 [(列名 数据类型 [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...) ...
苹果草莓 评论(0) 有610人浏览 2014-07-25 17:17

【转载】hive中map和reduce个数控制

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2.    举例: a)    假设input目录下有1个文件a,大 ...
zhangxiong0301 评论(0) 有933人浏览 2014-07-22 21:42

使用java连接hive,并执行hive语句详解

安装hadoop 和 hive我就不多说了,网上太多文章 自己看去 首先,在机器上打开hiveservice   不多说,直接上代码 package asia.wildfire.hive.service; import java.sql.*; import java.sql.Date; import java.text.SimpleDateFormat; import jav ...
501311837 评论(0) 有1650人浏览 2014-07-20 22:24

hive调优

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为780 ...
501311837 评论(0) 有1447人浏览 2014-07-18 18:10

Hive

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 ...
501311837 评论(0) 有1818人浏览 2014-07-18 13:12

hive 基本使用

      hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件转化为一个数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。优点是学习成本较低,可以通过类Sql语句实现简单的MapReduce统计,不必开发专门的MapReduce应用程序,非常适合数据统计分析。     学习和总结如下: hive 基本语法 创建表 hiv ...
dengqsintyt 评论(0) 有1052人浏览 2014-07-10 21:04

hive导入nginx日志

将nginx日志导入到hive中的方法 1 在hive中建表   CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,finishtime STRING,requestline string, returncode INT, size INT,referer string,agent string) R ...
wbj0110 评论(0) 有834人浏览 2014-07-09 11:26

hive的优化2

Hive的优化         Hive针对不同的查询进行优化,其优化过程可以通过配置进行控制。     1.列裁剪(Column Pruning)         在读取数据时,只读 ...
雨一直下 评论(0) 有836人浏览 2014-07-07 14:42

分别使用Hadoop MapReduce、hive统计手机流量

问题导读1.hive实现统计的查询语句是什么?2.生产环境中为什么建议使用外部表?3.hadoop mapreduce创建类DataWritable的作用是什么?4.为什么创建类DataWritable?5.如何实现统计手机流量?
wbj0110 评论(0) 有1331人浏览 2014-06-15 01:09

hive常见问题

在做kettle与hive对接的时候, 启动hiveserver报错 hive --service hiveserver org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000. 要确保没有客户端在连接hive,检查方式: n ...
雨一直下 评论(0) 有1050人浏览 2014-06-13 17:41

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics