- 浏览: 551445 次
- 性别:
- 来自: 西安
博客专栏
-
Hive入门
浏览量:44448
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。
在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。
四、Hive的视图和分区
4.1 Hive中的视图
和关系型数据库一样,Hive中也提供了视图的功能,注意Hive中视图的特性,和关系型数据库中的稍有区别:
只有逻辑视图,没有物化视图;
视图只能查询,不能Load/Insert/Update/Delete数据;
视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视 ...
本文基于Spark1.3.1,介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。
我是在一台机器上完成了Spark的部署,其实也是集群,只不过Master和Slave都在一台机器上。如果是多台机器的集群部署,步骤完全一样,只不过多些Slave而已。
一、环境需求
下载并安装scala-2.11.4 配置环境变量: export SCALA_HOME=/usr/local/scala-2.11.4 export PATH=$SCALA_HOME/bin:$PATH
Java 1.7
Hadoop2.3.0-cdh5
下载编译好的Spa ...
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。
三、Hive的安装配置
3.1 环境需求
Hadoop Client
Mysql
3.2 下载并解压Hive0.13.1安装包
下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz
cp apache-hive-0.13.1-bin.tar.gz /usr/local
cd /usr/local
tar –xzvf apache-hive-0.13.1-bin.tar.gz
配 ...
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。
本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。
二、Hive的数据库和表
先看一张草图:
Hive结构
从图上可以看出,Hive作为一个“数据库”,在结构上积极向传统数据库看齐,也分数据库(Schema),每个数据库下面有各自的表组成。
1. Hive在HDFS上的默认存储路径
Hive的数据都 ...
Hive函数大全–完整版
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应 延迟大,尽管 ...
1. Hive是什么
Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。
这是来自官方的解释。
简单来说,Hive就是在Hadoop上架了 ...
DataX介绍
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。
目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出, ...
京东大数据基础架构和实践-王彦明
京东大数据分析与创新应用-邢志峰
京东数据仓库海量数据交换工具-张侃
到这里下载视频及PPT
个人觉得,基础平台架构部分应该介绍一下大数据平台中最重要的中枢–任务调度系统(类似:http://lxw1234.com/archives/2015/04/109.htm)。
Spark视频免费下载
1. Spark部署
http://pan.baidu.com/s/1bnCpUEz
2. Spark编程模型
http://pan.baidu.com/s/1o6Htm3o
3. Spark运行架构
http://pan.baidu.com/s/1pJC72ob
4. Spark SQL原理和实践
http://pan.baidu.com/s/1bn8ShOV
5. Spark Streaming原理和实践
http://pan.baidu.com/s/1sjt63 ...
一般情况下,Redis Client端发出一个请求后,通常会阻塞并等待Redis服务端处理,Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。 感觉这有点类似于HBase的Scan,通常是Client端获取每一条记录都是一次RPC调用服务端。 在Redis中,有没有类似HBase Scanner Caching的东西呢,一次请求,返回多条记录呢? 有,这就是Pipline。官方介绍 http://redis.io/topics/pipelining
通过pipeline方式当有大批量的操作时候,我们可以节省很 ...
文章来自: http://lxw1234.com/?p=221
这两天碰到一个需求,需要将日期yyyy-MM-dd、到秒粒度的时间戳,转换成十六进制(HexString)。
记录一下实现方法。
Java版本:
String day = "2015-05-21";
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
Date d = new Date();
//将2015-05-21转换成时间戳
int unixtimstamp1 = (int) ...
文章来自: http://lxw1234.com/?p=217
软件环境:
flume-ng-core-1.4.0-cdh5.0.0
spark-1.2.0-bin-hadoop2.3
流程说明:
Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来接收数据,并做相应的处理;
Flume agent:source监控本地文件系统的一个目录,当文件发生变化时候,由avro sink发送至Spark Streaming的监听端口
Flume配置:
flume-lxw-conf ...
Apache版本:
Hadoop官网:http://hadoop.apache.org/ Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/ Hadoop文档:http://hadoop.apache.org/docs/
Hive官网:http://hive.apache.org/ Hive下载:http://mirror.bit.edu.cn/apache/hive/ Hive文档:https://cwiki.apache.org/confluence/display/Hive
HBase官网:http://hbase. ...
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。
今天先看几个基础的,SUM、AVG、MIN、MAX。
用于实现分组内所有和连续累积的统计。
Hive版本为 apache-hive-0.13.1
数据准备:
CREATE EXTERNAL TABLE lxw1234 (
cookieid string,
createtime string, --day
pv INT
) ROW FORMAT DELIMITED
FIELDS TERMINATED B ...
今天在sqlserver2012上遇到一个分析需求,用到动态列转行,记录一下:
create table t1 (id int,value varchar(100));
insert into t1 values(1,'a,b,c');
insert into t1 values(2,'a,b,c,d,e');
insert into t1 values(3,'a,b,c,d,e,f,g');
select * from t1;
1 a,b,c
2 a,b,c,d,e
3 a,b,c,d,e,f,g
SELECT a.id,b.[valu ...