[一起学Hive]之五-Hive的视图和分区

博客分类：

hive

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。四、Hive的视图和分区 4.1 Hive中的视图和关系型数据库一样，Hive中也提供了视图的功能，注意Hive中视图的特性，和关系型数据库中的稍有区别：只有逻辑视图，没有物化视图；视图只能查询，不能Load/Insert/Update/Delete数据；视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视 ...

2015-06-15 11:09
浏览 1917
评论(1)
分类:开源软件

Spark1.3.1安装配置运行

博客分类：

Spark

spark spark安装配置运行

本文基于Spark1.3.1，介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。我是在一台机器上完成了Spark的部署，其实也是集群，只不过Master和Slave都在一台机器上。如果是多台机器的集群部署，步骤完全一样，只不过多些Slave而已。一、环境需求下载并安装scala-2.11.4 配置环境变量： export SCALA_HOME=/usr/local/scala-2.11.4 export PATH=$SCALA_HOME/bin:$PATH Java 1.7 Hadoop2.3.0-cdh5 下载编译好的Spa ...

2015-06-05 15:59
浏览 1459
评论(0)
分类:开源软件

[一起学Hive]之四-Hive的安装配置

博客分类：

hive

hive hive安装配置

其实Hive的安装配置应该放在第二章来介绍，晚了些，希望对Hive初学者有用。三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包下载地址：http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz cp apache-hive-0.13.1-bin.tar.gz /usr/local cd /usr/local tar –xzvf apache-hive-0.13.1-bin.tar.gz 配 ...

2015-06-05 09:19
浏览 2888
评论(1)
分类:开源软件

[一起学Hive]之三—Hive中的数据库(Database)和表(Table)

博客分类：

hive

hive hive数据库和表

在前面的文章中，介绍了可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）。本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图： Hive结构从图上可以看出，Hive作为一个“数据库”，在结构上积极向传统数据库看齐，也分数据库（Schema），每个数据库下面有各自的表组成。 1. Hive在HDFS上的默认存储路径 Hive的数据都 ...

2015-06-03 16:06
浏览 2477
评论(1)
分类:开源软件

[一起学Hive]之二—Hive函数大全-完整版

博客分类：

hive

hive函数

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管� ...

2015-06-03 08:38
浏览 2918
评论(1)
分类:开源软件

[一起学Hive]之一—Hive概述，Hive是什么

博客分类：

hive

hive

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了� ...

2015-06-02 09:14
浏览 2444
评论(1)
分类:开源软件

异构数据源海量数据交换工具-Taobao DataX 下载和使用

博客分类：

java
数据仓库

Datax 海量数据交换

DataX介绍 DataX是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem）之间的数据交换。目前成熟的数据导入导出工具比较多，但是一般都只能用于数据导入或者导出，� ...

2015-05-29 11:59
浏览 2432
评论(0)
分类:开源软件

京东技术开放日-京东大数据平台技术架构与应用视频PPT下载

博客分类：

数据仓库

大数据平台京东大数据

京东大数据基础架构和实践-王彦明京东大数据分析与创新应用-邢志峰京东数据仓库海量数据交换工具-张侃到这里下载视频及PPT 个人觉得，基础平台架构部分应该介绍一下大数据平台中最重要的中枢–任务调度系统（类似：http://lxw1234.com/archives/2015/04/109.htm）。

2015-05-28 08:59
浏览 1767
评论(1)
分类:互联网

Spark视频免费下载

博客分类：

Spark

spark视频下载

Spark视频免费下载 1. Spark部署 http://pan.baidu.com/s/1bnCpUEz 2. Spark编程模型 http://pan.baidu.com/s/1o6Htm3o 3. Spark运行架构 http://pan.baidu.com/s/1pJC72ob 4. Spark SQL原理和实践 http://pan.baidu.com/s/1bn8ShOV 5. Spark Streaming原理和实践 http://pan.baidu.com/s/1sjt63 ...

2015-05-27 08:25
浏览 1435
评论(0)
分类:开源软件

Java使用Pipeline对Redis批量读写（hmset&hgetall）

博客分类：

java
NoSQL

redis pipeline

一般情况下，Redis Client端发出一个请求后，通常会阻塞并等待Redis服务端处理，Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。感觉这有点类似于HBase的Scan，通常是Client端获取每一条记录都是一次RPC调用服务端。在Redis中，有没有类似HBase Scanner Caching的东西呢，一次请求，返回多条记录呢？有，这就是Pipline。官方介绍 http://redis.io/topics/pipelining 通过pipeline方式当有大批量的操作时候，我们可以节省很 ...

2015-05-26 08:46
浏览 10412
评论(0)
分类:编程语言

Java和Shell版十进制和十六进制(Hex)互转

博客分类：

java
linux&shell

hexstring 十六进制

文章来自： http://lxw1234.com/?p=221 这两天碰到一个需求，需要将日期yyyy-MM-dd、到秒粒度的时间戳，转换成十六进制(HexString)。记录一下实现方法。 Java版本： String day = "2015-05-21"; SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd"); Date d = new Date(); //将2015-05-21转换成时间戳 int unixtimstamp1 = (int) ...

2015-05-22 17:31
浏览 2478
评论(0)
分类:编程语言

Spark Streaming+Flume对接实验

博客分类：

Spark

spark streaming flume

文章来自： http://lxw1234.com/?p=217 软件环境： flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3 流程说明： Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件，启动一个avro source，用来接收数据，并做相应的处理； Flume agent：source监控本地文件系统的一个目录，当文件发生变化时候，由avro sink发送至Spark Streaming的监听端口 Flume配置： flume-lxw-conf ...

2015-05-18 15:54
浏览 1776
评论(0)
分类:编程语言

Hadoop生态系统官网、下载地址、文档

博客分类：

hadoop

hadoop

Apache版本： Hadoop官网：http://hadoop.apache.org/ Hadoop下载：http://mirror.bit.edu.cn/apache/hadoop/common/ Hadoop文档：http://hadoop.apache.org/docs/ Hive官网：http://hive.apache.org/ Hive下载：http://mirror.bit.edu.cn/apache/hive/ Hive文档：https://cwiki.apache.org/confluence/display/Hive HBase官网：http://hbase. ...

2015-05-05 17:22
浏览 1898
评论(0)
分类:开源软件

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

博客分类：

hive

hive hive分析函数

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备： CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED B ...

2015-04-24 14:18
浏览 2248
评论(0)
分类:编程语言

sqlserver 动态列转行

博客分类：

数据仓库

sqlserver 列转行 xml

今天在sqlserver2012上遇到一个分析需求，用到动态列转行，记录一下： create table t1 (id int,value varchar(100)); insert into t1 values(1,'a,b,c'); insert into t1 values(2,'a,b,c,d,e'); insert into t1 values(3,'a,b,c,d,e,f,g'); select * from t1; 1 a,b,c 2 a,b,c,d,e 3 a,b,c,d,e,f,g SELECT a.id,b.[valu ...

2014-12-23 15:26
浏览 2105
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

[一起学Hive]之五-Hive的视图和分区

Spark1.3.1安装配置运行

[一起学Hive]之四-Hive的安装配置

[一起学Hive]之三—Hive中的数据库(Database)和表(Table)

[一起学Hive]之二—Hive函数大全-完整版

[一起学Hive]之一—Hive概述，Hive是什么

异构数据源海量数据交换工具-Taobao DataX 下载和使用

京东技术开放日-京东大数据平台技术架构与应用视频PPT下载

Spark视频免费下载

Java使用Pipeline对Redis批量读写（hmset&hgetall）

Java和Shell版十进制和十六进制(Hex)互转

Spark Streaming+Flume对接实验

Hadoop生态系统官网、下载地址、文档

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

sqlserver 动态列转行

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>