- 浏览: 551256 次
- 性别:
- 来自: 西安
博客专栏
-
Hive入门
浏览量:44427
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
我的个人博客新地址 http://lxw1234.com
关注大数据Spark、Hadoop、SparkSQL、Hive、HBase等,频繁更新。
以后这里将停止更新。
[一起学Hive]系列文章 目录贴,入门Hive,持续更新中。
[一起学Hive]之一—Hive概述,Hive是什么
[一起学Hive]之二—Hive函数大全-完整版
[一起学Hive]之三—Hive中的数据库(Database)和表(Table)
[一起学Hive]之四-Hive的安装配置
[一起学Hive]之五-Hive的视图和分区
[一起学Hive]之七-向Hive表中加载数据
[一起学Hive]之六-Hive的动态分区
[一起学Hive]之八-使用Hive命令行
[一起学Hive]之九-Hive的查询语句SELECT
[一起学Hive]之十-Hive中 ...
文章来自:http://lxw1234.com/archives/2015/05/207.htm
Hive是支持索引的,但基本没用过,只做了下试验。 为什么大家都不用,肯定有它的弊端。
Hive索引机制:
在指定列上建立索引,会产生一张索引表(Hive的一张物理表 ...
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。
关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。
例如购物篮分析。牛奶 ...
记录一下正在开发的一个任务调度系统,目的是为了解决大数据平台下的任务管理、调度及监控。
定时触发和依赖触发。
系统模块:
JobManager:调度系统的Master,提供RPC服务,接收并处理JobClient/Web提交的所有操 ...
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size; ...
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:
1. 数据量比较大;
2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;
3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,
比如,查看某一个用户在过去某一段时间内,更新过几次等等;
4. 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;
5. 如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;
拉链历史表,既能满足反应数据的历史状态,又可以最大程度的节省存 ...
给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。
ppt见附件。
•
分区裁剪、列裁剪
•
合理利用中间表,避免对一个表重复扫描
•
尽量避免笛卡尔积
•
合理使用
MapJoin
•
用
Join
代替
IN
•
合理使用
Union all
•
合理使用动态分区
具体说明及示例参 见附件文档。
文档目录:
目录
一、关系运算: 4
1. 等值比较: = 4
2. 不等值比较: <> 4
3. 小于比较: < 4
4. 小于等于比较: <= 4
5. 大于比较: > 5
6. 大于等于比较: >= 5
7. 空值判断: IS NULL 5
8. 非空判断: IS NOT NULL 6
9. LIKE比较: LIKE 6
10. JAVA的LIKE操作: RLIKE 6
11. REGEXP操作: REGEXP 7
二、数学运算: 7
1. 加法操作: + 7
...
关键字:Hive数据取样、Hive Sampling、Hive TABLESAMPLE.
在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。
16.1 数据块取样(Block Sampling)
block_sample: TABLESAMPLE (n PERCENT)
根据输入的inputSize,取样n%。
比如:输入大小为1G,TABLESAMPLE (50 PERCENT)将会取样512M的数据;
看例子:
表lxw1总大小约为64816816,总记录数为:2750 ...
关键字:中文分词、IKAnalyzer
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包
IKAnalyzer.cfg.xml — 配置文件,可以在这里配置停词表和扩展词库
stopword.dic — 停词表
lucene-core-3 ...
关键字:Hive WEB接口、Hive HWI
Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询,那么使用Hive WEB页面接口(HWI)应该是比较方便的。
本章就介绍一下Hive WEB页面接口(HWI)的配置和使用。以Hive0.13.1为例。
15.1 配置和启动HWI
配置
HWI的运行需要依赖两个包:hive-hwi-0.13.1.jar和hive ...
关键字:Hive统计信息、分析Hive表、Hive Statistics
类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。
表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;
14.1 新表的统计信息
对于一个新创建的表,默认情况下,如果通过INSERT OVERWRITE的方式插入数据,那么Hive会自动将该表或分区的统计信息更新到元数据。
有一个参数来控制是否自动统计,hive.stats.autogather,默认为true.
...
关键字:Java双向Map、DualHashBidiMap
有个需求,需要根据即时修改Map结构中的Value值,比如,将Map中所有value=V1的记录改成value=V2,key保持不变。
数据量比较大,遍历Map性能太差,这就需要根据Value先找到Key,然后去修改。
即:既要根据Key找Value,又要根据Value找Key。
commons-collections中的DualHashBidiMap实现了双向Map的功能,但悲剧的是,Value必须唯一。
自己简单实现了一个双向Map,支持根据Key和Value查找,核心思想是相当于额 ...
关键字:MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories
一般情况下,传递给MapReduce和Hive的input文件夹中不能包含子目录,否则就会报错。但后来增加了递归 ...