[置顶] 我的博客搬家至 ----- lxw1234.com

博客分类：

其他

我的个人博客新地址 http://lxw1234.com 关注大数据Spark、Hadoop、SparkSQL、Hive、HBase等，频繁更新。以后这里将停止更新。

2015-08-11 08:12
浏览 1367
评论(0)
分类:非技术

[置顶] 一起学Hive系列文章

博客分类：

hive

[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive]之七-向Hive表中加载数据 [一起学Hive]之六-Hive的动态分区 [一起学Hive]之八-使用Hive命令行 [一起学Hive]之九-Hive的查询语句SELECT [一起学Hive]之十-Hive中 ...

2015-07-14 15:47
浏览 1571
评论(0)
分类:开源软件

[置顶] Hive索引原理机制与使用

博客分类：

hive

hive hive index hive 索引

文章来自：http://lxw1234.com/archives/2015/05/207.htm Hive是支持索引的，但基本没用过，只做了下试验。为什么大家都不用，肯定有它的弊端。 Hive索引机制：在指定列上建立索引，会产生一张索引表（Hive的一张物理表� ...

2015-05-08 08:55
浏览 5142
评论(0)
分类:编程语言

[置顶] 【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析

博客分类：

数据仓库

数据挖掘关联规则 SQL

关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ...

2015-04-21 15:59
浏览 3358
评论(0)
分类:编程语言

[置顶] 大数据平台任务调度监控系统

博客分类：

java
hadoop

任务调度大数据平台

记录一下正在开发的一个任务调度系统，目的是为了解决大数据平台下的任务管理、调度及监控。定时触发和依赖触发。系统模块: JobManager：调度系统的Master，提供RPC服务，接收并处理JobClient/Web提交的所有操� ...

2014-10-24 16:35
浏览 10623
评论(3)
分类:编程语言

[置顶] hive优化之------控制hive任务中的map数和reduce数

博客分类：

hive

hive hive优化

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size; ...

2012-07-09 14:02
浏览 21836
评论(5)
分类:互联网

[置顶] 数据仓库数据模型之：极限存储--历史拉链表

博客分类：

hive
数据仓库

数据仓库数据模型极限存储拉链历史表

在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有1000万的会员，每天新增和发生变化的有10万左右; 5. 如果对这边表每天都保留一份全量，那么每次全量中会保存很多不变的信息，对存储是极大的浪费; 拉链历史表，既能满足反应数据的历史状态，又可以最大程度的节省存 ...

2012-06-25 11:55
浏览 7118
评论(5)
分类:互联网

[置顶] 开发高效的hive程序，hive优化

博客分类：

hadoop
数据仓库
hive

hive优化 hive开发

给部门做的一次hive开发优化的分享，经验不足，还请大家多多指教。 ppt见附件。 • 分区裁剪、列裁剪 • 合理利用中间表，避免对一个表重复扫描 • 尽量避免笛卡尔积 • 合理使用 MapJoin • 用 Join 代替 IN • 合理使用 Union all • 合理使用动态分区

2012-06-20 10:04
浏览 3745
评论(0)
分类:互联网

[置顶] hive函数大全及使用示例

博客分类：

hadoop

hadoop hive函数

具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5 8. 非空判断: IS NOT NULL 6 9. LIKE比较: LIKE 6 10. JAVA的LIKE操作: RLIKE 6 11. REGEXP操作: REGEXP 7 二、数学运算： 7 1. 加法操作: + 7 ...

2012-04-27 22:13
浏览 9208
评论(0)
分类:互联网

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

博客分类：

hive

hive 一起学hive

关键字：Hive数据取样、Hive Sampling、Hive TABLESAMPLE. 在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样（Block Sampling） block_sample: TABLESAMPLE (n PERCENT) 根据输入的inputSize，取样n%。比如：输入大小为1G，TABLESAMPLE (50 PERCENT)将会取样512M的数据；看例子：表lxw1总大小约为64816816，总记录数为：2750 ...

2015-08-06 08:27
浏览 5350
评论(1)
分类:开源软件

JAVA开源中文分词工具-IKAnalyzer下载及使用

博客分类：

java

java分词中文分词

关键字：中文分词、IKAnalyzer 最近有个需求，需要对爬到的网页内容进行分词，以前没做过这个，随便找了找中文分词工具，貌似IKAnalyzer评价不错，因此就下来试试，在这里记录一下使用方法，备查。关于IKAnalyzer的介绍，网上很多，搜一下就知道了。下载地址见文章最后面。下载解压之后主要使用和依赖以下文件： IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包 IKAnalyzer.cfg.xml — 配置文件，可以在这里配置停词表和扩展词库 stopword.dic — 停词表 lucene-core-3 ...

2015-07-22 08:57
浏览 3309
评论(0)
分类:编程语言

[一起学Hive]之十六-Hive的WEB页面接口-HWI

博客分类：

hive

hive hive hwi

关键字：Hive WEB接口、Hive HWI Hive提供给用户的交互接口一般有三种：Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface（HWI）。对于开发者来说，最常用的是Hive命令行。如果是将Hive开放给数据分析或数据运营人员做即席查询，那么使用Hive WEB页面接口(HWI)应该是比较方便的。本章就介绍一下Hive WEB页面接口(HWI)的配置和使用。以Hive0.13.1为例。 15.1 配置和启动HWI 配置 HWI的运行需要依赖两个包：hive-hwi-0.13.1.jar和hive ...

2015-07-20 10:02
浏览 2068
评论(1)
分类:开源软件

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

博客分类：

hive

hive hive分析表 hive统计信息 hive Statistics

关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建的表，默认情况下，如果通过INSERT OVERWRITE的方式插入数据，那么Hive会自动将该表或分区的统计信息更新到元数据。有一个参数来控制是否自动统计，hive.stats.autogather，默认为true. ...

2015-07-15 08:51
浏览 2948
评论(1)
分类:开源软件

Java实现的简单双向Map，支持重复Value

博客分类：

java

java 双向map

关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value找Key。 commons-collections中的DualHashBidiMap实现了双向Map的功能，但悲剧的是，Value必须唯一。自己简单实现了一个双向Map,支持根据Key和Value查找，核心思想是相当于额 ...

2015-07-14 14:58
浏览 4220
评论(4)
分类:编程语言

MapReduce和Hive支持递归子目录作为输入

博客分类：

hive
hadoop

mapreduce hive 递归遍历子目录

关键字：MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories 一般情况下，传递给MapReduce和Hive的input文件夹中不能包含子目录，否则就会报错。但后来增加了递归 ...

2015-07-08 14:41
浏览 3271
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

[置顶] 我的博客搬家至 ----- lxw1234.com

[置顶] 一起学Hive系列文章

[置顶] Hive索引原理机制与使用

[置顶] 【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析

[置顶] 大数据平台任务调度监控系统

[置顶] hive优化之------控制hive任务中的map数和reduce数

[置顶] 数据仓库数据模型之：极限存储--历史拉链表

[置顶] 开发高效的hive程序，hive优化

[置顶] hive函数大全及使用示例

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

JAVA开源中文分词工具-IKAnalyzer下载及使用

[一起学Hive]之十六-Hive的WEB页面接口-HWI

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

Java实现的简单双向Map，支持重复Value

MapReduce和Hive支持递归子目录作为输入

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>