- 浏览: 13902 次
- 性别:
- 来自: 广州
最新评论
文章列表
参考: http://dev.bizo.com/2013/02/map-side-aggregations-in-apache-hive.html
在MapReduce job下面,有个Combiner,工作机制是将Reducer的工作分担一部分给Map阶段来做。
在Hive的执行计划优化中也是如此,默认情况下会开启Map-side Aggregation优化的功能。
select distinct id from tbl;
select id from tbl group by id;
这2种写法虽然可以得到相同的结果,但是执行计划则有很大的区别。
使用distin ...
最近在做数据下载时发现,excel对打开csv文件默认不是用utf8编码打开的,导致本来文本正常的文件在excel中打开出现乱码。
为解决这个问题,需要了解下UTF8与UTF8 without BOM之间的区别。 可以google下
解决方案为在文件头写入UTF8 without BOM的标识即可。
outputStream.write('\ufeff');
近期在使用
基于Oracle JRockit Mission Control进行java性能分析
1、确保服务器端的jdk版本为R28 或以上,如果低于此版本请升级
下载地址:http://www.oracle.com/technetwork/middleware/jrockit/downloads/index.html
2、在本地安装 R28(含) 以上版本
3、在java启动时,增加以下jvm参数:
<jvm-arg>-Djava.rmi.server.hostname=127.0.0.1</jvm-arg>
<jvm-arg>-Dcom.sun. ...
1、数字产品迟早会变成免费产品
在市场竞争中,价格会下跌到与边际成本持平。互联网是这个世界上最具竞争力的市场,而且它赖以运行的科技边际成本——数据处理、宽带和储存成本——逐年接近零。免费不是其中一个 ...
关于storm 升级 。
- 博客分类:
- 流式计算
关于storm 升级 。
storm 启动 supervisor 报错!
2013-11-26 17:39:20 event [ERROR] Error when processing event
java.lang.RuntimeException: java.io.InvalidClassException: clojure.lang.APersistentMap; local class incompatible: stream classdesc serialVersionUID = 7921415892740123219, local class serialVersionUID ...
eclipse恢复删除的文件
eclipse也有恢复功能,据说可以回复最近7天的文件,可找着家了。哈哈!
这个功能以前竟然不知道,
方法:
在你的工程上,或是任意文件夹上右键→Restore from Local History...
如果一次没有恢复全部,在各级父文件夹上,多试几次。
补充:
在Window→Preferences→General→Workspace→Local History可以设置保留文件的天数和个数
hive-0.11 的坑
1、修改表结果信息后,导入数据正常,但不能正常读取新增加的列。 但新建表是没问题的。
1.1、确认数据在前一个表存在
hive>
select
os,
sre,
sco,
lla
from access_log a
where
dt='2013-09-24'
limit 100;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Num of R tasks determined at compile time: 1
Starting Job = ...
最近有需要使用脚本发送邮件的需求,故整理了下资料,写了个send_mail的脚本。如下:
脚本 mail.pl
#!/usr/bin/perl
use Net::SMTP_auth;
#use strict;
use MIME::Base64;
use Encode;
use Encode qw(from_to);
####################################################
#发送邮件
#使用“cpan Net::SMTP_auth” 安装perl发送邮件需要的模块
#@param mai ...
Bloom Filter概念和原理
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
最近也在构建数据仓库,觉得以下文章不错,转一下!
所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。
例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的 ...
目录
=========================================
1.窗口函数简介
2.窗口函数示例-全统计
3.窗口函数进阶-滚动统计(累积/均值)
4.窗口函数进阶-根据时间范围统计
5.窗口函数进阶-first_value/last_value
6.窗口函数进阶-比较相邻记录
一、窗口函数简介:
到目前为止,我们所学习的分析函数在计算/统计一段时间内的数据时特别有用,但是假如计算/统计需要随着遍历记录集的每一条记录而进行呢?举些例子来说:
①列出每月的订单总额以及全年的订单总额
②列出每月的订单总额以及截至到当前月的订单总额
③列出上个月、当月、下一月的订单总额 ...