`
文章列表
参考: http://dev.bizo.com/2013/02/map-side-aggregations-in-apache-hive.html   在MapReduce job下面,有个Combiner,工作机制是将Reducer的工作分担一部分给Map阶段来做。 在Hive的执行计划优化中也是如此,默认情况下会开启Map-side Aggregation优化的功能。   select distinct id from tbl; select id from tbl group by id; 这2种写法虽然可以得到相同的结果,但是执行计划则有很大的区别。 使用distin ...
最近在做数据下载时发现,excel对打开csv文件默认不是用utf8编码打开的,导致本来文本正常的文件在excel中打开出现乱码。 为解决这个问题,需要了解下UTF8与UTF8 without BOM之间的区别。 可以google下   解决方案为在文件头写入UTF8 without BOM的标识即可。    outputStream.write('\ufeff');  
近期在使用 基于Oracle JRockit Mission Control进行java性能分析 1、确保服务器端的jdk版本为R28 或以上,如果低于此版本请升级 下载地址:http://www.oracle.com/technetwork/middleware/jrockit/downloads/index.html 2、在本地安装 R28(含) 以上版本 3、在java启动时,增加以下jvm参数: <jvm-arg>-Djava.rmi.server.hostname=127.0.0.1</jvm-arg> <jvm-arg>-Dcom.sun. ...
1、数字产品迟早会变成免费产品     在市场竞争中,价格会下跌到与边际成本持平。互联网是这个世界上最具竞争力的市场,而且它赖以运行的科技边际成本——数据处理、宽带和储存成本——逐年接近零。免费不是其中一个 ...
关于storm 升级 。 storm 启动 supervisor 报错! 2013-11-26 17:39:20 event [ERROR] Error when processing event java.lang.RuntimeException: java.io.InvalidClassException: clojure.lang.APersistentMap; local class incompatible: stream classdesc serialVersionUID = 7921415892740123219, local class serialVersionUID ...
eclipse恢复删除的文件 eclipse也有恢复功能,据说可以回复最近7天的文件,可找着家了。哈哈! 这个功能以前竟然不知道, 方法: 在你的工程上,或是任意文件夹上右键→Restore from Local History...   如果一次没有恢复全部,在各级父文件夹上,多试几次。 补充: 在Window→Preferences→General→Workspace→Local History可以设置保留文件的天数和个数
hive-0.11 的坑 1、修改表结果信息后,导入数据正常,但不能正常读取新增加的列。 但新建表是没问题的。 1.1、确认数据在前一个表存在 hive> select os, sre, sco, lla from access_log a where dt='2013-09-24' limit 100; Total MapReduce jobs = 1 Launching Job 1 out of 1 Num of R tasks determined at compile time: 1 Starting Job = ...
   最近有需要使用脚本发送邮件的需求,故整理了下资料,写了个send_mail的脚本。如下:   脚本 mail.pl   #!/usr/bin/perl use Net::SMTP_auth; #use strict; use MIME::Base64; use Encode; use Encode qw(from_to); #################################################### #发送邮件 #使用“cpan Net::SMTP_auth” 安装perl发送邮件需要的模块 #@param mai ...
Bloom Filter概念和原理   Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
        最近也在构建数据仓库,觉得以下文章不错,转一下!         所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。 例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的 ...
目录 ========================================= 1.窗口函数简介 2.窗口函数示例-全统计 3.窗口函数进阶-滚动统计(累积/均值) 4.窗口函数进阶-根据时间范围统计 5.窗口函数进阶-first_value/last_value 6.窗口函数进阶-比较相邻记录 一、窗口函数简介: 到目前为止,我们所学习的分析函数在计算/统计一段时间内的数据时特别有用,但是假如计算/统计需要随着遍历记录集的每一条记录而进行呢?举些例子来说: ①列出每月的订单总额以及全年的订单总额 ②列出每月的订单总额以及截至到当前月的订单总额 ③列出上个月、当月、下一月的订单总额 ...
Global site tag (gtag.js) - Google Analytics