hive Map-side Aggregation OOM 异常

博客分类：

数据仓库

参考： http://dev.bizo.com/2013/02/map-side-aggregations-in-apache-hive.html 在MapReduce job下面，有个Combiner，工作机制是将Reducer的工作分担一部分给Map阶段来做。在Hive的执行计划优化中也是如此，默认情况下会开启Map-side Aggregation优化的功能。 select distinct id from tbl; select id from tbl group by id; 这2种写法虽然可以得到相同的结果，但是执行计划则有很大的区别。使用distin ...

2015-07-02 13:40
浏览 1608
评论(0)
分类:数据库

文件导用UTF-8编码csv格式excel问题

最近在做数据下载时发现，excel对打开csv文件默认不是用utf8编码打开的，导致本来文本正常的文件在excel中打开出现乱码。为解决这个问题，需要了解下UTF8与UTF8 without BOM之间的区别。可以google下解决方案为在文件头写入UTF8 without BOM的标识即可。 outputStream.write('\ufeff');

2014-09-24 13:23
浏览 1581
评论(0)
分类:编程语言

基于Oracle JRockit Mission Control进行java性能分析

博客分类：

java性能分析

java

近期在使用基于Oracle JRockit Mission Control进行java性能分析 1、确保服务器端的jdk版本为R28 或以上，如果低于此版本请升级下载地址：http://www.oracle.com/technetwork/middleware/jrockit/downloads/index.html 2、在本地安装 R28（含）以上版本 3、在java启动时，增加以下jvm参数： <jvm-arg>-Djava.rmi.server.hostname=127.0.0.1</jvm-arg> <jvm-arg>-Dcom.sun. ...

2014-04-01 18:52
浏览 951
评论(0)
分类:Web前端

充裕思维的十大原则摘自《免费》

博客分类：

商业模式

免费商业模式

1、数字产品迟早会变成免费产品在市场竞争中，价格会下跌到与边际成本持平。互联网是这个世界上最具竞争力的市场，而且它赖以运行的科技边际成本——数据处理、宽带和储存成本——逐年接近零。免费不是其中一个� ...

2014-01-12 23:09
浏览 954
评论(0)
分类:互联网

关于storm 升级。

博客分类：

流式计算

关于storm 升级。 storm 启动 supervisor 报错！ 2013-11-26 17:39:20 event [ERROR] Error when processing event java.lang.RuntimeException: java.io.InvalidClassException: clojure.lang.APersistentMap; local class incompatible: stream classdesc serialVersionUID = 7921415892740123219, local class serialVersionUID ...

2013-11-26 19:16
浏览 2093
评论(0)
分类:互联网

eclipse恢复删除的文件

eclipse restore

eclipse恢复删除的文件 eclipse也有恢复功能，据说可以回复最近7天的文件，可找着家了。哈哈！这个功能以前竟然不知道，方法: 在你的工程上，或是任意文件夹上右键→Restore from Local History... 如果一次没有恢复全部，在各级父文件夹上，多试几次。补充：在Window→Preferences→General→Workspace→Local History可以设置保留文件的天数和个数

2013-11-22 17:27
浏览 585
评论(0)
分类:互联网

hive-0.11 的坑

hive-0.11 的坑 1、修改表结果信息后，导入数据正常，但不能正常读取新增加的列。但新建表是没问题的。 1.1、确认数据在前一个表存在 hive> select os, sre, sco, lla from access_log a where dt='2013-09-24' limit 100; Total MapReduce jobs = 1 Launching Job 1 out of 1 Num of R tasks determined at compile time: 1 Starting Job = ...

2013-09-25 19:29
浏览 2817
评论(0)
分类:数据库

使用perl发送邮件

博客分类：

perl
发送邮件

最近有需要使用脚本发送邮件的需求，故整理了下资料，写了个send_mail的脚本。如下：脚本 mail.pl #!/usr/bin/perl use Net::SMTP_auth; #use strict; use MIME::Base64; use Encode; use Encode qw(from_to); #################################################### #发送邮件 #使用“cpan Net::SMTP_auth” 安装perl发送邮件需要的模块 #@param mai ...

2013-08-09 23:08
浏览 637
评论(0)
分类:编程语言

[转]Bloom Filter概念和原理

博客分类：

数据结构
数据仓库

数据仓库数据结构实时去重 Bloom Filter 布隆过滤器

Bloom Filter概念和原理 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

2013-07-28 12:41
浏览 882
评论(0)
分类:互联网

数据仓库建设中的数据建模方法

博客分类：

数据仓库

领域模型数据仓库数据模型商业智能

最近也在构建数据仓库，觉得以下文章不错，转一下！所谓水无定势，兵无常法。不同的行业，有不同行业的特点，因此，从业务角度看，其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR，这两家公司的除了能够提供较为强大的数据仓库平台之外，也有各自的针对某个行业的数据模型。例如，在银行业，IBM 有自己的 BDWM(Banking data warehouse model)，而 NCR 有自己的 FS-LDM 模型。在电信业，IBM 有 TDWM（Telecom Data warehouse model），而 NCR 有自己的 ...

2013-07-14 15:57
浏览 1207
评论(0)
分类:数据库

【转】Oracle开发专题之：窗口函数

博客分类：

窗口函数

oracle sql 数据挖掘

目录 ========================================= 1.窗口函数简介 2.窗口函数示例-全统计 3.窗口函数进阶-滚动统计(累积/均值) 4.窗口函数进阶-根据时间范围统计 5.窗口函数进阶-first_value/last_value 6.窗口函数进阶-比较相邻记录一、窗口函数简介：到目前为止，我们所学习的分析函数在计算/统计一段时间内的数据时特别有用，但是假如计算/统计需要随着遍历记录集的每一条记录而进行呢？举些例子来说： ①列出每月的订单总额以及全年的订单总额 ②列出每月的订单总额以及截至到当前月的订单总额 ③列出上个月、当月、下一月的订单总额 ...

2013-07-11 20:01
浏览 822
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive Map-side Aggregation OOM 异常

文件导用UTF-8编码csv格式excel问题

基于Oracle JRockit Mission Control进行java性能分析

充裕思维的十大原则摘自《免费》

关于storm 升级。

eclipse恢复删除的文件

hive-0.11 的坑

使用perl发送邮件

[转]Bloom Filter概念和原理

数据仓库建设中的数据建模方法

【转】Oracle开发专题之：窗口函数

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>