hive UDAF之cube

博客分类：

hadoop

之前有想实现在hadoop上面自动cube，并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现，最近项目中需要根据配置自动聚合生成数据，目标结果表格式固定，正好满足自动cube的场景，所以就搞了个demo，还在测试中 package com.taobao.voc.hive.udf; /** 　　* description ：对传入的多个维度的所有组合所对应的度量进行汇总　　* @param ：dim1,dim2 [... ,dim10] , '度量1,度量2,...度量N ' 　　* @return : 返回一个数组，数组的每一个成员即一条返回记录 ...

2014-04-10 20:51
浏览 1541
评论(0)
分类:开源软件

svn

博客分类：

编程工具

svn

svn常用命令 svn add hive_sql/xx.sql svn delete hive_sql/xx.sql 取消本地操作： Svn revert --depth=infinity .

2014-03-07 17:28
浏览 947
评论(0)
分类:开源软件

maven 工程把依赖包打入jar包

博客分类：

编程工具

将依赖打入jar包，由于maven管理了所有的依赖，所以将项目的代码和依赖打成一个包对它来说是顺理成章的功能。maven的这个功能之前就用过，但这次使用时忘了细节，只记得用maven的assembly插件，但assembly插件功能强大，可以打zip、war各种包，所以一下子找不到如何将依赖打入jar包了。浪费了一点时间，所以一定要记录一下。在pom.xml中加入如下配置即可，关键是configuration-descriptorRefs-descriptorRef，这个就表示要将依赖打入jar包。 <plugin> <artifactId>maven-ass ...

2014-02-17 19:39
浏览 20064
评论(1)
分类:编程语言

谢谢你2013

博客分类：

技术不全最重要的

钱的债要还的，年终总结走起，谢谢你2013，你好2014 好难，不知从哪说起。2013从变化开始，团队人员变动，工作内容在变，心态在变，方向没变。心态：年初有2个一起奋斗的同事，一个回了老家，一个趁年轻出去了，打算闯� ...

2014-01-12 19:11
浏览 866
评论(0)
分类:非技术

oracle 索引类型- 不同角度分类

博客分类：

数据库

Oracle

逻辑上： Single column 单行索引 Concatenated 多行索引 Unique 唯一索引 NonUnique 非唯一索引 Function-based函数索引 Domain 域索引物理上： Partitioned 分区索引 NonPartitioned 非分区索引 B-tree： Normal 正常型B树 Rever Key 反转型B树 Bitmap 位图索引索引结构： B-tree：适合与大量的增、删、改（OLTP）；不能用包含OR操作符的查询；适合高基数的列（唯一值多）典型的树状结构；每个结点都是数据块；大多都是物理 ...

2014-01-08 09:53
浏览 1336
评论(0)
分类:数据库

Linux下java进程CPU占用率高-分析方法

java linux

今天登陆同事的一台gateway 开始以为hive环境登陆不了了，仔细一看看了下是因为机器很卡，我每次等几秒没登陆就ctrl+c了，看了下是有个java进程cpu:340.4% mem:14.6% 一般解决方法是通过top命令找出消耗资源高的线程id，利用strace命令查看该线程所有系统调用 1. 通过top命令找到可疑进程PID top 一下可以看出java进程CPU利用率一直保持100%，稳居不下，找到PID 24138 2. 找出消耗资源最高的线程 top -H -p 29580 可以不用第一步，直接执行命令 top -H ，就可以查看到消耗资源最高的线程 top - 2 ...

2014-01-04 20:11
浏览 14962
评论(1)
分类:互联网

hadoop+hive+mysql 环境搭建

hadoop mysql

hadoop和hive公司内有rpm包，安装很方便，MySQL安装也不麻烦 hadoop安装 http://wiki.aliyun-inc.com/projects/apsara/wiki/yunti1sqa/users 1、在线安装rpm包，也可下载rpm包本地安装 sudo yum install -y yunti-hadoop 2、修改hosts，jb和namenode地址机器的/etc/hosts里追加hdpsqann和hdpsqajt的解析。如果没有权限，请联系机器的PE 10.97.180.201 hdpsqann 10.97.180.202 hdpsqajt 3、配 ...

2013-12-31 13:21
浏览 1216
评论(0)
分类:开源软件

mysql 2个表字符集不同join时不能正确走索引

博客分类：

数据库

sql mysql 索引

昨天一个同事做数据迁移引起一个故障，原因是2张表字符集一个为gbk，一个为utf8，并且join key为vachar类型，导致不能正确索引，导致数据库超时，修改字符集编码后正常。本地重现了一下：一、搞测试数据，文章最后又脚本二 ...

2013-12-05 13:59
浏览 4993
评论(0)
分类:数据库

hive 抽样统计

博客分类：

hadoop

sql 算法 Hadoop

本文转自http://www.taobaotesting.com/blogs/2468，原文分层抽样的逻辑不是很清楚，按照自己的想法重新实现个算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式，记得抽样的概念还是初中数据接触的其实很多时候不需要理论，想也是可以想到的，不过还是总结一下 0.测试表： drop table songpo_test; create table if not exists songpo_test ( refund_id string, user_id string, ...

2013-11-29 19:38
浏览 13785
评论(0)
分类:开源软件

python 检测本机公网IP，变化时邮件通知

博客分类：

很杂的

python 脚本

【完全转载】http://tomxu.iteye.com/blog/1289216 代码如下： #!/usr/bin/env python # -*- coding: utf-8 -*- # author: heidanine # file: checkWapIp.py # modified: 2011/03/20 01:40 # ########################################### # 检测外网的Ip，发送到指定邮箱 ########################################### # 初期 ...

2013-05-20 16:18
浏览 3342
评论(0)
分类:编程语言

sublime 插件开发-自动生成代码头

博客分类：

编程工具

python

1、首先要熟悉sublime api，插件可以用python开发，这个很好，写好代码，保存到默认的目录应该是\SublimeText2\Data\Packages\User下面，可以按下快捷键Ctrl + ‘ 打开SublimeText的控制台，执行如下命令就可以运行刚刚写的小插件,测试效果� ...

2013-05-20 16:15
浏览 10454
评论(0)
分类:开源软件

重新安装hadoop

博客分类：

hadoop

hadoop

本文介绍hadoop 最简单配置，保证能本地测试自己写的程序，更多配置可参照末尾文章链接。之前在虚拟机中安装过hadoop hive hbase，电脑重做系统了，本次需要重新安装，虚拟机实在不方便，转cygwin吧，这个东东不错，window上可以用linux的很多东西，本地查看项目的log也很方便，比如 tail -fn 20 xxx.log 可以观察log输出。一、cygwin安装安装很简单，和普通软件一样，但是1.7版本有个问题，如下： cygwin 1.7 这个版本修改了文件所有者的属性，到时本地debug报错，不能执行 bash 解决方案： 1、修改/etc/fstab文件 ...

2013-05-20 15:27
浏览 1475
评论(0)
分类:数据库

多人调试同一台服务器，追踪ip

博客分类：

很杂的
编程工具

日常开发中，项目环境还是日常环境经常会发生多人调试同一台机器（开发和日常一般就一台），想知道谁在调试最简单是可以在群里吼一下，也可以把这个人‘抓’出来，思路如下： 1、服务器上看下监听端口有哪些ip在链接，一般不会很多，我设置的监听端口是8787 netstat -apn | grep 8787 2、抓到ip在window局域网 ping -a 显示机器名就能看到是谁的机器了同样可以用tracert命令是搜索，就是慢点，会尝试很多次 Tracert 工作原理　　通过向目标发送不同 IP 生存时间 (TTL) 值的“Internet 控制消息协议 (ICMP)”回应数据包，Tracert ...

2013-05-17 16:26
浏览 1226
评论(0)
分类:编程语言

oracle 常用函数

博客分类：

数据库

oracle

求时间差：天： ROUND(TO_NUMBER(END_DATE - START_DATE)) 小时： ROUND(TO_NUMBER(END_DATE - START_DATE) * 24) 分钟： ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60) 秒： ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60) 毫秒： ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60 * 1000)

2013-05-14 09:55
浏览 937
评论(0)
分类:数据库

Http 响应头

chrome 浏览器 cache

前端时间写了一些爬虫程序，经常用chrome看提交的参数什么的，今天周五有点闲，详细看看请求头和响应头都提交了什么参数，顺便温故了下cookies和session来龙去脉，下面是自己收集的各参数的含义：有的博客说响应头分几个域，什么通用域，请求，响应，Date头域等等……，个人感觉记这些和分类没多大意义，你看见Cache-Control：max-age=0知道什么含义，这才是最根本的，如下： 1、Cache-Control key: Cache-Control，表示设置遵循的缓存机制，具体看出现在请求，还是响应中，分别对应请求和响应的设置，我发现好多参数都会出现在不同域的，所以记域的分类没什么 ...

2013-04-12 16:00
浏览 2838
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive UDAF之cube

svn

maven 工程把依赖包打入jar包

谢谢你2013

oracle 索引类型- 不同角度分类

Linux下java进程CPU占用率高-分析方法

hadoop+hive+mysql 环境搭建

mysql 2个表字符集不同join时不能正确走索引

hive 抽样统计

python 检测本机公网IP，变化时邮件通知

sublime 插件开发-自动生成代码头

重新安装hadoop

多人调试同一台服务器，追踪ip

oracle 常用函数

Http 响应头

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>