- 浏览: 245197 次
- 性别:
- 来自: 杭州
最新评论
-
zxjlwt:
学习了。http://surenpi.com
maven 工程把依赖包打入jar包 -
playboygzy:
String[] tools = StringUtils. ...
多个复选框结果保存与显示 -
一年e度的夏天:
rtyrt
tesseract-ocr图片识别开源工具 -
cldtc:
请问这种情况下python脚本里面怎么打counter呢?通常 ...
hive+python 入门 -
chinesejie:
print '\t'.join([foo, strmap])+ ...
hive+python 入门
文章列表
hive UDAF之cube
- 博客分类:
- hadoop
之前有想实现在hadoop上面自动cube,并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现,最近项目中需要根据配置自动聚合生成数据,目标结果表格式固定,正好满足自动cube的场景,所以就搞了个demo,还在测试中
package com.taobao.voc.hive.udf;
/**
* description :对传入的多个维度的所有组合所对应的度量进行汇总
* @param :dim1,dim2 [... ,dim10] , '度量1,度量2,...度量N '
* @return : 返回一个数组,数组的每一个成员即一条返回记录 ...
svn常用命令
svn add hive_sql/xx.sql
svn delete hive_sql/xx.sql
取消本地操作: Svn revert --depth=infinity .
maven 工程把依赖包打入jar包
- 博客分类:
- 编程工具
将依赖打入jar包,由于maven管理了所有的依赖,所以将项目的代码和依赖打成一个包对它来说是顺理成章的功能。maven的这个功能之前就用过,但这次使用时忘了细节,只记得用maven的assembly插件,但assembly插件功能强大,可以打zip、war各种包,所以一下子找不到如何将依赖打入jar包了。浪费了一点时间,所以一定要记录一下。
在pom.xml中加入如下配置即可,关键是configuration-descriptorRefs-descriptorRef,这个就表示要将依赖打入jar包。
<plugin>
<artifactId>maven-ass ...
钱的债要还的,年终总结走起,谢谢你2013,你好2014
好难,不知从哪说起。2013从变化开始,团队人员变动,工作内容在变,心态在变,方向没变。
心态:
年初有2个一起奋斗的同事,一个回了老家,一个趁年轻出去了,打算闯 ...
逻辑上:
Single column 单行索引
Concatenated 多行索引
Unique 唯一索引
NonUnique 非唯一索引
Function-based函数索引
Domain 域索引
物理上:
Partitioned 分区索引
NonPartitioned 非分区索引
B-tree:
Normal 正常型B树
Rever Key 反转型B树
Bitmap 位图索引
索引结构:
B-tree:
适合与大量的增、删、改(OLTP);
不能用包含OR操作符的查询;
适合高基数的列(唯一值多)
典型的树状结构;
每个结点都是数据块;
大多都是物理 ...
今天登陆同事的一台gateway 开始以为hive环境登陆不了了,仔细一看看了下是因为机器很卡,我每次等几秒没登陆就ctrl+c了,看了下是有个java进程cpu:340.4% mem:14.6%
一般解决方法是通过top命令找出消耗资源高的线程id,利用strace命令查看该线程所有系统调用
1. 通过top命令找到可疑进程PID
top 一下
可以看出java进程CPU利用率一直保持100%,稳居不下,找到PID 24138
2. 找出消耗资源最高的线程
top -H -p 29580 可以不用第一步,直接执行命令 top -H ,就可以查看到消耗资源最高的线程
top - 2 ...
hadoop和hive公司内有rpm包,安装很方便,MySQL安装也不麻烦
hadoop安装
http://wiki.aliyun-inc.com/projects/apsara/wiki/yunti1sqa/users
1、在线安装rpm包,也可下载rpm包本地安装
sudo yum install -y yunti-hadoop
2、修改hosts,jb和namenode地址
机器的/etc/hosts里追加hdpsqann和hdpsqajt的解析。如果没有权限,请联系机器的PE
10.97.180.201 hdpsqann
10.97.180.202 hdpsqajt
3、配 ...
昨天一个同事做数据迁移引起一个故障,原因是2张表字符集一个为gbk,一个为utf8,并且join key为vachar类型,导致不能正确索引,导致数据库超时,修改字符集编码后正常。本地重现了一下:
一、搞测试数据,文章最后又脚本
二 ...
本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个
算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的
其实很多时候不需要理论,想也是可以想到的,不过还是总结一下
0.测试表:
drop table songpo_test;
create table if not exists songpo_test
(
refund_id string,
user_id string, ...
【完全转载】http://tomxu.iteye.com/blog/1289216
代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author: heidanine
# file: checkWapIp.py
# modified: 2011/03/20 01:40
#
###########################################
# 检测外网的Ip,发送到指定邮箱
###########################################
# 初期 ...
1、首先要熟悉sublime api,插件可以用python开发,这个很好,写好代码,保存到默认的目录应该是\SublimeText2\Data\Packages\User下面,
可以按下快捷键Ctrl + ‘ 打开SublimeText的控制台,执行如下命令就可以运行刚刚写的小插件,测试效果 ...
本文介绍hadoop 最简单配置,保证能本地测试自己写的程序,更多配置可参照末尾文章链接。
之前在虚拟机中安装过hadoop hive hbase,电脑重做系统了,本次需要重新安装,虚拟机实在不方便,转cygwin吧,这个东东不错,window上可以用linux的很多东西,本地查看项目的log也很方便,比如 tail -fn 20 xxx.log 可以观察log输出。
一、cygwin安装
安装很简单,和普通软件一样,但是1.7版本有个问题,如下:
cygwin 1.7 这个版本修改了文件所有者的属性,到时本地debug报错,不能执行 bash
解决方案:
1、修改/etc/fstab文件 ...
日常开发中,项目环境还是日常环境经常会发生多人调试同一台机器(开发和日常一般就一台),想知道谁在调试最简单是可以在群里吼一下,也可以把这个人‘抓’出来,思路如下:
1、服务器上看下监听端口有哪些ip在链接,一般不会很多,我设置的监听端口是8787
netstat -apn | grep 8787
2、抓到ip在window局域网 ping -a 显示机器名 就能看到是谁的机器了
同样可以用tracert命令是搜索,就是慢点,会尝试很多次
Tracert 工作原理
通过向目标发送不同 IP 生存时间 (TTL) 值的“Internet 控制消息协议 (ICMP)”回应数据包,Tracert ...
求时间差:
天:
ROUND(TO_NUMBER(END_DATE - START_DATE))
小时:
ROUND(TO_NUMBER(END_DATE - START_DATE) * 24)
分钟:
ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60)
秒:
ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60)
毫秒:
ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60 * 60 * 1000)
前端时间写了一些爬虫程序,经常用chrome看提交的参数什么的,今天周五有点闲,详细看看请求头和响应头都提交了什么参数,顺便温故了下cookies和session来龙去脉,下面是自己收集的各参数的含义:
有的博客说响应头分几个域,什么通用域,请求,响应,Date头域等等……,个人感觉记这些和分类没多大意义,你看见Cache-Control:max-age=0知道什么含义,这才是最根本的,如下:
1、Cache-Control
key:
Cache-Control,表示设置遵循的缓存机制,具体看出现在请求,还是响应中,分别对应请求和响应的设置,我发现好多参数都会出现在不同域的,所以记域的分类没什么 ...