- 浏览: 23767 次
- 性别:
- 来自: 北京
最新评论
文章列表
1.背景:之前公司客服部门有个查看游戏用户行为记录的需求,开始我给他们做了个hive的接口,可以暂时满足需求,但是查询速度太慢,得一分钟出结果。
后来我在想能不能用hbase快速查询出用户路径。
查询条件有通行证账号、行为类型、时间范围。
2.设计方案:用hbase的scan接口,hbase的key设计成 通行证账号_行为类型_时间
用如下方式查询:scan 'hbase_gameCenter_log',{COLUMNS =>['oneline:guid','oneline:report'],LIMIT =>10, STARTROW => 'u52fa532aae9dc_log ...
在基于hive的数据仓库中,每个维度有很多概念分层的场景下,维度和度量的上线和下线在mysql中配置显的很重要。
这个hive工具适用于任意多维度,任意多度量值计算。
使用方法很简单。
用附件中的三个mysql表来配置,然后执行shell程序,从而实现任意hive表向任意mysql表计算并写数据。
欢迎试用拍砖。
1.
RDD:Resilient Distributed Dataset 弹性分布数据集
http://developer.51cto.com/art/201309/410276_1.htm
2.spark-shell 的使用
./spark-shell --driver-library-path :/usr/local/hadoop-1.1.2/lib/native/Linux-i386-32:/usr/local/hadoop-1.1.2/lib/native/Linux-amd64-64:/usr/local/hadoop-1.1.2/lib/hadoop-lzo-0.4.17-SNAP ...
新建hadoop及hive账户
- 博客分类:
- hadoop
1.创建hadoop组的用户
useradd -d /home/chaobo -m chaobo -g hadoop
hadoop fs -mkdir /download/hadoop/tmp/hadoop/mapred/staging/chaobo
hadoop fs -chown -R chaobo:hadoop /download/hadoop/tmp/hadoop/mapred/staging/chaobo
hadoop fs -mkdir /tmp/hive-chaobo
hadoop fs -chown -R chaobo:hadoop /tmp/hive-chaobo
hado ...
hive中查看表分区目录位置的方法
- 博客分类:
- hive
1.用hive语句
describe extended f_gameCenter_user_login_out_day partition(dt = '2014-03-19');
2.用hive元数据库mysql查询
select
a.LOCATION
from SDS a
left join PARTITIONS b
on (a.SD_ID=b.SD_ID)
left join TBLS c
on (b.TBL_ID=c.TBL_ID)
where c.TBL_NAME='f_gamecenter_user_login_out_day'
and b.PART_NAME='dt=2014-0 ...
1.uname -a 查看服务器位数
2.ifconfig linux 查看ip windows下 是ipconfig
3.ps -aux 中STAT的含义
D 不可中断 Uninterruptible(usually IO)
R 正在运行,或在队列中的进程
S 处于休眠状态
T 停止或被追踪
Z 僵尸进程
W 进入内存交换(从内核2.6开始无效)
X 死掉的进程
S+说明程序在后台运行,位于后台的进程组
4.shell wget php fopen
5.
sar -u 2 10 -- 即每隔2秒检察一次,共执行20次。
du -h --max-dept ...
1.hive 数据类型
http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html
2.substr('abc',0,2) = ab
mysql 是从1开始的 select * from online_server where substr(count_time,1,10)='2011-12-11'
and
(server_name='iphone_onlines' or server_name='symbian_onlines' or server_name='gtalk_onlines' or server_name= ...
废话不说,代码如下:
import java.io.IOException;
import java.lang.reflect.Type;
import java.util.Iterator;
/*import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;*/
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io ...
1.使用场景
(1.适用于大数据量的ip地域分布场景。
(2.python程序和ip库见附件。
(3.稍作改动,可用于hive中。
2.使用方法:
python findarea.py --dealListFile=test_ip_dealListFile_20130930.txt --resultWriteFile=test_ip_resultWriteFile_20130930.txt -n 0 --ipSlipListFileInt=ip.txt
3.使用说明:
(1.这个程序可以计算ip所属的国家、(中国的支持)省份、(中国的)电信商,处理完会加到原来文件行的末尾。
(2.程序有四个 ...