hbase在海量用户日志中快速查询访问路径的使用场景

博客分类：

hbase

1.背景：之前公司客服部门有个查看游戏用户行为记录的需求，开始我给他们做了个hive的接口，可以暂时满足需求，但是查询速度太慢，得一分钟出结果。后来我在想能不能用hbase快速查询出用户路径。查询条件有通行证账号、行为类型、时间范围。 2.设计方案：用hbase的scan接口，hbase的key设计成通行证账号_行为类型_时间用如下方式查询：scan 'hbase_gameCenter_log',{COLUMNS =>['oneline:guid','oneline:report'],LIMIT =>10, STARTROW => 'u52fa532aae9dc_log ...

2015-04-23 16:08
浏览 2534
评论(0)
分类:企业架构

从任意hive单表读取并计算数据写入任意mysql单表的hive工具

博客分类：

hive
hadoop
数据仓库

hive工具

在基于hive的数据仓库中，每个维度有很多概念分层的场景下，维度和度量的上线和下线在mysql中配置显的很重要。这个hive工具适用于任意多维度，任意多度量值计算。使用方法很简单。用附件中的三个mysql表来配置，然后执行shell程序，从而实现任意hive表向任意mysql表计算并写数据。欢迎试用拍砖。

2014-08-18 18:56
浏览 850
评论(0)
分类:开源软件

spark使用总结

博客分类：

spark

1. RDD：Resilient Distributed Dataset 弹性分布数据集 http://developer.51cto.com/art/201309/410276_1.htm 2.spark-shell 的使用 ./spark-shell --driver-library-path :/usr/local/hadoop-1.1.2/lib/native/Linux-i386-32:/usr/local/hadoop-1.1.2/lib/native/Linux-amd64-64:/usr/local/hadoop-1.1.2/lib/hadoop-lzo-0.4.17-SNAP ...

2014-07-07 15:11
浏览 781
评论(0)
分类:企业架构

新建hadoop及hive账户

博客分类：

hadoop

1.创建hadoop组的用户 useradd -d /home/chaobo -m chaobo -g hadoop hadoop fs -mkdir /download/hadoop/tmp/hadoop/mapred/staging/chaobo hadoop fs -chown -R chaobo:hadoop /download/hadoop/tmp/hadoop/mapred/staging/chaobo hadoop fs -mkdir /tmp/hive-chaobo hadoop fs -chown -R chaobo:hadoop /tmp/hive-chaobo hado ...

2014-05-10 12:12
浏览 1216
评论(0)
分类:互联网

hadoop集群安装、配置、维护文档

博客分类：

hadoop

压缩包里是我的操作记录，有的地方可能需要根据实际情况微调。

2014-05-07 10:50
浏览 658
评论(0)
分类:开源软件

hive中查看表分区目录位置的方法

博客分类：

hive

1.用hive语句 describe extended f_gameCenter_user_login_out_day partition(dt = '2014-03-19'); 2.用hive元数据库mysql查询 select a.LOCATION from SDS a left join PARTITIONS b on (a.SD_ID=b.SD_ID) left join TBLS c on (b.TBL_ID=c.TBL_ID) where c.TBL_NAME='f_gamecenter_user_login_out_day' and b.PART_NAME='dt=2014-0 ...

2014-03-21 17:02
浏览 4091
评论(0)
分类:开源软件

linux shell常用命令总结

博客分类：

linux

linux shell

1.uname -a 查看服务器位数 2.ifconfig linux 查看ip windows下是ipconfig 3.ps -aux 中STAT的含义 D 不可中断 Uninterruptible（usually IO） R 正在运行，或在队列中的进程 S 处于休眠状态 T 停止或被追踪 Z 僵尸进程 W 进入内存交换（从内核2.6开始无效） X 死掉的进程 S+说明程序在后台运行，位于后台的进程组 4.shell wget php fopen 5. sar -u 2 10 -- 即每隔2秒检察一次，共执行20次。 du -h --max-dept ...

2014-01-07 11:02
浏览 1539
评论(0)
分类:操作系统

hive使用总结

博客分类：

hive

hive hadoop

1.hive 数据类型 http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.html 2.substr('abc',0,2) = ab mysql 是从1开始的 select * from online_server where substr(count_time,1,10)='2011-12-11' and (server_name='iphone_onlines' or server_name='symbian_onlines' or server_name='gtalk_onlines' or server_name= ...

2014-01-06 15:00
浏览 7177
评论(0)
分类:开源软件

hadoop mapreduce 中java用gson类库解析json

博客分类：

java第三方库

mapreduce hadoop java json

废话不说，代码如下： import java.io.IOException; import java.lang.reflect.Type; import java.util.Iterator; /*import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;*/ import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io ...

2013-10-28 14:47
浏览 1791
评论(0)
分类:互联网

python或hive根据ip计算地域分布的算法

博客分类：

算法

ip 地域分布算法

1.使用场景 (1.适用于大数据量的ip地域分布场景。 (2.python程序和ip库见附件。 (3.稍作改动，可用于hive中。 2.使用方法： python findarea.py --dealListFile=test_ip_dealListFile_20130930.txt --resultWriteFile=test_ip_resultWriteFile_20130930.txt -n 0 --ipSlipListFileInt=ip.txt 3.使用说明： (1.这个程序可以计算ip所属的国家、（中国的支持）省份、（中国的）电信商，处理完会加到原来文件行的末尾。 (2.程序有四个 ...

2013-10-08 11:03
浏览 2687
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase在海量用户日志中快速查询访问路径的使用场景

从任意hive单表读取并计算数据写入任意mysql单表的hive工具

spark使用总结

新建hadoop及hive账户

hadoop集群安装、配置、维护文档

hive中查看表分区目录位置的方法

linux shell常用命令总结

hive使用总结

hadoop mapreduce 中java用gson类库解析json

python或hive根据ip计算地域分布的算法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>