数据埋点日志awk脚本快速入库

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 2107 次

锁定老帖子主题：数据埋点日志awk脚本快速入库精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
cfyme 等级: 初级会员性别: 文章: 3 积分: 50 来自: 杭州	发表时间：2015-04-14 相关推荐: 话单数据仓库搭建（1）- 数仓概念及数据采集大数据-案例-离线数仓-电商：【MySQL(业务)-ETL(Kettle)】+【前端JS埋点-＞日志-＞Flume-＞HDFS-＞ETL(SparkRDD)】-＞Hive数仓-＞MySQL-＞可视化网站点击流数据分析项目数据分析大数据面试题大杂烩02 网站点击流数据分析更多相关推荐工作上有这样一个需求：服务端每天产生的埋点日志比较多>200万行,凌晨2点将这个日志的数据入库到数据库，便有BI分析。最初我的思路是：写一个shell脚本，将入库的逻辑放入shell脚本中，再将这个shell脚本放入到linux服务器crontab任务中。说起来简单，但在编写的过程中遇到了问题，主要是日志量大，入库的速度很慢，最初的实现是 cat statlog.log \| while read line 这种遍历日志，按行读取来入库，速度超慢。经优化，采用awk的方式来做： 1,代码如下： BEGIN{ FS="," user="test" passwd="test" host="192.168.0.9" print "==============start==================" sqlInsert="INSERT INTO log.logs_mobile_stat (p1, p2, p3, p4, p5, type, cookie, user_id, time, platform) VALUES" sql=sqlInsert idx=0 conMysql="mysql -h" host " -u" user " -p'" passwd "' log -e " "date +%Y-%m-%d\ %H:%M:%S" \| getline time;print time; } { idx=idx+1 #每1000条记录拼接长一条sql if(idx==1000){ sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"');" sql=sql sqlValues str=conMysql "\"" sql "\" " system(str) idx=0 sql=sqlInsert }else{ sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"')," sql=sql sqlValues } } END{ #去掉最后的分号 sql= substr(sql, 0, length(sql)) str=conMysql "\"" sql "\" " #执行最后不足1000条记录的sql if(idx>0 && idx<1000){ system(str) print"=============end============idx====="idx } "date +%Y--%m-%d\ %H:%M:%S" \| getline time2;print time2 print"=============end=================" } 2,将上面的代码保存为stat.awk文件，写个调度stat.awk文件的shell，文件名为executeStat.sh #!/bin/sh date=`date -d -1day +%Y-%m-%d`; log=/home/www/logs/taofen8/api/statlog.log.$date sudo awk -f /tmp/stat.awk $log 3,将executeStat.sh加入到crontab定时任务中，每天凌晨2点执行 0 2 * * * sudo /tmp/executeStat.sh > /tmp/stat.log 经线上测试，200万左右的日志入库2分钟左右，速度还可以吧。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: