论坛首页 综合技术论坛

数据库大数据统计的设计方案

浏览 30378 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者 正文
   发表时间:2010-09-03  
3亿条不多,我们现在Hadoop+Hive测试的数据量在2亿左右,基本满足要求。
0 请登录后投票
   发表时间:2010-09-03  
曾经客户要求做个统计日数据量大约3000W+左右,数据库采用mysql,至今未解决此问题,慢的像蜗牛
0 请登录后投票
   发表时间:2010-09-03  
把统计结果定期放到中间表里就可以了,每次统计只计算增量部分,几亿条记录的表还没有大到下不去手的地步。

另外不做数据切分,做表分区也可以提高查询速度
0 请登录后投票
   发表时间:2010-09-03  
看来我数据库方面真的不行啊
0 请登录后投票
   发表时间:2010-09-03  
其实还有一个场景,就是我在处理的时候,是需要增量统计的。
比如说,我每天都要统计前3天(包括当天)的数据。
每天产生的数据都是1亿。
如果采用中间表的处理方式,可以保存前两天的统计数据。
不过统计项(一般是根据用户统计)太多。
0 请登录后投票
   发表时间:2010-09-04  
像这些数据一般都不是现计算的,都是事先统计好的
0 请登录后投票
   发表时间:2010-09-05   最后修改:2010-09-05
目前的试想的解决方案:
采用MySQL集群,
首先采用一张中间表,统计近期(x天)的数据,看看执行效率如何。
如果慢,再尝试使用多张中间表,滚动统计(先统计当天),再与前几日的统计结果进行再次统计,看看统计的效果,和执行时间。
会第一时间贴出统计的结果和信息。

如果感觉还是慢的话,就尝试使用hadoop。
0 请登录后投票
   发表时间:2010-09-05  
shjy.nicholas 写道
forchenyun 写道
离线的?如果是,可以试试hadoop

也在考虑hadoop,但没有做过具体的测试。
现在正在用MySQL集群来做,想看看效率。

看你是杭州的,莫非是taobao系的?呵呵~
如果是,我知道你们就在使用hadoop,效率如何?还望指点一二。

hadoop+hive,太具体的不清楚,主要做的是数据分析的活
效率的话,你们是离线统计用hadoop是非常合适的
亿级别的数据量也无需做太多优化,用hive上手的难度也很低
如果数据量增长比较迅速,我非常建议你们尝试一下
0 请登录后投票
   发表时间:2010-09-06  
zzy9zzy 写道
把统计结果定期放到中间表里就可以了,每次统计只计算增量部分,几亿条记录的表还没有大到下不去手的地步。

另外不做数据切分,做表分区也可以提高查询速度


me too
0 请登录后投票
   发表时间:2010-09-06  
crazy.j 写道
ray_linn 写道
做个月轧就成了,银行要是都这样算,早死机了

移动有上百亿条数据的表,一样有数据库可以统计。看你投多少钱了。



移动也是需要月轧的。这些公司内部都有日报、周报、月报、年报、目的也就是分时段统计,不然到了年终月结,只有8个小时的时间,哪统计得出来
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics