数据库大数据统计的设计方案

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 30402 次

锁定老帖子主题：数据库大数据统计的设计方案精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者	正文
akira82 等级: 初级会员性别: 文章: 3 积分: 80 来自: 广州	发表时间：2010-09-03 3亿条不多，我们现在Hadoop+Hive测试的数据量在2亿左右，基本满足要求。
返回顶楼	回帖地址 0 0 请登录后投票

niumd 等级: 性别: 文章: 167 积分: 190 来自: 北京	发表时间：2010-09-03 曾经客户要求做个统计日数据量大约3000W+左右，数据库采用mysql，至今未解决此问题，慢的像蜗牛
返回顶楼	回帖地址 0 0 请登录后投票

zzy9zzy 等级: 初级会员性别: 文章: 34 积分: 60 来自: 324	发表时间：2010-09-03 把统计结果定期放到中间表里就可以了，每次统计只计算增量部分，几亿条记录的表还没有大到下不去手的地步。另外不做数据切分，做表分区也可以提高查询速度
返回顶楼	回帖地址 0 0 请登录后投票

共产主义等级: 初级会员性别: 文章: 4 积分: 30 来自: 杭州	发表时间：2010-09-03 看来我数据库方面真的不行啊
返回顶楼	回帖地址 0 8 请登录后投票

shjy.nicholas 等级: 初级会员性别: 文章: 19 积分: 64 来自: 上海	发表时间：2010-09-03 其实还有一个场景，就是我在处理的时候，是需要增量统计的。比如说，我每天都要统计前3天（包括当天）的数据。每天产生的数据都是1亿。如果采用中间表的处理方式，可以保存前两天的统计数据。不过统计项（一般是根据用户统计）太多。
返回顶楼	回帖地址 0 0 请登录后投票

xiechao240 等级: 初级会员性别: 文章: 12 积分: 30 来自: 湖南	发表时间：2010-09-04 像这些数据一般都不是现计算的，都是事先统计好的
返回顶楼	回帖地址 0 0 请登录后投票

shjy.nicholas 等级: 初级会员性别: 文章: 19 积分: 64 来自: 上海	发表时间：2010-09-05 最后修改：2010-09-05 目前的试想的解决方案：采用MySQL集群，首先采用一张中间表，统计近期（x天）的数据，看看执行效率如何。如果慢，再尝试使用多张中间表，滚动统计（先统计当天），再与前几日的统计结果进行再次统计，看看统计的效果，和执行时间。会第一时间贴出统计的结果和信息。如果感觉还是慢的话，就尝试使用hadoop。
返回顶楼	回帖地址 0 0 请登录后投票

forchenyun 等级: 初级会员性别: 文章: 351 积分: 0 来自: 杭州	发表时间：2010-09-05 shjy.nicholas 写道 forchenyun 写道离线的？如果是，可以试试hadoop 也在考虑hadoop，但没有做过具体的测试。现在正在用MySQL集群来做，想看看效率。看你是杭州的，莫非是taobao系的？呵呵～如果是，我知道你们就在使用hadoop，效率如何？还望指点一二。 hadoop+hive，太具体的不清楚，主要做的是数据分析的活效率的话，你们是离线统计用hadoop是非常合适的亿级别的数据量也无需做太多优化，用hive上手的难度也很低如果数据量增长比较迅速，我非常建议你们尝试一下
返回顶楼	回帖地址 0 0 请登录后投票

yn5411 等级: 初级会员文章: 46 积分: 50 来自: ...	发表时间：2010-09-06 zzy9zzy 写道把统计结果定期放到中间表里就可以了，每次统计只计算增量部分，几亿条记录的表还没有大到下不去手的地步。另外不做数据切分，做表分区也可以提高查询速度 me too
返回顶楼	回帖地址 0 0 请登录后投票

ray_linn 等级: 性别: 文章: 7738 积分: 605 来自: 坚持零分	发表时间：2010-09-06 crazy.j 写道 ray_linn 写道做个月轧就成了，银行要是都这样算，早死机了移动有上百亿条数据的表，一样有数据库可以统计。看你投多少钱了。移动也是需要月轧的。这些公司内部都有日报、周报、月报、年报、目的也就是分时段统计，不然到了年终月结，只有8个小时的时间，哪统计得出来
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 3 4 5 下一页 »

论坛首页 → 综合技术版

跳转论坛: