论坛首页 Java企业应用论坛

讨论:大数据量的报表统计,性能作为第一考虑采取何种方案好

浏览 43185 次
精华帖 (5) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-02-24  
呃 bi是不是干这个的呀
0 请登录后投票
   发表时间:2009-02-24  
yinjh 写道
其实,这么大的数据量时,概率论已经可以充分发挥作用了,
你只需要做抽样的统计就可以了
比如只统计1/10甚至1/100的记录
每条记录有一个字段,在生成记录是是1-10000随机数,并在上面做索引
对这个字段用where ,就可以抽样统计了
然后把抽样统计结果放大相应的倍数

思路挺有意思,不过大概不实用,这类报表一般都要求非常非常精确,像税务清算报表就是差一分就要比对出来。
0 请登录后投票
   发表时间:2009-02-24  
tedeyang 写道
yinjh 写道
其实,这么大的数据量时,概率论已经可以充分发挥作用了,
你只需要做抽样的统计就可以了
比如只统计1/10甚至1/100的记录
每条记录有一个字段,在生成记录是是1-10000随机数,并在上面做索引
对这个字段用where ,就可以抽样统计了
然后把抽样统计结果放大相应的倍数

思路挺有意思,不过大概不实用,这类报表一般都要求非常非常精确,像税务清算报表就是差一分就要比对出来。

奇怪,银行的系统 在一定的误差范围是允许的。
0 请登录后投票
   发表时间:2009-02-24  
用hadoop吧,好像......测试来着已经排名第一了
0 请登录后投票
   发表时间:2009-02-24  
清算或者决算当然就不能抽样了,
不过,作为即席的辅助决策用途,抽样是个很好的策略
甚至可以根据速度和精度要求,做几个不同的抽样等级100%,10%,1%,0.1%
晚上可以做最准确的,白天做最快速度的
0 请登录后投票
   发表时间:2009-02-24  
15G/天。。。用户手工输入数据能输入15G/天?他们在上传高清视频吗?虽然说高清视频肯定不止15G/天。
我觉得应该先从业务逻辑入手吧,有些问题从业务逻辑入手更容易,不见得一定要跨过业务从纯技术角度解决,楼主一定做的是上亿元的大项目吧,15G/天啊,我们1千万的项目备份一次数据库的dmp文件还不到10G。。。
0 请登录后投票
   发表时间:2009-02-24  
数据库里面装的是沙子吗?

一天能装15G?

这硬盘需要准备多少T的啊?
0 请登录后投票
   发表时间:2009-02-25  
yinjh 写道
清算或者决算当然就不能抽样了,
不过,作为即席的辅助决策用途,抽样是个很好的策略
甚至可以根据速度和精度要求,做几个不同的抽样等级100%,10%,1%,0.1%
晚上可以做最准确的,白天做最快速度的

创造性的思路,其实很有实用价值!
0 请登录后投票
   发表时间:2009-02-25  
如果数据最终只是用来统计查询,不会去修改,就dw吧
0 请登录后投票
   发表时间:2009-02-25  
关注   ing...
改天再看.
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics