精华帖 (5) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-02-24
呃 bi是不是干这个的呀
|
|
返回顶楼 | |
发表时间:2009-02-24
yinjh 写道 其实,这么大的数据量时,概率论已经可以充分发挥作用了,
你只需要做抽样的统计就可以了 比如只统计1/10甚至1/100的记录 每条记录有一个字段,在生成记录是是1-10000随机数,并在上面做索引 对这个字段用where ,就可以抽样统计了 然后把抽样统计结果放大相应的倍数 思路挺有意思,不过大概不实用,这类报表一般都要求非常非常精确,像税务清算报表就是差一分就要比对出来。 |
|
返回顶楼 | |
发表时间:2009-02-24
tedeyang 写道 yinjh 写道 其实,这么大的数据量时,概率论已经可以充分发挥作用了,
你只需要做抽样的统计就可以了 比如只统计1/10甚至1/100的记录 每条记录有一个字段,在生成记录是是1-10000随机数,并在上面做索引 对这个字段用where ,就可以抽样统计了 然后把抽样统计结果放大相应的倍数 思路挺有意思,不过大概不实用,这类报表一般都要求非常非常精确,像税务清算报表就是差一分就要比对出来。 奇怪,银行的系统 在一定的误差范围是允许的。 |
|
返回顶楼 | |
发表时间:2009-02-24
用hadoop吧,好像......测试来着已经排名第一了
|
|
返回顶楼 | |
发表时间:2009-02-24
清算或者决算当然就不能抽样了,
不过,作为即席的辅助决策用途,抽样是个很好的策略 甚至可以根据速度和精度要求,做几个不同的抽样等级100%,10%,1%,0.1% 晚上可以做最准确的,白天做最快速度的 |
|
返回顶楼 | |
发表时间:2009-02-24
15G/天。。。用户手工输入数据能输入15G/天?他们在上传高清视频吗?虽然说高清视频肯定不止15G/天。
我觉得应该先从业务逻辑入手吧,有些问题从业务逻辑入手更容易,不见得一定要跨过业务从纯技术角度解决,楼主一定做的是上亿元的大项目吧,15G/天啊,我们1千万的项目备份一次数据库的dmp文件还不到10G。。。 |
|
返回顶楼 | |
发表时间:2009-02-24
数据库里面装的是沙子吗?
一天能装15G? 这硬盘需要准备多少T的啊? |
|
返回顶楼 | |
发表时间:2009-02-25
yinjh 写道 清算或者决算当然就不能抽样了,
不过,作为即席的辅助决策用途,抽样是个很好的策略 甚至可以根据速度和精度要求,做几个不同的抽样等级100%,10%,1%,0.1% 晚上可以做最准确的,白天做最快速度的 创造性的思路,其实很有实用价值! |
|
返回顶楼 | |
发表时间:2009-02-25
如果数据最终只是用来统计查询,不会去修改,就dw吧
|
|
返回顶楼 | |
发表时间:2009-02-25
关注 ing...
改天再看. |
|
返回顶楼 | |