`

数据库大数据统计的设计方案

阅读更多

需要对一个大数据量(数量级在亿级别)的表,进行数据统计。

我想到要对数据库表进行水平切分。

为了后面方便描述,我先假设表里有三个字段,一个是用户的ID,一个是交易的金额,一个是交易的时间。

但问题是,比如我的统计要求是:要根据指定用户ID,以及一定交易时间区间(比如当前时间之前1个月内),用户金额的汇总达到一定数额的,我需要获取满足这些条件的用户ID列表。

假设设计水平切分,可以根据用户创建创建先后进行切分(其实针对前面描述的统计要求,根据用户的ID进行切分会更好。但考虑到有些统计项不包括用户ID,所以没有选择根据用户ID进行切分)。

当我们对数据完成切分之后,问题就出在对每个切片进行统计这里,因为我不知道其他的切片里,该用户的金额是多少,所以在对每一个切片进行统计的时候,无法判断是否满足统计条件(金额大于指定的值)。

所以就导致了要对每个切片里所有用户做group,然后再汇总每个切片的统计结果。

 

有没有什么更好的解决思路?

分享到:
评论
21 楼 shjy.nicholas 2010-09-07  
wormwang 写道
可以考虑用Greenplum

上万亿条记录都好处理

在http://gpn.greenplum.com,即可免费注册帐号下载。



Greenplum,只是听说过,没具体用过。
等先用MySQL集群做做看,看看效果如何。
够用就行~
20 楼 wormwang 2010-09-07  
可以考虑用Greenplum

上万亿条记录都好处理

在http://gpn.greenplum.com,即可免费注册帐号下载。

19 楼 ray_linn 2010-09-06  
crazy.j 写道
ray_linn 写道
做个月轧就成了,银行要是都这样算,早死机了

移动有上百亿条数据的表,一样有数据库可以统计。看你投多少钱了。



移动也是需要月轧的。这些公司内部都有日报、周报、月报、年报、目的也就是分时段统计,不然到了年终月结,只有8个小时的时间,哪统计得出来
18 楼 yn5411 2010-09-06  
zzy9zzy 写道
把统计结果定期放到中间表里就可以了,每次统计只计算增量部分,几亿条记录的表还没有大到下不去手的地步。

另外不做数据切分,做表分区也可以提高查询速度


me too
17 楼 forchenyun 2010-09-05  
shjy.nicholas 写道
forchenyun 写道
离线的?如果是,可以试试hadoop

也在考虑hadoop,但没有做过具体的测试。
现在正在用MySQL集群来做,想看看效率。

看你是杭州的,莫非是taobao系的?呵呵~
如果是,我知道你们就在使用hadoop,效率如何?还望指点一二。

hadoop+hive,太具体的不清楚,主要做的是数据分析的活
效率的话,你们是离线统计用hadoop是非常合适的
亿级别的数据量也无需做太多优化,用hive上手的难度也很低
如果数据量增长比较迅速,我非常建议你们尝试一下
16 楼 shjy.nicholas 2010-09-05  
目前的试想的解决方案:
采用MySQL集群,
首先采用一张中间表,统计近期(x天)的数据,看看执行效率如何。
如果慢,再尝试使用多张中间表,滚动统计(先统计当天),再与前几日的统计结果进行再次统计,看看统计的效果,和执行时间。
会第一时间贴出统计的结果和信息。

如果感觉还是慢的话,就尝试使用hadoop。
15 楼 xiechao240 2010-09-04  
像这些数据一般都不是现计算的,都是事先统计好的
14 楼 shjy.nicholas 2010-09-03  
其实还有一个场景,就是我在处理的时候,是需要增量统计的。
比如说,我每天都要统计前3天(包括当天)的数据。
每天产生的数据都是1亿。
如果采用中间表的处理方式,可以保存前两天的统计数据。
不过统计项(一般是根据用户统计)太多。
13 楼 共产主义 2010-09-03  
看来我数据库方面真的不行啊
12 楼 zzy9zzy 2010-09-03  
把统计结果定期放到中间表里就可以了,每次统计只计算增量部分,几亿条记录的表还没有大到下不去手的地步。

另外不做数据切分,做表分区也可以提高查询速度
11 楼 niumd 2010-09-03  
曾经客户要求做个统计日数据量大约3000W+左右,数据库采用mysql,至今未解决此问题,慢的像蜗牛
10 楼 akira82 2010-09-03  
3亿条不多,我们现在Hadoop+Hive测试的数据量在2亿左右,基本满足要求。
9 楼 shjy.nicholas 2010-09-02  
forchenyun 写道
离线的?如果是,可以试试hadoop


另外,数据是离线的。
8 楼 shjy.nicholas 2010-09-02  
forchenyun 写道
离线的?如果是,可以试试hadoop

也在考虑hadoop,但没有做过具体的测试。
现在正在用MySQL集群来做,想看看效率。

看你是杭州的,莫非是taobao系的?呵呵~
如果是,我知道你们就在使用hadoop,效率如何?还望指点一二。
7 楼 forchenyun 2010-09-02  
离线的?如果是,可以试试hadoop
6 楼 shjy.nicholas 2010-09-02  
首先,需要说明的是,我们统计的不是增量的数据,是不包含历史数据的。(如果还要统计历史数据,那就更没折了)
其次,按照目前的数据计算,大概统计需要统计8500万到9000万的数据。
考虑到今后的数据的增多,所以预计需要统计的数据量大概在3亿左右。
中间表也许是一个方案。
看那位大牛可以提出一个更好一点的方案。
非常感谢~
5 楼 jef 2010-09-02  
大表按时间表分区,再加张中间表,每天或每月定时统计一下写入中间表。
4 楼 crazy.j 2010-09-02  
ray_linn 写道
做个月轧就成了,银行要是都这样算,早死机了

移动有上百亿条数据的表,一样有数据库可以统计。看你投多少钱了。
3 楼 ray_linn 2010-09-02  
做个月轧就成了,银行要是都这样算,早死机了
2 楼 fjiis 2010-08-31  
对不起,小孩玩的。

相关推荐

    企业营收大数据统计html页面图表.rar

    "企业营收大数据统计html页面图表"项目,结合了Echarts、HTML和JavaScript技术,为企业的财务数据提供了直观且强大的可视化解决方案。这个项目旨在帮助企业管理者更好地理解和解读复杂的营收数据,通过可视化的方式...

    大数据应用解决方案

    ### 大数据应用解决方案 #### 一、大数据概述 ##### 1.1 概述 随着信息技术的迅猛发展,人类社会进入了数据爆炸的时代。大数据是指无法在可容忍的时间内使用传统数据库工具进行捕捉、管理和处理的数据集合。这些...

    大数据库课程设计任务书(最终版).docx

    答辩或系统演示则考察学生的思路清晰度、设计方案的理解深度以及问题回答的正确性。 时间安排方面,设计工作从第12周开始,报告和系统软件需在指定时间提交。课程设计检查会在第17周的周四进行,内容包括报告和系统...

    大数据平台建设方案设计.pdf

    大数据平台建设方案设计 大数据平台建设方案设计是为了满足政府信息化建设的需求,提高政府决策水平,实现数据化管理和服务能力提升。本方案的核心是大数据平台的建设,旨在整合省社会经济发展资源,提供准确、可靠...

    --智慧企业大数据平台建设方案.doc

    1. **大数据服务工程平台架构**:平台的架构设计是其核心,通常包括数据采集层、数据处理层、数据存储层、数据分析层和应用展示层。数据采集层负责从各种来源获取数据,数据处理层进行清洗、转换和整合,数据存储层...

    大数据可视化产品设计方案.docx

    大数据可视化产品设计方案 大数据可视化产品设计方案是企业决策和解决问题的有力工具,但如何将海量数据转化为易于理解的可视化形式,是大数据应用中一个重要的问题。本设计方案旨在帮助企业更好地利用数据,提高...

    大数据统计展示大屏.zip

    《大数据统计展示大屏》是基于HTML技术实现的大数据可视化前端页面项目,它不依赖于任何后台数据库,完全通过前端处理和展示数据。这个压缩包包含的文件名为“大数据统计展示大屏”,很可能是HTML、CSS和JavaScript...

    大数据平台方案设计.pdf

    大数据平台方案设计 大数据平台方案设计是指对大数据平台的总体设计,包括需求分析、技术架构设计、数据模型设计、系统架构设计等多个方面。下面是对大数据平台方案设计的详细解释。 1. 需求分析 需求分析是...

    094 大数据统计展示大屏_大屏幕展屏(html源码).rar

    【描述】中提到的"094 大数据统计展示大屏_大屏幕展屏(html源码).rar"暗示着这是一个完整的解决方案,包含HTML源文件,可能还涉及CSS样式表和JavaScript脚本,用于创建交互式的大数据展示界面。这种展示通常包括...

    矿级大数据建设解决方案29.9.pdf

    技术规划涵盖了大数据架构的设计,包括数据集成平台(ETL)、安全管控、经营管理大数据平台、驾驶舱、报表展现、统计分析、数据可视化、经营预测和风险预警等功能。这些技术组件共同构建了一个支持矿级决策支持的...

    大数据统计展示大屏(Html模板、大数据模板、大屏echarts模板).zip

    总的来说,大数据统计展示大屏是一个集数据处理、分析、可视化和交互设计于一体的综合性解决方案。通过这个项目,我们可以看到如何结合Html、大数据模板和Echarts,构建出一个强大的数据展示平台,为企业的数据驱动...

    大数据平台概要设计说明书

    - **编写目的**:本文档旨在提供一套全面的大数据平台设计方案,帮助读者理解如何构建一个高效、可靠的大数据分析系统。随着信息技术的发展,尤其是互联网和移动互联网的普及,数据量呈现爆炸性增长。大数据不仅仅是...

    大数据应用解决方案.docx

    大数据解决方案旨在帮助企业或组织利用这些数据,挖掘潜在价值,推动业务创新和决策优化。 1. **大数据概述** - **概述**:大数据不仅仅是数据的量大,更在于其复杂性和价值密度。它包括结构化数据(如数据库中的...

    大数据平台方案设计.docx

    大数据平台方案设计 大数据平台方案设计是指构建一个能够处理和分析大量数据的平台,以满足智慧园区的人口、法人、地理信息和视频数据等需求。该平台需要具备高效的数据处理能力、安全的数据存储能力和灵活的数据...

    统计大数据应用场景设计图例.zip

    本资料“统计大数据应用场景设计图例.zip”聚焦于如何利用统计大数据进行实际应用的设计,通过图例的方式生动展示了大数据技术在不同场景中的运用。 一、数据采集与预处理 在统计大数据的应用中,数据采集是第一步...

    集团企业大数据交换共享平台解决方案

    集团企业大数据交换共享平台解决方案 快速数据交付 新型数据库和国产数据库越来越多,每一个新数据库场景的落地,都有可能需要获取已有业务系统的数据。直接从 Tapdata Real Time DaaS 导入并保持持续同步,满足实时...

    决策大数据平台解决方案.docx

    ### 决策大数据平台解决方案知识点解析 #### 一、前言 - **概述**:决策大数据平台解决方案旨在为企业提供一套全面的数据分析与决策支持工具。它涵盖了数据收集、整合、分析、可视化等多个方面,帮助企业更好地理解...

    微众银行大数据平台建设方案.pdf

    1. **分布式统计需求的满足**:平台需要支持分布式核心系统的报表统计,即使数据分散在多个数据库中,也能快速汇总全量业务数据,提供监管报送、会计日报等服务。 2. **数据存储的标准化**:建立一个全行统一的数据...

    IDC大数据机房运维方案设计.pdf

    IDC(Internet Data Center)大数据...通过以上运维方案设计,IDC大数据机房能够提供高效、安全、可靠的服务,为互联网企业保驾护航。同时,随着技术的发展,持续优化和升级运维策略,以适应不断变化的业务需求和挑战。

    青少年体育健身大数据平台建设方案.pptx

    青少年体育健身大数据平台的建设方案旨在解决当前青少年因生活方式改变所引发的一系列健康问题,如久坐不动导致的活动量减少、心肺耐力下降、身体柔韧性减弱等。这些问题不仅影响青少年的个人健康,还对教育、医疗...

Global site tag (gtag.js) - Google Analytics