`

数据库大数据统计的设计方案

阅读更多

需要对一个大数据量(数量级在亿级别)的表,进行数据统计。

我想到要对数据库表进行水平切分。

为了后面方便描述,我先假设表里有三个字段,一个是用户的ID,一个是交易的金额,一个是交易的时间。

但问题是,比如我的统计要求是:要根据指定用户ID,以及一定交易时间区间(比如当前时间之前1个月内),用户金额的汇总达到一定数额的,我需要获取满足这些条件的用户ID列表。

假设设计水平切分,可以根据用户创建创建先后进行切分(其实针对前面描述的统计要求,根据用户的ID进行切分会更好。但考虑到有些统计项不包括用户ID,所以没有选择根据用户ID进行切分)。

当我们对数据完成切分之后,问题就出在对每个切片进行统计这里,因为我不知道其他的切片里,该用户的金额是多少,所以在对每一个切片进行统计的时候,无法判断是否满足统计条件(金额大于指定的值)。

所以就导致了要对每个切片里所有用户做group,然后再汇总每个切片的统计结果。

 

有没有什么更好的解决思路?

分享到:
评论
41 楼 InnocentBoy 2010-09-28  
拆分表,用存储过程统计!
40 楼 fredzhangjy 2010-09-19  
学习。。作个标记
39 楼 forchenyun 2010-09-18  
wormwang 写道
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。


18w多一个的PC,标配48×250G,2个CPU,金融行业吧?   
不过还是非常钦佩你们单节点可以支持2000亿的数据,期待你更多的经验分享
38 楼 jieyuan_cg 2010-09-17  
刚去查了下,还真有……
http://product.pconline.com.cn/server/sun/334512.html
37 楼 jieyuan_cg 2010-09-17  
wormwang 写道
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。


第一次听说一个pc服务器上有48个硬盘位……佩服。
36 楼 wormwang 2010-09-17  
Sun x4540 有48个内置硬盘位,可配6个磁盘控制器,AMD CPU。
另外,华赛,Dell,HP近年也出了一些有24个内置硬盘位的PC服务器。

35 楼 forchenyun 2010-09-15  
wormwang 写道
InfoBright 是学Greenplum 的数据库并行处理的技术架构的。
20万亿的表那个系统用了近百个PC服务器节点。每台PC服务器配置了48个1TB的SATA硬盘。

Greenplum 数据库还支持按列存储,数据库内压缩,存储过程。它奇快无比。
用了这类分布式数据库,原来Oracle/MySQL的分库,分区,索引很多都不用做了。

能告知你们的“pc服务器”配置吗?
带48T硬盘的PC
34 楼 wormwang 2010-09-15  
InfoBright 是学Greenplum 的数据库并行处理的技术架构的。
20万亿的表那个系统用了近百个PC服务器节点。每台PC服务器配置了48个1TB的SATA硬盘。

Greenplum 数据库还支持按列存储,数据库内压缩,存储过程。它奇快无比。
用了这类分布式数据库,原来Oracle/MySQL的分库,分区,索引很多都不用做了。
33 楼 xds2000 2010-09-12  
楼主的问题,很明显是数据库瓶颈。Mysql是数据库,作分析弱了点。上数据仓库才是正道。
楼主可参考一下infobright.当然"数据仓库"是个概念,并不是一个具体软件就能解决。还需要你来结合实际作一下架构设计。
数据仓库的理论,看这本书可以上手。
http://book.douban.com/subject/1881631/
32 楼 aws 2010-09-09  
ORACLE RAC (4 节点)
– 41s

我们项目都是用这个,不过我们的客户是有钱的主
31 楼 jychenok 2010-09-08  
我们也是用分区的.......而且为了不影响业务速度,都是去物化视图里捞数据.....
30 楼 lkj107 2010-09-07  
数据量大的都是日结、月结、年结的

上亿条可以表分区

可以多表存储,这个存储有技巧的,常用的统计数据放到一个表里
29 楼 forchenyun 2010-09-07  
wormwang 写道
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。

按照一行记录1k来算,20万亿基本就是18626T(保守估计,实际肯定会有30%左右的额外开销),这还不包括为数据可靠性而进行的冗余,100个节点单台机器需要支撑186T(或者说2000亿)的数据,我非常非常好奇你们是如何管理这么庞大的数据的
28 楼 wormwang 2010-09-07  
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。
27 楼 smartinvoke 2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

貌似言过其实了吧
26 楼 forchenyun 2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

20万亿行的数据有多大?单行占多少字节?
按照你的描述单节点支撑10万亿的数据,只能用可怕形容了
请问有公司将其应用于产品的例子吗?
25 楼 wormwang 2010-09-07  
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..
24 楼 forchenyun 2010-09-07  
wormwang 写道
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。


这东西成熟吗?万亿的数据量有相关的测试报告没?
当然如果成熟的话,这的确是一个值得考虑的选择。
23 楼 wormwang 2010-09-07  
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。

22 楼 hu97086 2010-09-07  
离线的话,建议使用Hadoop+HIVE,你的数据也需要整理一下。

相关推荐

    企业营收大数据统计html页面图表.rar

    "企业营收大数据统计html页面图表"项目,结合了Echarts、HTML和JavaScript技术,为企业的财务数据提供了直观且强大的可视化解决方案。这个项目旨在帮助企业管理者更好地理解和解读复杂的营收数据,通过可视化的方式...

    大数据应用解决方案

    ### 大数据应用解决方案 #### 一、大数据概述 ##### 1.1 概述 随着信息技术的迅猛发展,人类社会进入了数据爆炸的时代。大数据是指无法在可容忍的时间内使用传统数据库工具进行捕捉、管理和处理的数据集合。这些...

    大数据库课程设计任务书(最终版).docx

    答辩或系统演示则考察学生的思路清晰度、设计方案的理解深度以及问题回答的正确性。 时间安排方面,设计工作从第12周开始,报告和系统软件需在指定时间提交。课程设计检查会在第17周的周四进行,内容包括报告和系统...

    大数据平台建设方案设计.pdf

    大数据平台建设方案设计 大数据平台建设方案设计是为了满足政府信息化建设的需求,提高政府决策水平,实现数据化管理和服务能力提升。本方案的核心是大数据平台的建设,旨在整合省社会经济发展资源,提供准确、可靠...

    --智慧企业大数据平台建设方案.doc

    1. **大数据服务工程平台架构**:平台的架构设计是其核心,通常包括数据采集层、数据处理层、数据存储层、数据分析层和应用展示层。数据采集层负责从各种来源获取数据,数据处理层进行清洗、转换和整合,数据存储层...

    大数据可视化产品设计方案.docx

    大数据可视化产品设计方案 大数据可视化产品设计方案是企业决策和解决问题的有力工具,但如何将海量数据转化为易于理解的可视化形式,是大数据应用中一个重要的问题。本设计方案旨在帮助企业更好地利用数据,提高...

    大数据统计展示大屏.zip

    《大数据统计展示大屏》是基于HTML技术实现的大数据可视化前端页面项目,它不依赖于任何后台数据库,完全通过前端处理和展示数据。这个压缩包包含的文件名为“大数据统计展示大屏”,很可能是HTML、CSS和JavaScript...

    大数据平台方案设计.pdf

    大数据平台方案设计 大数据平台方案设计是指对大数据平台的总体设计,包括需求分析、技术架构设计、数据模型设计、系统架构设计等多个方面。下面是对大数据平台方案设计的详细解释。 1. 需求分析 需求分析是...

    094 大数据统计展示大屏_大屏幕展屏(html源码).rar

    【描述】中提到的"094 大数据统计展示大屏_大屏幕展屏(html源码).rar"暗示着这是一个完整的解决方案,包含HTML源文件,可能还涉及CSS样式表和JavaScript脚本,用于创建交互式的大数据展示界面。这种展示通常包括...

    矿级大数据建设解决方案29.9.pdf

    技术规划涵盖了大数据架构的设计,包括数据集成平台(ETL)、安全管控、经营管理大数据平台、驾驶舱、报表展现、统计分析、数据可视化、经营预测和风险预警等功能。这些技术组件共同构建了一个支持矿级决策支持的...

    大数据统计展示大屏(Html模板、大数据模板、大屏echarts模板).zip

    总的来说,大数据统计展示大屏是一个集数据处理、分析、可视化和交互设计于一体的综合性解决方案。通过这个项目,我们可以看到如何结合Html、大数据模板和Echarts,构建出一个强大的数据展示平台,为企业的数据驱动...

    大数据平台概要设计说明书

    - **编写目的**:本文档旨在提供一套全面的大数据平台设计方案,帮助读者理解如何构建一个高效、可靠的大数据分析系统。随着信息技术的发展,尤其是互联网和移动互联网的普及,数据量呈现爆炸性增长。大数据不仅仅是...

    大数据应用解决方案.docx

    大数据解决方案旨在帮助企业或组织利用这些数据,挖掘潜在价值,推动业务创新和决策优化。 1. **大数据概述** - **概述**:大数据不仅仅是数据的量大,更在于其复杂性和价值密度。它包括结构化数据(如数据库中的...

    大数据平台方案设计.docx

    大数据平台方案设计 大数据平台方案设计是指构建一个能够处理和分析大量数据的平台,以满足智慧园区的人口、法人、地理信息和视频数据等需求。该平台需要具备高效的数据处理能力、安全的数据存储能力和灵活的数据...

    所有题目源码pat浙大版《Python 程序设计》题目集,附各题型通过率大数据统计

    本资源包中的大数据统计部分提供了每种题型的通过率,这对于学生了解自己的强项和弱点,以及调整学习策略极具价值。通过分析这些统计数据,学生可以有针对性地强化自己在特定题型上的解题能力,提高整体的编程水平。...

    统计大数据应用场景设计图例.zip

    本资料“统计大数据应用场景设计图例.zip”聚焦于如何利用统计大数据进行实际应用的设计,通过图例的方式生动展示了大数据技术在不同场景中的运用。 一、数据采集与预处理 在统计大数据的应用中,数据采集是第一步...

    决策大数据平台解决方案.docx

    ### 决策大数据平台解决方案知识点解析 #### 一、前言 - **概述**:决策大数据平台解决方案旨在为企业提供一套全面的数据分析与决策支持工具。它涵盖了数据收集、整合、分析、可视化等多个方面,帮助企业更好地理解...

    微众银行大数据平台建设方案.pdf

    1. **分布式统计需求的满足**:平台需要支持分布式核心系统的报表统计,即使数据分散在多个数据库中,也能快速汇总全量业务数据,提供监管报送、会计日报等服务。 2. **数据存储的标准化**:建立一个全行统一的数据...

    上海联通大数据平台规划方案建设.rar

    上海联通大数据平台规划方案建设是针对现代通信运营商在数字化转型过程中如何构建高效、灵活且具有扩展性的大数据处理架构的关键步骤。大数据平台不仅是收集、存储、分析海量数据的基础设施,更是推动业务创新、提升...

Global site tag (gtag.js) - Google Analytics