先说说目前现状:
开发语言为java,数据库为mysql,大部分主要的表使用的是innodb引擎,数据库总大小为13G,最大的表member表大小为2G(有接近1000万条记录),另外有几个表的数据也都达到了几百万记录,甚至有1600多万记录的,不过这些表大小都只有几百MB,最大不超过1G,数据库已经运行了五年多,目前每天的数据增量大小在20MB左右;
需求:
1、查询统计每天每个年龄段的不同性别注册人数(如16-20岁的男会员注册数每天多少,女会员数多少,一共定义了8个年龄段);查询统计每个地区的注册会员数;
2、查询统计每天每小时每个年龄段的注册人数(登录人数、登录次数);
查询统计每天每小时每个种性别的注册人数(登录人数、登录次数);
查询统计每天每小时每个地区的注册人数(登录人数、登录次数);
3、查询统计各种类型游戏的喜好人数(分性别、年龄段、地区统计);
4、以后还会有各种不同的查询统计
问题:
按照目前数据库的状况以及需求,采用什么查询分析方案比较好?要能方便快捷,延时尽可能小,可依不同查询统计条件做出方便快速的扩展,考虑成本关系每天统计一次也是可能。目前在考虑是否有必要上hadoop这样的数据分析平台?有在看hadoop+Impala,据说性能不错,查询很快。但我看很多用到这样的分布式数据分析平台都是TB级甚至PB级以上数据量的,我们这样用的话是否杀鸡用牛刀了?
当然直接用java+sql应该也是写出满足需求功能的查询统计来,只是延时性、扩展性及可重用性恐怕不太好。
在此请教各位看官回复看看有什么更好更合适的解决方案?
分享到:
相关推荐
MySQL是世界上最受欢迎的开源关系型数据库之一,尤其在处理海量数据时,其性能优化显得尤为重要。本资料"海量数据性能优化.rar"主要聚焦于如何在大数据环境下提升MySQL的运行效率和响应速度,确保系统的稳定性和可...
方案一:优化现有mysql数据库。优点:不影响现有业务,源程序不需要修改代码,成本最低。缺点:有优化瓶颈,数据量过亿就玩完了。 方案二:升级数据库类型,换一种100%兼容mysql的数据库。优点:不影响现有业务,源...
标题提到的“海量数据的MySQL数据集”是一个专门针对大规模数据处理的资源,它包含10亿条数据,这意味着它是一个用于测试、学习或分析大数据场景的理想工具。 首先,让我们深入了解一下MySQL。MySQL支持SQL(结构化...
本文将详细讲解如何统计MySQL数据库的数据量大小,并涉及CONCAT函数的解读,以及对information_schema和performance_schema库的查询方法。 首先,我们需要理解数据量统计的基本概念。数据量通常指的是数据库中所有...
mysql快速导入百万级千万级数据 mysql快速导入百万级千万级数据 mysql快速导入百万级千万级数据 mysql快速导入百万级千万级数据 mysql快速导入百万级千万级数据 mysql快速导入百万级千万级数据
MySQL海量数据存储与优化 MySQL是一种关系型数据库管理系统,广泛应用于各个行业,包括互联网、金融、电信等领域。随着数据量的增长,MySQL的性能优化变得越来越重要。本文将详细介绍MySQL的架构原理、存储机制、...
统计分析、电子商务、MySQL 和 Python 数据分析是四个关键概念,它们紧密相连,共同构建了强大的商业智能系统。本文将深入探讨这些知识点,帮助你理解和掌握如何利用它们提升电子商务业务的效率和效果。 首先,统计...
【标题】:MySQL海量数据存储与解决方案——分布式DB方案 【描述】:本方案探讨了在应对大规模互联网应用中遇到的数据库负载问题,主要关注的是MySQL的分布式数据库解决方案,包括数据切分、集群、负载均衡等技术,...
基于 MySql 的海量日志分析系统设计 本系统设计旨在解决海量日志数据的分析需求,通过对日志数据的实时处理和分析,提供可靠的数据支持给决策者。系统架构基于功能模块可以分为多个节点,包括采集节点、运算节点、...
### MySQL海量数据处理技巧与策略 #### 一、引言 在大数据时代,数据库系统面临着前所未有的挑战。MySQL作为一款广泛使用的开源关系型数据库管理系统,其在处理海量数据时的表现尤为关键。本篇文章将深入探讨如何...
标题中的“2020年省市区街道4级MySQL数据.7z”表明这是一个包含中国四级行政区域(省、市、区、街道)的数据库文件集合,格式为MySQL,且已压缩成7z格式,方便下载和存储。7z是一种高压缩率的文件格式,能有效地减少...
标题 "省市区街道4级MySQL数据.rar" 指向的是一个包含中国行政区域划分的数据库资源,特别针对省、市、区、街道这四级行政单位。这些数据通常用于地理信息系统(GIS)、电子商务、物流配送、本地化服务等各种需要...
对于一个大型的互 联网应用,每天几十亿的PV无疑对数据库造成了相当...通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题;通过读写分离策略更是最大限度了提高了应用中读取 (Read)数据的速度和并发量。
省市县乡村 五级数据,国家统计局18年最新数据,mysql,数据全,且有子父级关联!共有5张表,有建表语句。
这些数据在前端应用中可以用于创建下拉菜单或地图定位功能,后端则用于处理基于地理位置的过滤、排序和统计分析。 9. **数据安全与隐私**: 在使用这类数据时,需要注意遵守数据安全和隐私法规,尤其是在处理个人...
关系型数据库+Mysql+查询用户连续登陆天数+数据统计 关系型数据库+Mysql+查询用户连续登陆天数+数据统计 关系型数据库+Mysql+查询用户连续登陆天数+数据统计 关系型数据库+Mysql+查询用户连续登陆天数+数据统计 关系...
本文将围绕“mysql百万级测试数据下载 300W条”这个主题,深入探讨如何处理和利用这样的大数据量进行测试。 首先,`test.sql`文件是一个MySQL数据库的SQL脚本文件,通常包含创建表结构、插入数据等操作。在这个场景...
【MySQL海量数据存储与访问解决方案】 随着互联网的快速发展,数据量呈现爆炸式增长,如何有效存储和访问这些海量数据成为系统设计的关键挑战。对于大型互联网应用,如每天处理数十亿的页面浏览量(PV),数据库的...
mysql最新三级省市区数据表
【MySQL海量数据存储和访问解决方案】随着互联网的快速发展,数据量呈爆炸式增长,传统的单台数据库服务器已无法满足大规模应用的需求。此时,数据切分成为解决存储和访问瓶颈的关键技术。数据切分,即Sharding,是...