论坛首页 综合技术论坛

mysql海量(G级)数据分析统计方案

浏览 22527 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2014-09-19  
先说说目前现状:
开发语言为java,数据库为mysql,大部分主要的表使用的是innodb引擎,数据库总大小为13G,最大的表member表大小为2G(有接近1000万条记录),另外有几个表的数据也都达到了几百万记录,甚至有1600多万记录的,不过这些表大小都只有几百MB,最大不超过1G,数据库已经运行了五年多,目前每天的数据增量大小在20MB左右;

需求:
1、查询统计每天每个年龄段的不同性别注册人数(如16-20岁的男会员注册数每天多少,女会员数多少,一共定义了8个年龄段);查询统计每个地区的注册会员数;
2、查询统计每天每小时每个年龄段的注册人数(登录人数、登录次数);
查询统计每天每小时每个种性别的注册人数(登录人数、登录次数);
查询统计每天每小时每个地区的注册人数(登录人数、登录次数);
3、查询统计各种类型游戏的喜好人数(分性别、年龄段、地区统计);
4、以后还会有各种不同的查询统计

问题:
按照目前数据库的状况以及需求,采用什么查询分析方案比较好?要能方便快捷,延时尽可能小,可依不同查询统计条件做出方便快速的扩展,考虑成本关系每天统计一次也是可能。目前在考虑是否有必要上hadoop这样的数据分析平台?有在看hadoop+Impala,据说性能不错,查询很快。但我看很多用到这样的分布式数据分析平台都是TB级甚至PB级以上数据量的,我们这样用的话是否杀鸡用牛刀了?
当然直接用java+sql应该也是写出满足需求功能的查询统计来,只是延时性、扩展性及可重用性恐怕不太好。
在此请教各位看官回复看看有什么更好更合适的解决方案?
   发表时间:2014-09-22  
千万级数据统计而已。

每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。

统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。
0 请登录后投票
   发表时间:2014-09-22  
LinApex 写道
千万级数据统计而已。

每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。

统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。

嗯,目前准备采用的打算也是这种方案,只不过得一个功能一个功能写,不够灵活。若延时性要求秒级甚至毫秒级,以及考虑到日后的可方便扩展性,这样的方案也不好,所以提出hadoop相关大数据的统计计算想法,没实施过hadoop,虽然很火,也怕在这样的情况下发挥不了优点。所以提出来请教一下有经验的各位看官。
0 请登录后投票
   发表时间:2014-09-23  
13G就用hadoop了啊。。。。

建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。
0 请登录后投票
   发表时间:2014-09-23  
wenson 写道
LinApex 写道
千万级数据统计而已。

每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。

统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。

嗯,目前准备采用的打算也是这种方案,只不过得一个功能一个功能写,不够灵活。若延时性要求秒级甚至毫秒级,以及考虑到日后的可方便扩展性,这样的方案也不好,所以提出hadoop相关大数据的统计计算想法,没实施过hadoop,虽然很火,也怕在这样的情况下发挥不了优点。所以提出来请教一下有经验的各位看官。


用索引也可以解决。 维护一份索引,增加一个状态即可。

hadoop 可用于离线统计,不适合实时在线统计。

也可用内存数据库或缓存解决。
0 请登录后投票
   发表时间:2014-09-24  
MrLee23 写道
13G就用hadoop了啊。。。。

建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。

嗯,就是有疑问hadoop在这样的情况下能不能发挥作用,发挥优点,解决问题。怕杀鸡用牛刀,到头来浪费时间和物力人力。
0 请登录后投票
   发表时间:2014-09-24  
LinApex 写道


用索引也可以解决。 维护一份索引,增加一个状态即可。

hadoop 可用于离线统计,不适合实时在线统计。

也可用内存数据库或缓存解决。

不知在内存数据库这块可有什么好介绍?谢谢!
0 请登录后投票
   发表时间:2014-09-25  
G 级....都没有我的email数据大...海量个毛。
0 请登录后投票
   发表时间:2014-09-25  
wenson 写道
MrLee23 写道
13G就用hadoop了啊。。。。

建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。

嗯,就是有疑问hadoop在这样的情况下能不能发挥作用,发挥优点,解决问题。怕杀鸡用牛刀,到头来浪费时间和物力人力。

我单文件就20+GB。。。。13G你就老老实实用mysql吧。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics