浏览 22532 次
锁定老帖子 主题:mysql海量(G级)数据分析统计方案
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2014-09-19
开发语言为java,数据库为mysql,大部分主要的表使用的是innodb引擎,数据库总大小为13G,最大的表member表大小为2G(有接近1000万条记录),另外有几个表的数据也都达到了几百万记录,甚至有1600多万记录的,不过这些表大小都只有几百MB,最大不超过1G,数据库已经运行了五年多,目前每天的数据增量大小在20MB左右; 需求: 1、查询统计每天每个年龄段的不同性别注册人数(如16-20岁的男会员注册数每天多少,女会员数多少,一共定义了8个年龄段);查询统计每个地区的注册会员数; 2、查询统计每天每小时每个年龄段的注册人数(登录人数、登录次数); 查询统计每天每小时每个种性别的注册人数(登录人数、登录次数); 查询统计每天每小时每个地区的注册人数(登录人数、登录次数); 3、查询统计各种类型游戏的喜好人数(分性别、年龄段、地区统计); 4、以后还会有各种不同的查询统计 问题: 按照目前数据库的状况以及需求,采用什么查询分析方案比较好?要能方便快捷,延时尽可能小,可依不同查询统计条件做出方便快速的扩展,考虑成本关系每天统计一次也是可能。目前在考虑是否有必要上hadoop这样的数据分析平台?有在看hadoop+Impala,据说性能不错,查询很快。但我看很多用到这样的分布式数据分析平台都是TB级甚至PB级以上数据量的,我们这样用的话是否杀鸡用牛刀了? 当然直接用java+sql应该也是写出满足需求功能的查询统计来,只是延时性、扩展性及可重用性恐怕不太好。 在此请教各位看官回复看看有什么更好更合适的解决方案? 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2014-09-22
千万级数据统计而已。
每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。 统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。 |
|
返回顶楼 | |
发表时间:2014-09-22
LinApex 写道 千万级数据统计而已。
每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。 统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。 嗯,目前准备采用的打算也是这种方案,只不过得一个功能一个功能写,不够灵活。若延时性要求秒级甚至毫秒级,以及考虑到日后的可方便扩展性,这样的方案也不好,所以提出hadoop相关大数据的统计计算想法,没实施过hadoop,虽然很火,也怕在这样的情况下发挥不了优点。所以提出来请教一下有经验的各位看官。 |
|
返回顶楼 | |
发表时间:2014-09-23
13G就用hadoop了啊。。。。
建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。 |
|
返回顶楼 | |
发表时间:2014-09-23
wenson 写道 LinApex 写道 千万级数据统计而已。
每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。 统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。 嗯,目前准备采用的打算也是这种方案,只不过得一个功能一个功能写,不够灵活。若延时性要求秒级甚至毫秒级,以及考虑到日后的可方便扩展性,这样的方案也不好,所以提出hadoop相关大数据的统计计算想法,没实施过hadoop,虽然很火,也怕在这样的情况下发挥不了优点。所以提出来请教一下有经验的各位看官。 用索引也可以解决。 维护一份索引,增加一个状态即可。 hadoop 可用于离线统计,不适合实时在线统计。 也可用内存数据库或缓存解决。 |
|
返回顶楼 | |
发表时间:2014-09-24
MrLee23 写道 13G就用hadoop了啊。。。。
建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。 嗯,就是有疑问hadoop在这样的情况下能不能发挥作用,发挥优点,解决问题。怕杀鸡用牛刀,到头来浪费时间和物力人力。 |
|
返回顶楼 | |
发表时间:2014-09-24
LinApex 写道 用索引也可以解决。 维护一份索引,增加一个状态即可。 hadoop 可用于离线统计,不适合实时在线统计。 也可用内存数据库或缓存解决。 不知在内存数据库这块可有什么好介绍?谢谢! |
|
返回顶楼 | |
发表时间:2014-09-25
G 级....都没有我的email数据大...海量个毛。
|
|
返回顶楼 | |
发表时间:2014-09-25
wenson 写道 MrLee23 写道 13G就用hadoop了啊。。。。
建议把mysql的优化性能方面的知识普及一下,建议在表结构和mysql优化上入手。 嗯,就是有疑问hadoop在这样的情况下能不能发挥作用,发挥优点,解决问题。怕杀鸡用牛刀,到头来浪费时间和物力人力。 我单文件就20+GB。。。。13G你就老老实实用mysql吧。 |
|
返回顶楼 | |