锁定老帖子 主题:数据库大数据统计的设计方案
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
|
|
---|---|
作者 | 正文 |
发表时间:2010-09-07
可以考虑用Greenplum
上万亿条记录都好处理 在http://gpn.greenplum.com,即可免费注册帐号下载。 |
|
返回顶楼 | |
发表时间:2010-09-07
wormwang 写道 可以考虑用Greenplum
上万亿条记录都好处理 在http://gpn.greenplum.com,即可免费注册帐号下载。 Greenplum,只是听说过,没具体用过。 等先用MySQL集群做做看,看看效果如何。 够用就行~ |
|
返回顶楼 | |
发表时间:2010-09-07
离线的话,建议使用Hadoop+HIVE,你的数据也需要整理一下。
|
|
返回顶楼 | |
发表时间:2010-09-07
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。 Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。 |
|
返回顶楼 | |
发表时间:2010-09-07
wormwang 写道 MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。 Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。 这东西成熟吗?万亿的数据量有相关的测试报告没? 当然如果成熟的话,这的确是一个值得考虑的选择。 |
|
返回顶楼 | |
发表时间:2010-09-07
• Hadoop+Hive (ASC 15节点)
– 3m30s • ORACLE RAC (4 节点) – 41s • GREENPLUM(2 节点) – 6012.852 ms 某处大数据量测试结果。 实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-).. |
|
返回顶楼 | |
发表时间:2010-09-07
wormwang 写道 • Hadoop+Hive (ASC 15节点)
– 3m30s • ORACLE RAC (4 节点) – 41s • GREENPLUM(2 节点) – 6012.852 ms 某处大数据量测试结果。 实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-).. 20万亿行的数据有多大?单行占多少字节? 按照你的描述单节点支撑10万亿的数据,只能用可怕形容了 请问有公司将其应用于产品的例子吗? |
|
返回顶楼 | |
发表时间:2010-09-07
wormwang 写道 • Hadoop+Hive (ASC 15节点)
– 3m30s • ORACLE RAC (4 节点) – 41s • GREENPLUM(2 节点) – 6012.852 ms 某处大数据量测试结果。 实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-).. 貌似言过其实了吧 |
|
返回顶楼 | |
发表时间:2010-09-07
我没说以上性能是单节点跑出来的。
20万亿行那个实例,用了100个节点,都是PC服务器。 多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。 |
|
返回顶楼 | |
发表时间:2010-09-07
最后修改:2010-09-07
wormwang 写道 我没说以上性能是单节点跑出来的。
20万亿行那个实例,用了100个节点,都是PC服务器。 多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。 按照一行记录1k来算,20万亿基本就是18626T(保守估计,实际肯定会有30%左右的额外开销),这还不包括为数据可靠性而进行的冗余,100个节点单台机器需要支撑186T(或者说2000亿)的数据,我非常非常好奇你们是如何管理这么庞大的数据的 |
|
返回顶楼 | |