论坛首页 综合技术论坛

数据库大数据统计的设计方案

浏览 30376 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者 正文
   发表时间:2010-09-07  
可以考虑用Greenplum

上万亿条记录都好处理

在http://gpn.greenplum.com,即可免费注册帐号下载。

0 请登录后投票
   发表时间:2010-09-07  
wormwang 写道
可以考虑用Greenplum

上万亿条记录都好处理

在http://gpn.greenplum.com,即可免费注册帐号下载。



Greenplum,只是听说过,没具体用过。
等先用MySQL集群做做看,看看效果如何。
够用就行~
0 请登录后投票
   发表时间:2010-09-07  
离线的话,建议使用Hadoop+HIVE,你的数据也需要整理一下。
0 请登录后投票
   发表时间:2010-09-07  
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。

0 请登录后投票
   发表时间:2010-09-07  
wormwang 写道
MySQL Cluster 是硬拼凑出来的架构。MySQL内部的人都不说好,没信心。
你喜欢MySQL,不如看看InfoBright,另外一个类似Greenplum的分布式数据库。

Greenplum等C++/C 实现的分布式关系数据库比在Hadoop 上桥接的HIVE快上百倍。


这东西成熟吗?万亿的数据量有相关的测试报告没?
当然如果成熟的话,这的确是一个值得考虑的选择。
0 请登录后投票
   发表时间:2010-09-07  
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..
0 请登录后投票
   发表时间:2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

20万亿行的数据有多大?单行占多少字节?
按照你的描述单节点支撑10万亿的数据,只能用可怕形容了
请问有公司将其应用于产品的例子吗?
0 请登录后投票
   发表时间:2010-09-07  
wormwang 写道
• Hadoop+Hive (ASC 15节点)
– 3m30s
• ORACLE RAC (4 节点)
– 41s
• GREENPLUM(2 节点)
– 6012.852 ms

某处大数据量测试结果。
实际使用最大表有:20万亿行 !!多张 20亿记录的表Join,数秒完成!!:-)..

貌似言过其实了吧
0 请登录后投票
   发表时间:2010-09-07  
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。
0 请登录后投票
   发表时间:2010-09-07   最后修改:2010-09-07
wormwang 写道
我没说以上性能是单节点跑出来的。

20万亿行那个实例,用了100个节点,都是PC服务器。

多张 20亿记录的表Join,数秒完成,那个实例用了60台PC服务器。

按照一行记录1k来算,20万亿基本就是18626T(保守估计,实际肯定会有30%左右的额外开销),这还不包括为数据可靠性而进行的冗余,100个节点单台机器需要支撑186T(或者说2000亿)的数据,我非常非常好奇你们是如何管理这么庞大的数据的
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics