关于大数据量的数据合并与处理

0 0

关于大数据量的数据合并与处理3

目前正在做一个业务很简单，但数据量比较大的一个小项目。
需求：从数据库中取到三个条件对应的ID号，例如, A对应有2千万的ID，B对应有2亿的ID，C对应有4亿的数据，目前就这么三种，但是肯定要考虑到以后的扩展，也许还会有4个，5个，6个的这样的Conditions. (A,B,C 其实是一个列表，会有很多的条件数据)。
功能：将A对应的ID,B对应的ID,C对应的ID进行Merge，或者根据前台的用户输入条件，进行AND，OR，NOT操作。（也就是将ABC...中对应的ID排重或条件排重后，得到一个含有ID唯一的集合）；Merge之后的集合根据条件的不同，数量级也不同。

目前，我自己写了一个Merge的方法，速度上还算可以：

Condition Numer	each Condtion Data	Merge time (ms)
10	100000000	1835

也就是说ABC...的条件数为10，每个condition对应的DataNumber 为1亿， Merge所花费时间为：1835毫秒。

Merge之后的集合根据条件的不同，有些会比较大，而且不是一般的大，也许一个用户的操作，就可能占用10Mb的内存，目前是在单机上部署的，只能说是一个Demo。

但是如果真正的上线的话，需要进行支持线性扩展，目前的想法是应用前方再架一个F5，进行水平扩展，但是对应单机压力来说，还会比较大，特别是内存与CPU。

问题：

1.大家有没有更好的解决方案？目前我的这种做法只能再用户输入condition的时候进行Merge，我也想过使用Cache，但是因为A,B,C的条件是随意组合而且量比较大，如果说提前将所有的Merge结果保持住的话，不太现实，而且数据是按天在更新的。

2.是否有更精巧的解决办法，特别是分布式和线性扩展，还有需要支持的TPS为10就可以（内部系统，分析走势使用）？

3.目前使用的是Java，大家有没有更好的语言推介，可以支持分布式计算与并行计算的，例如 Erlang（我还没有研究过), hadoop目前是否支持在线计算？

问题补充：<div class="quote_title">hill007299 写道</div><div class="quote_div">用hadoop吧，定时把数据库里的数据同步到hdfs里面，再针对具体的集合操作写mapreduce job。</div> <br />谢谢您的回复，但是我还是不能采纳，因为这个是一个实时应用，说白了就是一个页面，用户可以查询的，hadoop任务计算是可以的，但是对应实时查询恐怕就不行了，我之前也使用过hadoop，对应实时计算来说不适合的。