论坛首页 综合技术论坛

海量数据求并集交集

浏览 4984 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2014-08-19  
公司有个推送业务,场景简述如下:

某一个APP有许多个用户,每个用户会有若干的标签,比如国家类的标签有中国,美国什么的,爱好类的标签有旅游,美食什么的。开发者通过后台选择若干个标签,给自己的应用符合这些标签的用户推送消息。比如:

求标签A的用户和标签B的用户交集再跟标签C的用户的并集

最简单的算法就是依次取出每个标签的用户,然后遍历求出结果。

如果用户很多,每个标签下的用户很多,计算的时候给出的标签数量很多时,计算出来的结果集也很大,放到内存中也不太合适吧,这样简单的算法应该就不可行了吧。

大家有什么方案呢?要使用Hadoop之类的计算框架吗?
   发表时间:2014-12-01  
有app,用户,标签,信息4个主体。用树结构来解决。该app是根节点,用户是父节点,标签是结构子节点。
目的
通过后台选择若干标签,给符合这些标签类的用户推送信息。
设计思路
从所有标签库中筛选要选择的标签后,依据要选择的标签来是筛选用户,后给用户发送信息。
用分治的思想来设备整个筛选流量。
0 请登录后投票
   发表时间:2014-12-01  
从所有标签库中筛选要选择的标签后,依据要选择的标签来是筛选用户,后给用户发送信息。
用分治的思想来设计整个筛选流程。
0 请登录后投票
   发表时间:2014-12-01  
当用户的电脑运行速度快的时候,同意楼上见解。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics