腾讯大数据处理平台-魔方
我们的团队研发了一个叫魔方的大数据处理和分析的平台,底层我们集成了MySQL、MongoDB,Spark、Hadoop等技术,在用户层面我们只需要写一些简单的SQL语句、完成一些配置就可以实现例行分析。
这里我们收集了社交、电商、支付、游戏等场景的数据,针对这些数据我们建立一些模型,发现哪些是恶意的数据,并且将数据沉淀下来。
沉淀下来的对安全有意义的数据,一方面就存储在魔方平台上,供线下审计做模型使用;另一方面会做成实时的服务,提供给线上的系统查询使用。
一、腾讯用户画像沉淀方法
画像,本质上就是给账号、设备等打标签。
用户画像 = 打标签
我们这里主要从安全的角度出发来打标签,比如IP画像,我们会标注IP是不是代理IP,这些对我们做策略是有帮助的。
以QQ的画像为例,比如,一个QQ只登录IM、不登录其他腾讯的业务、不聊天、频繁的加好友、被好友删除、QQ空间要么没开通、要么开通了QQ空间但是评论多但回复少,这种号码我们一般会标注QQ养号(色 。情、营销),类似的我们也会给QQ打上其他标签。
标签的类别和明细,需要做风控的人自己去设定,比如:地理位置,按省份标记。性别,安男女标记。其他细致规则以此规律自己去设定。
我们看看腾讯的IP画像,沉淀的逻辑如下图:
一般的业务都有针对IP的频率、次数限制的策略,那么黑产为了对抗,必然会大量采用代理IP来绕过限制。
既然代理IP的识别如此重要,那我们就以代理IP为例来谈下腾讯识别代理IP的过程。
识别一个IP是不是代理IP,技术不外乎就是如下四种:
- 反向探测技术:扫描IP是不是开通了80,8080等代理服务器经常开通的端口,显然一个普通的用户IP不太可能开通如上的端口。
- HTTP头部的X_Forwarded_For:开通了HTTP代理的IP可以通过此法来识别是不是代理IP;如果带有XFF信息,该IP是代理IP无疑。
- Keep-alive报文:如果带有Proxy-Connection的Keep-alive报文,该IP毫无疑问是代理IP。
- 查看IP上端口:如果一个IP有的端口大于10000,那么该IP大多也存在问题,普通的家庭IP开这么大的端口几乎是不可能的。
以上代理IP检测的方法几乎都是公开的,但是盲目去扫描全网的IP,被拦截不说,效率也是一个很大的问题。
因此,我们的除了利用网络爬虫爬取代理IP外,还利用如下办法来加快代理IP的收集:通过业务建模,收集恶意IP(黑产使用代理IP的可能性比较大)然后再通过协议扫描的方式来判断这些IP是不是代理IP。每天腾讯都能发现千万级别的恶意IP,其中大部分还是代理IP。
二、腾讯用户画像类别概览
三、防御逻辑
实时系统使用C/C++开发实现,所有的数据通过共享内存的方式进行存储,相比其他的系统,安全系统更有他自己特殊的情况,因此这里我们可以使用“有损”的思路来实现,大大降低了开发成本和难度。
数据一致性,多台机器,使用共享内存,如何保障数据一致性?
其实,安全策略不需要做到强数据一致性。
从安全本身的角度看,风险本身就是一个概率值,不确定,所以有一点数据不一致,不影响全局。
但是安全系统也有自己的特点,安全系统一般突发流量比较大,我们这里就需要设置各种应急开关,而且需要微信号、短信等方式方便快速切换,避免将影响扩散到后端系统。
http://www.36dsj.com/archives/35887
相关推荐
基于用户画像大数据的电商防刷架构.pdf 基于用户画像大数据的电商防刷架构是当前电商行业的一大挑战。随着电商行业的高速发展,各种创业公司如雨后春笋般涌现,商家通过各种活动形式的补贴来获取用户、培养用户的...
基于用户画像大数据的电商防刷架构
《BAT大数据电商画像实战》是一门深度探讨大数据在电商领域应用的专业课程,旨在帮助学习者理解和掌握如何利用大数据技术构建用户画像,以提升电商平台的运营效率和用户体验。在这个教程中,我们将深入研究以下几个...
本文来自于网络,文章主要介绍腾讯自己是如何通过大数据、用户画像、建模来防止被刷、恶意撞库。最近1~2年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补贴来获取用户、培养用户的...
标题中的“基于电商评价数据的农产品用户画像分析——以安化黑茶为例”是一个研究课题,主要关注如何利用电商平台上的用户评价数据来构建农产品消费者的用户画像。用户画像(User Profile)是通过收集、整合和分析...
整体而言,文章提出了基于大数据技术,如何设计和应用农产品电商用户画像系统的一系列策略和建议,为农产品电商在用户服务和营销方面提供了重要参考。随着大数据和互联网技术的不断发展,农产品电商行业将更加依赖...
本压缩包“大数据电商用户画像及.zip”包含了对这一主题的深入探讨,其中的核心文件为“大数据电商用户画像及.pdf”。 大数据,顾名思义,是指规模巨大、类型多样、增长迅速且处理价值高的数据集合。在电商领域,...
该项目是关于利用Java技术和大数据平台来构建电商用户画像,从而实现精准营销的实践案例。用户画像是电商领域中一个至关重要的概念,它通过对用户的行为、偏好、消费习惯等多维度数据进行深度分析,构建出一个虚拟的...
总之,基于Flink+ClickHouse的用户画像平台,结合了实时流处理的高效性和列式数据库的高速分析能力,是构建大规模电商用户画像的理想选择。通过本视频教程的学习,你将掌握如何构建这样一个系统,并理解其背后的原理...
《大数据架构和算法实现之路:电商系统的技术实战》是一本深度探讨大数据技术在电商系统中应用的专业书籍。这本书旨在帮助读者理解如何利用大数据技术解决实际的电商问题,提升业务效率和决策精度。以下是对该书内容...
例如,电商平台可以通过分析用户的浏览记录、购物车内容、购买历史等数据,创建用户画像,然后推送相关商品的优惠信息或新品上市通知。此外,社交媒体平台也可以利用用户社交行为数据,推荐用户可能感兴趣的内容或...
《2020年中国在线教育平台用户大数据报告——腾讯课堂数据篇》是针对中国在线教育领域的一份深度研究报告,尤其聚焦于腾讯课堂这一重要平台的数据分析。这份报告揭示了2020年在线教育行业的诸多关键趋势、用户行为...