`
jzy996492849
  • 浏览: 128167 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

电商社交数据在大数据风控的应用实践

 
阅读更多
摘要: 随着普惠金融业务的深入,以及消费金融业务竞争的白热化,针对信用白户的风控显得尤为重要。如何面向信用白户进行快速有效的信用评级,卧龙大数据根据自己的实践经验,就电商、社交数据在风控上的应用价值与大家进行一些分享。


0?wx_fmt=jpeg


随着普惠金融业务的深入,以及消费金融业务竞争的白热化,针对信用白户的风控显得尤为重要。如何面向信用白户进行快速有效的信用评级,卧龙大数据根据自己的实践经验,就电商、社交数据在风控上的应用价值与大家进行一些分享。


一、电商社交数据的数据覆盖度:


卧龙和众多不同类型金融机构进行了数据匹配测试,下图为各类金融机构的互联网行为数据整体匹配情况。

0?wx_fmt=jpeg
可以看出:

传统的农商行主要面对线下人群,线上数据的匹配率很低,,要利用电商社交数据做信用评估基本不可行,利用大数据引流获客倒是一个值得关注的方向;

对于大型股份制银行以及消费金融公司特别是网贷平台,数据匹配率可以达到50%及以上,具有较大的大数据风控分析潜力。



二、电商社交数据的反欺诈应用


基于电商和社交数据,我们依照传统的反欺诈和信用评估两个方向进行分析体系构建,也得到了一些很有意思的分析结论:

电商数据反欺诈
众所周知,在某宝平台,上至豪宅别墅下至铁钉牙签,尤其是各种线下服务,除了吸毒犯罪,几乎没有不能卖的,正是这种特性给了我们很大的分析空间。

下面是我们获取到的一批典型案例:

0?wx_fmt=jpeg


0?wx_fmt=jpeg


0?wx_fmt=jpeg


根据我们对一批用户的互联网行为特征进行跟踪,发现了一些很有趣的特征。建模分析过程如图所示:

0?wx_fmt=jpeg


对于其中发现的一批关键词,我们进行term weight分析,聚类如下图所示所示:

0?wx_fmt=jpeg


经过对近十万逾期和欺诈用户的百万条互联网行为记录进行分析,按关键词不同可以分为三个客群:

1、老赖客群:典型的诸如让银行头疼的老赖、资产纠纷用户会关联到法律纠纷等关键词;

2、多头借贷:这些用户会关联到新口子、套现、京东白条、蚂蚁花呗、苏宁金融等关键词 ,通过薅羊毛的手法走各种新平台,拆东墙补西墙;

3、黑产中介:这些用户则会关联到周卡、零配件设备号等关键词。从黑产中介的跟踪情况看,当前黑产已经形成一条极度隐蔽而且设备高度自动化的产业链。

    利用这批关键词,结合业务知识以及机器学习算法挖掘,我们找到上千个异常关键词,几十万量级的黑产商品,并通过商品关联到百万量级异常用户。同时我们发现,某宝也在极力打压黑产异常商品,我们分析的商品,部分在某宝上面会不定时消失,所以这批异常数据基本属于卧龙所独有。这批数据通过分析发现很多并不在传统的多头借贷、网贷黑名单数据库当中,可以作为黑名单库的一个补充,同时在几家合作公司测试也得到良好反馈。

社交数据反欺诈                               
社交领域数据是另外一个比较有趣的话题,除了直接关注贷款类、涉黑类话题的用户,我们通过图数据库、PageRank算法等社交分析工具找到一批刷单刷帖用户。

具体过程如下:

0?wx_fmt=jpeg


这中间最有意思的就是号码的重叠度,现有公布的的黑产名单与我们分析的社交刷单刷帖灰名单用户有极大的重叠度,结论就是:物尽其用!实名制的普及带来的是号码资源稀缺,最大化价值利用是黑产平台的主要特点,这也给我们基于大数据的反欺诈提供了线索。

三、电商社交数据的风控建模应用
信用评估一直是金融领域的重中之重。在介绍卧龙电商和社交数据的信用评估领域应用时,先普及几个基本知识。

模型评估维度


0?wx_fmt=png


模型特征


0?wx_fmt=jpeg


业务经验法的例子包括根据品牌商品占比、主动评论占比、用户购物类目的分布占比情况等特征进行分析。一般购物类目分布越广,说明这个用户线上消费越强,刷单用户的可能性也就越低。

机器学习法的经典案例就是使用Pagerank计算微博用户的影响力,一般pagerank值越大,影响力越高,用户失信的可能性也就越小。另外比如使用标签扩散法,通过黑名单库计算相应的用户灰名单概率权重特征。这些特征IV值(即Information Value,信息价值)一般都在0.1以上。下图为PageRank分段值在大额借贷和小额借贷中违约率中的关系。

0?wx_fmt=jpeg


PageRank得分不是越高风险越小,还需要根据其贷款产品进行区分,大额贷款(5万以上),越是高分用户,逾期违约可能性越大;小额贷款(5万及以下)则刚好相反。

通过业务经验以及机器学习方法,考虑购物品类的情况下,我们总共构造了3万多个指标,下图为我们筛选指标的一般流程:

0?wx_fmt=jpeg


下图为特征在样本中的空置率表现。可以看出很大一部分特征都有缺失,这是互联网数据的一大特点,也是目前最大的挑战。我们通过一定的阈值过滤掉部分特别稀疏的特征。

0?wx_fmt=png


下图为我们挑选的50个特征IV值分布情况。相比银行信用卡等特征会偏弱一点(我们测试基于银行信用卡流水构造的特征,通常IV值能到0.4左右),但也是不可多得的良好特征变量。

0?wx_fmt=jpeg


在有效特征中数码配件、手机配件、零食、男女内衣类目等类目特征IV值较高。这种不对外显露的类目,能很好的区分一个人的消费水平。

模型算法
传统的评分卡一般采用逻辑回归,因为这类模型可解释性强,便于沟通交流以及上级部门的监管。但我们采用的是可解释性虽然一般,但性能更强、效果更好的决策树模型。

模型架构图 

0?wx_fmt=jpeg


KS值

0?wx_fmt=jpeg


通过电商以及社交数据,模型的KS值达到0.28,再加上传统贷款的申请表里的用户基本信息、资产信息授权信息,最终的建模KS效果达到0.36。



四 经验总结:
1、电商社交数据适合线上行为活跃的群体,尤其是适合有场景用户,比如3C数码、医美、教育等消费分期领域。对线上行为特别稀疏的传统的线下人群,要利用电商社交数据做征信评估基本不可行。

2、特征不是越多越好,低值的特征多了反而降低模型整体的效果。并且特征越多,模型的可解释性分析困难越大,所以优质特征的筛选必不可少。

3、电商和社交数据用来做信用评估建模的效果不错,但是达不到直接使用的效果,因此电商和社交数据需要和其他数据配合使用,才能发挥最大的价值。

4、电商和社交数据在反欺诈领域的应用来得比信用评估更直接。卧龙识别出的异常购物记录和敏感行为用户坏账率比正常客户要高4.7倍。
分享到:
评论

相关推荐

    大数据风控:在线贷款的突破口.pptx

    大数据风控模型的核心竞争力在于其可以收集和分析大量的用户数据,包括社交媒体上的动态、电商消费行为、网站浏览痕迹等,并将这些特征分类成多个维度,如风险特征、用户偏好、用户意愿、用户属性等。这些特征将被...

    互联网金融大数据风控.ppt

    总结来说,大数据风控在互联网金融中发挥着不可替代的作用,它通过量化风险、提升欺诈行为的识别能力,增强了金融机构的风险管理效能,促进了互联网金融的健康发展。随着技术的进步和数据资源的丰富,大数据风控的...

    互联网金融大数据风控PPT学习教案.pptx

    互联网金融大数据风控是一种基于海量数据的现代风险管理方法,旨在通过分析和挖掘大数据,提升金融机构对潜在风险的识别、...随着技术的进步和数据资源的不断丰富,大数据风控在未来的互联网金融领域将发挥更大的作用。

    互联网金融大数据风控ppt课件.ppt

    此外,大数据风控在个人理财业务中也发挥着重要作用。理财平台可以借助大数据分析投资人的投资行为、消费习惯等,提供个性化的产品推荐,同时也能根据用户的信用等级调整投资风险,保障投资者的资金安全。 对于B2B...

    消费金融大数据风控解决方案.pdf

    ### 消费金融大数据风控解决方案知识点详解 #### 一、消费金融业务模式及风险挑战 **1.1 消费金融业务模式** - **嵌入消费场景:** 消费金融服务平台通过与线上线下购物平台或商户合作的方式,将贷款资金直接支付...

    大数据技术在互联网汽车融资租赁风控中的应用.pdf

    在具体应用环节,大数据风控技术主要体现在以下几个方面: 1. 承租人身份验证:运用人脸识别技术验证承租人的身份信息,确保信息的真实性,有效防止身份冒用和欺诈行为。 2. 客户资质分析:利用大数据分析技术,...

    大数据时代风控模型技术癿探索和实践

    在大数据风控领域,未来的探索和实践将持续聚焦于数据的整合能力、信用信息的有效补充以及大数据价值的深度挖掘。机器学习算法将与大数据风控技术更紧密地结合,以适应数据维度更广、变量更多且稀疏性更强的挑战。对...

    实时大数据在风控中的实践.pdf

    【实时大数据在风控中的实践】主要探讨了大数据技术在风险控制领域的应用,特别是在互联网反欺诈和互联网金融风控方面的挑战及解决方案。数美科技作为一家专注于大数据反欺诈服务的公司,其基础架构负责人关涛分享了...

    基于大数据分析的实时风控体系

    通过携程的Aegis系统的案例,我们看到一个成熟的大数据风控体系如何高效运行,以及它在旅游电商领域的强大应用价值。随着技术的进步和风险管理需求的增长,实时风控体系将会更加智能和自动化,为各行各业提供更为...

    大数据应用 商业案例实践

    《大数据应用 商业案例实践》这本书深入探讨了大数据在商业领域的实际应用,旨在揭示大数据如何为企业带来竞争优势,推动业务创新和决策优化。大数据,作为21世纪新兴的技术热点,已经深刻改变了各行各业,从零售到...

    刍议小贷业务信用风险的量化风控及大数据应用.zip

    在实施大数据风控策略时,金融机构还需关注实时风险监控和动态调整。通过实时数据流分析,可以快速识别潜在的违约风险,及时采取干预措施。同时,模型需定期更新,以适应市场变化和新的风险特征。 总的来说,小贷...

    DataFunSummit:2022年数据科学在线峰会PPT合集(41份).zip

    图网络数据在跟风拍摄中的实践与应用 游戏视频的多模态与细粒度理解分析技术 知识图谱、物联网和数字孪生 - 智能供应链的数字基础设施 基于循环神经网络架构的大规模供应链网络的仿真和优化 数据科学如何解决供应链...

    大数据在金融领域的应用.ppt

    金融大数据是指金融机构在运营中产生的海量数据,包括客户信息、交易记录、日志信息、社交媒体信息、电商网站数据等。金融大数据的特点是海量、多样、快速变化、价值高、分析难度高等。 金融大数据的应用场景 金融...

    跨境电商大数据分析与应用.pptx

    ### 跨境电商大数据分析与应用 #### 一、跨境电商大数据的特征与分类 **1.1 大数据的量大性** 跨境电商大数据的特点之一是数据量庞大。由于跨境电商涉及多个国家和地区,产生的订单、商品、物流等数据量非常巨大...

    易通贷-康文大数据辅助P2P风控新手段.pptx

    【大数据在P2P风控中的应用】 随着大数据的快速发展,它已经成为了辅助P2P风险管理的新工具。大数据,顾名思义,是指那些在规模、多样性、速度和真实性上超越传统数据处理能力的海量信息。它源自互联网(如社交媒体...

    中国大数据应用市场专题分析.docx

    - **数据采集**: 包括传感器、社交媒体、交易记录等多种数据来源的数据采集,是大数据应用的基础。 - **数据处理**: 利用云计算、分布式计算等技术对海量数据进行清洗、整合和分析。 - **数据分析**: 通过统计学、...

    大数据技术原理学习笔记.docx

    金融机构可以通过大数据风控模型,降低贷款违约风险;在医疗领域,大数据可以帮助医生进行疾病预测和治疗方案优化。 在学习大数据技术时,我们需要掌握基础的编程语言,如Java、Python或Scala,以及相关的数据处理...

    金融业大数据应用场景.pdf

    在银行业,大数据的应用主要包括数据库营销、用户经营、数据风控、产品设计和决策支持等方面。银行数据主要分为交易数据、客户数据、信用数据和资产数据,大部分为结构化数据,存储在传统数据库和数据仓库中。通过...

    大数据在金融领域的应用实践29.pptx

    【大数据在金融领域的应用实践】 大数据,作为信息技术的前沿领域,已经在金融行业中发挥了显著的作用。金融业,本身就是基于数据和信息的产业,而互联网金融的崛起更是加剧了对数据的依赖。目前,金融业面临的主要...

Global site tag (gtag.js) - Google Analytics