互联网金融要充分利用互联网上技术高效的获取用户的数据,对海量的数据进行分析,达到对客户精准的授信,杜绝恶意高危用户,降低违约率,实现风险控制。
风控主要分为两个阶段,数据抓取和数据挖掘。下面就我了解互联网的数据抓取的几个方面整理如下:
1、设备识别:
设备识别就是对用户使用的设备的精确识别,设备的定义包括电脑、手机、平板,用来上网的设备,通过设备识别可以做到反欺诈,账号关联等;比如同一设备上有不同的账号登录操作,就可以认为这两个账号是有关联的,如果其中一个发生逾期,其他的账号也是高危用户。再比如同一个设备上出现大量的账号登录则可以推断这些账号是高风险欺诈用户。
设备识别的方式分为客户端和网页两种形式,客户端如手机app可以获取手机的唯一编码(苹果手机好像不行),网页的形式主要是通过页面js脚本和后端tcp数据包解析方式。国内设备识别反欺诈的服务商我了解的有“同盾”和“通付盾”。
正常的用户行为,比如每天登录的次数,常用的登录地,每周的交易金额,习惯的购物时间等都有一个基本固定的范围,而异常的用户行为和正常的用户行为会有明显的差别。通过计算每一个用户的这些行为指标,和正常的指标值进行比较,就可以发现可疑的情况。
2、定向数据抓取:
定向数据抓取就是对互联网开放的有价值的数据进行定向提取,比如法院公布的赖账人,
P2p网站公布的黑名单用户,定向抓取通过分析网页结构,抓取并解析获取数据,作为欺诈证据库。
Java可以用httpclient获取页面jsoup.xpath解析页面,python scrapy爬虫框架。对于有些页面需要执行js异步加载的可以试试Java的htmlunit 它可以模拟浏览器执行脚本。
最近还发现一个爬虫框架不错
pyspider(http://docs.pyspider.org/en/latest/),它是一个服务的形式,可以在上边配置定时任务抓取网页地址信息。
3、模拟登录:
模拟登录就是在用户和真实的网站之间设置个代理网站,用户填写的账号密码,提交到代理网站,代理网站后台再去模拟登录真实的网站,代理网站可以获取需要登录才能查看的信息,这个是比较复杂的,很多网站尤其是大型电商网站都有反欺诈反机器人模拟登录的策略,很多页面也都有加密脚本执行,比如当网站监测到用户的行为比如输入账号密码的速度(敲击键盘的数据)以及鼠标移动的轨迹,还有用户登录的设备和ip不是用户正常的情况都会增加反机器验证手段。登录的成功率不高不稳定。
模拟登录我了解的技术方式Selenium2。Selenium支持多种语言用于web自动化测试,可以用语言脚本驱动浏览器自动操作网页
(参考:http://www.cnblogs.com/dingmy/p/3438084.html)
最后提一些自己的认识,互联网金融重要的是风控,互联网面向的是海量的互联网用户,因此不能用传统线下的方式获取用户信息这样效率低成本高,现在阿里和腾讯等互联网公司多年积累了大量的用户行为数据,他们基于自己的用户群可以准确高效的授信风控,比如通过对用户以往的消费行为可以了解用户的消费能力爱好给用户画像,这属于熟人授信,而互联网金融一方面要积累自己的用户数据,一方面还要对陌生人授信,这就需要获取用户的大量数据,比如通过获取用户登录网站的时间,通过数据分析聚类哪些时间段上网的用户还款率高,哪些时间段低;同时通过多个维度获取的数据对用户信息的真实性验证,比如用户提供了自己的居住地址,我们可以通过app获取用户的经纬度,如果和地址基本吻合就认为信息真实,数据获取的方式用很多,如何能做到灵活可配置高效的获取数据框架并且通过数据挖掘机器学习实现自动化风控引擎,风控引擎高效自动化。我认为风控引擎(爬虫框架+规则引擎)一定和互联网搜索引擎一样会给互联网金融带来巨大的飞跃。
相关推荐
产品【蜂巢】的核心能力之一是其数据抓取与解析能力。它能够从社交、电商、金融、信用和社保等多个渠道抓取相关数据。这些数据的多样性为全面了解用户提供了可能,能够帮助金融机构对用户进行全面的信用评估。通过对...
【风控核心设计】是关于金融或互联网行业中风险控制体系的关键组成部分的探讨,它涉及到如何预防、识别和处理潜在的欺诈行为以及管理业务风险。在这个领域,一个有效的风控系统设计至关重要,因为它直接影响到企业的...
【标题】"基于Java的经营风控引擎"是一个重要的软件系统,它主要应用于金融、电商、互联网等领域的风险管理。风控引擎的核心任务是对企业或个人的经营活动进行风险评估和控制,通过实时监控、数据分析和智能决策,...
【互联网金融之P2P行业分析】 P2P(Peer-to-Peer)借贷,作为互联网金融的一种重要形式,是近年来在全球范围内崛起的新型金融服务模式。它利用互联网技术和大数据分析,打破了传统银行借贷的壁垒,为中小企业和个人...
6. **数据安全与合规**:在数据治理的过程中,金融机构还需确保数据的安全性,遵守隐私保护法规,如GDPR等,以避免法律纠纷和信誉损失。 7. **决策支持与策略优化**:高质量的数据治理为投资策略优化提供强有力的...
贷款中介电话数据爬取需求是金融风控领域的一个重要任务,主要目的是通过收集网络上的中介电话信息,构建中介电话数据库,以便识别潜在的欺诈行为和多头负债风险。以下是该需求涉及的具体知识点: 1. **网络爬虫...
行业应用部分可能包括金融风控,通过对大量交易数据的分析来识别潜在风险;疾病防治,利用医疗数据预测和预防疾病;推荐引擎,通过用户行为分析提供个性化推荐;以及BI(商业智能)展示,将数据转化为具有洞察力的...
4. 金融风控:金融机构利用DataCollectClient收集交易数据,进行实时风险评估和反欺诈。 5. 社交媒体分析:社交媒体平台上的大量用户生成内容可通过DataCollectClient抓取,为企业提供市场趋势洞察和品牌管理依据。...
大数据的应用领域广泛,如金融风控中利用历史交易数据预测风险;电商推荐系统通过用户行为数据进行个性化推荐;医疗健康领域通过分析患者电子病历、基因组数据改善疾病诊断和治疗。此外,智慧城市、工业4.0、环境...
- 数据采集是大数据流程的第一步,主要包括日志数据收集、传感器数据收集、社交网络数据抓取等多种方式。 - 常见的数据采集工具有Flume、Kafka等。 2. **数据存储**: - 大数据的存储技术主要分为分布式文件系统...
点融网的反欺诈系统技术架构包括了与第三方系统的对接、定向数据抓取以及决策模型的动态调整,以适应欺诈手段的不断变化。 总的来说,大数据反欺诈是通过结合技术手段和知识图谱来提升风控能力,通过深度挖掘和分析...
证券行业的大数据涵盖多个方面,包括投资者个人信息(如实名认证信息、联系方式、证券和理财账户等)、交易数据(股票、基金、互联网证券交易等)、行为数据、股市交易和实时行情、上市公司数据(基本资料、财务报表...
3. 金融风控:实时监测交易数据,及时发现潜在的欺诈行为。 4. 互联网广告投放:根据用户实时行为调整广告策略,提高点击率。 总结,Apache Flink 1.10.1 版本在流处理和批处理领域提供了强大的工具集,通过不断...
2. **数据收集与预处理**:从各种来源获取数据,包括公开的开放知识图谱、数据库、网页抓取等。数据预处理包括清洗、去重、标准化等,确保数据质量。 3. **知识图谱设计**:设计实体和关系的模型,确定图谱的架构,...
4. 互联网与大数据驱动(1990年-2010年):互联网的快速发展提供了大量数据,AI研究进入新阶段。 5. 深度学习与现代AI(2010年至今):以深度学习为代表的机器学习技术推动AI爆发式增长,应用广泛。 1.3 人工智能...
- **搜索引擎**:构建分布式爬虫系统,抓取互联网上的海量数据。 - **社交网络分析**:分析社交媒体平台上的用户行为数据。 - **金融风控**:处理银行交易记录,识别潜在的风险因素。 ### 总结 Hadoop-2.7.1作为一...