金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

简介:


0?wx_fmt=jpeg


机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

 

朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟。


以下为CreditX氪信创始人朱明杰博士的演讲速记,在不影响原意的情况下,部分有删节: 


新金融业务的冷启动是什么?


冷启动的问题其实主要是指新金融领域缺少样本,我们知道金融机构积累坏账样本的周期是比较长的,另一方面每一个坏账也都是血淋淋的教训,坏样本积累非常珍贵。


0?wx_fmt=png 

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法,通过少量专家人工标记构建训练数据集,快速构建初始机器学习模型来对信贷主体进行风险和信用评估,后期通过不断迭代优化模型以达到最优的效果。此外,在大型金融场景中也可以通过Domain Adaptation的技术,比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络,就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

 

0?wx_fmt=png
 

新金融业务面临的海量数据有哪些?


在这一点上,由于新金融业务客群进一步下沉,传统征信数据缺失非常严重,因此为了做到更全面可靠的金融风控,机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等,然而这些海量超高维,稀疏,低饱和,多重共线的数据,传统的风控特征工程往往束手无策。

 

如果金融机构有大量无标签的数据和少量有标签的数据,其实我们已经可以通过深度学习的非监督或有监督算法,学习稳健,泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法,包括受限玻尔兹曼机,深度置信网络等,包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络,算法启发于博弈论,由生成网络和判别网络两个网络组成,生成网络生成数据目的是欺骗判别网络,判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈,生成网络可以学到很好的特征从而生成足以以假乱真的数据。

 

0?wx_fmt=png

新金融风控正面临维度灾难


我们知道国内外目前成熟的风控系统很多都是评分卡体系,但基于之前的海量外部数据,其衍生的特征量很多时候都是上千上万维度的,远远超出了评分卡体系所能处理的能力范围,也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢?

 

事实上,不同的数据类型,它的最优模型选择也是不同的,基于这种思想,我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征,就可以很好地化解这一问题。此外,在此之上我们进一步通过模型集成技术进行风险评分的输出,目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中,这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法,最大ks值上也比传统逻辑回归提升近70%,从0.19能够达到0.32甚至更高。

 

0?wx_fmt=png
 

新金融业务频频被瞬息万变的互联网群体欺诈攻击


最后,谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道,现在网上薅羊毛的现象很严重,尤其是新上线的互联网金融业务,常常是第一个月就被网上羊毛党群体轮番攻击,这其实也就是线上反欺诈的问题,由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验,传统基于规则的风控很多时候根本无法识别。

 

基于大规模图学习的反欺诈网络很好地解决了这一问题,一方面我们能通过复杂网络来识别群体欺诈风险,另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型,即在有少量标签节点的图结构中,根据传播算法,预测无标记节点的标签类别。

 

0?wx_fmt=png
 

举个简单例子,在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点,而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边,边的权重为关联的紧密程度。在我们构建的图中,那些有违约与否标记的申请人是原始种子结点,通过使用基于图的半监督算法,把是否违约的标记传播给无标签的申请人,这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络,并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中,基于图结构的局部风险特征、欺诈Pattern的展示,尤其是基于图挖掘算法提取的全局风险特征,目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

 

0?wx_fmt=png
 

时下,新金融正来到转型升级的十字路口,一方面AI被寄予极大厚望,另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展,机器学习将在金融风控的工业级应用中发挥越来越大的价值,但如何真正释放数据的价值,我想我们的征途才刚刚开始。


CreditX氪信是一家机器学习风控解决方案服务商,CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后,携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位,拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。 

原文发布时间为:2016-12-28


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 JSON 大数据
大数据离线数仓---金融审批数仓
大数据离线数仓---金融审批数仓
118 1
|
1月前
|
人工智能 弹性计算 Serverless
Serverless+AI驱动的一站式数据平台有哪些可能性
【2月更文挑战第4天】Serverless+AI驱动的一站式数据平台有哪些可能性
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
2月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
271 2
|
2月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
65 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
2月前
|
人工智能 分布式计算 大数据
重磅!阿里云在海外市场推出系列AI大数据产品
重磅!阿里云在海外市场推出系列AI大数据产品
91 1
|
2月前
|
人工智能 Cloud Native 搜索推荐
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
67 0
|
3月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年1月】
大数据&AI产品技术月刊【2024年1月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

热门文章

最新文章