机器学习在财务控制中的作用

简介: 之前讲了很多关于数据建模的场景,让人感觉大数据分析就是配合模型创建API供应用调用的事。但其实大数据分析要远比想象的复杂。 以风控模型为例,需要经历 数据集采集 风险定义 特征工程 机器学习模型选取与优化 本地化部署 在数据集采集需要考虑哪些是反映用户信用等级的数据,包括用户的按揭贷款、信用卡账单、损益表以及可预测的消费行为。

之前讲了很多关于数据建模的场景,让人感觉大数据分析就是配合模型创建API供应用调用的事。但其实大数据分析要远比想象的复杂。
1
以风控模型为例,需要经历

  1. 数据集采集
  2. 风险定义
  3. 特征工程
  4. 机器学习模型选取与优化
  5. 本地化部署
    在数据集采集需要考虑哪些是反映用户信用等级的数据,包括用户的按揭贷款、信用卡账单、损益表以及可预测的消费行为。当然评测机构也有用户的一般个人信息,包括年龄、工作、职位等等。结合信用信息和个人信息,评测机构可以建立一个涵盖数千特征值的个人参数表。

接下来是风险定义,简单地说就是用户的经济状况,比如用户在过去的数月中是否有按揭贷款或者信用卡未偿还的情况,根据这一情况标记风险。当然评估维度可以有很多,比如失业金账户的余额变更情况,医疗支出等等。
接下来是特征工程,这个过程包括了衔接原始数据的数据清洗工作,清洗不光是“清理”,将错误或异类的数据剔除,更多的是为空值添加分类,为稀有值添加分类以及将每一个分类转换为数值:比如周一到周日转换为1到7,当这一分类有统计意义的时候(例如学生连续5天缺课的日期分布情况)。
2
分类完成后或在已有的数值属性中有空值,我们需要继续量化,对于空值,可以将其转变成在正态分布(泊松分布或其他分布模型)之外的值;对于线性模型中超出分布的值,将其转换为分布的末端值。
接下来进入变量的预处理,包括归一化--即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量,以及对某些数值取模,取平方以备后续的调用。
最后是选取特征,一般考虑到计算性能,几十个变量是GPU高频计算的极限(其实最好控制在20以内),通过随机森林算法(RFE),XGB迭代式特征消除法可以有效减少不必要的特征。
3
在特征工程完成后,很多情况下机器学习的部分都可以自动完成。对于一个有监督学习的案例库,告知模型目标成功率、选取参数和算法以及参数即可自动得出适合银行风控的算法模型。
4
最后是将算法模型部署到银行系统中,这一部分的工具有很多,这里就不做过多赘述了。
5
总的来说,风控系统AI模型的主要工作还是在特征工程上,其实绝大多数的AI的工作重点都是特征工程,以保证输入的有效性,无论是有监督算法还是无监督算法,而人们普遍认识的却是AI的主要工作在于数据建模,这其实是与实际情况有偏差的。

相关文章
|
14天前
|
人工智能 搜索推荐 测试技术
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
【4月更文挑战第11天】EgoExoLearn是一个大规模数据集,用于模拟人类通过观察视频学习任务的能力,包含120小时的日常生活和实验室场景视频,重点是第一人称视角和注视数据。该数据集提供多模态注释,设有跨视角动作理解等基准测试,旨在推动AI模仿人类行为的研究。尽管有挑战,如视角转换和多样性问题,但EgoExoLearn为AI学习和融入人类环境开辟了新途径。
18 1
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
|
算法 机器学习/深度学习 数据挖掘
带你读《增强型分析:AI驱动的数据分析、 业务决策与案例实践》之三:预测模型的新技术
本书“深入浅出的原理介绍 + 实际使用的案例”的内容安排能够使得数据分析建模人员从算法原理、数据挖掘知识结构、业务应用方法等方面得到提升,帮助数据分析建模人员开阔眼界、优化知识结构、提升实践技能。
|
4月前
|
算法 数据挖掘 C++
九大数据分析方法-综合型分析方法以及如何使用这九大分析方法
九大数据分析方法-综合型分析方法以及如何使用这九大分析方法
|
8月前
|
安全 算法 数据可视化
投顾系统在程序化交易中的作用和重要性 及投顾系统的功能特点
投顾系统在量化交易系统中起到了重要的作用,可以辅助私募机构、操盘团队、mom团队、资金方、期货公司、投顾公司等营销主体提高投资决策的准确性和效率,降低投资风险,提高投资收益。
151 0
|
程序员
如何在信息不完备下进行快速决策?
我们在工作和生活中经常会遇到一类问题。这类问题有三个特征: 1. 信息极不完备; 2. 时间特别紧张; 3. 决策错误,后果很严重;
73 0
|
人工智能 机器人
各类机构均根据RPA的特征及价值给予了不同的定义
各类机构均根据RPA的特征及价值给予了不同的定义
90 0
|
机器学习/深度学习 人工智能 算法
机器学习如何改变数据中心管理
数据中心运营商在利用人工智能和机器学习方面有很多选择,而且随着技术变得更加实惠和先进,将会有更多选择。美好的未来就在眼前。
机器学习如何改变数据中心管理
|
机器人
工业视觉引导基础及项目评估流程
工业视觉引导基础及项目评估流程
159 0
工业视觉引导基础及项目评估流程
|
人工智能 安全 调度
如何利用人工智能构建高效的人员调度模型?
虚拟调度员利用当前主流人工智能成熟技术模型,构建可以真正应用在电 力生产业务中的实用性人工智能应用,既带来机器接替人工重复性劳动提 高劳动效率,又具有工业系统的技术领先性。
如何利用人工智能构建高效的人员调度模型?
|
算法 JavaScript 自然语言处理
带你读《自然语言处理的认知方法》之二:人类关联规范能否评估机器制造的关联列表
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。