专访陈磊:拍拍信与金融数据AI

简介:


image

陈磊:
拍拍信(PPCredit)数据科学副总裁, 上海交通大学EE硕士,曾任职eBay分析经理,Opera Solutions分析总监。作为数据行业老兵,拥有超过十年的数据管理和统计挖掘经验,为电信、零售、金融等行业客户提供端到端数据分析和产品解决方案,在数据+技术驱动业务领域有丰富的积累。

大纲:
普惠金融的发展遇到移动化的浪潮,使得消费信贷迎来了高速攀升期,同时也给风控带来了巨大的挑战,即在额度区间广、借贷频次高、客群下沉情况下,如何实现风险可控、差异化定价、快速审批。幸而大数据和AI技术使得这一切变为可能,拍拍信一直在做这方面的探索,旨在整合数据资源、充分发掘数据潜在价值,帮助金融机构伙伴搭建和优化风控系统,我们将在会上分享相关的实践经验和落地案例

ArchData技术峰会将于9月9日上海徐汇COCOSPACE开幕,在大会之前,中生代技术特邀专家记者王公仆对陈磊总做了会前访谈

陈总您好,首先感谢您花费宝贵的时间来参加ArchData峰会,给大家分享拍拍信业务中的AI技术话题,正式会议前,我这里有一些问题想请教您

王公仆:之前在杭州地铁上看到过拍拍贷的广告,能简单介绍下拍拍信公司,目标客户和主营业务吗?
陈磊:拍拍信数据服务(上海)有限公司成立于2016年3月8日,始终秉承着“专注,服务,创新”的态度,以“数据定义未来,信用改变中国”的理念,致力于帮助客户解决数据应用和风险控制问题,并不断优化迭代我们的技术与服务,为客户带来更好体验。目前客户主要分布于金融行业,如互联网金融平台和消费金融持牌机构,主营业务包含但不限于信贷评分、定制化模型、信贷全流程解决方案和系统、反欺诈知识图谱。

王公仆:请您简单介绍下在拍拍信内部,AI技术被用在了哪些产品或业务中,效果如何?

陈磊:目前AI技术主要被用于以下几个方面:
信贷模型:基于深度学习的特征提取,相对于传统的专家经验提高了自动化和可扩展性,同时使得高阶特征的提取成为可能,最终模型性能有大幅提升;
图像识别:身份证信息提取和银行卡识别,帮助客户实现风控流程的自动化;
知识图谱:复杂网络的识别和挖掘,已被应用于欺诈团伙的识别。

王公仆:作为金融行业的信贷公司,请问你们是怎样进行信用建模的呢,原始数据从哪里获取呢?

陈磊:我们目前的定位是有深厚金融业积累的数据服务公司:
拍拍信可以提供客户标准化的信贷评分,也可以根据客户的需求来定制化信贷评分;
整个的模型周期基本包含数据收集, 数据清洗, 特征工程, 模型训练, 模型验证与迭代,模型上线后的自学习也是我们的一大特色;
数据来源主要包含:
a.自有积累数据
b.合作方的授权数据
c.有定制化需求客户提供的脱敏数据

王公仆:在金融信贷领域,风险控制需要做哪些工作呢?

陈磊:风控覆盖用户的整个生命周期贷前/贷中/贷后:
贷前的审核和授信;
贷中的异常监控;
贷后可能的催收。

王公仆:在线上的信贷业务,会遇到哪些信贷方面的挑战和业务机遇?

陈磊:
风险相对于线下增大,线下信贷客户真实性可控;
数据维度更多,但稀疏;
用户体验需求高,进件规模大,对自动化的要求高。

王公仆:在金融特别是风控的数据建模/数据研发方面贵公司是如何利用机器学习和大数据进行创新的呢?

陈磊:
先进算法的应用,如Boosting、Deep Learning;
大数据平台的建设,Spark集群,打通数据流和工作流。

王公仆:在大数据方面,贵公司拥有的数据量级是多大呢,一般是用哪种技术存储和计算的呢?

陈磊:目前数据在百亿级,约100T。用HDFS/Hbase存储,及Hive/Impala/Spark进行计算。

王公仆:在数据可视化方面,贵公司是如何做技术选型的呢?

陈磊:前端以E-chart为主考虑到公司处于创业初期,所以选择开源技术,再加上一部分自主研发。

比如报表系统我们使用Pentaho,多维分析使用Kylin+Saiku,然后自主研发的数据门户网站等。

王公仆:最后请问在数据安全领域,贵公司是如何保障客户数据隐私安全的呢?

陈磊:会从多个层面来保证数据安全,比如系统隔离、数据加密及脱敏。

王公仆:最后感谢您接受采访,谢谢。

原文发布时间为:2017-09-01
本文作者:王公仆
本文来自云栖社区合作伙伴“中生代技术”,了解相关信息可以关注“中生代技术”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
人工智能 算法 数据可视化
AI Earth ——开发者模式案例2:Landsat系列影像数据去云
AI Earth ——开发者模式案例2:Landsat系列影像数据去云
37 3
|
1月前
|
机器学习/深度学习 存储 人工智能
为什么AI处理私有数据,需要使用向量数据库
大语言模型通过概率和向量数据库查询来生成高质量内容,当预测概率低于阈值时,利用相似性从本地数据中获取信息,向量数据库通过向量化、表示、查询、搜索和解码等步骤,帮助模型处理未知数据。
|
3月前
|
人工智能 弹性计算 自然语言处理
【Hello AI】AIACC-ACSpeed性能数据
本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。
|
3月前
|
机器学习/深度学习 人工智能 安全
【论文速递】CSET - 小数据的大AI潜力
【论文速递】CSET - 小数据的大AI潜力
18 0
|
3天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
28 0
|
14天前
|
机器学习/深度学习 数据采集 人工智能
|
16天前
|
人工智能 Cloud Native 算法
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
|
19天前
|
人工智能 安全 数据库
AI日报:这种病毒从生成式AI工具中窃取您的数据
AI日报:这种病毒从生成式AI工具中窃取您的数据
14 0
AI日报:这种病毒从生成式AI工具中窃取您的数据
|
2月前
|
人工智能 开发者
AI Earth ——开发者模式案例8:利用Landsat-8数据进行地表温度反演
AI Earth ——开发者模式案例8:利用Landsat-8数据进行地表温度反演
29 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
数据标注是AI认识世界的起点
数据标注是AI认识世界的起点
60 2
数据标注是AI认识世界的起点