AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

1662403303338422 2019-03-26

数据存储与数据库 大数据 数据安全 迁移学习 联邦学习

雷锋网 AI 科技评论按:3 月 24 日,由 CCF 主办、微众银行和深圳大学微众金融科技研究院协办的第 14 期中国计算机学会技术前线研讨会于深圳大学科技楼二号报告厅圆满召开,研讨会的主题为「联邦学习(Federated Machine Learning):技术及数据隐私保护」。

本次研讨会由微众银行首席 AI 官、香港科技大学杨强教授主持,同时,杨强教授还进行了主题为《数据孤岛,AI 向善与联邦迁移学习》的开场致辞。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行首席 AI 官、香港科技大学杨强教授

在正式致辞之前,杨强教授就十分谦逊地强调,对于「联邦学习」这个概念,他们这些开创者也还是在一边摸着石头过河,一边在将相关的知识传授给大家,因此对于本次论坛,他们更多地希望大家一起探索这个新概念,而不是单方面的教授与聆听。也正是基于这种考量,他们特地邀请了大学教授,企业科研人员、高管以及法律专家等各界人士来一起有针对性地对话交流。

致辞伊始,杨强教授表示,对于 AI,当前人们最关心的议题就是它与社会的关系,其中两个比较重要的议题,是在两会期间由李彦宏提出来的「数据孤岛」和马化腾提出来的「AI 向善」问题。

什么是「AI 向善」?杨强教授指出:它是指在传统的只有少数人能够享受的领域,利用 AI 作为工具,让广大民众也能享受到过去 VIP 所享受的特殊服务,例如 AI 与普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救,AI 扶贫,AI +农业以及人工智能初创公司第四范式提出来的口号「AI for Everyone」等。而之所以提出 「AI 向善」则是由于:

  •  AI 系统的有偏性。比如说将男性对电影的评价的数据给到 AI 系统,它得出的结果就仅是男性的意见,而一旦公开就会被别人误以为是全社会的意见;

  • AI 系统与人类合作争夺掌控权的问题。以波音飞机为案例,波音飞机和人类驾驶员争夺驾驶权,造成飞机事故,这一事件给我们带来了很大的启示:如果不能以人为中心,将会造成灾难;

  • AI 系统的可解释性。如果监管部门不理解系统模型,这一系统就无法通过检测并无法得以使用,例如欧盟新提出的 GDPR (《通用数据保护条例》)其中就有一条法律规定自动化模型一定需要是可解释性的;

  • AI 系统的可靠性。现在的 AI 系统还不具备这一能力,这种能力不是说 AI 无法拥有,而是现在社会还不重视,因此应该得到科研人员的重视;

  • 此外,还有 AI 系统的可信性、公平性,都是「AI 向善」的重要主题。

随后他指出,虽然「AI 向善」是一个重大的议题,但是当天的论坛要聚焦的则是对 AI 系统至关重要的数据治理问题:数据越多,AI 系统的表现就越好,而这样的话就会造成数据和 AI 的寡头,例如 Google 以及国内的 BAT 等大公司,拥有巨量数据。而与之相对的则是小公司所面临的小数据场景,例如法律、金融、医疗大部分应用场景都存在小数据和「数据孤岛」的问题。

针对小数据,杨强教授从技术上提出了解决方案,包括:

(1)通过迁移学习将大数据的能力迁移到小数据上(现在 Bert 就能够对大数据场景建立大模型);

(2)将(小)数据进行融合,引入隐私和安全的需求,建立一个联邦模型。

那么如何将有效的数据孤岛聚合起来呢?第一、利用隐私安全的建模工具;第二,需要有好的安全证明,不涉及到隐私;第三,公平利益分配。有了这些工具后,这些小数据拥有者就能够组成一个跨行业的联邦学习联盟。

演讲最后,他呼吁道,建立联邦学习联盟,应该是整个社会的事情,希望社会各界都能够参与到其中来。

杨强教授的致辞之后,微众银行 AI 部门高级研究员刘洋博士带来了主题为《联邦学习的研究及应用》的演讲,她主要介绍了微众银行针对联邦学习所做的一些工作以及联邦学习当前的进展和未来的发展方向。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行 AI 部门高级研究员刘洋博士

首先,她介绍了「联邦学习」这一新概念,即大规模用户在保护数据隐私条件下的协同学习。具体而言,「联邦学习」包括自治和联合两个方面:自治是指用户在自己的终端设备中训练模型,不同的数据持有方就会训练出不同的模型,这些模型就都拥有不同的参数;联合则是指将模型的不同参数上传到云端从而实现模型的聚合,之后再将聚合的参数返回给用户,这一过程一直重复持续到训练完成为止——整个过程只上传模型参数而不上传数据,从而在保护隐私的情况下实现数据共享。

谷歌公司率先提出了基于个人终端设备的「横向联邦学习」(Horizontal Federated Learning)算法框架,在之后的一年到两年时间中,该算法框架也获得了较多的进展:

  • 在系统效率的提高和优化上,包括模型压缩、模型优化、参与方的优化选取、将联邦学习与边缘计算相结合;

  • 在模型效果的提升上,包括在数据分布不均匀的情况下提高模型表现,以及将机器学习、多任务学习等与联邦学习结合去实现用户终端的个性化;

  • 在数据安全方面,主要考虑的是模型参数的更新是否能实现保护隐私信息,对此该领域提出了两种解决方案(梯度):第一个方法是加混淆,减弱小数据对整个数据的影响;第二个方法是同态加密来保护梯度的更新。此外,谷歌还提出了 Secure Aggregation,在本地训练、秘密共享、稳定性、无个人梯度信息泄露以及半诚实假设等方面都实现了较高的表现。

同时,刘洋博士还提到,发展至今,联邦学习已延伸出三个类别:

  • 横向联邦学习——在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向 (即用户维度) 切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

  • 纵向联邦学习——在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向 (即特征维度) 切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机 器学习模型已经逐渐被证实能够建立在这个联邦体系上。

  • 联邦迁移学习——在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以 利用迁移学习来克服数据或标签不足的情况。

其中,她对纵向联邦学习的具体工作原理进行了介绍。纵向联邦学习的目标是 A 方与 B 方联合建立模型,并且假设只有一方有标签 Y,两方均不暴露数据,但可能遇到的挑战是只有 X 的一方没有办法建立模型或双方不能交换共享数据。而其最终要达到的预期为:双方均获得数据保护且模型无损失。

因而在进行保护隐私的机器学习之前,需要先对安全进行定义,其中涉及到三项重要的对比:半诚实和恶意;零知识和一些知识;恶意中心和恶意数据节点。之后再利用隐私保护下的技术工具来建模,包括多方安全计算、同态加密、姚式混淆电路、秘密共享以及差分隐私等。

在介绍联邦学习当前的进展之后,刘洋博士也提到联邦学习当前所面临的挑战和未来的研究展望。其中,挑战主要来自两个方面,一个是模型攻击;另一个则是数据攻击。而对于未来的研究展望,刘洋博士认为联邦学习应该在安全合规、防御攻击、算法效率、技术应用以及联盟机制等方向上进行发展。

最后,刘洋博士也介绍了目前联邦学习在金融领域(互联网公司+银行)、智慧城市(视觉应用+城市管理)等应用案例,并指出联邦学习生态建设应该是由开源、技术标准、商业赋能三大要素构建起来的。

刘洋博士演讲结束后,微众银行的范涛研究员也上台向大家介绍了微众银行基于「联邦学习」开发了联盟 AI 系统并开源联盟 AI 解决方案 FATE(Federated AI Technology Enabler)。FATE 是一个工业级联邦学习框架,提供了一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的支撑,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和建模,该项目开启于 2018 年,目前已在 GitHub 上(http://github.com/WeBankFinTech/FATE )实现了开源。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

微众银行联盟 AI 解决方案 FATE 负责人范涛研究员

前一位演讲者从技术的角度解释为什么要加入联邦学习联盟,南洋理工大学南洋助理教授于涵博士则从博弈论的角度讲述怎样激励拥有高数据的拥有者加入联邦学习联盟,他的演讲主题是《联邦学习中的博弈论》。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

南洋理工大学南洋助理教授于涵博士

于涵博士提到,一个数据联盟的可持续发展取决于能否持续吸引高质量的个人或机构数据持有人的参与。然而如何吸引高质量的个人或机构数据持有人参与进来?其中一个重要的课题就是量化个人或机构的收益。

在找到解决方案之前,他先为大家介绍了当前比较成熟的三类利润分配博弈中的分配方案,包括:

  • 平均主义:数据联盟产生的收益在参与者中平均分配;

  • 边际收益:按照某个参与者加入联盟时带来的边际收益确定他所应得的收益;

  • 边际损失:按照某个参与者退出联盟所带来的边际损失确定他所应得的收益。

而从系统角度考虑,总体的目标就是最大化集体效用。

然后,这些分配方案都存在各自的劣势,对此,他们提出的是联邦学习激励机制(FLI,Federated Learning Incentivizer)利益分配,这一分配方案的核心是从贡献和代价两个层面考虑怎样公平地对待参与者,在最大化数据联盟的整体效用的同时,也最小化参与者之间在「遗憾」和等待时长两个维度的不均衡。这样的话,FLI 能够同时兼顾对于每个数据拥有者可同时加入多个联盟、参与者加入/离开联盟的排序重要性、参与者加入联盟的代价、参与者加入联盟的「遗憾」以及参与者等待全额补偿所消耗的时间的考量。

演讲最后,于涵博士还用基于这套利益分配方案设计的 SmartHS 在中国「智慧民生」中的应用案例,来介绍了这套机制所带来的实际效果。他指出现有的电子政务系统依旧是工具包式的解决方案,未能解决系统层面的低效率问题,效果不明显,而 SmartHS 则实现了流程标准化,人员角色定义标准化,流程智能管理(基于联邦学习机制设计的基础理论),不仅实现了 0 排队,减少了民众所耗费的时间(办事流程使用时长平均 90% 以上)和精力,政务工作人员的业务水平也大幅提高。据悉,该项目还获得了AAAI2018「人工智能创新应用奖」。

作为本次论坛的唯一一位法律从业者,北京观韬中茂(上海)律师事务所合伙人王渝伟律师,从法律的层面强调了数据隐私保护方面的重要性,他的演讲主题为《网络安全与数据保护的立法和实践》。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

北京观韬中茂(上海)律师事务所合伙人王渝伟律师

王渝伟律师从今年的 3·15 晚会中重点关注的数据隐私问题引入,结合庞理鹏与「去哪儿」、「东航」隐私权纠纷案,淘宝公司诉美景公司不正当竞争案,上海晟品非法爬取今日头条服务器视频数据案等国内外典型案例讲述在日趋严密的立法和频繁的执法下,企业如何建立数据合规体系并提升自身数据安全能力。

以上海晟品非法爬取今日头条服务器视频数据案为例,王渝伟律师指出,本案所涉内容是当今互联网企业所面临的一个普遍问题,该案件中的上海晟品网络科技有限公司利用爬虫技术抓取了字节跳动服务器视频数据,是违法法律规定的犯罪行为,处罚轻则拘役、重则判处有期徒刑。

对于这一案例,他也为相关企业提出了对策,一是要评估想要爬取的数据的开放程度和被爬取方的意愿;二是要考察数据的类别,判断数据是否为个人信息、版权内容或商业秘密。

演讲最后,他表示,关于数据隐私问题的解决,一方面是需要政府立法来制约对隐私数据的侵犯;而另一方面,「杨强教授他们提出的联邦学习或许是一个不错的思路」。

第四位出场的演讲嘉宾是第四范式联合创始人、首席研究科学家陈雨强博士,他的演讲主题是《联邦学习——AI For Everyone 的必经之路》。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

第四范式联合创始人、首席研究科学家陈雨强博士

他首先介绍了科学上的四个范式:第一范式是实验科学,强调发现现象、记录现象和重复现象;第二范式是理论科学,强调设计理论解释现象;第三范式是计算科学,即通过计算模拟现象;第四范式则是数据科学,即通过数据解释现象。他强调,第四范式是科学发展的未来。

随后他回归主题,为大家呈现了 「AI For Everyone」 的所需要经历的阶段:

  • 起点是专家系统,其以专业程度决定人类智能程度,难以处理所有边界,应用门槛非常高;

  • 第二个阶段是高维学习,需要构建复杂模型寻找规律,能够解决产品化、标准化问题衱智能程度门槛;

  • 第三个阶段,即现在,则是 AutoML,能够解决智能构建门槛,即每个人都能够构建自己的模型了,然而此时要需要解决的是数据门槛问题,因而未来的发展方向则是——

  • 第四个阶段:联邦学习。

随后他从机器学习的工业落地角度,指出工业界的机器学习最大的特点应该是可扩展——包括两个层面的可扩展:一方面,数据处理的吞吐随着集群、机器数的增加而增加;另一方面则是智能水平/体验的壁垒随着业务/数据的增加而增加。而工业大数据则需要高 VC 维模型,意味着需要高复杂度的模型或函数以及非常强的机器学习能力。

总体而言,工业界所需要的高 VC 维机器学习系统,需要在数据、特征和模型三个方向寻求提高和优化。而由于数据门槛较高,一般的做法是沿着特征和模型两个方向走。

  • 沿着模型方向走,是由学术界(ICML、NIPS、ICLR)在主导,其往往利用非线性的三把宝剑——Kernel、Boosting 和神经网络(目前用得最多的方法),实现了模型大部分可单机加载,并解决了数据分布式问题,降低系统 overhead;而工业界则针对应用定制模型,其重点考虑的是什么模型更符合场景数据、泛化能力以及非线性组合能力更强,一般会基于专家思考或者观测得到的假设,加入新的模型、结构以获得更多参数来构建机器学习系统。

  • 沿着特征方向走,则是由工业界(KDD、WWW)在主导,其使用的模型相对比较简单粗暴(是优点也是缺点),在分布式计算和工程特征方面所面临的挑战较大,因此重点考量的是实现高效并行并保证快速收敛。对此,工业界一般会针对应用定制特征,重点探索特征产生的原因、方法并理解特征。

然而目前,工业界应用机器学习依旧存在诸多难题,一方面是对于 AI 应用平台的需求巨大;另一方面则是人工智能还没有真的大规模应用到每个企业。以特征工程为例,要求该领域的研究者对机器学习与业务都有非常深的了解,而目前可以用来优化特征工程的方法有:隐式特征组合(NN、FM)、半显式显示特征组合(GBDT)以及显式特征组合(特征叉乘)。

最后,他表示,现在他们在尝试解决的是 「AI For Everyone」的问题,而下一步则是要解决数据的问题。第四范式也在杨强教授的指导下,开展联邦学习的研究,主要的研究思路包括隐私保护和知识迁移,并且相关的成果目前已经应用到医疗领域中。

最后一位出场的演讲嘉宾是京东智能城市研究院资深研究员、京东城市计算事业部 AI 平台部负责人张钧波博士,他的演讲主题是《城市计算与跨域学习联合建模》。他主要从城市计算的偏应用的角度,讲述联邦学习对于该领域的意义。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

京东智能城市研究院资深研究员、京东城市计算事业部 AI 平台部负责人张钧波博士

首先,他对「城市计算」(Urban Computing)的概念进行了介绍,即通过城市数据的采集、管理、分析挖掘和服务提供,解决交通、规划、环境等问题。然而由于数据异构、多源性及时空动态分布,目前城市计算面临着城市感知的数据缺失这一重大挑战。其中时空大数据因其空间上的临近性、层次性和时间上的周期性、趋势性等特性,更是城市计算亟需解决的问题。

随后,他以 AI 预测城市区域人流量及流转、基于大数据和 AI 的空气预测预测、基于 AI 和城市大数据管网水质量预测等应用场景为例,介绍了京东在城市计算方面所做的一些工作,然而这些工作都尚且无法很好地利用到目前已经存在的一些数据积累,包括:智慧城市建设中,各个政府机构已经建立的各种信息系统或数据平台;大型企业尤其是央企国企累积收集的各类海量数。同时,随着当前一些社会重要发展项目需要联合政府和大型企业事业单位数据共同完成,打破各机构间的数据壁垒成为需要。

而这样的需求所对应的则是一系列挑战:

一是数据安全问题,无论是欧盟的 GDPR,还是《中华人民共和国网络安全法》都对数据隐私提出了严格的规定;

二是跨平台场景复杂,例如数据共享存在数据孤岛、不同政府机构和企事业单位平台架构不同、数据加密登记多样、数据类型及标准多样化等方面的限制;

三是现有模型算法还无法完全实现保护原始数据隐私不被泄露、保证模型准确率和效率、网络安全、模型可解释性和置信程度等目标。

对此,京东通过跨域学习联合建模,建立「联邦学习+随机森林」的联邦随机森林、「联邦学习+逻辑回归模型」的联合企业信用评级模型、「联邦学习+地块特征学习」的智能地块(区域)排序模型等,来打通数据壁垒,解决数据孤岛问题。

本次论坛的最后一个环节便是由杨强教授、张钧波博士、陈雨强博士、于涵博士、王渝伟律师以及特邀嘉宾——微众银行人工智能部副总经理陈天健先生一同参与的圆桌论坛,主题为《探索联邦学习之机遇与挑战》。

AI 大数据在数据隐私保护下如何普惠共享?CCF TF「联邦学习」研讨会给出了答案

杨强教授、张钧波博士、陈雨强博士、于涵博士、王渝伟律师、陈天健先生一同参与圆桌论坛

以下为编辑整理的对话实录:

1.

杨强教授:联邦学习作为一项新的技术,肯定还存在许多大家暂时还想不到的问题。比如说联邦学习将数据合并后,原本是在合并中心进行建模的效果是最好的,但是由于各种原因,同时需要保护隐私,要将这些数据分布到各个数据持有者的终端,这无疑要损失些东西。我想问大家的是,损失的是什么?以及损失的指标对业务的影响有多大?

陈天健先生:这个问题是有正反两面性的。一方面联邦学习给大家带来了很大的机遇,拥有小数据的公司不再需要通过打破大数据拥有公司的数据垄断,而可以通过联邦学习这一技术享受到大数据的好处;另一方面,这也带来了一些挑战,比如说过去的数据在融合以后是完全透明的,可以以非常传统的方法进行加工处理,然而通过联邦学习融合数据,数据的特征必须通过联邦化、加密等协议进行数据加工,这样的话数据会受到一定的限制。

2. 

杨强教授:有两位腾讯的同学私底下问了我一个问题:假如两方合作联合建模时,一方有 Y,一方没有  Y,那没有 Y 的那一方就无法进行建模,这样的问题该如何去解决呢?

陈天健先生:实际上,有 Y 的那一方往往也是有实际应用的一方,由其来主导规定协议,也是非常合理和公平的。

陈雨强博士:补充一下。我认为可能存在一种情况,例如腾讯旗下的业务矩阵是天然拥有很多数据的,如果它另开了一个新产品,而这个产品可能是没有 Y 的,实际上如果存在这样的场景,现在是已经有技术能够将所有的数据共享过来的,而且实现的效果还挺不错。

3. 

杨强教授:现场来了很多大学生、研究生和博士生,他们也正在寻找新的研究课题,各位对于他们有什么可以提供的建议吗?

张均波博士:实际上,每个阶段的学生倾向做的课题方向可能不太一样。一般博士可能会倾向于去做一些学术型的课题,而本科、硕士则可以去选择一些偏应用型的课题。

于涵博士:我从博弈论的角度补充一下。一个方面是我们学校的联合研究院也有很多面向学生的研究项目,例如联邦学习的分配课题;另一方面大家也可以思考一下其他方向的课题,比如说当两方建立联邦学习联盟时有第三方来捣乱,是否有什么方法来将第三方也融入进来呢?立法又会对 AI 的创新造成什么影响呢?

4. 

杨强教授:国内的数据法律往往是由一些具体的案例驱动的,稍微有些滞后性,国内立法为什么是这样的现象?以后是否会有改变,我们是否能像欧洲一样提前提出相关法规,在全世界起到领导性的作用?

王渝伟律师:目前国内的立法确实存在这样的问题。但是实际上,有些立法很早就出来了,只不过国家体制下的立法周期比较长,最终的明文出台会比较滞后。同时加上大家对于这些立法的直观感受不是很强,因此会产生一种国内立法滞后的印象。不过,国内的立法的水平可能确实没有那么高,因此在实施的过程中,大家也都普遍感觉效果不是很好。我们也希望这种现状有所改变,但是这个是跟国家立法机构本身的制度相关的,我们律师也会经常去国外跟其他律师交流,也在做这方面的努力和尝试,大家可以期待一下。

(完)

雷锋网 AI 科技评论报道    雷锋网(公众号:雷锋网)

登录 后评论
下一篇
corcosa
9257人浏览
2019-10-08
相关推荐
0
0
0
453