人类知识多余?Deepmind新一代AlphaGo Zero自学3天打败AlphaGo

简介:

AlphaGo Zero3天时间就能达到击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。

今天凌晨,谷歌旗下Deepmind人工智能团队发布了一篇轰动AI界的论文,《Mastering the game of Go without human knowledge》(在没有人类知识的情况下掌握围棋),一句话总结这篇论文,他们研发的AlphaGo大表哥AlphaGo Zero能够在没有人类围棋对弈数据的情况下,直接通过自我纯强化学习,于短短的3天自我训练时间后,以100:0的战绩击败曾经的AlphaGo。

\

学霸中的战斗机,大表哥AlphaGo Zero完全靠“悟性”登上围棋巅峰

在下面的视频中,DeepMind研究人员简单的介绍了新一代的AlphaGo Zero的基本原理,

DeepMind联合创始人兼CEO Demis Hassabis表示:“AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。”

举个简单的例子,AlphaGo是经过大量的人工对弈数据学习和训练才一点点登上围棋的巅峰,它之所以能在去年打败李世石,并且在今年以Master的身份战胜排名世界第一的柯洁,都依赖于海量的人类对弈数据。

但是它的大表哥AlphaGo Zero是从一个完全不懂围棋知识和规则的神经网络开始,AlphaGo Zero每天就默默的自己一个人玩,不会像我们一样整天突击学习各种历史棋谱,参考前辈们的经验知识,它完全依靠自己的悟性(自我强化学习),在这个过程中,神经网络会不断更新、调整,来预测落子的位置,发展新的策略。

\

值得注意的是,AlphaGo Zero的自我训练强化时间更短,AlphaGo Zero只需要在4个TPU上花三天时间,自己左右互搏490万棋局。而它的大表弟AlphaGo需要在48个TPU上,花几个月的时间,学习三千万棋局,才能打败人类。对于AlphaGo Zero来说,3天时间就能达到了击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。

\

AlphaGo Zero给我们的启发

Deepmind的论文中也公布了AlphaGo Zero的一些技术细节,现在也有不少文章分享了相关的技术原理,镁客君简单的整理一下,其实主要在于AlphaGo Zero有更深的网络能更有效地直接从棋盘上提取特征。

\

AlphaGo Zero在自我对弈中,在每一个落点s,神经网络fθ都会进行蒙特卡洛树(MCTS)搜索,得出每一步落子的概率π,再根据游戏规则计算出最终的获胜者z,这一过程可被视为一个强有力的评估策略操作。在这其中,神经网络参数不断更新,落子概率和价值 (p,v)= fθ(s)也越来越接近改善后的搜索概率和自我对弈胜者 (π, z),而新的参数也会被用于下一次的自我对弈来以增强搜索的结果。

更多的技术原理可以参考下面的论文:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

其实AlphaGo Zero之所以会一石激起千层浪,很大原因在于这种自我强化训练,不需要过多人工标注样本的自我强化训练未来可能的应用前景。

想象一下,以后可能再也不用花费大量的时间去为人工智能的应用或者产品做海量的数据准备工作,更何况很多情况下,数据的获取难度也非常之大。

尤其是很多小样本应用领域内,大量的人工标注几乎不可能实现,比如医疗数据方面,考虑到数据隐私性,以及各个医院之间的互通性,这些都让海量数据获取和训练难上加难。

\

而Demis Hassabis认为AlphaGo Zero的意义在于,“我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”

AlphaGo Zero的技术理论是美好的,但是我们也需要思考的是,这种仅仅依靠神经网络算法来解决实际问题,其实际应用的范围到底有多大以及效果如何?

人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授表示,早期人工智能火了之后,被神经网络“解决”的实际问题寥寥无几;美国密歇根大学人工智能实验室主任Satinder Singh也表示,人工智能和人甚至动物相比,所知所能依然极端有限。

回顾AlphaGo成名史,聊聊AlphaGo Zero的下一步

出生于2014年的AlphaGo,2015年就击败了樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序。到了2016年3月,AlphaGo在和李世石的对战中一举成名,4:1的胜绩让它成为有史以来第一位非人类的名誉职业九段;之后升级版AlphaGo以“Master”的称号,挑战了中韩日台的一流高手,最终60战全胜;2017年,AlphaGo在浙江乌镇,和我国围棋选手柯洁进行对战,最终以打败柯洁成为世界第一正式退役谢幕。

那么对于AlphaGo Zero,大家也非常期待它会以什么样的身份正式亮相,镁客君觉得可能会是这样的情景:

今年8月的时候,DeepMind 曾公开宣布,星际争霸 2 将会是其下一个目标。自学能力如此强的AlphaGo Zero极有可能会在星际争霸AI中亮相。

\

和围棋对弈相比,星际争霸 AI 也是基于开发者人工编写的规则和策略,此前的对战中,AI会观看海量的比赛数据,然后尝试各种不同的策略,在反复的训练和学习后,从其中选出最有可能获胜的一种。可以想象,按照AlphaGo Zero的自我强化学习能力,它完全能够在自我博弈过程中去寻找到最佳的策略。

最后,在看到柯洁发的这条微博动态后,

\

一声唏嘘,在这样的人工智能面前,人类的学习经验价值似乎越来越低,人类会太多余吗……


原文发布时间: 2017-10-19 12:09
本文作者: 巫盼
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
|
人工智能 算法 Go
人工智能称霸围棋,吾感觉不可思议
人工智能称霸围棋,吾感觉不可思议
73 0
|
机器学习/深度学习 人工智能 算法
洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习
美国计算机协会会刊(CACM)9 月发表了《强化学习的复兴》一文,深度介绍了强化学习的运用及其与深度学习的比较。强化学习是机器学习的主要三种类型之一,被应用在多种训练任务中。我们熟知的 AlphaGo 中就用到了大量的强化学习。「人工智能研学社· 强化学习组」将强化学习作为第一期学习内容,与大家分享有关深度学习的基本知识。本期教学内容推荐 Rich Suntton 教授关于强化学习的演讲视频——强化学习介绍及与函数近似结合的讨论。
241 0
洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习
|
机器学习/深度学习 人工智能 搜索推荐
AlphaGo 4:1战胜李世石,我们需要更好的理解人工智能
AlphaGo 与李世石的人机世纪大战落下帷幕,在最后一场比赛中,我们第一次见证了 AlphaGo 进入读秒阶段,最终 AlphaGo 战胜了李世石,在5局比赛中以4:1的绝对优势取得了胜利。在这样一个历史性时刻,已不再需要关注某一局比赛,而是应该从更加宏观的角度去思考人工智能。
253 0
AlphaGo 4:1战胜李世石,我们需要更好的理解人工智能
|
机器学习/深度学习 人工智能 算法
AlphaGo 3:0 战胜李世石,机器与人类的共同胜利
在刚刚结束的AlphaGo对战李世石第三局中,AlphaGo战胜李世石,从而最终获得了本次挑战赛的胜利(依然要比完五局),也预示着人工智能首次在围棋领域击败了人类顶尖选手。
319 0
|
机器学习/深度学习 人工智能 算法
2017 AI四大成就:自学写代码、发现新太阳系、击败围棋高手、击败无限扑克高手
2017年AI都有哪些耀眼的成就,除了大家耳熟能详的AlphaGo,还有自学写代码的AI,能发现另一个太阳系的AI。
1795 0
|
机器学习/深度学习 人工智能 算法
【AlphaGo之后会是什么】一文读懂人工智能打德扑
攻克围棋后,什么是AI的下一个征程?打扑克!相比信息完全可见的围棋,能够猜疑、虚张声势的德扑要困难得多。冷扑大师Libratus是首个在无限手一对一德扑中战胜人类职业玩家的AI,相关论文也在NIPS 2017获得了最佳论文奖。
1687 0