我是黄士杰,AlphaGo人肉臂

8月前 274

本文来自AI新媒体量子位(QbitAI)

许峰雄绰号“CB”。

1980年,许峰雄(Feng-Hsiung Hsu)从台湾大学本科毕业,1985年考入卡内基梅隆大学。1988年,CB制造出国际象棋程序Deep Thought(深思),后来经过学弟李开复介绍,1989年加盟IBM继续展开研究。

1997年

这一年5月11日,卡斯帕罗夫与Deep Blue(深蓝)的第二次国际象棋人机大战落幕,最终人类棋王以2½-3½的总比分,不敌IBM的超级电脑。

这是载入人类历史的一战。

Deep Blue,就是CB许峰雄在IBM开发出的新一代国际象棋电脑程序,棋力数百倍于早先的Deep Thought。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 卡斯帕罗夫与深蓝的国际象棋人机大战

同年7月,台北成功高中的黄士杰参加联考。当年国文试题第15题,B选项是:现代电脑的优点多得「罄竹难书」令人不得不叹服 。

黄士杰最终考入台湾交通大学,四年后获得计算机与信息科学学士。2001年,黄士杰考入台湾师范大学攻读研究生学位。

2003年,黄士杰硕士毕业。毕业论文:《电脑围棋打劫的策略》。在学校当了一年的研究助理后,2004年,黄士杰再次考入师大资讯工程研究所博士班。

2007年

这年2月28日,台湾师范大学的学生组织了一次围棋同好聚会。随后这个定期的聚会,发展为师大围棋社,黄士杰是其中年纪最大的学长,并担任首届社长。3月,黄士杰拟定了首次对战分组表,比赛地点在男生宿舍地下餐厅。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 左一是师大就读期间的黄士杰

同年5月,黄士杰带领师大围棋社参加台湾大专杯围棋赛。曾经有台湾媒体报道称黄士杰曾经带领师大围棋社在这项比赛中夺冠。不过量子位仔细查找后发现,师范大学仅在2009年获得过第五名,其他年份均榜上无名。

同一赛事15个级别的个人战中,前八名也没有看到黄士杰的名字。2004-2011年间,黄士杰一直博士在读,而他的棋力水平是业余六段。

虽然没能在人类的围棋赛中获得瞩目成绩,但黄士杰在另一条路上继续进发。他的一个主要战场是国际计算机游戏协会(ICGA)组织的电脑棋类程序竞赛。顾名思义,来自全世界的电脑高手,在象棋、围棋等领域展开斗法。

在这个比赛中,黄士杰的名字写作:Shih-Chieh Huang。

2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。此后几年,黄士杰开发的围棋程序参赛成绩一直没有亮眼的成绩。

2010年

这一年9月,哈萨比斯(Demis Hassabis)等三人在英国伦敦合伙成立了一家新公司,名字叫做DeepMind。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 2010年黄士杰开发的Erica击败Zen获得冠军

同一个9月,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

因为Erica的夺冠,让黄士杰在参加博士毕业答辩前,就已经获邀前往加拿大阿尔伯塔大学攻读博士后,并担任电脑围棋程序的研究员。他的博士论文题目是:《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。

2011年6月,黄士杰博士答辩通过,7月1日,黄士杰飞赴加拿大。

此时,他后来会遇到的席尔瓦(David Silver),早于一年前从阿尔伯塔大学离开,前往伦敦大学学院。在伦敦,席尔瓦会遇到哈萨比斯。

到阿尔伯塔大学后,黄士杰继续研究蒙特卡洛树搜索。他还浅度参与了Fuego的开发,这个团队里还有Markus Enzenberger、Martin Müller等人,这个围棋参加了当年的ICGA大赛,不过可谓一无所获。

当年11月,夺冠的还是Zen。

时间再过一年,2012年11月,黄士杰也来到伦敦,加入DeepMind担任高级研究员。至少从这个时候开始,黄士杰开始用新的英文名:

Aja Huang。

2014年初

加入DeepMind的两年里,黄士杰似乎没有重大的研究成果。从论文发布量上看,也是如此,2014年前几乎搜不到他发的论文。

然而事情很快有了转机。

2014年1月26日,Google宣布5亿美元收购DeepMind,拿下这家日后会大放异彩的初创公司。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 左为哈萨比斯,右为席尔瓦

有一天,席尔瓦走到黄士杰面前说:“Aja,我们准备启动一个围棋项目。最开始只有你和我”。2014年2月,AlphaGo项目正式启动,团队三个人:哈萨比斯、席尔瓦、黄士杰。哈萨比斯是整个公司的老板,席尔瓦是黄士杰的经理。所以,这个团队真正干活的只有黄士杰一个人。

AlphaGo项目,就是想搞出一个强大的围棋程序。而且从一开始,这个团队就决定不会尝试所有的方法,他们只有一个方向:沿着深度学习和强化学习的方向探索。也是从一开始,他们就知道这是一个非常困难的挑战。

哈萨比斯说,希望通过AlphaGo的研究,让机器获得直觉和创造力。

而更现实的困难是,与国际象棋相比,围棋的计算空间巨大,而且电脑无法理解一盘棋到底谁获得了胜利。

但他们就这样出发了。

2014年6月-2015年6月

这年夏天,AlphaGo的第一个重要武器出现了。在卷积神经网络的帮助下,AlphaGo学习了很多人类高手的棋谱,能在3毫秒内做出比肩人类的下棋直觉。后来黄士杰给这个武器命名:“策略网络”,并且持续进行训练优化。

这个时候,AlphaGo的训练还是在GPU上完成的。

时间再过一年。2015年6月,AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升,可以检索多种局面变化,并且找到最佳的应对方式。这个时候的AlphaGo,可以算出后续40-60步棋。

(量子位注:击败柯洁的最新版AlphaGo,也只算到50步棋就停止了。)

当时在相同的硬件条件下,AlphaGo对另一个围棋程序Crazy Stone取得了70%的胜率,换句话说棋力领先了一个子。这个成就让整个DeepMind都很受鼓舞,哈萨比斯这时候对黄士杰说:

“Aja,咱们要组一个团队,你不用再单打独斗了”。

从这时候开始,逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班,普及基本的围棋规则。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 黄士杰

2015年8月

与此同时,另一个重要的节点已在不远。两个月后,AlphaGo将掌握称霸围棋世界最关键的能力:形势判断。

“事实上,形势判断是围棋过程中最难、最令人头疼的环节,要进行准确的判断,必须具备精确测算双方目数的能力,同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋,形势判断十分必要。”

上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从1992年夺得第一个世界冠军开始,到2007年为止共获得18次个人冠军、13次团体冠军,开创了“李昌镐时代”。

AlphaGo如何获得形势判断的能力?

解决这个问题的人是席尔瓦。有天他对黄士杰说:“Aja,我有一个主意,我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑,他回复说:“能管用么?咱们试试吧。”

价值网络也是一个卷积神经网络,输入是落子位置,输出0-1之间的数字,0代表对手胜利,1代表自己胜利,如果差不多就输出0.5。(量子位注:Google最近公布的数字是-1~1,略有不同)。

总之,AlphaGo通过自我对弈,训练出价值网络,进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。

价值网络的出现,让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中,AlphaGo胜率达到95%,也就是达到让两子的水平。

“当时AlphaGo已经可以碾压我了,我已经感觉到它的强大”黄士杰回忆说。

2015年10月

也是8月,樊麾在参加欧洲围棋大会,回到法国的家中。他收到一封电子邮件,发件人是AlphaGo团队的Maddy。邮件内容非常简单:我们是一家伦敦的公司,希望邀请你来我们公司。也没有更多信息。

樊麾一度认为是垃圾邮件。但鬼使神差,他回了邮件说:“可以呀”。然后他们用Skype进行了在线沟通,席尔瓦当时也参加了,他们给樊麾讲述正在做有趣的项目,也讲述了自己是一家Google收购的公司。

随后樊麾上了DeepMind的官网,确定有这么一家公司,以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。

双方第一次见面是9月底,当他确定自己要跟一个围棋程序对弈时,整个人一下就放松了,心说:“对付一个软件,还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。

当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 最后一局樊麾为自己的失误懊恼不已

2015年10月5日-9日。樊麾再赴伦敦,跟AlphaGo大战五回合,当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道,樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。

和樊麾的比赛结果,DeepMind一直到2016年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天,樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话:“千万不要上网看评论,说的可难听了。”

聂卫平当时评价说:“樊麾水平太低,给我们丢脸了。”

2016年

1月27日,《自然》杂志以封面论文的形式,介绍了DeepMind团队开发的AlphaGo,以及它击败了欧洲冠军樊麾的消息。

席尔瓦和黄士杰,并列作为这篇论文的第一作者。

在击败樊麾之后,AlphaGo的价值网络、策略网络和搜索能力都在继续增强,使用的硬件也从GPU换成TPU。TPU让AlphaGo的计算能力获得极大提升。

3月9日-15日,AlphaGo和李世乭大战五场。最终AlphaGo以4:1取得胜利。当时坐在李世乭对面,代替AlphaGo落子的还是黄士杰。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 左一为黄士杰,中间坐着的是樊麾

黄士杰第一次出现在全球观众的视线里。

黄士杰像机器人一样,出现在李世乭和全球观众的视线里。

李世乭后来回忆说:“黄士杰是此次人机对弈中最辛苦受累的人,他担心我会受到影响,对弈期间,他一直面无表情,甚至连一次洗手间都没去过”。

一次对弈,最长可能耗时近6个小时。在与李世乭的无论对弈中,黄士杰只喝过一口水。黄士杰的这种表现,甚至走进了对手的梦里。

有次酒店的早餐送来后,李世乭的妻子唤醒他起来吃早饭。没想到李世乭竟然回答说:“嗯,我要和Aja一起吃。”

与李世乭的比赛之后,黄士杰有过短暂的休假,几乎没有采访报道留下。一位名叫Fred Zhou的中国记者告诉量子位,在韩国比赛期间,黄士杰并不被允许接受采访,据说是因为他习惯于表达的毫无保留。

再后来DeepMind放出了棋谱,AlphaGo继续新的成长。这年11月18日,黄士杰总结说:“最近我的一个心得是,人的进步最多是用跑的,电脑的进步却是用飞的”。

在这一年即将结束的时候,AlphaGo又回来了。2016年12月30日,Science News发布了一条推特,基本跟内文无关,推文如下:

AlphaGo: “Now, I am the master.”

2017年

事情从2016年12月29日晚开始,一个用户名为“Master”,标注自己是韩国九段的棋手,连续在弈城和野狐围棋平台大杀四方,连续“斩杀”各路围棋高手,包括:柯洁、朴廷桓、井山裕太、陈耀烨、申真谞、常昊、古力、周睿羊……

Master挑起的这场战斗,以60连胜顶级高手而告终。其中柯洁连输三场,期间因为急性肠胃炎而人生第一次住院,这一经历也被编成调侃的小段子。

取得第59场连胜之后,Master在聊天室公布了自己的身份:“我是AlphaGo的黄博士”。果然是AlphaGo,果然又是黄士杰。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 黄士杰自报身份

“非常期望今年能有机会与围棋组织以及专家共同探索围棋,在相互启发的气氛中共同领会围棋的奥妙。我们希望尽快发布其他公告”,哈萨比斯在稍后的正式声明中说,这再次暗示了AlphaGo与柯洁的大战即将进行。

4月10日下午三点,在中国棋院的发布会上,正式宣布柯洁与AlphaGo的人机大战5月底开打,柯洁当时表态会不惜一切手段与AlphaGo一决胜负:“我不会说输了无所谓,我抱有必胜的心态和必死的信念”。

5月23日,雨从早下到晚,围棋人机大战如期举行。柯洁对面,坐着的仍是黄士杰,仍然作为AlphaGo的人肉臂代为落子。

柯洁旁边的桌子上,除了一个水杯,还有两盘水果和零食。而黄士杰这边的桌子上,只有一个白色的瓷质水杯。三场比赛皆是如此。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 双方对弈的最后一局

每场比赛结束后,黄士杰都会很快的从对局室,返回现场的观赛大厅。但他只是静静的站在一个角落,低头看着自己的手机,有时朝台上看看,等待柯洁等人站在聚光灯下,而身材不算高大的他时常会被身边的人挡住。

第二场对战结束后,柯洁在台上谈起黄士杰:

“黄博士作为AlphaGo的核心人物,非常了不起。我觉得,他坐在我面前就像个机器人一样(笑)。如果是古力坐在我对面,他可能看到AlphaGo的下法可能会露出惊讶的表情。”

“黄博士来摆棋,可能更让我有和AI对战的感觉。我也特别佩服黄博士,大家看直播也能看到我很爱动,总喜欢活动身体,而黄博士总是一动不动,不上厕所、不喝水、也不吃东西……所以跟黄博士下棋时,我觉得黄博士就是AlphaGo。”

当时哈萨比斯也说:“黄博士非常不可思议,有时候我们也觉得他是个机器人。我想他之前一定对着镜子练过”。

2017年5月27日

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

“最后一局即将开始,我要亲手下出AlphaGo的每一步棋”,人机大战最后一天的上午9:35,黄士杰在朋友圈发了这样一句话。

量子位当时就有一种异样的感觉。一是黄士杰从来没有在赛前发声,二是这话里明显有着隐忍而又强烈的情绪。

最后一战,柯洁一样情绪强烈。

那天下午1点06,对局中的柯洁摘下眼镜,神情沮丧。两分钟后,柯洁起身离席。代替AlphaGo落下第127子的黄士杰博士,赶紧拿起杯子喝了一口水。随后黄士杰又恢复平静的表情,一直低头看着棋盘。

时间过了很久,离席的柯洁还没回来,黄士杰也开始抬头张望。十多分钟后,柯洁终于回来。后来我们知道,柯洁躲在现场的宣传板后,哭了。

下午1点22分,柯洁又抹了抹眼角。此时双方行至第129手。

经过209手的交锋,柯洁再负AlphaGo。

“其实今天下棋的时候我有点失态了,因为它(AlphaGo)下得实在是太完美了……我只能猜得出它一半的棋,这就是我和它之间巨大的差距”,赛后柯洁在台上哽咽讲出最后一战的感受。

稍后不就,同在台上的哈萨比斯表示,AlphaGo从此“退役”。这时量子位才多少理解了黄士杰早上那条朋友圈的意义。

上述种种发生的时候,黄士杰就坐在台下第一排,正中间的位置,抬着头静静地听着。看不到他有什么表情,也看不到有什么动作。也仍然没有上台发言的机会。有媒体靠近,黄士杰仍是那句:他们不让我接受采访。

5月28日凌晨0:34,黄士杰在朋友圈发出这样一句话:“天下没有不散的筵席,我转往其他专案的时刻已到”。

一切就这样收官了。

这是载入人类历史的又一战。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

最后

“这几年,特别是来到英国工作之后,有时候我觉得人生就像做梦一样。在团队与同事们的身上,我也看见了人因梦想而伟大的真实意义”,年初有同事问黄士杰以前研究电脑围棋时有没有想到今天,他写下这样一段话。

从开始到现在,黄士杰看着AlphaGo的出生、成长、名满天下。黄士杰一直以AlphaGo人肉臂的样子出现,像一个机器人一样。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

但黄士杰,远远不止是AlphaGo的人肉臂。

他也绝不是一个冷漠无趣的机器人。

不信你听听下面这首黄士杰弹的乐曲,这是黄士杰初二时从音乐班转学后创作的。在音乐课的前一晚,黄士杰准备了这首曲子。


互动时间

量子位在这次人机大战期间,获得了几个核心人物的签名。如下图所示,你能认出来这几个签名,到底都是谁么?

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

在量子位微信公众号(QbitAI)对话界面,回复:“阿法狗”三个字,立即揭晓答案。

【完】

本文作者:舒石
原文发布时间: 2017-05-31

AlphaGo 人机大战 机器人

作者

行者武松
TA的文章

相关文章