【高考40周年】机器人数学考了134分，要上清华北大NLP是最大难关-阿里云开发者社区

2017年6月7日，高考恢复后的第40届高考如期而至。40年前，人们为新时代的开启欢呼雀跃。40年后，从高考走出的一代又一代学子正在不断探索科技的新前线——在人工智能领域，科学家们正在努力让机器通过“高考”，创造能适应时代发展的机器智能。

这个夏天，正在高考如火如荼的举行之时，国内一些前沿的技术公司、教育公司都发起了让机器人挑战高考的活动，比如科大讯飞、学霸君和准星机器人等。6月6日晚，科大讯飞轮值总裁吴晓如在直播平台上介绍“高考机器人”；6月7日晚，学霸君智能教育机器人将与四位往届高考状元现场PK；准星机器人也在挑战高考数学卷。

134分，机器人的数学水平能碾压多少人？

6日晚，机器人高考成绩出炉。学霸君的Aidam首次与6名高考理科状元在北京同台PK，解答2017年高考文科数学试题。Aidam的成绩为134分，6名状元的平均分为135分。Aidam答题耗时9分47秒。“学霸君”创始人张凯磊介绍，为了展示，Aidam今天答题放慢了六倍速度，平时每道题完成时间应该在7-15秒。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

同时进行的另一场机器人高考测试中，“准星数学高考机器人”AI-MATH测试北京文科数学试卷估分105分，用时22分钟。据报道，AI-MATH也答了全国卷，得分100，用时10分钟。

学霸君创始人张凯磊在接受蓝象营的专访时表示：“学霸君用的是 SVO 模型，当 SVO 模型工作的时候，就是在传递一个最小可用的信息模型。传递过后再进行符号计算和逻辑推理。我们向计算机内输入公理、定理，跟经典题目形成一系列的计算规则。然后快速做搜索，穷尽计算规则，看它能不能解出来。这两部分是计算机相对而言比较擅长的。最后，它会把形式语言变成自然语言输出，让人能读懂步骤。”

新智元了解到，未来学霸君的所有合作都会通过蓝象资本开放。

学霸君的首席科学家陈锐锋对新智元介绍，Aidam 的解题过程涉及到三个步骤：

1）自然语言翻译成机器能理解的形式语言，这里主要可以用RNN的一套机制，把题目翻译成以“主谓宾”为单位的最小描述单位，用于描述题目的各种状态。

2）进行推理和运算。这也是一个多层网络。区别在于数学计算（比如函数的最大值）在目前有很多运算比较难以用简单的RNN或者CNN等去模拟。学霸君采用了一类叫做知识元网络的方案，把知识的基础运算连接成网络。

3）形式语言翻译成自然语言。解题引擎预测出解题步骤之后，输出的是一些形式语言，这时候可以对其进行一个翻译，再转换成人可以理解的自然语言。

关于训练量，陈锐锋对新智元说，高考机器人已经做过和尝试做超过一千万的问题。因为机器解题是很快的，这个跟显示学生是不可同日而语的。“我们的AI学产品上平均学生在单学科上每天的做题量不超过40道，所以，这个对比是悬殊的”，他说。

张凯磊说：“我们有400台至强十二核 64G 内存的服务器加上1000台左右的辅助服务器，这400台基本都是 Tesla，容量很大。一个Aidam 的背后大概有7个引擎，代数和几何使用的是完全不同的引擎，从算法、逻辑到推理全都不一样，技术上难度很大。数学公式非常重要的是需要翻译成 LaTex ，通过 LaTex 进行阅读理解和输出。Aidam 每天训练30万道到50万道题目，训练时间基本是全天的。但是因为白天有大量的中断性测试，所以晚上训练的时间更长。”

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

高考机器人：国家立项，两条腿走路

科大讯飞是863类人答题机器人项目的测试组织单位，他们认为，要客观的评价“机器人”参加高考的水平，要确保以下几点：

要有权威的第三方来主导和主持测试，包括测试机器的准备、测试系统的安装以及测试过程的操作；
参加考试的机器，要确保处于断网的环境；
测试试卷必须是原创的新题，在测试试卷实际完成测试之前，确保参测方无法获得试卷；
测试过程要求输出详细的机器处理的中间过程，备查。

2015年7月，国家启动“高考机器人”项目，作为我国在人工智能技术领域新一轮创新的重要起点。“高考机器人”是国家863计划信息技术领域“基于大数据的类人智能关键技术与系统”项目的重要研究目标之一，该项目一般简称为“类人智能”项目。项目以科大讯飞为牵头单位，联合清华大学、中科院自动化所、北京大学、北京理工大学、中科院软件所、南京大学、电子科技大学、哈尔滨工业大学等超过30家科研院校和企业共同负责项目的研发与实施，主要针对大数据所带来的新的技术与挑战，研究相关类脑计算关键技术和类人答题系统，希望通过本项目的实施，研制出能够参加高考并考取大学的智能机器人。值得一提的是，准星机器人公司的高考机器人也属于国家863框架下的计划。

科大讯飞执行总裁胡郁是该项目首席科学家，2016年11月，在接受新智元的专访时，他曾介绍说：“高考机器人其实是国家863框架下设定的计划，不仅讯飞在做这件事情，而是国内的很多研究机构一起共同来做这个事情，它体现了中国在认知智能方面研究领域整体的力量。无论从技术水平还是资源的建立还是最后学习系统的搭建在国际来讲都是非常快的，这个工作开展也就两年时间，在整个解题思路、资源的不断积累还有系统运行方面现在讲势头还是非常良好的。”

胡郁还说：“我们现在用的高考机器人其实是一个典型的智能问答和自然语言处理的核心关键性问题的求解，在这个过程中我们采用了两条腿走路的方式，一条腿采用传统的统计机器学习方法，对知识的内容进行建模、推理，保证有一个可用的系统。在研制这个系统的过程中，我们也将人工神经网络，对自然语言理解方面最新的科技进展全部使用到这里面。也就是说，有一个基本的保底系统，传统的统计学方法已经用上了，另外也在尝试最新的人工智能技术，就像讯飞在国际上取得了Winograd、Knowledge Base Population第一名成绩的技术都用了深度神经网络的算法，可以在这上面进一步加强。”

对机器人来说，数学和历史其实比语文和地理更容易

在那次采访中，胡郁向新智元介绍说，采取现在认知智能突破的方法，要解决让机器人自主学习答题，技术上首先肯定是可行的，但是挑战也很大，现在基本得到一个结论——对于知识获取型的题目，现在已经可以取得比较好的效果，根据你的知识存储来完成这个题目的，死记硬背的可以过了。一般逻辑推理性的项目也可以进行，对于逻辑推理性特别强的，特别是综合或者文科比如语文里面的有些题目、地理里面的有些题目是比较难的。历史这样的知识存储型或者严谨的数学推理机器人是可以应付，数学中大部分是定理证明，定理证明在人工智能第一个发展浪潮中就已经得到比较好的解决了。

可以看到，挑战2017年高考的两家人工智能系统，也都选择了数学卷。要让机器学会解答数学题，面临的难题有哪些？

微软亚洲研究院此前有一篇技术博客曾介绍，机器数学解题需要多种层次的自然语言理解；在一定程度上理解文字之后，数学解题需要通过逻辑推理生成解题公式；计算机需要具有一定有关现实世界的常识去理解自然语言里面一些隐式的指代，也就是我们常说的“常识”。

以上三点是计算机解读数学题所面临的三大主要障碍。总的来说，给出一道数学题文字描述，系统需要涵盖三大部分：自然语言理解，语义表达和映射以及数学推理得出解决公式和答案。

下图列出了目前较为常见的数学解题系统：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

图片来自微软亚洲研究院

以微软亚洲研究院的数学解题系统 SigmaDolphin 为例，该系统包含两个部分：

Dolphin语言

SigmaDolphin定义了一套针对数学解题的抽象表示语言（被命名为Dolphin Language），包含了数学相关的类和函数。该语言人工定义了1000多种数学类型以及7000多种从Freebase和其它网页自动抽取的概念类型，加上其定义的函数和数据结构，使得该语言十分适合表达数学概念及运算，并能很好地构建出一个精准的数学解题系统。同时Dolphin Language具有大约1万条语法规则，把自然语言解析成Dolphin Language的表示，继而进行推理得到数学公式。有关该方法的详细介绍已经发表在EMNLP 2015, 题为“Automatically Solving Number Word Problems by Semantic Parsing and Reasoning” 。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

“what is 1 plus 2”的Dolphin语言表示形式

Dolphin18K数据集

该数据集包含了1万8千多道数学题。有关该数据集的详细介绍已发表在ACL 2016，题为“How Well Do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation”。在这篇论文中，作者专门为评估计算机自动解决数学问题的能力构建了一个大规模数据集 Dolphin18K。这个数据集是以往规模的 9 倍，从社区问答 CQA 网页半自动获取，使用基于 SVM 的方法自动评估，减少了人工标注的成本，并且包含了更多种类型的问题。

过往的系统在各自的数据集上都有高达60%至80%的准确率，但由于评测的数据集都在几百道题目的规模上，而且都有不同的题型限制，导致其得出的结论可能不够有代表性。对比之前的数据集，Dolphin18K题目数量增加了10倍以上，涵盖了不同年级、不同难度的数学题，且题型更加全面丰富，更具有挑战性。目前，在Dolphin18K的评测上，过往的这些数学解题系统平均只能获得20%左右的准确率，说明了数学解题并没有想象中的那么简单。

日本高考机器人放弃考入东大，NLP仍是最大阻碍

日本也有“高考机器人”项目，也就是大家熟知的萝卜君。日本国立情报学研究所(NII)自2010年启动的“东大机器人项目”，其目标是2020年考上日本第一高等学府——东京大学。 2017年年初，日本研究人员宣布，放弃让人工智能系统参加东京大学入学考试的计划。研究者解释道：“人工智能系统无法理解必要的信息，阅读和理解句子含义的能力存在局限。我们发现，现在还没有办法使这一系统获得足够的分数，使它通过东京大学的入学考试。”

胡郁在接受新智元专访时也介绍说，东大机器人开发的时间相当长，现在已经有六年的时间，日本的项目是一个松散型的组织，没有政府的支持做这个事情，靠研发人员自发的研究组织。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

看来，在被誉为“人工智能皇冠上的明珠”的NLP上遭遇的难题让“萝卜君”打了退堂鼓。

在上周微软亚洲研究院 NLP 技术分享会上，MSRA副院长、ACL 候任主席周明博士，介绍了机器阅读理解的相关内容。他说，为了推动阅读理解的发展，美国斯坦福大学就开发了一个测试题，也开放给大众。它既有训练的部分，也有开发的部分，还有测试的部分。每个参赛队伍拿到测试题目，自己进行训练。通过开发调自己的参数，最后提交自己的系统，然后斯坦福大学就把你的成绩公布到他的网站上。

周明博士介绍说，现在人工阅读的正确率做到82%左右。现在微软亚洲研究院的结果排名世界第一，在76%左右，与人类水平还差5分左右。

他说：“在阅读理解这样难的技术上，应该清醒的认识到还有很长的路要走。其实就包括对常识知识的把握、推理的能力，还有识别问题、上下文理解的问题等等。但是要有信心，随着一天天的努力和进步，终究有一天我们可能达到或者超过人类平均的阅读理解水平。”

学霸君的首席科学家陈锐锋在接受新智元的专访时说，NLP 的确是比较难的一部分，目前也很难有一套很好的方法全面解决这个问题。一般来说可以对语料进行个特定领域的标注，这个对训练是很有帮助的。学霸君搭建了一个几百人的团队对数据进行标注，这个在很大范围上降低了对模型的压力。至于模型方面，目前没有一致的解决方案，RNN和LSTM是不错的选择。

干掉学区房： 教育行业将迎来变革

1. 衡量人工智能水平的一个标准

高考作为人才选拔的一种考试，测试的是学生的综合素质，其中最主要的是知识储备情况和解答问题能力，这也是机器智能的一个核心。

在可预见的将来，通过强化学习能力，“高考机器人”不仅可以储存知识和高考题型，还将会具有逻辑推理能力。此外通过建立模型和算法，可以让机器在大数据中找到数据之间的关系和差异，让这个模型的结果和人的表现很接近，甚至在最终结果上超过人的表现。

对于该项目，科技部杨咸武副司长曾表示，“本项目的最大意义是凝聚了国内从事人工智能方向研究的顶级专家，研制考试机器人将会是本项目的代表性成果之一，未来期望项目成果能进一步向各行业广泛推广，提升国内人工智能及信息产业的整体发展水平。”因此，作为人工智能的成果，研发“高考机器人”的主要目标并不是PK掉人类考生，而是为了服务人类，利用相关技术成果可以在教育全过程中起到非常大的帮助，技术和算法的突破后，同样的成果可以用在医疗、用在客服、用在越来越多的领域。

2. 掀起教育行业的革命

作为人工智能的成果，实现了高考的目标，意味着相关技术和算法的突破。利用相关技术成果可以在教育全过程中起到非常大的帮助，比如可以自动对学生的作业进行及时批改，极大程度降低老师的工作强度，等等。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

学霸君创始人、CEO张凯磊认为，教育资源不均的本质是优秀教师稀缺，而学霸君智能教育机器人有助于降低教育对人力的依赖性，推动教育公平。就像有丰富经验的特级教师一样，AI能从学生的答卷迅速分析出背后的失分原因，如何改进；还能辅助老师快速掌握全班学习进度、对症下药，让更多普通老师也能教出优秀的学生，每个孩子将有机会突破时空界限，接触到“私人名师”级别的辅导，从而解决资源不均的困境。

未来5-10年，人工智能或将成为教育行业变革最重要的解决方案。天价学区房以及前段时间引发热议的上海幼升小事件，反映的根本是优质教育资源的稀缺。人工智能的出现，将有助于让这个问题得到解决。

谈到应用场景的扩展，学霸君的首席科学家陈锐锋对新智元说，应用场景非常的多，比如题目推荐就是一个很好的应用场景。目前我们教育经常提到“自适应学习”的场景。而实际在操作中，自适应题目推荐缺乏一个有效的对大量题目进行高精度分类的引擎。传统的基于文本相似度的推荐题目的算法很难保证推送出来的题目跟原题考的是同样的细节。这个就影响了学生在做错题练习时候的效果。使用高考机器人的情况下，只要题目能够被解出来，就能够很准确的判断这道题属于什么知识点，在此基础上可以推送跟它在逻辑上比较接近的题目。高精度的数据知识点预测能带来更高效的学习结果。这个就能帮学生提分数。

面对AI 教育领域激烈的市场竞争，他说：“其实我更看重的是AI技术能在教育中发挥的作用。无论是哪家领先，都是为这条跑道做出贡献。棋逢对手，惺惺相惜。彼此也知道，要真正高度智能化，还有比较长的路要走。”

从AlphaGo到Aidam，2017年，机器带给了我们许多惊喜，人机共存的智能时代序幕正在缓缓开启。在高考的这天，你还记得第八套广播体操的开场口号吗——时代在召唤！

文章转自新智元公众号，原文链接

【高考40周年】机器人数学考了134分，要上清华北大NLP是最大难关

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景