机器学习奠基人、AAAI 前主席Thomas Dietterich：AI发展四大挑战 (35PPT)-阿里云开发者社区

【人物简介】Thomas G. Dietterich 是机器学习领域的创始人之一。他的研究贡献主要包括将纠错输出编码（error-correcting output coding）应用于多类分类问题，发明了多实例学习（multiple-instance learning）、层次强化学习 MAXQ 框架，以及将非参数回归树整合到概率图模型中的方法（包括条件随机场和潜变量模型）。著作包括《人工智能手册》（Handbook of Artificial Intelligence）第十四章（学习和归纳推理）、《机器学习读物》（Readings in Machine Learning，与 Jude Shavlik 共同编辑），以及他经常被引用的评论文章 Machine Learning Research: Four Current Directions and Ensemble Methods in Machine Learning。

此外，Dietterich 教授也参与撰写了白宫日前推出的两份重磅 AI 报告《为人工智能的未来做准备》和美国《国家人工智能研究与发展策略规划》。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

Thomas Dietterich：我非常荣幸跟大家来谈人工智能这个话题，来谈它的进步和进展。我最近的一些工作是在 AAAI（美国人工智能协会）——AAAI 是在美国成立的组织，它在加拿大以及全球都有发展，我鼓励大家每个人都成为 AAAI 会员，它的会费非常低，还不到 20 美金一年。我们和中国的计算机协会以及中国自动化学会的合作是非常紧密的，聚集在一起，大家都能够在人工智能领域有一个全球性的讨论。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

我今天讨论的话题实际上大家已经比较了解了，刚才邓力教授也讲了一些相关的话题，那到底什么是人工智能呢？我把它定义为一个智能的软件。例如，李飞飞实验室的图像识别技术，计算机如何来分析图像？如何把图像里面不同的东西提取出来，分析出来？我现在看到这个女性在图片中穿着白色的运动服，后面还有人，后面的一些图像是绿色的。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

人工智能或者说软件如果足够智能，就能理解一些事情。整个软件的结构是什么？它的范畴是什么？我们发现，人工智能有着非常深远的影响，它能够看到，也可以选择行动，取得目标，比如 AlphaGo 或者自动驾驶的汽车都是这样的。

令人激动的现在：AI 在感知、机器翻译、个人助理等领域的成果

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

人工智能也包含学习，从经验中、从训练的数据中学习，我希望人工智能未来也能够以不受监督的方式来学习。计算机和人工智能的系统不是独立存在的，也需要和其他的人和系统互动。2013年，语音识别的正确率大概是 20%，之前在语音识别里面有很多进展，但是错误率也很高。人们做了很多很多的工作，但是错误率还是降不下来。但是，使用深度学习以后，文字识别错误率降到了 8%，今天的错误率降到和人类一样，有些时候甚至比人类还好——比如微软的图像识别系统。

还有一个很好的例子，就是 Google 可以进行图像的识别和翻译，比如把图像放到这里，图中的中文能够被自动翻译为英文。还有伯克利实验室做的一项研究，在椅子上有毛色黑白相间的猫，我们用手机摄像头可以看到这里有不同的图像，AI 可以在上面有一些英文的句子出来。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

在之前的演讲中也说到了机器翻译，Skype 翻译就是一个例子，我们现在可以实现一个梦想，这个梦想已经有很多年了，那就是人们可以在全世界各个地方交流，不管说什么语言，只需要有 Skype 这样的软件就可以了。全世界主要使用的有 50 多种语言，不管我们说什么语言，通过 Skype 就可以同其他人正常的沟通。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

Deep Learning 是一个很好的话题，但是人工智能在很多方面都有令人兴奋的进步和发展。在计算机科学方面有一些限制，比如 A 和 B 需要是真实的，这样的逻辑模型。要是给你很多的限制条件，每个变量都受约束，那还能够实现假设吗？在 1998 年的时候，大概有 1000 个限制条件，到了将近 20 年之后的现在，即使有 100 万个限制条件，计算机系统也能够解决这个问题。计算机科学里面，有各种各样的东西是需要获得进展的，现在没有具体的算法能够随着各种各样的限制条件增多的情况下同时获得进展。但是，我们在这里能够看到一个线性的进展，为什么会成功？这里有一些红色的线表示，它是不断通过发展算法来获得进展的。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

在游戏方面，比如扑克方面的推理，计算机在扑克牌游戏里面要战胜人是非常非常难的。但是，在一些简单的扑克牌游戏里面，计算机做的比较好。在 2003 年，计算机只能够处理非常少的信息，比如扑克牌桌上有多少张牌这样的，后来又获得了一些进展，2014 年加拿大的 Michael Bowling 集团说，他们可以处理 13 个信息集，这在 11 年的时间里面，算是取得了极大的进步。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

现在在人工智能方面也有一些经典的问题，比如围棋、比如 Deep Blue 项目。Deep Blue 当时是人尽皆知的。但很多年以来，计算机下围棋一直表现得不是特别好，人们有些灰心丧气，2008 年的时候，很多人当时是能够战胜计算机的。但是，随着时间的不断推移，出现了 Monte Carlo 树形研究，不像国际象棋，围棋需要有概率论，Monte Carlo 的树形研究对未来有一个研究和推理，表现在 AlphaGo 击败李世石上就是比较好的。

另外，Monte Carlo 树形研究在其他领域也有很多的造诣，比如在围棋方面有一些视觉上的研究，不光是对于未来的推理，我们也需要了解这样的围棋图形。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

在个人助理方面，我们也取得了一些进步，比如 Siri 还有 Google 助理等等，可以回答一些简单的问题。例如我要去我哥哥家里，我想带一些便宜的酒，计算机要做什么，它怎么回答我的问题？我需要红酒。我在互联网上找一些菜谱吧，什么样的红酒和西红柿酱配合非常好，或者什么样的酒和什么样的菜能够配好？还会问，我哥哥住在哪儿，从我现在的地点到他家里面有怎么走是最合理的路径？这条路径上有什么最好的商店？有什么样的价格、什么样的酒？个人助理就能这样给你一个计划，带着你左转右转买一瓶酒，价格是 10 美金，买了之后可以继续驾车去哥哥家。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这是下一代的个人助理系统，对于各种各样知识的整合，关于菜单的搭配，关于酒的知识，关于我的联系人以及驾车的方式还有驾车的路径等等各个方面的整合。这也是下一代个人助理最大的挑战之一，因为它涉及到整合各种各样的信息，我们需要考虑一下，我们需要用覆盖整个行业的眼光和思维方式来考虑，也许我的助理它需要来做一些什么，才能了解周围的什么情况。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

另外一个领域也获得了很多进步，就是信息提取。现在在Google上搜索，你会看到很多信息框，有时候只是来自维基百科上的拷贝，但是你搜索 Thomas Edison，上面有维基的信息，还有更多的信息，包括他最近的收入、利润以及相关的股价，这个是通过来读取网站上现有的文件和信息来抓取的信息。

关于在信息抓取上是否合理、合法，其实有过一些讨论。有来自世界顶尖大学的教授，他们也提出过，你如果想看各种各样文件的话，有一些文件来源于公司放到互联网上，那到底是不是需要来获得这些公司的支持和认可？我们也需要来了解相关的情况。因为我们在执行合同的过程当中，我们要看一些有效的法律合同，如果只是自然语言合同的话，我们怎么样能够把它变成正式的语言，那么有这样一个共识。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

最后讲一点，个人行程安排助理，有很多公司，X.ai、Kono.ai。首先要看看最关键的东西，要看你的邮件来建议会议的时间并且做好协调工作，这对我们很多人来说都是一个痛点，我们得找到所有人有时间的时候开会。

以上就是我关于 AI 应用的一些观点。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

AI 技术：机器学习、推理、大量训练数据

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

接下来我想要谈一谈非常重要的技术，我觉得我们目前非常重视技术，我们谈到深度学习、长短时记忆，还有结构的预测。像自然语言的处理、翻译，还有信息提取，所有这些都是结构的产出。我们看到这个图像，它有很多的点，必须要有一个结构，搞清楚这些点之间的关系。机器学习还有推理的过程，另外还有 SMT 的解读器，能够解决很多的问题。

还有一个非常活跃的就是自动算法的配置，我们知道通常情况下像商业的计划，计算能解决很多的问题，但是必须要配置。70% 是控制调解器的，机器学习方面必须要看到问题是怎么解决的，还有自动化的计算配置，我们必须要判断，有什么样的算法是最合适的。

另外一个，大数据，要有大量的数据，像很多的影像和视频的资料，我们要识别事件、活动，还有一些物体，所有这些视频当中的物体。在自然语言方面对很多的语言处理像有一个树形的数据库，对于语言翻译，我们必须要有很多的文本，两种语言之间的文本，我们必须要实行两种语言之间的转换。在没有这样一种训练数据，就不能实现我们的目的。像超级计算机，还有芯片都在不断被开发，帮助实现我们的目的。这就是我演讲的第一个部分。

AI 四大挑战：信任、交互界面、常识、安全部署

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

好了，我们未来所面临的一些挑战，我谈四个挑战。首先，信任，什么时候能够信任 AI 系统？我们总体上想一下，怎么样能够确保软件系统还有机器系统是值得信任的。第二，人机交互的界面。我们要仔细地谈谈这部分。第三，常识。这已经是在会议上频繁提到了，最后，还有 AI 在安全应用方面一些部署和应用。

1. 什么时候能够信任 AI 系统？

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

首先，我们谈一下信任的问题，大部分的AI软件都是用机器学习，但是机器学习是一个统计学的数据的过程，它并没有很大的正确性的保证，所以我们不能够证实这个机器学习的准确度。李飞飞实验室有一个很有力的例子，（图示）小男孩拿着棒球棒，而不是一个牙刷，这就是一个错误，这是一个非常大的错误。信任 AI 系统有什么样的挑战？首先我们要看到它的优劣势，首先它是能够产生一定的置信度的，我们必须要看到这个答案，它的正确率的情况，这就要让我们的系统必须避免一些点，一些不确定的点，就能够让我们用一个更大的系统来采取更好的方式。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

第二，AI系统必须要解释推理的过程，有一些系统深度学习的系统已经运转得非常好了，但是，对于终端用户，我们必须要了解系统预测的时候重视的是什么，我们必须进行解释，这个系统到底主要处理的是什么，像在视频方面，到底想了解的事件是什么，目前在美国人工智能的竞赛，包括我的团队也参加了这个竞赛。

第三，让 AI 系统变强，强化这个系统。这样能够避免一些错误的设计，有些时候这些错误是我们意识不到的，比如说系统到底会进行一些什么样的部署，我们有的时候并没有意识到我们意识上的空白，我们要不断地发展 AI 系统，我们要增强人工智能系统，最终我们必须要证实一些方法论。由于软件系统不能证实软件的正确性，我们要进行一些实验一些测试，但测试并不能解决有效性正确性的问题，因为 AI 的软件非常复杂的。机器学习是一个挑战，因为训练情况的不同，可能测试的结果也会有不同。

2. 人机交互界面：Human-in-the-loop

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

接下来的挑战就是用户界面的问题，虽然好莱坞的那些电影有各种各样的结局，我觉得人工智能不会牵扯到一些全部自动化的体系。例如你开车，要接受指示，现在仍然人在开车，所以你是在执行这个行动。像自动机器人，就是在回路上，你也是在监控计算机的行动。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

另外一点我们很关注的，人机协作，这是人和生物硬件之间的合作。你可能会听说过“半人半马的象棋活动”，半人马系统能够打败人类，也能够打败象棋的机器系统，它其实是补充了人类对于象棋知识的不足。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这是非常有意思的一个项目，蛋白质折叠游戏。我们可以通过这个游戏发现蛋白质，我们现在从生物上理解这个蛋白质就是理解它的结构。有不同的神经系统体系，这是蛋白质能量优化的算法，但是这是一个非常困难的搜索游戏。华盛顿大学开发了一款游戏，让人们能够提供一个指导，并且能够指导游戏的局限性，能够让这个优化器能够更好地工作。这种人机协作比单独的人或者单独机器工作要更好，2011 年的时候，用这样一个技术，在三周就解决了艾滋病病毒酶问题。这对于我们未来是非常重要的，我们会跟计算机更好地合作，这样能够拥有超能量，这是现在所没有的。

3. 有关常识的挑战

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

接下来谈谈第三大挑战，常识。

如果要跟计算机合作的话，要跟机器人合作的话，我们必须要有非常好的用户界面和它们进行合作。有一个问题，计算机必须要了解人类的意图，通常传统的界面，人给计算机下指令，计算机接受这种指令，命令和接受的过程。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

但是，现在要让计算机了解人的意图，像米老鼠它说“给我拿水来”，拖把就把水“拿过来”，但是最后米老鼠快被淹死了，这就是一个很有意思的故事——人工智能没有很好地理解说话者或者说人的意图。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

那么，计算机怎么能了解人的意图？这就是常识的问题。什么是这方面的常识？有的人不知道，是不是所有人都同意这一点，很难。

但是，我认为我们需要让计算机了解所有的人类都了解的、无论是宽泛的还是浅显的知识，无论是人类的行为，还是一些具体的物体。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

我们必须让计算机了解普遍的知识。Cycorp 开展的研究，已经 30 多年了——我当教授也30 多年了，能够让计算机理解百科全书的每一篇文章，是人工创造知识的基础。结果有点令人失望。我们有没有其他的选择？是不是要用机器学习来获得常识？因为“常识”的覆盖面很广，需要我们付出巨大的努力，哪怕我们已经在 AI 方面取得很多的进展，像智能电话、还有物联网。

另外，这些数据可能会有一定的副作用，在我演讲的时候，我必须要去搜索引擎来找到信息，找到演讲的主要内容。如果我们有一个常识训练的数据，我们就能够很好地部署机器，通过物联网就能够有更多的指示，能够让计算机了解更多人类的常识。

最后一个问题，实际上也很重要，那就是谁能够为此出资。

4. 如何安全地部署 AI 自动化系统？

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy