【ACL 2017 七大看点】北大、清华、中科院、复旦5 篇杰出论文-阿里云开发者社区

国际计算语言学协会 (ACL，The Association for Computational Linguistics)，是世界上影响力最大、最具活力的国际学术组织之一，其会员遍布世界各地。ACL 会议是计算语言学领域的首要会议，广泛涉及自然语言的计算方法及其各类研究领域。ACL 2017 除了主要会议之外，还如同其他顶级会议一样包含研讨会、专题报告、研习会和演示等。第 55 届国际计算语言学协会（ACL）年会将于北京时间 7 月 31 日—8 月 5 日在加拿大温哥华举行（当地时间比北京时间晚 18 小时）。

接收论文：IE QA 文本挖掘应用占比最高

本届会议共收到 1419 篇投稿（长文 829篇，短文 590 篇），有 1318 篇文章（长文 751 篇，短文 567 篇）被发送出去接受审稿。最终，接收论文 302 篇（长文 195 篇，短文 107 篇），录取率 22.91%，与往届大致持平。

在整理投稿的过程中，我们可以发现一些很有趣的数字，也反映了一些很有趣的情况。

1. 提交时间

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

长文提交时间表：在截稿时期的最后 24 小时，提交数量陡增。

看见这个表，ACL 2017 的程序主席 Regina Barzilay 撰文表示，ACL 2017 委员会在大约还有 24 小时就要截稿的时候非常担心，因为那时候才仅仅收到 342 篇投稿，这次似乎邀请了太多的审稿人。但是很快，他们的心就放了下来——在截稿时间最后 24 小时，提交数量骤增。Barzilay 不禁感叹，看上去拖延症（或者说得好听些，追求完美）深深根植于 ACL 研究群体……

2. 投稿热门子领域

下面再来看看排名前 10 的子领域。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上图是根据投稿数量制作的饼图。可以看出，

排名第一的是“信息提取、检索、问答、文档分析和自然语言处理应用”，有 308 篇投稿（长文 192 篇，短文 116 篇），占据了总投稿数量的 23.4%
第二是语义，159 篇投稿（长文 100 篇，短文 59 篇），占比 12.1%
第三是机器翻译，108 篇投稿（60 篇长文，短文 48 篇），占比 8.2%
机器学习以 93 篇投稿（55 长，38 短）排名第 4，占比 7.01%

下面是各个子领域具体投稿数量，其中列出了预期投稿数（第一栏绿色铺底，其中红色数字代表了领域出现了意外的增长）。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

可以发现，“对话和交互系统”在今年 ACL 投稿中的热度——有了超出 59.7% 的增长，这可能与亚马逊 Echo 和 Google Home 等智能音箱产品走热有关。其次是机器人视觉基础（Vision Robots Grounding），出现了 41.9% 的增长。机器学习以 34.4% 排在第三。

组委会将 2017 年的投稿情况与 2014 年的做了对比（见下），仅仅相差 3 年，在 ACL 2017 排名第 5 的 Summarization & generation，在 ACL 2014 连前 10 都没有进。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

3. 接收论文

接收论文 302 篇（长文 195 篇，短文 107 篇）。其中，各子领域的情况与投稿情况大致相同，也是 IE QA 文本挖掘应用排第一，语义、机器翻译列第二、第三。社交媒体类的论文在被接收论文中数量排名第四。

生物医学：3篇（0.99%）
认知建模与心理语言学：4篇（1.32%）
对话交互系统：16篇（5.30%）
语篇语用学：16篇（5.30%）
摘要生成：20篇（6.62%）
IE QA 文本挖掘应用：56篇（18.54%）
机器学习：19篇（6.29%）
机器翻译：27篇（8.94%）
多学科论文：10篇（3.31%）
多语言论文：9篇（2.98%）
音系形态学词分割：8篇（2.65%）
资源评估（Resources Evaluation）：11篇（3.64%）
语义学：39篇（12.91%）
社交媒体：22篇（7.28%）
语音：3篇（0.99%）
标注块语法分析（Tagging Chunking Syntax Parsing）：20篇（6.62%）
机器人视觉基础：7篇（2.32%）
情感分析和观点挖掘：17篇（5.63%）

ACL 2017 还有 21 篇 TACL 论文展示，以及 21 个软件演示。

上面的结果可以有直观的表示：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

接收论文数量：蓝色代表长文，绿色短文。（红色和紫色分别代表软件演示和在 TACL 发表的论文。）可以发现，IE QA 文本挖掘应用在接受论文中数量第一，其次是语义学，机器翻译排第三（长短文数量总和）。

研讨会、研习会：机器学习和深度学习是绝对关键词

ACL 2017 共有 32 个 workshop，其中有首次举办的“神经机器翻译”、“网络语言滥用”等 workshop，也有第 21 届北欧计算语言学大会和第 11 届语言注释（Linguistic Annotation）这些超过 10 年的 workshop。

根据官网最新公布的信息，ACL 2017 有 6 场 tutorial，其中有 4 场都冠名机器学习和深度学习，分别是：①多模式机器学习：整合语言、视觉和语音，②语义构成中的深度学习，③对话系统中的深度学习，④多单词表达和搭配中的深度学习，可见计算语言学中兴起的机器学习和深度学习浪潮，尤其是深度学习。

ACL 2017 还有 23 场 Student Research Workshop，这里的内容涵盖就很全面了，从分布式表示到 Attention 再到 Twitter 颜文字都有，但大部分都同时提到了机器学习或深度学习。

大会主旨演讲

ACL 2017 有两场 invited talks，一场偏理论，一场偏应用。

第一场：Noah Smith（华盛顿大学）

计算语言学和自然语言处理社区如今兴起了表示学习（representation learning）热潮。我将介绍在自然语言模型中使用表示学习的新方式。需要注意，一个数据驱动的模型总是有一个假设的理论（不一定是好的），我将论证语言相适应的归纳偏差（language-appropriate inductive bias）对结合了表示学习的语言模型的好处。这种偏差通常表现为模型中蕴含的假设，受限于推理算法或应用于数据的语言分析。事实上，几十年的语言学研究（包括计算语言学）使我们现在能很好地发现归纳偏差，而新的模型又可能使我们得以探索以前不可用的偏差形式，产生语言学的新发现。我将重点关注新的文档模型和语义结构，也会强调抽象的、可重复使用的组件及其假设（而非应用）。

第二场：Mirella Lapata（爱丁堡大学）

近年来，人们开发了大量计算工具来处理和生成自然语言文本。其中许多都变得广为人知，比如网络搜索，问答，情绪分析，尤其是机器翻译。网络的普及可以进一步增强这种处理，其应用不仅在不同语言之间（例如，从英语到法语）进行翻译，也包括在相同的语言之间，在不同的模式之间或不同的数据格式之间进行翻译。由于大多数检索工具对文本数据进行操作，所以网络中的非语言数据（例如视频，图像，源代码）不能被索引或搜索。

在这个演讲中，我会讨论为了使个人和计算机的电子数据更易于访问需要开发的新的翻译模型。我将重点介绍三个示例，文本简化，源代码生成和电影摘要生成。我将说明如何扩大深度学习的最新进展，以便引导不同模式的一般表述，并学习如何在这些和自然语言之间进行翻译。

中国大陆 5 篇杰出论文：清华、北大、复旦、中科院自动化所

今年早些时候，ACL 2017 公布了杰出论文，共有 22 篇。其中，有 6 篇第一作者是华人。在这当中，又有 4 篇来自中国大陆，清华、北大、复旦和中科院自动化所各有一篇入选。

下面根据每篇杰出论文在 ACL 2017 上展示的时间来排列：

论文：神经机器翻译的可视化及理解（Visualizing and Understanding Neural Machine Translation）

作者：丁延卓、刘洋、栾焕博、孙茂松（清华大学）

论文：了解和检测有争议问题的各种支持论证（Understanding and Detecting Diverse Supporting Arguments on Controversial Issues）

作者：Xinyu Hua and Lu Wang（美国东北大学）

论文：一种用于文本层面话语分析的两段解析方法（A Two-stage Parsing Method for Text-level Discourse Analysis）

作者：Yizhong Wang, Sujian Li and Houfeng Wang（北京大学）

论文：用于抽象文档总结的基于图的注意力神经模型（Abstractive Document Summarization with a Graph-Based Attentional Neural Model）

作者：Jiwei Tan, Xiaojun Wan and Jianguo Xiao（北京大学）

论文：通过一种基于新颖的打标签方案，对实体和关系进行联合提取（Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme）

作者：Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao, Peng Zhou and Bo Xu（中科院自动化所）

论文：命名实体识别和提示检测的本地检测方法（A Local Detection Approach for Named Entity Recognition and Mention Detection）

作者：Mingbin Xu, Hui Jiang and Sedtawut Watcharawittayakul（加拿大约克大学）

论文：中文词分割的对抗多标准学习（Adversarial Multi-Criteria Learning for Chinese Word Segmentation）

作者：陈新驰、施展、邱锡鹏、黄萱菁（复旦大学）

主席团队：华人学者分布在 18 个领域中的 9 个领域

ACL 2017 的大会主席是宾夕法尼亚大学的 Chris Callison-Burch，两位程序主席是上面说过的 Regina Barzilay（MIT）和新加坡国立大学（NUS）的 Min-Yen Kan 教授。

由于论文的生杀大权基本掌握在领域主席手里，我们专门用一小节来看 ACL 2017 的领域主席。本届大会有 61 位领域主席，分布在 18 个子领域，各领域主席人数与投稿数量基本相符。其中，华人学者分布在下面 9 个子领域，不乏中国大陆学者的身影。

Discourse and Pragmatics: Yangfeng Ji, 李素建（北京大学）
Information Extraction and NLP Applications: Chia-Hui Chang, Jing Jiang, 刘康（中科院自动化所）, 刘铁岩（MSRA）
Machine Learning: 王威廉
Machine Translation: 刘洋（清华大学）, Minh-Thang Luong, 米海涛（中科院计算所）, 熊德意（苏州大学）
Sentiment Analysis and Opinion Mining: Lun-Wei Ku
Social Media: 刘知远（清华大学）, Shimei Pan
Speech: Chia-ying Lee
Summarization and Generation: Wenjie Li（香港理工大学）
Tagging, Chunking, Syntax and Parsing: Yue Zhang, 赵海（上海交通大学）

其他子领域，比如认知建模与心理语言学、对话和交互系统，没有华人主席的就没有列出。

赞助企业：BAT 齐聚，还有华为、搜狗、今日头条

大会的赞助商从一定程度上反映了与产业界的联系，从中也能看出学术成果的产业转化情况。ACL 2017 的赞助商数量虽然不如刚结束的 CVPR 2017 那样多，但列出来看还是很有重量——国外巨头如谷歌、亚马逊、Facebook、微软、IBM，国内有 BAT、华为、搜狗、今日头条——而中国企业（尤其是 BAT）已经在其中占据了重要位置。

白金赞助商有 7 家：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

金牌赞助商：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

银牌赞助商：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

铜牌赞助商：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

支持单位：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

特设环节：本届 ACL 将为预印版论文制定评审政策

本届大会还在第二天中午特意开设了一个“meta conference”环节，讨论双盲评审以及 ArXiv 预印版相关话题。

许多研究表明，当工作的客观价值保持不变时，单盲评审会导致评审人更偏向于某些类型的研究人员。因此，所有 ACL 会议和大多数研讨会都使用双盲评审制度。而以 ArXiv 为代表的在线预印服务器的流行，在一定程度上威胁到了双盲评审过程。本届 ACL 会公开讨论一个针对预印版的政策。不仅如此，大会针对 ArXiv 的使用情况也做了调研。

根据报告《Report on ACL Survey on Preprint Publishing and Reviewing》，调查于 2017 年 6 月进行，收到了 623 份完整的回复。绝大多数受访者（93％）是现任或前任 ACL 成员，样本占协会成员总数的 20％左右，在地域、性别和学术背景等方面均具有代表性。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

受访者构成（从左到右）：地域、性别和角色。17% 来自亚太地区，美洲 36%；72% 为男性；教授 28%，研究生 32%。

结果显示，有近半数受访者（53％）很少或从未使用预印服务器来托管他们的研究论文，近五分之一（22％）经常或总是这样做。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

不愿意将论文放在预印刷服务器上的作者，多是因为打算在会议或期刊上发表，并希望确保双盲评审制度。而经常将研究论文放在预印服务器上的作者，有 28％的人倾向于在接到通知前就上传，另外 43％的人愿意等到论文被接收后再上传。那些还没接到通知就上传论文的人主要是想宣传自己的研究，或者是想抢论文发布的时间点（自己最早发表）。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=