第十六届全国机器翻译大会（CCMT 2020）

李沐、刘群、刘洋、朱靖波、张民：当前机器翻译的瓶颈

作者 | Mr Bear

编辑 | 青暮

第十六届全国机器翻译大会（CCMT 2020）于2020年10月10日至12日在线上举行。

CCMT旨在为国内外机器翻译界同行提供一个交互平台，加强国内外同行的学术交流，召集各路专家学者针对机器翻译的理论方法、应用技术和评测活动等若干关键问题进行深入的研讨。

除学术论文报告外，本次会议邀请了国内外知名专家进行特邀报告，面向学生和青年学者举行专题讲座，邀请学界和产业界专家举行专题讨论会，面向研究者和用户进行系统展示等，通过丰富多彩的形式和与会者互动探讨机器翻译最炽热的研究论点，揭示机器翻译最前沿的蓝图。
10月11日，CCMT组织了一场论坛，主题是“当前机器翻译的瓶颈”，主持人腾讯AI Lab专家研究员涂兆鹏博士。

腾讯云与智慧产业事业群智能平台部总监、
腾讯技术研究通道委员会委员李沐，
华为诺亚方舟实验室语音语义首席科学家刘群，
清华大学计算机科学与技术系长聘教授刘洋，
以及东北大学计算机学院人工智能系教授、
小牛翻译创始人朱靖波以及苏州大学计算机学院院长张民在这场论坛中就三个话题进行了讨论。

这三个话题分别是：

机器翻译的瓶颈在哪里？
是否存在第四代机器翻译？
自然语言处理的可解释性研究之争。

对于第一个话题，专家们就应用和技术层面进行了讨论。朱靖波教授认为机器翻译的瓶颈主要在应用层面，李沐博士强调了瓶颈的定义问题，刘群教授指出数据稀疏是个瓶颈，刘洋教授则补充道知识获取也是一个瓶颈。

值得一提的是，针对第二个话题，朱靖波教授提出了“不存在第四代机器翻译”的观点，直面众专家的反驳，张民教授在这时候加入，并表示反对。

在第三个话题的讨论中，众专家就可解释性的定义和重新理解层面进行了讨论。朱靖波教授提出了一个富有启发性的问题：应该从揭示机器翻译模型的数学推理过程的角度研究可解释性，还是从人类对模型结果的理解的角度研究可解释性？

最后是Q&A环节，线上观看的网友提出了关于先验知识、评价指标、翻译艺术性以及预训练模型等8个问题，专家们一一进行了解答和讨论。

以下是论坛全文，AI科技评论进行了不改变愿意的整理。

机器翻译的瓶颈在哪里？
朱靖波：我首先抛砖引玉。所谓“瓶颈”，是指技术发展停滞不前了。虽然现在机器翻译中面临一些困难，但它现在还正处于蓬勃发展的阶段。

谈到“瓶颈”，我觉得无非可以分为技术的瓶颈和应用的瓶颈。关于技术的瓶颈问题，可以留作后面几位老师来详细讲，我说一说应用的瓶颈问题。

机器翻译最初是从规则开始干的，很痛苦。但早期的技术不成熟，即使免费给大家用都不愿意使用，所以也没有太多应用。但到了第三代，也即神经机器翻译出来以后，大家都能够看到它翻译的效果变好了，于是开始有人愿意去使用，甚至愿意去买单。这时候就有投资人觉得这里能赚钱，开始往里投钱。所以简单来说，近几年有越来越多的资源投入到机器翻译这个领域。所以我觉得现在机器翻译的应用是在往上走的。

但有一点是，同样作为刚需，为什么机器翻译的应用，并没有像语音等领域突然爆发，出现一系列的独角兽公司？我的一个初步观点是，机器翻译尽管是强刚需，应用也非常多，但它在整个应用市场上的应用模式却很少。

在我看来，机器翻译并没有真正制约其发展的“瓶颈”，如果一定要说存在瓶颈，那么应用模式的匮乏应该是机器翻译领域的瓶颈之一。

李沐：应用是一个很大的话题。刚才朱老师提到，机器翻译是刚需，但什么是“刚需”是需要定义的。相比可有可无、只是打发时间的娱乐性工具，机器翻译是工作或生活上的一种需求；但从另一个角度来说，机器翻译在很大程度上是和人工翻译服务重叠的。所以，尽管对机器翻译有所需求，但是需求程度究竟有多大还是值得探究的。

事实上，针对这个问题，多年来，无论是学术界还是工业界，都没有给出一个特别明确的答案，许多机构的报告，也都是从整个翻译领域来做的，而其中很大比例上也都是人工翻译。整个翻译界需求，在多大程度上会被机器翻译技术所取代，实际上还是未知的。

再回过头来说，为什么大家会觉得机器翻译遇到瓶颈了呢。机器翻译最初和语音一样，多年以来一直没有太多进展，技术完全不成熟。但2010年深度学习的爆发之后，技术水平一下子提升了许多，然后各种美好的幻想和肥皂泡就飘了起来。一旦遇到一些现实中的困难，就会觉得是遇到了瓶颈。

实际上，如果把时间拉长，从整个技术发展的历史来看，现在遇到的各种困难，不过是小小的浪花而已。从应用角度来看，现在的机器翻译相比10年前，范围肯定要大很多，很多原来不可能使用机器翻译的场景也都开始使用了，例如各个大会上的辅助机器同传等；各个翻译平台，例如谷歌、百度、腾讯以及小牛等，服务的流量也都提升了几个量级，而且能够服务于业界的各种公司场景（例如金融、游戏等）。
所以我们对“瓶颈”的定义十分重要，需要明确讨论的是此类技术增速的瓶颈，还是完全无法推广使用的瓶颈。

刘群：我基本同意刚才两位老师的观点。

从应用角度来说，目前机器翻译肯定不是处于瓶颈期，它的应用还在不断拓展中。从技术角度来说，也不能算遇到了瓶颈期，只是发展地比前一段时间稍微慢了一点，但我认为现在深度学习技术的红利还没有挖尽。所以总体上来说，机器翻译并不是处于瓶颈期。
不过如果非要讲遇到的阻力，则主要体现在数据上面。现在的深度学习技术（包括之前的统计机器翻译技术）是一种数据驱动的技术。虽然在主流语种之间的翻译已经相当不错了，但对于低资源的小语种，效果要差得多；此外，对于一些专业领域，例如医学文献、法律文献等，往往存在许多翻译错误。
数据稀疏的问题，我们永远不可能解决，除非以后能够开发出非数据驱动的技术，否则这种瓶颈将永远存在。但我们可以更有效地利用数据，如果把数据挖掘得足够，我们能够做得更好。
刘洋：我认为从技术的角度来看，机器翻译应该是再次进入了缓慢发展期。从2017年出现 Transformer 以后的三年中，没有一个新的重要模型能够替代它。另外技术指标上也没有一个大幅度的提升。

当前机器翻译技术上的瓶颈，我认为主要是在翻译知识的获取上。大家使用当前的机器翻系统时，可能有一种感觉，就觉得整体上翻译的还挺好，但经常会犯一些我们人类看来比较简单的错误。

这本质上是机器翻译系统获得翻译知识的能力不够，特别是获得常识的能力不够。
我们可以类比一下人的学习过程。小时候是父母手把手教，上学了以后有课本、作业、考试，进入社会以后就自己摸爬滚打去感悟和总结经验。这个过程跟机器翻译乃至人工智能的发展历程是非常类似的。

早期机器翻译用基于规则的方法，是由专家写成复杂的规则，手把手教机器，此时知识的呈现方式其实就是一种由人总结出来的符号规则。

90年以后，开始进入有监督学习时期，我们给机器大量的平行数据，然后为机器建立数学模型，在数据上估计模型参数，此时的模型参数其实也是某种形式的知识，只不过这种知识是机器自动从数据中学出来的。这种知识，早期是生成模型的参数，后来是特征值和特征权重。
从90年代的统计机器翻译发展到今天的神经机器翻译，事实上从数据中学习特征表示的能力已经发挥得淋漓尽致了，从标注数据中挖掘翻译知识，我觉得目前基本上已经走到尽头了。
此外，数据的规模增长也不会有太大的提升，现在大家再去网上抓取平行数据，很难有数量级上的增长。

因此我认为，现在机器翻译的瓶颈在于，我们能否扩大翻译知识获取的来源，改变翻译知识获取的方式。

所以，以后应该进入第三个阶段，就是要摆脱目前这种纯粹的表示学习加标注数据的范式，应该让机器翻译系统像人一样，能够进入一个真实的应用场景，在一个更加开放的环境中摸爬滚打，充分利用未标注或弱标注数据，通过一些间接的方式获得反馈信息。
这类似于开放环境下的 Atari 智能体。BERT的成功，恰恰是代表了这样一种趋势。所以我们应该把关注点从有限的标注数据转移到更加海量的未标注数据上，从而来进一步扩大机器翻译系统获取知识的能力。

是否存在第四代机器翻译？

朱靖波：大道理大家都懂，我提一个大家可能不赞同的观点，请大家来反驳我。

现在机器翻译经历了规则方法、统计方法和神经网络方法，那么是否存在第四代机器翻译呢？在我看来，第四代机器翻译是不存在的。

理由是，在规则时代，只要规则没有覆盖的句子，我们就翻译不了，当时大家写规则的工作举步维艰。

当统计机器翻译出来后，只要语料覆盖到，就没有不可翻译的句子；不过这个时候，机器翻译是把句子拆成一个个单词，并不连贯，这是它技术本身存在的缺陷，因此简单句子翻译得还行，但稍微复杂一些就完全无能为力了。

随后谷歌基于神经网络得机器翻译系统上线后，大家眼前一亮，整个译文虽然并不非完美，但非常流畅。以中英文互译为例，现在只要语料给得足够，在同源领域中，机器翻译系统的人工评价效果可以达到85%甚至90%以上。

那么问题来了，如果存在第四代机器翻译的话，性能应该达到多少？假设在某个领域中，数据量足够大时，对某个语言对来说，如果将目前最好的训练方法应用于最优的神经机器翻译技术，人工评价完全有可能达到 90%。

那么，下一代机器翻译技术应该将这一数字提升到多少呢？如果在做出很大的努力后，第四代机器翻译技术相较于第三代机器翻译仅仅将性能提升了 1-2 个百分点，这显然是不合理的‘。
目前，在相同的条件下，神经机器翻译相较于统计机器翻译可以将性能提升 10-20 个百分点。在性能指标达到 90% 后，如果进一步提升 1-2 个百分点是否能够被称为第四代机器翻译？因此，在我看来，将来不可能出现第四代的机器翻译技术。不知道大家是否赞同这个观点。
张民：我和朱老师的意见并不一致。

首先，从哲学的角度来讲，第四代机器翻译肯定是存在的。

第二，从技术的角度来说，第四代机器翻译也是存在的。正如朱老师所说，从 90 年代至今，机器翻译技术经历了近 30 年的发展。2010年前后，大家普遍认为机器翻译的效果不理想。但是神经机器翻译的出现大大提升了机器翻译性能，扭转了很多人对机器翻译前景的看法。
此外，神经机器翻译刚出现的时候，许多研究者都持反对意见。后来越来越多的人逐渐接受了神经机器翻译，所以人们接受新鲜事物往往有一个过程。

类比地看，在神经机器翻译出现之前，没有人想到它的性能会如此之好，因此我们也不能确定未来不会出现超越神经机器翻译的技术。

朱老师说从翻译的效果来看，性能已经达到了80%-90%。但是如果从机器翻译技术本身出发，还存在许多有待解决的问题（例如，篇章分析、背景知识、语料领域等）。在人民日报等训练语料一致且规范的情况下，模型的 BLEU 得分也许可以达到50%左右。但是在其它的领域中（例如，专利机器翻译），可能 BLEU 得分甚至低于 10%-20%。

目前仍然存在一些仅凭神经机器翻译技术无法解决的问题（例如，上下文指代、术语解释、一词多义等），或者需要背景知识才能解决的问题。抛开第四代机器翻译技术不谈，我认为机器翻译技术瓶颈和数据瓶颈是否存在还是值得思考的。

在使用现有的机器翻译模型时，即使我们拥有规模达到 10 亿、100 亿条记录的语料，有些技术仍然无法解决。这是因为，这些模型的设计者本身没有从解决上述问题的角度去思考，仍然停留在 Transformer 模型的层面上。也许，再过 10-20 年，会有新的能够解决上述问题的新技术出现。

我认为，深度学习目前在自然语言处理领域中最成功的应用场景就是机器翻译或语音识别。机器翻译和语音识别如今的成功可能是许多人未曾预见的，但是其成功极大地依赖于充足的语料，并且需要本领域的语料十分充分。

而且，即使在本领域语料充分的情况下，还存在许多有待解决的 NLP 问题（例如，汉语的零指代问题、省略问题，以及需要背景知识才能解决问题）。

因此，目前机器翻译里面还存在大量的技术难题有待解决。许多研究者都认为下一代机器翻译是知识驱动的，但如何获取、表达知识还存在很大的研究空间。

朱靖波：我与张民老师的意见相左。我的意思是，第一代、第二代、第三代机器翻译相当于是一棵树的主干。就好比第一代基于规则的机器翻译是根，然后发展出以统计机器翻译、神经机器翻译为主干的第二代、第三代机器翻译技术。

张民老师认为目前机器翻译还存在大量有待解决的问题（例如，篇章级分析、零指代、省略），但我认为它们只是将现有的技术应用到不同的场景下，延伸出一些新的技术新的解决方案而已，并不涉及解决机器翻译的根本的问题。我也同意将来会在这些主干上会生出很多枝节的观点。

至于大家提到的基于知识的机器翻译，我认为大家需要思考究竟需不需要「知识」，需要怎样的知识？
我并不认为引入知识的机器翻译就是第四代机器翻译，如今大家也用到了句法、语义等领域知识，可能未来还会引入更多的知识，但是在我看来这些工作也都是现有「主干」技术上延伸出来的「枝干」，使得机器翻译之树更加茂盛，让机器翻译技术能够适用于更多的应用场景。
而我所指的第四代机器翻译是指出现新的主干技术。

张民：我认为目前的神经机器翻译技术无法解决刚才我们提到的这些问题，所以第四代机器翻译技术必然会出现，但究竟新一代的机器翻译技术是怎样的，仍然是一个尚不明确的问题。
刘群：我认为拘泥于机器翻译技术处于「第几代」的意义并不是太大。我相信未来机器翻译技术还是会取得重大突破，刚才大家提到的各种问题还是存在的。

本质上，这些问题可以归纳为数据问题，或长尾分布问题。当数据量很小时，现在的机器翻译技术的性能一般来说还是要弱于人类的能力。
人可能不需要用大量语料就可以学会新的语言，但是机器目前来说还不具备这种能力。所以研发基于小数据的机器翻译技术是一个涉及到技术本质的问题，并不仅仅是「主干」和「枝干」的关系这么简单。

目前，在数据量十分充分的情况下，机器翻译技术的性能已经较为理想了，但是在数据量不够的情况下还是存在诸多挑战。因此，我认为未来还是会出现下一代机器翻译技术。
下面我们讨论下一代机器翻译技术是否是基于知识的，以及是否仍然处于神经网络的学习框架之下。

首先，目前对于「知识」尚无一个明确的定义。如果要说第四代机器翻译是基于人工编写的知识、知识图谱或者规则这样的「知识」，那我并不认为这可以被称之为第四代机器翻译技术。但如果我们将「知识」的概念扩大，那也许是成立的，在这里我也无法对第四代机器翻译技术给出一个明确的定义。

此外，我认为下一代机器翻译技术可能还是以神经网络为基础的。我认为在 NLP 领域中，基于神经网络的红利并没有被挖尽，目前神经网络的主要框架已经非常优秀，但是仍然可以对其进行很多的改进。例如，近年来比较火热的预训练语言模型（例如，BERT、ELMO 等）横空出世，解决了很多 NLP 问题。

我相信，在神经网络的框架下有可能出现第四代机器翻译技术，但是它与现在的机器翻译技术还是存在很大差别的。对于数据驱动的模型来说，我们也许永远无法解决数据稀疏的问题，但是我们可以更有效地利用数据，充分挖掘有限的数据，得到比现在的模型好得多的效果。
刘洋：我觉得刚才朱老师提的这个问题特别有意思。上世纪90年代，有研究者证明，两层的神经网络相当于一种万能的函数模拟器。而我们现在所研发的模型并不是万能的，其输出端是一个概率分布。
我曾经做过一个小实验，在一个神经网络后面添加上复杂的数学变换（例如，取模、取正弦值等操作），并且提供大规模的训练数据。实验结果表明，这种转换能达到 99.9% 的性能。
正如朱老师所说，在给定几乎无限的训练数据时，我们的模型能取得非常好的性能。但是，当下的机器翻译模型是用一个非常复杂的非线性函数来实现从源语言到目标语言的映射，然后我们向模型提供大量的「输入-输出」对，来训练该模型。在这个过程中，存在着许多有待解决的问题。

首先，自然语言的映射本身可能是高度复杂的。第二，我们如果想通过神经网络完全模拟这种高度复杂的映射，需要多大的数据量？目前，我们可能针对某个语言对可以提供上亿条训练数据，但是性能仍然达不到 100%。
我赞成张民老师和刘群老师的观点，未来还是存在很多值得探究的问题。我认为，我们不要局限在机器翻译问题本身来思考机器翻译问题，应该用更广阔的眼光将机器翻译放到整个人工智能研究的大背景下来思考。
机器翻译问题并不是孤立的，它涉及到许多整个人工智能研究领域中的共性问题，未来的大趋势应该是很多自然语言处理任务集成在一起，共同来完成一些目标。
BERT 为我们带来的一个很大的启示是，很多的自然语言任务之间是存在共同性的。我猜想，未来我们可能会设计出一种智能体，它具有综合的语言能力，可能会利用另外一个 NLP 任务，甚至是图像领域的任务，帮助机器翻译取得更好的性能。我们不应该将未来有待解决的问题简单定义为文本级的映射（例如，语句或篇章）。
张民：刘洋老师的观点给了我很大的启发。我们不妨跳出对机器翻译技术的讨论，思考翻译任务本身的过程。
我们最终需要解决的还是翻译问题，翻译本身涉及到艺术创作和再加工。以前，我经常每天晚上给我女儿读童话，常常会想到 NLP 的语言理解问题，思考能否用另一种语言翻译这些童话。我认为，翻译金庸小说、红楼梦、钱钟书的围城等国内外名著，甚至古诗词等包含深刻意境的文本，远远不是简单的映射这么简单。
翻译任务中存在大量需要艺术加工的问题。纽约时报曾经有篇报道，一名记者请专家们就「机器翻译是数学问题还是艺术问题」这一观点发表看法。从人类社会的角度来看，这一定是一个艺术问题，而不是一个数学问题。
因此，无论使用多么复杂的函数，我们都不可能通过计算机方法完美地对机器翻译问题进行建模。即使未来使用了性能强大的量子计算机，由于机器翻译不是一个纯粹的算法问题，所以它仍然是不可解的，我们只能试图无限地逼近最优的解。
李沐：在人工智能领域中，「AI 完全」问题是一个其被长时间讨论的话题（对应于算法中的 NP 完全问题）。有很多智能化问题并不是仅仅利用某一个领域的算法和知识就可以完全解决的，它需要动用人的全部智能。这些智能包括听觉、视觉等感知能力，以及无法很好定义的世界知识和推理能力。
之前大家讨论的很多机器翻译中的问题也都涉及到完全发散的世界知识和推理。例如，如何翻译金庸的小说？各种武侠招式要不要翻译？还有一些问题需要进行推理（例如，指代问题、前后呼应的分类问题），人类的碳基智能可以解决这些推理问题。
对于电脑这种硅基智能而言，最近许多研究者们都在讨论 GPT-3 的论文，我们可以认为 GPT-3 等神经网络模型具有强大的记忆功能，可以将无数的文本都记忆下来。所谓无监督学习就是通过一些「黑盒」的方法记忆大量文本贡献的知识，但是现代神经网络所谓的「推理」能力本质上还是各种各样的模式匹配，缺乏和人类智能相媲美推理能力。
目前尚不可知「AI 完全」问题或者机器推理能力这一终极目标是否能够实现，目前来看还十分遥远。
从计算机视觉领域来看，刚回国的朱松纯教授就强调需要考虑在计算机视觉领域中如何提高机器的思考能力，而不仅仅是使用 CNN、模式匹配技术。我们还不知道要过多久才能实现这个目标，而这也正是技术突破的魅力所在，学术研究需要有这种坚持的信仰。
学术研究与产品落地是有区别的。产品落地需要考虑到短期的投资回报。但是如果以这种态度去做学术，是无法将学术做好的。如果由于研究上遇到的阻力而放弃，也就无法亲身经历技术突破、开花结果的时刻了。
在技术发展的长河中，需要解决许多的小问题。有时也许因为有人提出了一个新的广阔的研究领域而导致技术发展的快一些，会吸引许多研究人员参与到该领域中。
但技术发展往往也会经历缓慢前进的时期。以语音处理技术为例，它的瓶颈期其实比机器翻译的瓶颈期还要长，曾经在几十年的时间内基本没有大的突破。但是在过去的十年间，人们将深度学习技术引入语音处理之后，该领域又得到了长足的进步。
科技研究令人着迷的地方在于，我们无法准确预测下一个突破的爆点何时到来，但我们可以选择相信它一定会到来！在学术研究中遇到难以解决的问题是常态，我们不可能永远处于「快速奔跑」的状态。
当前这波由深度学习引起的人工智能发展浪潮，本质上是受益于算力快速增长的红利，实际上神经网络算法、反向传播算法等技术在很久以前就诞生了。Jürgen Schmidhuber 等人上世纪 90 年代就发明了 LSTM 算法，但是距离该算法被广泛应用还有一段距离。
从长期来看，学术研究大部分时间都会处于「瓶颈」期。再以物理学为例，上世纪初是物理学得到了蓬勃的发展，但是近 50 年来却鲜有重大突破，即使是「引力波」也曾被爱因斯坦 100 年前成功预测。从长期来看，朱老师提出的问题都是「AI 完全」问题。
涂兆鹏：综上所述，在朱老师看来，机器翻译本身还存在很多有待解决的问题，包括篇章分析、面对低资源的领域和语言对时的机器翻译问题等。第二，我们不应该独立地看待机器翻译问题，它是一个在自然语言处理领域中集大成的场景，需要从更加综合的角度，甚至是通用人工智能的角度来考虑机器翻译。各位老师都认为，技术发展往往会遇到增长缓慢的平台期，学术研究贵在坚持，静待风口的到来。

自然语言处理的可解释性研究之争
朱靖波：现在许多人都认为神经机器翻译的可解释性很差，是一种「黑盒」模型。于是大量的研究者开始尝试进行可解释性的研究，希望理解神经机器翻译的一些机理，以至于在将来有机会取得更大的技术突破。
那么，我想提出的问题是「究竟应该从揭示机器翻译模型的数学推理过程的角度研究可解释性，还是从人类对模型结果的理解的角度研究可解释性」？
现在有很多研究人员在进行智能司法方面的研究。假设你现在是一个法官，如果利用基于神经网络的方式，可以将掌握的证据作为输入，判断嫌疑人是否有罪。
即使神经网络的精度达到了99%，但是对于嫌疑人来说，他们可能更加关注模型的可解释性，即做出判决的法律依据。
因此，在研究可解释性的过程中，我们究竟应该研究做判决的 AI 系统的推导过程（例如，对注意力机制、参数的学习过程），还是研究判决究竟是依据怎样的法律条款做出的判决，以及如何进行修正。
刘群：现在研究人员关注的主要是如何提升 BLEU 值，如果大家的研究中心转变到可解释性上来，那么可解释性的问题自然就会被慢慢解决。
至于朱老师关心的法律判决的推导过程，我认为训练数据中是存在法律条款的，可以通过技术手段找出原始数据中对应的法律依据。
朱靖波：我并不赞同刘老师的观点，训练数据中可能是一些证据，而不一定包含法律条款。
刘群：我认为肯定还是要基于依据法律条款才能做出判断，BERT 等模型中实际上也是暗含着语法的。
朱靖波：我们现在讨论的问题是，如果想要研究机器翻译的可解释性，应该从哪里去研究什么样的可解释性？以研究基于深度学习的判案系统的可解释性为例，我们应该研究它推理过程的可解释性，还是应该从人的角度去理解嫌疑犯违反了哪些法律？
因为有的深度学习模型本身可能并不是按照中国法律做出判断的，它们纯粹是数据驱动（即使用嫌疑人的证据）的方法。同理，在神经机器翻译系统中，如果仅凭数据驱动，即使可以得出效果尚可的翻译结果，但是机器翻译模型仍然没有理解得出结果的原因。我想问，可解释性是不是与按照语法语义的知识进行理解相关。
刘洋：我认为，对于不同的领域和问题而言，对其可解释性的研究具有很大的差异。例如，在自动驾驶、根据 CT 影像诊断癌症，或者做出法律判决等场景下，我们做出的决策是生死攸关的。
此外，在机器翻译等场景下，出现小的错误并不是会招致很严重的后果。因此，在决策会产生重大实际影响的场景下，对可解释性的研究是更为重要的。至于在机器翻译场景下，我更加赞同刘群老师的观点，此时我们更加关心的是机器翻译的 BLEU 值。
实际上有很多种对可解释性的定义方法：（1）可解释性指的是在后处理阶段对模型的预测过程进行分析。（2）模型本身是可解释的，与统计机器翻译类似，每一个结构都是可以看到的。
这两个方向都吸引了研究者们的研究兴趣，相较之下可能更多人倾向于设计出本身可解释的模型。正如以前的统计机器翻译，分析短语对齐和切分，如果翻译结果有误，就可以直接定位到模型中出错的位置。但是现在的神经机器翻译模型是无法做到这一点的。
刘群：刘洋老师的划分很有道理。对于法律判案、自动驾驶这一类问题的可解释性是可以实现的，通过一些事后分析的手段我们可以得出推理链条，只不过现在关注这方面工作的研究人员还较少。
如果一定要强制性地设计出可解释的模型，是十分困难的。人类做决策的过程有时也不完全是一个严谨的推理过程，人在完成翻译、语音识别等任务时往往也会受直觉的引导，会受到很多因素的影响。其中，有些因素可能是合理的，而有些因素也可能是不合理的，需要进一步改进。
如果我们希望模型本身完全可解释，那就回到了最初的形式化推理的模型，这与现在的神经机器翻译技术是不同的。
所以，我认为还是应该要先关注提升模型性能，然后再反过来还原出推理过程。这与数学家推导数学定理的过程是类似的，数学家往往会先想出一个定理，然后对其进行推导。人的直觉往往不涉及严谨的推理过程，并不是每一个步骤都是可解释的。我认为没有必要攻击神经机器翻译的「不可解释」现象。
张民：我认为神经机器翻译模型的不可解释性是一个亟待解决的问题。神经机器翻译的效果有时存在很大的波动性，我们希望知道造成翻译结果较差的原因是什么，从而进行修正。
因此，我希望机器翻译系统具备可解释性。此外，人是一种理性的动物，最好能够澄清人做决策的原因。第三，将目前的神经机器翻译系统设计成可解释的形式是十分困难的。
许多网友会使用以下几个概念来评价当下机器翻译或深度学习的研究：（1）军备竞赛，BERT 等模型需要使用海量的数据。我们不应该追求这种「军备竞赛」，而应该实现进行「军备竞赛」的能力。（2）鹦鹉学舌，目前机器翻译模型能够得到较好的翻译结果，但尚不明确翻译的依据。（3）不可解释，我们希望解释得到机器翻译结果的原因是什么，从而对模型进行改进。
刘群：当我们发现翻译错误时，由于翻译模型是我们设计的，数据也是可见的，我们可以从数据出发逐步进行推导，肯定是可以定位错误原因的。因此从理论上说，翻译的过程是可解释的，只不过推导的过程往往较长。
张民：但是如果数据包含 100 亿条记录，无论使用多少人力，都不太可能回溯到错误发生的地方。
刘群：这就要看我们从哪个粒度上来看待可解释性了。
张民：针对存在翻译错误的句子，我们希望能够迅速定位到机器翻译模型出错的地方。
刘群：以数学定理证明为例，存在一些证明过程是这样的：全世界没有一位数学家能够看懂证明的全流程，但是将证明过程拆分开来，每一个部分都有一些数学家可以看懂，那么大家认为这是一种可解释性吗？
从某种程度上来说，我们可以做到让人更容易理解模型输出（例如，哪个地方的对齐工作出现了错误）。
朱靖波：张民老师的意思是能不能从人能够理解的角度说明翻译的结果为何出错，进而对其进行修改。
当然，从机器智能的角度来说，肯定是存在一个机器能够理解的推理过程，但是人无法理解这个过程。所以，我认为这是两种不同的智能，取决于我们究竟需要面向机器智能的解释，还是面向人类理解的解释。
刘群：我认为过分追求可解释性的意义并不大，我们总是可以想出一些办法来解释我们的模型及其输出，只不过现在从事这方面工作的人还不多。
刘洋：当我们分析译文错误时，由于神经网络内部各个层存储的全都是数字、向量、矩阵，所以定位决策过程中的错误是比较困难的。所以我们团队在 2017 年发表了相关的论文，尝试通过关联度的变化分析各个层对译文的影响，但确实是一项比较难的工作。
除了可解释性之外，我认为可控性也很重要。可控性指的是，我们希望让神经网络按照人指定的方式工作，刘群老师之前在约束解码方面也做出了一系列很好的工作。
张民老师的观点也很重要，我们关注可解释性的更重要的目的是，通过分析观察现有模型缺点，指导我们设计出新的架构。三年以来，还没有出现比 Transformer 更好的架构。如果我们能够更好地理解现有模型，也许能够启发我们设计出更好的架构。
刘群：我也是很主张观察数据的，希望能够理解机器翻译的过程。但是现代的神经机器翻译系统与规则系统是不同的，我们也无法像统计机器翻译时代一样，加入某个短语就可以解决某种错误。
对神经机器翻译模型而言，提供可解释性对改进模型的指导意义是十分有限的。我们更多地可能还是在比较高的层次上考虑模型设计的是否合理，并不是针对某些翻译错误为模型打上补丁。
朱靖波：在基于规则的机器翻译和统计机器翻译时代，一旦发现翻译错误，我们可以相对清晰地追溯到造成翻译错误的原因，并且可以采取相应的办法进行干预。但是神经机器翻译技术在这方面的能力就要较弱。
张民：此外，我还想指出，机器翻译的结果在某些场合下也十分关键。例如，在电商场景下，如果我们将价格翻译错误，或者将货币单位翻译错误会招致比较严重的后果。

观众问答环节
Q1：如何加入先验知识，引入外部知识或融合专业术语是不是一种途径？
刘群：现在有很多研究者在研究专业术语的融合。在工业界，我们有各种各样的办法解决引入先验知识的问题，我认为加入专业术语是可行的。
朱靖波：加入术语是相对容易的，但是加入其它知识就稍微困难一些。首先，我们要合理、高质量地获取知识；此外，还需要考虑如何有效地加入知识，因为加入知识相当于对整个搜索空间和推理的解码空间都进行了约束，这样也许会引发一些新的问题。
正如刘群老师所说，现在有很多研究者在研究如何引入先验知识，提出了各种各样的方法（例如，引入知识图谱）。但是「如何实现知识的高精度自动获取」、「如何在引入知识时不降低模型推理的性能」、「如何不造成新的错误」，还是有待探索的。
刘洋：2016年前后，人们对这个问题的关注度还是很高的，也提出了多种解决方案。这些方案大体上可以分为：模型建模时加入知识，在训练阶段加入知识，在解码阶段加入知识。
我认为关键的问题并不在于如何加入先验知识，而是加入先验知识后是否有积极作用。有时加入的外部知识可能会被数据本身抵消掉，我们需要研究哪些知识对于数据而言是互补性比较强的。当然，在一些垂直领域中加入先验知识肯定还是有用的。
Q2：有没有可能现在已经出现了一些能超过 Transformer 的模型，但是这种WMT数据加上 BLEU 值的评测手段不能体现出其优势，未来应该设计怎样的评测手段，从而更好地推动机器翻译的发展？
李沐：我认为目前还没有针对这个问题的标准答案。现在在NLP领域中，基本上还是 Transformer 模型一统江湖。
而「评测手段不完美」实际上是老生常谈了，虽然 BLEU 值不够完美，但是我认为，现在研究人员仍然没有提出一种能够全面超越 BLEU 的自动评测标准。在开发新型评测手段方面，需要探索的路还很长。翻译本身就没有标准答案，错误类型也不是非黑即白、可以被明确分类的。
刘群：我不赞成李沐老师的观点，WMT 的 Metrics 赛道中许多评测方式都已经超越 BLEU 值了，可能大家使用 BLEU 还是出于对方便性的考虑。
李沐：刘群老师说的是学术上的情况，但是我们做过评测，工业应用场景下没有一种评测方式能全面超过 BLEU 的。可能有些评测方式在某一个指标上超越了 BLEU，但是在大规模数据场景下全面超越 BLEU 还是非常困难。这不只是方便的问题，从鲁棒性上来说，其它的评测手段还是不如 BLEU，当数据量很大时，其它指标的鲁棒性会急速下降。
刘群：WMT 的 Metrics 赛道中大部分的评测手段都比 BLEU 好，如果有新的需求，我们自己也可以定义一种新的评测手段，在 WMT 上提出一种新的任务。
Q3：非常认同张民老师认为「翻译是再创造过程」的观点，其实从规则到神经的个时代，一直有些工作想尝试问鼎「信、达、雅」中雅的标准，但是感觉进展甚微。请问这方面的工作何时会有一个实质性的进展。
刘群：我认为是没有必要的，艺术问题可能不是技术能解决的。
朱靖波：我同意刘群老师的看法，我觉得目前机器翻译能做到「信」就已经很不错了。这个问题与学术界目前普遍所关注的问题可能不在同一个维度上，这方面的讨论还比较少，但我也同意以后的机器翻译技术可以追求一些更高的目标。
刘群：此外，不同人对于「雅」的标准也不好统一。
朱靖波：仅凭数据驱动的方法可能很难解决这个问题。实际对于人而言，除了经验丰富的老专家，想做到「雅」也是很难的，需要译者具备大量的历史知识、文学修养。要达到这个目标我们首先要学习出一个文学的理解系统，再将其与机器翻译系统相结合。因此，目前机器翻译可能还停留在追求「信」的级别上。
Q4：如果我们发现模型对某些句子的某几个单词或短语产生了翻译错误，应该从哪个角度下手修正这些错误？
刘群：这需要具体问题具体分析。首先，需要检查使用的数据，一般数据中是存在错误的。当然，有些问题是目前解决不了的。例如，一词多义的情况如今仍然是机器翻译系统面临的巨大挑战。如果上下文中没有对该词词义的准确提示，机器翻译出现错误的可能性还是很高的。
因此，语料库越大越好。如果语料库越大，各种词之间的搭配就越多，机器翻译犯的错误就越少。在我看来，如今最难处理的翻译错误还是由于一词多义造成的错误。
朱靖波：其实机器翻译系统一般肯定会出现很多类似的错误，我们往往也不会让模型进行修正，这是很难做到的。我们可能会在前处理、后处理的过程中采取各种各样的措施修正翻译结果，也可能会运用一些新的工程手法。如果这个错误是一个很高频出现的问题，那肯定还是要想办法解决的。
Q5：想问一下工业级的神经机器翻译（NMT）技术是怎么修正已知的翻译错误的？
朱靖波：工业界中最常见的还是数据长尾分布的问题，解决已知翻译错误的方式需要尝试各种各样的工程手段，需要不断打磨。真正想做一套能用的商务系统，需要三个要素：首先，使用先进的技术。第二，大量的训练数据资源作为支撑。第三，也是最重要一点，就是需要在各个环节经过长时间的错误驱动的反复打磨。当然，也还有很多错误目前无法改正。
Q6：如果语音转文字之后再翻译还会涉及到许多非语言因素，比如说话人的表情，语音语调等因素，能否将它们输入神经网络，如何量化这些因素？
刘洋：我个人认为目前这个方向的研究好像并不是特别多，但这种研究应该是可以进行的。神经网络的方法其实就是把任何数据向量化，你可以将表情因素向量化，但这也需要我们有新的标注数据。
刘群：我认为引入表情因素涉及到计算机视觉，可能相对而言更困难一些。语音语调相关的研究近年来也在逐渐增多。现在人们研究较多的是端到端的语音到文字的机器翻译。这种翻译任务目前面临的最大的问题还是数据问题，我们往往不可能拥有大量的语音数据，我们也可以利用一些文本到文本的翻译数据。端到端的系统具有结构上的优势，语音数据中包含停顿、声调等信息，如果想要实现语音到语音的端到端翻译，可以利用上这些信息。
语音的翻译是一个很有前景研究方向，受到人们越来越多的关注。今年百度办了一个研讨会，我应邀作了一个报告，明年我们还会举办这个研讨会，探讨与语音同步的机器翻译问题。
Q7：机器翻译是否一定追求完全忠实于原文，如果翻译结果与原文语义一致或者接近是否也可以？比如在沟通交流的场景下，口译员也做了很多的信息压缩抽取工作。
李沐：这是一个应用问题，该问题的答案完全取决于用户对应用的定义如何。如果用户认为我们只需要知道基本含义，可以接受不忠实于原文，就可以这么做。从文本摘要到机器翻译的整个技术链条上并没有特别大的难度。
朱靖波：我同意李沐老师的观点，该问题要取决于用户的需求。
刘群：在翻译很多标识语时，我们往往不可能完全按照字面意思翻译。我们的目标是将原文想传递的信息传达给受众即可。例如，草地上立着一个标语——「小草会疼」，我们只要表达出让行人不要踩踏草地的意思就可以了。
朱靖波：口译员如果不做信息压缩的话就没有办法跟得上整个翻译的过程，这取决于具体的需求和应用场景。
Q8：预训练的机器翻译未来将如何发展？如何融入更多于语义知识？
刘群：实际上，目前预训练对机器翻译的帮助并不太大，它对其它的NLP任务的帮助更大。这是因为，机器翻译的数据量已经足够大，因此预训练对机器翻译任务的提升不如对其它任务的提升那样大。
此外，「究竟引入怎样的知识是有用的」、「如何引入知识」等问题还有待探究。尽管通过知识图谱或人工构建的规则引入知识是有用的，我自己也在做这方面的研究，但其实我并不太喜欢这样做。工业领域对引入人工构建的规则有所需求，在机器翻译、对话系统等场景下都是如此。如何将这些规则应用在神经网络中还是十分有趣的，但这是一个更加偏向于应用的研究，学术价值相对有限。
现在的 NLP模型学到的都是字面的关系，而无法学到更深层次的关系。例如，现在的 NLP 模型无法学习辨别数字的大小，它们不能学习到「56 比 32 大」这样的关系。我相信，今后我们需要将这种更深层的知识引入到 NLP 系统中，目前还没有很自然地和 Transformer 等模型结合的很好的方法。这个研究方向具有广阔的前景，但是尚无非常好的工作。
[赠书福利]

在本文留言区留言，谈一谈吴军博士对你的启示，或你对信息技术发展的理解。

AI 科技评论将会在留言区选出 10 名读者，每人送出《信息传》一本。

活动规则：

在留言区留言，留言点赞最高的前 10 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服（aitechreview）。
留言内容会有筛选，例如“选我上去”等内容将不会被筛选，亦不会中奖。
本活动时间为2020年10月19日 - 2020年10月23日（23:00），活动推送内仅允许中奖一次。

NeurIPS 2020论文接收列表已出，欢迎大家投稿让更多的人了解你们的工作~

点击阅读原文，直达NeurIPS小组~
Read more
喜欢此内容的人还喜欢

第十六届全国机器翻译大会（CCMT 2020）

相关工具

踏踏实实地把错别字识别检测这件事情做好！ QQ： 2035751490 , 欢迎在线咨询