第十六届全国机器翻译大会(CCMT 2020)

李沐、刘群、刘洋、朱靖波、张民:当前机器翻译的瓶颈

作者 | Mr Bear

编辑 | 青暮

第十六届全国机器翻译大会(CCMT 2020)于2020年10月10日至12日在线上举行。

CCMT旨在为国内外机器翻译界同行提供一个交互平台,加强国内外同行的学术交流,召集各路专家学者针对机器翻译的理论方法、应用技术和评测活动等若干关键问题进行深入的研讨。

除学术论文报告外,本次会议邀请了国内外知名专家进行特邀报告,面向学生和青年学者举行专题讲座,邀请学界和产业界专家举行专题讨论会,面向研究者和用户进行系统展示等,通过丰富多彩的形式和与会者互动探讨机器翻译最炽热的研究论点,揭示机器翻译最前沿的蓝图。 10月11日,CCMT组织了一场论坛,主题是“当前机器翻译的瓶颈”,主持人腾讯AI Lab专家研究员涂兆鹏博士。

腾讯云与智慧产业事业群智能平台部总监、 腾讯技术研究通道委员会委员李沐, 华为诺亚方舟实验室语音语义首席科学家刘群, 清华大学计算机科学与技术系长聘教授刘洋, 以及东北大学计算机学院人工智能系教授、 小牛翻译创始人朱靖波以及苏州大学计算机学院院长张民在这场论坛中就三个话题进行了讨论。

这三个话题分别是:

  • 机器翻译的瓶颈在哪里?
  • 是否存在第四代机器翻译?
  • 自然语言处理的可解释性研究之争。

对于第一个话题,专家们就应用和技术层面进行了讨论。朱靖波教授认为机器翻译的瓶颈主要在应用层面,李沐博士强调了瓶颈的定义问题,刘群教授指出数据稀疏是个瓶颈,刘洋教授则补充道知识获取也是一个瓶颈。

值得一提的是,针对第二个话题,朱靖波教授提出了“不存在第四代机器翻译”的观点,直面众专家的反驳,张民教授在这时候加入,并表示反对。

在第三个话题的讨论中,众专家就可解释性的定义和重新理解层面进行了讨论。朱靖波教授提出了一个富有启发性的问题:应该从揭示机器翻译模型的数学推理过程的角度研究可解释性,还是从人类对模型结果的理解的角度研究可解释性?

最后是Q&A环节,线上观看的网友提出了关于先验知识、评价指标、翻译艺术性以及预训练模型等8个问题,专家们一一进行了解答和讨论。

以下是论坛全文,AI科技评论进行了不改变愿意的整理。

1

机器翻译的瓶颈在哪里? 朱靖波:我首先抛砖引玉。所谓“瓶颈”,是指技术发展停滞不前了。虽然现在机器翻译中面临一些困难,但它现在还正处于蓬勃发展的阶段。

谈到“瓶颈”,我觉得无非可以分为技术的瓶颈和应用的瓶颈。关于技术的瓶颈问题,可以留作后面几位老师来详细讲,我说一说应用的瓶颈问题。

机器翻译最初是从规则开始干的,很痛苦。但早期的技术不成熟,即使免费给大家用都不愿意使用,所以也没有太多应用。但到了第三代,也即神经机器翻译出来以后,大家都能够看到它翻译的效果变好了,于是开始有人愿意去使用,甚至愿意去买单。这时候就有投资人觉得这里能赚钱,开始往里投钱。所以简单来说,近几年有越来越多的资源投入到机器翻译这个领域。所以我觉得现在机器翻译的应用是在往上走的。

但有一点是,同样作为刚需,为什么机器翻译的应用,并没有像语音等领域突然爆发,出现一系列的独角兽公司?我的一个初步观点是,机器翻译尽管是强刚需,应用也非常多,但它在整个应用市场上的应用模式却很少。

在我看来,机器翻译并没有真正制约其发展的“瓶颈”,如果一定要说存在瓶颈,那么应用模式的匮乏应该是机器翻译领域的瓶颈之一。

李沐:应用是一个很大的话题。刚才朱老师提到,机器翻译是刚需,但什么是“刚需”是需要定义的。相比可有可无、只是打发时间的娱乐性工具,机器翻译是工作或生活上的一种需求;但从另一个角度来说,机器翻译在很大程度上是和人工翻译服务重叠的。所以,尽管对机器翻译有所需求,但是需求程度究竟有多大还是值得探究的。

事实上,针对这个问题,多年来,无论是学术界还是工业界,都没有给出一个特别明确的答案,许多机构的报告,也都是从整个翻译领域来做的,而其中很大比例上也都是人工翻译。整个翻译界需求,在多大程度上会被机器翻译技术所取代,实际上还是未知的。

再回过头来说,为什么大家会觉得机器翻译遇到瓶颈了呢。机器翻译最初和语音一样,多年以来一直没有太多进展,技术完全不成熟。但2010年深度学习的爆发之后,技术水平一下子提升了许多,然后各种美好的幻想和肥皂泡就飘了起来。一旦遇到一些现实中的困难,就会觉得是遇到了瓶颈。

实际上,如果把时间拉长,从整个技术发展的历史来看,现在遇到的各种困难,不过是小小的浪花而已。从应用角度来看,现在的机器翻译相比10年前,范围肯定要大很多,很多原来不可能使用机器翻译的场景也都开始使用了,例如各个大会上的辅助机器同传等;各个翻译平台,例如谷歌、百度、腾讯以及小牛等,服务的流量也都提升了几个量级,而且能够服务于业界的各种公司场景(例如金融、游戏等)。 所以我们对“瓶颈”的定义十分重要,需要明确讨论的是此类技术增速的瓶颈,还是完全无法推广使用的瓶颈。

刘群:我基本同意刚才两位老师的观点。

从应用角度来说,目前机器翻译肯定不是处于瓶颈期,它的应用还在不断拓展中。从技术角度来说,也不能算遇到了瓶颈期,只是发展地比前一段时间稍微慢了一点,但我认为现在深度学习技术的红利还没有挖尽。所以总体上来说,机器翻译并不是处于瓶颈期。 不过如果非要讲遇到的阻力,则主要体现在数据上面。现在的深度学习技术(包括之前的统计机器翻译技术)是一种数据驱动的技术。虽然在主流语种之间的翻译已经相当不错了,但对于低资源的小语种,效果要差得多;此外,对于一些专业领域,例如医学文献、法律文献等,往往存在许多翻译错误。 数据稀疏的问题,我们永远不可能解决,除非以后能够开发出非数据驱动的技术,否则这种瓶颈将永远存在。但我们可以更有效地利用数据,如果把数据挖掘得足够,我们能够做得更好。 刘洋:我认为从技术的角度来看,机器翻译应该是再次进入了缓慢发展期。从2017年出现 Transformer 以后的三年中,没有一个新的重要模型能够替代它。另外技术指标上也没有一个大幅度的提升。

当前机器翻译技术上的瓶颈,我认为主要是在翻译知识的获取上。大家使用当前的机器翻系统时,可能有一种感觉,就觉得整体上翻译的还挺好,但经常会犯一些我们人类看来比较简单的错误。

这本质上是机器翻译系统获得翻译知识的能力不够,特别是获得常识的能力不够。 我们可以类比一下人的学习过程。小时候是父母手把手教,上学了以后有课本、作业、考试,进入社会以后就自己摸爬滚打去感悟和总结经验。这个过程跟机器翻译乃至人工智能的发展历程是非常类似的。

早期机器翻译用基于规则的方法,是由专家写成复杂的规则,手把手教机器,此时知识的呈现方式其实就是一种由人总结出来的符号规则。

90年以后,开始进入有监督学习时期,我们给机器大量的平行数据,然后为机器建立数学模型,在数据上估计模型参数,此时的模型参数其实也是某种形式的知识,只不过这种知识是机器自动从数据中学出来的。这种知识,早期是生成模型的参数,后来是特征值和特征权重。 从90年代的统计机器翻译发展到今天的神经机器翻译,事实上从数据中学习特征表示的能力已经发挥得淋漓尽致了,从标注数据中挖掘翻译知识,我觉得目前基本上已经走到尽头了。 此外,数据的规模增长也不会有太大的提升,现在大家再去网上抓取平行数据,很难有数量级上的增长。

因此我认为,现在机器翻译的瓶颈在于,我们能否扩大翻译知识获取的来源,改变翻译知识获取的方式。

所以,以后应该进入第三个阶段,就是要摆脱目前这种纯粹的表示学习加标注数据的范式,应该让机器翻译系统像人一样,能够进入一个真实的应用场景,在一个更加开放的环境中摸爬滚打,充分利用未标注或弱标注数据,通过一些间接的方式获得反馈信息。 这类似于开放环境下的 Atari 智能体。BERT的成功,恰恰是代表了这样一种趋势。所以我们应该把关注点从有限的标注数据转移到更加海量的未标注数据上,从而来进一步扩大机器翻译系统获取知识的能力。

2

是否存在第四代机器翻译?

朱靖波:大道理大家都懂,我提一个大家可能不赞同的观点,请大家来反驳我。

现在机器翻译经历了规则方法、统计方法和神经网络方法,那么是否存在第四代机器翻译呢?在我看来,第四代机器翻译是不存在的。

理由是,在规则时代,只要规则没有覆盖的句子,我们就翻译不了,当时大家写规则的工作举步维艰。

当统计机器翻译出来后,只要语料覆盖到,就没有不可翻译的句子;不过这个时候,机器翻译是把句子拆成一个个单词,并不连贯,这是它技术本身存在的缺陷,因此简单句子翻译得还行,但稍微复杂一些就完全无能为力了。

随后谷歌基于神经网络得机器翻译系统上线后,大家眼前一亮,整个译文虽然并不非完美,但非常流畅。以中英文互译为例,现在只要语料给得足够,在同源领域中,机器翻译系统的人工评价效果可以达到85%甚至90%以上。

那么问题来了,如果存在第四代机器翻译的话,性能应该达到多少?假设在某个领域中,数据量足够大时,对某个语言对来说,如果将目