李沐、刘群、刘洋、朱靖波、张民:当前机器翻译的瓶颈
作者 | Mr Bear
编辑 | 青暮
第十六届全国机器翻译大会(CCMT 2020)于2020年10月10日至12日在线上举行。
CCMT旨在为国内外机器翻译界同行提供一个交互平台,加强国内外同行的学术交流,召集各路专家学者针对机器翻译的理论方法、应用技术和评测活动等若干关键问题进行深入的研讨。
除学术论文报告外,本次会议邀请了国内外知名专家进行特邀报告,面向学生和青年学者举行专题讲座,邀请学界和产业界专家举行专题讨论会,面向研究者和用户进行系统展示等,通过丰富多彩的形式和与会者互动探讨机器翻译最炽热的研究论点,揭示机器翻译最前沿的蓝图。
10月11日,CCMT组织了一场论坛,主题是“当前机器翻译的瓶颈”,主持人腾讯AI Lab专家研究员涂兆鹏博士。
腾讯云与智慧产业事业群智能平台部总监、
腾讯技术研究通道委员会委员李沐,
华为诺亚方舟实验室语音语义首席科学家刘群,
清华大学计算机科学与技术系长聘教授刘洋,
以及东北大学计算机学院人工智能系教授、
小牛翻译创始人朱靖波以及苏州大学计算机学院院长张民在这场论坛中就三个话题进行了讨论。
这三个话题分别是:
- 机器翻译的瓶颈在哪里?
- 是否存在第四代机器翻译?
- 自然语言处理的可解释性研究之争。
对于第一个话题,专家们就应用和技术层面进行了讨论。朱靖波教授认为机器翻译的瓶颈主要在应用层面,李沐博士强调了瓶颈的定义问题,刘群教授指出数据稀疏是个瓶颈,刘洋教授则补充道知识获取也是一个瓶颈。
值得一提的是,针对第二个话题,朱靖波教授提出了“不存在第四代机器翻译”的观点,直面众专家的反驳,张民教授在这时候加入,并表示反对。
在第三个话题的讨论中,众专家就可解释性的定义和重新理解层面进行了讨论。朱靖波教授提出了一个富有启发性的问题:应该从揭示机器翻译模型的数学推理过程的角度研究可解释性,还是从人类对模型结果的理解的角度研究可解释性?
最后是Q&A环节,线上观看的网友提出了关于先验知识、评价指标、翻译艺术性以及预训练模型等8个问题,专家们一一进行了解答和讨论。
以下是论坛全文,AI科技评论进行了不改变愿意的整理。
1
机器翻译的瓶颈在哪里?
朱靖波:我首先抛砖引玉。所谓“瓶颈”,是指技术发展停滞不前了。虽然现在机器翻译中面临一些困难,但它现在还正处于蓬勃发展的阶段。
谈到“瓶颈”,我觉得无非可以分为技术的瓶颈和应用的瓶颈。关于技术的瓶颈问题,可以留作后面几位老师来详细讲,我说一说应用的瓶颈问题。
机器翻译最初是从规则开始干的,很痛苦。但早期的技术不成熟,即使免费给大家用都不愿意使用,所以也没有太多应用。但到了第三代,也即神经机器翻译出来以后,大家都能够看到它翻译的效果变好了,于是开始有人愿意去使用,甚至愿意去买单。这时候就有投资人觉得这里能赚钱,开始往里投钱。所以简单来说,近几年有越来越多的资源投入到机器翻译这个领域。所以我觉得现在机器翻译的应用是在往上走的。
但有一点是,同样作为刚需,为什么机器翻译的应用,并没有像语音等领域突然爆发,出现一系列的独角兽公司?我的一个初步观点是,机器翻译尽管是强刚需,应用也非常多,但它在整个应用市场上的应用模式却很少。
在我看来,机器翻译并没有真正制约其发展的“瓶颈”,如果一定要说存在瓶颈,那么应用模式的匮乏应该是机器翻译领域的瓶颈之一。
李沐:应用是一个很大的话题。刚才朱老师提到,机器翻译是刚需,但什么是“刚需”是需要定义的。相比可有可无、只是打发时间的娱乐性工具,机器翻译是工作或生活上的一种需求;但从另一个角度来说,机器翻译在很大程度上是和人工翻译服务重叠的。所以,尽管对机器翻译有所需求,但是需求程度究竟有多大还是值得探究的。
事实上,针对这个问题,多年来,无论是学术界还是工业界,都没有给出一个特别明确的答案,许多机构的报告,也都是从整个翻译领域来做的,而其中很大比例上也都是人工翻译。整个翻译界需求,在多大程度上会被机器翻译技术所取代,实际上还是未知的。
再回过头来说,为什么大家会觉得机器翻译遇到瓶颈了呢。机器翻译最初和语音一样,多年以来一直没有太多进展,技术完全不成熟。但2010年深度学习的爆发之后,技术水平一下子提升了许多,然后各种美好的幻想和肥皂泡就飘了起来。一旦遇到一些现实中的困难,就会觉得是遇到了瓶颈。
实际上,如果把时间拉长,从整个技术发展的历史来看,现在遇到的各种困难,不过是小小的浪花而已。从应用角度来看,现在的机器翻译相比10年前,范围肯定要大很多,很多原来不可能使用机器翻译的场景也都开始使用了,例如各个大会上的辅助机器同传等;各个翻译平台,例如谷歌、百度、腾讯以及小牛等,服务的流量也都提升了几个量级,而且能够服务于业界的各种公司场景(例如金融、游戏等)。
所以我们对“瓶颈”的定义十分重要,需要明确讨论的是此类技术增速的瓶颈,还是完全无法推广使用的瓶颈。
刘群:我基本同意刚才两位老师的观点。
从应用角度来说,目前机器翻译肯定不是处于瓶颈期,它的应用还在不断拓展中。从技术角度来说,也不能算遇到了瓶颈期,只是发展地比前一段时间稍微慢了一点,但我认为现在深度学习技术的红利还没有挖尽。所以总体上来说,机器翻译并不是处于瓶颈期。
不过如果非要讲遇到的阻力,则主要体现在数据上面。现在的深度学习技术(包括之前的统计机器翻译技术)是一种数据驱动的技术。虽然在主流语种之间的翻译已经相当不错了,但对于低资源的小语种,效果要差得多;此外,对于一些专业领域,例如医学文献、法律文献等,往往存在许多翻译错误。
数据稀疏的问题,我们永远不可能解决,除非以后能够开发出非数据驱动的技术,否则这种瓶颈将永远存在。但我们可以更有效地利用数据,如果把数据挖掘得足够,我们能够做得更好。
刘洋:我认为从技术的角度来看,机器翻译应该是再次进入了缓慢发展期。从2017年出现 Transformer 以后的三年中,没有一个新的重要模型能够替代它。另外技术指标上也没有一个大幅度的提升。
当前机器翻译技术上的瓶颈,我认为主要是在翻译知识的获取上。大家使用当前的机器翻系统时,可能有一种感觉,就觉得整体上翻译的还挺好,但经常会犯一些我们人类看来比较简单的错误。
这本质上是机器翻译系统获得翻译知识的能力不够,特别是获得常识的能力不够。
我们可以类比一下人的学习过程。小时候是父母手把手教,上学了以后有课本、作业、考试,进入社会以后就自己摸爬滚打去感悟和总结经验。这个过程跟机器翻译乃至人工智能的发展历程是非常类似的。
早期机器翻译用基于规则的方法,是由专家写成复杂的规则,手把手教机器,此时知识的呈现方式其实就是一种由人总结出来的符号规则。
90年以后,开始进入有监督学习时期,我们给机器大量的平行数据,然后为机器建立数学模型,在数据上估计模型参数,此时的模型参数其实也是某种形式的知识,只不过这种知识是机器自动从数据中学出来的。这种知识,早期是生成模型的参数,后来是特征值和特征权重。
从90年代的统计机器翻译发展到今天的神经机器翻译,事实上从数据中学习特征表示的能力已经发挥得淋漓尽致了,从标注数据中挖掘翻译知识,我觉得目前基本上已经走到尽头了。
此外,数据的规模增长也不会有太大的提升,现在大家再去网上抓取平行数据,很难有数量级上的增长。
因此我认为,现在机器翻译的瓶颈在于,我们能否扩大翻译知识获取的来源,改变翻译知识获取的方式。
所以,以后应该进入第三个阶段,就是要摆脱目前这种纯粹的表示学习加标注数据的范式,应该让机器翻译系统像人一样,能够进入一个真实的应用场景,在一个更加开放的环境中摸爬滚打,充分利用未标注或弱标注数据,通过一些间接的方式获得反馈信息。
这类似于开放环境下的 Atari 智能体。BERT的成功,恰恰是代表了这样一种趋势。所以我们应该把关注点从有限的标注数据转移到更加海量的未标注数据上,从而来进一步扩大机器翻译系统获取知识的能力。
2
是否存在第四代机器翻译?
朱靖波:大道理大家都懂,我提一个大家可能不赞同的观点,请大家来反驳我。
现在机器翻译经历了规则方法、统计方法和神经网络方法,那么是否存在第四代机器翻译呢?在我看来,第四代机器翻译是不存在的。
理由是,在规则时代,只要规则没有覆盖的句子,我们就翻译不了,当时大家写规则的工作举步维艰。
当统计机器翻译出来后,只要语料覆盖到,就没有不可翻译的句子;不过这个时候,机器翻译是把句子拆成一个个单词,并不连贯,这是它技术本身存在的缺陷,因此简单句子翻译得还行,但稍微复杂一些就完全无能为力了。
随后谷歌基于神经网络得机器翻译系统上线后,大家眼前一亮,整个译文虽然并不非完美,但非常流畅。以中英文互译为例,现在只要语料给得足够,在同源领域中,机器翻译系统的人工评价效果可以达到85%甚至90%以上。
那么问题来了,如果存在第四代机器翻译的话,性能应该达到多少?假设在某个领域中,数据量足够大时,对某个语言对来说,如果将目前最好的训练方法应用于最优的神经机器翻译技术,人工评价完全有可能达到 90%。
那么,下一代机器翻译技术应该将这一数字提升到多少呢?如果在做出很大的努力后,第四代机器翻译技术相较于第三代机器翻译仅仅将性能提升了 1-2 个百分点,这显然是不合理的‘。
目前,在相同的条件下,神经机器翻译相较于统计机器翻译可以将性能提升 10-20 个百分点。在性能指标达到 90% 后,如果进一步提升 1-2 个百分点是否能够被称为第四代机器翻译?因此,在我看来,将来不可能出现第四代的机器翻译技术。不知道大家是否赞同这个观点。
张民:我和朱老师的意见并不一致。
首先,从哲学的角度来讲,第四代机器翻译肯定是存在的。
第二,从技术的角度来说,第四代机器翻译也是存在的。正如朱老师所说,从 90 年代至今,机器翻译技术经历了近 30 年的发展。2010年前后,大家普遍认为机器翻译的效果不理想。但是神经机器翻译的出现大大提升了机器翻译性能,扭转了很多人对机器翻译前景的看法。
此外,神经机器翻译刚出现的时候,许多研究者都持反对意见。后来越来越多的人逐渐接受了神经机器翻译,所以人们接受新鲜事物往往有一个过程。
类比地看,在神经机器翻译出现之前,没有人想到它的性能会如此之好,因此我们也不能确定未来不会出现超越神经机器翻译的技术。
朱老师说从翻译的效果来看,性能已经达到了80%-90%。但是如果从机器翻译技术本身出发,还存在许多有待解决的问题(例如,篇章分析、背景知识、语料领域等)。在人民日报等训练语料一致且规范的情况下,模型的 BLEU 得分也许可以达到50%左右。但是在其它的领域中(例如,专利机器翻译),可能 BLEU 得分甚至低于 10%-20%。
目前仍然存在一些仅凭神经机器翻译技术无法解决的问题(例如,上下文指代、术语解释、一词多义等),或者需要背景知识才能解决的问题。抛开第四代机器翻译技术不谈,我认为机器翻译技术瓶颈和数据瓶颈是否存在还是值得思考的。
在使用现有的机器翻译模型时,即使我们拥有规模达到 10 亿、100 亿条记录的语料,有些技术仍然无法解决。这是因为,这些模型的设计者本身没有从解决上述问题的角度去思考,仍然停留在 Transformer 模型的层面上。也许,再过 10-20 年,会有新的能够解决上述问题的新技术出现。
我认为,深度学习目前在自然语言处理领域中最成功的应用场景就是机器翻译或语音识别。机器翻译和语音识别如今的成功可能是许多人未曾预见的,但是其成功极大地依赖于充足的语料,并且需要本领域的语料十分充分。
而且,即使在本领域语料充分的情况下,还存在许多有待解决的 NLP 问题(例如,汉语的零指代问题、省略问题,以及需要背景知识才能解决问题)。
因此,目前机器翻译里面还存在大量的技术难题有待解决。许多研究者都认为下一代机器翻译是知识驱动的,但如何获取、表达知识还存在很大的研究空间。
朱靖波:我与张民老师的意见相左。我的意思是,第一代、第二代、第三代机器翻译相当于是一棵树的主干。就好比第一代基于规则的机器翻译是根,然后发展出以统计机器翻译、神经机器翻译为主干的第二代、第三代机器翻译技术。
张民老师认为目前机器翻译还存在大量有待解决的问题(例如,篇章级分析、零指代、省略),但我认为它们只是将现有的技术应用到不同的场景下,延伸出一些新的技术新的解决方案而已,并不涉及解决机器翻译的根本的问题。我也同意将来会在这些主干上会生出很多枝节的观点。
至于大家提到的基于知识的机器翻译,我认为大家需要思考究竟需不需要「知识」,需要怎样的知识?
我并不认为引入知识的机器翻译就是第四代机器翻译,如今大家也用到了句法、语义等领域知识,可能未来还会引入更多的知识,但是在我看来这些工作也都是现有「主干」技术上延伸出来的「枝干」,使得机器翻译之树更加茂盛,让机器翻译技术能够适用于更多的应用场景。
而我所指的第四代机器翻译是指出现新的主干技术。
张民:我认为目前的神经机器翻译技术无法解决刚才我们提到的这些问题,所以第四代机器翻译技术必然会出现,但究竟新一代的机器翻译技术是怎样的,仍然是一个尚不明确的问题。
刘群:我认为拘泥于机器翻译技术处于「第几代」的意义并不是太大。我相信未来机器翻译技术还是会取得重大突破,刚才大家提到的各种问题还是存在的。
本质上,这些问题可以归纳为数据问题,或长尾分布问题。当数据量很小时,现在的机器翻译技术的性能一般来说还是要弱于人类的能力。
人可能不需要用大量语料就可以学会新的语言,但是机器目前来说还不具备这种能力。所以研发基于小数据的机器翻译技术是一个涉及到技术本质的问题,并不仅仅是「主干」和「枝干」的关系这么简单。
目前,在数据量十分充分的情况下,机器翻译技术的性能已经较为理想了,但是在数据量不够的情况下还是存在诸多挑战。因此,我认为未来还是会出现下一代机器翻译技术。
下面我们讨论下一代机器翻译技术是否是基于知识的,以及是否仍然处于神经网络的学习框架之下。
首先,目前对于「知识」尚无一个明确的定义。如果要说第四代机器翻译是基于人工编写的知识、知识图谱或者规则这样的「知识」,那我并不认为这可以被称之为第四代机器翻译技术。但如果我们将「知识」的概念扩大,那也许是成立的,在这里我也无法对第四代机器翻译技术给出一个明确的定义。
此外,我认为下一代机器翻译技术可能还是以神经网络为基础的。我认为在 NLP 领域中,基于神经网络的红利并没有被挖尽,目前神经网络的主要框架已经非常优秀,但是仍然可以对其进行很多的改进。例如,近年来比较火热的预训练语言模型(例如,BERT、ELMO 等)横空出世,解决了很多 NLP 问题。
我相信,在神经网络的框架下有可能出现第四代机器翻译技术,但是它与现在的机器翻译技术还是存在很大差别的。对于数据驱动的模型来说,我们也许永远无法解决数据稀疏的问题,但是我们可以更有效地利用数据,充分挖掘有限的数据,得到比现在的模型好得多的效果。
刘洋:我觉得刚才朱老师提的这个问题特别有意思。上世纪90年代,有研究者证明,两层的神经网络相当于一种万能的函数模拟器。而我们现在所研发的模型并不是万能的,其输出端是一个概率分布。
我曾经做过一个小实验,在一个神经网络后面添加上复杂的数学变换(例如,取模、取正弦值等操作),并且提供大规模的训练数据。实验结果表明,这种转换能达到 99.9% 的性能。
正如朱老师所说,在给定几乎无限的训练数据时,我们的模型能取得非常好的性能。但是,当下的机器翻译模型是用一个非常复杂的非线性函数来实现从源语言到目标语言的映射,然后我们向模型提供大量的「输入-输出」对,来训练该模型。在这个过程中,存在着许多有待解决的问题。
首先,自然语言的映射本身可能是高度复杂的。第二,我们如果想通过神经网络完全模拟这种高度复杂的映射,需要多大的数据量?目前,我们可能针对某个语言对可以提供上亿条训练数据,但是性能仍然达不到 100%。
我赞成张民老师和刘群老师的观点,未来还是存在很多值得探究的问题。我认为,我们不要局限在机器翻译问题本身来思考机器翻译问题,应该用更广阔的眼光将机器翻译放到整个人工智能研究的大背景下来思考。
机器翻译问题并不是孤立的,它涉及到许多整个人工智能研究领域中的共性问题,未来的大趋势应该是很多自然语言处理任务集成在一起,共同来完成一些目标。
BERT 为我们带来的一个很大的启示是,很多的自然语言任务之间是存在共同性的。我猜想,未来我们可能会设计出一种智能体,它具有综合的语言能力,可能会利用另外一个 NLP 任务,甚至是图像领域的任务,帮助机器翻译取得更好的性能。我们不应该将未来有待解决的问题简单定义为文本级的映射(例如,语句或篇章)。
张民:刘洋老师的观点给了我很大的启发。我们不妨跳出对机器翻译技术的讨论,思考翻译任务本身的过程。
我们最终需要解决的还是翻译问题,翻译本身涉及到艺术创作和再加工。以前,我经常每天晚上给我女儿读童话,常常会想到 NLP 的语言理解问题,思考能否用另一种语言翻译这些童话。我认为,翻译金庸小说、红楼梦、钱钟书的围城等国内外名著,甚至古诗词等包含深刻意境的文本,远远不是简单的映射这么简单。
翻译任务中存在大量需要艺术加工的问题。纽约时报曾经有篇报道,一名记者请专家们就「机器翻译是数学问题还是艺术问题」这一观点发表看法。从人类社会的角度来看,这一定是一个艺术问题,而不是一个数学问题。
因此,无论使用多么复杂的函数,我们都不可能通过计算机方法完美地对机器翻译问题进行建模。即使未来使用了性能强大的量子计算机,由于机器翻译不是一个纯粹的算法问题,所以它仍然是不可解的,我们只能试图无限地逼近最优的解。
李沐:在人工智能领域中,「AI 完全」问题是一个其被长时间讨论的话题(对应于算法中的 NP 完全问题)。有很多智能化问题并不是仅仅利用某一个领域的算法和知识就可以完全解决的,它需要动用人的全部智能。这些智能包括听觉、视觉等感知能力,以及无法很好定义的世界知识和推理能力。
之前大家讨论的很多机器翻译中的问题也都涉及到完全发散的世界知识和推理。例如,如何翻译金庸的小说?各种武侠招式要不要翻译?还有一些问题需要进行推理(例如,指代问题、前后呼应的分类问题),人类的碳基智能可以解决这些推理问题。
对于电脑这种硅基智能而言,最近许多研究者们都在讨论 GPT-3 的论文,我们可以认为 GPT-3 等神经网络模型具有强大的记忆功能,可以将无数的文本都记忆下来。所谓无监督学习就是通过一些「黑盒」的方法记忆大量文本贡献的知识,但是现代神经网络所谓的「推理」能力本质上还是各种各样的模式匹配,缺乏和人类智能相媲美推理能力。
目前尚不可知「AI 完全」问题或者机器推理能力这一终极目标是否能够实现,目前来看还十分遥远。
从计算机视觉领域来看
登录后可查看完整内容,参与讨论!
立即登录