语篇连贯程度的计算机评估和可计算性

译学撷英 | 李佐文 梁国杰:语篇连贯的可计算性

翻译技术教育与研究 2022-10-05 00:00 发表于北京

以下文章来源于应用语言学研习 ,作者李佐文 梁国杰

应用语言学研习.

面向外语、中文、区域国别与跨文化研究、国际语言服务、语言政策与规划等领域研习者,致力于分享相关学术资讯与学习资源,跟踪中外语言政策与文化、教育动态等。特色栏目包括:语言智能与多模态研究、太平洋岛国研究、国家话语能力建设等。

图片

论语篇连贯的可计算性

李佐文 梁国杰

摘要:

连贯性 是语篇所具有的一种可分析的语义属性, 是自然语篇理解和生成过程中的核心问题。语篇连贯的可计算性可以被理解为使计算机能够以语言的表层形式特征为依据对自然语篇中的连贯关系进行识别和处理。语篇连贯计算对人机互动、自动文摘以及作文评分系统的开发具有很高的应用价值。本文从汉语语篇连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等方面对语篇连贯计算的研究路径进行了探索和展望。 关键词:语篇连贯; 可计算性; 自然语言处理 作者简介: 李佐文, 博士, 教授,博士生导师。研究方向:话语语言学, 计算语言学, 语言教学; 梁国杰, 博士, 副教授,硕士生导师。研究方向:应用语言学, 区域国别学, 跨文化传播学。 收稿日期: 2017-03-20来源:《外语研究》2018年第2期引用格式:[1] 李佐文, 梁国杰. 论语篇连贯的可计算性[J]. 外语研究, 2018, 35(02): 27-32.DOI: 10.13978/j.cnki.wyyj.2018.02.006. 引言 目前, 字、词、词组和句子层面的自然语言处理已经取得了较大进展, 然而篇章话语层面的语言计算研究却举步维艰、发展缓慢, 成为制约自然语言处理水平的一个瓶颈。造成这种现状的原因是多方面的, 但 最主要的原因 有两个: 一是作为语言交际单位的篇章话语自身的复杂性远远超过词汇和语法单位, 相关的基础理论研究相对较为薄弱; 二是国内应用语言学界对篇章话语层面的自然语言处理重视程度不够, 大规模的汉语篇章标注语料库尚付阙如, 研究力量也较为分散。自然语言处理的进一步发展对篇章话语的计算机处理提出了要求, 而且无论从理论层面还是实践层面来看, 自然语篇计算都是一个亟待深入开展的重要课题。自然语篇是言语交际的基本单位, 它不是句子的随意排列。任何一个语篇单位, 就其功能和发话者要取得的效果而言, 都有它存在的依据和理由, 都为发话者传达信息及其交际意图服务。连贯关系是维系语篇的纽带, 是发话者意图的基本单位, 因此, 连贯关系是自然语篇理解和生成过程中的核心问题。使计算机能够对自然语篇进行处理, 实质上就是通过一定的技术手段让计算机能够最大程度地模拟人脑的语篇处理过程, 以一定的方式对语篇的连贯性进行计算。然而, 语篇连贯是一个相当复杂的概念, 关于计算机能否对连贯进行计算, 即连贯的“可计算性” (computability) 问题, 学界尚未形成一致看法。 1. 如何理解可计算性 可计算性是语言计算研究的基本前提, 对可计算性的理解决定了计算语言学的研究方法。从一般意义上说, 可计算性是指是否可以使用计算机来解决某一类实际问题, 一个可计算的问题应该是可以在有限步骤内通过计算机来解决的问题。由于人类自然语言的复杂性, 它不能直接作为计算机处理的对象。为了使计算机能够对自然语言进行处理, 就必须根据处理的要求抽象出一个个的“问题”, 并对这些问题进行形式化表示, 建立起相应的形式模型, 进而通过适当的算法实现计算机自然语言处理。然而, 自然语言形式模型的建立往往是一个“强不适定问题” (strongly ill-po