译学撷英 | 李佐文 梁国杰:语篇连贯的可计算性
翻译技术教育与研究 2022-10-05 00:00 发表于北京
以下文章来源于应用语言学研习 ,作者李佐文 梁国杰
论语篇连贯的可计算性
李佐文 梁国杰
摘要:
连贯性 是语篇所具有的一种可分析的语义属性, 是自然语篇理解和生成过程中的核心问题。语篇连贯的可计算性可以被理解为使计算机能够以语言的表层形式特征为依据对自然语篇中的连贯关系进行识别和处理。语篇连贯计算对人机互动、自动文摘以及作文评分系统的开发具有很高的应用价值。本文从汉语语篇连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等方面对语篇连贯计算的研究路径进行了探索和展望。 关键词:语篇连贯; 可计算性; 自然语言处理 作者简介: 李佐文, 博士, 教授,博士生导师。研究方向:话语语言学, 计算语言学, 语言教学; 梁国杰, 博士, 副教授,硕士生导师。研究方向:应用语言学, 区域国别学, 跨文化传播学。 收稿日期: 2017-03-20来源:《外语研究》2018年第2期引用格式:[1] 李佐文, 梁国杰. 论语篇连贯的可计算性[J]. 外语研究, 2018, 35(02): 27-32.DOI: 10.13978/j.cnki.wyyj.2018.02.006. 引言 目前, 字、词、词组和句子层面的自然语言处理已经取得了较大进展, 然而篇章话语层面的语言计算研究却举步维艰、发展缓慢, 成为制约自然语言处理水平的一个瓶颈。造成这种现状的原因是多方面的, 但 最主要的原因 有两个: 一是作为语言交际单位的篇章话语自身的复杂性远远超过词汇和语法单位, 相关的基础理论研究相对较为薄弱; 二是国内应用语言学界对篇章话语层面的自然语言处理重视程度不够, 大规模的汉语篇章标注语料库尚付阙如, 研究力量也较为分散。自然语言处理的进一步发展对篇章话语的计算机处理提出了要求, 而且无论从理论层面还是实践层面来看, 自然语篇计算都是一个亟待深入开展的重要课题。自然语篇是言语交际的基本单位, 它不是句子的随意排列。任何一个语篇单位, 就其功能和发话者要取得的效果而言, 都有它存在的依据和理由, 都为发话者传达信息及其交际意图服务。连贯关系是维系语篇的纽带, 是发话者意图的基本单位, 因此, 连贯关系是自然语篇理解和生成过程中的核心问题。使计算机能够对自然语篇进行处理, 实质上就是通过一定的技术手段让计算机能够最大程度地模拟人脑的语篇处理过程, 以一定的方式对语篇的连贯性进行计算。然而, 语篇连贯是一个相当复杂的概念, 关于计算机能否对连贯进行计算, 即连贯的“可计算性” (computability) 问题, 学界尚未形成一致看法。 1. 如何理解可计算性 可计算性是语言计算研究的基本前提, 对可计算性的理解决定了计算语言学的研究方法。从一般意义上说, 可计算性是指是否可以使用计算机来解决某一类实际问题, 一个可计算的问题应该是可以在有限步骤内通过计算机来解决的问题。由于人类自然语言的复杂性, 它不能直接作为计算机处理的对象。为了使计算机能够对自然语言进行处理, 就必须根据处理的要求抽象出一个个的“问题”, 并对这些问题进行形式化表示, 建立起相应的形式模型, 进而通过适当的算法实现计算机自然语言处理。然而, 自然语言形式模型的建立往往是一个“强不适定问题” (strongly ill-posed problem) , 因此必须加上适当的“约束条件” (constraint conditions) , 使问题的一部分在一定的范围内变成“适定问题” (well-posed problem) , 从而顺利地解决这个问题 (冯志伟2010:39-40) 。计算语言学指的是“通过建立形式化的数学模型来分析、处理自然语言, 并在计算机上用程序来实现分析和处理的过程, 从而达到以机器来模拟人的全部或者部分语言能力的目的” (俞士汶2003:2) 。因此, 语言计算研究要求以精确的、可计算的方式呈现语言知识, 从而有助于实现计算机对人类语言能力的模拟。归根结底, 人类的语言能力是大脑的一种认知处理能力。计算机之所以可以在某种程度上模拟人类的认知处理能力, 是因为从某种意义上讲人的大脑可以被类比为计算机。可计算性是由计算的实质来决定的, 而计算的实质则取决于对计算机特性的理解 (陈忠华2003:5) 。在认知科学和人工智能领域颇有影响力的一种观点是把计算机看作“形式符号控制器” (formal symbol manipulators) , 而计算的特征就是“仅仅依赖形式特征对意义或意向成分进行主动控制” (Smith 1999:153) 。具体到语篇层面的语言计算研究, 可计算性可以被理解为以语言的表层形式特征为依据对自然语篇的意义进行操作和处理。 2. 从计算的角度看语篇连贯 从上世纪六七十年代起, 语篇连贯问题逐渐成为一个研究热点。目前, 国外研究者已经发展出几种较有影响的理论模式, 如Halliday&Hasan的衔接理论、van Dijk的宏观结构理论、Widdowson的言外行为理论、Dane觢&Fries的主位推进理论等 (张德禄, 刘汝山2003:4) 。但总体而言, 密切联系自然语言处理所开展的语篇连贯研究还较少, 影响较大的连贯计算理论有Hobbs (1979, 1985) 的连贯关系理论及Mann&Thompson (1987, 1988) 的修辞结构理论。Hobbs (1979:67-68) 认为, 连贯语篇中的连续语段指涉的是相同的实体。语篇的连贯性归根结底是由发话人寻求理解的需要所驱动的, 可以局部地由一系列连贯关系来描述。这些连贯关系能够以精确的、可计算的方式来定义。在对语篇进行分析时, 通常只要能够识别出某些名词短语是共指的 (coreferential) , 就可以认为该语篇是连贯的。在Hobbs的理论框架中, 语言处理器包含一个推理组件 (inference component) , 可以通过推理所指实体的同一性来识别语篇的不同部分之间的连贯关系。人们理解语篇的一个重要方面就是识别出语篇中的连贯关系 (Hobbs 1985:2) , 通过识别语篇片段之间的连贯关系, 就可以递归式地建立起语篇的整体结构 (ibid.:23) 。在自然语言处理领域, 以Hobbs的连贯关系理论为基础的研究主要有Wolf & Gibson (2005, 2006) 等。Mann & Thompson (1987, 1988) 的修辞结构理论 (RST) 是面向计算机语篇生成的一种理论模型, 在自然语言处理领域产生了很大影响。修辞结构理论通过设想一种分层级的、相连接的语篇结构 (即RST结构) 来解释语篇的连贯性, 在这种语篇结构中, 语篇的每个部分相对于语篇的其他部分都发挥某种作用或功能 (Taboada&Mann 2006:425) 。Mann & Thompson (1983:1) 认为, 在语篇中除了由独立的小句明确呈现的命题之外, 还存在许多隐含的命题, 它们称之为“关系命题”。尽管关系命题的存在可以由连接词或其他成分来标示, 但有时候也可以没有形式上的标记。关系命题可以通过语篇结构得以体现和表达, 语篇的RST结构中的每一个关系都对应于一个关系命题。关系命题对于语篇的连贯性而言是必不可少的 (Mann & Thompson 1988:259-260) 。因此, 识别语篇中的各种关系是语篇连贯理解的基础。Marcu (1997, 2000) 和乐明 (2006) 等对修辞结构理论在计算机语篇处理中的应用进行了探索。语篇连贯是一个相当复杂的概念, 可以从语义、语用、认知、社会文化等层面对其进行解释。然而, 从计算的角度来看, 计算机处理的对象是自然语篇的成品, 连贯性是自然语篇所具有的一种可分析的语义属性, 连贯性分析的依据是语篇成品的表层形式特征。通过对语篇的表层形式特征进行分析, 可以判断出语篇中句与句、部分与部分之间存在的语义联系, 即连贯关系。连贯的可计算性取决于对语篇连贯关系的计算机识别和处理。 3. 语篇连贯计算的主要内容及研究路径 在自然语言处理领域, 依靠语篇片段之间的关系来判断语篇的连贯性已经成为一种常见的做法, 特别是在国外学者 (如Kehler 1994; Knott & Dale1994; Webber et al.1999) 针对英语语篇的连贯性所开展的计算研究中。然而, 目前关于汉语语篇连贯性的计算机处理研究尚处于起步阶段 (宗成庆2013:293) , 还有一系列相关问题有待进一步研究。这些问题主要包括: 汉语语篇连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等。
3.1 汉语语篇连贯关系的分类
为了使计算机能够对汉语的语篇连贯性进行处理, 建立合理的连贯关系分类体系是一项重要的基础性工作。国外学者对英语语篇连贯关系的研究对于汉语语篇连贯关系分类体系的建立具有一定的借鉴意义。例如, Halliday & Hasan (1976) 的衔接理论主要归纳了4类句际连接关系, 即添加 (additive) 、转折 (adversative) 、因果 (causal) 和时间 (temporal) ; Hobbs (1985) 的连贯关系理论提出的连贯关系集包括时机 (occasion) 、评价 (evaluation) 、背景及解释 (background and explanation) 、扩展 (expansion) 4个大类, 每个大类又分为若干种具体的连贯关系; Mann & Thompson (1988) 区分了23种修辞关系, 后来又增加到25种; Wolf & Gibson (2005:255-256) 区分了11种连贯关系; Hovy & Maier (1992) 通过对已有文献进行梳理, 给出了不同学者提出的400多种连贯关系的概览。上述分类方法都是针对英语提出的, 国内学者针对汉语提出的类似的关系集又有很大不同。例如, 邢福义 (2001) 将由关联词标示的汉语复句关系分为因果、目的、选择、推断等12种类型; 乐明 (2006) 依据修辞结构理论定义了12大组47种汉语的修辞关系; 梁国杰 (2016) 针对汉语叙述文语篇提出的连贯关系集包括30种常见连贯关系。可见, 由于研究方法和目的不尽相同, 国内外学者对语篇连贯关系的分类存在很大差别。到底需要为汉语语篇的计算分析准备多少种连贯关系类型才是充分、合理的, 这是汉语自然语言处理必须面对的一个问题。只有从汉语的语篇事实出发, 开展大规模的自然语篇语料库标注, 并在此基础上总结出一套适用的汉语语篇连贯关系集, 才能为语篇连贯计算研究打下坚实的基础。 3.2 局部连贯关系的判定 根据连贯关系所管控的范围, 可以将连贯关系分为局部连贯关系 (local coherence relations) 和整体连贯关系 (global coherence relations) 两大类。我们先来探讨一下利用计算机判定局部连贯关系的方法。
局部连贯关系指的是语篇中相邻语句之间的逻辑语义关系。通过对语言本身进行观察, 尤其是通过观察一种语言中用来标示语义关系的一系列提示语 (cue phrases) , 可以获得发话人实际使用某种连贯关系的证据 (Knott & Dale 1994:35) 。这种方法的优势在于从具体的语言材料出发, 有助于计算机对局部连贯关系进行判定。那些用来提示连贯关系的语言手段有时也被称为话语标记、连接词、话语联系语等, 汉语语言学界多称之为关联词语。这些词或短语不直接表达命题内容, 与被论及的事物本身无关, 但能够标记语篇连贯关系 (李佐文2003:32) 。关联词语是局部连贯关系的重要标记手段之一。在国内, 利用关联词语的标记作用来识别、标注句际连贯关系引起了部分学者的关注, 在汉语自然语言处理领域也已经进行了一些应用研究, 如邹嘉彦等 (1998) , 鲁松、宋柔 (2001) , 姚双云等 (2012) 。这种分析方法主要有两个优点: 第一, 依据关系标记来分析句子的语义关系清晰、准确, 不会产生太多的歧义问题; 第二, 汉语中的关系标记是一个相对封闭的类, 数量比较少, 便于形式化处理 (姚双云2008: 49; 姚双云2012: 183) 。然而, 仅仅依赖关联标记来确定语篇连贯关系是不充分的, 因为许多没有明显标记的语篇也是连贯的。在没有显性标记的情况下, 人们通常也会把紧紧相邻的句子看成是相互联系的, 即意合 (parataxis) 或无词连接 (李佐文2003: 33) 。语篇中由关联词语标示的语义关联可以被称为显式连贯关系, 而那些缺少明显标记的语义关联可以被称为隐式连贯关系。与显式连贯关系的识别相比, 隐式连贯关系的判定是计算机自然语言处理中的一个难题。据统计, 到目前为止显式篇章关系的识别准确率可以达到90%以上, 而隐式篇章关系的识别准确率仅在40%左右 (宗成庆2013: 292) 。尽管如此, 我们仍然可以找到一些方法, 借助于语篇中的词汇语义关系, 建立起一系列的语义推导机制, 从而有效提升计算机对句子之间隐式连贯关系的识别准确率。目前, 国内外学者在这方面的探索主要集中在指代消解、词汇衔接关
登录后可查看完整内容,参与讨论!
立即登录