语篇连贯程度的计算机评估和可计算性

译学撷英 | 李佐文梁国杰：语篇连贯的可计算性

翻译技术教育与研究 2022-10-05 00:00 发表于北京

以下文章来源于应用语言学研习，作者李佐文梁国杰

面向外语、中文、区域国别与跨文化研究、国际语言服务、语言政策与规划等领域研习者，致力于分享相关学术资讯与学习资源，跟踪中外语言政策与文化、教育动态等。特色栏目包括：语言智能与多模态研究、太平洋岛国研究、国家话语能力建设等。

论语篇连贯的可计算性

李佐文梁国杰

摘要：

连贯性 是语篇所具有的一种可分析的语义属性, 是自然语篇理解和生成过程中的核心问题。语篇连贯的可计算性可以被理解为使计算机能够以语言的表层形式特征为依据对自然语篇中的连贯关系进行识别和处理。语篇连贯计算对人机互动、自动文摘以及作文评分系统的开发具有很高的应用价值。本文从汉语语篇连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等方面对语篇连贯计算的研究路径进行了探索和展望。 关键词：语篇连贯; 可计算性; 自然语言处理 作者简介： 李佐文, 博士, 教授，博士生导师。研究方向:话语语言学, 计算语言学, 语言教学; 梁国杰, 博士, 副教授，硕士生导师。研究方向:应用语言学, 区域国别学, 跨文化传播学。 收稿日期： 2017-03-20来源：《外语研究》2018年第2期引用格式：[1] 李佐文, 梁国杰. 论语篇连贯的可计算性[J]. 外语研究, 2018, 35(02): 27-32.DOI: 10.13978/j.cnki.wyyj.2018.02.006. 引言目前, 字、词、词组和句子层面的自然语言处理已经取得了较大进展, 然而篇章话语层面的语言计算研究却举步维艰、发展缓慢, 成为制约自然语言处理水平的一个瓶颈。造成这种现状的原因是多方面的, 但 最主要的原因 有两个: 一是作为语言交际单位的篇章话语自身的复杂性远远超过词汇和语法单位, 相关的基础理论研究相对较为薄弱; 二是国内应用语言学界对篇章话语层面的自然语言处理重视程度不够, 大规模的汉语篇章标注语料库尚付阙如, 研究力量也较为分散。自然语言处理的进一步发展对篇章话语的计算机处理提出了要求, 而且无论从理论层面还是实践层面来看, 自然语篇计算都是一个亟待深入开展的重要课题。自然语篇是言语交际的基本单位, 它不是句子的随意排列。任何一个语篇单位, 就其功能和发话者要取得的效果而言, 都有它存在的依据和理由, 都为发话者传达信息及其交际意图服务。连贯关系是维系语篇的纽带, 是发话者意图的基本单位, 因此, 连贯关系是自然语篇理解和生成过程中的核心问题。使计算机能够对自然语篇进行处理, 实质上就是通过一定的技术手段让计算机能够最大程度地模拟人脑的语篇处理过程, 以一定的方式对语篇的连贯性进行计算。然而, 语篇连贯是一个相当复杂的概念, 关于计算机能否对连贯进行计算, 即连贯的“可计算性” (computability) 问题, 学界尚未形成一致看法。 1. 如何理解可计算性 可计算性是语言计算研究的基本前提, 对可计算性的理解决定了计算语言学的研究方法。从一般意义上说, 可计算性是指是否可以使用计算机来解决某一类实际问题, 一个可计算的问题应该是可以在有限步骤内通过计算机来解决的问题。由于人类自然语言的复杂性, 它不能直接作为计算机处理的对象。为了使计算机能够对自然语言进行处理, 就必须根据处理的要求抽象出一个个的“问题”, 并对这些问题进行形式化表示, 建立起相应的形式模型, 进而通过适当的算法实现计算机自然语言处理。然而, 自然语言形式模型的建立往往是一个“强不适定问题” (strongly ill-posed problem) , 因此必须加上适当的“约束条件” (constraint conditions) , 使问题的一部分在一定的范围内变成“适定问题” (well-posed problem) , 从而顺利地解决这个问题 (冯志伟2010:39-40) 。计算语言学指的是“通过建立形式化的数学模型来分析、处理自然语言, 并在计算机上用程序来实现分析和处理的过程, 从而达到以机器来模拟人的全部或者部分语言能力的目的” (俞士汶2003:2) 。因此, 语言计算研究要求以精确的、可计算的方式呈现语言知识, 从而有助于实现计算机对人类语言能力的模拟。归根结底, 人类的语言能力是大脑的一种认知处理能力。计算机之所以可以在某种程度上模拟人类的认知处理能力, 是因为从某种意义上讲人的大脑可以被类比为计算机。可计算性是由计算的实质来决定的, 而计算的实质则取决于对计算机特性的理解 (陈忠华2003:5) 。在认知科学和人工智能领域颇有影响力的一种观点是把计算机看作“形式符号控制器” (formal symbol manipulators) , 而计算的特征就是“仅仅依赖形式特征对意义或意向成分进行主动控制” (Smith 1999:153) 。具体到语篇层面的语言计算研究, 可计算性可以被理解为以语言的表层形式特征为依据对自然语篇的意义进行操作和处理。 2. 从计算的角度看语篇连贯 从上世纪六七十年代起, 语篇连贯问题逐渐成为一个研究热点。目前, 国外研究者已经发展出几种较有影响的理论模式, 如Halliday&Hasan的衔接理论、van Dijk的宏观结构理论、Widdowson的言外行为理论、Dane觢&Fries的主位推进理论等 (张德禄, 刘汝山2003:4) 。但总体而言, 密切联系自然语言处理所开展的语篇连贯研究还较少, 影响较大的连贯计算理论有Hobbs (1979, 1985) 的连贯关系理论及Mann&Thompson (1987, 1988) 的修辞结构理论。Hobbs (1979:67-68) 认为, 连贯语篇中的连续语段指涉的是相同的实体。语篇的连贯性归根结底是由发话人寻求理解的需要所驱动的, 可以局部地由一系列连贯关系来描述。这些连贯关系能够以精确的、可计算的方式来定义。在对语篇进行分析时, 通常只要能够识别出某些名词短语是共指的 (coreferential) , 就可以认为该语篇是连贯的。在Hobbs的理论框架中, 语言处理器包含一个推理组件 (inference component) , 可以通过推理所指实体的同一性来识别语篇的不同部分之间的连贯关系。人们理解语篇的一个重要方面就是识别出语篇中的连贯关系 (Hobbs 1985:2) , 通过识别语篇片段之间的连贯关系, 就可以递归式地建立起语篇的整体结构 (ibid.:23) 。在自然语言处理领域, 以Hobbs的连贯关系理论为基础的研究主要有Wolf & Gibson (2005, 2006) 等。Mann & Thompson (1987, 1988) 的修辞结构理论 (RST) 是面向计算机语篇生成的一种理论模型, 在自然语言处理领域产生了很大影响。修辞结构理论通过设想一种分层级的、相连接的语篇结构 (即RST结构) 来解释语篇的连贯性, 在这种语篇结构中, 语篇的每个部分相对于语篇的其他部分都发挥某种作用或功能 (Taboada&Mann 2006:425) 。Mann & Thompson (1983:1) 认为, 在语篇中除了由独立的小句明确呈现的命题之外, 还存在许多隐含的命题, 它们称之为“关系命题”。尽管关系命题的存在可以由连接词或其他成分来标示, 但有时候也可以没有形式上的标记。关系命题可以通过语篇结构得以体现和表达, 语篇的RST结构中的每一个关系都对应于一个关系命题。关系命题对于语篇的连贯性而言是必不可少的 (Mann & Thompson 1988:259-260) 。因此, 识别语篇中的各种关系是语篇连贯理解的基础。Marcu (1997, 2000) 和乐明 (2006) 等对修辞结构理论在计算机语篇处理中的应用进行了探索。语篇连贯是一个相当复杂的概念, 可以从语义、语用、认知、社会文化等层面对其进行解释。然而, 从计算的角度来看, 计算机处理的对象是自然语篇的成品, 连贯性是自然语篇所具有的一种可分析的语义属性, 连贯性分析的依据是语篇成品的表层形式特征。通过对语篇的表层形式特征进行分析, 可以判断出语篇中句与句、部分与部分之间存在的语义联系, 即连贯关系。连贯的可计算性取决于对语篇连贯关系的计算机识别和处理。 3. 语篇连贯计算的主要内容及研究路径 在自然语言处理领域, 依靠语篇片段之间的关系来判断语篇的连贯性已经成为一种常见的做法, 特别是在国外学者 (如Kehler 1994; Knott & Dale1994; Webber et al.1999) 针对英语语篇的连贯性所开展的计算研究中。然而, 目前关于汉语语篇连贯性的计算机处理研究尚处于起步阶段 (宗成庆2013:293) , 还有一系列相关问题有待进一步研究。这些问题主要包括: 汉语语篇连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等。

3.1 汉语语篇连贯关系的分类

为了使计算机能够对汉语的语篇连贯性进行处理, 建立合理的连贯关系分类体系是一项重要的基础性工作。国外学者对英语语篇连贯关系的研究对于汉语语篇连贯关系分类体系的建立具有一定的借鉴意义。例如, Halliday & Hasan (1976) 的衔接理论主要归纳了4类句际连接关系, 即添加 (additive) 、转折 (adversative) 、因果 (causal) 和时间 (temporal) ; Hobbs (1985) 的连贯关系理论提出的连贯关系集包括时机 (occasion) 、评价 (evaluation) 、背景及解释 (background and explanation) 、扩展 (expansion) 4个大类, 每个大类又分为若干种具体的连贯关系; Mann & Thompson (1988) 区分了23种修辞关系, 后来又增加到25种; Wolf & Gibson (2005:255-256) 区分了11种连贯关系; Hovy & Maier (1992) 通过对已有文献进行梳理, 给出了不同学者提出的400多种连贯关系的概览。上述分类方法都是针对英语提出的, 国内学者针对汉语提出的类似的关系集又有很大不同。例如, 邢福义 (2001) 将由关联词标示的汉语复句关系分为因果、目的、选择、推断等12种类型; 乐明 (2006) 依据修辞结构理论定义了12大组47种汉语的修辞关系; 梁国杰 (2016) 针对汉语叙述文语篇提出的连贯关系集包括30种常见连贯关系。可见, 由于研究方法和目的不尽相同, 国内外学者对语篇连贯关系的分类存在很大差别。到底需要为汉语语篇的计算分析准备多少种连贯关系类型才是充分、合理的, 这是汉语自然语言处理必须面对的一个问题。只有从汉语的语篇事实出发, 开展大规模的自然语篇语料库标注, 并在此基础上总结出一套适用的汉语语篇连贯关系集, 才能为语篇连贯计算研究打下坚实的基础。 3.2 局部连贯关系的判定 根据连贯关系所管控的范围, 可以将连贯关系分为局部连贯关系 (local coherence relations) 和整体连贯关系 (global coherence relations) 两大类。我们先来探讨一下利用计算机判定局部连贯关系的方法。

局部连贯关系指的是语篇中相邻语句之间的逻辑语义关系。通过对语言本身进行观察, 尤其是通过观察一种语言中用来标示语义关系的一系列提示语 (cue phrases) , 可以获得发话人实际使用某种连贯关系的证据 (Knott & Dale 1994:35) 。这种方法的优势在于从具体的语言材料出发, 有助于计算机对局部连贯关系进行判定。那些用来提示连贯关系的语言手段有时也被称为话语标记、连接词、话语联系语等, 汉语语言学界多称之为关联词语。这些词或短语不直接表达命题内容, 与被论及的事物本身无关, 但能够标记语篇连贯关系 (李佐文2003:32) 。关联词语是局部连贯关系的重要标记手段之一。在国内, 利用关联词语的标记作用来识别、标注句际连贯关系引起了部分学者的关注, 在汉语自然语言处理领域也已经进行了一些应用研究, 如邹嘉彦等 (1998) , 鲁松、宋柔 (2001) , 姚双云等 (2012) 。这种分析方法主要有两个优点: 第一, 依据关系标记来分析句子的语义关系清晰、准确, 不会产生太多的歧义问题; 第二, 汉语中的关系标记是一个相对封闭的类, 数量比较少, 便于形式化处理 (姚双云2008: 49; 姚双云2012: 183) 。然而, 仅仅依赖关联标记来确定语篇连贯关系是不充分的, 因为许多没有明显标记的语篇也是连贯的。在没有显性标记的情况下, 人们通常也会把紧紧相邻的句子看成是相互联系的, 即意合 (parataxis) 或无词连接 (李佐文2003: 33) 。语篇中由关联词语标示的语义关联可以被称为显式连贯关系, 而那些缺少明显标记的语义关联可以被称为隐式连贯关系。与显式连贯关系的识别相比, 隐式连贯关系的判定是计算机自然语言处理中的一个难题。据统计, 到目前为止显式篇章关系的识别准确率可以达到90%以上, 而隐式篇章关系的识别准确率仅在40%左右 (宗成庆2013: 292) 。尽管如此, 我们仍然可以找到一些方法, 借助于语篇中的词汇语义关系, 建立起一系列的语义推导机制, 从而有效提升计算机对句子之间隐式连贯关系的识别准确率。目前, 国内外学者在这方面的探索主要集中在指代消解、词汇衔接关系识别等方面, 也有学者 (如Pitler, Louis & Nenkova 2009; Lin, Kan&Ng 2009) 较为系统地探讨了利用不同类型的语言特征识别隐式连贯关系的方法。这些研究都对汉语语篇的隐式连贯关系识别具有一定的启示意义, 而借助于知识库, 使计算机能够自动构建指称链、词汇链 (同义反复、类义、上下义、搭配同现、情感类聚等) 等语义联系, 同时探索缺少形式标记的相邻语句之间隐式连贯关系的判定方法, 是当前的研究重点和发展趋势。 3.3 整体连贯关系的识别 整体连贯关系指的是语篇的部分与部分之间、部分与整体之间总体上的意义关联。整体连贯关系从结构上看涉及话题的起始与终结、语篇的整体框架、当前信息与前述信息或语篇外信息的关联等 (李佐文2003: 34) 。关联标记通常被用来标示两个语篇单位之间的连贯关系, 这说明这类语言成分具有确定语篇语义结构的潜在功能。关联标记既可以作为相邻语篇单位之间的连接结, 标示局部连贯关系; 也可以彰显语篇的整体框架和发展脉络, 标示整体连贯关系。计算机可以利用这些标记成分识别出语篇中存在的整体连贯关系。目前, 国内学者对整体连贯关系识别的研究较少, 这方面的工作还有待进一步开展。下面从三个方面举例说明如何利用关联标记来识别整体连贯关系。

3.3.1 话题的起始与终结标记

一个连贯的语篇总是能够概括提炼出一个统驭全篇的中心思想, 或者叫做“总话题”。而一般情况下, 一个语篇的总话题总是由数量不等的多个“子话题”协同建构而成。这些子话题具有相对的独立性, 它们之间的连贯关系有别于相邻句子之间的局部连贯关系, 属于整体层面上的连贯关系。在语篇中, 往往会使用一些语言手段来对话题的起始和终结进行标示, 使语篇的子话题显现为相对独立的模块, 帮助形成清晰的话题结构。通常用来标示话题起始的标记成分有“首先”“最初”“从前”“另外”“此外”“还有”等。读者在看到这些显性标记的时候, 就会对一个新话题的开始产生心理预期, 从而有助于建构起语篇的连贯性。如下面两例所示:[1]首先, 要关注传统社会思潮的网络呈现及其变种生成……[2]另外, 脑还是一种多级系统……通常用来标示话题终结的话语标记有“最后”“总之”“简而言之”“一言以蔽之”等。这些标记性成分能够标示一个子话题的界限所在, 从而使读者在心理上对语篇进行阶段性总结。如下面两例所示:[3]……最后, 我总算理解了他的意思。[4]……一言以蔽之, 党同伐异而已矣。

3.3.2 语篇的整体框架标记

为了帮助读者把握语篇的总体布局和思路脉络, 语篇中往往存在一系列的关联标记来标示语篇的整体框架, 通过计算机来识别这些标记性成分, 可以快速地建立起语篇的整体连贯关系。标示语篇整体框架的关联标记一般都是成套使用的, 每一套关联标记都会相应地使某种连贯关系得到显现, 其中的每一个成分往往用于一个段落或者句群的起始位置 (往往是主题句) 。较为常用的整体框架标记包括“第一, 第二, 第三”“首先, 其次, 再次, 最后”“一方面, 另一方面”等。这些成套关联标记成分的使用可以起到提示语篇整体框架的作用, 对于语篇整体连贯关系的识别大有助益。试看下面两例:[5]第一, 环境污染对人类健康造成危害。……第二, 环境污染对生态平衡构成威胁。……第三, 环境污染制约经济和社会的可持续性发展。……[6]一方面, 传统社会思潮代表人物为扩大思潮影响, 被迫或自觉进驻网络空间进行传播;另一方面, 具备一定影响力的公共人物为强化话语权或引领网民思想, 也会进行职业、身份及观点、诉求的跨界作为…… 3.3.3 内指性参照与外指性参照标记 在语篇中通常还存在一些关联标记把即将出现的新信息与已经出现过的旧信息或者语篇之外的共享信息、互文性信息等联系起来, 使之与当前信息构成一种参照关系, 从而增强语篇的连贯性。这种参照关系又可以分为内指性参照和外指性参照。内指性参照是指当前信息与语篇内其他部分所提供的信息之间的参照关系;外指性参照是指当前信息与语篇外信息之间的参照关系。这两种参照关系都可以通过一些标记性手段在语篇中得到显现, 计算机可以通过相关的标记成分识别出这些参照关系。常用于标示内指性参照的关联标记包括“如上所述”“如前所引”“前面曾经提到”“如上例所示”等。试看如下两例:[7]如上所述, 本书的主题是神经信息处理, 也就是在神经系统中所进行的信息处理……[8]如上例所示, 在产品定价保持稳定的情况下, 生产越多, 销售越多, 收益越大……常用于标示外指性参照的关联标记包括“谚语有云”“根据……”“XXX告诉我们”“XXX曾说”等。例如:[9]谚语有云, “小暑不见日头, 大暑晒开石头。”……[10]孔子曾说, “岁不寒, 无以知松柏;事不难, 无以知君子。”……除上述三个方面之外, 语篇中成套出现的标示时间顺序和空间转换的标记成分也能够起到标示整体连贯关系的作用。总之, 对语篇整体连贯关系识别有所贡献的类似语言手段还需要进一步的发掘和研究, 以利于计算机对语篇整体连贯关系的识别。

3.3.4 语篇语义结构的形式化表征

要实现计算机对语篇连贯性的自动处理, 最重要的任务之一就是用形式化的方法对语篇结构进行表征。宋柔 (2013: 483) 认为, 篇章结构包括逻辑语义结构、指代结构、话题结构等范畴。逻辑语义结构表征并列、转折、因果等逻辑语义关系。指代结构是代词、名词、名词短语、零形式相互之间的共指关系。话题结构有宏观与微观两种, 宏观话题结构表征的是篇章各部分讲述内容的大纲, 而微观话题结构是邻近语句对同一个词语的意思展开说明而形成的结构。本文所说的“语篇结构”主要指的是语篇的逻辑语义结构, 它可以用树形图等形式化手段来进行表征。作为一种连贯计算理论, 修辞结构理论为语篇的语义结构提供了一种形式化表征方法。Mann&Thompson (1988: 245) 将相邻语段区分为核心成分 (nucleus) 和辅围成分 (satellite) 。相邻的两个语段, 其中一个对于表达发话者的意图更为重要和突出, 称为核心成分;与此相对, 不太重要的另一个语段称为辅围成分。修辞结构理论所提出的一系列连贯关系并不直接反映语篇的表层结构, 而是与语篇的图式结构相吻合。这些图式结构具有递归的特性, 可以重新组合成更高一级的树形结构, 从而得出整个语篇的总体结构表征。修辞结构理论为语篇结构的计算机处理提供了一种理论模式, 目前国内有些学者 (如乐明2006等) 已经进行了汉语篇章的修辞结构标注工作。后来, 一些学者 (如Moore & Pollack 1992; Moser & Moore 1996等) 指出, 用树结构来表征语篇结构存在一定的局限性。有鉴于此, Wolf & Gibson (2005) 提出了通过链图结构 (chain-graph-based structure) 表示语篇结构的思想, 研究语篇图库 (discourse graph bank) 的构建问题, 并对135篇英语文本的图结构进行了标注。这种模式主要试图解决树结构在两方面存在的问题: 一是交叉依存 (crossed dependencies) 问题, 二是拥有多个父节点的子节点 (nodes with multiple parents) 问题。由于汉语更加注重意合组篇方式, 因此, 就汉语语篇而言这两个方面的问题较之英语语篇更为突出。借鉴Wolf&Gibson (ibid.) 的研究建立汉语语篇图库, 有望发现汉语语篇语义结构的特殊之处, 从而使计算机更加合理地处理汉语语篇结构。从目前来看, 这方面的研究工作还有待开展。

3.3.5 语篇连贯程度的计算机评估

语篇的连贯性并不是非有即无, 而是有程度高低之分, 这一点在二语或外语学习者产出的语篇中表现得尤为显著。通过设定不同的语言特征类型和量值, 运用定量统计手段对学习者语篇进行研究, 有望找出制约语篇连贯性程度的规律性特征, 从而更好地实现计算机对语篇连贯程度的评估。在国外, 已有不少学者开展了这方面的研究工作。例如, 美国孟菲斯大学的Mc Namara和Graesser等人设计了一个自然语言处理工具Coh-Metrix来对语篇的连贯性进行自动评估。他们所设计的模块中包括了词库、词性分类器、句法分析器、模板、语料库、潜在语义分析等组件, 从衔接手段、语言特征及可读性等方面计算了超过200个具体项目的量值 (Graesser et al.2004; Mc Namara et al.2014) 。在国内, 梁茂成 (2006) 使用Coh-Metrix工具对中国英语学习者的语篇连贯能力进行了测量, 发现了中国学生在英语书面语篇中使用局部和整体连贯手段的某些规律。目前, 语篇连贯程度自动评估的相关研究还主要是针对英语来开展的, 也已取得了一定成果。由于汉语与印欧语言存在明显差异, 特别是汉语的语法和组篇机制对语言形式的依赖程度相对较低, 将现有研究成果直接应用于汉语语篇连贯程度的自动评估还存在诸多问题。因此, 无论从理论层面还是实践层面, 基于大规模汉语篇章语料库的语篇连贯程度自动评估系统研究仍是一项亟待开展的工作。

4. 结语

连贯性是自然语篇的基本属性, 语篇连贯计算在自然语言处理中具有举足轻重的作用, 对人机互动、自动文摘以及作文评分系统的开发具有很高的应用价值。本文结合心智计算论和符号控制论, 论述了语篇连贯的可计算性, 从计算的角度对连贯概念进行了阐述, 并探讨了汉语语篇连贯计算研究的主要内容。本研究主要从连贯关系分类体系的建立、局部连贯关系的判定、整体连贯关系的识别、语篇语义结构的形式化表征、语篇连贯程度的自动评估等方面探索了语篇连贯计算的研究路径, 期望能够抛砖引玉, 引起国内应用语言学界的关注和重视。

参考文献

陈忠华.2003.知识与语篇理解:话语分析认知科学方法论[M].北京:外语教学与研究出版社.冯志伟.2010.自然语言处理的形式模型[M].合肥:中国科学技术大学出版社.李佐文.2003.话语联系语对连贯关系的标示[J].山东外语教学 (1) :32-36.梁国杰.2016. 面向计算的语篇连贯关系及其词汇标记型式研究[D].北京:中国传媒大学博士学位论文.梁茂成.2006.学习者书面语语篇连贯性的研究[J].现代外语 (3) :284-292.鲁松, 宋柔.2001.汉英机器翻译中描述型复句的关系识别与处理[J].软件学报 (1) :83-93.宋柔.2013.汉语篇章广义话题结构的流水模型[J].中国语文 (6) :483-494.邢福义.2001.汉语复句研究[M].北京:商务印书馆.姚双云.2008.复句关系标记的搭配研究[M].武汉:华中师范大学出版社.姚双云.2012.面向中文信息处理的汉语语法研究[M].武汉:华中师范大学出版社.姚双云, 胡金柱, 舒江波, 沈威.2012.篇章连贯语义关系的自动标注方法[J].计算机工程 (7) :131-133.俞士汶.2003.计算语言学概论[M].北京:商务印书馆.乐明.2006.汉语财经评论的修辞结构标注及篇章研究[D].北京:中国传媒大学博士学位论文.张德禄, 刘汝山.2003.语篇连贯与衔接理论的发展及应用[M].上海:上海外语教育出版社.宗成庆.2013.统计自然语言处理 (第2版) [M].北京:清华大学出版社.邹嘉彦, 连兴隆, 高维君, 黎邦洋, 何庆昌.1998.中文篇章中的关联词语及其引导的句子关系的自动标注——面向话语分析的中文篇章语料库的开发[C]∥黄昌宁.中文信息处理国际会议论文集.北京:清华大学出版社:288-297.Graesser, A.C., D.S.Mc Namara, M.M.Louwerse&Z.Cai.2004.CohMetrix:analysis of text on cohesion and language[J].Behavior Research Methods, Instruments&Computers (2) :193-202.Halliday, M.A.K.&R.Hasan.1976.Cohesion in English[M].London:Longman.Hobbs, J.R.1979.Coherence and co-reference[J].Cognitive Science (1) :67-90.Hobbs, J.R.1985.On the coherence and structure of discourse[R/OL].http://www.isi.edu/~hobbs/ocsd.pdf.[2016-04-22].Hovy, E.&E.Maier.1992.Parsimonious or profligate:how many and which discourse relations?[R/OL].http://www.sfu.ca/rst/05bibliograp hies/bibs/ISI_RR_93_373.pdf.[2016-05-25].Kehler, A.1994.Temporal relations:reference or discourse coherence?[C]∥J.Pustejovsky.Proceedings of ACL-94.Las Cruces, New Mexico:ACL:319-321.Knott, A.&R.Dale.1994.Using linguistic phenomena to motivate a set of coherence relations[J].Discourse Processes (1) :35-62.Lin, Z., M.Kan&H.T.Ng.2009.Recognizing implicit discourse relations in the Penn Discourse Treebank[C]∥P.Koehn&R.Mihalcea.Proceedings of Conference on Empirical Methods in Natural Language Processing.Singapore:EMNLP:343-351.Mann, W.C.&S.A.Thompson.1983.Relational propositions in discourse[R/OL].http://www.sfu.ca/rst/05bibliographies/bibs/ISI_RR_83_115.pdf.[2016-05-25].Mann, W.C.&S.A.Thompson.1987.Rhetorical structure theory:a theory of text organization[R/OL].http://www.sfu.ca/rst/05bibliogra phies/bibs/ISI_RS_87_185.pdf.[2016-05-25].Mann, W.C.&S.A.Thompson.1988.Rhetorical structure theory:toward a functional theory of text organization[J].Text (3) :243-281.Marcu, D.1997.The Rhetorical Parsing, Summarization and Generation of Natural Texts[D].Canada:University of Toronto.Marcu, D.2000.The Theory and Practice of Discourse Parsing and Summarization[M].Cambridge, MA:MIT Press.Mc Namara, D.S., A.C.Graesser, P.M.Mc Carthy&Z.Cai.2014.Automated Evaluation of Text and Discourse with Coh-Metrix[M].Cambridge:Cambridge University Press.Moore, J.D.&M.E.Pollack.1992.A problem for RST:the need for multi-level discourse analysis[J].Computational Linguistics (4) :537-544.Moser, M.&J.D.Moore.1996.Toward a synthesis of two accounts of discourse structure[J].Computational Linguistics (3) :409-419.Pitler, E., A.Louis&A.Nenkova.2009.Automatic sense prediction for implicit discourse relations in text[C]∥K.Y.Su.Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.Suntec, Singapore:ACL and AFNLP:683-691.Smith, B.C.1999.Computation[C]∥R.Wilson&F.Keil.The MIT Encyclopedia of the Cognitive Sciences.Cambridge, MA:MIT Press:153-155.Taboada, M.&W.C.Mann.2006.Rhetorical structure theory:looking back and moving ahead[J].Discourse Studies (3) :423-459.Webber, B.L., A.Knott, M.Stone&A.K.Joshi.1999.Discourse relations:a structural and presuppositional account using lexicalised TAG[C]∥R.Dale&K.Church.Proceedings of ACL-99.College Park, MD:ACL:41-48.Wolf, F.&E.Gibson.2005.Representing discourse coherence:a corpusbased study[J].Computational Linguistics (2) :249-287.Wolf, F.&E.Gibson.2006.Coherence in Natural Language:Data Structures and Applications[M].Cambridge, MA:MIT Press.

特别说明：本文仅用于学术交流，如有侵权请后台联系小编删除。