汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)

评测介绍 | 汉语学习者文本纠错评测

汉语学习者文本纠错评测

评测介绍 公告 评测报告

评测介绍

目录

1. 比赛介绍

汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。近年来,该任务越来越受到关注,也出现了一些有潜在商业价值的应用。为了推动这项研究的发展,研究者通过专家标注以及众包等形式构建一定规模的训练和测试数据,在语法检查以及语法纠错等不同任务上开展技术评测。同时,由于汉语学习者文本纠错任务相对复杂、各评测任务以及各数据集之间存在差异,在一定程度上限制了文本纠错的发展。因此,我们希望通过汇聚、开发数据集,建立基于多参考答案的评价标准,完善文本纠错数据及任务,聚焦该研究领域中的前沿问题,进一步推动汉语学习者文本纠错研究的发展。

我们依托第二十一届中国计算语言学大会(CCL 2022),组织汉语学习者文本纠错评测。本次评测既整合了已有的相关评测数据和任务,又有新开发的数据集,以设置多赛道、统一入口的方式开展比赛任务。同时,我们研制了各赛道具有可比性的评测指标,立足于构建汉语学习者文本纠错任务的基准评测框架。

  • 组织者
    • 杨麟儿(北京语言大学)
    • 杨尔弘(北京语言大学)
    • 李正华(苏州大学)
    • 孙茂松(清华大学)
    • 张民(苏州大学)
    • 刘正皓(东北大学)
    • 饶高琦(北京语言大学)
    • 李辰(阿里巴巴达摩院)
  • 联系人
    • 王莹莹(北京语言大学博士生,总负责,blcuicall@163.com)
    • 孔存良(北京语言大学博士生,赛道三)
    • 章岳(苏州大学硕士生,赛道四)
    • 梁念宁(清华大学硕士生,赛道一)
    • 方雪至(北京语言大学硕士生,赛道二)
    • 周天硕(东北大学硕士生,赛道五)

评测任务更详细内容可查看评测网站: https://github.com/blcuicall/CCL2022-CLTC,遇到任何问题请发邮件或者在 Issue 中提问,欢迎大家参与。

–返回目录–

2. 任务内容

本次评测设置下述五个赛道:

赛道一:中文拼写检查(Chinese Spelling Check)任务目的是检测并纠正中文文本中的拼写错误(Spelling Errors)。对于给定的一段输入文本,最终需给出拼写错误的位置及对应的修改结果,其中拼写错误包含:音近、形近、形音兼近三种。如表 1 所示,“14”“15”为两个错误位置,“印”“象”为对应位置的修改结果。如该句没有错误,则输出“(id=xxx) 0”即可。

表1:中文拼写检查任务示例

原句(id=012) 我觉得春天给人留下清爽的好影响。拼写错误检测及纠正(id=012) 14,印,15,象

赛道二:中文语法错误检测(Chinese Grammatical Error Diagnosis)任务目的是检测出中文文本中每一处语法错误的位置、类型。语法错误的类型分为赘余(Redundant Words,R)、遗漏(Missing Words,M)、误用(Word Selection,S)、错序(Word Ordering Errors,W)四类。评测任务要求参加评测的系统输入句子(群),其中包含有零个到多个错误。参赛系统应判断该输入是否包含错误,并识别错误类型,标记出其在句子中的位置和范围,对缺失和误用给出修正答案。

表2:中文语法错误检测任务示例

原句(sid=00038800481) 我根本不能了解这妇女辞职回家的现象。在这个时代,为什么放弃自己的工作,就回家当家庭主妇?语法错误检测00038800481, 6, 6, S, 理
00038800481, 8, 8, R
(“了解”应为“理解”,删去“这”)原句(sid=00038800464)我真不明白。她们可能是追求一些前代的浪漫。语法错误检测00038800464, correct
(原句正确,没有错误)

赛道三:多维度汉语学习者文本纠错(Multidimensional Chinese Learner Text Correction)。同一个语法错误从不同语法点的角度可被划定为不同的性质和类型1,也会因语言使用的场景不同、具体需求不同,存在多种正确的修改方案。赛道三的数据中提供针对一个句子的多个参考答案,并且从最小改动(Minimal Edit,M)和流利提升(Fluency Edit,F)两个维度对模型结果进行评测。最小改动维度要求尽可能好地维持原句的结构,尽可能少地增删、替换句中的词语,使句子符合汉语语法规则;流利提升维度则进一步要求将句子修改得更为流利和地道,符合汉语母语者的表达习惯。如表 3 中所示,原句在两个维度均有多个语法纠错的参考答案。

表3:多参考中文语法纠错任务示例

原句因为我的中文没有好,我还要努力学汉语。最小改动参考答案1因为我的中文 没有 好,我还 要 努力学汉语。参考答案2因为我的中文 没有 好, 所以 我还要努力学汉语。流利提升参考答案1因为我的中文没有 那么 好, 因此 我还要努力学汉语。参考答案2因为我的中文 没有 好, 所以 我还要 更加 努力 学 汉语 中文。

注:其中, 加粗 表示替换字符, 斜体 表示插入字符, 删除线 表示删除字符。

赛道四:多参考多来源汉语学习者文本纠错(Multi-reference Multi-source Chinese Learner Text Correction)。不同来源的文本,其蕴含的语法错误类型也可能含有一定的差异。赛道四提供来自于三个不同文本源的中文学习者语法纠错评测数据,对于每一个句子提供多个遵循流利提升的修改答案,希望能够准确而全面地评估各参赛队伍的纠错系统性能。

赛道五:语法纠错质量评估(Quality Estimation),是评价语法纠错模型修改结果质量的方法2。如表4所示,该方法通过预测每一个语法纠错结果的质量评估分数(QE Score)来对语法纠错的结果进行质量评估,以期望对冗余修改、错误修改以及欠修改情况进行评估。该分数可以通过句子级别和词级别的质量评估分数得到3,可以对语法纠错系统生成的多个纠错结果进行重新排序,以期望进一步提升语法纠错效果。

表4:语法纠错质量评估任务示例

原句他今天去田里干活,我不只道他何时从田返回回来。质量评估分数修改结果1他今天去田里干活,我不 道他何时从田 返回 回来 。1.0修改结果2他今天去田里干活,我不 道他何时从田 返回 回来。1.0修改结果3他今天去田里干活,我不 道他何时从田返回回来。0.3846

注:其中, 加粗 表示替换字符, 斜体 表示插入字符, 删除线 表示删除字符。

–返回目录–

3. 评测数据

本节介绍各赛道数据集来源及数据集使用规则,各赛道比赛数据及结果文件的提交格式请参看: 数据集页面

3.1 赛道一:中文拼写检查

训练集

本赛道允许使用任意开源数据用于训练。例如,可使用现有的真实开源数据集进行训练,如 SIGHAN 20134、CLP 20145、SIGHAN 20156等,也可以使用伪数据,如 Wang et al. 7提供的数据集。

为便于参赛者使用,本赛道提供一份上述数据经过处理后的版本。参赛者也可以重新处理这些数据,或自行选用其他数据。

此外,SIGHAN 历年赛事中也给出了音近、形近混淆集(Confusion Set)作为参考,参赛者可按需使用。

开发集与测试集

本赛道提供基于 YACLC-CSC 数据集8的开发集与测试集。在拼写错误标注方面,YACLC-CSC 继承前人的研究,规定只标注和修正“音近”和“形近”有关的错误。判定为“音近”或“形近”或“形音兼近”的依据来自相关的汉语语音学、文字学理论及对外汉语教学理论。标注过程采用多人标注再由专家审核的方式以保证标注质量。

上述训练、开发与测试数据可于 datasets/track1 下载。

3.2 赛道二:中文语法错误检测

训练集

本赛道提供两个中介语数据集:

  • 中文 Lang8 数据集
  • CGED 历年数据

参赛者可以使用上述 中介语数据集 及任意 开源中文母语数据 用作训练。

测试集

提供 CGED-8 数据集。数据来源为 HSK 动态作文语料库9和全球汉语中介语语料库1011。CGED-8 共包括约 1,400 个段落单元、3,000 个错误。每个单元包含 1-5 个句子,每个句子都被标注了语法错误的位置、类型和修改结果。

上述训练与测试数据可于 datasets/track2 下载。

3.3 赛道三:多维度汉语学习者文本纠错

训练集

本赛道对 NLPCC2018-GEC12 发布的采集自 Lang8 平台的中介语数据进行了处理。

参赛者 仅允许 使用上述数据用于训练。

开发集与测试集

本赛道提供最小改动和流利提升两个维度的多参考数据集 YACLC-Minimal8、YACLC-Fluency8 。其中 YACLC-Minimal 属于最小改动维度,YACLC-Fluency属于流利提升维度。

上述训练、开发与测试数据可于 datasets/track3 下载。

3.4 赛道四:多参考多来源汉语学习者文本纠错

训练集

需要注意本次评测不提供官方训练数据集,参赛选手可自行使用任何公开的训练数据或是人造数据。

开发集与测试集

提供基于流利提升的多参考数据集MuCGEC13

具体要求请参看 赛道四主页

3.5 赛道五:语法纠错质量评估

训练集

本赛道训练数据基于赛道三提供的中文 lang8 数据构建。本赛道使用 BART-large 训练了基于 seq2seq 结构的语法纠错模型,并将该模型在柱搜索解码过程中排名前 5 的结果作为待进行质量评估的语法纠错候选方案。同时评测数据给出了训练集和开发集中每个语法纠错方案的真实 F0.5 分值。

参赛者 仅允许 使用赛道三提供的中文 lang8 数据,以及本赛道提供的带有语法纠错候选方案的数据。

开发集与测试集

开发集与测试集基于赛道三提供的 YACLC-Minimal 和 YACLC-Fluency 进行构建,数据划分与赛道三相同。

注意:本赛道要求语法纠错结果重排序过程中只能对所提供的语法纠错候选进行重排序,不得混合其他语法