第二十一届中国计算语言学大会(CCL 2022)
http://cips-cl.org/static/CCL2022/cclEval/taskEvaluation/index.html
技术评测任务发布
会议网站:http://cips-cl.org/static/CCL2022/index.html
“第二十一届中国计算语言学大会”(The Twenty-first China National Conference on Computational Linguistics, CCL 2022)将于2022年10月14-16日在江西省南昌市举行,会议主办单位为中国中文信息学会,承办单位为江西师范大学。
本次大会继续组织中文语言处理技术评测。经过前期评测任务征集,评测委员会已确定14个评测任务,涵盖了语义分析、文本纠错、信息抽取、模型效率评估、语言迁移、阅读理解、问答对话、多模态等重要研究方向。欢迎广大研究者参与评测竞赛。中国中文信息学会将为在评测中取得优异成绩的队伍提供官方荣誉证书。
一、评测任务
任务1:第二届中文抽象语义表示解析评测(CAMRP 2022)
任务简介
任务背景
抽象语义表示(Abstract Meaning Representation,AMR)是近些年国际上新兴的整句语义表示方法,很好地解决了整句语义的形式化表示问题。目前已经成为了国际的研究热点,并引起较大关注。AMR自动解析等相关的技术也被广泛用于机器问答和文本摘要等自然语言处理下游任务中,并取得了优异的成果。2020年在CoNLL国际评测上,中文AMR语料已经与英德等四种语言一起进行了语义解析评测(http://mrp.nlpl.eu/2020/index.php)。
任务介绍
本次为第二届中文抽象语义表示解析评测(Chinese Abstract Meaning Representation Parsing,CAMRP 2022),评测任务是在中文抽象语义语料库上,自动解析出句子的AMR图。与英文AMR不同的是,中文AMR增加了概念关系对齐信息和虚词信息,并针对中文特点增加了一些语义标签。遗憾的是,概念关系对齐信息并没有用于CoNLL2020的评测。因此,本次评测重新设计了包含了概念关系对齐的信息的新评测指标Align-smatch,以更好地评估自动解析的性能,推进汉语句子的语义解析研究。
本次评测根据参赛队伍成绩最终排名,分别设立一、二、三等奖。
组织者和联系人
任务组织者:李斌、曲维光、周俊生(南京师范大学); 薛念文(布兰迪斯大学)
工作人员:许智星、肖力铭、芦靖雅、陈瑾、谢媛媛、袁义国等(南京师范大学)
联系方式:libin.njnu@gmail.com
任务奖项
中国中文信息学会提供的荣誉证书
任务网址
https://github.com/GoThereGit/Chinese-AMR
任务2:第二届中文空间语义理解评测(SpaCE 2022)
任务简介
任务背景
空间范畴是人类认知中重要的基础范畴。理解文本中的空间信息不仅需要掌握字词含义,还需要具有常识或背景知识,要调动语言范畴之外的空间想象等认知能力。 空间语义理解在NLP领域也长期受到关注,是NLP评测的重要内容之一,但以往相关评测任务主要关注语言中正确的空间语义信息的分析。人类在能够识别常规、正确的空间信息的同时,还能够识别异常、错误的空间信息。如对于“在四面签一个名字”,人类能够意识到其中存在异常,因为“一个名字”通常不会签在“四面”;又如“跳进山洞外”,“跳进”搭配的必须是表达一个空间内部方位的成分,如“山洞中、山洞里”,无法搭配“山洞外”。显然,空间方位表达的异常存在不同的类型,如词语搭配问题、上下文语义冲突问题、违反常识或背景信息的问题等。
任务介绍
基于以上认识,我们于2021年依托 CCL2021 成功举办了首届中文空间语义理解评测任务(SpaCE,Spatial Cognition Evaluation)。今年,我们依托 CCL2022 ,继续推出第二届中文空间语义理解评测(SpaCE 2022)。分为如下3个子任务:
子任务1,中文空间语义正误判断:判断给定的中文文本中是否存在空间语义异常。
子任务2,中文空间语义异常归因:识别给定中文文本中空间语义异常的片段及其类型。
子任务3,中文空间实体识别与空间方位关系标注任务:基于给定的空间关系标注规范,对给定中文文本进行空间实体的识别与空间方位关系标注。
组织者和联系人
任务组织者:詹卫东、穗志方(北京大学)
任务联系人:孙春晖、李楠、邢丹、王诚文、岳朋雪、王希豪、邱晓枫等(北京大学)
联系方式:sc_eval@163.com
任务奖项
中国中文信息学会提供的荣誉证书
奖金:总计50000元
任务网址
https://2030nlp.github.io/SpaCE2022/
任务3:汉语学习者文本纠错评测(CLTC 2022)
任务简介
任务背景
汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。近年来,该任务越来越受到关注,也出现了一些有潜在商业价值的应用。为了推动这项研究的发展,研究者通过专家标注以及众包等形式构建一定规模的训练和测试数据,在语法检查以及语法纠错等不同任务上开展技术评测。同时,由于汉语学习者文本纠错任务相对复杂、各评测任务以及各数据集之间存在差异,在一定程度上限制了文本纠错的发展。因此,我们希望通过汇聚、开发数据集,建立基于多参考答案的评价标准,完善文本纠错数据及任务,聚焦该研究领域中的前沿问题,进一步推动汉语学习者文本纠错研究的发展。
任务介绍
本次评测既整合了已有的相关评测数据和任务,又有新开发的数据集,以设置多赛道、统一入口的方式开展比赛任务。同时,我们研制了各赛道具有可比性的评测指标,立足于构建汉语学习者文本纠错任务的基准评测框架。 本次评测有以下五个赛道:
(一)中文拼写检查(Chinese Spelling Check):检测并纠正中文文本中的拼写错误;
(二)中文语法错误检测(Chinese Grammatical Error Diagnosis):检测出中文文本中每一处语法错误的位置、类型;
(三)多维度汉语学习者文本纠错(Multidimensional Chinese Learner Text Correction):检测并修改句子中的语法错误,并按照不同维度的参考答案分别进行评价;
(四)多参考多来源汉语学习者文本纠错(Multi-reference Multi-source Chinese Learner Text Correction):检测并修改不同来源的句子中的语法错误,并基于给定的多条参考答案进行评价;
(五)语法纠错质量评估(Quality Estimation):预测每一个语法纠错结果的质量评估分数(QE Score)来对语法纠错的结果进行质量评估。
组织者和联系人
任务组织者:杨麟儿、杨尔弘(北京语言大学); 李正华(苏州大学); 孙茂松(清华大学); 张民(苏州大学); 刘正皓(东北大学); 饶高琦(北京语言大学); 李辰(阿里巴巴达摩院)
任务联系人:王莹莹(北京语言大学博士生,总负责,blcuicall@163.com); 孔存良(北京语言大学博士生,赛道三); 章岳(苏州大学硕士生,赛道四); 梁念宁(清华大学硕士生,赛道一); 方雪至(北京语言大学硕士生,赛道二); 周天硕(东北大学硕士生,赛道五)
任务奖项
中国中文信息学会提供的荣誉证书
奖金:总计50000元
任务网址
https://github.com/blcuicall/CCL2022-CLTC
任务4:中文高效自然语言理解模型评测(CELUE)
任务简介
任务背景
超大规模的预训练模型已经将大多数自然语言处理任务推向了新的SOTA,伴随而来的则是越来越昂贵的计算代价。如今,越来越多的研究者开始将注意力放在了模型效率和易用性上,而不是一再追求遥不可及的SOTA性能。这些工作的目标从追求SOTA转移到了“帕累托SOTA”。帕累托SOTA模型意味着目前没有其他模型能够在所有感兴趣的维度上都优于它。相比于性能的评估,不同研究对效率的评估不尽相同,这使得很难对其进行全面公平地对比,很难判断一种方法是否以及在多大程度上实现了帕累托改进,尤其是在对比不同加速方法的情况下。
任务介绍
针对目前自然语言处理领域两个高效方法分支:静态方法(知识蒸馏、模型剪枝等)以及动态方法(早退技术等),复旦大学自然语言处理实验室提出了一个可以用于标准评估模型推断效率的基准——ELUE(Efficient Language Understanding Evaluation)。为了使评估结果更加全面且公平,ELUE采用了FLOPs(浮点运算次数)作为模型效率的指标,同时采用了多维度的评测,结合效率以及性能为模型计算出一个综合的ELUE得分,得分越高表明在相同的FLOPs该模型能达到越高的性能,或者说是在相同的性能下该模型的FLOPs更少。
本次评测任务将ELUE基准迁移到五个中文语言理解任务,任务类型包含文本分类、分词、词性标注、命名实体识别以及诗歌匹配。参赛者需要利用一个模型同时完成这五个任务,评测系统会结合模型完成推断所使用的FLOPs以及预测性能计算出其ELUE分数,ELUE分数越高的模型排名越高。
组织者和联系人
任务组织者:刘向阳、孙天祥、何俊亮、吴嘉文、吴玲玲、邱锡鹏(复旦大学); 姚远、刘知远(清华大学)
任务联系人:刘向阳(xiangyangliu20@fudan.edu.cn)
任务奖项
中国中文信息学会提供的荣誉证书
任务网址
https://github.com/fastnlp/CCL2022-CELUE
任务5:跨语言知识迁移——汉语到少数民族语言(CMXT 2022)
任务简介
任务背景
近年来,基于预训练+Finetune 的 NLP 范式已经成为业界主流做法,除了关注在单个语言上的预训练技术探索之外,跨语言迁移技术被学术界和工业界广泛关注。学术界所使用的跨语言数据集是都以英文为 Pivot(如 XTREME,Google 举办)且主要涉及境外主流语种(如法、德、西等),但对国内的民族小语种缺乏关注,如 mBERT 模型不能支持维、藏、粤、传统蒙古语、传统哈萨克语。国内研究者比较关注的评测是中文语言理解基线评测 CLUE,该评测主要关注中文的理解任务,例如分类、阅读理解、问答等,对于跨语言和民族语言任务没有涉及。
任务介绍
为了更好推动国内民族语言信息技术发展,腾讯信息安全部小语种理解团队开放了3个基于国内民族语言的跨语言数据集和基线,并开放了用于预训练的大量民语单语语料。任务涉及:跨语言话题分类,跨语言正文与标题匹配,跨语言短文检索。语种涉及:维、藏、传统蒙古语、粤语、传统哈萨克语,朝鲜语、汉语、英语8个语种。(注明:为了方便大家模型调优,我们引入英文) 任务描述如下:
1)跨语言话题分类:我们定义了23个话题领域标签(如政治、军事、法治等),在中文上训练话题分类任务,在其他语言上做分类预测。该任务提供上述8个语种的单语语料用于预训练、中文分类标注数据、小语种开发集、小语种测试A/B集。
2)跨语言正文与标题匹配:该任务是基于跨语言的正文和标题匹配任务,在中文上训练匹配任务,在其他语言上做匹配预测。匹配任务目标是:使用文章正文,从标题候选里选择该文章的恰当标题。该任务提供用于预训练的单语数据、中文文章-标题标注数据、小语种开发集、小语种测试A/B集。
3)跨语言短文检索:该任务是基于跨语言的短文检索任务,通过训练更好的跨语言表示,利用小语种单语数据在候选中文数据里,检索到和它语义相同的中文短文句子。该任务提供用于预训练的单语数据、小语种开发集和测试集A/B。
组织者和联系人
任务组织者:胡博杰、姜博健、张通(腾讯信息安全部小语种理解团队); 郭佳华、李豫(北京交通大学NLP实验室); 于雅涵(中科院自动化所智能技术与系统工程团队)
任务联系人:bengiojiang@tencent.com (主送),nlpbojiehu@163.com (抄送),zatozhang@tencent.com (抄送)
任务奖项
中国中文信息学会提供的荣誉证书
任务网址
https://github.com/TenTrans/TenTrans/tree/master/examples/CMXT
任务6:以事件为中心的观点挖掘(ECOM 2022)
任务简介
任务背景
事件是世界的重要组成部分。日常生活中,人们通过表达、分享和传播对事件的观点来交流自己的观念和经验。了解不同角度的事件观点也有助于个人和组织消除对社会问题的偏见,从而更好的做出决策。因此,挖掘以事件为中心的观点对组织和个人都有重要的作用。
然而,观点挖掘领域集中于对实体情感和看法的提取,而针对事件的研究较少。以事件为中心的观点挖掘任务与以实体为中心的观点挖掘任务在定义、结构和表达上都有较大区别。从定义上来说,以事件为中心的观点不仅关注观点的情感极性,而且更多关注非情感的观点,包括判断、预测、建议等。例如,针对事件“上交所暂缓蚂蚁集团上市”,与事件相关的观点比如建议“蚂蚁集团当务之急是按监管部门的要求,切实抓紧整改。”,不能用简单的情感倾向概括。从结构上来说,给定事件短语,人们不仅能表达关于事件本身的观点,同时也能表达针对事件子事件、相关事件以及涉及实体的观点。同样以事件“上交所暂缓蚂蚁集团上市”举例,除事件本身外,人们还可能会表达针对事件子事件“蚂蚁集团上市”和事件参与者“上交所”、“蚂蚁集团”的观点。从表达上来说,以事件为中心的观点对象往往不出现在文章的上下文当中,因此需要从给定的事件短语中提取观点对象。
任务介绍
我们提出了以事件为中心的观点挖掘任务。参赛者被要求从给定的事件短语和相关文档中,提取与事件相关的观点片段及其
登录后可查看完整内容,参与讨论!
立即登录