中国中文信息学会自然语言生成与智能写作专业委员会

中医辨证评测任务
自然语言生成与智能写作 2023-05-12 23:02 Posted on 北京

  1. 任务背景

辨证为中医诊疗过程中具有特色的任务之一,现实场景中,中医从业者需要根据望闻问切等方式观察到的病人的情况,推理判断出该病人当前属于哪种证型,然后根据证型对证下药进行治疗。其中根据病人信息,利用脑中知识判断出属于哪种证型的推理过程即为辨证。实际场景中辨证的方法很多种,包括八纲辨证、病性辨证、病位辨证等,推理过程也会非常的复杂耗时。其辨证的准确率会直接影响到治疗的效果,因此辨证任务十分重要。
这里,我们将该任务引入到计算机领域,将其转化为自然语言处理能够解决的任务形式。通过针对中医辨证的交叉学科研究,将进一步推动中医信息化、现代化和智能化。本任务得到中国中文信息学会自然语言生成专业委员会(筹)支持,将在第二届中国自然语言生成大会(NLGIW2023)召开研讨会,并在大会上对获奖团队颁奖。

  1. 任务介绍

具体地,我们将该任务简单定义成:给定一段由自然语言文本书写的病人的详细情况描述(包括现病史,主诉,四诊信息),模型需要从候选的证型标签中,预测出当前病人样例所对应的正确的证型。该任务一般以多标签分类的形式进行解决。

  1. 数据集简介

(1) 数据集为JSON格式,每一行代表一个样本,实例如下:

标题

描述

具体样例

User_id

病人ID

479372

ICD_ID & ICD_name

国际疾病分类

BNP120吐血病

Norm_syndrome

病人证型

气虚不摄证

chief_complaint

主诉

呕血2小时

description

病人病史描述

(为支撑辨证的核心文本段落)

患者2小时前无明显诱因出现吐鲜血,色红,反酸、嗳气、烧心偶作,偶有恶心干呕,无发热,头晕偶作,无心慌胸闷,未进食,无便血,当时未予重视。于今晨6时再次吐鲜血,量约50mL,遂至我院就诊,门诊查“新型冠状病毒核酸试验未见明显异常。胸部CT:右肺中叶陈旧性索条”,遂由门诊收入我科,入院时患者:吐血未作,反酸、嗳气、烧心偶作,偶有恶心干呕,无发热,头晕偶作,无心慌胸闷,未进食,无便血,近期体重无明显下降,舌红苔薄白,脉细弦。

detection

中医四诊信息

(该段落由模板填充生成,样例之间仅存在略微差别)

中医四诊摘要:神志清晰,精神尚可,形体形体适中,语言清晰,口唇红润;皮肤正常,无斑疹。头颅大小形态正常,无目窼下陷,无白睛,耳轮正常,无耳瘘级生疮;颈部对称,无青筋暴露,无瘿瘤瘰疬,胸部对称,虚里搏动正常,腹部平坦,无癥瘕痞块,爪甲色泽红润,双下肢对称,舌淡红,苔白,脉细。

(2) 除此之外,我们还提供相关证型的知识描述,包括定义、病因和常见疾病,例如:

{<