## 医疗文本结构化:一种新视角
AINLP 2022-10-04 21:11 Posted on 江苏
The following article is from KBQA沉思录 Author zhpmatrix
前言:这篇文章中的一些想法在写出来之前,和身边的一群可爱的小伙伴们做了碰撞和讨论,因此也算是共创的结果。
随着对医疗NLP结构化体系构建的推进,我们对体系本身的认识也在不断地进行演化,这篇文章简要探讨我们近期的一些思考,其中有些思考存在不成熟之处,仅抛砖引玉。
(图片引用自百度灵医智惠)
围绕医疗NLP,笔者常说的“一种认知,两种方法论”。“一种认知”是指医疗NLP是以结构化能力为核心的NLP应用方向。“两种方法论”分别是能力和内容协同建设,数据和知识双轮驱动。
回到具体的结构化体系构建,从整体上看,分为能力和内容两个部分。其中,知识图谱作为内容的承载,为能力的构建提供内容支持;能力的输出可以作为知识图谱内容的一部分,同时通过链指实现能力和内容的联动。能力体系也是一个“洋葱”结构,从外到内,分为文书大类,文书小类,段落类别,Span级语义和实体/属性/关系。其中,前四个维度存在国家标准,实体/属性/关系是通过自定义的Schema来描述。
从上图来看,“洋葱”从外到内,粒度越来越细,语义识别能力的要求越来越强。
围绕数据中台,这套能力应该基于标准化的计算和存储引擎,成为一种标准化的能力,产出标准化的数据内容,继而支持上游的各种标准化应用。
针对多层次的结构化体系特点,可以换一种视角来重新观察。假设要回答“入院记录中的现病史的症状实体抽取的评测指标是多少?”,就可以通过建立的三维坐标系,将问题映射为坐标系中的一个具体的点来很容易的回答。通过将Z轴展开,可以继而回答“症状实体类型中“腹泻”这个实体词的“否定”属性的评测指标是多少?”
因此,关键是坐标系的建立。为了建立坐标系,需要梳理坐标系的维度,维度范围,维度值。在坐标系建立之后,就可以基于一个稳定的测试集,实现一套标准的计算口径,得到坐标系中的每个点的具体值。这个观察视角,可以回答非常多的关于结构化能力体系的各种非常具体的问题。
在具体的量化分析过程中,考虑不同模型的不同版本,在测试集上预测和真实标注结果,在各个不同维度上的区别,以此形成的经验性的分析方法,可以通过工具化,使得这种能力能够得以沉淀和复用。这也是由上述观察视角带来的一个很直接的想法。
以百度灵医智惠为例,需要梳理出医学实体类型-属性的具体关系,且这种关系是可枚举的。
病历字段-核心抽取要素/属性
登录后可查看完整内容,参与讨论!
立即登录