一种基于深度学习的电子病历命名实体识别方法及系统

专利检索2025-03-19  11


本发明涉及医学命名实体识别,尤其涉及一种基于深度学习的电子病历命名实体识别方法及系统。


背景技术:

1、中文电子病历命名实体识别是指从电子病历自然语言文本中发现特定类型的目标命名实体,医学命名实体识别是指从医疗文本中识别医疗实体的边界并判断不同类型实体的类别,常见的医学命名实体类别包括疾病名称、身体部位、药物、检查或检验项目以及症状等。医学命名实体识别实现了医学知识提取,为智能医疗问答系统、医学知识图谱建设和应用提供了关键基础。

2、目前医学命名实体识别使用深度学习模型实现,常见的模型包括卷积神经网络(convolutionalneural network,cnn)、循环神经网络(recurrent neuralnetwork,rnn)、长短期记忆网络系统(long short termmemory network,lstm)、双向长短期记忆网络系统(bi-directional long-short term memory,bi-lstm)和自注意力机制(self-attentionmechanism)等。这些模型的核心在于利用大量无监督数据构建多层的神经网络模型。为了进一步提升效果,研究者在嵌入层特征向量方面进行了大量改进,融合了词典信息、拼音和偏旁特征,以丰富嵌入层的特征向量。为了解决数据匮乏的问题,迁移学习方法也被引入到模型中。此外,通过引入注意力机制,模型的计算能力得到了提高,长距离依赖问题也得到了有效解决。

3、因此,提出一种基于深度学习的电子病历命名实体识别方法及系统,通过bigbird模型动态融合中文汉字特征、电子病历知识特征,并结合bilstm和crf,构建一种新的深度学习模型,从而提升bigbird模型医学命名实体的准确性和识别性能,是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于深度学习的电子病历命名实体识别方法及系统,通过bigbird模型动态融合中文汉字特征、电子病历知识特征,并结合bilstm和crf提升了bigbird模型医学命名实体的准确性和识别性能。

2、为了实现上述目的,本发明采用如下技术方案:

3、一种基于深度学习的电子病历命名实体识别方法,包括以下步骤:

4、s1.获取数据步骤:获取电子病历文本数据;

5、s2.数据预处理步骤:对获取的电子病历文本数据进行预处理,得到预处理后的电子病历文本数据;

6、s3.数据划分步骤:将预处理后的电子病历文本数据划分为训练集和测试集;

7、s4.模型构建步骤:基于bigbird模型,构建医学命名实体识别模型;

8、s5.模型训练步骤:将训练集输入医学命名实体识别模型,对医学命名实体识别模型进行训练,经过若干次训练后,得到训练好的医学命名实体识别模型;

9、s6.训练结束步骤:将测试集输入训练好的医学命名实体识别模型进行验证,输出最终的医学命名实体识别模型;

10、s7.识别步骤:将待识别的电子病历文本数据输入最终的医学命名实体识别模型,输出识别结果。

11、上述的方法,可选的,s1中获取的电子病历文本数据中待识别的命名实体类型包括疾病和诊断、解剖部位、影像检查、实验室检验、药物、手术。

12、上述的方法,可选的,s2中首先利用分词处理对电子病历文本数据进行处理,再利用bio标注规则对经过分词的电子病历文本数据进行token标注,得到预处理后的电子病历文本数据。

13、上述的方法,可选的,s4中构建的医学命名实体识别模型包括输入词嵌入层、bigbird层、动态融合层、bilstm层和随机条件场crf层。

14、上述的方法,可选的,s5中模型训练步骤的具体内容为:将测试集输入bigbird模型中获得词向量,并将输出的特征向量进行融合,将得到的词向量输入bilstm中,通过crf层进行解码,得到全局最优标注序列,经过若干次训练后,得到训练好的医学命名实体识别模型。

15、一种基于深度学习的电子病历命名实体识别系统,应用上述任一项的一种基于深度学习的电子病历命名实体识别方法,包括:获取数据模块、数据预处理模块、数据划分模块、模型构建模块、模型训练模块、训练结束模块、识别模块;

16、获取数据模块,与数据预处理模块的输入端连接,用于获取电子病历文本数据;

17、数据预处理模块,与数据划分模块的输入端连接,用于对获取的电子病历文本数据进行预处理,得到预处理后的电子病历文本数据;

18、数据划分模块,与模型构建模块的输入端连接,用于将预处理后的电子病历文本数据划分为训练集和测试集;

19、模型构建模块,与模型训练模块的输入端连接,用于基于bigbird模型,构建医学命名实体识别模型;

20、模型训练模块,与训练结束模块的输入端连接,用于将训练集输入医学命名实体识别模型,对医学命名实体识别模型进行训练,经过若干次训练后,得到训练好的医学命名实体识别模型;

21、训练结束模块,与识别模块的输入端连接,用于将测试集输入训练好的医学命名实体识别模型进行验证,输出最终的医学命名实体识别模型;

22、识别模块,用于将待识别的电子病历文本数据输入最终的医学命名实体识别模型,输出识别结果。

23、经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于深度学习的电子病历命名实体识别方法及系统,具有以下有益效果:

24、(1)多模态融合方法能够提高命名实体识别任务的准确性和鲁棒性,使模型在处理复杂多样的文本数据时具有更强的性能;

25、(2)在bilstm+crf模型中,bilstm的输出作为crf的输入,bilstm+crf结合两者的优点,为每个词分配最可能的实体标签,提升了模型识别的准确性;

26、(3)通过bigbird模型动态融合中文汉字特征、电子病历知识特征,并结合bilstm和crf提升了bigbird模型医学命名实体的准确性和识别性能。



技术特征:

1.一种基于深度学习的电子病历命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的电子病历命名实体识别方法,其特征在于,

3.根据权利要求1所述的一种基于深度学习的电子病历命名实体识别方法,其特征在于,

4.根据权利要求1所述的一种基于深度学习的电子病历命名实体识别方法,其特征在于,

5.根据权利要求1所述的一种基于深度学习的电子病历命名实体识别方法,其特征在于,

6.一种基于深度学习的电子病历命名实体识别系统,其特征在于,应用权利要求1-5任一项所述的一种基于深度学习的电子病历命名实体识别方法,包括:获取数据模块、数据预处理模块、数据划分模块、模型构建模块、模型训练模块、训练结束模块、识别模块;


技术总结
本发明公开了一种基于深度学习的电子病历命名实体识别方法及系统,涉及医学命名实体识别技术领域。包括:S1.获取数据步骤;S2.数据预处理步骤;S3.数据划分步骤;S4.模型构建步骤;S5.模型训练步骤;S6.训练结束步骤;S7.识别步骤。本发明通过BigBird模型动态融合中文汉字特征、电子病历知识特征,并结合BiLSTM和CRF提升了BigBird模型医学命名实体的准确性和识别性能。

技术研发人员:吴思竹,王安然,刘盛宇
受保护的技术使用者:中国医学科学院医学信息研究所
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1151165.html

最新回复(0)