基于多模态LLM的自动辅诊方法及其模型构建方法与流程

专利检索2024-12-21  25


本发明实施例涉及智慧医疗领域,尤其涉及一种基于多模态llm(large languagemodel,大语言模型)的自动辅诊方法及其模型构建方法。


背景技术:

1、医疗资源紧缺是医疗行业一直存在的问题,尤其是医生、药剂师的紧缺,使医院或药店的患者往往需要等待较长的时间,才能够得到及时诊断和用药建议。随着互联网技术的发展,互联网医院和线上购药平台的使用越来越广泛。患者可以移动终端与医生或药师沟通,在一定程度上缓解了现场等待的负担。但当在线沟通的患者较多时,患者仍需要等待较长的时间,才能获取合适的诊断结果和治疗方案。如何实现自动化初步诊断,缓解患者焦虑,提高确诊效率,是亟待解决的问题。


技术实现思路

1、本发明实施例提供一种基于多模态llm的自动辅诊方法及其模型构建方法,以解决上述技术问题。

2、第一方面,本发明实施例提供了一种基于多模态llm的自动辅诊方法,包括:

3、获取待诊断的多模态医疗数据,所述多模态医疗数据包括影像数据和文本数据;其中,所述影像数据包括以下至少之一:检查影像、舌苔影像、中药材影像;所述文本数据包括以下至少之一:患者信息、主诉症状、检查结果描述;

4、将所述影像数据经过图像编码切割器,根据物体边缘将所述影像数据分割为具有相互关系的至少一个独立物体图像;将分割结果经过图像-语言转换层,将各独立物体图像及其相互关系转换为描述语言的嵌入向量;其中,所述独立物体包括人体器官和/或药材;

5、将所述文本数据经过文本编码器,得到所述文本数据的嵌入向量;

6、将所述描述语言的嵌入向量和文本数据的嵌入向量融合后输入大语言模型,由所述大语言模型自回归地生成诊断结果,其中,所述诊断结果包括以下至少之一:疾病诊断、病因分析、用药指导。

7、第二方面,本发明实施例提供了一种基于多模态llm的自动辅诊模型构建方法,用于训练上述图像编码器切割器、图像-语言转换层、文本编码器和大语言模型构成的自动辅诊模型,所述方法包括:

8、利用训练集中的医疗影像数据对图像编码切割器进行训练,使图像编码切割器能够将根据物体边缘将所述医疗影像数据切割为具有相互关系的至少一个独立物体图像;

9、保持图像编码切割器和大语言模型的权重不变,利用多次诊断的多模态医疗数据及诊断结果对图像-语言转换层和文本编码器进行训练,得到通用的自动辅诊模型;训练过程中,将一次诊断的多模态医疗数据中的影像数据和文本数据分别输入图像编码切割器和文本编码器,使大语言模型的输出不断逼近所述一次诊断的诊断结果;

10、对所述多次诊断的医学主题进行标注,其中,不同医学主题包括中医、西医和不同科目;利用不同医学主题下多次诊断的多模态医疗数据和诊断结果,分别对所述通用的自动辅诊模型的权重进行微调,分别得到各医学主题下的自动辅诊模型。

11、第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:

12、一个或多个处理器;

13、存储器,用于存储一个或多个程序,

14、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的基于多模态llm的自动辅诊方法,或基于多模态llm的自动辅诊模型构建方法。

15、本发明实施例能够实现如下有益效果:

16、1.本发明实施例采用深度学习算法建立语言模型,能够根据多模态医疗数据在医生诊断之前自动生成初步诊断结果,缓解患者的等待焦虑,减少误诊和误治的风险。具体的,通过图像编码分割器识别影响数据中的独立物体,并通过图像-语言层将独立物体及其相互关系转换为描述语言;再通过多模态融合层将文本、图像和视频的向量表示进行融合,能够充分利用多模态信息,提高诊断准确性和效率。同时,采用上下文生成器根据融合后的向量表示生成上下文信息,更好地捕捉文本中的语义信息,采用多轴自注意力机制保留住细节信息和图像中物体的相对位置关系,为大模型输出诊断结果提供更准确的信息。

17、2.本发明实施例采用中西医知识对自动辅诊模型进行训练,兼顾中医望闻问切过程中产生的多模态医疗数据,实现了中医科目的自动辅诊。

18、3.传统的自然语言处理方法通常需要大量的标注数据进行训练,而医疗领域的标注数据往往十分稀缺,本发明实施例能够有效地利用多模态数据和少量标注数据进行训练,实现对医疗领域的自然语言处理;模型训练和微调后,再进行模型蒸馏得到可部署的自动辅诊模型;使用过程中采用持续激活学习技术,不断更新自动辅诊模型,持续提高自动辅诊性能。



技术特征:

1.一种基于多模态llm的自动辅诊方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述图像编码切割器采用卷积神经网络,所述图像-语言转换层采用mlp结构,所述文本编码器采用词嵌入模型。

3.根据权利要求1所述的方法,其特征在于,所述将分割结果经过图像-语言转换层,将各独立物体图像及其相互关系转换为描述语言的嵌入向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述描述语言的嵌入向量和文本数据的嵌入向量融合后输入大语言模型,包括:

5.根据权利要求1所述的方法,其特征在于,在所述将所述影像数据经过图像编码切割器,根据物体边缘将所述影像数据分割为具有相互关系的至少一个独立物体图像之后,还包括:根据各独立物体图像对影响诊断结果的关键特征进行自动标定,所述关键特征包括器官颜色、大小、形状、位置、年龄;

6.根据权利要求1所述的方法,其特征在于,所述图像-语言转换层和文本编码器均包括mlp,两个mlp的输出维度相同,用于对齐所述描述语言嵌入向量和文本数据的嵌入向量。

7.一种基于多模态llm的自动辅诊模型构建方法,其特征在于,用于训练如权利要求1-6任一所述的图像编码器切割器、图像-语言转换层、文本编码器和大语言模型构成的自动辅诊模型,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,在所述利用不同医学主题下多次诊断的多模态医疗数据和诊断结果,分别对所述通用的自动辅诊模型的权重进行微调,分别得到各医学主题下的自动辅诊模型之后,还包括:

9.根据权利要求7所述的方法,其特征在于,图像-语言转换层和文本编码器均包括mlp,两个mlp的输出维度相同;

10.一种电子设备,其特征在于,包括:


技术总结
本发明实施例公开了一种基于多模态LLM的自动辅诊方法及其模型构建方法。其中,自动辅诊方法包括:获取待诊断的多模态医疗数据,所述多模态医疗数据包括影像数据和文本数据;将所述影像数据经过图像编码切割器,根据物体边缘将所述影像数据分割为具有相互关系的至少一个独立物体图像;将分割结果经过图像‑语言转换层,将各独立物体图像及其相互关系转换为描述语言的嵌入向量;将所述文本数据经过文本编码器,得到所述文本数据的嵌入向量;将所述描述语言的嵌入向量和文本数据的嵌入向量融合后输入大语言模型,由所述大语言模型自回归地生成诊断结果,其中,所述诊断结果包括以下至少之一:疾病诊断、病因分析、用药指导。

技术研发人员:向世明,朱小冬,刘恒宇
受保护的技术使用者:叮当快药科技集团有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1147695.html

最新回复(0)