本发明涉及自然语言处理,具体为基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法及系统。
背景技术:
1、自然语言处理技术是一门研究人类语言和计算机之间交互的领域;在胸部肿瘤预后预测中,通过自然语言处理技术对胸部肿瘤数据库中的文本信息进行处理和分析,能够从数据库中提取和理解关于患者的临床特征、治疗信息等文本数据。
2、现有的用于肿瘤预后预测的改进,通常是采用机器学习的方法建立预测模型,通过预测模型对预后进行预测,比如在发明公开号为cn116881725a的中国专利中,公开了一种癌症预后预测模型训练装置、介质及电子设备,该方案就是通过确定各训练样本对应的基因特征以及图像特征,对待训练的预测模型进行训练,以提高预测准确性;而现有的预后预测仅用于对预后是否会复发进行预测,缺少对患者预后可能会出现的后遗症,以及出现后遗症的严重等级进行分析,这会导致无法对患者的康复过程实施准确的预防处理措施,进而影响患者的康复速度,鉴于此,有必要对现有的肿瘤预后预测进行改进。
技术实现思路
1、本发明旨在至少在一定程度上解决现有技术中的技术问题之一,通过对肿瘤的预后预测进行改进,用于解决现有技术中因缺少对患者预后可能会出现的后遗症,以及出现后遗症的严重等级进行分析,从而导致无法对患者的康复过程实施准确的预防处理措施,进而影响患者的康复速度的问题。
2、为实现上述目的,第一方面,本发明提供基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,包括:
3、获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告;
4、对相似报告进行等级划分,识别相似报告中的特征信息;基于等级划分结果对特征信息计算分析,基于计算分析结果对特征信息进行赋值或将特征信息进行删除;
5、获取患者的特征信息,对患者以及相似报告的特征信息建立特征向量;计算特征向量的欧式距离,输出欧式距离;
6、对欧式距离进行分析,输出最优报告;对最优报告进行文本识别,输出预测信息。
7、进一步地,所述胸部肿瘤数据库中存储有多个病理诊断报告以及病理诊断报告对应的后遗症等级,所述病理诊断报告包括病理特征;所述病理特征包括病理类型、肿瘤分期、病例年龄、肿瘤体积、浸润深度、吸烟指数以及性别特征。
8、进一步地,所述相似报告包括良性相似报告以及恶性相似报告,获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告包括:
9、获取患者的病理类型,将患者的病理类型设置为查询词语;
10、对病理诊断报告进行第一文本识别,所述第一文本识别包括:识别病理诊断报告中是否存在查询词语;
11、当病理诊断报告中不存在查询词语时,不做处理;
12、当病理诊断报告中存在查询词语时,将病理诊断报告标记为初步报告。
13、进一步地,获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告还包括:
14、获取患者的肿瘤分期,所述肿瘤分期包括良性以及恶性;将肿瘤分期设置为查询词语;
15、对初步报告进行第二文本识别,所述第二文本识别包括:
16、识别初步报告中是否存在查询词语,当病理诊断报告中不存在查询词语时,不做处理;
17、当病理诊断报告中存在查询词语时,将初步报告标记为相似报告;
18、输出相似报告。
19、进一步地,对相似报告进行等级划分,识别相似报告中的特征信息;基于等级划分结果对特征信息计算分析,基于计算分析结果对特征信息进行赋值或将特征信息进行删除包括:
20、当相似报告的后遗症等级为严重等级时,将相似报告划分为严重报告;
21、利用自然语言识别技术识别病理学诊断中的性别特征,所述性别特征包括男性以及女性;
22、计算相似报告中性别特征为男性的数量,标记为男性总数;计算相似报告中性别特征为女性的数量,标记为女性总数;
23、将严重报告中性别特征为男性的数量标记为第一严重数;将严重报告中性别特征为女性的数量标记为第二严重数;
24、计算第一严重数与男性总数的比值,标记为第一性别判断比值;计算第二严重数与女性数量的比值,标记为第二性别判断比值;
25、计算第一性别比值与第二性别比值的差值,标记为性别判断差值;
26、当性别判断差值大于或等于第一差值且小于或等于时,判断等级划分与性别特征不存在关联,将性别特征进行删除处理;
27、当性别判断差值大于第二比值时,对性别特征进行影响严重赋值,将性别特征为男性的赋值为2,将性别特征为女性的赋值为1;
28、当性别判断差值小于第一比值时,对性别特征进行影响严重赋值,将性别特征为男性的赋值为1,将性别特征为女性的赋值为2。
29、进一步地,获取患者的特征信息,对患者以及相似报告的特征信息建立特征向量包括:
30、当性别特征被赋值时,对患者以及相似报告以性别特征为第一维度特征,浸润深度为第二维度特征,肿瘤体积为第三维度特征,吸烟指数为第四维度特征,病例年龄为第五维度特征,得到特征向量[性别特征的赋值,浸润深度,肿瘤体积,吸烟指数,病例年龄];
31、当性别特征被删除时,以浸润深度为第一维度特征,肿瘤体积为第二维度特征,吸烟指数为第三维度特征,病例年龄为第四维度特征,得到特征向量[浸润深度,肿瘤体积,吸烟指数,病例年龄]。
32、进一步地,计算特征向量的欧式距离,输出欧式距离包括:
33、利用欧式距离计算公式对特征向量进行计算,得到欧式距离;
34、所述欧式距离计算公式配置为:,其中d(x1,y1)为欧式距离,x1为患者的特征向量,y1为相似报告的特征向量,xi和yi分别表示特征向量x1,y1在第i个维度的取值;
35、输出欧式距离。
36、进一步地,对欧式距离进行分析,输出最优报告包括:
37、将欧式距离按递增的方式进行排序,得到距离序列;
38、将距离序列中排序最右的第一数量的欧式距离标记为最优报告。
39、进一步地,所述预测信息包括可能等级以及可能症状,对最优报告进行文本识别,输出预测信息包括:
40、获取最优报告的后遗症等级,计算每种后遗症等级出现的次数,将出现次数最多的后遗症等级标记为可能等级;
41、对最优报告进行第三文本识别,所述第三文本识别包括:
42、识别最优报告中描述临床表现的词语,将对应的词语标记为可能症状;
43、输出可能等级以及可能症状。
44、第二方面,本发明还提供基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测系统所述相似查询模块用于获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告;
45、所述特征分析模块用于对相似报告进行等级划分,识别相似报告中的特征信息;基于等级划分结果对特征信息计算分析,基于计算分析结果对特征信息进行赋值或将特征信息进行删除;所述特征分析模块还用于获取患者的特征信息,对患者以及相似报告的特征信息建立特征向量;计算特征向量的欧式距离,输出欧式距离;
46、所述预测分析模块用于对欧式距离进行分析,输出最优报告;对最优报告进行文本识别,输出预测信息。
47、本发明的有益效果:本发明通过对病理诊断报告文本识别,得到相似报告;再对相似报告的特征信息进行分析,对特征信息进行赋值或将特征信息进行删除;再基于特征信息建立特征向量;这样的好处在于,得到的相似报告中病理类型以及肿瘤分期与需要进行预测的患者完全相同;通过对性别特征进行计算分析,能够判断性别特征对预测结果是否存在影响,当不存在影响时,将性别信息进行删除可以减少运算量,当存在时,能够对性别特征进行量化,并进行计算;提高了对病理诊断报告识别的智能性以及高效性;
48、本发明还通过计算特征向量的欧式距离,对欧式距离进行分析,得到最优报告;再对最优报告进行文本识别,最后输出预测信息;这样的好处在于,通过计算欧式距离能够考虑特征向量的大小和方向,量化特征向量之间的差异程度;最终基于数据库中的大数据输出预测的后遗症可能症状,能够供医生参考,以便及时对患者的康复进行干预。
49、本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
1.基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,包括:
2.根据权利要求1所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,所述胸部肿瘤数据库中存储有多个病理诊断报告以及病理诊断报告对应的后遗症等级,所述病理诊断报告包括病理特征;所述病理特征包括病理类型、肿瘤分期、病例年龄、肿瘤体积、浸润深度、吸烟指数以及性别特征。
3.根据权利要求2所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,所述相似报告包括良性相似报告以及恶性相似报告,获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告包括:
4.根据权利要求3所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,获取患者的病理类型,基于病理类型对胸部肿瘤数据库进行查询,得到多个相似报告还包括:
5.根据权利要求4所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,对相似报告进行等级划分,识别相似报告中的特征信息;基于等级划分结果对特征信息计算分析,基于计算分析结果对特征信息进行赋值或将特征信息进行删除包括:
6.根据权利要求5所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,获取患者的特征信息,对患者以及相似报告的特征信息建立特征向量包括:
7.根据权利要求6所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,计算特征向量的欧式距离,输出欧式距离包括:
8.根据权利要求7所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,对欧式距离进行分析,输出最优报告包括:
9.根据权利要求7所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法,其特征在于,所述预测信息包括可能等级以及可能症状,对最优报告进行文本识别,输出预测信息包括:
10.适用于权利要求1-9任意一项所述的基于胸部肿瘤数据库文本识别的胸部肿瘤预后预测方法的系统,其特征在于,包括相似查询模块、特征分析模块以及预测分析模块;
