本发明涉及妊娠期糖尿病辅助诊断模型,具体涉及一种针对妊娠期糖尿病的辅助诊断模型的建立方法及系统,一种妊娠期糖尿病的辅助诊断系统、一种电子设备、一种计算机可读存储介质。
背景技术:
1、妊娠期糖尿病(gestational diabetes mellitus,gdm)指在妊娠期首次发现或发生的糖代谢异常,是糖尿病的一种,可能导致胎儿发育畸形、胎儿宫内窘迫、胎死宫内新生儿低血糖、巨大儿以及难产或者死产等并发症。患有gdm的母亲所生的婴儿暴露于化学失衡的风险增加,因此早期准确的检测至关重要。在临床中,通常采用24-28周的口服葡萄糖耐量试验(oral glucose tolerance test,ogtt)以诊断gdm。然而,这种主流方法是侵入性的,耗时的且劳动密集型的,需要在服用葡萄糖之前和之后多次检查血糖水平。此外,在妊娠早期,ogtt对迟发性gdm的敏感性和特异性较低。因此,这种方法不适合早期发现,临床上仍然迫切需要更多无创的、准确的生物标志物。
2、眼泪富含蛋白质和脂质,这些蛋白质和脂质已成为诊断生物标志物的重要来源。疾病的病理生理变化可能反映在眼泪中,泪液生物标志物的诊断能力已在许多非眼科全身性疾病(如多发性硬化症和帕金森病)中得到证实。最常见的泪液样品采集方法包括泪液分泌试纸(schirmer strip)法和毛细管(capillary)法,这些方法能够非侵入性地收集样本。由此,基于比较蛋白质组学分析的泪液生物标志物可用于gdm诊断。
3、机器学习(machine learning)作为现代信息学科人工智能的重要分支,使用算法解析大量数据并从中学习和归纳问题,从而可以通过模拟人类大脑思维的学习方式作出推理或判断。机器学习常用的算法有很多,例如按学习风格可分为监督学习、无监督学习、半监督学习等,按形式或功能的相似性可分为分类、回归、决策树、聚类、深度学习等。近年来,机器学习和临床诊断相结合虽然取得了一些进展,但受限于医学样本数据特点和各种算法的适用性,尤其是针对妊娠期糖尿病诊断,目前尚未发现于此相关的具有高准确率的人工智能辅助诊断模型。
技术实现思路
1、基于上述现状,本发明的主要目的在于提供针对妊娠期糖尿病的辅助诊断模型的建立方法及系统、针对妊娠期糖尿病的辅助诊断模型、电子设备和计算机可读存储介质,所述建立方法将样本中的蛋白质标志物数据经预处理后用于机器学习模型,在得到优化的训练模型的基础上结合数据转换处理和性能评估最终确认最优的妊娠期糖尿病辅助诊断模型,由此得到的辅助诊断模型能够基于泪液蛋白标志物准确地、高效地实现辅助诊断妊娠期糖尿病。
2、为实现上述目的,本发明采用的技术方案如下:
3、本发明的第一方面提供了一种针对妊娠期糖尿病的辅助诊断模型的建立方法,所述方法包括如下步骤:
4、选取可用于所述辅助诊断模型的机器学习模型;
5、获取多个样本中的蛋白质标志物数据,其中,所述多个样本从受试者泪液中收集,并将所述蛋白质标志物数据作为所述机器学习模型的原始数据集;
6、基于所述原始数据集对所述机器学习模型进行训练和评估,并根据评估结果得到所述辅助诊断模型。
7、优选地,所述基于所述原始数据集对所述机器学习模型进行训练和评估包括:
8、对所述原始数据集进行缩放处理并得到预处理数据;
9、将所述预处理数据随机分为训练集和测试集,通过所述训练集对所述机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,根据评估结果确定最优训练模型;
10、基于所述缩放处理生成可用于单个样本的数据转换程序,将所述数据转换程序集成入所述最优训练模型并得到集成模型,对所述集成模型进行性能评估,根据性能评估的结果得到所述辅助诊断模型。
11、优选地,
12、所述缩放处理包括通过z值算法对所述原始数据集进行统一量级处理;
13、所述数据转换程序根据所述z值算法所采用的参数对所述辅助诊断模型的输入数据进行处理,以适用于单个样本作为所述输入数据。
14、优选地,所述对所述集成模型进行性能评估包括:
15、绘制roc曲线,并计算所述集成模型的auc值。
16、优选地,所述蛋白质标志物数据包括k2c5、pip和glod4的泪液蛋白浓度数据。
17、优选地,所述通过所述训练集对所述机器学习模型进行训练并得到训练模型包括:
18、将所述k2c5、pip和glod4的泪液蛋白浓度数据作为最优特征子集;
19、采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
20、优选地,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
21、优选地,所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。
22、优选地,所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
23、本发明的第二方面提供了一种针对妊娠期糖尿病的辅助诊断模型的建立系统,所述建立系统包括:
24、模型单元,用于选取可用于所述辅助诊断模型的机器学习模型;
25、输入单元,用于获取多个样本中的蛋白质标志物数据,其中,所述多个样本从受试者泪液中收集,并将所述蛋白质标志物数据作为所述机器学习模型的原始数据集;
26、建模单元,用于基于所述原始数据集对所述机器学习模型进行训练和评估,并根据评估结果得到所述辅助诊断模型。
27、优选地,所述建模单元包括:
28、数据处理模块,用于对所述原始数据集进行缩放处理并得到预处理数据;
29、模型训练模块,用于将所述预处理数据随机分为训练集和测试集,通过所述训练集对所述机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,并根据评估结果确定最优训练模型;
30、模型建立模块,用于基于所述缩放处理生成可用于单个样本的数据转换程序,将所述数据转换程序集成入所述最优训练模型并得到集成模型,对所述集成模型进行性能评估,根据所述性能评估的结果得到所述辅助诊断模型。
31、优选地,
32、所述数据处理模块包括第一子模块,所述第一子模块能够通过z值算法对所述原始数据集进行统一量级处理;
33、所述数据转换程序包括第二子模块,所述第二子模块能够根据所述z值算法所采用的参数对所述辅助诊断模型的输入数据进行处理,以适用于单个样本作为所述输入数据。
34、优选地,所述模型建立模块还包括性能评估模块,用于绘制roc曲线,并计算所述集成模型的auc值。
35、优选地,所述蛋白质标志物数据包括k2c5、pip和glod4的泪液蛋白浓度数据。
36、优选地,所述模型训练模块的最优特征子集为k2c5、pip和glod4的泪液蛋白浓度数据;
37、所述模型训练模块包括第三子模块,所述第三子模块能够采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
38、优选地,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
39、优选地,所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。
40、优选地,所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
41、本发明的第三方面提供了一种妊娠期糖尿病的辅助诊断系统,所述辅助诊断系统包括:
42、输入模块,用于输入待诊断数据,所述待诊断数据包括受试者的k2c5、pip和glod4的泪液蛋白浓度数据;
43、诊断模块,用于对所述待诊断数据进行判断,所述诊断模块包括如上述第一方面所述的建立方法得到的辅助诊断模型;
44、输出模块,用于输出所述待诊断数据的判断结果,以得到所述受试者的妊娠期糖尿病患病概率。
45、优选地,所述辅助诊断模型基于随机森林模型得到。
46、本发明的第四方面提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如上述第一方面所述的建立方法。
47、本发明的第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于运行以实现如上述第一方面所述的建立方法。
48、本发明与现有技术相比具有明显的优点和有益效果,其至少具有下列优点:
49、本发明的针对妊娠期糖尿病的辅助诊断模型的建立方法及建立系统,基于多个受试者泪液样本获取蛋白质标志物数据,并将蛋白质标志物数据作为机器学习模型的原始数据集,并基于原始数据集对机器学习模型进行训练和评估,从而得到妊娠期糖尿病的辅助诊断模型,由此该辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现,该辅助诊断模型预测正确率的最佳auc值可在0.98以上。
50、本发明的妊娠期糖尿病的辅助诊断系统,该系统的诊断模块包括根据上述建立方法所得到的辅助诊断模型,能够基于多个样本中的蛋白质标志物数据(包括k2c5、pip和glod4的泪液蛋白浓度数据)进行快速、准确的妊娠期糖尿病辅助诊断,实现快速分析、判断样本数据并输出结果,从而为临床应用提供有效的、非侵入性的妊娠期糖尿病诊断依据。
51、本发明的电子设备和计算机可读存储介质,通过采用上述建立方法所得到的辅助诊断模型能够基于蛋白质标志物为大规模队列提供快速、准确的妊娠期糖尿病辅助诊断,并实现非侵入行的妊娠期糖尿病的辅助诊断。
1.一种针对妊娠期糖尿病的辅助诊断模型的建立方法,其特征在于,所述方法包括如下步骤:
2.如权利要求1所述的建立方法,其特征在于,所述基于所述原始数据集对所述机器学习模型进行训练和评估包括:
3.如权利要求2所述的建立方法,其特征在于,
4.如权利要求2所述的建立方法,其特征在于,所述对所述集成模型进行性能评估包括:
5.如权利要求1所述的建立方法,其特征在于,所述蛋白质标志物数据包括k2c5、pip和glod4的泪液蛋白浓度数据。
6.如权利要求5所述的建立方法,其特征在于,所述通过所述训练集对所述机器学习模型进行训练并得到训练模型包括:
7.如权利要求6所述的建立方法,其特征在于,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
8.如权利要求1所述的建立方法,其特征在于,所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。
9.如权利要求1-8任一项所述的建立方法,其特征在于,所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
10.一种针对妊娠期糖尿病的辅助诊断模型的建立系统,其特征在于,所述建立系统包括:
11.如权利要求10所述的建立系统,其特征在于,所述建模单元包括:
12.如权利要求11所述的建立系统,其特征在于,
13.如权利要求11所述的建立系统,其特征在于,所述模型建立模块还包括性能评估模块,用于绘制roc曲线,并计算所述集成模型的auc值。
14.如权利要求10所述的建立系统,其特征在于,所述蛋白质标志物数据包括k2c5、pip和glod4的泪液蛋白浓度数据。
15.如权利要求14所述的建立系统,其特征在于,所述模型训练模块的最优特征子集为k2c5、pip和glod4的泪液蛋白浓度数据;
16.如权利要求15所述的建立系统,其特征在于,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
17.如权利要求10所述的建立系统,其特征在于,所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。
18.如权利要求10至17任一项所述的建立系统,其特征在于,所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
19.一种妊娠期糖尿病的辅助诊断系统,其特征在于,所述辅助诊断系统包括:
20.如权利要求19所述的辅助诊断系统,其特征在于,所述辅助诊断模型基于随机森林模型得到。
21.一种电子设备,其特征在于,包括:
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于运行以实现如权利要求1至9任一项所述的建立方法。
