1.本发明涉及医学大数据利用技术领域,特别涉及一种基于医疗大数据肿瘤诊断的预测方法。
背景技术:
2.癌症是一个复杂的疾病,而其发病率在逐年增多,各国对于癌症的治疗也是一笔天文数字的支出,如何对癌症进行早期诊断从而及时治疗,这是各国科学家一直在不懈研究的课题,而如何扩大筛选规模并降低医疗成本亦是一个巨大的挑战,每个肿瘤往往拥有多个驱动基因和复杂的信号传导通路异常,但是对于癌症的早期诊断一直是个棘手的问题,如何通过简单的手段来预测早期肿瘤或者通过对患者的血液检验指标并通过算法进行判断是一个重要和紧迫的问题。对以上问题,以下提出一种解决方案。
技术实现要素:
3.本发明的目的是提供一种基于医疗大数据肿瘤诊断的预测方法,具有结果可靠、准确度高、特异性好的优点。
4.本发明的上述技术目的是通过以下技术方案得以实现的:
5.一种基于医疗大数据肿瘤诊断的预测方法,包括数据挖掘和模型构建,所述数据挖掘包括前期收集的近三年肿瘤标志物大数据,所述模型构建包括5
‑
8种肿瘤良恶性模型,以甲状腺、肺和肝三个器官中良性和恶性肿瘤的区分和判别,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测。
6.作为优选,所述甲状腺癌良性和恶性肿瘤区分判别,通过甲状腺各变量相关性示意图的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
7.作为优选,所述甲状腺模型构建和预测后,选择的age r8 r11标志物,在逻辑回归模型下,预测效果最好,选择糖类抗原199和鳞状细胞癌相关抗原以及年龄三个变量的情况下,通过逻辑回归的方法对甲状腺良恶性肿瘤的预测有较好的预测准确率,准确率可达到0.76,auc值到0.685。
8.作为优选,所述肺癌良性和恶性肿瘤区分判别,通过肺的良恶性肿瘤各变量的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
9.作为优选,所述肺四种模型的auc值分别为:0.785,0.821,0.746,0.762,最优的预测模型是:随机森林模型,预测准确性0.76,auc值为0.821,从重要变量性排名来看:r6>r3>r7>sex>r10>r1>r8,且通过基尼指数可知,r6,r3,r10,r1和r7都属于高分数参数,和重要性排名比较一致,可以用于未来的临床考察指标。
10.作为优选,所述肝癌良性和恶性肿瘤区分判别,同样进行逻辑回归,随机森林,支持向量机以及增强学习4种模型分析,所有模型都是随机选取50%的样本作为训练样本,另
外50%作为验证样本结果发现随机森林的预测准确性最高为0.81。
11.作为优选,所述通过肝roc曲线看出,四种模型的auc值分别为0.748,0.814,0.690和0.686,因此,依然是随机森林具有最好的分类效果。预测准确性为0.81,auc值为0.814,从基尼指数上看,r6,r4,r3,r9,r10属于高效率的预测因子,这个结果与变量重要性排名和差异p值结果几乎一致因此,未来r6,r4,r3,r9,r10可以作为临床预测重要的分子标志物。
12.本发明的有益效果是:研究人员将收集与各种与体检和肿瘤相关的医疗记录中的标志物,包括年龄性别等指标,并根据已知的肿瘤数据来判断肿瘤是恶性的还是良性的,进行迭代训练后,通过机器学习的各种算法用于估计肿瘤的良恶性,从而基于多维异质数据的整合并结合不同技术在特征选择和分类中的应用,可以为癌症领域提供具有潜力的预测工具,通过机器学习的方法对肿瘤的良恶性进行区别有非常有益的应用前景,结果可靠,准确度高,特异性好,对肿瘤诊断的预测具有极大的帮助。
附图说明
13.图1为肿瘤标志物名称图;
14.图2为甲状腺各变量相关性示意图;
15.图3为甲状腺逻四种机器模型构建与预测评价图;
16.图4为肺的良恶性肿瘤各变量的相关性分析图;
17.图5为肺逻四种机器模型构建与预测评价图;
18.图6为肺随机森林套袋率图;
19.图7为肺随机森林基尼指数;
20.图8为肝各变量相关性示意图;
21.图9为肝四种模型的roc曲线比较图;
22.图10为肝随机森林套袋率图;
23.图11为肝随机森林基尼指数。
具体实施方式
24.以下所述仅是本发明的优选实施方式,保护范围并不仅局限于该实施例,凡属于本发明思路下的技术方案应当属于本发明的保护范围。同时应当指出,对于本技术领域的普通技术人员而言,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
25.如图1至图11所示,一种基于医疗大数据肿瘤诊断的预测方法,包括数据挖掘和模型构建,数据挖掘包括前期收集的近三年肿瘤标志物大数据,模型构建包括5
‑
8种肿瘤良恶性模型,以甲状腺、肺和肝三个器官中良性和恶性肿瘤的区分和判别,并收集某院近三年肺(533例),肝(365例)以及甲状腺(527例)恶性肿瘤和良性肿瘤的肿瘤标志物进行统计分析,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测。
26.甲状腺癌良性和恶性肿瘤区分判别:
27.通过图1可知肿瘤标志物名称,通过图2可知甲状腺各变量的相关性,通过图3进行甲状腺逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
28.结果发现:选择的age r8 r11标志物,在逻辑回归模型下,预测效果最好,选择糖类抗原199和鳞状细胞癌相关抗原以及年龄三个变量的情况下,通过逻辑回归的方法对甲状腺良恶性肿瘤的预测有较好的预测准确率,准确率可达到0.76,auc值到0.685。
29.肺癌良性和恶性肿瘤区分判别:
30.通过图4首先对肺的良恶性肿瘤各变量的相关性进行分析,其次通过图5构建四种机器学习模型并评价,由图5可知,四种模型的auc值分别为:0.785,0.821,0.746,0.762;最优的预测模型是:随机森林模型,预测准确性0.76,auc值为0.821;从重要变量性排名来看:r6>r3>r7>sex>r10>r1>r8。
31.结果发现:通过图6分析随机森林套袋率和图7分析随机森林基尼指数,可得出r6,r3,r10,r1和r7都属于高分数参数,和重要性排名比较一致,可以用于未来的临床考察指标。
32.肝癌良性和恶性肿瘤区分判别:
33.通过图8首先对肝的良恶性肿瘤各变量的相关性进行分析,随后同样进行逻辑回归,随机森林,支持向量机以及增强学习4种模型分析,所有模型都是随机选取50%的样本作为训练样本,另外50%作为验证样本结果发现随机森林的预测准确性最高为0.81。
34.结果发现:通过图9可看出,四种模型的auc值分别为0.748,0.814,0.690和0.686,因此,依然是随机森林具有最好的分类效果。预测准确性为0.81,auc值为0.814。且通过图10分析出,500棵树的分类器结果已经趋近于稳定,因此该模型结果可行,最后通过图11可分析得出,r6,r4,r3,r9,r10属于高效率的预测因子,这个结果与变量重要性排名和差异p值结果几乎一致因此,未来r6,r4,r3,r9,r10可以作为临床预测重要的分子标志物。
35.研究人员将收集与各种与体检和肿瘤相关的医疗记录中的标志物,包括年龄性别等指标,并根据已知的肿瘤数据来判断肿瘤是恶性的还是良性的,进行迭代训练后,通过机器学习的各种算法用于估计肿瘤的良恶性,从而基于多维异质数据的整合并结合不同技术在特征选择和分类中的应用,可以为癌症领域提供具有潜力的预测工具。
36.通过机器学习的方法对肿瘤的良恶性进行区别有非常有益的应用前景,结果可靠,准确度高,特异性好,因此对肿瘤诊断的预测具有极大的帮助。
转载请注明原文地址:https://win.8miu.com/read-250075.html