本发明涉及生物信息学,特别是涉及一种基于全基因组测序数据利用机器学习的方式进行金黄色葡萄球菌耐药表型预测的方法。
背景技术:
1、20世纪初期抗生素的发现和应用改变了传统医学治疗模式,并成为现代医疗及农业领域重要的干预手段之一。与此同时,抗生素耐药性的产生对抗生素显著的治疗成果产生了巨大的冲击。据统计2019年大约有495万人的死亡与细菌性抗生素耐药相关,其中127万人直接死于细菌性抗生素耐药。抗生素耐药性目前已成为迫在眉睫的公共安全问题,足以引起全球关注。而耐药性金黄色葡萄球菌,由于其产生的毒力因子和携带的耐药基因等已成为了社区和医院获得性细菌感染的主要原因,并引发获得性肺炎等系列严重疾病,而耐药性金葡抗生素的选择是临床有效治疗的重要环节。
2、针对抗生素耐药现象的普遍性,临床细菌感染患者多以药敏试验来进行抗生素的最终选择,从而避免抗生素治疗的无效性。药敏等表型试验目前仍是建立在培养的基础上,即使对于一些快速生长的细菌也需要至少两天才可以完成;而对于一些生长缓慢的微生物,其验证周期则需要更长,而这种长周期在一定程度上也导致了耐药性的传播。
3、随着测序技术的飞速发展,越来越多拥有临床抗菌药敏表型(ast)配对的基因组信息被获取,进一步揭示了基因组与临床表型特征之间的相关性。耐药预测模型一般可分为两类,一种为基于预定规则的分类预测模型,包括基因、snp、质粒/移动元件、拷贝数变异等,但该方法根据参数的设置检测结果差异较大。因此,为了保证其高置信度,临床专家建议采用较为严苛的参数,如在80%氨基酸序列里达到80%以上的序列一致率。另一种为基于随机森林等机器学习算法构建的预测模型,该方式除纳入耐药基因及突变等检出情况外,还考量k-mer及基因表达及各特征间相互影响,赋予各特征不同权重,实现耐药预测。研究表明相比于前者,基于机器学习的预测模型展示出更高的性能。但基于单特征的机器学习在耐药预测中的准确性仍有完善空间,部分表型无法实现精准预测。
技术实现思路
1、本发明建立了一种基于多特征的金黄色葡萄球菌耐药预测模型,该模型性能优良,同时提供了一些新的潜在的抗生素耐药预测的分子标记。本发明利用含有金黄色葡萄球菌耐药表型信息的全基因组测序数据,构建了基于基因、snp和k-mer三类特征的抗生素机器学习模型,直接预测金黄色葡萄球菌耐药表型的数据分析方法及系统。同时评估预测模型的准确性和性能,并表征不同类型分子标记对耐药模型性能的贡献,此外也发现一些新的保守区域的耐药决定相关分子标记,以进一步完善金黄色葡萄球菌耐药相关分子机制。
2、一种金黄色葡萄球菌耐药表型预测方法,其用于非治疗或诊断目的,包括如下步骤:
3、s1,选定需要进行耐药表型预测的抗生素种类,并获得具有耐药表型信息的菌株基因组测序数据;
4、s2,根据菌株基因组测序数据进行snp位点识别,获得各个菌株的snp位点信息数据,作为第一特征集;
5、s3,将全部的菌株基因组数据进行去除冗余处理,再将各个菌株的测序数据与去除冗余处理后的数据进行比对,获得各个菌株的基因编码序列数据,作为第二特征集;
6、s4,根据菌株基因组测序数据进行k-mer序列切割处理,将获得的k-mer序列进行去重和过滤处理,将获得各个菌株在进行处理后的k-mer序列上的数据信息,作为第三特征集;
7、s5,以第一、第二和第三特征集作为输入变量,以菌株的耐药是否作为输出变量,构建分类器模型;
8、s6、通过训练完成的模型进行金黄色葡萄球菌耐药表型预测。
9、步骤s1中,抗生素种类选自cefoxitin、chloramphenicol、ciprofloxacin、clindamycin、erythromycin、fusidic.acid、gentamicin、methicillin、oxacillin、penicillin、rifampin、tetracycline、trimethoprim_sulfamethoxazole、vancomycin中的一种或几种或者全部。
10、步骤s2中,采用gatk haplotypecaller进行snp位点识别,并且过滤标准设定为:max-missing<0.9,min-alleles=2,max-alleles=2,maf>0.05,minq>30,mindp>5,min-meandp>3;样本的snp位点缺失率低于60%。
11、所述的步骤s3中,比对中保留覆盖度大于90%的编码序列;去除冗余的编码序列中采用过滤标准为相似性大于0.95,覆盖度大于0.9。
12、所述的步骤s4中,k-mer序列长度取11个碱基,去重和过滤处理的标准是检出率大于1%,小于99%。
13、所述的步骤s5中,分类器模型的构建过程中,是先分别将第一、第二、第三特征集分别构建出各自的梯度提升机分类器、广义线性模型分类器和随机森林分类器模型,然后再将9个模型通过堆叠模型进行整合。
14、一种金黄色葡萄球菌耐药表型预测装置,包括:
15、菌株基因组测序数据获取模块,用于选定需要进行耐药表型预测的抗生素种类,并获得具有耐药表型信息的菌株基因组测序数据;
16、第一特征集获取模块,用于根据菌株基因组测序数据进行snp位点识别,获得各个菌株的snp位点信息数据,作为第一特征集;
17、第二特征集获取模块,用于将全部的菌株基因组数据进行去除冗余处理,再将各个菌株的测序数据与去除冗余处理后的数据进行比对,获得各个菌株的基因编码序列数据,作为第二特征集;
18、第三特征集获取模块,用于根据菌株基因组测序数据进行k-mer序列切割处理,将获得的k-mer序列进行去重和过滤处理,将获得各个菌株在进行处理后的k-mer序列上的数据信息,作为第三特征集;
19、分类器构建模块,用于以第一、第二和第三特征集作为输入变量,以菌株的耐药是否作为输出变量,构建分类器模型;
20、预测模块,用于通过训练完成的模型进行金黄色葡萄球菌耐药表型预测。
21、一种计算机可读介质,其记载有能够运行上述的金黄色葡萄球菌耐药表型预测方法的程序。
22、用于检测第一、第二、第三特征集的试剂在用于制备检测金黄色葡萄球菌耐药表型的试剂盒中的应用。
23、有益效果
24、本发明基于三种分子标记物构建了具有优良性能的金黄色葡萄球菌耐药预测模型。同时也证实了结合不同种类的生物标记物充分扩增遗传特征是提高模型预测性能的关键。此外也提供了一些新的潜在的抗生素耐药预测的分子标记,促进耐药分子机制的完善,有助于精准医疗的实现及医疗成本的降低。
1.一种金黄色葡萄球菌耐药表型预测方法,其用于非治疗或诊断目的,其特征在于,包括如下步骤:
2.根据权利要求1所述的金黄色葡萄球菌耐药表型预测方法,其特征在于,步骤s1中,抗生素种类选自cefoxitin、chloramphenicol、ciprofloxacin、clindamycin、erythromycin、fusidic.acid、gentamicin、methicillin、oxacillin、penicillin、rifampin、tetracycline、trimethoprim_sulfamethoxazole、vancomycin中的一种或几种或者全部。
3.根据权利要求1所述的金黄色葡萄球菌耐药表型预测方法,其特征在于,步骤s2中,采用gatk haplotypecaller进行snp位点识别,并且过滤标准设定为:max-missing<0.9,min-alleles=2,max-alleles=2,maf>0.05,minq>30,mindp>5,min-meandp>3;样本的snp位点缺失率低于60%。
4.根据权利要求1所述的金黄色葡萄球菌耐药表型预测方法,其特征在于,所述的步骤s3中,比对中保留覆盖度大于90%的编码序列;去除冗余的编码序列中采用过滤标准为相似性大于0.95,覆盖度大于0.9。
5.根据权利要求1所述的金黄色葡萄球菌耐药表型预测方法,其特征在于,所述的步骤s4中,k-mer序列长度取11个碱基,去重和过滤处理的标准是检出率大于1%,小于99%。
6.根据权利要求1所述的金黄色葡萄球菌耐药表型预测方法,其特征在于,所述的步骤s5中,分类器模型的构建过程中,是先分别将第一、第二、第三特征集分别构建出各自的梯度提升机分类器、广义线性模型分类器和随机森林分类器模型,然后再将9个模型通过堆叠模型进行整合。
7.一种金黄色葡萄球菌耐药表型预测装置,其特征在于,包括:
8.一种计算机可读介质,其特征在于,其记载有能够运行权利要求1-6任一项所述的金黄色葡萄球菌耐药表型预测方法的程序。
9.用于检测第一、第二、第三特征集的试剂在用于制备检测金黄色葡萄球菌耐药表型的试剂盒中的应用。