本发明属于结直肠癌和结直肠腺瘤的检测领域,具体涉及一种用于结直肠癌或结直肠腺瘤的早期诊断的生物标志物组合物及应用。
背景技术:
1、2020年,全球估计有1930万新发癌症病例和近1000万例癌症死亡。证据表明,使用更实惠和侵入性更小的方法(例如,愈创木脂检测和粪便免疫化学检测)进行结直肠癌筛查可能具有成本效益。为了减轻早发性结直肠癌日益沉重的负担,美国癌症协会在2018年将平均风险人群的推荐筛查年龄从50岁降低到45岁。一项横断面研究纳入了中国8个省份的1,381,561名参加结直肠癌筛查的受试者,研究结果发现高危人群的结肠镜检查总体参与率仅为14%,因此亟待开发新的结直肠癌的无创/微创早期诊断方法。
2、微生物在特定癌症类型中具有显著的贡献,主要是粪便微生物组对胃肠道癌症的贡献。自20世纪中叶以来,人们就已经知道血液中存在循环核酸,但直到最近几年,高通量测序的出现才导致基于这些核酸[也称为游离dna(cfdna)或rna]的临床诊断,包括检测胎儿异常、移植器官排斥反应和癌症的特征。体内的非人细胞比有核的人类细胞大约多一个数量级;将这一观察结果与人类、细菌和病毒的平均基因组大小(分别为gb、mb和kb)相结合,表明人类中大约1%的dna质量来自非宿主来源。通过对1000多个独立样本血液中的循环游离dna进行大规模鸟枪测序,鉴定出了数百种新的细菌和病毒,这些细菌和病毒代表了人类微生物组中以前未识别的成员。最近的研究表明,基于血液的微生物dna可以在癌症中提供临床信息。这些微生物图谱似乎在大多数癌症类型内部和之间进行区分,包括低级别肿瘤阶段的基于血液的微生物dna,以及在商业ctdna测定中没有任何可检测到的基因组改变的患者。
3、血液中的游离dna为癌症患者提供了一种非侵入性的诊断途径。机器学习是人工智能的一个子集,它指的是算法从数据中学习的能力,以便检测模式并做出决策。机器学习算法提供了调查大量数据的手段和机会,从而有助于识别复杂医疗状况背后的模式。这些分析方法允许通过筛选患者的基因组、转录组、蛋白质组、表观基因组、免疫组和微生物组,根据患者的具体差异对患者进行分类。使用基于系统生物学的方法整合组学数据集可以促进对个体患者潜在致病因素的理解。因此,利用机器学习算法从测序数据提取差异标志物建立分类诊断模型,可以达到优越的诊断性能。
技术实现思路
1、针对上述技术问题,本发明的目的在于提供一种结直肠癌或结直肠腺瘤的生物标志物组合物,所述生物标志物组合物包括猫白血病病毒(feline leukemia virus)、中华单胞菌jc656(sinomonas sp.jc656)、烟曲霉(aspergillus fumigatus)、鹦鹉热衣原体(chlamydia psittaci)、长弯曲海菌(ancylomarina longa)以及微杆菌aiso3(microbacterium sp.aiso3)。
2、本发明的又一目的在于提供一种上述生物标志物组合物在制备用于结直肠癌或结直肠腺瘤的早期诊断的药物中的应用,包括:
3、(1)血液cfdna基因组大小测定,提取血液cfdna,进行质控,文库构建;
4、(2)以cfdna为样本,进行基因组组装与基因预测,将unigenes与nr_meta库进行比对,对每个unigene的比对结果,选取evalue<=最小evalue*10的比对结果进行物种分类,得到序列的各个分类等级界(kingdom)、门(phylum)、纲(class)、目(order)、科(family)、属(genus)、种(species)的具体物种注释信息;
5、(3)将不同样本的猫白血病病毒(feline leukemia virus)、中华单胞菌jc656(sinomonas sp.jc656)、烟曲霉(aspergillus fumigatus)、鹦鹉热衣原体(chlamydiapsittaci)、长弯曲海菌(ancylomarina longa)以及微杆菌aiso3(microbacteriumsp.aiso3)物种丰度矩阵进行建模分析以及预测,获得诊断模型;
6、(4)结果判定:当预测值为1时,结直肠癌或结直肠腺瘤的诊断结果为阳性;当预测值为0时,结直肠癌或结直肠腺瘤的诊断结果为阴性。
7、优选地,步骤(2)中,所述unigenes与nr_meta库进行比对采用diamond软件进行。
8、优选地,步骤(2)中,所述具体物种注释信息通过megan软件分析得到。
9、优选地,步骤(3)中采用的模型为随机森林模型或逻辑回归模型。
10、本发明筛选了特定的血液微生物作为用于结直肠癌或结直肠腺瘤的早期诊断的生物标志物组合物,所述生物标志物组合物包括猫白血病病毒(feline leukemia virus)、中华单胞菌jc656(sinomonas sp.jc656)、烟曲霉(aspergillus fumigatus)、鹦鹉热衣原体(chlamydia psittaci)、长弯曲海菌(ancylomarina longa)以及微杆菌aiso3(microbacterium sp.aiso3),通过随机森林或逻辑回归等模型,用于结直肠癌或结直肠腺瘤的诊断并得出结果。
11、本发明的有益效果是:①本发明提供的生物标志物组合物能够用于早期诊断结直肠癌或结直肠腺瘤,具有经济实惠、操作简便等优点,适用于临床应用;②本发明利用基于高通量测序结果的特异性对结直肠癌或结直肠腺瘤进行早期诊断,具有灵敏度高和特异性强等优点,能够避免肠镜侵入式检查导致的痛苦、不适及术后并发症,显著降低结直肠癌和结直肠腺瘤早期诊断的假阳性率,可以广泛用于结直肠癌和结直肠腺瘤的早期诊断。
1.一种结直肠癌或结直肠腺瘤的生物标志物组合物,其特征在于,所述生物标志物组合物包括猫白血病病毒(feline leukemia virus)、中华单胞菌jc656(sinomonassp.jc656)、烟曲霉(aspergillus fumigatus)、鹦鹉热衣原体(chlamydia psittaci)、长弯曲海菌(ancylomarina longa)以及微杆菌aiso3(microbacterium sp.aiso3)。
2.一种权利要求1所述的生物标志物组合物在制备用于结直肠癌或结直肠腺瘤的早期诊断的药物中的应用,其特征在于,包括:
3.根据权利要求2所述的应用,其特征在于,步骤(2)中,所述unigenes与nr_meta库进行比对采用diamond软件进行。
4.根据权利要求2所述的应用,其特征在于,步骤(2)中,所述具体物种注释信息通过megan软件分析得到。
5.根据权利要求2所述的应用,其特征在于,步骤(3)中采用的模型为随机森林模型或逻辑回归模型。