本发明属于结直肠癌和结直肠腺瘤的检测领域,具体涉及一种用于结直肠癌和结直肠腺瘤的早期诊断的生物标志物组合物及应用。
背景技术:
1、结直肠癌(colorectal cancer,crc)是全球常见的恶性肿瘤,约占十分之一的癌症病例,其发病率和死亡率分别为6.1%和9.2%。2015年在中国,大约有388,000个人被诊断出患有crc并有187,000人死于该疾病。结直肠癌是40-80岁群体常见的恶行肿瘤,并且呈现年轻化的趋势,尽管早期诊断技术和治疗手段的进步使得大部分癌症的发病率和死亡率有所下降,但是近15年来,中国结直肠癌的发病率逐年上升。如果能在早期发现病变并治疗,患者的5年生存率将得到极大的提升(13%vs 90%)。随着测序技术与信息技术的发展,人工智能已成为辅助临床医生的一个重要利器,如影像学诊断等。利用人工智能算法和生物信息学可以深入挖掘数据信息,建立诊断模型,可以提高诊断准确度。数据表明基于神经网络和深度学习等算法的人工智能模型可以达到80%以上的准确性,使患者受益。因此,将人工智能学习与早期诊断结合起来,将进一步降低结直肠癌死亡率与医疗负担。
2、目前,侵入式结肠镜检查仍然是crc诊断的金标准,是临床最常用的确诊方法,病例对照和队列研究的结果表明结肠镜检查具有预防crc和癌症死亡的潜在能力。中国从2012年至2015年从中国16个省市招募了1,381,561名40-69岁的合格参与者,建立了风险评分系统,随后推荐用于结肠镜检查,最终只有25,593名参与者进行了结肠镜检查,参与率为14.0%。尽管结肠镜检查被认为是crc筛查的金标准,但它是一种侵入性手术,需要高水平的专业知识,费用高昂,可能引发术后并发症,并且患者体验差,这限制了它作为早期筛查的选择。非侵入检测方法,美国癌症协会推荐高敏fobt和fit每三年检查一次,但是其灵敏度较低(12%-56%),且受饮食、用药影响较大,有待进一步提升。多靶点粪便dna检测cologuard,2014年获得fda批准,建议每3年进行一次筛查,但是它对早期腺瘤敏感度较低(42.4%),检测费用(599美金)较高,目前仅在美国、加拿大等少数国家得到性能验证,尚未在中国进行临床实验。因此,需要开发新的非侵入式诊断方法。
3、“微生物组”一词是指整个栖息环境,包括微生物(细菌,古细菌,较低等和较高等的真核生物和病毒),其基因组以及周围的环境条件。这些因素沿腺瘤-癌序列改变,反映在丰度变化上。近年来,人体微生物组与疾病的关系研究极大的推进了精准诊疗范式的变化,被纳入肿瘤标指之一。结直肠癌和微生物组的关系最为密切,利用粪便微生物组进行crc的诊断性能已经得到大队列,多群体的实验验证,具有准确度高、无创、经济快速的优势。下一代测序的发展产生了有关crc微生物组的大量数据,生物信息学以及机器学习方法还提供了强大的工具来增进我们的理解。宏基因组学和16s rrna测序研究表明,患者和健康人群之间某些微生物的丰度有所不同,微生物生物标记物的有效组合可以用于crc诊断。尽管如此,利用粪便微生物标志物诊断早期的结直肠癌和结直肠腺瘤仍然纯在挑战,如灵敏度低等,因此需要新的诊断策略。
技术实现思路
1、针对上述技术问题,本发明的目的在于提供一种结直肠癌和结直肠腺瘤的生物标志物组合物,所述结直肠癌的生物标志物组合物包括微小微单胞菌(parvimonas micra)、人型戴阿利斯特杆菌(dialister hominis)、具核梭状杆菌(fusobacterium nucleatum)、卟啉单胞菌(porphyromonas uenonis)、人型毛螺菌(lachnospira hominis)、多形拟杆菌对细枝真杆菌(eubacterium ramulus)、多雷氏拟杆菌(phocaeicola dorei)以及唾液乳杆菌(ligilactobacillus salivarius);所述结直肠腺瘤的生物标志物组合物包括萨特氏念珠菌(candidatus sutterella merdavium)、齿双岐杆菌(bifidobacterium dentium)、人型梭杆菌(fusobacterium hominis)、摩氏摩根菌(morganella morganii)、艰难梭菌(clostridioides difficile)、长双歧杆菌(bifidobacterium longum)、经黏液真杆菌(blautia glucerasea)以及平氏消化杆菌(peptacetobacter hiranonis)。
2、本发明的又一目的在于提供一种上述生物标志物组合物在制备用于结直肠癌和结直肠腺瘤的早期诊断的药物中的应用,包括:
3、(1)以粪便为样本,提取基因组,进行基因组组装与基因预测,对基因集代表序列分别同nr库数据进行比对注释,blast比对参数设置期望值e-value为1e-5,并通过nr库对应的分类学信息数据库获得物种注释,然后使用物种对应的基因丰度综合计算该物种的丰度,并在域(domain)、界(kingdom)、门(phylum)、纲(class)、目(order)、科(family)、属(genus)、种(species)各个分类学水平上统计物种在各个样品中的丰度,从而构建相应分类学水平上的丰度谱;
4、(2)利用宏基因组可以同时检测上述生物标志物,将不同生物标志物的丰度分别带入腺瘤模型(p)和癌症模型(t),得到两个结果;
5、(3)结果判定:当p和t模型预测值均为1,将样本划分为极高风险;当t为1,p为0,将样本划分为高风险;当t为0,p为1,将样本划分为中风险;当t为0,p为0,将样本划分为低风险。
6、优选地,步骤(1)中,对基因集代表序列分别同nr库数据进行比对注释采用diamond软件进行。
7、优选地,步骤(2)中采用的模型为随机森林模型或逻辑回归模型。
8、本发明筛选了特定的粪便微生物分别作为用于结直肠癌和结直肠腺瘤早期诊断的生物标志物,所述结直肠癌的生物标志物组合物包括微小微单胞菌(parvimonasmicra)、人型戴阿利斯特杆菌(dialister hominis)、具核梭状杆菌(fusobacteriumnucleatum)、卟啉单胞菌(porphyromonas uenonis)、人型毛螺菌(lachnospira hominis)、多形拟杆菌对细枝真杆菌(eubacterium ramulus)、多雷氏拟杆菌(phocaeicola dorei)以及唾液乳杆菌(ligilactobacillus salivarius);所述结直肠腺瘤的生物标志物组合物包括萨特氏念珠菌(candidatus sutterella merdavium)、齿双岐杆菌(bifidobacteriumdentium)、人型梭杆菌(fusobacterium hominis)、摩氏摩根菌(morganella morganii)、艰难梭菌(clostridioides difficile)、长双歧杆菌(bifidobacterium longum)、经黏液真杆菌(blautia glucerasea)以及平氏消化杆菌(peptacetobacter hiranonis)。通过随机森林或逻辑回归等模型,用于结直肠癌和结直肠腺瘤的诊断并得出结果。
9、本发明的有益效果是:①本发明提供的生物标志物组合物能够用于早期诊断结直肠癌和结直肠腺瘤,具有经济实惠、操作简便等优点,适用于临床应用;②本发明利用基于高通量测序结果的特异性,对结直肠癌和结直肠腺瘤进行早期诊断,具有灵敏度高和特异性强等优点,能够避免肠镜侵入式检查导致的痛苦、不适及术后并发症,显著降低结直肠癌和结直肠腺瘤早期诊断的假阳性率,可以广泛用于结直肠癌和结直肠腺瘤的早期诊断。
1.一种结直肠癌和结直肠腺瘤的生物标志物组合物,其特征在于,所述结直肠癌的生物标志物组合物包括微小微单胞菌(parvimonas micra)、人型戴阿利斯特杆菌(dialisterhominis)、具核梭状杆菌(fusobacterium nucleatum)、卟啉单胞菌(porphyromonasuenonis)、人型毛螺菌(lachnospira hominis)、多形拟杆菌对细枝真杆菌(eubacteriumramulus)、多雷氏拟杆菌(phocaeicola dorei)以及唾液乳杆菌(ligilactobacillussalivarius);所述结直肠腺瘤的生物标志物组合物包括萨特氏念珠菌(candidatussutterella merdavium)、齿双岐杆菌(bifidobacterium dentium)、人型梭杆菌(fusobacterium hominis)、摩氏摩根菌(morganella morganii)、艰难梭菌(clostridioides difficile)、长双歧杆菌(bifidobacterium longum)、经黏液真杆菌(blautia glucerasea)以及平氏消化杆菌(peptacetobacter hiranonis)。
2.一种权利要求1所述的生物标志物组合物在制备用于结直肠癌和结直肠腺瘤的早期诊断的药物中的应用,包括:
3.根据权利要求2所述的应用,其特征在于,步骤(1)中,对基因集代表序列分别同nr库数据进行比对注释采用diamond软件进行。
4.根据权利要求2所述的应用,其特征在于,步骤(2)中采用的模型为随机森林模型或逻辑回归模型。