判断样本污染的方法、装置、电子设备和存储设备与流程

专利检索2025-04-13  4


本发明属于生物信息学领域,具体涉及一种基于常染色体二体与三体交叉次数判断样本污染的分析方法、装置、电子设备和计算机可读存储介质。


背景技术:

1、近年来,高通量测序(next-generation sequencing,ngs)已成为基因组学研究的重要工具,其高效性和准确性广受认可。然而,随着高通量测序技术的应用范围扩大,样本污染问题逐渐突显。样本污染可能来自外源dna或rna分子的交叉污染,导致测序结果的准确性和可靠性受到严重影响。

2、短串联重复序列str分析是目前常用的污染监测方法。str是由2-7个碱基对作为核心单位串联重复形成,个体之间存在重复次数的差异。因此,通过分析不同个体在这些高度多态的str区域上的重复次数差异,可以用于判断样本间的污染情况。str分析在产前诊断中通过待测样本与母血的位点进行对比排除母体污染。除此之外检测污染的方法还包括参考样本和分析样本纯合位点比例分析、样本内次要等位基因频率分析等。

3、常规的str方法,需要配对样本进行比较,因此需要额外采样。本发明基于常染色体二体、三体、以及污染样本之间存在的似然比图差异,建立了一种全新的低成本、低复杂度的检测污染的方法。


技术实现思路

1、本发明一种基于常染色体二体与三体交叉次数判断样本污染的分析方法、装置、电子设备和计算机可读存储介质,可以对样本实现低成本、低复杂度的污染检出,且可以兼容多种建库方式、兼容多种测序方式,以及兼容深度低的测序数据。

2、第一方面,本发明提供了一种用于检测样本污染的方法,包括:获取对待分析样本进行测序后取得的测序信息,所述测序信息包括所述待分析样本的过滤后的读长(reads);基于所述过滤后的读长,确定所述待分析样本的常染色体三体似然比值;基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数;根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染。

3、在一些可选的实施方式中,上述基于所述常染色体单体似然比值,确定所述待分析样本的常染色体倍性,包括:根据所述待分析样本中各个相邻窗口之间的常染色体单体似然比值的正负值关系,确定所述待分析样本的每条常染色体单体似然比值的均值:响应于每条常染色体窗口单体似然比值加和除以窗口数,若所述待分析样本的每条常染色体单体似然比值的均值>0,证明该染色体为单体,若均值<0,证明该染色体为二体,综合所有常染色体单体似然比值的均值,如所有染色体单体似然比值的均值均<0,则证明所述待分析样本为非单倍体,默认为二倍体。

4、在一些可选的实施方式中,上述基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数,包括:根据所述待分析样本中各个相邻窗口之间的常染色体三体似然比值的正负值关系,确定所述待分析样本的常染色体倍性差异片段交叉次数:响应于在前窗口的常染色体三体似然比值与在后窗口的常染色体三体似然比值的正负值相反,确定该待分析样本存在一次交叉。

5、在一些可选的实施方式中,在所述根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染之前,还包括:确定参考样本对应的常染色体倍性差异片段交叉次数标准数据,参考样本包括已知二倍体样本和已知三倍体样本,参考样本对应的常染色体倍性差异片段交叉次数标准数据包括所述参考样本对应的常染色体倍性差异片段交叉次数的均值和标准差。

6、在一些可选的实施方式中,根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染,包括:根据所述待分析样本的常染色体倍性差异片段交叉次数和所述参考样本对应的常染色体倍性差异片段交叉次数的均值和标准差,确定所述待分析样本对应的zscore值,其中,所述zscore值包括与二倍体常染色体上倍性差异片段交叉次数对应的z2score值和与三倍体常染色体上倍性差异片段交叉次数对应的z3score值;根据所述待分析样本对应的zscore值和/或所述待分析样本的常染色体倍性差异片段交叉次数,确定所述待分析样本是否存在污染。

7、在一些可选的实施方式中,上述根据所述待分析样本对应的zscore值和/或所述待分析样本的常染色体倍性差异片段交叉次数,确定所述待分析样本是否存在污染,进一步包括:响应于(1)所述z2score值大于第一预设阈值并且z3score值小于第二预设阈值,或(2)所述待分析样本的常染色体倍性差异片段交叉次数小于第三预设阈值并且所述待分析样本的所有常染色体均为三条不同的染色体,判定该待分析样本存在污染。

8、在一些可选的实施方式中,在所述获取对待分析样本进行测序后取得的测序信息之前,还包括:获取参考单体型数据集合,所述参考单体型数据集合包括染色体编号、snp位点的位置信息和/或snp位点的基因型信息。

9、在一些可选的实施方式中,所述基于所述过滤后的读长,分别确定所述待分析样本的常染色体三体似然比值,包括:根据预设碱基长度,确定所述待分析样本的常染色体基因组上的窗口(bin);对于各个窗口,根据所述参考单体型数据集合中的预设单体型变异snp的信息,确定该窗口内包含所述预设单体型变异snp的读长;根据所述各个包含所述预设单体型变异snp的读长在不同倍性假设下的等位基因概率的不同,响应于假设该读长对来自于不同条数的染色体,计算该读长对相应的等位基因频率,其中,若假设该读长对来自两条不同染色体,计算该读长对相应的等位基因频率p2,若假设该读长来自三条不同染色体,计算该读长对相应的等位基因频率p3;根据所述等位基因频率p2和所述等位基因频率p3,确定该窗口在所述不同倍性假设下的常染色体三体似然比值lr3。

10、在一些可选的实施方式中,上述基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数,包括:根据所述待分析样本中常染色体倍性差异片段的特征,对所述待分析样本的常染色体基因组上的窗口(bin)进行合并,得到所述待分析样本合并后的大窗口,所述大窗口包括对应一条相同染色体的大窗口、对应两条不同染色体的大窗口和/或对应三条不同染色体的大窗口,其中,所述特征包括该窗口为单体片段、该窗口为二体片段或该窗口为三体片段;根据所述待分析样本合并后的大窗口,确定所述待分析样本的常染色体倍性差异片段交叉次数。

11、在一些可选的实施方式中,上述确定所述待分析样本的常染色体三体似然比值之前,进一步包括:基于所述过滤后的读长,确定所述待分析样本的常染色体单体似然比值,并筛选得到非单体的待分析样本。

12、在一些可选的实施方式中,上述确定所述待分析样本的常染色体单体似然比值,并筛选得到非单体的待分析样本,包括:根据预设碱基长度,确定所述待分析样本的常染色体基因组上的窗口(bin);对于各个窗口,根据所述参考单体型数据集合中的预设单体型变异snp的信息,确定该窗口内包含所述预设单体型变异snp的读长;根据所述各个包含所述预设单体型变异snp的读长对在不同倍性假设下的等位基因概率的不同,响应于假设该读长或读长对来自于不同条数的染色体,计算该读长或读长对相应的等位基因频率,其中,若假设该读长对来自一条相同染色体,计算该读长对相应的等位基因频率p1,若假设该读长对来自两条不同染色体,计算该读长对相应的等位基因频率p2;根据所述等位基因频率p1和等位基因频率p2,确定该窗口在所述不同倍性假设下的常染色体单体似然比值lr1,若假设该读长对来自三条不同染色体,计算该读长对相应的等位基因频率p3;根据常染色体单体似然比值lr1,确定所述待分析样本为非单体。

13、第二方面,本发明提供了一种用于检测样本污染的装置,包括:获取模块,被配置成用于获取对待分析样本进行测序后取得的测序信息,所述测序信息包括所述待分析样本的过滤后的读长(reads);似然比值确定模块,被配置成基于所述过滤后的读长,分别确定所述待分析样本的常染色体三体似然比值;交叉次数确定模块,被配置成基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数;判定模块,被配置成用于根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染。

14、第三方面,本发明提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一方面的方法。

15、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如上述任一方面的方法。

16、本发明的方法具有以下有益效果:

17、1.高效判断样本污染:本方法利用常染色体倍性差异片段分布来判断样本是否存在污染。相较于传统的污染检测方法,本方法最大的有益之处在于,这种方法发明了一种全新的污染检测方法,无需依赖其他样本和手段即可准确提示污染,从而在经济和时间上具有显著优势。

18、2.兼容低测序数据:数据表明最低0.06x的数据即可实现污染检测。这意味着可以节省测序成本,在特定场景下预先通过低深度的测序数据即可判定样本是否存在污染,为是否继续进行高深度测序提供依据,实现对样本污染的低成本预判。

19、3.兼容多种建库方式:本方法并不要求特殊的建库方式,可以与常见的全基因组建库、简并基因组建库和捕获建库等建库方法兼容能够在多种实验流程中轻松应用。

20、4.兼容多种基因测序技术、通用性高:如芯片、高深度测序和简并基因组测序等。这使得该方法可以广泛应用于不同领域的基因研究和临床诊断中。

21、5.利用连锁不平衡提升准确性:本方法借助单体型参考数据库,利用连锁不平衡原理,进一步提升了低深度测序的准确性。这使得即使在测序深度较低的情况下,仍能够得到可靠的结果。


技术特征:

1.一种用于检测样本污染的方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数,包括:

3.根据权利要求1所述的方法,其中,在所述根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染之前,还包括:

4.根据权利要求3所述的方法,其中,所述根据所述待分析样本的常染色体倍性差异片段交叉次数确定所述待分析样本是否存在污染,包括:

5.根据权利要求3所述的方法,其中,所述根据所述待分析样本对应的zscore值和/或所述待分析样本的常染色体倍性差异片段交叉次数,确定所述待分析样本是否存在污染,进一步包括:

6.根据权利要求1所述的方法,其中,在所述获取对待分析样本进行测序后取得的测序信息之前,还包括:

7.根据权利要求1所述的方法,其中,所述基于所述过滤后的读长,确定所述待分析样本的常染色体三体似然比值,包括:

8.根据权利要求1所述的方法,其中,所述基于所述常染色体三体似然比值,确定所述待分析样本的常染色体倍性差异片段交叉次数,包括:

9.根据权利要求1所述的方法,其中,在所述确定所述待分析样本的常染色体三体似然比值之前,进一步包括:

10.根据权利要求9所述的方法,其中,所述确定所述待分析样本的常染色体单体似然比值,并筛选得到非单体的待分析样本,包括:

11.一种用于检测样本污染的装置,包括:

12.一种电子设备,包括:

13.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-10中任一项所述的方法。


技术总结
本发明提供了一种用于检测样本污染的方法、装置、电子设备和计算机可读存储介质,具体涉及基于待测样本的常染色体三体似然比值和常染色体单体似然比值,确定常染色体倍性差异片段交叉次数并进一步判断是否存在污染。本方法可以对样本实现低成本、低复杂度的污染检出,且可以兼容多种建库方式、兼容多种测序方式,以及兼容深度低的测序数据。

技术研发人员:孙蕾,仝微微,刘广建,费嘉,刘沙沙,王丹红,刘细平
受保护的技术使用者:北京中仪康卫医疗器械有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152397.html

最新回复(0)