本发明属于细胞聚类,具体属于一种基于自适应网络的单细胞聚类方法。
背景技术:
1、单细胞rna测序技术的快速发展带来了越来越多、越来越丰富的单细胞rna测序数据,为我们研究生物组织内各种细胞的类型、特点以及异质性奠定了强大的数据基础。单细胞聚类是基于单细胞rna测序数据研究的一个重要任务,在生物学的各个领域越来越重要。
2、目前,一种前沿的单细胞聚类方法是先根据单细胞测序数据构建单细胞网络,再通过网络结构对单细胞节点进行聚类。因此,单细胞网络的构建直接影响着此类方法的聚类效果。然而,所有的此类方法均是采用k紧邻构建单细胞网络,使得后续的聚类步骤困难重重,导致复杂的聚类过程和不理想的聚类结果。
3、本发明通过挖掘单细胞数据本身的特性,自适应地构建单细胞网络,以优化单细胞聚类的结果。现有的技术方案由于直接采用k紧邻构建单细胞网络而存在如下问题:
4、单细胞类别结构不明显,不同类之间界限模糊,使得后续的聚类过程复杂且聚类结果不理想
5、cn113611368b,一种基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备。其中,所述方法包括:对每个细胞进行数据预处理,和将该经对数据预处理后的每个细胞的基因表达数据都使用2d嵌入的方式,生成一张张合成图像形成图像集,和将该图像集输入到自编码器模型中进行预训练和聚类,和基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,以及采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类。通过上述方式,能够实现提高在单细胞数据上进行聚类时的聚类效果。
6、cn113611368b的步骤如下:
7、1)删除无作用基因,保留高变基因;
8、2)通过谱聚类获得高变基因的向量表示;
9、3)按照一种统一顺序排列高变基因的向量表示得到一个合成图像,至此,一个单细胞被表征为一个k*d的合成图像,其中k表示高变基因个数,d表示一个高变基因的向量表示维度。
10、4)通过自编码器模型对已表征为合成图的单细胞进行聚类,并根据聚类结果构建网络。此步骤中的聚类会进行多次(说明中指定是20次),得到20个聚类结果。然后统计每对单细胞被聚为同类的次数,根据次数是否超过阈值决定是否在每对单细胞之间添加一条边。
11、5)在构建的网络上进行社区发现,得到另一个单细胞聚类结果。然后运用这个聚类结果训练一个神经网络,对每个单细胞(表征为一个二维合成图)进行特征提取,得到每个单细胞的特征表示(一个向量)。最终的聚类结果则是通过表征这些单细胞的向量上进行聚类得到的。
12、通过对比可知:1)对比的专利中的单细胞网络构建方法过于复杂且冗余。因为其需要先得到一个单细胞的2d合成图,然后通过自编码器进行多次的初聚类,最后通过多次聚类结果的统计结果判断两个单细胞属于同一类的程度。如果两个单细胞多次被聚类为同一类,则在它们之间添加一条边。
13、2)对比的专利中的单细胞网络构建方法需要一个指定参数。因为只有当两个单细胞被自编码器划分为同一类的次数达到某个阈值时,它们之间才会有一条边。
14、3)对比的专利中的单细胞网络构建步骤是为了得到中间聚类结果(第二次聚类),这个中间聚类结果接种用于指导训练神经网络对单细胞进行特征提取,进而得到最终的单细胞向量表示。而本专利中的单细胞网络是为最终聚类而构建的,目的不一样。
15、综上所述,本专利的单细胞网络构建步骤是根据单细胞之间的相似性分布确定单细胞的邻居节点的,是自适应且无参的。本专利的基于自适应网络的单细胞聚类方法相较cn113611368b步骤更简单,且通用性更强(除了自适应构建单细胞网络步骤外,其他步骤都不做限定)。
技术实现思路
1、本发明旨在解决以上现有技术的问题。提出了一种基于自适应网络的单细胞聚类方法。本发明的技术方案如下:
2、一种基于自适应网络的单细胞聚类方法,其包括以下步骤:
3、获取单细胞rna测序数据,并进行包括剔除对聚类无作用的基因在内的预处理;
4、采用降维方法对预处理后的数据进行降维;
5、采用降维后的单细胞数据构建单细胞网络,包括:计算相似性矩阵、自适应确定邻居、构建单细胞网络;
6、通过构建的单细胞网络的拓扑结构进行单细胞节点聚类,得到聚类结果。
7、进一步的,所述进行包括剔除对聚类无作用的基因在内的预处理,具体包括:
8、所述剔除对聚类无作用的基因即选取高变基因:过程如下:1)计算d中每一列的方差;2)按照方差从大到小的顺序对基因进行排序;3)取排在前面的p个基因为高变基因,p为千级,由此得到筛选高变基因后的数据集,记作dp。进一步的,所述降维方法包括:主成分分析法pca、t-随机邻近嵌入法,多维缩放法mds或自编码器ae。
9、进一步的,所述计算相似性矩阵具体包括:针对每个单细胞,计算它和其他所有单细胞的相似性,得到相似性矩阵s;其中s(i,j)表示第i个单细胞与第j个单细胞的相似性,s(i,*)表示相似性矩阵s的第i行,包含了第个i个单细胞与其他所有细胞的相似性;s(i,i)=0;具体地,采用余弦相似度度量第i个单细胞和第j个单细胞的相似性sim(i,j),即:
10、
11、第i个单细胞就对应d中的第i行,即:d(i,*);第j个基因就对应d中的第j列,即:d(*,j),第i个单细胞在基因j上的值就为d(i,j)。
12、进一步的,所述自适应确定邻居的步骤具体包括:针对每一个单细胞i,根据它与其他单细胞之间的相似性分布自适应地确定邻居:
13、a)构建序列seqi;seqi(j)为一个二元组(s(i,j),j),即seqi中的第j个元素为第i个单细胞与第j个单细胞的相似性和j组成的二元组;
14、b)排序序列seqi;按照s(i,j)从大到小的顺序对seqi进行排序;
15、c)构建二阶差分序列d_seqi;d_seqi的第j个元素为序列seqi的二阶差分,即:
16、d_seqi(j)=[seqi(j+1).first-seqi(j).first]-[seqi(j).first-
17、seqi(j-1).first],j=2,3,…,n (2)
18、,其中seqi(j).first为二元组seqi(j)的第一项;
19、d)确定邻居;从j=2开始扫描d_seqi,当seqi(j).first<avg_d时停止扫描,avg_d是第i细胞与其他n-1个单细胞之间的相似性的平均值,得到最小的d_seqi(kx),将seqi序列中前kx个元素的第二项取出,组成第i个细胞的邻居,记作n(i)。
20、进一步的,所述构建单细胞网络具体包括:首先令每一个单细胞为一个节点,称作单细胞节点;然后在每个单细胞节点i与其邻居单细胞集合n(i)中的所有单细胞节点之间添加一条边。
21、进一步的,所述根据单细胞网络的拓扑结构进行单细胞聚类可以采用最大化图模块度的leiden算法、标签传播算法lpa、基于最小编码长度和随机游走的infomap算法、谱聚类在内的社区发现算法完成;或者采用基于网络嵌入技术得到节点的向量表示,然后采用如kmeans的传统聚类算法完成;
22、一种电子设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于自适应网络的单细胞聚类方法。
23、一种非暂态计算机可读存储介质,其上存储有计算机程序,其所述计算机程序被处理器执行时实现如任一项所述基于自适应网络的单细胞聚类方法。
24、一种计算机程序产品,包括计算机程序,其所述计算机程序被处理器执行时实现如任一项所述基于自适应网络的单细胞聚类方法。
25、本发明的优点及有益效果如下:
26、本发明提出的基于自适应网络的单细胞聚类方法并不限于某一种网络节点聚类算法,其提供的思路在每一种采用网络表征单细胞数据的单细胞聚类方法中都可以得到运用。
27、本技术提案能构建出更符合数据本身分布特性的单细胞网络,使得后续的节点聚类步骤更易进行,从而降低聚类的复杂度并提高单细胞聚类的效果。
28、本发明的创新点是步骤3(即:自适应地构建单细胞网络)。对应的效果:根据实验结果,采用步骤3所述的方法构建的单细胞网络使得单细胞类别结构更显现,从而使得最后的聚类结果更优秀。其巧妙之处:不需要人为指定每个单细胞的最近邻个数,不需要多次尝试最佳的最近邻个数,通过单细胞之间的相似性分布自适应地确定最近邻个数。
1.一种基于自适应网络的单细胞聚类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于自适应网络的单细胞聚类方法,其特征在于,
3.根据权利要求1所述的基于自适应网络的单细胞聚类方法,其特征在于,所述降维方法包括:主成分分析法pca、t-随机邻近嵌入法,多维缩放法mds或自编码器ae。
4.根据权利要求1所述的基于自适应网络的单细胞聚类方法,其特征在于,所述计算相似性矩阵具体包括:针对每个单细胞,计算它和其他所有单细胞的相似性,得到相似性矩阵s;其中s(i,j)表示第i个单细胞与第j个单细胞的相似性,s(i,*)表示相似性矩阵s的第i行,包含了第个i个单细胞与其他所有细胞的相似性;s(i,i)=0;具体地,采用余弦相似度度量第i个单细胞和第j个单细胞的相似性sim(i,j),即:
5.根据权利要求4所述的基于自适应网络的单细胞聚类方法,其特征在于,所述自适应确定邻居的步骤具体包括:针对每一个单细胞i,根据它与其他单细胞之间的相似性分布自适应地确定邻居:
6.根据权利要求5所述的基于自适应网络的单细胞聚类方法,其特征在于,所述构建单细胞网络具体包括:首先令每一个单细胞为一个节点,称作单细胞节点;然后在每个单细胞节点i与其邻居单细胞集合n(i)中的所有单细胞节点之间添加一条边。
7.根据权利要求1所述的基于自适应网络的单细胞聚类方法,其特征在于,所述根据单细胞网络的拓扑结构进行单细胞聚类可以采用最大化图模块度的leiden算法、标签传播算法lpa、基于最小编码长度和随机游走的infomap算法、谱聚类在内的社区发现算法完成;或者采用基于网络嵌入技术得到节点的向量表示,然后采用如kmeans的传统聚类算法完成。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于自适应网络的单细胞聚类方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于自适应网络的单细胞聚类方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于自适应网络的单细胞聚类方法。