准备用于分析物鉴定的数据的方法和装置与流程

专利检索2025-01-19  24


本发明涉及用于准备分析物鉴定的数据的方法和装置。


背景技术:

1、ep2992115b1公开一种通过在几轮染色中用标记物染色待鉴定核酸序列来鉴定核酸序列的方法。标记物由寡核苷酸和与其偶联的染料组成,染料通常是荧光染料。寡核苷酸对待鉴定核酸序列的特定部分有特异性。但标记物的若干寡核苷酸对各自核酸序列并非明确无疑。但是,由于有多轮染色而有可能进行核酸序列的明确无疑的确定,因为在多轮染色之后可以给多个不同标记物分配某个寡核苷酸,并且所属多个标记物于是对于各自核酸序列是明确无疑的。

2、利用这种方法,可以在体外例如在细胞中借助荧光显微镜检测不同的核酸序列。核酸序列可以是rna、特别是mrna或trna。核酸序列也可以是dna的一部分。

3、许多核酸序列通常位于样本内,所述核酸序列可利用上述染色轮被并行鉴定,即便它在此情况下应该是不同的核酸序列。样本内的核酸序列越多,在各自染色轮中待检测的标记物数量越大。在自动采集并评估相应颜色信息的情况下,必须获取样本内所有标记物的颜色信息并也与样本内的未由标记物引起的颜色信息区分开。

4、从wo2020/254519a1和wo2021/255244a1中得到另一种分析物鉴定方法。分析物可以是蛋白质或核酸序列。在该方法中,首先将对各自分析物有特异性探针偶联至分析物。探针含有不与分析物杂交的寡核苷酸残基。解码寡核苷酸在这些游离残基上杂交,解码寡核苷酸相对于游离残基突出。在突出部处,标记物分子与染料杂交。在该方法中也在多轮染色中在相应分析物上产生一系列颜色信息,它们给出关于各自存在的分析物的推断。

5、实践表明,用于描述多轮染料的颜色信息的数据量可以是几tb。处理这种大量数据需要相应大的存储器需求。由此造成的购置和维护成本相应高。ssd硬盘优选用作数据存储器,其一方面适于存储如此大量的数据,另一方面允许快速访问数据。但是,ssd硬盘只允许有限次数的写周期。在这种大量数据的情况下很快就会达到该极限,由此会导致系统故障。

6、此外,对如此大量数据做评估需要相当大的计算支出和相应大量的时间要求。这限制了样本流通量。


技术实现思路

1、本发明基于以下任务,提供通过在多轮染色中用标记物对一种或多种分析物染色准备用于鉴定核酸序列的数据的方法和装置,所述方法和装置可以高效且低成本地执行且允许大的样本流通量。

2、根据本发明的第一方面(方面a),规定一种准备用于通过在多轮染轮中用标记物染色一种或多种分析物来鉴定分析物的数据的方法,其中该标记物均对一定量的分析物有特异性。用相机检测标记,相机对每轮染色生成至少一个有多个像点的图像,图像包括染色信号和未染色信号,其中染色信号是具有标记物颜色信息的像点,未染色信号是具有未基于标记物颜色信号的像点。各自染色轮的图像被存储用于颜色信息评估,其中每个数据点包括多轮染色的图像中的一个或多个连续像点,它们配属于一个样本内的相同位点。

3、该方法的特点是,依据至少当前图像的颜色信息来评估每个数据点其是否可能是候选数据点,即它是否包含染色信号且因此可编码分析物,并在存储颜色信息时消除依据评估肯定并非候选数据点的图像数据点的颜色信息。

4、由此在存储颜色信息时消除不包含标记无颜色信息的图像像点的颜色信息,并且没有消除的颜色信息地存储该图像。由于在没有消除的颜色信息情况下存储图像,待存储数据量明显减少。这种颜色信息数据量的减少允许容易且快速地处理颜色信息。与传统方法相比,存储装置容量可以较小,并且存储装置上的写周期次数相应减少。由此允许高效、简单且快速地处理颜色信息。

5、数据点包括表示样本特定位点的不同图像的所有像点的集合。因此,编码分析物的数据点可以包含染色信号和未染色信号。

6、根据本发明,可以针对多个相邻像点汇总颜色信息。汇总的颜色信息于是形成从多个像点中汇总的数据点的颜色信息。通常,相邻像点例如2x2、4x4或6x6像点在这里被汇总。如果在实验中分别拍摄图像叠(也称为z图像),则也可以汇总2x2x2、4x4x4或6x6x6像点。

7、该方法可以在体外例如借助具有用于自动生成样本图像的相机的显微镜依据位于样本玻璃片上的细胞样本进行。样本可以例如是包含一个或多个细胞的细胞样本。

8、可依据所有迄今染色轮的颜色信息和/或迄今染色轮的子集和/或相邻数据点的颜色信息来评估每个数据点其是否是候选数据点。

9、在消除颜色信息时可以完全去除不含相关颜色信息的像点。但也可能的是,不含相关颜色信息的像点被设定至预定色值例如“0”。由于具有不相关颜色信息的像点通常形成图像中的连贯区域,故它们可被很有效地存储,其中在这种区域中总共只分配一次一个预定色值。如果相邻数据点的颜色信息被评估数据点是否是候选数据点,则数据点只在因为所有数据点都被评估而相邻数据点评估不再需要它时才被评估为不含相关颜色信息。

10、图像可以包括具有多个作为像点的像素的二维图像。图像还可以包含具有多个作为像点的体素的三维图像,其中图像作为附加维度可以包括时间信息。时间信息不仅可以用于指明何时拍摄单独图像的时刻,还可用于表示具有多个连拍图像的时序,其中时间信息包括这些图像的时刻。三维图像也被称为图像叠或z图像,其包括多个二维图像平面。

11、数据点可以用机器学习系统的处理模型来评估。

12、处理模型可能已用标注的数据组训练过,其作为输入包括一个或多个数据点的颜色信息序列以及作为目标输出包括各自序列是否源自候选数据点或背景数据点的分类。这中目标输出可以例如包括图像,在该图像中标注呈现其中一个标记物的颜色信息的区域和/或标注不包含标记物颜色信息的区域。一个或多个数据点的颜色信息序列也可以作为显微镜图像序列来输入。这种处理模型的训练称为监督学习。

13、在现有技术中,尤其分析很亮的数据点的色值以用于分析物解码,因为可依据阈值很好识别这些色值。发明人已经认识到,编码分析物的数据点、即候选数据点的输入序列均具有在各自输入序列的染色信号和/或未染色信号的色值之间的至少一定比例,由此对候选数据点的输入序列得到表征标记,包括染色信号和/或未染色信号的色值的至少一定比例。依据该一定比例,可以识别输入序列中的染色信号和未染色信号,进而也可以确定信号序列中的染色信号数量。依据一定比例或依据表征标记,处理模型可被训练用于鉴别染色信号和未染色信号,进而依据输入的色值序列来鉴别候选数据点。

14、特定关系可以是色值之间的特定距离、色值之间的商、其色值比其它色值更高的特定数量的色值,其中该比例可分别针对归一化的色值或未归一化的色值被知晓。就分析而言,表征标记是很难限定的,其对于各不同分析物类型可能是不同的,但事实表明,处理模型如神经网络能利用充分训练很好地鉴定表征标记或特定关系。

15、优选地,可以在鉴定分析物后的一个新实验之后依据压缩图像生成另一标注的数据组,压缩图像在没有编码分析物的数据点的颜色信息下被存储,其中为了选择未编码分析物的数据点而一并存储颜色信息,并且在另一标注的数据组中作为背景数据点使用未编码分析物的数据点的颜色信息,且处理模型将用另一标注的数据组来训练。

16、优选地,未编码分析物的数据点的选择优选尽可能包括在新实验中仅在该实验的尽量晚的染色轮中被鉴别为背景数据点的数据点。

17、由于在新实验中总是一并存储背景数据点的选择且接着用其它的标注数据再次训练处理模型,故可以更好地训练处理模型来鉴别候选数据点。由于将背景数据点包括在其它标注的数据组中,故它们只在后期染色轮中被鉴别为背景数据点,可进一步改善对难鉴别的背景数据点的鉴别。

18、优选地,在新实验之后的分析物鉴定还包括鉴别已被错误鉴别为候选数据点的背景数据点,其中被错误鉴别为候选数据点的背景数据点也被一并纳入其它标注的数据组中。

19、通过将被错误鉴别为候选数据点的背景数据点纳入其它标注的数据组中,可以进一步改善背景数据点的鉴别。

20、以二进制方式将包含候选像点的图像区域分类为阳性例和/或将包含背景像点的图像区域分类为阴性例的处理模型可以是分类模型。

21、处理模型也可以是语义分割模型,借此语义分割候选数据点和/或背景数据点。

22、此外,处理模型可以是图像至图像模型,其尤其被训练以输出热图,利用该热图来输出候选数据点和/或背景数据点的概率或密度。

23、处理模型可以被训练和设计成评估所有染色轮。但多个模型也可以针对每个染色轮被单独地或针对染色轮组来训练和设计。

24、处理模型可以是被训练用于检测候选数据点的检测模型,其中尤其输出候选数据点坐标的名单。

25、优选如此训练用于检测候选数据点的伸展范围的检测模型,即,所输出的名单除了包括候选数据点坐标外还包括各自候选数据点的伸展范围。

26、当样本同时用多种不同的染料被染色时,包括多个针对成组染色轮被训练的这种子模型的处理模型可能是合适的。所有标记无颜色信息然后在一个颜色图像中可同时存在。这种颜色图像因此同时包含多轮染色的信息。这种颜色图像于是就光谱而言被分解成图像,每个所述图像仅呈现一个包括各自染料颜色的光谱范围。这被称为颜色信道。但如果将包括多个这种颜色信道的颜色图像作为输入数据提供给处理模型,则处理模型应被如此训练,即,由各自颜色信道代表的多轮染色可被处理。

27、但通常这样的颜色图像被分解成用于各自颜色信道的多个单独图像。所述图像是单色图像,其包含由各自颜色信道的颜色强度值产生的颜色信息。

28、因此,术语强度值或同义词强度在以下被理解为借此呈现用于预定颜色信道的一定颜色的像点强度,或者借此呈现一个颜色图像的颜色空间的不同基色的强度。

29、呈现数据点颜色信息的区域可以包括一个单独像点和/或多个连续像点。具有多个连续像点的区域在一个维度上优选延伸超过不到10个像点。优选地,这种在一个维度上有多个像点的区域延伸超过不到7个像点或不到5个像点。换言之,由一个单独像点或多个连续像点表示的这种区域分别被分配标记物可与之偶联的一个分析物类型。

30、当在其中一轮染色后存储颜色信息时不考虑在前一轮染色后已被消除的数据点。可以对处理模型训练在先前染色轮中已被消除的数据点的消除。对此,在训练处理模型时使用标注的数据组,其也包括在先前染色轮中所消除的数据点,其中这些数据点被相应标注。在前一轮染色后已被消除的数据点的消除也可被相应地硬编码,从而将各自采集图像提供给处理模型以清理这些区域。

31、某些像点的颜色信息也可被消除,其中其色值虽然可依据其强度和/或其表征标记被评定为标记物色值,但每个所述像点的色值在几轮染色后无法分配给分析物,因为各自数据点的色值序列不能对应于分析物的任何可能色值样式。在这种情况下可以利用如下事实,利用这种用多种标记物鉴定分析物的方法,实际上只能出现可用所述标记无生成的所有潜在可能样式中的相对较小的样式子集。理论上可能但实践中不会出现的样式因为不存在其产生这种色值样式的分析物而可能被判断为不相关,并且相应色值可被消除。

32、像点的这种色值序列的检查可以用计分模型实施,其中具有表征标记的像点被评定为潜在标记物,并且潜在标记物的色值序列被检查其是否能对应于分析物的可能图案。

33、还可以作为输入数据给处理模型提供上下文信息。

34、上下文信息可以描述样本和/或实验和/或预期分析物的其它特性并且尤其包括样本染色参数和/或样本所含分析物的预期分析物数量或预期占比。

35、依据上下文信息可以调整数据点评估的灵敏度和/或自动从一组处理模型中选择一个处理模型。

36、上下文信息可以在先通过分割来获得。它们例如分为细胞区和未分配有细胞的区域。

37、用以评估数据点是否可能是候选数据点的处理模型的灵敏度可以针对不同染色轮被训练。

38、在第一染色轮的情况下,优选采用比晚些染色轮中更高的灵敏度。高灵敏度相比于低灵敏度意味着许多数据点被评估为候选数据点。

39、可以如此选择染色轮顺序,即,被测标记物或候选数据点的数量在早期轮次中被最大化。因为每个标记物对所有可测分析物的子集有特异性,故合适的是在第一轮染色中采用如下标记物,其对此有特异性的可测分析物的子集的差异尽量少。最好如此选择染色轮,所有的或几乎素有的可测分析物在前五轮、优选在前四轮或前三轮染色中被标记。

40、也可以将特殊标记物用于第一轮染色,其具有很高的特异性,即,其子集尽量大且或许甚至包含所有潜在可测分析物。

41、分析物可以是核苷酸序列。

42、标记物可以分别具有寡核苷酸序列和与之偶联的染料分子,寡核苷酸序列对核苷酸序列的一部分有特异性。染料分子优选是荧光染料分子。

43、根据一个优选实施方式,标记物或第一轮染色或第一和/或第二轮染色的标记物可以具有比随后染色轮中更短的寡核苷酸序列。具有较短寡核苷酸序列的标记物无特异性。第一轮或第一和第二轮染色的标记物的寡核苷酸优选包括不大于10的核苷酸,尤其是不大于8的核苷酸且尤其不大于5的核苷酸。

44、标记物的寡核苷酸序列越短,标记物特异性越差。这导致标记物偶联至许多不同的核苷酸序列。在一轮染色、尤其是第一轮染色或第一和第二轮染色期间,也可以采用多种不同的标记物、尤其是多种具有短寡核苷酸序列的标记物(例如不大于10个或不大于8个或不大于5个的寡核苷酸序列),它们的区别在于其寡核苷酸序列。

45、通过使用一个或多个如此非特异性的标记物,已经在第一轮染色或至少第一轮和的第二轮染色中用一种标记物标记所有或几乎所有的核苷酸序列,由此已经在第一轮染色或最迟第二轮染色之后知道所有或几乎所有的核苷酸序列,并且在随后的染色轮中仅还关注或评估如下的像点颜色信息,其分别对应配属于一个核苷酸序列。由此能用唯一一轮染色或仅用两轮染色就鉴别图像的所有相关区域,使得在随后的染色轮中仅还研究所述相关区域。进一步的染色轮也可以采用不同类型的标记物或标记物体系,例如这种由wo2020/254519a1和wo2021/255244a1公开的标记物或标记物体系。

46、图像可以按照以下格式来存储:

47、-未编码分析物的背景数据点被设定到一定值尤其是0,其中其像点配属有相同值的图像区域在存储时被压缩(以下:png格式),

48、-二进制阵列,其中在一个阵列内借助仅一位(bit)来存储它是否是候选数据点或背景数据点,其中可存储一个附加名单,在附加名单内连续存放候选数据点的所有色值,其中借助标引来产生该阵列的候选数据点与该名单的色值的对应配属,

49、-疏占矩阵(schwach besetzte matrix)(稀疏矩阵),其包括具有所有候选数据点的坐标和色值和可选其伸展范围的名单。

50、不同染色轮的图像能以不同格式来存储,其中第一轮染色的图像尤其以png格式来存储,晚些的染色轮的图像作为疏占矩阵或二进制阵列来存储。

51、分析物可以依据所确定的压缩存储颜色信息来鉴定。

52、一种具有用于执行上述方法的处理模型的机器学习系统可以用以下方法步骤来训练:

53、-提供标注的数据组,和

54、-通过调整处理模型的模型参数来优化目标函数,其中目标函数获得由处理模型输出的结果输出与目标输出之差。

55、该训练方法的特点可以是:标注的数据组包括候选数据点的至少一个理论信号序列和背景数据点的一个理论信号序列,且该处理模型作为输入处理标注的数据组的理论信号序列中的部分信号序列,并且依据处理模块输出将对应于各自理论信号序列的数据点评估为背景数据点或候选数据点。

56、根据本发明的第二方面(方面b),规定一种准备用于鉴定样本内分析物的数据的方法,在此在实验中在多轮染色中用标记物染色一种或多种分析物,其中标记物分别对一定量的分析物有特异性。所述多个标记物由相机检测,相机为每轮染色生成具有多个像点及其相关色值的至少一个图像,其中该图像包括染色信号和未染色信号。染色信号是具有源自标记物的色值的像点,未染色信号是具有未基于标记物的色值的像点。各自染色轮的颜色信息被存储以用于评估颜色信息,其中每个数据点包括多轮染色的图像中的一个或多个连续像点,它们被分配给一个样本内的相同位点。

57、该方法的特点在于,对于多个样本图像的每个数据点来评估各自色值其是否分别是染色信号并相应地编码分析物,并且对于每个数据点选择不同染色轮的n个色值,它们最有可能表示染色信号,其中n是小于一次实验的染色轮总数的整数。在存储颜色信息时,未选色值被消除。

58、通过省掉未选色值,颜色信息的数据量被显著减少。颜色信息数据量的减少允许容易且快速地处理颜色信息。与传统方法相比,存储装置容量可以更低并且存储装置上的写周期次数被相应减少。由此可以实现高效、简单和快速的颜色信息处理。

59、在所述方法中,图像尤其仅以所选色值被存储。除了所选色值外也可以如以下所详述地存储附加信息,但省去不必要的颜色信息,由此用于分析物鉴定的图像的评估质量未削弱,但数据量显著减少。n个色值的选择可以用机器学习系统的计分模型执行。对计分模型训练据此评估色值是否是染色信号的标准。

60、在该方法中,可以在每轮染色之后评估数据点,并且存储在当前染色轮中记录下的颜色信息,其中作为对数据点的输入,不仅将计分模型已在紧接在前的染色轮之后所输出的最多n个色值、还有将在染色轮中所记录下的数据点色值输入计分模型中,并且计分模型基于该输入输出n个色值,其中挑选出最不可能是染色信号的信号。在该方法的这个设计中,所有在在先染色轮中所获得的相关色值作为输入数据被提供给计分模型。尤其在第一轮之后,在由计分模型迄今所选的一组色值中也可包含未反映标记物的色值。即便在这里应该有多个未基于一种标记物的色值,也仅挑选出一个色值,确切说是如下色值,其最不可能被分配给一种标记物。在第一轮染色之后,每个数据点也有少于n个的色值。不存在的色值可以通过占位符(例如0)来填充并且于是也是在最先轮次之后被挑拣出的第一个。在每轮之后,最不可能分配给一种标记物的色值被挑拣,故最终仅留下用以编码分析物的n个色值。

61、在该方法的一个替代设计中,在每轮染色之后评估数据点并且才拿出在当前染色轮中所拍摄的图像,其中只给计分模型输入当前拍摄的图像的颜色信息。

62、如果计分模型被设计成cnn(卷积神经网络)或mlp(多层感知器),则除了当前染色轮的颜色信息外还给计分模型输入在先染色轮的输出(所选色值和评估)。而在顺序模型(如递归神经网络rnn)的情况下只输入当前染色轮的颜色信息就够了。

63、计分模型可以用标注的数据组训练过,其作为输入数据包含显微镜图像或像点色值和对应的目标输出,目标输出分别限定色值是否是染色信号和/或未染色信号。

64、标注的数据组可以用如下方法来创建,在此,多轮染色的图像连同其色值被未压缩地存储且随后被评估,其中在针对每轮染色训练时作为对数据点的输入可以输入可按照预定标准表示染色信号的最多n个色值以及在各自染色轮中获得的数据点色值到处理模型中。要计算一种目标函数,其中目标函数获知由处理模型输出的最有可能是染色信号的n个色值与根据标注的数据组要选择的根据评估在标注的数据值中最有可能是染色信号的n个色值之间的差异。目标函数通过调整该模型参数被优化。

65、标注的数据组原则上可以借助以下步骤中的一个或多个来生成:

66、-使用显微镜的代表性背景图像和已知的点扩展函数来模拟各不同标记物的信号,

67、-借助以相似数据结果训练的生成模型来产生标注的数据组,

68、-拍摄参考图像,包括至少一个背景图像以及对于每个背景图像针对每种分析物包括至少一个各自分析物类型的分析物在此被标记的图像(24),

69、-执行用于空间鉴定分析物的常见方法,

70、-拍摄代表性背景图像并且逐像素地从标注的数据组所基于的图像序列的图像信号中抽取代表性背景图像的图像信号,随后提供标注的数据组,从而标注的数据组仅包含背景修正的信号序列,和/或

71、-依据实验的一部分获得标注的数据组,从而经过训练的计分模型可以被用在实验的其余部分上。

72、根据上述步骤之一可生成标注的数据组适用于本发明的所有方面。

73、用于选择n个色值的数据点可以按照预定标准来评估其是否是染色信号,其中该标准考虑数据点的强度、颜色和/或伸展范围。这种选择也可以通过分析(=硬编码)进行或者是与机器学习系统的组合。

74、用于选择n个色值的标准可以包括用于最小和/或最大强度的阈值,其中该阈值是静态设定的或可动态确定,和/或仅阈值可以针对最小和/或最大强度依据色值颜色改变,和/或所述选择可通过距强度、颜色和/或伸展范围的预定目标值的最小距离来进行。该标准不仅可被用于分析评估色值,也可被用于产生标注的数据组,其中可用该标准来确定标注的数据组的目标输出。

75、除了所选色值外,也可以存储附加信息。附加信息例如可以是关于各自数据点的所有色值的统计信息和/或关于其中一个数据点的未选色值的统计信息和/或关于其中一个数据点的所选色值的统计信息。附加信息可以是关于染色轮的信息(染色轮编号、染色轮时刻等)和/或有效统计值且尤其是各自数据点的颜色信息的或多个数据点的颜色信息的特性的平均值、标准偏差和/或中值。颜色信息特性尤其包括数据点的强度、颜色和/或伸展范围。统计附加信息能以少量数据来展示兵因此对总数据量贡献不大。它们尤其是与未选数据相关,因为关于未选数据的一些信息像过去一样存在,即便当未选数据总体上不再有时。

76、如果其中一种分析物在m轮染色中用i个标记物来染色,则针对每个数据点所选的色值的数量n等于i或是i+a,其中i+a小于m轮染色的总数。优选地,a是在0和3之间的整数。a优选依据语义被自动确定。依据图像内已知组织(胞核、细胞类器官、细胞、细胞边缘、细胞间隙、背景),参数a可以在相应区域内被特别调整。

77、在常规实验中常见的是,不同的分析物分别用相同数量n的色值被编码。但实验也可以被如下改变,用以编码不同分析物的色值的数量改变。在此情况下,n是设置用于编码其中一种分析物的色值的最大数量。

78、该图像可以是具有多个作为像点的像素的二维图像或具有多个作为像点的体素的三维图像。图像可以作为附加维度包含时间信息。时间信息不仅可用于说明何时拍摄单独图像的时刻,也用于表明具有多个接连图像的时序,其中时间信息反映这些图像的时刻。

79、优选地,所选色值的数量n不大于一次试验的染色轮总数的一半且尤其是不大于其三分之一。n可以例如不大于10,尤其是不大于8或不大于5。

80、分析物的鉴定可以依据所选的存储色值进行。

81、计分模型可以是cnn(卷积神经网络)、mlp(多层感知器)、变换器、扩散模型或顺序模型。

82、颜色信息能按以下格式之一来存储:

83、-对于所述数据点,仅所选色值连带和不带附加信息地被存储。

84、-对于所述数据点,仅所选色值分别与标引连带或不带附加信息地被存储,标引指明各自色值源自哪轮染色。

85、-采集图像被存储,其中未选色值被设定到例如为0的预定满值。

86、分析物可以依据所选的存储色值来鉴定。

87、在分析物鉴定之后和必要时在人工校正之后,可以产生相应扩展的标注的数据组,处理模型用扩展的标注的数据组被训练。在此情况下,尤其是考虑阳性例(基于标记物的像点)。但也可能有利的是在创建标注的数据组时一并考虑阴性例(未基于标记物的像点)。

88、在准备用于分析物鉴定的数据之前还可以进行执行色值背景修正的步骤。背景修正的执行包括以下一个或多个:

89、-滚球法,

90、-过滤例如像礼帽法、同态过滤、低通过滤,其中从信号中抽取低通过滤结果,或者时间过滤,

91、-借助图像至图像模型的背景修正,

92、-借助混合模型的背景修正,

93、-借助平均偏移方法的背景修正,

94、-借助主分量分析的背景修正,

95、-借助非负矩阵因式分解的背景修正,

96、-借助利用至少一个特异于图像序列所有图像区的激光的自体荧光激发的背景修正,其中,特异激光正好对应于所用标记物的激发光谱区且分析物还未用标记物被标记,或者

97、-借助利用非特异于图像序列所有图像区的激光的自体荧光激发的背景修正。

98、由于该方法包括背景修正,故可以独立于背景地看待色值,因而更好地与背景分离。由此模型训练和推理时的计算支出都减少,因为不再考虑或不必一并知晓背景贡献。

99、通过进行基于利用特异激光的拍照的背景修正,其中分析物尚未用标记物来标记,所拍摄的背景图像应与染色轮中所拍摄的图像背景很好地一致,故背景修正应显得很准确。

100、可以作为输入数据将附加的上下文信息提供给计分模型,其描述样本和/或实验和/或预期分析物的其它特性。上下文信息尤其可包括样本染色参数和/或样本所含分析物的预期数量或期望占比。

101、这种类型的上下文信息也可被用于从许多不同的经过预训练的计分模型中选择一个合适的计分模型。

102、上下文信息可分割获得且尤其细分为细胞区和未分配有细胞的区域。

103、根据本发明的第三方面(方面c),规定一种通过在多轮染色中用标记物染色一种或多种分析物准备分析物鉴定用数据的方法,其中标记物分别对一定量的分析物有特异性。用相机检测多个标记无,相机为每轮染料生成至少一个有多个像点的图像及其所属的色值,该图像可包含一个或多个标记物的颜色信息。各自染色轮的颜色信息被存储以用于其评估。数据点包括在多轮染色的图像中的一个或多个连续像点,它们被分配给样本内的同一位点。

104、该方法的特点在于,对于样本的每个数据点分别记录下用于一次实验的m轮染色中的一个染色轮的色值,该色值分别形成具有维度m的输出矢量的分量,其中在记录下相应色值之后将这些矢量分量投影到具有维度k的投影矢量上,k小于m,并且投影矢量对于每轮染色被依次聚合为具有与投影矢量相同的维度k的聚合矢量。然后,存储该聚合矢量。

105、通过将具有维度m的输出矢量投影到具有维度k的聚合矢量上,矢量分量数量从m减少到k。与此相应,待存储颜色信息的数据量也减少了。这种颜色信息数据量的减少允许容易快速地处理颜色信息。与传统方法相比,存储装置容量可以较小并且存储装置上的写周期次数被相应减少。由此实现高效、简单和快速的颜色信息处理。

106、在此方法中,色值未作为标度、而是作为输出矢量的矢量分量被投影到投影矢量上,并在那里被聚合。该方法可以依次执行,即,色值在其获取之后作为矢量分量被投影到投影矢量上,而不必将图像的所有色值共同存储在数据存储器中。换句话说,这是指在获得色值后可以立即将该色值转入聚合矢量的减维空间。

107、投影优选是线性投影,且聚合矢量的聚合优选通过将生成的投影矢量与相应的聚合矢量相加来进行。投影可以是主轴变换或奇异值分解(svd)。

108、投影例如可以依据奇异值分解或主轴变换依据未压缩数据组来估算。

109、在主轴变换或主分量分析的情况下,虽然原则上只旋转和移动一个坐标系,但维度未减。但在多维空间内的主分量分析中如此选择分量,即其方差(varianz)和进而信息含量逐渐减少。最后分量解释了数据最小方差并且只能被视为有噪声的数据。因此可以省略最后分量,由此与原始维度相比可以显著减小聚合矢量的维度。

110、本发明的方法可以用所有线性和非线性的图示来执行,其所产生的矢量分量表明小方差且进而具有低信息含量。可以省略这样的分量而不会值得一提地影响数据质量。优选在这些图示中可以将这些分量依次聚合为具有减小维度的聚合矢量。

111、如果投影是主轴变换,则可以在使用模拟数据下在也考虑所用显微镜的点扩散函数的情况下从以下数据中生成或估算基础和变换矩阵:

112、-背景图像,

113、-先前的一个或多个实验,

114、-期望的理想代码,

115、-背景图像和期望的理想代码的组合。

116、也可使用这些信息来源的组合,特别是,背景图像与期望代码的组合也是有意义的。

117、主轴变换或主分量分析(pca)的使用还有以下特性,第一主分量表示作为背景信号的绝对亮度。这基本上对于分析物鉴定无意义。故也可以省掉第一主分量,由此进一步减少数据量。

118、优选地,分别首先记录下d个色值,其均形成输出矢量的矢量分量,并且投影和聚合针对两个矢量分量共同进行。

119、由于只在记录下d个色值之后进行投影和聚合,故可以在一种例如d个不同颜色信道被研究的方法中在拍摄图像之后按颜色信道分离所述图像,并且各不同颜色信道的这些色值随后被共同投影和聚合,由此只须执行少量的投影和聚合步骤,这节约了计算资源。

120、投影可用处理模型来执行。处理模型尤其由神经网络例如像cnn构成。.

121、处理模型可以具有c个输入串,其分别具有d各输入信道并且所述c个输入串共享k个输出信道,其中这些输入串的输出在k个输出信道内被逐信道地聚合,其中d优选对应于不同的所用颜色信道的数量,并且c*d=m,其中m是染色轮次数,c是染色轮次数m与所用颜色信道数量d之间的百分比系数。

122、由于投影和聚合只在记录下d个色值之后进行,故可以在一种例如d各不同的颜色信道被研究的方法中在拍摄图像之后按照颜色信道分离图像,并且各不同颜色信道的这些色值于是共同通过处理模型被处理和聚合,由此只需执行少量处理步骤,这节约计算资源。

123、处理模型可以用标注的数据组来训练,作为输入矢量给其提供其中一个数据点以计算聚合矢量,在此第i个矢量元素是第i轮染色的数据点的色值,其余矢量元素为0,其中目标函数获知目标输出与聚合矢量之差,且其中目标输出利用减维变换、尤其是线性或非线性投影从输入矢量中来计算,其中经过变换的输入矢量依次相互聚合而形成聚合矢量。

124、处理模型可以针对每个输入矢量被单独训练。处理模型可以与待执行的实验无关地被预先训练。但也可行的是多个处理模型针对不同类型的实验被预先训练,并且关于各自实验类型的上下文信息被用于自动选择合适的处理模型。

125、分析物可以依据所确定的减维存储的颜色信息来鉴定,其中在鉴定之前逆变换所存的聚合矢量,使得各自染色轮的色值以初始版本被重建。

126、分析物也可以依据经过变换的减维存储的颜色信息来鉴定,其中再现将分别对于分析物采集典型的色值序列以与所记录存储的色值一样的投影投射到具有维度k的各自结果矢量上,并且分析物的鉴定依据将关于各自数据点的聚合矢量与结果矢量比较来进行。

127、原则上可能有意义的是,在投影前使输出矢量接受背景修正。这尤其适用于在聚合矢量的经过变换的减维空间内鉴定分析物。但当主轴变换的第一主分量被省去时不需要这种背景修正。

128、将聚合矢量与结果矢量比较也可以借助鉴定处理模型来执行,其已用标注的数据组训练过,标注的数据组作为输入数据组具有实验的聚合矢量和结果矢量,在实验中该分析物以常见方式被鉴定过。

129、优选地,聚合矢量被输入鉴定处理模型中,其已作为分类网络被训练成给聚合矢量分配一个包括待检测分析物类型的类别,或者已被训练成输出结果位序列,其中结果位序列与对于待检测分析物分别典型的位序列进行比较,以便鉴定分析物类型。鉴定处理模型的训练在此要么用压缩数据进行、要么用未压缩数据进行,对于后者情况,必须通过逆变换将压缩数据变回到未压缩数据。

130、例如鉴定处理模型可作为分类网络来实现并被训练成根据分析物类型给聚合矢量分配一个类别。为此,必须如此创建标注的数据组,它作为网络输入包括各种不同的分析物类型的聚合矢量,并作为网络输出分别包括所输入的网络输入的相应类别。此外,分析物类型的对应分配可以是生硬的或柔和的,即,分类网络精确输出所分配的类别,或者分类网络例如输出概率分布,在概率分布中每个可能类别被分配输入数据(在此是聚合矢量)对应于各自类别的概率。

131、或者,鉴定处理模型可被训练成将输入的聚合矢量映射到不同分析物类型的典型位序列。典型的位序列在此指明在哪轮染色中用一种标记物标记各自分析物。如以上参照直接对应配属对应于分析物类别的类别的分类网络所述地,也可以以生硬或柔和方式实现映射到各不同分析物类型的典型位序列上。然后针对每轮染色输出在各自染色轮中是否用一种标记物标记各自分析物的概率。

132、由于将鉴定处理模型作为分类网络来训练,故可以用少量计算支出将潜在分析物分配给分析物类型。

133、根据另一替代方案,鉴定处理模型也可作为嵌入模型来实现。压缩或未压缩的颜色信息还有典型的位序列可被输入该嵌入模型中。嵌入模型将输入数据嵌入到嵌入空间中。训练中,嵌入模型的模型参数现在被调整,使得数据嵌入用目标函数来优化,从而对应于相同分析物类型或结果类别的输入数据在嵌入空间中具有尽量小的间距,并且对应于各不同结果类别或分析物类型的输入数据的嵌入具有尽可能小的相互间距。分析物种类相对应,彼此之间有尽可能大的距离。在推断中,这种类型的训练现在正好照顾到结果类别或分析物类型可以依据颜色信息嵌入与典型位序列嵌入之间距离来确定,其中在这里最小距离正好给出分析物类型。

134、一个图像可以包括具有多个作为像点的像素的二维图像或者具有多个作为像点的体素的三维图像,其中可给样本的每个数据点分配每个图像的至少一个像点。图像可以作为附加维度包括时间信息。时间信息不仅可用于指明拍摄单独图像的时刻,还可以用于表明具有多个连续图像的时序,其中该时间信息说明这些图像的时刻。

135、一个数据点可以分别是每个图像的一个像点或一组连续的像点。如果用处理模型将颜色信息变换为减维聚合矢量,则不必完全清楚对应数据点有多大。对于完全折叠的网来说尤其如此。然而在实践中事实表明,数据点通常在一维中包括不超过10个的像点,特别是不超过5个的像点,故二维图像的每个数据点的最多像点为10x10或5x5像点,三维图像的每个数据点的最多像点为10x10x10或5x5x5像点。

136、可以将图像预分割到不同的语义区域中,其中针对不同的语义区域采用不同投影以将输出矢量变换为聚合矢量。

137、如果不同的投影是主轴变换,则它们在基础和变换矩阵方面可能不同。

138、根据本发明的第四方面(方面d),规定一种准备用于通过在多个染色轮中用标记物染色一种或多种分析物鉴定分析物的数据的方法,其中标记物分别对一定量的分析物有特异性。标记物用相机来检测,相机针对每轮染色产生至少一个具有多个像素的图像,其可以包含一个或多个标记物的颜色信息。各自染色轮的图像被存储以评估颜色信息。

139、该方法的特征在于,在这些染色轮中所确定的色值根据其强度值被聚类(clusterung)到具有相似强度值的局部群(cluster)或全局群中并且仅存储聚类数据。

140、通过将色值聚类到具有相似强度值的群中,显著减少颜色信息数据量,因为对于每个群该强度值只需被存储一次。类似于本发明的上述方面,通过数据减少来获得图像数据处理的显著简化和加速,以及对所用存储介质的要求被显著降低。

141、优选在每轮染料后通过作为附加特征维度而新获得的颜色信息再次聚类强度值。在此情况下,已经存在的群一般被分解为小群。但如果两个相邻群的强度值很相似,则也可能的是出现一个新群,其跨越两个迄今相邻的群的群边界。当在随后的染色轮中在新群中总是出现很相似的强度值时就是这种情况,因此原始强度距离被相对化。

142、可以为每个像点存储一个群id,其描述各自像点属于哪个群。

143、关于每个群,可以存储每轮染色的强度值。因此,这些染色轮的强度值针对每个群仅被存储一次。因此它们可以在未由此生成大量数据的情况下以高分辨率来存储。针对每个像点所存储的群id通常可以用比强度值少许多的位来编码。例如可以用8位来鉴别256个不同的群。已经可以用10位来编码超过1000个的不同群。

144、将强度值分配给各自群的这种分配也称为调色板压缩。在本发明方法中充分利用以下事实,基于某个标记物的颜色信息是相似的,由此它们可汇总在一个群中。故某些群包含鉴定分析物所必需的颜色信息。在每个染色轮之后的上述前后相继的群中,每个群配属有一个强度值序列。从强度值序列中,如下所详述地可确定某分析物是否存在于各自群所在位置处。

145、在本发明方法中原则上可使用两种不同的聚类法,即也被称为超像素的局部群产生和全局群产生。这两种方法的共同点是每个群对于一轮染色仅由唯一的强度值来代表。在局部群的情况下,每个群由连续像点组成。在全局群的情况下,一个群可以包括在图像中的彼此间隔开的多个单独区域。

146、可以使用全局群获得更高压缩率,因为图像中的几个独立区域共同形成一个群,因此对应配属于唯一的共用强度值。在局部群情况下必须针对每个单独群区域存储自己的强度值,因为每个群区域形成一个单独群。然而在局部群情况下图像位置或图像内的群位置具有高许多的信息内容,因为各自群的所有像点至少位于该图像位置附近。在局部聚类的情况下,丢失所谓“稀有”像点的风险要低得多。稀有像点是其强度值或强度值序列整个图像中很少出现的像点。

147、关于每个群,可以存储有效统计值且特别是平均值和/或方差和/或中值和/或中心色值。因为通过聚类所述色值或强度值被量化为针对各自染色轮被分配给各自群的强度值,故原始图像数据的详细信息丢失。借助一个或多个有效统计值,可以在未由此生成大量数据情况下保留原始图像数据的某些属性。例如对于群评估来说有意义的是,一个群内的这些像点是否非常相似并因此具有小的方差、或者在这些像点的强度值之间是否有显著差异,显著差异反映在方差增大中。

148、在上述方法中,像点强度值在每轮染色后被接连聚类,每个群针对每轮染色被分配一个强度值。但在本发明范围内也可能的是,一个染色轮的每个图像被单独聚类。由此也可以与未聚类的图像数据相比获得明显减少的数据量。在本发明范围中也可以将一次实验的多组染色轮接连聚类,从而给所述群分别分配各自组染色轮的染色轮的强度值。

149、聚类可以使用分区、分层、图论或优化的聚类方法进行。

150、也可以使用监督的或无监督的聚类方法进行聚类。

151、还可能合适的是,与各自群的中心色值截然不同、即相差预定阈值的强度值被单独存储以便根据需要创建新群。通过提出与各自群的中心强度值截然不同的强度值,在如下群中坚持大的强度差,该群在随后染色轮中聚类时对于分离成进一步的群可能是决定性的。

152、若创建局部群,则用于聚类各自强度值的图像特征之一和用于聚类的另一图像特征可以是图像内各自像点的位置。

153、一个图像可以包括具有多个作为像点的像素的二维图像或者具有多个作为像点的体素的三维图像,其中一个样本的每个测量点可被分配每个图像的至少一个像点。图像可作为附加维度可以具有时间信息。

154、对于每轮染色被分配强度值的某些群可以明确无疑地被分配给某个分析物,从而可以通过读取相应群来鉴定分析物。这在没有进一步数据处的情况下在低信噪比之时可实现。但对于有噪声的信号,建议准备数据,其中在数据聚类之前先对数据消噪。

155、为了鉴定分析物,也可以将关于这些群所存储的且通过聚类被量化的强度值序列与为编码各自分析物的目标强度值序列相比较。在此情况下,目标强度值最好被预先量化到与该群相同的数值范围。在聚类时,如上所简短描述地,群的所有像点的强度值被设定为中心色值或中心强度值。群的中心强度值形成数值范围。如果聚类针对每个染色轮被分别分配一个强度值,则用于各自群的这些轮染色的几个中心强度值形成群的量化数值范围。

156、可借助处理模型执行依据群来鉴定分析物。处理模型优选是分类模型。

157、聚类本身也可以用处理模型来执行。优选地,这种用于聚类的处理模型是分割模型,尤其是语义分割模型。

158、附加的上下文信息可作为输入数据被供给处理模型,上下文信息描述样本和/或实验和/或预期分析物的其它特性。上下文信息尤其是样本染色参数和/或样本所含分析物的预期数量或期望比率。依据上下文信息可以调设聚类量化,即,兹确定用于各自染色轮的中心强度值并将其分配给各自群。

159、根据本发明的第五方面(方面e),规定一种通过在多轮染色中用标记物标记一种或多种分析物准备分析物鉴定用数据方法,其中标记物分别对一定量的分析物有特异性。用相机检测标记物,该相机为每轮染色采集至少一个图像,图像可包含一个或多个标记物的颜色信息。各自染色轮的颜色信息被存储以用于其评估。

160、该方法的特点在于图像被细分为多个量化区域,在量化区中像点强度值分别利用不同的量化被编码,且像点的量化强度值作为颜色信息被存储。

161、量化意味着在不同量化区内的强度值具有不同的数值范围,数值范围一般具有与用相机采集图像之后的强度值初始表示相比跟梢数量的强度值。就是说,不同的量化区用不同的位深度来编码,即,不同数量的位于是代表各自强度值。

162、最初用相机拍摄的图像的强度值具有预定位深度,例如在一定颜色信道中为16位。换句话说,这种颜色的从最暗到最亮的亮度区用16位被均匀编码。量化区通常仅包括亮度区的一部分,且亮度区的该部分以预定位深度被量化。例如这对于仅表示背景的暗区域来说可以具有唯一位的位深度。对于包含大量信息的中亮度区域,因为在该区域中出现标记物信号的大部分,其与背景的差异通常仅很小,故在这个强度区内保留16位原始位深度。在标记物信号(也称为染色信号)在此通常明显从非标记物信号(也称为未染色信号)中突显而出的明亮区域中,用例如8位的较小位深度对强度值进行编码就足以能可靠地将染色信号强度值与未染色信号强度值区分开。合适的量化区的选择也取决于各自实验且特别是所用的染料和各自存在的背景图像。

163、量化的位深度、即借此编码强度值的位的数量至少对于某些量化区小于相机借此编码由相机采集的强度值的位的数量。

164、在不同的量化区内也可以采用不同的位深度。

165、量化区可以根据以下方法步骤中的一个或多个来划分:

166、-量化区预先通过强度极限来定,故每个量化区对应于一定的强度区。

167、-图像在语义上被划分为不同的量化区。

168、-获得这些强度值的频率并且量化区通过布置在频率峰值周围的强度极限来定。

169、-量化区由具有相似强度值的群来定。

170、-量化区通过图像语义分割来定,例如分为背景、细胞和胞核。

171、也可以采用上述方法步骤中的若干方法步骤的组合来确定量化区。

172、量化区可以在以下时刻被划分:

173、-在第一次量化其中一个图像之前做一次,其中量化区划分优选借助无标记物产生的背景图像进行,

174、-在第一轮染色后,其中量化区依据在各轮染色中采集的图像的一部分或依据整个图像被划分,

175、-在各自多轮染色后,其中量化区依据在各轮染色中采集的图像的一部分或依据整个图像被划分,或

176、-在每轮染色后,其中量化区依据在各轮染色中采集的图像的一部分或依据整个图像被划分。

177、因此,也可以首先在第一轮染色之后划分并随后在几轮染色之后晚些重新划分量化区。可以分别在同样的染色轮次数之后或也可在不一样的染色轮次数之后进行量化区的重复划分或确定。

178、图像的特别适用于量化区划分的区域可被自动确定,其中它尤其依据包括多个不同的量化区的区域被确定。

179、可以使用三个量化区,每个量化区形成不同的强度区,其中具有中强度值的强度区被精细量化,具有亮强度值的强度区比具有中强度的强度区更粗略地被量化,其中具有亮强度值的强度区最好比具有暗强度值的强度区更精细地被量化。因此,具有暗强度值的强度区是最粗略的量化强度区。

180、具有暗强度值的强度区可对应于暗背景。其强度值通常与分析物鉴定无关且因此可被很粗略地量化或甚至完全舍弃。

181、具有中强度值的强度区可以对应于细胞区,细胞区因为小强度差与分析物鉴定相关而应该被很精细地量化。

182、具有亮强度值的强度区呈现细胞中有很大强度值的亮点。尽管它们与分析物鉴定非常相关,但由于亮度差较大而经常同分析物鉴定不相关的强度值有显著差异。因而在此可以实现较粗略的量化,即其所具有的位深度小于中强度区。

183、一个图像可以包括具有多个作为像点的像素的二维图像或者具有多个作为像点的体素的三维图像,其中一个样本的每个测量点可被分配每个图像的至少一个像素。该图像可作为附加维度包括时间信息。

184、为了鉴定分析物,将所存储的量化强度值序列与编码各自分析物的目标强度值序列相比较。

185、在比较之前,编码分析物的目标强度值可以像所采集的颜色信息一样被量化。或者也可以在比较之前取消对所存储的量化强度值序列的量化,以便能将它们与编码分析物的目标强度值相比较。精确的反向变换并不总是可行,因为信息可能因为量化而丢失。量化取消也意味着在与最初测量的强度值的数值范围相对应的数值范围中的变换。对此可能合适的是,除了量化的强度值外还有其它上下文信息。

186、根据一个替代方案,所存储的颜色信息也可以被直接二进制化,然后与实验的码本的二进制化的目标位序列相比较。

187、根据本发明,码本针对每种分析物类型包括在各自轮染色中偶联到各自分析物类型的标记物序列。

188、根据本发明的第六方面(方面f),规定一种准备用于样本内分析物鉴定的数据的方法,其中在一次实验中在几轮染色中用标记物染色一种或多种分析物。每个标记物对一定量的分析物有特异性,其中用相机检测多个标记物,该相机针对每轮染色产生至少一个图像,该图像可以包含一个或多个标记物。各自染色轮的颜色信息被存储以便评估。

189、该方法的特点是,依据一个或多个先前染色轮的预测图像数据和/或依据当前染色轮的预测图像数据,对于第n轮染色预测一个预期的预测图像,并且一方面由当前颜色轮的实采图像或实采图像平面且另一方面由预测图像形成一个差异图像,其中差异图像作为颜色信息被存储。

190、因为实采图像或实采图像平面的和预测图像的许多像点一般不相同,故差异图像包含差值为“0”的多个像点。这样的图像可以被很强烈压缩地存储。也可能的是仅存储两个图像的差异,即存储其其差值不为“0”的像点。也由此显著减少数据量。

191、减少待存储图像数据的数据量导致读写过程明显简化和加速,也减少对存储介质访问的次数,由此延长其使用寿命。

192、预测图像数据的预测是用唯一且可逆的方法来执行,从而如果自此产生预测图像数据的图像或图像平面是已知的,则可以依据差异图像随时重建实采图像或实采图像平面。由此可以在没有数据损失的情况下又重建所有实采图像或图像平面。优选地,第一图像未被压缩或以独立于本方面的压缩方法被压缩地来存储,从而其它图像借助一个或多个差异图像所参考的第一图像是完全可用的。

193、预测图像可以对应于一个由z图像的多个图像平面构成的图像平面,并且预测图像数据可以包括来自一个或多个先前染色轮的z图像的一个或多个图像平面和/或当前染色轮的z图像的一个或多个图像平面。故在具有多个图像平面的三维图像数据情况下的预测可以自先前染色轮的图像平面和当前染色轮的图像平面出发。

194、先前染色轮可以是同一实验的染色轮或优选具有相似或相同的样本的另一实验的染色轮。在先前染色轮的实验中的样本和各自样本状态与当前染色轮越相似,通常预测图像数据与实采图像或实采图像平面越发一致。

195、预测图像数据可以包括一个或多个在先染色轮和/或当前染色轮的图像的子集,其中该子集可以是z图像的单个或多个图像平面,或者也可以是图像的一个平面中的片段。该片段可以是二维图像的片段或者z图像的图像平面的片段。

196、预测图像数据可以是来自差异图像的重建图像数据,或仅是来自先前染色轮的差异图像本身。换句话说,预测也可以从呈差异图像形式被压缩的图像数据开始来进行。因此能以压缩形式提供预测图像数据。

197、预测图像数据也可以仅源自紧接在前的染色轮和/或当前染色轮。源自当前染色轮的预测图像数据是z图像的据此来预测或预见其它图像平面的图像平面。

198、差异图像优选在存储之前被压缩。如上所述,这种差分图像的压缩通常非常有效。

199、用预测器、特别是线性预测器执行预测。预测器优选设计为它完成从原始图像数据到预测图像数据的单义分配,从而可以依据预测的图像数据随后又明确无疑地且不丢失信息地产生输出图像数据。

200、可以用机器学习系统的处理模型进行预测。尤其用于图像到图像递归的神经网络尤其适用于此。

201、处理模型可以:

202、-对每一轮染色被再培训,或

203、-对每次实验被再培训,或

204、-从多个预先训练过的处理模型中来选择,其中优选依据上下文信息作选择。上下文信息可以是样本和/或实验和/或预期分析物的特性,并且上下文信息尤其可包括样本染色参数和/或样本所含分析物的预期数量或期望占比。

205、处理模型可能已用标注的训练数据训练过,其中标注的训练数据均包括原始图像和相应的目标图像,其中原始图像和目标图像都是在一个样本上测得的。

206、原始图像在此情况下可源自前一轮染色,目标图像可源自下一轮染色。但原始图像也可以是三维z图像的一个图像平面,目标图像可以是同一三维z图像的另一图像平面。

207、预测图像数据可在预测之前被归一化以便例如显示预定强度区和/或规定的背景信号。

208、预测图像数据可以在预测之前被消噪。这种消噪可用不同方法进行,其中包括经典的方法(过滤/bm3d)和机器学习方法(noise2noise/voise2woid)。

209、图像可以包括具有多个作为像点的像素的二维图像或具有多个作为像点的体素的三维图像,其中三维图像通常由z图像的多个图像平面产生。图像可以作为附加维度包括时间信息。

210、为了借助于所存储的差异图像来鉴定分析物,可以从其中至少针对预定数据点来再形成实际所采集的图像或实际所采集的图像平面,其中每个数据点包括在多轮染色的图像中的一个或多个连贯像点,其被分配给一个样本中的相同位置。

211、因此在分析物鉴定中可以逐像点地或逐数据点地但在整个图像范围内进行所采集图像或所采集的图像平面的重建。

212、分析物可以是核酸序列且标记物分别具有寡核苷酸序列和与之偶联的染料分子。

213、上下文信息可以包括例如有效统计值、特别是平均值和/或方差和/或中值和/或中心色值。

214、分析物可以是核苷酸序列且标记物分别具有寡核苷酸序列和与之偶联的染料分子。

215、根据本发明的第七方面(方面g),规定一种通过在多轮染色中用标记物染色一种或多种分析物准备分析物鉴定用数据方法,其中标记物分别对一定量的分析物有特异性。标记物由相机检测,相机针对每轮染色生成至少一个具有多个像点的图像,该像点作为颜色信息被分别分配一个色值,其包括染色信号和未染色信号。染色信号是具有标记物颜色信息的像点,而未染色信号是带有未基于标记物的颜色信息的像点。存储各轮染色的颜色信息以用于其评估,其中每个数据点包括在多轮染色的图像中的一个或多个连续像点,其配属于样本内的同一位点。

216、该方法的特点是,一个样本的图像的像点的色值接受其是否是染色信号和/或未染色信号的评估,并且其色值以预定概率被评估为它是染色信号或未染色信号的像点被相应二进制化,并且在存储颜色信息时针对该二进制化像点存储相应的二进制值而不是色值。

217、二进制值是单位的二进制数。通过减小色值至二进制值,数据量可被显著减小,由此得到处理更简单快速且对存储介质需求更少的上述优点。

218、对于未被二进制化的色值,存储各自测量色值。

219、根据所述未被二进制化的色值可以在后续评估中被重新评估,并且如果它随后满足了期望标准,则被二进制化。因此人们可以执行早先评估轮次的再压缩。在每轮染色之后或分别在预定染色轮次数之后,像点可接受评估。如果评估只在多轮染色之后进行,则合适的是至少评估迄今为尚未被评估的所有染色轮的像点。

220、色值评估可以依据以下值中的一个或多个:

221、-待评估的色值,

222、-一个或多个在先染色轮的一个或多个色值,

223、-迄今进行的染色轮的测量色值的统计值,

224、-背景图像的一个或多个色值,和/或

225、-关于背景的统计值。

226、该评估也可以依据上述数据的组合进行。

227、色值是否以预定概率是染色信号或未染色信号可以借助置信度或启发学来确定。

228、色值可以用机器学习系统的计分模型来评估,其中计分模型被训练其是否以一定概率是染色信号和/或未染色信号的色值评估标准。计分模型可用标注的数据组训练过,其作为输入数据组包含像点色值和相应的目标输出,其中目标输出针对每个色值单独限定它是否是染色信号或未染色信号。

229、计分模型可以用标注的数据组进行过训练,其作为输入数据组包含像点色值和相应目标输出,每个目标输出限定该色值是否是染色信号或未染色信号,或者无法确定其是染色信号或未染色信号。

230、计分模型优选是分类器。根据以上说明,分类器一方面可以关于目标输出“染色信号”或“未染色信号”且另一方面关于目标输出“染色信号”或“未染色信号”或不定信号被训练。在第一种情况下,当类别概率接近0.5的判断极限时,分类器变得不可靠。但也可以如此有目的地训练该分类器,即,引入第三类别或上级类别,这表明它是无法判断的。

231、标注的数据组也可以用如下方法来创建,在这里,多轮染色的未被二进制化的色值被评估其是否染色信号或未染色信号。在此情况下,在训练时针对每个染色轮作为输入将表示染色信号或未染色信号的色值输入到计分模型中,并计算目标函数。目标函数获得由计分模型输出的评估色值是染色信号或未染色信号的评估与标注的数据组的指明色值正好是是染色信号或未染色信号的色值标注之间的差异。最后,通过调整模型参数来优化目标函数。

232、在针对每轮染色进行训练时,表示染色信号或未染色信号的色值可以作为输入部分作为测量色值且部分作为二进制值被输入计分模型中。由此一来,用最初测量的值和压缩的二进制值来训练该模型,由此该模型学会打算以由实测值和二进制值构成的混合体作为输入值。

233、标注的数据组可以借助一个或多个以下步骤来生成:

234、-使用代表性背景图像和已知的显微镜点扩展函数来模拟各不同标记物的信号,

235、-借助已依据相似数据被训练的生成模型生成标注的数据组,

236、-拍摄参考图像,包括至少一个背景图像及关于每个背景图像针对每种分析物类型包括至少一个图像,在图像中标记各自分析物类型的各自分析物,

237、-执行常见的分析物空间鉴定方法,

238、-拍摄代表性背景图像并且在提供标注的数据组之前逐像素地从标注的数据组所基于的图像序列的图像信号中抽取代表性背景图像的图像信号,因而标注的数据组仅包含背景修正的色值,和/或

239、-依据实验的一部分获得标注的数据组,从而经过训练的处理模型可被用于实验的其余部分。因此,可以通过不同的方法来建立标注的数据组。

240、除了各自色值外,还能给计分模型输入上下文信息以用于评估色值,上下文信息优选包括以下数据:

241、-在先染色轮的各自像点的色值,

242、-迄今所进行的染色轮的统计值,

243、-背景图像的一个或多个色值,和/或

244、-背景的统计值,和/或

245、-每个实验或每个颜色信道的预期分析物数量,

246、-所用的码本,和/或

247、-用户id。

248、可被输入计分模型以用于评估色值的其它合适的上下文信息是关于各自数据点的所有色值和/或其中一个数据点的未选色值和/或其中一个数据点的所选色值的统计信息,例如像染色轮信息(编号;时刻等)和/或各自数据点的颜色信息或多个数据点的颜色信息的特性的有效平均值、标准偏差、方差和/或中值。颜色信息特性中,亮度、颜色和/或伸展范围尤其是相关的。

249、上下文信息可以通过分割来获得并且尤其区分为细胞区和未分配任何细胞的区域。

250、图像可以包括具有多个作为像点的像素的二维图像或者具有多个作为像点的体素的三维图像,其中图像作为附加维度可以具有时间信息。

251、可依据所存储的部分二进制化的色值来鉴定分析物。在鉴定分析物时可以并行使用测量值和二进制化值。

252、计分模型可以是cnn(卷积神经网络)、mlp(多层感知器)、变换网络或序列模型如递归神经网络(rnn)。

253、可依据所存储的颜色信息来鉴定分析物,并且在分析物鉴定和或许人工校正之后可以生成相应扩展的标注的数据组,并且可以用扩展的标注的数据组来训练处理模型。由此可以实现连续的监督学习。

254、该方法可以在准备分析物鉴定用数据之前包括一个用于依据背景信号校正图像序列的图像信号的步骤,其中该背景图像信号例如借助滚球法、礼帽法和/或借助对所有像点用非特异性激光激发自荧光。

255、如果一个数据点的最小数量的色值已被二进制化,则可以依据数据点的二进制化色值和未二进制化色值进行与码本的比较,以改善对迄今未二进制划色值的评估。

256、该比较可以通过色值矢量与码本矩阵的矩阵乘法来进行,其中码本矩阵对于每个待鉴定分析物包括一个目标位序列,并且色值矢量对于二进制化色值和未二进制化色值包括一个对应于所述评估的在0和1之间的概率值,依据矩阵乘法的结果矢量来确定最佳适配于颜色矢量的目标位序列,并且基于所确定的目标位序列来二进制化该未二进制化的色值。

257、还可规定一种用于训练具有计分模型的机器学习系统的方法,在此,该计分模型尤其被训练用于执行根据上述实施方式之一的方法。

258、分析物可以是核酸序列,标记物分别具有寡核苷酸序列和与其偶联的染料分子。

259、上面解释的本发明不同方面(方面a-g)可以单独使用,也可以彼此任意组合使用。以下举例解释几个优选组合:

260、在方面a和b组合时,图像数据点(其根据评估肯定不是候选数据点)被消除,同时对于每个候选数据点仅选择不同染料轮的n个色值,其最有可表示染色信号。对此例如教会一种计分模型,其依据根据方面b所选择的色值来判断数据点是否不是候选数据点且因此可被消除。

261、当方面a和d组合时可针对每个群通过计分模型来判断一个群是否属于背景以及是否可以舍弃各自群中的所有数据点。这适用于局部群和全局群。

262、当方面b和d组合时执行聚类,此时对于各自群仅保留根据方面b所选择的色值。

263、当方面a、b和d的组合时执行聚类,由此对于这些群仅保留根据方面b所选择的色值,并且借助计分模型来判断一个群是否属于背景并且该群的所有数据点是否可被舍弃。这又适用于局部群和全局群。

264、方面a、b、c、d、e和f的组合也是合适的。在此情况下,执行根据方面d的聚类(局部或全局聚类)。对于这些群,仅将根据方面b所选的色值分配给这些群,其中它们根据方面c被投影到具有减小维度的投影矢量上。此外,根据方面a的计分模型可以判断群是否属于背景以及该群的所有数据点是否可被舍弃。依据预定的量化区或者依据数据点所在位置,可分别将根据方面e的特定或个别量化用于此。然后,借助根据f的逐轮压缩来进一步降低存储器需求。

265、背景的像点、即背景像点可以根据本发明被划分为不同类型的背景像点。其一,有背景像点、即所谓的无分析物背景像点,在其中从一开始就不能定位分析物位置,因为例如在样本内位置处没有带分析物的细胞。此外还有如下背景像点,在此处虽可能有分析物、但在当前样本中找不到或未发现。所述像点也可被称为分析物背景像点。背景像点的颜色信息无论它们是分析物背景像点还是无分析物背景像点都被称为背景信号。具有背景像点的背景信号的数据点也可以为了训练一并录入在标注的数据组中。

266、根据一个替代方案,无分析物的背景像点可以基于语义例如通过图像语义分割从一开始就被排除在分析之外。相应地,标注的数据组也可设计成使背景像点的训练数据点正好是分析物背景像点的数据点。


技术特征:

1.一种准备用于分析物鉴定的数据的方法,做法是在多轮染色中用标记物对一种或多种分析物进行染色,其中,所述标记物分别对于一定量的分析物有特异性,用相机检测多个标记物,所述相机针对每轮染色产生至少一个具有多个像点的图像(24),作为颜色信息分别给所述像点分配一个色值,所述色值包括染色信号和未染色信号,其中,染色信号是具有标记物颜色信息的像点,并且未染色信号是具有未基于标记物的颜色信息的像点,并且存储各自染色轮的颜色信息以便评估所述颜色信息,其中,数据点分别包括多轮染色的所述图像(24)中的一个或多个连续像点,它们配属于所述样本内的同一位点,其特征是,样本的所述图像(24)的所述像点的所述色值接受其是否是染色信号和/或未染色信号的评估,并且关于其色值以预定概率被评估其是染色信号或未染色信号的像点,所述色值被相应二进制化,并且在存储颜色信息时针对二进制化的像点存储相应的二进制值而不是色值。

2.根据权利要求1所述的方法,其特征是,对于未二进制化的色值存储各自色值。

3.根据权利要求2所述的方法,其特征是,未二进制化的色值在随后评估时被重新评估并且必要时被二进制化,尤其当其是染色信号或未染色信号的随后评估达到预定概率时。

4.根据权利要求1至3中任一项所述的方法,其特征是,在每轮染色之后或分别在预定的染色轮次数之后,所述像点接受评估。

5.根据权利要求1至4中任一项所述的方法,其特征是,所述色值的评估基于以下说明中的一个或多个:

6.根据权利要求1至5中任一项所述的方法,其特征是,评估色值以预定概率是否是染色信号或未染色信号借助置信度或启发学进行。

7.根据权利要求1至6中任一项所述的方法,其特征是,所述色值利用机器学习系统的计分模型来评估,其中,对所述计分模型被训练用于评估所述色值其是否以一定概率是染色信号和/或未染色信号的标准。

8.根据权利要求7所述的方法,其特征是,所述计分模型利用标注的数据组来训练,所述标注的数据组作为输入数据包含所述像点的所述色值和对应的目标输出,所述目标输出分别限定所述色值是否是染色信号或未染色信号。

9.根据权利要求8所述的方法,其特征是,所述计分模型利用标注的数据组来训练,所述标注的数据组作为输入数据包含所述像点的所述色值和对应的目标输出,所述目标输出分别限定所述色值是否是染色信号或未染色信号或者无法确定其是否是染色信号或未染色信号。

10.根据权利要求8或9所述的方法,其特征是,所述标注的数据组用如下方法来创建,在此,多轮染色的所述色值未二进制化地被存储并且随后被评估其是否是染色信号或未染色信号,其中,在针对每轮染色训练时作为输入将是染色信号或未染色信号的色值输入所述计分模型,计算目标函数,其中,所述目标函数说明由所述计分模型输出的所述色值是染色信号或未染色信号的评估与根据所述标注的数据组的、根据在所述标注的数据组中的评估是染色信号或未染色信号的色值之间的差异,并且通过调整模型参数来优化所述目标函数。

11.根据权利要求10所述的方法,其特征是,在针对每轮染色训练时,作为输入将其是染色信号或未染色信号的色值部分作为被测色值并且部分作为二进制值输入所述计分模型中。

12.根据权利要求8至11中任一项所述的方法,其特征是,所述标注的数据组借助以下步骤中的一个或多个来生成:

13.根据权利要求7至12中任一项所述的方法,其特征是,除了各自色值外,其它上下文信息被输入所述计分模型以用于评估所述色值,其最好包括以下数据:

14.根据权利要求7至13中任一项所述的方法,其特征是,设有多个计分模型,其中,合适的计分模型依据上下文信息来选择,其中,所述上下文信息描述所述样本和/或实验和/或预期分析物的其它特性并且尤其能包括样本染色参数和/或预期分析物数量或样本所含分析物的预期占比,其中,依据所述上下文信息来自动从一组计分模型中选择一个计分模型。

15.根据权利要求14所述的方法,其特征是,所述上下文信息通过分割来获得,并且尤其区分为细胞区和未分配有细胞的区域。

16.根据权利要求1至15中任一项所述的方法,其特征是,图像包括具有多个作为像点的像素的二维图像或具有多个作为像点的体素的三维图像,其中,所述图像作为附加维度能包括时间信息。

17.根据权利要求1至16中任一项所述的方法,其特征是,所述分析物的鉴定依据所存储的部分二进制化的色值进行。

18.根据权利要求7至17中任一项所述的方法,其特征是,所述计分模型是cnn(卷积神经网络)、mlp(多层感知器)或顺序模型。

19.根据权利要求1至18中任一项所述的方法,其特征是,所述分析物依据所存储的颜色信息被鉴定,并且在所述分析物的鉴定和必要时人工修正之后产生相应扩展的标注的数据组,并且所述处理模型利用所述扩展的标注的数据组被训练。

20.根据权利要求1至19中任一项所述的方法,其特征是,所述方法在准备用于分析物鉴定的数据之前还包括执行色值的背景修正的步骤,其中,所述背景修正的执行包括以下中的一个或多个:

21.根据权利要求1至20中任一项所述的方法,其特征是,当一个数据点的最少数量的色值已被二进制化时,依据所述数据点的二进制化的色值和未二进制化的色值进行与码本的比较,以改善迄今未二进制化的色值的评估。

22.根据权利要求17所述的方法,其中,所述比较借助色值矢量与码本矩阵的矩阵乘法进行,其中,所述码本矩阵针对每个待鉴定分析物包括目标位序列,并且所述色值矢量包括二进制化的色值并且针对未二进制化的色值包括与所述评估对应的在0和1之间的概率值,并且依据所述矩阵乘法的结果矢量来确定最佳匹配于所述色值矢量的目标位序列,并且所述未二进制化的色值基于所确定的目标位序列被二进制化。

23.一种用于训练具有用于执行根据权利要求1至22中任一项所述的方法的处理模型的机器学习系统的方法,所述方法包括:

24.一种用于评估多轮染色的图像(24)的评估装置(4),所述评估装置(4)尤其被设计成机器学习系统(1),包括用于实施根据前述权利要求中任一项所述的方法的机构。

25.一种图像处理系统(1),所述图像处理系统(1)包括根据权利要求24所述的评估装置(4),尤其包括图像产生装置如显微镜(2)。

26.一种计算机程序产品,所述计算机程序产品包括指令,所述指令在计算机运行程序时促使计算执行根据权利要求1至23中任一项所述的方法,所述计算机程序产品尤其是计算机可读存储介质。

27.一种机器学习系统(1),所述机器学习系统(1)包括评估装置(4),其中,所述评估装置(4)包括处理模型,所述处理模型根据权利要求23的方法被训练过,尤其是包括图像产生装置如显微镜(2)。


技术总结
本发明涉及一种准备用于分析物鉴定的数据的方法和装置。做法是在多轮染色中用标记物染色一种或多种分析物,该标记物对于一定量的分析物有特异性,用相机检测多个标记物,相机针对每轮染色产生至少一个具有多个像点的图像,作为颜色信息分别给像点分配一个色值,其包括染色信号和未染色信号,存储各自染色轮的颜色信息以便评估颜色信息,数据点分别包括多轮染色的图像中的一个或多个连续像点,它们配属于样本内的同一位点,样本图像的像点色值接受其是否是染色信号和/或未染色信号的评估,关于其色值以预定概率被评估其是染色信号或未染色信号的像点,色值被相应二进制化,且在存储颜色信息时针对二进制化的像点存储相应的二进制值而不是色值。

技术研发人员:M·阿姆托尔,D·哈斯,R·沃勒申斯基
受保护的技术使用者:卡尔蔡司显微镜有限责任公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1148906.html

最新回复(0)