本公开总体上涉及图像数据分析,并且特别地涉及标识用于在dna测序期间在流动池的数字图像中进行碱基识别的簇或聚合酶群落位置。
背景技术:
1、使用流动池的下一代合成测序可以用于标识dna序列。当来自测序文库的单链dna片段涌入流动池时,片段将随机附接到流动池的表面,这典型地是由于结合至流动池表面或其上存在的珠的互补寡聚物。然后对dna片段进行扩增过程,使得给定片段的拷贝体形成变性、克隆的核苷酸链的簇或聚合酶群落。在一些方面,单个珠可以包括簇,并且珠可以在随机位置处附接至流动池。
2、为了标识链的序列,需要重新构建链对,每次一个核苷酸碱基。在每个碱基构建循环中,单个核苷酸的混合物(每个核苷酸均附有荧光标记(或标签)和阻断剂)涌入流动池。核苷酸附接在链上的互补位置处。由于包括阻断剂,因此在单个循环中只有一个碱基会附接到任何给定的链上。流动池被暴露在激发光下,激发标记并导致它们发出荧光。由于克隆的链聚集在一起,针对任何一个片段的荧光学信号都会被来自其克隆对应物的信号所放大,使得成像仪可以记录针对簇的荧光。流动池成像后,阻断剂被切除并从流动的核苷酸中洗掉,更多的核苷酸涌入流动池,并且重复该循环。在每个测序循环时,记录一个或多个图像。
3、将碱基识别算法应用于所记录的图像以“读段”来自每个簇的连续信号,并将光学信号转换成添加到每个片段的核苷酸碱基序列的标识。准确的碱基识别需要准确标识簇中心,以确保连续信号归因于正确的片段。
技术实现思路
1、本文提供了系统、装置、制品、方法和/或计算机程序产品方面,和/或其组合和子组合,其在计算上将成像仪的分辨率提高到超出其物理分辨率极限和/或提供图像中的更准确的源位置。
2、作为此类的具体应用,描述了用于标识流动池中的一组碱基识别位置的方法和系统的方面。这些包括在每个测序循环后捕获流动池图像,并在至少一个流动池图像中识别候选簇中心。针对每个候选簇中心来确定强度。基于强度来确定针对每个候选簇中心的纯度。在一些方面,在子像素级别确定强度和/或纯度。将纯度大于距离阈值内周围候选簇中心纯度的每个候选簇中心添加到碱基识别位置的组。碱基识别位置的组在本文中可以称为模板。
3、在一些方面,标识候选簇中心包括将流动池图像的每个像素标记为候选簇中心。
4、在一些方面,识别候选簇中心包括使用点查找算法来检测一组潜在簇中心位置,并且随后标识每个潜在簇中心位置周围的附加簇位置。
5、下面参考附图详细描述本公开的其他方面、特征和优点以及本公开的各个方面的结构以及操作。
1.一种方法,其包括:
2.一种方法,其包括:
3.一种方法,其包括:
4.一种方法,其包括:
5.一种方法,其包括:
6.一种方法,其包括:
7.一种方法,其包括:
8.根据前述权利要求中任一项所述的方法,其中所述像素是二维的。
9.根据前述权利要求中任一项所述的方法,其中所述像素在图像平面内。
10.根据前述权利要求中任一项所述的方法,其中所述像素是三维的。
11.根据前述权利要求中任一项所述的方法,其中所述像素具有在所述图像平面内的两个维度以及与所述轴向轴线平行的第三维度。
12.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像是在多个预定轴向位置处采集的。
13.根据前述权利要求中任一项所述的方法,其中所述碱基识别位置的所述不同轴向位置中的至少一些不同于多个预定轴向位置中的任一者。
14.根据前述权利要求中任一项所述的方法,其中所述碱基识别位置的所述不同轴向位置中的至少一些位于所述多个预定轴向位置中的两个相邻预定轴向位置之间。
15.根据前述权利要求中任一项所述的方法,其中固定在所述支持物上的所述多个串联体分子中的每一者对应于聚合酶群落。
16.根据前述权利要求中任一项所述的方法,其中固定在所述支持物上的所述多个串联体分子中的每一者对应于碱基识别位置。
17.根据前述权利要求中任一项所述的方法,其中所述多个预定轴向位置包括3至500个预定轴向位置。
18.根据前述权利要求中任一项所述的方法,其中所述多个预定轴向位置中的每一者与其相邻的邻近轴向位置相距1、2、3、4、5、6、7、8、9、10、11、12、13、14或15um。
19.根据前述权利要求中任一项所述的方法,其中所述多个预定轴向位置中的每一者与其相邻的邻近轴向位置相距0.1至400um。
20.根据前述权利要求中任一项所述的方法,其中所述一个或多个循环包括1、2、3、4、5、6、7、8、9或10个循环。
21.根据前述权利要求中任一项所述的方法,其中所述一个或多个循环包括1至50个循环。
22.根据前述权利要求中任一项所述的方法,其中所述细胞样品包括一种或多种原位样品。
23.根据前述权利要求中任一项所述的方法,其中所述细胞样品包括一种或多种细胞或组织。
24.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像中的每一者包括与所述轴向轴线正交的视场。
25.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像中的每一者的所述视场在图像平面中是相同的。
26.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像中的每一者的所述视场覆盖流动池的图块的至少一部分。
27.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像包括相同的图像分辨率。
28.根据前述权利要求中任一项所述的方法,其中所述轴向轴线从物镜延伸至所述支持物。
29.根据前述权利要求中任一项所述的方法,其中所述轴向轴线与图像平面正交,并且其中所述视场在所述图像平面内。
30.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像来自2、3、4、5或6个不同的颜色通道。
31.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像或所述第二多个流动池图像包括:在每个循环中,固定在所述支持物上的多个核酸模板分子中的核苷酸碱基a、g、c和t/u的平衡多样性。
32.根据前述权利要求中任一项所述的方法,其中所述支持物包括玻璃或塑料基板。
33.根据前述权利要求中任一项所述的方法,其中所述支持物被包括在流动池装置中。
34.根据前述权利要求中任一项所述的方法,其中所述支持物上的所述多个串联体分子的密度为101–1012/mm2。
35.根据前述权利要求中任一项所述的方法,其中所述支持物上的所述多个串联体分子的密度为102–108/mm2。
36.根据前述权利要求中任一项所述的方法,其中所述多个串联体分子中的两个或更多个不同的串联体分子具有不同的插入序列。
37.根据前述权利要求中任一项所述的方法,其中不同的插入序列对应于不同的靶rna分子或靶cdna分子。
38.根据前述权利要求中任一项所述的方法,其中所述碱基识别位置中的每一者对应于所述多个串联体分子的位置。
39.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像包括与在固定在所述支持物上的所述多个串联体分子中的核苷酸碱基a、g、c和t/u的平衡多样性相关联的核苷酸试剂发射的光学信号。
40.根据前述权利要求中任一项所述的方法,其中在所述一个或多个后续循环中,所述第二多个流动池图像包括与固定在所述支持物上的所述多个串联体分子中的核苷酸碱基a、g、c和t/u的不平衡多样性相关联的核苷酸试剂发射的光学信号。
41.根据前述权利要求中任一项所述的方法,其中所述多个串联体分子中的核苷酸碱基a、g、c和t/u的不平衡多样性包括:(1)一种或多种类型的核苷酸碱基的数量与(2)碱基的总数量的百分比在所述一个或多个循环中小于20%、15%、10%或5%。
42.根据前述权利要求中任一项所述的方法,其中所述多个串联体分子中的核苷酸碱基a、g、c和t/u的平衡多样性包括:在一个或多个循环中的(1)每种类型的核苷酸碱基的数量与(2)碱基的总数量的百分比大于10%、15%或20%。
43.根据前述权利要求中任一项所述的方法,其进一步包括:
44.根据前述权利要求中任一项所述的方法,其进一步包括:
45.根据前述权利要求中任一项所述的方法,其进一步包括:
46.根据前述权利要求中任一项所述的方法,其中所述碱基识别位置处于子像素分辨率。
47.根据前述权利要求中任一项所述的方法,其中每个像素强度包括对应像素的一个或多个子像素强度。
48.根据前述权利要求中任一项所述的方法,其中所述像素强度中的每一者的相应颜色纯度包括:一种或多种颜色纯度,其对应于所述对应像素的所述一个或多个子像素强度。
49.根据前述权利要求中任一项所述的方法,其中所述像素强度中的每一者的相应颜色纯度包括:针对一个或多个颜色通道的所述相应颜色纯度。
50.根据前述权利要求中任一项所述的方法,其中确定所述像素强度中的每一者的相应颜色纯度包括:确定(1)对应于特定类型的核苷酸碱基的信号与(2)针对其他类型核苷酸碱基的信号的总量的比率。
51.根据前述权利要求中任一项所述的方法,其中针对所述第一多个流动池图像的所述像素来确定所述像素强度包括:
52.根据前述权利要求中任一项所述的方法,其中所述一个或多个子像素强度具有2、3、4、5、6、7、8、9、10、12、13、14、15、16、17、18、19或20个不同轴向位置,所述不同轴向位置沿所述轴向轴线且位于所述多个预定轴向位置中的两个相邻轴向位置之间。
53.根据前述权利要求中任一项所述的方法,其中所述一个或多个子像素强度具有1至80个不同轴向位置,所述不同轴向位置沿所述轴向轴线且位于所述多个预定轴向位置中的两个相邻轴向位置之间。
54.根据前述权利要求中任一项所述的方法,其中将来自所述一个或多个后续测序循环的所述第二多个流动池图像配准到所述碱基识别模板包括:
55.根据前述权利要求中任一项所述的方法,其中所述第二多个流动池图像中的所述聚合酶群落的坐标处于三个维度中。
56.根据前述权利要求中任一项所述的方法,其中所述共同坐标系处于三个维度中。
57.根据前述权利要求中任一项所述的方法,其中基于所述像素强度和所述像素强度的所述相应颜色纯度来确定碱基识别模板包括:
58.根据前述权利要求中任一项所述的方法,其中所述阈值距离处于三个维度中。
59.根据前述权利要求中任一项所述的方法,其中所述阈值距离处于两个维度中。
60.根据前述权利要求中任一项所述的方法,其中所述阈值距离包括沿轴向轴线的第一阈值距离以及在与所述轴向轴线正交的平面中的第二阈值。
61.根据前述权利要求中任一项所述的方法,其中所述阈值距离包括沿轴向轴线的第一阈值距离以及在与所述轴向轴线正交的平面中的第二阈值和第三阈值距离。
62.根据前述权利要求中任一项所述的方法,其中所述第一阈值距离不同于第二阈值距离和/或第三阈值距离。
63.根据前述权利要求中任一项所述的方法,其中所述第一阈值距离与所述第二阈值距离和/或第三阈值距离相同。
64.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
65.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
66.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
67.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
68.根据前述权利要求中任一项所述的方法,其中所述第一多个第一靶特异性锁式探针中的单个锁式探针包括:
69.根据前述权利要求中任一项所述的方法,其中使所述细胞样品中的所述多个rna分子与所述多个靶特异性锁式探针接触包括:
70.根据前述权利要求中任一项所述的方法,其中所述第一靶特异性锁式探针包含第一靶条形码序列,所述第一靶条形码序列对应于且唯一地标识第一靶cdna序列或第一靶rna序列。
71.根据前述权利要求中任一项所述的方法,其中所述第一靶特异性锁式探针包含第一靶条形码序列,所述第一靶条形码序列位于与所述第一靶特异性锁式探针的与所述第一靶cdna分子或所述第一靶rna序列选择性地杂交的区域中的一者相邻。
72.根据前述权利要求中任一项所述的方法,其中所述第一靶特异性锁式探针包含至少一个通用衔接子序列。
73.根据前述权利要求中任一项所述的方法,其中所述第一靶特异性锁式探针包含用于滚环扩增引物的通用引物结合位点或其互补序列。
74.根据前述权利要求中任一项所述的方法,其中所述第一靶特异性锁式探针包含通用压实寡核苷酸结合位点或其互补序列。
75.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
76.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
77.根据前述权利要求中任一项所述的方法,其中第一串联体包含:
78.根据前述权利要求中任一项所述的方法,其中所述第一串联体进一步包含:用于扩增引物的通用结合位点或其互补序列,以及用于压实寡核苷酸的通用结合位点或其互补序列。
79.根据前述权利要求中任一项所述的方法,其中第二串联体包含:以下项的串联重复单元:唯一地标识第二靶rna或第二靶cdna序列的第二靶条形码序列,对应于所述第二靶rna或第二靶cdna的第二插入序列,以及第二测序引物结合位点或其互补序列。
80.根据前述权利要求中任一项所述的方法,其中所述第二串联体进一步包含:用于扩增引物的通用结合位点或其互补序列,以及用于压实寡核苷酸的通用结合位点或其互补序列。
81.根据前述权利要求中任一项所述的方法,其中进行测序反应的所述一个或多个循环包括:
82.根据前述权利要求中任一项所述的方法,其中所述多种核苷酸试剂包括:多价分子、核苷酸、核苷酸类似物或它们的组合。
83.根据前述权利要求中任一项所述的方法,其中单个核苷酸或核苷酸类似物是可检测地标记的或未标记的。
84.根据前述权利要求中任一项所述的方法,其中所述可检测地标记的单个核苷酸或核苷酸类似物包含对应于每种不同类型的核苷酸碱基a、g、c和t/u的不同可检测颜色标记。
85.根据前述权利要求中任一项所述的方法,其中单个多价分子包含附接有多个核苷酸臂的核,并且所述单个多价分子的每个臂包含相同类型的核苷酸碱基。
86.根据前述权利要求中任一项所述的方法,其中生成所述第一多个流动池图像包括:
87.根据前述权利要求中任一项所述的方法,其中所述第一多个流动池图像包括与所述多个串联体分子结合的所述核苷酸试剂发射的光学颜色信号。
88.根据前述权利要求中任一项所述的方法,其中进行测序反应的所述一个或多个循环包括:
89.根据前述权利要求中任一项所述的方法,其中进行测序反应的所述一个或多个循环包括:
90.根据前述权利要求中任一项所述的方法,其中进行测序反应的所述一个或多个循环包括:
91.根据前述权利要求中任一项所述的方法,其中进行测序反应的所述一个或多个循环包括:
92.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
93.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:通过重复以下操作至少一次来对所述多个串联体进行重复地测序:
94.根据前述权利要求中任一项所述的方法,其中所述第一测序读段产物包含以下中的一些或全部:所述第一串联体分子的一个或多个串联单元中的第一靶条形码序列;所述第一串联体分子的一个或多个串联单元中的第一插入序列;或它们的组合。
95.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
96.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
97.根据前述权利要求中任一项所述的方法,其中生成固定在所述支持物上的所述细胞样品的所述第一多个流动池图像包括:
98.根据前述权利要求中任一项所述的方法,其中对所述细胞样品内的至少所述第一串联体进行测序包括:
99.根据前述权利要求中任一项所述的方法,其中生成固定在所述支持物上的所述细胞样品的所述第一多个流动池图像包括:
100.根据前述权利要求中任一项所述的方法,其中对所述细胞样品内的至少所述第二串联体进行测序包括:
101.一种系统,其包括:
102.一种系统,其包括:
103.一种系统,其包括:
104.一种系统,其包括:
105.一种系统,其包括:
106.一种系统,其包括:
107.一种系统,其包括:
108.一种系统,其包括:
109.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
110.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
111.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
112.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
113.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
114.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
115.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括以下的操作:
116.一种非暂时性计算机可读装置,其上存储有指令,所述指令当由至少一个计算装置执行时使所述至少一个计算装置进行包括权利要求8至100中的任一项的操作。
117.一种数据文件,其包括:
118.一种数据文件,其包括:
119.一种用于生成数据文件的方法,其包括:
120.一种用于生成数据文件的方法,其包括:
121.根据前述权利要求中任一项所述的方法,其中所述数据文件进一步包括一个或多个分隔符。
122.根据前述权利要求中任一项所述的方法,其中所述一个或多个分隔符中的每一者被配置用于分隔所述一种或多种细胞特征。
123.根据前述权利要求中任一项所述的方法,其中针对所述一种或多种细胞特征中的每一者进行预定次数的操作迭代,进一步包括:
124.根据前述权利要求中任一项所述的方法,其中所述一个或多个分隔符中的每一者被配置用于分隔所述一种或多种细胞特征的所述空间坐标。
125.根据前述权利要求中任一项所述的方法,其中所述细胞特征中的每一者的所述空间坐标包括多组空间坐标。
126.根据前述权利要求中任一项所述的方法,其中每组空间坐标被配置成指示3d中的唯一位置。
127.根据前述权利要求中任一项所述的方法,其中所述空间坐标处于3d。
128.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
129.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
130.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
131.根据前述权利要求中任一项所述的方法,其中所述碱基识别的所述空间坐标和所述细胞特征的所述空间坐标处于相同的坐标系中。
132.根据前述权利要求中任一项所述的方法,其中所述细胞特征属于固定在所述支持物上的所述细胞样品。
133.根据前述权利要求中任一项所述的方法,其中所述碱基识别是通过对固定在所述支持物上的所述细胞样品进行测序而生成的。
134.根据前述权利要求中任一项所述的方法,其中所述碱基识别是通过2d测序分析而生成的。
135.根据前述权利要求中任一项所述的方法,其中所述碱基识别是通过3d测序分析而获得的。
136.根据前述权利要求中任一项所述的方法,其中所述碱基识别是通过对所述细胞样品进行测序而生成的。
137.根据前述权利要求中任一项所述的方法,其中所述质量指示符包括所述碱基识别的质量分数。
138.根据前述权利要求中任一项所述的方法,其中细胞特征指示符被配置成指示选自以下项的细胞元件:细胞核、细胞膜、细胞质和线粒体。
139.根据前述权利要求中任一项所述的方法,其中所述细胞特征指示符被配置成指示选自以下项的细胞元件:细胞核边界和细胞膜边界。
140.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括靶序列。
141.根据前述权利要求中任一项所述的方法,其中所述碱基识别包括条形码序列的一个或多个碱基识别。
142.根据前述权利要求中任一项所述的方法,其中所述碱基识别来自一个或多个测序循环中的聚合酶群落。
143.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括测序系统的名称。
144.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括对测序运行的标识。
145.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括对流动池的标识。
146.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括流动池的槽道号。
147.根据前述权利要求中任一项所述的方法,其中所述一个或多个测序参数包括流动池槽道的图块号。
148.根据前述权利要求中任一项所述的方法,其中所述碱基识别的所述空间坐标和所述一种或多种细胞特征的所述空间坐标包括x坐标、y坐标、z坐标或它们的组合。
149.根据前述权利要求中任一项所述的方法,其中所述碱基识别、质量指示符、一种或多种细胞特征和空间坐标包括:一个或多个字母、一个或多个数字、一个或多个符号或其组合。
150.根据前述权利要求中任一项所述的方法,其中所述数据文件是文本文件。
151.根据前述权利要求中任一项所述的方法,其中所述数据文件是fastq文件。
152.根据前述权利要求中任一项所述的方法,其中所述数据文件是ascii编码的。
153.根据前述权利要求中任一项所述的方法,其中所述数据文件是8位、12位、16位、18位、32位或36位编码格式的。
154.根据前述权利要求中任一项所述的方法,其中所述一个或多个分隔符中的每一者包括:字母、数字、符号或其组合。
155.根据前述权利要求中任一项所述的方法,其中所述一个或多个分隔符中的每一者包括:字母、数字、符号或其组合。
156.根据前述权利要求中任一项所述的方法,其中一种或多种细胞特征的所述数据由所述一个或多个分隔符基于所述细胞特征的所述空间坐标来分隔。
157.根据前述权利要求中任一项所述的方法,其中一种或多种细胞特征的所述数据被分隔成多个条目,所述多个条目中的每个条目对应于所述支持物上的空间位置。
158.根据前述权利要求中任一项所述的方法,其中所述空间位置处于3d。
159.根据前述权利要求中任一项所述的方法,其中一种或多种细胞特征的所述数据被分隔成多个条目,所述多个条目中的每个条目对应于一组空间坐标。
160.根据前述权利要求中任一项所述的方法,其中所述一组空间坐标包括:x坐标、y坐标、z坐标或它们的组合。