本申請要求2015年8月13日提交的美國臨時專利申請?zhí)?2/204,937和2015年11月12日提交的美國臨時專利申請?zhí)?2/254,589的權益,所述申請各自全部以引用方式并入本文。
背景
聚合物分子的較大陣列具有廣泛的應用,并且對于醫(yī)療、生物技術和醫(yī)藥產業(yè)來說極其重要。例如,寡核苷酸探針的陣列被證明是用于大規(guī)模DNA和RNA序列分析的強大工具。核酸檢測領域已被微陣列改變,所述微陣列允許監(jiān)測基因表達事件、表達譜分析、診斷和基因分型分析以及其他應用。承載核酸探針陣列的基底需要以一定的方式來制造,所述方式允許精確有效地進行測定如表達監(jiān)測、基因分型和其他研究。隨著在藥物基因組學和診斷領域中考慮微陣列的更多敏感應用,例如,在本領域中存在對于以增加的精度、效率和更低的成本來生產聚合物陣列的方法和技術的需要。
概述
通常,在設計微陣列時,設計者面臨“邊界距離最小化問題”(BLMP),例如,如何在N x N大小的網格中放置相同長度的給定N x N系列,以使得在網格中的所有成對近鄰上匯總的海明距離可得以最小化。(Kundeti等人“Border Length Minimization Problem on a Square Array”,Journal of Computational Biology 21.6(2014):446-455)如論文中論述,減少相鄰嵌入之間的海明距離的此總和可減少合成誤差的數(shù)目。
Feldman等人產生掩模組,試圖最小化芯片的“邊界距離”。(Feldman等人"Gray code masks for sequencing by hybridization."Genomics 23.1(1994):233-235)然而,所得芯片含有所有可能的n聚體的事實由于既定限制因素而使得它不適合于用作例如寡核苷酸條形碼的來源。
在此確認需要制造含有聚合物陣列的芯片,其中“邊界距離”可最小化并且所得聚合物適用于諸如寡核苷酸條形碼的應用中。對于需要在特征之間沒有間隙的芯片的應用來說,“邊界距離”的此最小化可為尤其重要的。本公開提供產生具有誤差矯正能力的聚合物(諸如DNA序列)的方法。所述方法可包括產生掩模組,其中相鄰嵌入的編輯距離(例如,海明距離)可全部等于1(如果所有嵌入是獨特的,那么1是成對嵌入之間的最小可能編輯距離),以使得編輯距離的總和可在其絕對最小值下,并且,同等地,“邊界距離”可在其絕對最小值下。本公開的方法也可在聚合物(諸如DNA序列)合成期間減少誤差風險。
本公開的方面提供包含至少1,000個不同聚合物的陣列,每個聚合物偶合至表面上的不同位置,其中每個聚合物與和它相鄰的聚合物的差異為至多5個亞單位。在本文提供方面的一些實施方案中,每個聚合物與和它相鄰的聚合物的差異為且僅為一個亞單位。在本文提供方面的一些實施方案中,第一聚合物與相鄰第二聚合物的差異為單一亞單位的插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,陣列包含至少10,000個聚合物。在本文提供方面的一些實施方案中,陣列包含至少100,000個聚合物。在本文提供方面的一些實施方案中,聚合物中的每一個包含至少10個亞單位。在本文提供方面的一些實施方案中,聚合物中的每一個包含至少20個亞單位。在本文提供方面的一些實施方案中,聚合物中的每一個包含至少50個亞單位。在本文提供方面的一些實施方案中,聚合物中的每一個與至少兩個其他聚合物相鄰。在本文提供方面的一些實施方案中,聚合物中的每一個與至少三個其他聚合物相鄰。在本文提供方面的一些實施方案中,固定在兩個不相鄰位置處的聚合物彼此差異為至少與兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,固定于兩個不相鄰位置處的聚合物具有至少與兩個位置之間的位置的數(shù)目相同數(shù)目的不同亞單位數(shù)目。在本文提供方面的一些實施方案中,聚合物以具有n行和m列的二維圖案布置于表面上,其中n和m為整數(shù)。在本文提供方面的一些實施方案中,n為至少30。在本文提供方面的一些實施方案中,n為至少1,000。在本文提供方面的一些實施方案中,n為至少5,000。在本文提供方面的一些實施方案中,m為至少30。在本文提供方面的一些實施方案中,m為至少1,000。在本文提供方面的一些實施方案中,m為至少5,000。在本文提供方面的一些實施方案中,聚合物中的每一個包含第一節(jié)段、第二節(jié)段和第一節(jié)段與第二節(jié)段之間的第三節(jié)段,節(jié)段中的每一個包含至少兩個亞單位。在本文提供方面的一些實施方案中,第一節(jié)段與表面相鄰并且第二節(jié)段遠離表面。在本文提供方面的一些實施方案中,聚合物中的每一個具有相同的第三節(jié)段。在本文提供方面的一些實施方案中,固定于同一列中的相鄰位置處的聚合物具有相同的第一節(jié)段并且在第二節(jié)段中的差異為至多5個亞單位。在本文提供方面的一些實施方案中,聚合物在第二節(jié)段中的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,聚合物在第二節(jié)段中的差異為且僅為一個亞單位。在本文提供方面的一些實施方案中,聚合物在第二節(jié)段中的差異為單一亞單位的插入、缺失取代或易位。在本文提供方面的一些實施方案中,固定于同一行中的相鄰位置處的聚合物具有相同的第二節(jié)段并且在第一節(jié)段中的差異為至多5個亞單位。在本文提供方面的一些實施方案中,聚合物在第一節(jié)段中的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,聚合物在第一節(jié)段中的差異為且僅為一個亞單位。在本文提供方面的一些實施方案中,聚合物在第一節(jié)段中的差異為單一亞單位的插入、缺失、取代或易位。在本文提供方面的一些實施方案中,固定于同一列中的兩個不相鄰位置處的聚合物具有相同的第一節(jié)段并且在第二節(jié)段中彼此差異為至少與兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,固定于同一列中的兩個不相鄰位置處的聚合物在第二節(jié)段的亞單位的數(shù)目上的差異為至少與兩個不相鄰位置之間的位置的數(shù)目相同的數(shù)目。在本文提供方面的一些實施方案中,固定于同一行中的兩個不相鄰位置處的聚合物具有相同的第二節(jié)段并且在第一節(jié)段中彼此差異為至少與兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,固定于同一行中的兩個不相鄰位置處的聚合物在第一節(jié)段的亞單位的數(shù)目上的差異為至少與兩個不相鄰位置之間的位置的數(shù)目相同的數(shù)目。在本文提供方面的一些實施方案中,聚合物中的每一個定位于小于100μm2的面積中。在本文提供方面的一些實施方案中,聚合物中的每一個定位于小于10μm2的面積中。在本文提供方面的一些實施方案中,聚合物中的每一個定位于小于5μm2的面積中。在本文提供方面的一些實施方案中,聚合物以正方形配置來布置。在本文提供方面的一些實施方案中,聚合物以矩形配置來布置。在本文提供方面的一些實施方案中,至少50%的聚合物定位于具有相同大小的不同位置中。在本文提供方面的一些實施方案中,聚合物包含核酸分子。在本文提供方面的一些實施方案中,聚合物選自由以下組成的組:DNA、RNA、PNA、LNA和其混合物。在本文提供方面的一些實施方案中,聚合物是單鏈或雙鏈。
本公開的另一個方面提供合成各自偶合至基底上的不同位置的至少1,000個聚合物的陣列的方法,其包含:(a)提供具有多個不同位置的基底;(b)提供一組掩模,所述組的每個掩模定義基底上的多個不同位置的不同子集;(c)通過使用計算機可執(zhí)行邏輯,從掩模組中選擇掩模來覆蓋基底;(d)通過使用計算機可執(zhí)行邏輯,選擇一個或多個亞單位以便使用所選擇的掩模來引入至基底上的多個不同位置的定義子集處;(e)使用一個或多個亞單位,在基底上的多個不同位置的定義子集處執(zhí)行聚合物合成;并且(f)重復步驟(b)-(e)至少10次,由此產生至少1,000個聚合物的陣列,每個聚合物偶合至多個不同位置中的一個。
在本文提供方面的一些實施方案中,陣列包含至少10,000個聚合物。在本文提供方面的一些實施方案中,多個不同位置中的每一個具有小于5μm2的面積。在本文提供方面的一些實施方案中,至少90%的多個不同位置具有相同面積。在本文提供方面的一些實施方案中,多個不同位置中的每一個具有相同面積。在本文提供方面的一些實施方案中,多個不同位置中的每一個與至少兩個其他不同位置相鄰。在本文提供方面的一些實施方案中,所述組的每個個別掩模包含定義基底上的活動和無活動區(qū)域圖案的多個開口,并且在合成期間,一個或多個亞單位只添加至基底的活動區(qū)域。在本文提供方面的一些實施方案中,每個個別掩模覆蓋基底上的所有不同位置。在本文提供方面的一些實施方案中,開口在單一方向上對齊。在本文提供方面的一些實施方案中,開口中的每一個覆蓋整數(shù)數(shù)目的不同位置并且具有相同形狀。在本文提供方面的一些實施方案中,開口中的每一個具有矩形形狀。在本文提供方面的一些實施方案中,開口中的每一個具有至少0.5μm的寬度。在本文提供方面的一些實施方案中,至少20%的開口具有不同寬度。在本文提供方面的一些實施方案中,至少50%的開口具有不同寬度。在本文提供方面的一些實施方案中,開口中的每一個具有至少500μm的長度。在本文提供方面的一些實施方案中,至少50%的開口具有相同長度。在本文提供方面的一些實施方案中,至少90%的開口具有相同長度。在本文提供方面的一些實施方案中,第一聚合物與相鄰第二聚合物的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。在本文提供方面的一些實施方案中,第一聚合物與相鄰第二聚合物的差異為且僅為單一亞單位的一個插入、缺失、取代或易位。在本文提供方面的一些實施方案中,聚合物中的每一個使用由所述掩模組定義的獨特系列合成步驟來形成,并且用于形成相鄰位置中的毗鄰聚合物的兩個系列合成步驟的彼此差異為至多5個合成步驟。在本文提供方面的一些實施方案中,兩個系列合成步驟的彼此差異為且僅為一個合成步驟。在本文提供方面的一些實施方案中,所述方法進一步包含,在步驟(b)之前,提供計算機可讀介質,所述介質包含代碼,所述代碼在由一個或多個計算機處理器執(zhí)行時,實施產生掩模設計文件的方法,所述掩模設計文件定義所述組的每個個別掩模上的開口圖案。在本文提供方面的一些實施方案中,所述方法進一步包含將掩模設計文件轉換成實體掩模。在本文提供方面的一些實施方案中,陣列的聚合物中的每一個包含第一節(jié)段、第二節(jié)段和第一節(jié)段與第二節(jié)段之間的共同第三節(jié)段,節(jié)段中的每一個包含至少兩個亞單位。在本文提供方面的一些實施方案中,使用同一組掩模來形成聚合物的第一節(jié)段和第二節(jié)段。在本文提供方面的一些實施方案中,提供分別用于形成聚合物的第一節(jié)段和第二節(jié)段的第一組和第二組掩模,并且包含于第一組和第二組掩模中的開口在彼此垂直的兩個方向上對齊。在本文提供方面的一些實施方案中,所述方法進一步包含提供單獨掩模,所述掩模被設計來使基底上的所有不同位置曝光以形成聚合物的第三節(jié)段。在本文提供方面的一些實施方案中,基底包含選自由以下組成的組的材料:氮化硅、二氧化硅和玻璃。在本文提供方面的一些實施方案中,基底為芯片的一部分。在本文提供方面的一些實施方案中,所述組的每個掩模包含選自由以下組成的組的材料:聚合物、半導體和金屬材料。在本文提供方面的一些實施方案中,所述組的每個掩模具有50μm-100mm范圍內的厚度。在本文提供方面的一些實施方案中,(e)進一步包含(i)提供光源并且將所選擇的掩模沿著光源與基底之間的光路來定位,從而在單一步驟的聚合物合成期間在基底上定義活動區(qū)域和無活動區(qū)域的圖案;并且(ii)將來自光源的光束引導至基底以便在基底上的活動區(qū)域內的位置中執(zhí)行光引導合成。在本文提供方面的一些實施方案中,光源在紫外線至近紫外線波長范圍內。在本文提供方面的一些實施方案中,聚合物中的每一個包含至少15個亞單位。在本文提供方面的一些實施方案中,聚合物中的每一個包含至少20個亞單位。
本公開的其他方面和優(yōu)勢從以下詳細說明變得容易為本領域技術人員顯而易知,其中僅示出并描述本公開的例示性實施方案。如認識到,本公開能夠實現(xiàn)其他和不同實施方案,并且其多個細節(jié)能夠在各種明顯方面加以改進,所述改進都不背離本公開。因此,附圖和說明書在本質上視為例示性,并且不是限制性的。
以引用方式并入
在本說明書中提到的所有公布、專利和專利申請以引用的方式并入本文,其引用程度如同每個個別公布、專利或專利申請?zhí)囟ǖ睾蛡€別地指示以引用方式并入。
附圖簡述
本發(fā)明的新穎特征在附加權利要求中詳細闡明。本發(fā)明的特征和優(yōu)勢的更好理解參考闡明例示性實施方案的以下詳細說明來獲得,在以下詳細說明中利用本發(fā)明的原則和附圖,在附圖中:
圖1A示出包含由中間節(jié)段分隔的上部節(jié)段和下部節(jié)段的示例性聚合物;
圖1B示出具有本公開的不同位置的陣列的示例性基底;
圖2示出本公開的示例性掩模;
圖3A示出本公開的示例性多步制造方法(圖中按呈現(xiàn)的順序分別公開SEQ ID NO 5、6和6);
圖3B示出示例性嵌入和使用示例性嵌入的合成聚合物(圖中按呈現(xiàn)的順序分別公開SEQ ID NO 7-10);
圖4示出產生掩模設計文件的示例性工作流程;
圖5示意性地示出經過編程或以其他方式配置來實施本公開的系統(tǒng)和方法的計算機系統(tǒng);
圖6A-6D示出合成聚合物的示例性程序(圖6A公開SEQ ID NO:11);
圖7示出通過使用一組掩模來合成的示例性聚合物條形碼(圖中按呈現(xiàn)的順序分別公開SEQ ID NO 12-13);
圖8示出示例性嵌入和使用本公開的方法來產生的所得DNA序列;
圖9示出示例性嵌入產生方法和所得DNA序列(圖中按呈現(xiàn)的順序分別公開SEQ ID NO 14-17);
圖10示出示例性嵌入產生方法和具有多個節(jié)段的所得DNA序列(圖中按呈現(xiàn)的順序分別公開SEQ ID NO 18-21);并且
圖11示出使用級聯(lián)嵌入來產生具有多個節(jié)段的聚合物的示例性方法。
詳細描述
雖然本文已經示出并描述本發(fā)明的各種實施方案,但是本領域技術人員顯而易知這些實施方案僅作為舉例來提供。許多變化、改變和取代可由本領域技術人員想到而不背離本發(fā)明。應了解可使用本文描述的本發(fā)明的實施方案的各種替代方案。
定義
除非上下文另外明確指出,否則如在本文中使用,單數(shù)形式“一個(種)”和“所述”包括多個指示物。
如本文使用,術語“約”是指所指示的數(shù)值±10%。
如本文使用,開放術語,例如,“包含”、“含有”、“包括(include/including)”、“具有(have/having)”等是指包含,除非另外指示。
如本文使用,術語“嵌入”和“系列合成步驟”是指被設計來在基底上形成個別聚合物的一連串活動和無活動步驟并且可互換使用。舉例來說,如果使用光引導合成方法,那么“嵌入”是指一連串曝光和非曝光步驟。
如本文使用,術語“編輯距離”是指將一種聚合物轉化成另一種聚合物所需要的最小數(shù)目的變化(諸如插入、缺失、取代和易位)。舉例來說,序列AGCGCTTAGCCTAGAGCTCTAG(SEQ ID NO:1)與GCGCTTAGCTTAGAGCTCTATTG(SEQ ID NO:2)之間的編輯距離是4。
如本文使用,術語“聚合物”是指由多個亞單位組成的任何種類的天然或非天然大分子。聚合物可包括只含有單一類型的重復亞單位的均聚物,和含有重復亞單位的混合物的共聚物。在一些情況下,聚合物是由各種不同但是在結構上相關的亞單位構成的生物聚合物,例如,由多個核苷酸亞單位構成的多核苷酸諸如DNA。
如本文使用,術語“亞單位”是指較大分子的子部分或與其他分子一起組裝(或“共組裝”)以形成較大分子復合物諸如聚合物的單一分子。亞單位的非限制性實例包括單體、簡單碳水化合物或單糖部分、脂肪酸、氨基酸和核苷酸。
如本文使用,術語“核酸”總體上是指包含一個或多個核酸亞單位或核苷酸的聚合物。核酸可包括選自腺苷(A)、胞嘧啶(C)、鳥嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其變體的一個或多個亞單位。核苷酸可包括A、C、G、T或U或其變體。核苷酸可包括可并入增長核酸鏈中的任何亞單位。這類亞單位可為A、C、G、T或U,或對于一個或多個互補A、C、G、T或U具有特異性,或與嘌呤(即,A或G或其變體)或嘧啶(即,C、T或U或其變體)互補的任何其他亞單位。亞單位可使得個別核酸堿基或堿基組(例如,AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA或其尿嘧啶對應物)能夠得以拆分。在一些實例中,核酸是脫氧核糖核酸(DNA)或核糖核酸(RNA)或其衍生物。核酸可為單鏈或雙鏈。
如本文使用,術語‘相鄰’或‘相鄰于’包括‘附近’、‘鄰近’和“毗鄰”。在一個實例中,當?shù)谝晃恢门c第二位置直接接觸并且共有共同邊界并且在兩個位置之間沒有空間時,第一位置與第二位置相鄰。在一些情況下,相鄰并非對角地相鄰。
聚合物陣列
本公開的方面提供可用于執(zhí)行多重測定的聚合物的陣列。陣列可包括至少100、250、500、750、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、120,000、140,000、160,000、180,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、600,000、700,000、800,000、900,000、1,000,000、10,000,000、20,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000或更多個獨特聚合物分子。在一些情況下,陣列中的獨特聚合物分子的數(shù)目可在本文描述的任何兩個值之間,例如,約150,000或250,000,000。
陣列的每個聚合物可固定于基底上的不同位置處?;咨系拿總€不同位置可與至少一個其他不同位置相鄰。在一些情況下,每個不同位置可與至少兩個、三個、四個、五個或更多個其他不同位置相鄰。在一些情況下,基底上的一定百分比(例如,至少10%、20%、30%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更大)的不同位置可與至少一個、兩個、三個、四個或更多個其他不同位置相鄰。
固定于不同位置處的聚合物可不同,并且聚合物中的每一個與相鄰聚合物的差異可為最大數(shù)目的單一亞單位。舉例來說,在一些情況下,每個聚合物與相鄰聚合物(即,固定于/偶合于相鄰位置的聚合物)的差異為至多500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、18、16、14、12、10、9、8、7、6、5、4、3或2個亞單位,包括單一亞單位的取代、插入、缺失和/或易位。在一些情況下,聚合物中的每一個與其相鄰聚合物的差異為且僅為一個亞單位。“相鄰聚合物”是指固定于基底上的給定位置的相鄰位置處的聚合物。在一些情況下,第一聚合物與固定于相鄰位置處的第二聚合物的差異可為單一亞單位的取代、插入、缺失或易位。
陣列的每個聚合物可包括超過1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、120、140、160、180、200、300、400、500、600、700、800、900或1,000個亞單位。亞單位可相同或可不相同。
陣列的聚合物可具有相同或不同長度(即,具有相同或不同數(shù)目的亞單位)。舉例來說,在一些情況下,多于或等于10%、20%、30%、40%、50%、60%、70%、80%、90%,或更多的聚合物具有相同或不同長度。在一些情況下,少于或等于約100%、95%、90%、80%、70%、60%、50%、40%、30%、20%、10%或更少的聚合物具有相同或不同長度。在一些情況下,具有相同或不同長度的聚合物的百分比可在本文提供的任何兩個值之間,例如,約55%、65%或75%。
陣列的每個聚合物可包括一個以上節(jié)段,每個節(jié)段可包括一個或多個亞單位。舉例來說,每個聚合物可包括由第三節(jié)段分開的第一節(jié)段和第二節(jié)段。在一些情況下,陣列的一些或所有聚合物共有具有已知亞單位序列的共同第三節(jié)段。聚合物可固定于以圖案,例如,具有行和列的圖案形式布置的不同位置的陣列。固定于同一列中的相鄰位置處的聚合物可具有相同的第一/第二節(jié)段,并且在第二/第一節(jié)段中的差異為最大數(shù)目的亞單位,例如,至多500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、18、16、14、12、10、9、8、7、6、5、4、3或2個亞單位,包括單一亞單位的取代、插入、缺失和/或易位。在一些實例中,固定于同一列中的相鄰位置處的聚合物具有相同的第一/第二節(jié)段,并且在其第二/第一節(jié)段中的差異為且僅為一個亞單位(包括例如,單一亞單位的取代、插入、缺失或易位)。類似地,在一些情況下,固定于同一行中的相鄰位置處的聚合物可具有相同的第二/第一節(jié)段,并且在第一/第二節(jié)段中的差異為最大數(shù)目的亞單位。在一些實例中,固定于同一行中的相鄰位置處的聚合物具有相同的第二/第一節(jié)段,并且在其第一/第二節(jié)段中的差異為且僅為一個亞單位。
另外,固定于同一列中的兩個不相鄰位置處的聚合物可具有相同的第一/第二節(jié)段,并且在第二/第一節(jié)段的亞單位的數(shù)目上的差異為至少與兩個不相鄰位置之間的不同位置的數(shù)目相同的數(shù)目。固定于同一行中的兩個不相鄰位置處的聚合物可具有相同的第二/第一節(jié)段,并且在第一/第二節(jié)段的亞單位的數(shù)目上的差異為至少與兩個不相鄰位置之間的不同位置的數(shù)目相同的數(shù)目。舉例來說,固定于同一列中的兩個不同位置處的聚合物在其之間具有6個其他不同位置,可具有相同的第一/第二節(jié)段,同時在第二/第一節(jié)段的亞單位的數(shù)目上的差異為至少6個亞單位。亞單位差異可包括單一亞單位的取代、插入、缺失和/或易位。
圖1A示出本公開的示例性聚合物。在圖1A中,聚合物包含由第三節(jié)段103分隔的第一節(jié)段101和第二節(jié)段102。第一節(jié)段101、第二節(jié)段102和第三節(jié)段103可為任何長度并且在其中并入任何類型/數(shù)目的單體或亞單位。舉例來說,聚合物分子可為核酸分子,其包括由具有已知序列TTT的第三節(jié)段分隔的第一節(jié)段(或上部節(jié)段)GCAGTGCCACAGA(SEQ ID NO:3)和第二節(jié)段(或下部節(jié)段)CAACAACTGA(SEQ ID NO:4)。在一些情況下,已知序列(例如,序列103)的唯一用途是在聚合物分子的兩個節(jié)段(例如,圖1A中的上部和下部節(jié)段101和102)之間進行區(qū)分。為了避免混淆,用于區(qū)分兩個節(jié)段的序列被設計來使得兩個節(jié)段都不含有相同這種序列。如上并且在本文中別處所述,固定于兩個不同位置(相鄰或不相鄰)的聚合物的序列之間的差異可通過兩個位置的相對位置來確定。如果在聚合物分子中包含一個以上節(jié)段,則固定于兩個不同位置處的聚合物的每個節(jié)段之間的差異也可例如通過兩個位置之間的不同位置的數(shù)目來確定。如果坐標系統(tǒng)用于確定每個不同位置的定位,那么每個不同位置可指派獨特坐標并且這種坐標可用于確定聚合物序列之間的差異。每個坐標可進一步包含一個或多個子坐標。舉例來說,如果位置以具有行和列的陣列來布置,那么每個獨特坐標可進一步包含均可為整數(shù)的水平坐標和垂直坐標。水平和垂直坐標可用于計算分別固定于兩個不同位置處的聚合物的第一和第二節(jié)段的亞單位的數(shù)目的差異。
圖1B示出示例性位置陣列。如圖示出,多個不同位置布置為正方形網格,其中每個單元具有相同邊長。單元的邊長可變化,涵蓋1nm至幾毫米。舉例來說,單元的邊長可大于或等于約1nm、5nm、10nm、20nm、40nm、60nm、80nm、100nm、200nm、400nm、600nm、800nm、1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、15μm、20μm、25μm、30μm、35μm、40μm、45μm、50μm、60μm、70μm、80μm、90μm、100μm、200μm、300μm、400μm、500μm、600μm、700μm、800μm、900μm、1mm、5mm、10mm,或更大。在一些情況下,單元的邊長可小于或等于約50mm、25mm、10mm、5mm、1mm、800μm、600μm、400μm、200μm、100μm、75μm、50μm、40μm、30μm、20μm、10μm、8μm、6μm、4μm、2μm、1μm、750nm、500nm、250nm、100nm、75nm、50nm、25nm、10nm、5nm、1nm,或更小。在一些情況下,單元的邊長可在本文描述的任何兩個值之間,例如,約1.5μm。
坐標系統(tǒng)用于確定每個位置的獨特坐標。每個位置可包括一個或多個聚合物并且固定于相同位置的聚合物具有相同坐標。在此實例中,每個聚合物具有兩個節(jié)段(例如,上部節(jié)段和下部節(jié)段,如圖1A中示出),并且每個位置具有其進一步包含X坐標和Y坐標的獨特坐標。X和Y坐標用于確定分別固定于兩個不同位置處的聚合物的下部和上部節(jié)段之間的最小編輯距離(包括例如,亞單位的數(shù)目的差異)。舉例來說,固定于具有坐標(x1,y1)和(x2,y2)的位置處的兩個聚合物分子的上部節(jié)段與下部節(jié)段之間的差異可通過以下方式來確定:(i)如果|x1-x2|≤4,那么聚合物在下部節(jié)段中的差異為|x1-x2|亞單位;(ii)如果|x1-x2|>4,那么聚合物在下部節(jié)段的亞單位的數(shù)目上的差異為至少4;(iii)如果|y1-y2|≤4,那么聚合物在上部節(jié)段中的差異為|y1-y2|亞單位;或(iv)如果|y1-y2|>4,那么聚合物在上部節(jié)段的亞單位的數(shù)目上的差異為至少4。
在圖1B中,位置110和115的坐標分別為(2,3)和(6,3)。因此,使用坐標,可確定這些兩個位置(即,110和115)處的聚合物分子具有相同上部節(jié)段但是不同的下部節(jié)段具有至少為4的編輯距離。
如本文提供,一些或所有不同位置可包括一個或多個聚合物并且固定于相同位置的聚合物可為相同的。舉例來說,在一些情況下,至少1%、5%、10%、20%、40%、50%、60%、70%、80%、90%、99%或更多的不同位置包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、1000個聚合物,或更多。如果一個以上聚合物固定于不同位置,那么除了例如由聚合物合成期間的無效性導致的誤差以外,聚合物是相同的。誤差率,定義為具有誤差的聚合物的總數(shù)具有正確序列的聚合物的總數(shù)的比率,可用于在使用之前篩選聚合物陣列。對于每個聚合物陣列,在其應用之前,誤差率可確定并且與預定閾值(例如,5%、3%、1%、0.5%、0.1%、0.01%或0.001%)比較,并且僅具有低于預定閾值的誤差率的陣列可發(fā)布供進一步使用。固定于兩個不相鄰位置的聚合物序列之間的差異可通過兩個位置的相對位置來確定。在一些情況下,固定于兩個不相鄰位置的聚合物在聚合物序列上的差異可為至少兩個不相鄰位置之間的位置的相同數(shù)目。舉例來說,固定于兩個位置處的在其之間具有至少5個其他不同位置的聚合物可在序列上的差異為至少5個亞單位,包括亞單位的取代、插入、缺失和/或易位。
在一些情況下,兩個位置的相對定位可通過計算兩個位置之間的可通過位置測定器測量或識別的差異來確定。位置測定器可包括坐標系統(tǒng),其使用一個或多個數(shù)字,或坐標,來確定每個不同位置的獨特定位。在一些情況下,每個位置可1對1對映于它含有的聚合物序列,以使得例如如果聚合物的序列是確定的,那么聚合物固定的不同位置是已知的。
位置可采用各種形狀,諸如圓形、正方形、矩形、多邊形、橢圓形、狹長條、多邊形,或任何其他規(guī)則或不規(guī)則形狀或其組合。每個個別位置或位點的面積可變化。在一些情況下,每個位置具有大于或等于約1納米(nm)2、10nm2、100nm2、500nm2、1000nm2、10,000nm2、50,000nm2、1微米(μm)2、5μm2、10μm2、20μm2、30μm2、40μm2、50μm2、60μm2、70μm2、80μm2、90μm2、100μm2、200μm2、300μm2、400μm2、500μm2、600μm2、700μm2、800μm2、900μm2、1,000μm2、2,000μm2、4,000μm2、6,000μm2、8,000μm2、10,000μm2、25,000μm2、50,000μm2、75,000μm2、100,000μm2或更大的面積。在一些情況下,每個位置具有小于或等于約1,000,000μm2、500,000μm2、100,000μm2、50,000μm2、10,000μm2、7,500μm2、5,000μm2、2,500μm2、1,000μm2、750μm2、500μm2、250μm2、100μm2、80μm2、60μm2、40μm2、20μm2、10μm2、5μm2、1μm2、75,000nm2、50,000nm2、25,000nm2、10,000nm2、5,000nm2、1,000nm2或更小的面積。在一些情況下,每個個別位置可具有本文描述的任何兩個值之間的面積。
不同位置可以陣列形式布置于基底上。陣列可呈任何圖案,諸如線狀圖案、二維圖案(例如,傾斜、矩形、帶心矩形、六邊形(菱形)和正方形網格,或具有n個行和m個列的圖案),或任何規(guī)則或不規(guī)則圖案。如果位置以n個行和m個列的圖案形式布置,那么可使用許多行和列。在一些情況下,n和/或m大于或等于1、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000或更大。在一些情況下,n和/或m小于或等于1,000,000、500,000、250,000、100,000、75,000、50,000、25,000、10,000、7,500、5,000、2,500、1,000、750、500、250、100、80、60、40、20、10、5,或更小。在一些情況下,n和/或m可如上所述的任何兩個值之間的任何數(shù)字,例如,15、150或3,500。
基底可為固體或半固體。基底可包括一個或多個由相同或不同材料制成的層,諸如金屬、玻璃、半導體、合成或天然材料和有機或無機材料??捎糜谛纬苫椎牟牧系姆窍拗茖嵗砂úA?、石英、硅、硅基材料(例如氮化硅或二氧化硅)、金屬、塑料、聚合物材料(例如熱固性、彈性體、熱塑性、聚苯乙烯、尼龍、聚多巴胺(PDA)、聚氯乙烯(PVC)、聚(二甲基硅氧烷)(PDMS)、聚偏二氟乙烯等)、紙、水凝膠或其組合?;卓刹捎酶鞣N形狀,1維、2維或3維,諸如薄片、球體、立方體、長方體、錐體、圓柱體、棱柱、角錐體、管、板、圓盤、棒或任何規(guī)則或不規(guī)則形狀。在一些情況下,基底為芯片的一部分。芯片可包括數(shù)百萬個微米尺度特征,每個特征含有獨特聚合物,即,DNA序列的數(shù)千個拷貝。
基底可進一步包含表面?;椎谋砻婵蔀槠教贡砻?、彎曲表面或具有凸起和/或凹陷區(qū)域的表面,所述區(qū)域可促進實施本公開的方法。表面上的凸起/凹陷區(qū)域可為連續(xù)、半連續(xù)或不連續(xù)。在一些情況下,基底的表面可具有交替凸起和凹陷區(qū)域(例如,孔,所述孔可保持溶劑,即適合于執(zhí)行本公開方法的試劑)。在一些情況下,基底的表面劃分成許多獨立區(qū)段并且每個個別區(qū)段包含多個不同位置并且被配置來產生不同類型的聚合物(例如,DNA、RNA和有機聚合物)。聚合物可包括具有許多單體或亞單位的任何類型的分子,例如,核酸分子。聚合物可為單鏈或雙鏈。在一些情況下,聚合物選自由以下組成的組:DNA、RNA、PNA、LNA和其混合物。
基底的表面可修飾以促進或有助于產生或合成聚合物。舉例來說,如果使用光刻技術,則基底表面可用對光不穩(wěn)的保護基團來修飾。一旦表面經由光刻掩模來照明,那么反應性羥基可在照明區(qū)域中產生并且聚合物分子的單體或亞單位可連接至其上。通過連續(xù)地添加單體或亞單位至預先存在的鏈,聚合物分子得以合成。在一個實例中,將在5′羥基處用對光不穩(wěn)的基團來保護的3′活化脫氧核苷提供至表面以使得偶合在已經曝露于光的位點處發(fā)生。脫氧核苷的5’-末端的保護防止后續(xù)不必要的(光)化學反應。選擇性光去保護和偶合循環(huán)可重復直到獲得所需探針組為止。此過程的變化可使用通過光刻技術來選擇性圖案化的聚合物半導體光阻劑,而非使用對光不穩(wěn)的5′保護基團。在一些情況下,在添加每個單體或亞單位時,使用光活化保護性基團。這類光活化保護性基團本身對于光敏感并且可在曝露于光時活化。
如上并且在本文中別處所述,基底表面可劃分成若干空間分離區(qū)段,每個區(qū)段可包括多個不同位置。取決于應用,每個區(qū)段可用于合成相同或不同類型的聚合物并且不同區(qū)段內的位置可或可不采用相同形狀、具有相同面積和/或以相同圖案來布置。
方法
本公開的另一個方面提供在基底上合成聚合物的陣列的方法。聚合物陣列可包括至少100、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、250,000、300,000、350,000、400,000、450,000、500,000、600,000、700,000、800,000、900,000、1,000,000、10,000,000、20,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000,或更多個獨特聚合物分子。首先,可提供可適合于聚合物合成用途的基底。基底可包括多個不同位置。每個位置可包括能夠將聚合物的亞單位連接至基底的至少一個位點。每個位置可與至少一個、兩個、三個、四個、五個或六個其他位置相鄰。每個位置可具有或可不具有相同大小、形狀或面積。在一些情況下,一定百分比的位置具有相同或不同大小、形狀和/或面積,例如,大于或等于10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或99%的位置可具有相同大小、形狀和/或面積。
隨后,可提供一組掩模。所述組的每個掩??捎糜谠诨咨隙x不同位置的不同子集。每個掩??砂ǘ鄠€開口,其定義基底上的活動區(qū)域和無活動區(qū)域的圖案。在聚合物合成期間,亞單位可只添加至活動區(qū)域內的位置。
開口可采用各種規(guī)則或不規(guī)則的形狀,諸如正方形、矩形、三角形、菱形、六邊形和圓形。每個掩??删哂衅渥陨黹_口設計,所述設計定義基底上的活動和無活動區(qū)域的不同圖案。開口可在或可不在單一方向上對齊。每個開口可覆蓋基底上的整數(shù)數(shù)目的不同位置。對于每個掩模,開口可具有或可不具有相同形狀。對于基底上的每個不同位置,掩模組共同地可定義用于在此位置形成聚合物的獨特系列合成步驟或嵌入(即,將要引入基底上的亞單位的序列)。每個掩??捎糜谛纬删酆衔锏闹辽僖粋€合成步驟。在一些情況下,掩模組被設計來使得用于在兩個相鄰位置處形成聚合物的每個成對系列的合成步驟(或嵌入)彼此差異為最大數(shù)目的合成步驟,例如,至多500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、18、16、14、12、10、9、8、7、6、5、4、3或2個合成步驟。在一些情況下,用于在兩個相鄰位置處形成聚合物的兩個系列合成步驟彼此差異為且僅為一個合成步驟。舉例來說,用于在兩個相鄰位置處合成毗鄰聚合物的每一對嵌入的差異為且僅為一個曝光/非曝光步驟。
對于每個掩模,一定百分比(例如,1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或更大)或所有的開口可具有相同長度和/或寬度。在一些情況下,開口的長度可與基底相同。在一些情況下,開口的長度可小于基底的長度以使得一個掩模只能夠掩蔽基底的一部分。如果所有開口具有相同長度,那么其寬度可變化并且一個或多個開口可或可不具有相同寬度。舉例來說,開口的寬度可大于或等于約1nm、10nm、50nm、100nm、250nm、500nm、750nm、1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、20μm、40μm、60μm、80μm、100μm、200μm、300μm、400μm、500μm、600μm、700μm、800μm、900μm、1,000μm,或更大。在一些情況下,開口的寬度可小于或等于約50mm、10mm、1,000μm、900μm、800μm、700μm、600μm、500μm、400μm、300μm、200μm、100μm、90μm、80μm、70μm、60μm、50μm、40μm、30μm、20μm、10μm、8μm、6μm、4μm、2μm、1μm,或更小。在一些情況下,開口的寬度可在本文描述的任何兩個值之間,例如,約12μm。
開口的長度可變化。在一些情況下,開口中的每一個具有大于或等于約1μm、10μm、25μm、50μm、75μm、100μm、200μm、400μm、600μm、800μm、1,000μm、2,000μm、3,000μm、3,500μm、4,000μm、4,500μm、5,000μm、5,500μm、6,000μm、7,000μm、8,000μm、9,000μm、10,000μm,或更大的長度。在一些情況下,開口的長度可小于或等于約50,000μm、25,000μm、10,000μm、8,000μm、7,000μm、6,500μm、6,000μm、5,500μm、5,000μm、4,500μm、4,000μm、3,000μm、2,000μm、1,000μm、800μm、600μm、400μm、200μm、100μm,或更小。在一些情況下,開口的長度可在本文描述的任何兩個值之間,例如,約4,900μm。
為了合成具有多個節(jié)段的聚合物,可提供超過一組掩模并且每一組掩??捎糜诤铣衫缇酆衔锏奶囟ü?jié)段。舉例來說,具有相同長度但是不同寬度的開口的第一組掩模可用于形成聚合物的第一節(jié)段并且具有相同寬度但是不同長度的開口的第二組掩??捎糜谛纬删酆衔锏牡诙?jié)段。第一組和第二組掩模的開口可分別在第一方向和第二方向上對齊,并且第一和第二方向可彼此垂直。在一些情況下,用于第一節(jié)段合成的同一組掩??赏ㄟ^將掩模旋轉90度來用于形成聚合物的第二節(jié)段。第三組掩模(或單獨掩模)可在一些情況下用于形成聚合物的第三節(jié)段(例如,由所有聚合物共同共用的已知聚合物序列),其掩模可被設計來使所有位置經受聚合物合成。
掩模可由各種材料形成,諸如玻璃、硅基(例如,二氧化硅氮化物、二氧化硅)、聚合物、半導體或金屬材料。在一些情況下,掩模包含光刻掩模(或光掩模)。掩模的厚度可變化。在一些情況下,掩模可具有大于或等于1μm、10μm、50μm、100μm、250μm、500μm、750μm、1毫米(mm)、2mm、3mm、4mm、5mm、6mm、7mm、8mm、9mm、10mm、15mm、20mm、25mm、30mm、35mm、40mm、45mm、50mm,或更大的厚度。在一些情況下,掩??删哂行∮诨虻扔诩s500mm、250mm、100mm、50mm、40mm、30mm、20mm、10mm、8mm、6mm、4mm、2mm、1mm、900μm、800μm、700μm、600μm、500μm、400μm、300μm、200μm、100μm,或更小的厚度。在一些情況下,掩模的厚度可在本文描述的任何兩個值之間,例如,約7.5mm。
圖2示出本公開的示例性掩模。如圖2中示出,掩模中的開口(示出為白色矩形方框)用于合成聚合物分子(即,在掩模安置于基底上方時,在開口下方的位置將會曝光并且經受聚合物合成)。每個開口具有5μm的最小寬度并且可覆蓋基底上的一個或多個位置,取決于例如每個個別位置的尺寸和面積。掩模被設計來使得在它相對于基底對齊時,基底上的選定位置可得以活化并且亞單位可添加至其上。
隨后,可提供計算機可執(zhí)行邏輯并且用于(i)選擇覆蓋基底的掩模;和(ii)選擇使用掩模來引入至基底上的每個位置上的一個或多個亞單位。選擇掩模一個或多個亞單位的計算機可執(zhí)行邏輯被配置來產生聚合物陣列。在基底上的不同位置處合成(并且因此固定)的每個聚合物可具有獨特序列(或系列亞單位)。固定于不同位置處的每個聚合物與固定于相鄰不同位置處的另一個聚合物在序列上的差異可為最大數(shù)目的亞單位,例如,至多500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、18、16、14、12、10、9、8、7、6、5、4、3或2,包括單一亞單位的取代、插入、缺失和/或易位。隨后,聚合物合成可使用選定掩模和系列亞單位來執(zhí)行。
各種技術可用于在基底上合成聚合物,例如,化學合成、電化學合成或光電化學合成。在一些情況下,使用光引導合成。可提供光源。光源可在基底上執(zhí)行聚合物分子的光引導合成。光源可提供各種形式的輻射,諸如可見光、紫外線(UV)、紅外線(IR)、遠紫外光刻(EUV)、X射線、電子和離子。光源可提供單一波長,例如激光或波長帶。在一些情況下,由光源提供的光束可在紫外線至近紫外線波長范圍內??商峁┭谀2⑶已刂庠磁c基底之間的光路來定位。
如上并且在本文中別處所述,多個合成步驟可包含于整個聚合物合成過程中,并且在一些情況下,對于每個個別步驟,僅選擇一個掩模并且沿著基底與光源之間的光路來安置。在一些情況下,為了合成具有亞單位的預先定義序列的聚合物分子,可使用一組掩模并且組合掩模確定用于基底上的所有位置的一組多個系列的合成步驟(一系列曝光和非曝光步驟)。聚合物陣列的示例性多步合成路線在圖3A中示出。
如本文提供,如在下文進一步詳細描述的計算機系統(tǒng)可用于產生掩模設計文件,其用于產生在合成反應中使用的實體掩模。計算機系統(tǒng)可包括計算機可讀介質,所述介質包含代碼,所述代碼在由一個或多個計算機處理器執(zhí)行時,實施產生掩模設計文件的方法。在一些情況下,掩模組可被設計來使得用于在相鄰位置形成聚合物的所有成對系列的合成步驟彼此差異為至多500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、18、16、14、12、10、9、8、7、6、5、4、3或2個合成步驟,例如,為且僅為一個合成步驟。這可極大地減少合成期間的誤差的數(shù)目。圖3B示出此實例。如圖3B中示出,每個“系列曝光步驟”用于合成相應合成寡核苷酸。在給定“系列曝光步驟”中,“1”指示相應位置在此步驟期間得到曝光,并且沉積序列中的相應亞單位得以添加至合成寡核苷酸;“0”指示位置不獲得曝光并且亞單位未得以添加。舉例來說,第一“系列曝光步驟”中的前兩個1在第一和第三位置處,所述位置對應于沉積序列中的A,然后G,因此第一寡核苷酸中的前兩個堿基為“AG”等。相鄰成對“系列曝光步驟”中的每一對(例如,位置1和2,2和3,3和4,和4和1)彼此差異僅為單一步驟。雖然在當前實例中,“系列曝光步驟”由系列“0”和“1”來表示,但是應了解各種方法可用于表示“系列曝光步驟”。
可選擇沉積序列以使得合成步驟(或循環(huán))的數(shù)目可得以最小化。在一些情況下,沉積序列可為反復添加某種短序列(例如,以上實例中的ACGT)。聚合物分子可通過沉積序列的足夠長重復來合成直到分子到達預定長度為止。
圖4示出產生嵌入列表(或系列合成步驟)的示例性工作流程。在第一操作400中,選擇用于合成的沉積序列。隨后,在第二操作405中,使用空的嵌入列表(例如,用于某一位置一系列曝光和非曝光步驟)。
在產生此嵌入列表之后,在第三操作410中,隨機選擇表示第一聚合物的掩模步驟的嵌入。然后,選定嵌入轉化成相應聚合物。在一些情況下,在下一個操作415之前,轉化聚合物針對多個預先定義限制因素來測試??赡芟拗埔蛩氐膶嵗砂ǖ遣幌抻阪滈L;聚合物的化學、物理、熱、電氣性質;生物性質諸如具體范圍中的GC和/或AT含量;一定范圍中的ATG含量;核苷酸重復序列;復雜性;與反向互補序列的編輯距離;與由嵌入列表中的嵌入隱含的其他聚合物的編輯距離;存在禁止序列(例如,在一行中具有一定數(shù)目的由G和C或A和T組成的組的核苷酸的序列,具有起始密碼子的序列,或與共同、第三節(jié)段相同的序列);熔融溫度;超過一定范圍的均聚物延伸(或均聚物極限);形成分子內二級結構(例如,發(fā)夾結構)的傾向;分子間粘接的傾向;排除具體基元(例如,在使用限制酶時);與基因組DNA的較低相似性;與mRNA序列的較低相似性等;和其組合。如果轉化分子符合限制因素415a,然后將選定嵌入添加至以前建立的空嵌入列表。否則必須選擇另一個隨機嵌入并且試驗415b。
在步驟415a之后,一旦嵌入列表達到所需長度420,則它可用于合成聚合物分子420a以使得用于合成相鄰位置中的毗鄰分子的嵌入彼此差異為且僅為一個合成步驟(例如,在光引導聚合物合成中,用于合成相鄰位置中的聚合物的所有成對嵌入的差異為且僅為一個曝光/非曝光步驟)。
然而,如果嵌入列表未到達預定長度,那么對于最近附加嵌入產生一個變化并且新產生的嵌入轉化成其相應聚合物分子420b。舉例來說,如果嵌入由系列“0”和“1”來表示(例如,“1010010010010001000101000111”,如用于圖3B中),“一個變化”是指在使用光引導合成時,僅存在可改變的一個合成步驟諸如曝光步驟(即,“1”)或非曝光步驟(即,“0”)。此操作420b可重復執(zhí)行直到嵌入列表達到所需長度為止。在步驟420b中的每個轉化分子可任選地針對某些限制因素425來測試并且如果它未能滿足一個或多個限制因素,那么產生另一個隨機變化430。然而,如果轉化分子通過測試,那么將產生分子的嵌入添加至嵌入列表并且步驟420-425可重復。
合成過程可通過將來自光源的光束在掩模圖案中引導至基底來啟始。活動區(qū)域內的位置可曝露于光束并且經受聚合物分子的光引導合成。聚合物的單體或亞單位可修飾以使得單體(或亞單位)的一個末端對于進一步作用不起反應并且每次僅有一個單體(或亞單位)可參與合成反應。
可提供坐標系統(tǒng)來確定基底上的每個位置的位置信息(例如,坐標)。使用坐標,位于兩個不同位置的聚合物的亞單位的序列之間的差異可例如通過計算兩個位置的相對位置(或坐標之間的差異)來確定。
可停止聚合物合成直到已經選擇并使用所有掩模??芍貜秃铣煞磻暮铣刹襟E直到一定百分比(例如,大于或等于至少10%、20%、30%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%、99.99%或更大)的位置具有連接至其上的至少一個聚合物分子和/或連接分子符合某些預先定義性質為止,所述性質諸如鏈長(例如,聚合物鏈含有至少10、20、30、40、50、60、70、80、90、100或更多個亞單位),組成(例如,聚合物鏈含有至少20%的A、G、T或C),GC含量(例如,不超過10%、20%、30%、40%、05 50%),相鄰或毗鄰分子之間的編輯距離(例如,毗鄰分子具有1的編輯距離或最小距離),或如上或在本文中別處所述的任何限制因素或其組合。
在一些情況下,合成步驟可重復(例如,至少5、10、25、50、75、100、200、300、400、500、600、700、800、900,或更多次)直到基底具有至少10、50、100、200、400、600、800、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、1,000,000、10,000,000、20,000,000、30,000,000、40,000,000、50,000,000、60,000,000、70,000,000、80,000,000、90,000,000、100,000,000、200,000,000、300,000,000、400,000,000、500,000,000、600,000,000、700,000,000、800,000,000、900,000,000、1,000,000,000、2,000,000,000、3,000,000,000、4,000,000,000、5,000,000,000,或更多個位置具有在其上合成的聚合物分子。在一些情況下,其中具有分子的位置的數(shù)目可在本文描述的任何兩個值之間,例如,250,000。
計算機系統(tǒng)
本公開提供計算機系統(tǒng),其編程序或另外被配置來實施本文提供的方法,諸如產生掩模設計文件,所述文件定義每個個別位置的系列曝光步驟。圖5示出計算機系統(tǒng)501,其包括中央處理單元(CPU,在本文中也稱為“處理器”和“計算機處理器”)505,其可為單一核心或多核心處理器,或用于并行處理的多個處理器。計算機系統(tǒng)501還包括存儲器或存儲單元510(例如,隨機存取存儲器、只讀存儲器、閃速存儲器),電子存儲單元515(例如,硬盤),與一個或多個其他系統(tǒng)通信的通信接口520(例如,網絡適配器),和外圍裝置525,諸如高速緩沖存儲器、其他存儲器、數(shù)據(jù)存儲和/或電子顯示適配器。存儲器510、存儲單元515、接口520和外圍裝置525經由通信總線(實線)諸如母板與CPU 505通信。存儲單元515可為用于存儲數(shù)據(jù)的數(shù)據(jù)存儲單元(或數(shù)據(jù)儲存庫)。計算機系統(tǒng)501可借助于通信接口520來可操作地耦接至計算機網絡(“網絡”)530。網絡530可為互聯(lián)網、互聯(lián)網和/或外聯(lián)網或與互聯(lián)網通信的內部網和/或外聯(lián)網。網絡530在一些情況下為電信和/或數(shù)據(jù)網絡。網絡530可包括一個或多個計算機服務器,其可實現(xiàn)分布式計算,諸如云計算。網絡530在一些情況下借助于計算機系統(tǒng)501,可實施對等網絡,其可使得耦接至計算機系統(tǒng)501的裝置能夠作為客戶端或服務器來運作。
CPU 505可執(zhí)行序列機器可讀指令,所述指令可在程序或軟件中具體實現(xiàn)。指令可存儲于存儲單元,諸如存儲器510中。指令可被引導至CPU 505,其可隨后編程或另外配置CPU 505來實施本公開的方法。由CPU 505執(zhí)行的操作的實例可包括擷取、解碼、執(zhí)行和寫回。
CPU 505可為電路的一部分,諸如集成電路。系統(tǒng)501的一個或多個其他部件可包含于電路中。在一些情況下,電路是專用集成電路(ASIC)。
存儲單元515可存儲文件,諸如驅動程序、文庫和保存程序。存儲單元515可存儲使用者數(shù)據(jù),例如,使用者偏好和使用者程序。計算機系統(tǒng)501在一些情況下可包括一個或多個額外數(shù)據(jù)存儲單元,所述單元在計算機系統(tǒng)501外部,諸如位于經由內部網或互聯(lián)網與計算機系統(tǒng)501通信的遠程服務器上。計算機系統(tǒng)501可經由網絡530與一個或多個遠程計算機系統(tǒng)通信。
如本文描述的方法可經由機器(例如,計算機處理器)可執(zhí)行代碼來實施,所述代碼存儲于計算機系統(tǒng)501的電子存儲位置上,例如像,存儲器510或電子存儲單元515。機器可執(zhí)行或機器可讀代碼可以軟件形式提供。在使用期間,代碼可由處理器505執(zhí)行。在一些情況下,代碼可從存儲單元515擷取并且存儲在存儲器510上準備由處理器505訪問。在一些情況下,可排除電子存儲單元515,并且機器可執(zhí)行指令存儲于存儲器510上。
代碼可預先編譯并且被配置來供具有適于執(zhí)行代碼的處理器的機器來使用,或可在執(zhí)行時間期間加以編譯。代碼可以程序語言來提供,可選擇所述程序語言以使得代碼能夠以預先編譯或原樣編譯方式來執(zhí)行。
計算機系統(tǒng)501可編程序或另外被配置來調控一個或多個參數(shù),諸如施加于納米間隙電極對的電極兩端的電壓、溫度、核酸分子的流動速率,和信號采集的時間周期。
本文提供的系統(tǒng)和方法,諸如計算機系統(tǒng)501的各個方面可在程序編制中具體實現(xiàn)。技術的各個方面可被認為是通常呈機器(或處理器)可執(zhí)行代碼和/或相關數(shù)據(jù)形式的“產品”或“制品”,所述數(shù)據(jù)承載或具體實現(xiàn)于一定類型的機器可讀介質中。機器可執(zhí)行代碼可存儲于電子存儲單元,諸如存儲器(例如,只讀存儲器、隨機存取存儲器、閃速存儲器)或硬盤上?!按鎯Α鳖愋徒橘|可包括計算機、處理器等的任何或所有有形存儲器,或其相關聯(lián)模塊,諸如各種半導體存儲器、磁帶驅動器、磁盤驅動器等,其可在任何時候提供非暫時性存儲用于軟件編程。軟件的全部或一部分可有時經由互聯(lián)網或各種其他電信網絡來傳送。這類通信,例如,可使得將軟件從一個計算機或處理器加載至另一個計算機或處理器,例如,從管理服務器或主機計算機加載至應用服務器的計算機平臺中。因此,可承載軟件元件的另一種類型的介質包括光、電和電磁波,諸如跨越本地裝置之間的物理接口、經由有線和光學陸地線網絡和各種空中鏈路所使用的光、電和電磁波。攜帶這些波的物理元件,諸如有線或無線鏈路、光鏈路等也可被認為是承載軟件的介質。如本文使用,除非限于非暫時性、有形“存儲”介質,術語諸如計算機或機器“可讀介質”是指參與提供指令至處理器供執(zhí)行的任何介質。
因此,機器可讀介質,諸如計算機可執(zhí)行代碼,可采用許多形式,包括但不限于有形存儲介質、載波介質或物理傳輸介質。非易失性存儲器介質包括,例如,光盤或磁盤,諸如任何計算機等中的任何存儲裝置,諸如在附圖中示出的可用于實施數(shù)據(jù)庫等的存儲裝置。易失性存儲器介質包括動態(tài)存儲器,諸如這類計算機平臺的主存儲器。有形傳輸介質包括同軸電纜;銅線和光導纖維,包括構成計算機系統(tǒng)中的總線的導線。載波傳輸介質可采用電或電磁信號,或聲或光波的形式諸如在射頻(RF)和紅外(IR)數(shù)據(jù)通信期間產生的信號。常見形式的計算機可讀介質因此包括例如:軟盤、軟磁盤、硬盤、磁帶、任何其他磁介質、CD-ROM、DVD或DVD-ROM、任何其他光學介質、沖孔卡紙帶、具有孔圖案的任何其他物理存儲器介質、RAM、ROM、PROM和EPROM、快閃EPROM、任何其他存儲器芯片或盒、運輸數(shù)據(jù)或指令的載波、運輸這類載波的電纜或鏈路,或計算機可讀取編程代碼和/或數(shù)據(jù)的任何其他介質。許多這些形式的計算機可讀介質可涉及運送一個或多個指令的一個或多個序列至處理器供執(zhí)行。
計算機系統(tǒng)501可包括或與電子顯示器535通信,所述顯示器包含用戶接口(UI)540用于提供例如聚合物分子合成的進展。UI的實例包括但不限于圖形用戶接口(GUI)和基于網路的用戶接口。
本公開的方法和系統(tǒng)可經由一個或多個算法來實施。算法可在由中央處理單元505執(zhí)行時經由軟件來實施。
應用
本公開的方法和聚合物陣列可適用于多種情形,例如,生物技術行業(yè)中的多重測定或核酸測序。通過本公開所描述的方法來產生的聚合物陣列可用于標記、跟蹤、識別和/或測序任何試樣或物質,諸如DNA或RNA分子。舉例來說,大腸桿菌具有大約4.6Mb的基因組,其可在一個過程中測序。測序DNA或RNA的較大節(jié)段,例如50kb或100kb,可精確地表征一些重復序列和較大結構變化,但是可能會錯誤地描述兆堿基數(shù)量級上的結構變化。本文描述的方法和聚合物陣列可更精確地表征重復序列、較大結構變化和兆堿基尺度結構變化。所測序的核酸分子可為整個基因組,例如大腸桿菌基因組。所測序的核酸分子可為人DNA或染色體的極長鏈。
試樣或物質可為例如用于試樣處理的任何物質,諸如試劑或分析物。示例性試樣可包括全細胞、染色體、多核苷酸、有機分子、蛋白質、多肽、碳水化合物、糖類、糖、脂質、酶、限制酶、連接酶、聚合酶、條形碼、接頭、小分子、抗體、熒光團、脫氧核苷酸三磷酸(dNTP)、雙脫氧核苷酸三磷酸(ddNTP)、緩沖液、酸性溶液、堿性溶液、溫度敏感酶、pH敏感酶、光敏感酶、金屬、金屬離子、氯化鎂、氯化鈉、錳、水性緩沖液、輕度緩沖液、離子緩沖液、抑制劑、油、鹽、離子、洗滌劑、離子洗滌劑、非離子洗滌劑、寡核苷酸、核苷酸、DNA、RNA、肽多核苷酸、互補DNA(cDNA)、雙鏈DNA(dsDNA)、單鏈DNA(ssDNA)、質粒DNA、粘粒DNA、染色體DNA、基因組DNA、病毒DNA、細菌DNA、mtDNA(線粒體DNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、微小RNA、dsRNA、核酶、核糖開關和病毒RNA、蛋白水解酶、核酸酶、蛋白水解酶抑制劑、核酸酶抑制劑、螯合劑、還原劑、氧化劑、探針、發(fā)色團、染料、有機物、乳化劑、表面活性劑、穩(wěn)定劑、聚合物、水、藥物、放射性分子、防腐劑、抗生素、適體等。
僅出于舉例說明的目的,本公開包括但不限于以下實施方案:
1.一種陣列,其包含至少1,000個不同聚合物,每個聚合物偶合至表面上的不同位置,其中每個聚合物與和它相鄰的聚合物的差異為至多5個亞單位。
2.如實施方案1所述的陣列,其中每個聚合物與和它相鄰的聚合物的差異為且僅為一個亞單位。
3.如實施方案1或2所述的陣列,其中第一聚合物與相鄰第二聚合物的差異為單一亞單位的插入、缺失、取代和/或易位。
4.如實施方案1至3中任一項所述的陣列,其包含至少10,000個聚合物。
5.如實施方案4所述的陣列,其包含至少100,000個聚合物。
6.如實施方案1至5中任一項所述的陣列,其中所述聚合物中的每一個包含至少10個亞單位。
7.如實施方案6所述的陣列,其中所述聚合物中的每一個包含至少20個亞單位。
8.如實施方案7所述的陣列,其中所述聚合物中的每一個包含至少50個亞單位。
9.如實施方案1至8中任一項所述的陣列,其中所述聚合物中的每一個與至少兩個其他聚合物相鄰。
10.如實施方案9所述的陣列,其中所述聚合物中的每一個與至少三個其他聚合物相鄰。
11.如實施方案1至10中任一項所述的陣列,其中固定在兩個不相鄰位置處的聚合物彼此的差異為至少與所述兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。
12.如實施方案1至10中任一項所述的陣列,其中固定于兩個不相鄰位置處的聚合物具有至少與所述兩個位置之間的位置的數(shù)目相同數(shù)目的不同亞單位數(shù)目。
13.如實施方案1至12中任一項所述的陣列,其中所述聚合物以具有n個行和m個列的二維圖案布置于所述表面上,其中n和m為整數(shù)。
14.如實施方案13所述的陣列,其中n至少為30。
15.如實施方案14所述的陣列,其中n至少為1,000。
16.如實施方案15所述的陣列,其中n至少為5,000。
17.如實施方案13所述的陣列,其中m至少為30。
18.如實施方案17所述的陣列,其中m至少為1,000。
19.如實施方案18所述的陣列,其中m至少為5,000。
20.如實施方案1至19中任一項所述的陣列,其中所述聚合物中的每一個包含第一節(jié)段、第二節(jié)段和所述第一節(jié)段與所述第二節(jié)段之間的第三節(jié)段,所述節(jié)段中的每一個包含至少兩個亞單位。
21.如實施方案20所述的陣列,其中所述第一節(jié)段與所述表面相鄰并且所述第二節(jié)段遠離所述表面。
22.如實施方案20或21所述的陣列,其中所述聚合物中的每一個具有相同的第三節(jié)段。
23.如實施方案20至22中任一項所述的陣列,其中固定于同一列中的相鄰位置處的聚合物具有相同的第一節(jié)段并且在所述第二節(jié)段中的差異為至多5個亞單位。
24.如實施方案23所述的陣列,其中所述聚合物在所述第二節(jié)段中的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。
25.如實施方案23所述的陣列,其中所述聚合物在所述第二節(jié)段中的差異為且僅為一個亞單位。
26.如實施方案25所述的陣列,其中所述聚合物在所述第二節(jié)段中的差異為單一亞單位的插入、缺失、取代或易位。
27.如實施方案20至22中任一項所述的陣列,其中固定于同一行中的相鄰位置處的聚合物具有相同的第二節(jié)段并且在所述第一節(jié)段中的差異為至多5個亞單位。
28.如實施方案27所述的陣列,其中所述聚合物在所述第一節(jié)段中的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。
29.如實施方案27所述的陣列,其中所述聚合物在所述第一節(jié)段中的差異為且僅為一個亞單位。
30.如實施方案30所述的陣列,其中所述聚合物在所述第一節(jié)段中的差異為單一亞單位的插入、缺失、取代或易位。
31.如實施方案20至22中任一項所述的陣列,其中固定于同一列中的兩個不相鄰位置處的聚合物具有相同的第一節(jié)段并且在所述第二節(jié)段中彼此差異為至少與所述兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。
32.如實施方案20至22中任一項所述的陣列,其中固定于同一列中的兩個不相鄰位置處的聚合物在所述第二節(jié)段的亞單位的數(shù)目上的差異為至少與所述兩個不相鄰位置之間的位置的數(shù)目相同的數(shù)目。
33.如實施方案20至22中任一項所述的陣列,其中固定于同一行中的兩個不相鄰位置處的聚合物具有相同的第二節(jié)段并且在所述第一節(jié)段中彼此差異為至少與所述兩個不相鄰位置之間的位置的數(shù)目相同數(shù)目的單一亞單位的插入、缺失、取代和/或易位。
34.如實施方案20至22中任一項所述的陣列,其中固定于同一行中的兩個不相鄰位置處的聚合物在所述第一節(jié)段的亞單位的數(shù)目上的差異為至少與所述兩個不相鄰位置之間的位置的數(shù)目相同的數(shù)目。
35.如實施方案1至34中任一項所述的陣列,其中所述聚合物中的每一個定位于小于100μm2的面積中。
36.如實施方案35所述的陣列,其中所述聚合物中的每一個定位于小于10μm2的面積中。
37.如實施方案36所述的陣列,其中所述聚合物中的每一個定位于小于5μm2的面積中。
38.如實施方案1至37中任一項所述的陣列,其中所述聚合物以正方形配置來布置。
39.如實施方案1至37中任一項所述的陣列,其中所述聚合物以矩形配置來布置。
40.如實施方案1至39中任一項所述的陣列,其中至少50%的所述聚合物定位于具有相同大小的不同位置中。
41.如實施方案1至39中任一項所述的陣列,其中所述聚合物包含核酸分子。
42.如實施方案41所述的陣列,其中所述聚合物選自由以下組成的組:DNA、RNA、PNA、LNA和其混合物。
43.如實施方案41或42所述的陣列,其中所述聚合物是單鏈或雙鏈。
44.一種合成至少1,000個聚合物的陣列的方法,每個聚合物偶合至基底上的不同位置,所述方法包含:
a.提供具有多個不同位置的基底;
b.提供一組掩模,所述組的每個掩模定義所述基底上的所述多個不同位置的不同子集;
c.通過使用計算機可執(zhí)行邏輯,從所述掩模組中選擇掩模來覆蓋所述基底;
d.通過使用所述計算機可執(zhí)行邏輯,選擇一個或多個亞單位以便使用所選擇的掩模來引入至所述基底上的所述多個不同位置的定義子集處;
e.使用所述一個或多個亞單位,在所述基底上的所述多個不同位置的所定義子集處執(zhí)行聚合物合成;并且
f.重復步驟(b)-(e)至少10次,由此產生至少1,000個聚合物的陣列,每個聚合物偶合至所述多個不同位置中的一個。
45.如實施方案44所述的方法,其中所述陣列包含至少10,000個聚合物。
46.如實施方案44或45所述的方法,其中所述多個不同位置中的每一個具有小于5μm2的面積。
47.如實施方案44或45所述的方法,其中至少90%的所述多個不同位置具有相同面積。
48.如實施方案47所述的方法,其中所述多個不同位置中的每一個具有相同面積。
49.如實施方案44至46中任一項所述的方法,其中所述多個不同位置中的每一個與至少兩個其他不同位置相鄰。
50.如實施方案44至46中任一項所述的方法,其中所述組的每個個別掩模包含定義所述基底上的活動和無活動區(qū)域圖案的多個開口,并且其中在合成期間,所述一個或多個亞單位只添加至所述基底的所述活動區(qū)域。
51.如實施方案50所述的方法,其中所述每個個別掩模覆蓋所述基底上的所有所述不同位置。
52.如實施方案50或51所述的方法,其中所述開口在單一方向上對齊。
53.如實施方案50至52中任一項所述的方法,其中所述開口中的每一個覆蓋整數(shù)數(shù)目的所述不同位置并且具有相同形狀。
54.如實施方案50至52中任一項所述的方法,其中所述開口中的每一個具有矩形形狀。
55.如實施方案50至52中任一項所述的方法,其中所述開口中的每一個具有至少0.5μm的寬度。
56.如實施方案50至55中任一項所述的方法,其中至少20%的所述開口具有不同寬度。
57.如實施方案56所述的方法,其中至少50%的所述開口具有不同寬度。
58.如實施方案50至54中任一項所述的方法,其中所述開口中的每一個具有至少500μm的長度。
59.如實施方案50至54和58中任一項所述的方法,其中至少50%的所述開口具有相同長度。
60.如實施方案59所述的方法,其中至少90%的所述開口具有相同長度。
61.如實施方案44所述的方法,其中第一聚合物與相鄰第二聚合物的差異為單一亞單位的至多5個插入、缺失、取代和/或易位。
62.如實施方案61所述的方法,其中所述第一聚合物與所述相鄰第二聚合物的差異為且僅為單一亞單位的一個插入、缺失、取代或易位。
63.如實施方案44所述的方法,其中所述聚合物中的每一個使用由所述掩模組定義的獨特系列合成步驟來形成,并且用于形成相鄰位置中的毗鄰聚合物的兩個系列合成步驟的彼此差異為至多5個合成步驟。
64.如實施方案63所述的方法,其中所述兩個系列合成步驟彼此差異為且僅為一個合成步驟。
65.如實施方案44所述的方法,其進一步包含,在步驟(b)之前,提供計算機可讀介質,所述介質包含代碼,所述代碼在由一個或多個計算機處理器執(zhí)行時,實施產生掩模設計文件的方法,所述掩模設計文件定義所述組的每個個別掩模上的開口圖案。
66.如實施方案65所述的方法,其進一步包含將所述掩模設計文件轉化為實體掩模。
67.如實施方案44或63所述的方法,其中所述陣列的所述聚合物中的每一個包含第一節(jié)段、第二節(jié)段和所述第一節(jié)段與所述第二節(jié)段之間的共同第三節(jié)段,所述節(jié)段中的每一個包含至少兩個亞單位。
68.如實施方案44或66所述的方法,其中使用同一組掩模來形成所述聚合物的所述第一節(jié)段和所述第二節(jié)段。
69.如實施方案44或66所述的方法,其中提供分別用于形成所述聚合物的所述第一節(jié)段和所述第二節(jié)段的第一組和第二組掩模,并且其中包含于所述第一組和第二組掩模中的所述開口在彼此垂直的兩個方向上對齊。
70.如實施方案44和68至69中任一項所述的方法,其進一步包含提供單獨掩模,所述單獨掩模被設計來使所述基底上的所有所述不同位置曝光以形成所述聚合物的所述第三節(jié)段。
71.如實施方案44或70所述的方法,其中所述基底包含選自由以下組成的組的材料:氮化硅、二氧化硅和玻璃。
72.如實施方案71所述的方法,其中所述基底為芯片的一部分。
73.如實施方案44和68至70中任一項所述的方法,其中所述組的每個掩模包含選自由以下組成的組的材料:聚合物、半導體和金屬材料。
74.如實施方案73所述的方法,其中所述組的每個掩模具有50μm-100mm范圍內的厚度。
75.如實施方案44所述的方法,其中(e)進一步包含(i)提供光源并且將所選擇的掩模沿著所述光源與所述基底之間的光路來定位,從而在所述聚合物合成的單一步驟期間在所述基底上定義活動區(qū)域和無活動區(qū)域的圖案;并且(ii)將來自所述光源的光束引導至所述基底以便在所述基底上的所述活動區(qū)域內的所述位置中執(zhí)行光引導合成。
76.如實施方案75所述的方法,其中所述光源在紫外線至近紫外線波長范圍內。
77.如實施方案44至76中任一項所述的方法,其中所述聚合物中的每一個包含至少15個亞單位。
78.如實施方案77所述的方法,其中所述聚合物中的每一個包含至少20個亞單位。
實施例
實施例1:合成聚合物分子
圖6A-6D示出使用三組掩模來合成聚合物分子的示例性程序。聚合物分子包含多個DNA條形碼,其實例在圖6A中示出。在圖6A中,示例性DNA條形碼包含由3個T分隔的上部條形碼、下部條形碼。
DNA條形碼使用光引導DNA合成法來合成并且曝光圖案通過掩模來控制。下部條形碼首先合成,然后合成3T,隨后合成上部條形碼。用于合成下部條形碼的一個步驟的示例性條形碼在圖6B中示出,其中畫有陰影的矩形表示掩模中的透明區(qū)域,其定義基底上的位置的活動區(qū)域。
一旦完成下部條形碼的合成,在三個相同合成步驟期間將3T添加至所有合成條形碼。因此,在這些步驟期間使用的掩模將基底上的所有位置(即,位置布置于其上的網格的所有區(qū)域)完全曝光。可用于這類用途的示例性掩模在圖6C中示出。
用于合成下部條形碼的一個步驟的示例性條形碼在圖6D中示出。類似于圖6B,其中具有對角線的矩形表示掩模中的透明區(qū)域,所述區(qū)域然后定義基底上的活動區(qū)域。與其中矩形垂直地對齊的用于下部條形碼的合成步驟的掩模相反,在此使用的掩模包含水平地對齊的矩形。
實施例2:使用一組掩模來合成聚合物分子
當在基底上合成多個DNA條形碼時,在每次掩模曝光之后添加特定堿基的情況下,使用一組掩模。如上所述,可提供沉積序列用于聚合物合成。每個掩模恰好對應于一個亞單位添加步驟。對于基底上的給定位置,每個掩模使此位置曝光或不曝光以使得沉積序列中的相應亞單位添加至或不添加至將要在此位置合成的條形碼。此位置的系列合成步驟(或嵌入)例如用1(曝光)和0(非曝光)來編碼。
嵌入和所得條形碼的實例在圖7中示出。如附圖示出,3T在條形碼的中間合成,將下部條形碼與上部條形碼分隔。對應于3T序列的曝光步驟示出為粗體的1。
實施例3:產生用于合成下部DNA條形碼的一組掩模的方法
產生用于合成下部梯型條形碼的一組掩模由以下步驟組成:(1)選擇在合成期間使用的核苷酸的沉積序列(例如,ACGTACGT…);(2)初始化空的嵌入列表并且確定所有嵌入的適當嵌入長度n。數(shù)字n也可為用于下部條形碼合成的掩模組中的掩模的數(shù)目;(3)以長度n的隨機嵌入(系列0和1)來開始。將此嵌入轉化成相應下部條形碼,并且如果條形碼滿足限制因素(例如,沒有系列連續(xù)T),將嵌入附加至嵌入列表;否則,保持嘗試隨機嵌入直到一個起作用為止;(4)通過在恰好一個隨機變化(0變化至1,或1變化至0)的情況下復制最近附加嵌入來產生候選嵌入。將此候選嵌入轉化成相應下部條形碼,并且如果條形碼滿足限制因素(例如,沒有系列連續(xù)T,在與由列表中的嵌入隱含的其他下部條形碼相比時,正確的編輯距離),將候選嵌入附加至嵌入列表;(5)重復步驟4直到嵌入列表達到預定長度(例如,如果條形碼的所得網格假定由1平方μm的5100μm x 5100μm網格組成,那么我們需要5100個嵌入的列表)為止。如果步驟4連續(xù)重復100次而未將另一個嵌入附加至列表,然后通過10個最近添加嵌入從嵌入列表中移除來返回,然后繼續(xù)重復步驟4;(6)然后通過考慮每個嵌入中的每個數(shù)字將嵌入列表轉化成一組n掩模文件(例如,GDSII文件格式)。如果第j個嵌入中的第i個數(shù)字是1,那么將5100μm x 1μm垂直矩形與x坐標j一起添加至第i個掩模文件。如果第j個嵌入中的第i個數(shù)字是0,那么不需要添加任何矩形。所得掩模文件看似圖6B中的圖解;并且(7)然后將掩模文件轉化成實體掩模;掩模文件中的所有矩形區(qū)域對應于相應實體掩模中的透明區(qū)域。掩模文件可通過產生光刻掩模的公司轉化成用于光刻的實體掩模。類似步驟可用于產生用于合成聚合物分子的上部條形碼的掩模。在一些情況下,下部條形碼合成的同一組掩模可通過將掩模旋轉90度來用于上部條形碼合成。
實施例4:用于減少聚合物合成期間的誤差風險的產生嵌入的方法
在一些情況下,可能發(fā)生掩模相對于基底未對齊并且在合成期間導致誤差,從而在實際與所需聚合物序列之間產生不匹配。在大多數(shù)情況下,這類未對齊只在某些合成步驟中毗鄰嵌入彼此不同時導致誤差。為了減少由未對齊導致的誤差風險,可優(yōu)選地產生一組嵌入,其中使毗鄰嵌入之間的差異的總數(shù)被最小化,例如,毗鄰嵌入彼此差異為恰好一個變化。示例性嵌入組和所得聚合物序列在圖8中示出。
在一些情況下,可能需要合成多個聚合物,所述聚合物具有(1)大約相等長度,和(2)較高遠程最小編輯距離,對于某一給定D,如果兩個聚合物在基底上間隔開≥D位置,如本文使用的遠程最小編輯距離規(guī)定其編輯距離必須≥D。合成聚合物可較短或較長。如果需要短序列,則合成路線可包括(i)產生滿足上述兩個限制的所有可能長度的嵌入,即,所有所得聚合物具有大致上相同長度和較高遠程最小編輯距離,并且(ii)使用產生足夠聚合物用于合成的最短長度。示例性方法在圖9中示出,所述方法開始于初始化空的列表嵌入并且選擇長度n的隨機嵌入(系列0和1)。然后,候選嵌入使用第一限制來隨機選擇。在包含于列表中的嵌入的數(shù)目達到預定值之后,應用第二限制并且未能滿足此限制的嵌入從列表中移除。然后,所產生的這些嵌入可用于合成具有單一節(jié)段的聚合物。
在一些情況下,將兩個或更多個(例如,2、3、4、5、6、7、9或10)所產生嵌入級聯(lián)以形成新的一組嵌入,其可用于合成具有多個節(jié)段的聚合物。另外或替代地,具有比(例如,具有小于2、3、4、5、6、7、8、9或10的長度的系列0和1)短得多的長度并且不同于級聯(lián)嵌入的共同已知嵌入可插入毗鄰級聯(lián)嵌入中以將其分離,并且每個級聯(lián)嵌入可對應于聚合物的節(jié)段。舉例來說,如圖10中示出,每個嵌入通過將兩個以前產生的嵌入級聯(lián)(圖9)并且在級聯(lián)嵌入之間插入共同系列(即,10001)來產生。每個新形成的嵌入包含三個區(qū)段,其各自對應于所得聚合物的單一節(jié)段,例如,上部節(jié)段、中間節(jié)段和下部節(jié)段。上部和下部節(jié)段可分別編碼x和y坐標,并且中間節(jié)段用于分隔上部和下部節(jié)段。在一些情況下,級聯(lián)之前和之后的嵌入組被稱為1D和2D嵌入并且所產生的1D和2D嵌入可個別地用于設計掩模,所述掩模用于合成分別具有單一和多個節(jié)段的聚合物。圖11示出使用級聯(lián)嵌入來產生2D DNA序列的示例性方法。
實施例5:使用所產生的聚合物陣列來測序極長DNA的方法
制備DNA提取物溶液,其包含大約4Mb長的模板DNA分子的長片段。引物結合位點通過在500bp的平均間隔下的轉座子整合來添加至模板DNA分子。模板DNA通過在包含聚合物的空間定義陣列的基底(諸如載玻片)上進行分子梳理來伸展,每個聚合物偶合至基底的不同位置(或位點)。陣列的每個聚合物具有與模板DNA分子的引物結合位點序列互補的接頭序列、核酸擴增引物序列(例如,PCR引物序列),和聚合物定位的點獨有的條形碼序列。陣列的聚合物雜交至以前整合至模板DNA分子中的引物結合位點。進行延伸反應以產生模板DNA分子(或其補體)的區(qū)域的多個拷貝,所述分子在5’末端以聚合物的PCR引物序列開始,接下來并入條形碼序列,隨后并入接頭序列,然后延伸以將模板核酸序列并入至所得延伸產物中。因此,產生陣列結合延伸產物,其包含條形碼序列和與模板DNA分子的區(qū)域互補的序列。將延伸產物組裝并測序。序列讀取的對齊和組裝通過條形碼信息來輔助,并且產生完整4Mb模板DNA序列。
雖然本文已經示出并描述本發(fā)明的優(yōu)選實施方案,但是本領域技術人員顯而易知這些實施方案僅作為舉例來提供。許多變異、變化和取代現(xiàn)在將由本領域技術人員想到而不背離本發(fā)明。應了解可在實施本發(fā)明中使用本文描述的本發(fā)明的實施方案的各種替代方案。規(guī)定以下權利要求定義本發(fā)明范圍并且這些權利要求和其均等物范圍內的方法和結構由此得以覆蓋。