用于確定胎兒是否存在性染色體數(shù)目異常的方法、系統(tǒng)和計算機可讀介質(zhì)的制作方法
【專利摘要】提供了用于確定胎兒是否存在性染色體數(shù)目異常的方法、系統(tǒng)和計算機可讀介質(zhì)。其中,確定胎兒是否存在性染色體數(shù)目異常的方法包括:針對包含胎兒核酸的孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù);將測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集;確定比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q;確定比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,該第i號染色體至少包括Y染色體以及任選的X染色體;基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別;以及確定該胎兒是否存在性染色體數(shù)目異常。
【專利說明】用于確定胎兒是否存在性染色體數(shù)目異常的方法、系統(tǒng)和計算機可讀介質(zhì)
[0001]優(yōu)先權(quán)信息
[0002]無
【技術(shù)領域】
[0003]本發(fā)明涉及生物醫(yī)學領域。具體而言,涉及用于確定胎兒是否存在性染色體數(shù)目異常的方法、系統(tǒng)和計算機可讀介質(zhì)。
【背景技術(shù)】
[0004]染色體是組成細胞核的基本物質(zhì)。正常人的體細胞染色體數(shù)目為46條,并有一定的形態(tài)和結(jié)構(gòu)。染色體在形態(tài)結(jié)構(gòu)或數(shù)量上的異常被稱為染色體異常(chromosomeabnormalities),染色體異常也稱染色體發(fā)育不全(chromosome dysgenesis),由染色體異常引起的疾病稱為染色體病。已發(fā)現(xiàn)人類染色體數(shù)目異常和結(jié)構(gòu)畸變3000余種,目前已確認染色體病綜合癥100余種。染色體的異常會導致基因表達異常和機體發(fā)育異常。
[0005]染色體異常的發(fā)病機制不明,可能是由于細胞分裂后期染色體發(fā)生不分離或染色體在體內(nèi)外各種因素影響下發(fā)生斷裂和重新連接所致。在染色體異常中,又主要區(qū)分為常染色體異常及性染色體異常。
[0006]臨床上常見的性染色體異常包括了 Turner綜合癥、克氏綜合征、XXX綜合征、XYY綜合征等。多年研究發(fā)現(xiàn),性染色體異常大約占所有染色體病的三分之一,總發(fā)病率約為1/500多為散發(fā)。主要表現(xiàn)為性征的發(fā)育不全或畸形,智力低下。
[0007]然而,目前性染色體數(shù)目異常的檢測仍有待改進。
【發(fā)明內(nèi)容】
[0008]本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。
[0009]在本發(fā)明的第一方面,本發(fā)明提出了一種確定胎兒是否存在性染色體數(shù)目異常的方法。根據(jù)本發(fā)明的實施例,該方法包括:針對包含胎兒核酸的孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù);將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集;確定所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q ;確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,所述第i號染色體至少包括Y染色體以及任選的X染色體;基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別;以及確定所述胎兒是否存在性染色體數(shù)目異常,其中,針對男胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟:基于所述來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,計算所述男胎孕婦樣本中的胎兒核酸濃度;構(gòu)建對照樣本數(shù)據(jù)集D,其中所述對照樣本數(shù)據(jù)集D與所述男胎孕婦樣本具有相同的胎兒核酸濃度;以及確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述男胎存在性染色體數(shù)目異常的指示,針對女胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟:確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述女胎存在性染色體數(shù)目異常的指示。發(fā)明人驚奇地發(fā)現(xiàn),利用根據(jù)本發(fā)明實施例的方法,能夠準確有效地確定胎兒是否存在性染色體數(shù)目異常。
[0010]在本發(fā)明的又一方面,本發(fā)明提出了一種計算機可讀介質(zhì)。根據(jù)本發(fā)明的實施例,所述計算機可讀介質(zhì)上存儲有指令,所述指令適于被處理器執(zhí)行以便通過下列步驟確定胎兒是否存在性染色體數(shù)目異常:獲取來自孕婦樣本的多個測序數(shù)據(jù),所述孕婦樣本包含胎兒核酸;將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集;確定所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q ;確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,所述第i號染色體至少包括Y染色體以及任選的X染色體;基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別;以及確定所述胎兒是否存在性染色體數(shù)目異常,其中,針對男胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟:基于所述來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,計算所述男胎孕婦樣本中的胎兒核酸濃度;構(gòu)建對照樣本數(shù)據(jù)集D,其中所述對照樣本數(shù)據(jù)集D與所述男胎孕婦樣本具有相同的胎兒核酸濃度;以及確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述男胎存在性染色體數(shù)目異常的指示,針對女胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟:確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述女胎存在性染色體數(shù)目異常的指示。由此,利用根據(jù)本發(fā)明實施例的計算機可讀介質(zhì),能夠準確有效地確定胎兒是否存在性染色體數(shù)目異常。
[0011]在本發(fā)明的再一方面,本發(fā)明又提出了一種用于確定胎兒是否存在性染色體數(shù)目異常的系統(tǒng)。根據(jù)本發(fā)明的實施例,該系統(tǒng)包括:測序裝置,所述測序裝置用于針對孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù);以及前面所述的計算機可讀介質(zhì)。發(fā)明人驚奇地發(fā)現(xiàn),利用根據(jù)本發(fā)明實施例的用于確定胎兒是否存在性染色體數(shù)目異常的系統(tǒng),能夠準確有效地確定胎兒是否存在性染色體數(shù)目異常。
[0012]與目前的性染色體數(shù)目異常檢測的方法對比,本發(fā)明的優(yōu)越性表現(xiàn)在:
[0013](I)臨床可行性:本發(fā)明使用目標區(qū)域捕獲的方式,在較高的測序深度下同時減少測序數(shù)據(jù),可有效的檢測出xo、XXX、XXY和XYY,本發(fā)明的方法大大的減少了數(shù)據(jù)產(chǎn)生的成本。
[0014](2)可擴展性:除了通過增加測序量之外,本發(fā)明可以通過擴大對照組數(shù)量來增大精度,以減輕對起始DNA量的壓力。
[0015](3)更穩(wěn)定,更加全面:已報道文章中,并無明確指出自身的操作細節(jié),而本發(fā)明涉及數(shù)據(jù)群體檢測等的各個方面。
[0016]本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0017]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0018]圖1顯示了根據(jù)本發(fā)明一個實施例的確定胎兒是否存在性染色體數(shù)目異常的方法的流程示意圖。
[0019]發(fā)明詳細描述
[0020]下面詳細描述本發(fā)明的實施例。下面描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0021]確定胎兒是否存在性染色體數(shù)目異常的方法
[0022]在本發(fā)明的第一方面,本發(fā)明提出了一種確定胎兒是否存在性染色體數(shù)目異常的方法。根據(jù)本發(fā)明的實施例,該方法包括:
[0023]首先,針對包含胎兒核酸的孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù)。根據(jù)本發(fā)明的實施例,待測孕婦樣本為含有核酸樣本,核酸的類型并不受特別限制,可以是脫氧核糖核酸(DNA),也可以是核糖核酸(RNA),優(yōu)選DNA。本領域技術(shù)人員可以理解,對于RNA,可以通過常規(guī)手段將其轉(zhuǎn)換為具有相應序列的DNA,進行后續(xù)檢測和分析。另外,待測孕婦樣本的屬性也不受特別限制。根據(jù)本發(fā)明的一些實施例,可以采用基因組DNA樣本,也可以采用由基因組DNA的一部分作為測試樣本。根據(jù)本發(fā)明的實施例,可以使用的孕婦樣本包括但不限于孕婦外周血、孕婦尿液、孕婦宮頸胎兒脫落滋養(yǎng)細胞、孕婦宮頸粘液、胎兒有核紅細胞和孕婦血漿。發(fā)明人發(fā)現(xiàn),通過對上述孕婦樣本進行核酸樣本提取,能夠有效地對胎兒基因組中的遺傳變異進行分析,實現(xiàn)對胎兒無損的產(chǎn)前診斷或檢測。雖然本發(fā)明可以進行無創(chuàng)胎兒遺傳變異檢測是一種優(yōu)勢,例如所述樣本是孕婦的外周血,但是本發(fā)明的方法也適用于有創(chuàng)檢測,例如所述樣本可以來自胎兒的臍帶血,胎盤組織或絨毛膜組織,未培養(yǎng)或培養(yǎng)過的羊水細胞、絨毛組細胞。根據(jù)本發(fā)明的實施例,待測受試者和正常對照受試者是同一物種,需要說明的是,由于正常對照個體是預先選擇確定的,因此關于對照樣本的任何檢測或計算數(shù)據(jù)均可預先產(chǎn)生并保存下來,本發(fā)明的實施例采用這種預置對照樣本的相關數(shù)據(jù)的方式,在需要時讀取使用,以下涉及對照樣本數(shù)據(jù)時不再贅述。在其他實施方式中,也可以采用對照樣本同步檢測和計算的方式。同時,本發(fā)明的變異檢測并不一定用于疾病診斷或相關的目的,因為性染色體數(shù)目異常的存在并不代表著患病風險或健康狀況,可以純粹是科學研究的用途。
[0024]根據(jù)本發(fā)明的實施例,可以利用選自鹽析法、柱層析法、磁珠法、SDS法的至少一種從所述孕婦樣本提取DNA,以便進行所述核酸測序。即在本發(fā)明中,所述DNA分子的獲取可以采用鹽析法、柱層析法、磁珠法、SDS法等常規(guī)DNA提取方法,優(yōu)選采用磁珠法。所謂的磁珠法,是指血液、組織或細胞經(jīng)過細胞裂解液和蛋白酶K的作用后得到裸露的DNA分子,其是利用特異性的磁珠對DNA分子進行可逆性的親和吸附,經(jīng)漂洗液清洗除去蛋白質(zhì)、脂質(zhì)等雜質(zhì)后,用純化液將DNA分子從磁珠上洗脫下來。磁珠是本領域中公知的,可市購獲得,例如從Tiangen。
[0025]在本發(fā)明中,一般情況下,對于獲自樣品的DNA分子直接進行測序和后續(xù)步驟已經(jīng)可以實現(xiàn)本發(fā)明的目的,提取的DNA可以不需經(jīng)過處理即用于后續(xù)步驟。在一些優(yōu)選實施方案中,可以僅對電泳主帶集中在50-700 bp,優(yōu)選100-500bp,更優(yōu)選150-300 bp,特別是約200 bp大小的片段進行研究。在本發(fā)明一些更優(yōu)選實施方案中,可以將DNA分子打斷為電泳主帶集中在一定大小的片段,例如50-700 bp,優(yōu)選100-500bp,更優(yōu)選150-300 bp,特別是200 bp附近,然后進行后續(xù)步驟。所述DNA分子的隨機打斷處理可以采用酶切、霧化、超聲、或者HydroShear法。優(yōu)選地,采用超聲法,例如Covaris公司的S_series (其是基于AFA技術(shù),當由傳感器釋放的聲能/機械能通過DNA樣品時,溶解氣體形成氣泡,而當能量移除后,氣泡破裂并產(chǎn)生斷裂DNA分子的能力,因而通過設置一定的能量強度和時間間隔等條件,可將DNA分子打斷至一定范圍的大小。具體原理和方法可以參見Covaris公司的S-series說明書)。
[0026]根據(jù)本發(fā)明的實施例,可以采用攜帶預定探針的芯片,對欲進行核酸測序的核酸進行篩選。由此,提高測序效率。在本發(fā)明中,所使用芯片為根據(jù)待檢測染色體進行設計的捕獲芯片。所述捕獲芯片攜帶能夠識別待檢測染色體的預定探針,以及能夠識別其他染色體的預定探針。根據(jù)本發(fā)明的一個實施例,本發(fā)明設計的捕獲芯片攜帶能夠識別性染色體區(qū)域的探針,以及能夠識別所有常染色體的探針,由此,對待測孕婦樣本進行捕獲測序時,能夠以利用上述能夠識別所有常染色體的探針獲得的測序數(shù)據(jù)作為正常參照,對待測孕婦樣本的性染色體的測序數(shù)據(jù)進行分析,從而能夠準確有效地確定其胎兒是否存在性染色體異常的情況。根據(jù)本發(fā)明的實施例,可以根據(jù)檢測需要,靈活調(diào)整捕獲芯片中識別性染色體X、Y的探針與識別常染色體對照探針的比例。根據(jù)本發(fā)明的另一個實施例,對于對照/待測樣本,加大捕獲Y染色體文庫的探針的數(shù)量,由此,Y染色體測序數(shù)據(jù)所占比例大于常規(guī)基因組測序中Y染色體數(shù)據(jù)所占比例(常規(guī)全基因組測序Y染色體數(shù)據(jù)所占比例值相對較小),從而有利于確定待測孕婦樣本的胎兒是否存在性染色體異常。根據(jù)本發(fā)明的實施例,對芯片的設計平臺及探針長度等沒有特殊要求。例如,根據(jù)本發(fā)明的一個實施例,所用芯片是采用Agilent平臺設計的,涵蓋了所有常染色體及性染色體,由此,還可以對所有的染色體進行數(shù)目異常檢測。
[0027]根據(jù)本發(fā)明的實施例,所述測序數(shù)據(jù)的長度為25?200 nt。根據(jù)本發(fā)明的實施例,利用第二代測序技術(shù)或單分子測序技術(shù)進行所述核酸測序。在本發(fā)明中,測序數(shù)據(jù)是指測序儀輸出的序列片段,即reads,優(yōu)選約25-200 nt。本發(fā)明中,從測試樣本獲得測序數(shù)據(jù)可以采用測序的方法進行,所述測序可通過任何測序方法進行,包括但不限于雙脫氧鏈終止法;優(yōu)選高通量的測序方法,包括但不限于第二代測序技術(shù)或者是單分子測序技術(shù)。所述第二代測序平臺(Metzker ML.Sequencing techno1gies~the next generat1n.Nat RevGenet.2010 Jan ;11(1):31-46)包括但不限于 Illumina-Solexa (GATM, HiSeq2000TM 等)、AB1-Solid和Roche-454 (焦磷酸測序)測序平臺;單分子測序平臺(技術(shù))包括但不限于Helicos 公司的真實單分子測序技術(shù)(True Single Molecule DNA sequencing), PacificB1sciences 公司單分子實時測序(single molecule real-time (SMRTTM)),以及Oxford Nanopore Technologies 公司的納米孔測序技術(shù)等(Rusk, Nicole (2009-04-01).Cheap Third-Generat1n Sequencing.Nature Methods 6 (4): 2446 (4)。測序類型可以為single-end(單向)測序和Pair-end(雙向)測序,測序長度可以為50 bp、90 bp、或100 bp。在本發(fā)明的一個實施方案中,所述的測序平臺為Illumina/Solexa,測序類型為Pair-end測序,得到具有雙向位置關系的100 bp大小的DNA序列分子。當待測的DNA分子來自多個受試樣本時,每個樣本可以被加上不同的標簽序列,以用于在測序過程中進行樣品的區(qū)分(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al.Error-correctingbarcoded primers for pyrosequencing hundreds of samples in multiplex.NatureMethods, 2008, March, Vol.5 N0.3),從而實現(xiàn)同時對多個樣品進行測序。標簽序列為了區(qū)分不同序列,但不影響添加標簽序列的DNA分子的其他功能。標簽序列長度可以是4-12bp。
[0028]其次,將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集。本發(fā)明的一個實施例中,所述的人類基因組參考序列是NCBI數(shù)據(jù)庫中的人類基因組參考序列。在本發(fā)明的一個實施方案中,所述人類基因組序列是NCBI數(shù)據(jù)庫中版本37(hgl9 ;NCBI Build 37)的人類基因組參考序列。在本發(fā)明中,所述比對可以是不容錯比對,也可以是錯配I個堿基的比對。序列比對可以通過任何一種序列比對程序,例如本領域技術(shù)人員可獲得的短寡核苷酸分析包(Short Oligonucleotide Analysis Package, SOAP)和BWA比對(Burrows-Wheeler Aligner)進行,將測序數(shù)據(jù)與參考基因組序列進行比對,得到測序數(shù)據(jù)在參考基因組上的位置。進行序列比對可以使用程序提供的默認參數(shù)進行,或者由本領域技術(shù)人員根據(jù)需要對參數(shù)進行選擇。在本發(fā)明的一個實施方案中,所采用的比對軟件是 SOAPal igner/soap2。
[0029]接著,確定所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q。在本發(fā)明的一個實施方案中,獲得的比對測序數(shù)據(jù)集只包含唯一比對測序數(shù)據(jù),即Q為比對測序數(shù)據(jù)集中所包含的唯一比對測序數(shù)據(jù)的數(shù)目。
[0030]接下來,確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,所述第i號染色體至少包括Y染色體以及任選的X染色體。根據(jù)本發(fā)明的實施例,對于某一樣本來源的測序數(shù)據(jù)集,在確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni之后,對所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni進行標準化處理。根據(jù)本發(fā)明的一個具體示例,所述標準化處理包括將所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni除以所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q或者Q的一部分(例如Q中來源于一條或多條常染色體的比對測序數(shù)據(jù)數(shù)目),以便獲得經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/,并用所述經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/替換所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目隊。其中,對所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni進行標準化處理是因為:利用孕婦血漿等孕婦樣本檢測胎兒的性染色體數(shù)目異常時,由于母親DNA背景的影響,胎兒的變異較難凸顯出來,所以要通過標準化,來降低母親DNA背景噪音,放大胎兒變異信號。需要說明的是,本實施方式中所述的“標準化處理”是利用各自的測序數(shù)據(jù)量進行歸一化處理,使相對數(shù)值r/都處于0-1范圍,利用相對測序數(shù)據(jù)量進行后續(xù)的分析運算,是為消除樣本間的測序數(shù)據(jù)量的差異、突出數(shù)據(jù)本身的統(tǒng)計意義。在其他實施方式中,標準化處理也可以利用GC校正進行,或者同時進行歸一化和GC校正也可達到一樣的目的。在本發(fā)明的一個實施例中,GC校正指對Ni乘一個系數(shù)將第i號染色體測序數(shù)據(jù)的GC含量校正到全基因組平均水平,得Nai,Nai = ε ^i,GC校正能夠調(diào)整由于GC含量不同帶來的測序數(shù)據(jù)量的差異。在本發(fā)明的一個實施例中,對于第i號染色體的GC校正系數(shù)ε i可這樣確定:比對,獲得所有m個樣本的第i號染色體的測序數(shù)據(jù)數(shù)目Ni后,將所有m個i染色體(GC含量相同)歸為一組獲得Ni的均值Nai,確定一目標值作為參考,如選取m個樣本比對到所有染色體的測序數(shù)據(jù)數(shù)的平均值Na作為目標值,得h = Nai/Na。若未采用上述的方式對測序數(shù)據(jù)量進行標準化處理但仍然依據(jù)本發(fā)明的處理思路進行后續(xù)數(shù)據(jù)分析,即只是在進行數(shù)值的分析、計算和比較時使用未標準化的數(shù)值水平,均應當視為與本實施方式等同。
[0031]接著,基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別。根據(jù)本發(fā)明的實施例,基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別包括:將所述孕婦樣本的經(jīng)過標準化的Y染色體的測序數(shù)據(jù)的數(shù)目ry’,對照多個已知胎兒性別的孕婦樣本進行Z值檢驗,并基于所獲得的所述孕婦樣本Y染色體的Z值,確定所述胎兒的性別。根據(jù)本發(fā)明的一個實施例,所述Z值檢驗是對照多個正常女胎孕婦樣本進行的。其中,基于所獲得的所述孕婦樣本Y染色體的Z值,確定所述胎兒的性別,是通過將所獲得的孕婦樣本Y染色體的Z值與閾值比較而實現(xiàn)的。所述閾值是設置一置信度計算多個對照女胎孕婦樣本Y染色體的統(tǒng)計量獲得的。如前所述,由于閾值是由對照樣本得到的,因此可以預先計算和保存,在后續(xù)對目標個體進行檢測時,只要對照樣本數(shù)不變,均可使用相同的閾值設置。當然若減少、更換或增加對照樣本則可以調(diào)整置信度更新相應的閾值。在本發(fā)明的一個實施例中,所采用的一種判斷胎兒性別的Y染色體閾值計算方式,包括如下步驟:1)以多個正常女胎孕婦樣本作為對照樣本,優(yōu)選地,對照樣本數(shù)大于等于30 ;計算r/的平均值meany和標準差sdy,計算每個樣本的Zy值。在一實施例中,共m個對照樣本,
【權(quán)利要求】
1.一種確定胎兒是否存在性染色體數(shù)目異常的方法,其特征在于,包括: 針對包含胎兒核酸的孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù); 將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集; 確定所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q ; 確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,所述第i號染色體至少包括Y染色體以及任選的X染色體; 基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別;以及 確定所述胎兒是否存在性染色體數(shù)目異常, 其中, 針對男胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟: 基于所述來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,計算所述男胎孕婦樣本中的胎兒核酸濃度; 構(gòu)建對照樣本數(shù)據(jù)集D,其中所述對照樣本數(shù)據(jù)集D與所述男胎孕婦樣本具有相同的胎兒核酸濃度;以及 確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述男胎存在性染色體數(shù)目異常的指示, 針對女胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟: 確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述女胎存在性染色體數(shù)目異常的指示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述孕婦樣本為選自孕婦外周血、孕婦尿液、孕婦宮頸胎兒脫落滋養(yǎng)細胞、孕婦宮頸粘液、胎兒有核紅細胞和孕婦血漿的至少一種。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用選自鹽析法、柱層析法、磁珠法、SDS法的至少一種從所述孕婦樣本提取DNA,以便進行所述核酸測序。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用攜帶預定探針的芯片,對進行所述核酸測序的核酸進行篩選。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述測序數(shù)據(jù)的長度為25?200nt。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用第二代測序技術(shù)或單分子測序技術(shù)進行所述核酸測序。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用SOAPaligner/soap2,將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,并且選擇唯一比對序列作為所述比對測序數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,在確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni之后,對所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni進行標準化處理。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述標準化處理包括將所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni除以所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q或者Q的一部分,以便獲得經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/,并用所述經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/替換所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目N1
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別包括: 將所述孕婦樣本的經(jīng)過標準化的Y染色體的測序數(shù)據(jù)的數(shù)目ry’,對照多個已知胎兒性別的孕婦樣本進行Z值檢驗,并基于所獲得的所述孕婦樣本Y染色體的Z值,確定所述胎兒的性別。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述孕婦樣本Y染色體的Z值是利用下列公式計算獲得的:
z = T1 ' _meanY/sdY, 其中,j代表孕婦樣本的編號,
表示孕婦樣本的總數(shù),
"O
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述孕婦樣本Y染色體的Z值大于3是所述胎兒為男胎的指示,所述孕婦樣本Y染色體的Z值不大于3是所述胎兒為女胎的指示。
13.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述對照樣本數(shù)據(jù)集D是基于公式D=F* (1-男胎胎兒核酸濃度)+M*男胎胎兒核酸濃度而確定的,其中,F(xiàn)表示已知的正常女性基因組數(shù)據(jù)集,M表示已知的正常男性基因組數(shù)據(jù)集。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述男胎胎兒核酸濃度是基于下列公式確定的:
其中, meanY;female為預先確定的已知女胎的孕婦樣本中比對到Y(jié)染色體的測序數(shù)據(jù)的數(shù)目所占比例的平均值; meanY;male為預定先確定的已知男胎的孕婦樣本中比對到Y(jié)染色體的測序數(shù)據(jù)的數(shù)目所占比例的平均值。
15.根據(jù)權(quán)利要求9所述的方法,其特征在于,通過Z值檢驗,確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中所述Z值檢驗包括利用下列公式確定所述男胎孕婦樣本的X染色體Z值:
z = rx’j,_meanx/sdx, 其中,j代表孕婦樣本的編號,
表示孕婦樣本的總數(shù),
16.根據(jù)權(quán)利要求9所述的方法,其特征在于,通過Z值檢驗,確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中所述Z值檢驗包括利用下列公式確定所述女胎孕婦樣本的X染色體Z值:z = rX j.,_meanx/sdx, 其中,j代表孕婦樣本的編號,
η表示孕婦樣本的總數(shù),
17.根據(jù)權(quán)利要求15所述的方法,其特征在于, 所述男胎孕婦樣本的X染色體Z值小于或等于-3是所述男胎的性染色體為XYY的指示, 所述男胎孕婦樣本的X染色體Z值大于或等于3是所述男胎的性染色體為XXY的指示, 所述男胎孕婦樣本的X染色體Z值大于-3且小于3是所述男胎的性染色體為XY的指/Jn ο
18.根據(jù)權(quán)利要求16所述的方法,其特征在于, 所述女胎孕婦樣本的X染色體Z值小于或等于-3是所述女胎的性染色體為X的指示, 所述女胎孕婦樣本的X染色體Z值大于或等于3是所述女胎的性染色體為XXX的指示, 所述女胎孕婦樣本的X染色體Z值大于-3且小于3是所述女胎的性染色體為XX的指/Jn ο
19.一種計算機可讀介質(zhì),其特征在于,所述計算機可讀介質(zhì)上存儲有指令,所述指令適于被處理器執(zhí)行以便通過下列步驟確定胎兒是否存在性染色體數(shù)目異常: 獲取來自孕婦樣本的多個測序數(shù)據(jù),所述孕婦樣本包含胎兒核酸; 將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,以便獲得比對測序數(shù)據(jù)集; 確定所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q ; 確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni,其中,i表示染色體的編號,所述第i號染色體至少包括Y染色體以及任選的X染色體; 基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別;以及 確定所述胎兒是否存在性染色體數(shù)目異常, 其中, 針對男胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟: 基于所述來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,計算所述男胎孕婦樣本中的胎兒核酸濃度; 構(gòu)建對照樣本數(shù)據(jù)集D,其中所述對照樣本數(shù)據(jù)集D與所述男胎孕婦樣本具有相同的胎兒核酸濃度;以及 確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述男胎存在性染色體數(shù)目異常的指示, 針對女胎孕婦樣本,確定所述胎兒是否存在性染色體數(shù)目異常包括下列步驟: 確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中,存在顯著差異是所述女胎存在性染色體數(shù)目異常的指示。
20.根據(jù)權(quán)利要求19所述的計算機可讀介質(zhì),其特征在于,所述孕婦樣本為選自孕婦外周血、孕婦尿液、孕婦宮頸胎兒脫落滋養(yǎng)細胞、孕婦宮頸粘液、胎兒有核紅細胞和孕婦血漿的至少一種。
21.根據(jù)權(quán)利要求19所述的計算機可讀介質(zhì),其特征在于,所述測序數(shù)據(jù)的長度為25 ~100 nt ο
22.根據(jù)權(quán)利要求19所述的計算機可讀介質(zhì),其特征在于,所述測序數(shù)據(jù)是利用第二代測序技術(shù)或單分子測序技術(shù)獲得的。
23.根據(jù)權(quán)利要求19所述的所述計算機可讀介質(zhì),其特征在于,采用SOAPaligner/soap2,將所述測序數(shù)據(jù)與人類的參照基因組序列進行比對,并且選擇唯一比對序列作為所述比對測序數(shù)據(jù)。
24.根據(jù)權(quán)利要求19所述的計算機可讀介質(zhì),其特征在于,在確定所述比對測序數(shù)據(jù)集中來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni之后,對所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni進行標準化處理。
25.根據(jù)權(quán)利要求24所述的計算機可讀介質(zhì),其特征在于,所述標準化處理包括將所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目Ni除以所述比對測序數(shù)據(jù)集中所包含的比對測序數(shù)據(jù)的數(shù)目Q或者Q的一部分,以便獲得經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/,并將所述經(jīng)過標準化的第i號染色體的測序數(shù)據(jù)的數(shù)目r/替換所述來源于第i號染色體的測序數(shù)據(jù)的數(shù)目隊。
26.根據(jù)權(quán)利要求25所述的計算機可讀介質(zhì),其特征在于,基于來源于Y染色體的測序數(shù)據(jù)的數(shù)目Ny,確定胎兒的性別包括: 將所述孕婦樣本的經(jīng)過標準化的Y染色體的測序數(shù)據(jù)的數(shù)目ry’,對照多個已知胎兒性別的孕婦樣本進行Z值檢驗,并基于所獲得的所述孕婦樣本Y染色體的Z值,確定所述胎兒的性別。
27.根據(jù)權(quán)利要求26所述的計算機可讀介質(zhì),其特征在于,所述孕婦樣本Y染色體的Z值是利用下列公式計算獲得的:
z = T1 ' _meanY/sdY, 其中,j代表孕婦樣本的編號,
η表示孕婦樣本的總數(shù),
28.根據(jù)權(quán)利要求27所述的計算機可讀介質(zhì),其特征在于,所述孕婦樣本Y染色體的Z值大于3是所述胎兒為男胎的指示,所述孕婦樣本Y染色體的Z值不大于3是所述胎兒為女胎的指示。
29.根據(jù)權(quán)利要求25所述的計算機可讀介質(zhì),其特征在于,所述對照樣本數(shù)據(jù)集D是基于公式D = F*(l-男胎胎兒核酸濃度)+M*男胎胎兒核酸濃度而確定的,其中,F(xiàn)表示已知的正常女性基因組數(shù)據(jù)集,M表示已知的正常男性基因組數(shù)據(jù)集。
30.根據(jù)權(quán)利要求29所述的計算機可讀介質(zhì),其特征在于,所述男胎胎兒核酸濃度是基于下列公式確定的:
, 其中, meanY;female為預先確定的已知女胎的孕婦樣本中比對到Y(jié)染色體的測序數(shù)據(jù)的數(shù)目所占比例的平均值; meanY;male為預定先確定的已知男胎的孕婦樣本中比對到Y(jié)染色體的測序數(shù)據(jù)的數(shù)目所占比例的平均值。
31.根據(jù)權(quán)利要求26所述的計算機可讀介質(zhì),其特征在于,通過Z值檢驗,確定所述對照樣本數(shù)據(jù)集的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中所述Z值檢驗包括利用下列公式確定所述男胎孕婦樣本的X染色體Z值:
z = rx’j,_meanx/sdx, 其中,j代表孕婦樣本的編號,
' η表示孕婦樣本的總數(shù),
32.根據(jù)權(quán)利要求26所述的計算機可讀介質(zhì),其特征在于,通過Z值檢驗,確定所述女胎孕婦樣本的X染色體含量與正常胎兒孕婦樣本的X染色體含量之間是否存在顯著差異,其中所述Z值檢驗包括利用下列公式確定所述女胎孕婦樣本的X染色體Z值:
z = rX j.,_meanx/sdx, 其中,j代表孕婦樣本的編號,
n表示孕婦樣本的總數(shù),
33.根據(jù)權(quán)利要求31所述的計算機可讀介質(zhì),其特征在于, 所述男胎孕婦樣本的X染色體Z值小于或等于-3是所述男胎的性染色體為XYY的指示, 所述男胎孕婦樣本的X染色體Z值大于或等于3是所述男胎的性染色體為XXY的指示, 所述男胎孕婦樣本的X染色體Z值大于-3且小于3是所述男胎的性染色體為XY的指示。
34.根據(jù)權(quán)利要求32所述的計算機可讀介質(zhì),其特征在于, 所述女胎孕婦樣本的X染色體Z值小于或等于-3是所述女胎的性染色體為X的指示, 所述女胎孕婦樣本的X染色體Z值大于或等于3是所述女胎的性染色體為XXX的指示, 所述女胎孕婦樣本的X染色體Z值大于-3且小于3是所述女胎的性染色體為XX的指/Jn ο
35.一種用于確定胎兒是否存在性染色體數(shù)目異常的系統(tǒng),其特征在于,包括: 測序裝置,所述測序裝置用于針對孕婦樣本進行核酸測序,以便獲得多個測序數(shù)據(jù);以及 權(quán)利要求19-34任一項所述的計算機可讀介質(zhì)。
【文檔編號】G06F19/22GK104169929SQ201380006956
【公開日】2014年11月26日 申請日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】李旭超, 潘小渝, 葛會娟, 張艷艷, 陳芳, 陳盛培 申請人:深圳華大基因科技有限公司