本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置,適用于胚胎染色體非整倍體檢測(cè)技術(shù)中。
背景技術(shù):
染色體異常是導(dǎo)致自然流產(chǎn)、出生缺陷、胎兒多發(fā)畸形等重要臨床因素。所述染色體異常包括有染色體數(shù)目異常和染色體微缺失微重復(fù)。其中,孕早期原因未明的自然流產(chǎn)中大部分是染色體非整倍體所致,b超顯示存在多發(fā)畸形的胎兒中10%異常存在染色體非整倍體,出生缺陷的新生兒中約20%也為染色體異常所致。因此,對(duì)染色體異常進(jìn)行檢測(cè),這一方面對(duì)于早期自然流產(chǎn),有利于排查流產(chǎn)是否為胎兒染色體異常所致,特別是對(duì)多次未明原因的孕早期反復(fù)流產(chǎn)的孕婦,可以對(duì)夫妻雙方進(jìn)行染色體異常檢測(cè),以減少再次妊娠時(shí)異?;純撼錾目赡苄裕涣硪环矫?,有利于早期發(fā)現(xiàn)胎兒異常是否為染色體異常所致,為醫(yī)生提供診斷的輔助信息,從而實(shí)現(xiàn)胎兒異常的早期治療,進(jìn)而降低出生缺陷。
此外,近年來(lái),人類(lèi)輔助生殖技術(shù)的快速發(fā)展使得“試管嬰兒”技術(shù)逐漸應(yīng)用于臨床,幫助更多不孕不育或年齡較大或攜帶遺傳疾病的夫妻獲得下一代。然而大量臨床研究發(fā)現(xiàn),在體外受精形成的胚胎中,大約一半左右的胚胎存在染色體異常的現(xiàn)象,這往往是許多孕婦會(huì)出現(xiàn)反復(fù)種植失敗或自然流產(chǎn)或死產(chǎn)的主要原因[1]。而且隨著孕婦年齡增加,胚胎發(fā)生染色體異常的風(fēng)險(xiǎn)也越高,極大地限制了輔助生殖技術(shù)的成功率。因此,胚胎植入前能對(duì)胚胎染色體異常的準(zhǔn)確篩查,進(jìn)而選擇健康的胚胎植入,是能顯著提高試管嬰兒的妊娠率和活產(chǎn)率。
目前,針對(duì)染色體異常檢測(cè)的方法主要包括有fish、微陣列-比較基因組雜交(array-cgh)技術(shù)和高通量測(cè)序技術(shù)。熒光原位雜交技術(shù)(fluorescenceinsituhybridization,fish)是早期染色體異常檢測(cè)的黃金標(biāo)準(zhǔn)。雖然fish具有快速、特異性高等優(yōu)勢(shì),但是由于受到探針?lè)N類(lèi)和標(biāo)記熒光素種類(lèi)限制,使得該技術(shù)僅能一次對(duì)部分染色體數(shù)目異常進(jìn)行檢測(cè),而不能在全基因組的水平上進(jìn)行檢測(cè)。目前更為普遍應(yīng)用于染色體異常檢測(cè)的方法是微陣列-比較基因組雜交(array-cgh)技術(shù)[2]。相比f(wàn)ish技術(shù),array-cgh技術(shù)可以?xún)H通過(guò)一次雜交實(shí)驗(yàn)就能檢測(cè)全部23對(duì)染色體數(shù)目變化,但是其檢測(cè)的分辨率取決于探針的密度(探針未覆蓋的區(qū)域是無(wú)法檢測(cè)到的),若要從全基因組水平上檢測(cè)23對(duì)染色體異常的情況,就必須增加探針的數(shù)量,大大地增加了成本費(fèi)用。而隨著高通量測(cè)序成本的降低,近幾年來(lái),基于高通量測(cè)序技術(shù)進(jìn)行胚胎染色體非整倍體檢測(cè)的方法逐漸成為主流。
基于高通量測(cè)序技術(shù)來(lái)檢測(cè)胚胎染色體非整倍體的主要過(guò)程如下:1)、獲取合理數(shù)量的dna模板(流產(chǎn)物組織或胚胎組織則可以直接酶切或超聲將dna片段化;而囊胚細(xì)胞或者卵裂細(xì)胞由于起始的dna模板為微克級(jí)別所以需要提前進(jìn)行單細(xì)胞擴(kuò)增);2)、選擇一定片段大小的dna分子(如150-250bp);3)、構(gòu)建文庫(kù),在上述dna分子兩端加上測(cè)序用接頭;4)、上機(jī)測(cè)序獲得一定長(zhǎng)度的序列(reads);5)、利用比對(duì)軟件將序列(reads)比對(duì)到人類(lèi)參考基因組,過(guò)濾重復(fù)序列和低質(zhì)量的序列,得到各染色體不同位置的序列數(shù)目(readsnumber)和序列比例(readsratio);6)、利用統(tǒng)計(jì)模型判斷胚胎是否存在染色體異常。當(dāng)胚胎出現(xiàn)染色體非整倍體時(shí),相應(yīng)染色體總數(shù)會(huì)有一定比例的升高或降低,因此可以與一定量樣本構(gòu)成的參考集合相比較或者自身樣本內(nèi)比較來(lái)判斷染色體是否存在異常。染色體異常檢測(cè)的統(tǒng)計(jì)學(xué)方法主要可以分為參考樣本集合比較和自身樣本內(nèi)比較兩種方法。
參考樣本集合比較的代表性方法是z檢驗(yàn)[3]:z檢驗(yàn)?zāi)P屠么罅空颖緲?gòu)建參考數(shù)據(jù)庫(kù),得到參考數(shù)據(jù)集中各染色體的讀長(zhǎng)比例(readsratio)的均值和標(biāo)準(zhǔn)差,然后計(jì)算待測(cè)樣本在每條染色體中的z-score,根據(jù)z-score來(lái)判斷樣本是否為非整倍體。但是,z檢驗(yàn)?zāi)P退嬗械闹饕獑?wèn)題是待測(cè)樣本的z-score大小對(duì)參考數(shù)據(jù)集的模型依賴(lài)性很強(qiáng),如果待測(cè)樣本和參考樣本集合的數(shù)據(jù)一致性低的時(shí)候會(huì)導(dǎo)致靈敏性和特異性嚴(yán)重降低。對(duì)于胚胎植入前非整倍體篩查(pgs),胚胎的起始dna含量約為6.6pg~30pg,dna起始的模板含量非常低,所以需要進(jìn)行全基因組擴(kuò)增(wholegenomeamplification,wga)然后測(cè)序,而全基因組擴(kuò)增會(huì)引入嚴(yán)重的gc偏好,這往往導(dǎo)致待測(cè)樣本和參考數(shù)據(jù)集樣本的一致性很差,可見(jiàn),z-score模型不適用于胚胎植入前染色體非整倍體檢測(cè)方法。
因此,胚胎植入前篩查主要采用自身樣本內(nèi)比較的方法:將基因組分成不同窗口大小的bins(數(shù)據(jù)箱),統(tǒng)計(jì)所有bins的序列比例(copyratio),然后通過(guò)讀長(zhǎng)比例的變化趨勢(shì)來(lái)推斷是否存在染色體異常[4]。而基于自身樣本內(nèi)比較的檢驗(yàn)方法的主要問(wèn)題則在于檢驗(yàn)的結(jié)果只基于單一樣本的單一的統(tǒng)計(jì)指標(biāo)“copyratio”,當(dāng)單細(xì)胞擴(kuò)增均一性較差時(shí),“copyratio”的波動(dòng)性很大,會(huì)出現(xiàn)大量的異常值以及假陽(yáng)性的結(jié)果。因此為了解決傳統(tǒng)自身樣本內(nèi)比較方法所產(chǎn)生的結(jié)果準(zhǔn)確度和可靠性低下的問(wèn)題,本發(fā)明針對(duì)自身樣本內(nèi)比較方法的數(shù)據(jù)處理過(guò)程提出了改進(jìn)。
參考文獻(xiàn)
1.bielanska,m.,s.l.tan,anda.ao,chromosomalmosaicismthroughouthumanpreimplantationdevelopmentinvitro:incidence,type,andrelevancetoembryooutcome.humreprod,2002.17(2):p.413-9.
2.gutierrez-mateo,c.,etal.,validationofmicroarraycomparativegenomichybridizationforcomprehensivechromosomeanalysisofembryos.fertilsteril,2011.95(3):p.953-8.
3.chiu,r.w.,etal.,noninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparalelgenomicsequencingofdnainmaternalplasma.procnatlacadsciusa,2008.105(51):p.20458-63.
4.fu,y.,etal.,uniformandaccuratesingle-celsequencingbasedonemulsionwhole-genomeamplification.procnatlacadsciusa,2015.112(38):p.11923-8.
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置。
本發(fā)明所采用的技術(shù)方案是:一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置,該裝置包括:
測(cè)序數(shù)據(jù)獲取單元,用于獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段;
測(cè)序數(shù)據(jù)處理單元,用于將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列進(jìn)行比對(duì),將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置,從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、起始位點(diǎn)及序列長(zhǎng)度,以及唯一完全匹配序列;
數(shù)據(jù)結(jié)果分析單元,用于根據(jù)唯一完全匹配序列的讀長(zhǎng)片段分布情況,劃分不同的讀長(zhǎng)區(qū)間,計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例,根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異,判斷待測(cè)染色體是否為非整倍體;
其中,所述dna片段比例是根據(jù)長(zhǎng)度區(qū)間下的dna片段數(shù)目、樣本在長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和以及染色體的長(zhǎng)度計(jì)算得出。
進(jìn)一步,所述染色體上長(zhǎng)度區(qū)間的dna片段比例,其所采用的計(jì)算公式如下所示:
其中,i表示為染色體編號(hào);j表示為長(zhǎng)度區(qū)間編號(hào);ratioij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段比例;reads_nij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段數(shù)目;reads_nj表示為樣本在第j個(gè)長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和;chr_leni表示為第i號(hào)染色體的長(zhǎng)度。
進(jìn)一步,所述根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異,判斷待測(cè)染色體是否為非整倍體這一步驟,其具體包括:
判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn),若是,則判斷待測(cè)染色體為非整倍體,反之,則判斷待測(cè)染色體不為非整倍體。
進(jìn)一步,所述染色體的長(zhǎng)度指的是染色體過(guò)濾掉著絲粒、端粒和隨體區(qū)后的長(zhǎng)度。
進(jìn)一步,所述讀長(zhǎng)區(qū)間的劃分采用滑窗法來(lái)實(shí)現(xiàn)。
本發(fā)明所采用的另一技術(shù)方案是:一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置,包括處理器,適于實(shí)現(xiàn)各種指令,所述指令適于由處理器加載并執(zhí)行以下步驟:
獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段;
將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列進(jìn)行比對(duì),將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置,從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、起始位點(diǎn)及序列長(zhǎng)度,以及唯一完全匹配序列;
根據(jù)唯一完全匹配序列的讀長(zhǎng)片段分布情況,劃分不同的讀長(zhǎng)區(qū)間,計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例,根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異,判斷待測(cè)染色體是否為非整倍體;
其中,所述dna片段比例是根據(jù)長(zhǎng)度區(qū)間下的dna片段數(shù)目、樣本在長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和以及染色體的長(zhǎng)度計(jì)算得出。
進(jìn)一步,所述染色體上長(zhǎng)度區(qū)間的dna片段比例,其所采用的計(jì)算公式如下所示:
其中,i表示為染色體編號(hào);j表示為長(zhǎng)度區(qū)間編號(hào);ratioij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段比例;reads_nij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段數(shù)目;reads_nj表示為樣本在第j個(gè)長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和;chr_leni表示為第i號(hào)染色體的長(zhǎng)度。
進(jìn)一步,所述根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異,判斷待測(cè)染色體是否為非整倍體這一步驟,其具體包括:
判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn),若是,則判斷待測(cè)染色體為非整倍體,反之,則判斷待測(cè)染色體不為非整倍體。
進(jìn)一步,所述染色體的長(zhǎng)度指的是染色體過(guò)濾掉著絲粒、端粒和隨體區(qū)后的長(zhǎng)度。
進(jìn)一步,所述讀長(zhǎng)區(qū)間的劃分采用滑窗法來(lái)實(shí)現(xiàn)。
本發(fā)明的有益效果是:通過(guò)將本發(fā)明裝置應(yīng)用于傳統(tǒng)自身樣本內(nèi)比較方法,來(lái)實(shí)現(xiàn)胚胎染色體數(shù)目異常時(shí),不僅準(zhǔn)確率高,而且本裝置不需要利用正常陰性樣本構(gòu)建的參考集作為參照,避免了參考樣本集合比較方法在參考樣本集和待測(cè)樣本存在嚴(yán)重偏差導(dǎo)致的假陽(yáng)性和假陰性。同時(shí),本發(fā)明裝置引入了各染色體的讀長(zhǎng)信息,令對(duì)染色體異常的判斷不單單依賴(lài)于序列比例(copyratio)的數(shù)值變化,而且還需要考察copyratio在不同讀長(zhǎng)(readslength)比例下的特征變化是否合理,對(duì)染色體是否存在異常的判斷更為準(zhǔn)確,可以同時(shí)降低假陽(yáng)性率和假陽(yáng)性率。
附圖說(shuō)明
圖1是基于高通量測(cè)序數(shù)據(jù)進(jìn)行胚胎染色體非整倍體判定的分析流程圖;
圖2是羊水細(xì)胞t2樣本各染色體多重比較后各染色體的p值指數(shù)分布圖;
圖3是羊水細(xì)胞t2樣本各染色體多重比較的p值表;
圖4是卵裂球單細(xì)胞擴(kuò)增產(chǎn)物t4樣本各染色體多重比較后各染色體的p值指數(shù)分布圖;
圖5是卵裂球單細(xì)胞擴(kuò)增產(chǎn)物t4樣本各染色體多重比較的p值表。
具體實(shí)施方式
本發(fā)明的思想為:在自身樣本內(nèi)比較方法的基礎(chǔ)上,引入序列的長(zhǎng)度信息,利用序列的長(zhǎng)度對(duì)染色體的copyratio值進(jìn)行分類(lèi),同時(shí),本發(fā)明判斷染色體是否存在異常時(shí)除了考慮序列比例(readsratio)的變化,還考慮了不同讀長(zhǎng)(readslength)的序列比例的數(shù)值是否合理,因此通過(guò)使用本發(fā)明裝置而得出的檢測(cè)結(jié)果更為準(zhǔn)確可靠,且可同時(shí)減少假陽(yáng)性率和假陰性率??梢?jiàn),本發(fā)明不僅僅適用于流產(chǎn)物和胚胎組織的染色體異常檢測(cè),也適用于基于單細(xì)胞擴(kuò)增的胚胎植入前篩查,是一項(xiàng)通用的檢測(cè)裝置。
以下結(jié)合具體實(shí)施例來(lái)對(duì)本發(fā)明裝置進(jìn)行詳細(xì)闡述。
實(shí)施例1
一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置,具體包括:
測(cè)序數(shù)據(jù)獲取單元,用于獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段;其中,所述dna讀長(zhǎng)片段指的是測(cè)序獲得的dna信息,包括dna堿基序列和長(zhǎng)度等信息;
其中,獲取得到的dna讀長(zhǎng)片段,其是對(duì)卵裂球單細(xì)胞擴(kuò)增產(chǎn)物或流產(chǎn)組織或羊水細(xì)胞中的dna進(jìn)行高通量測(cè)序后而得到的dna讀長(zhǎng)片段;
測(cè)序數(shù)據(jù)處理單元,用于將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì),將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置,從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、具體起始位點(diǎn)及序列長(zhǎng)度;同時(shí),在dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)過(guò)程中,通過(guò)剔除處于串聯(lián)重復(fù)位置及轉(zhuǎn)座子重復(fù)位置的核苷酸序列,以及低質(zhì)量的、多匹配和非完全匹配到染色體上的核苷酸序列后,得到unique序列,即唯一完全匹配序列;
數(shù)據(jù)結(jié)果分析單元,用于根據(jù)unique序列的讀長(zhǎng)片段分布情況,劃分不同的讀長(zhǎng)區(qū)間,不同的讀長(zhǎng)區(qū)間為不同長(zhǎng)度區(qū)間;
采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例,然后對(duì)計(jì)算出的dna片段比例進(jìn)行g(shù)c校正,通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性,從而判斷待測(cè)染色體是否為非整倍體;
優(yōu)選地,所述采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例這一步驟,其具體包括:
采用滑窗法,按照預(yù)設(shè)的長(zhǎng)度梯度和step(步長(zhǎng)),將dna讀長(zhǎng)片段分別劃分到不同的長(zhǎng)度區(qū)間,具體地,以10bp作為長(zhǎng)度梯度(窗口),以10bp作為step(步長(zhǎng)),得到不同長(zhǎng)度片段區(qū)間為:[100,110),[110,120),[120,130),……,[210,220),[220,230);
然后,為了考慮到染色體之間長(zhǎng)度不同,在dna片段比例計(jì)算公式中引入染色體長(zhǎng)度變量,實(shí)現(xiàn)不同染色體之間readsratio的度量單位統(tǒng)一,即,所述染色體上長(zhǎng)度區(qū)間的dna片段比例,其所采用的第一計(jì)算公式如下所示:
其中,i表示為染色體編號(hào);j表示為長(zhǎng)度區(qū)間編號(hào);ratioij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段比例;reads_nij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段數(shù)目;reads_nj表示為樣本在第j個(gè)長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和;chr_leni表示為第i號(hào)染色體的長(zhǎng)度;
其中,上述經(jīng)統(tǒng)計(jì)得出的長(zhǎng)度區(qū)間下的dna片段數(shù)目是基于gc校正后的讀長(zhǎng)片段分布情況進(jìn)行統(tǒng)計(jì)得出的;
優(yōu)選地,所述通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性,從而判斷待測(cè)染色體是否為非整倍體這一步驟,其具體包括:
判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例,兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn),具體地,即判斷單位染色體長(zhǎng)度下不同長(zhǎng)度區(qū)間內(nèi)dna讀長(zhǎng)片段比例是否有統(tǒng)計(jì)學(xué)意義上的顯著差異,若是,則判斷待測(cè)染色體為非整倍體,反之,則判斷待測(cè)染色體不為非整倍體。
上述測(cè)序數(shù)據(jù)獲取單元、測(cè)序數(shù)據(jù)處理單元及數(shù)據(jù)結(jié)果分析單元可為程序模塊,也可為硬件設(shè)備模塊。
實(shí)施例2
一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置,包括處理器,適于實(shí)現(xiàn)各種指令,所述指令適于由處理器加載并執(zhí)行以下步驟:
s101、獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段,其中,所述dna讀長(zhǎng)片段指的是測(cè)序獲得的dna信息,包括dna堿基序列和長(zhǎng)度等信息;
其中,獲取得到的dna讀長(zhǎng)片段,其是對(duì)卵裂球單細(xì)胞擴(kuò)增產(chǎn)物或流產(chǎn)組織或羊水細(xì)胞中的dna進(jìn)行高通量測(cè)序后而得到的dna讀長(zhǎng)片段;
s102、將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì),將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置,從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、具體起始位點(diǎn)及序列長(zhǎng)度;同時(shí),在dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)過(guò)程中,通過(guò)剔除處于串聯(lián)重復(fù)位置及轉(zhuǎn)座子重復(fù)位置的核苷酸序列,以及低質(zhì)量的、多匹配和非完全匹配到染色體上的核苷酸序列后,得到unique序列,即唯一完全匹配序列;
s103、根據(jù)unique序列的讀長(zhǎng)片段分布情況,劃分不同的讀長(zhǎng)區(qū)間,不同的讀長(zhǎng)區(qū)間對(duì)應(yīng)不同長(zhǎng)度區(qū)間;統(tǒng)計(jì)出不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目,當(dāng)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目與對(duì)應(yīng)長(zhǎng)度區(qū)間下其他已知常染色體的dna片段數(shù)目,兩者之間的數(shù)值差符合顯著性條件時(shí),即待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目顯著多于或少于對(duì)應(yīng)長(zhǎng)度區(qū)間下其他常染色體的dna片段數(shù)目時(shí),則判斷該待測(cè)染色體為非整倍體;
優(yōu)選地,在所述統(tǒng)計(jì)出不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目這一步驟之前設(shè)有校正步驟,所述校正步驟為:對(duì)unique序列的讀長(zhǎng)片段分布情況進(jìn)行g(shù)c校正;也就是說(shuō),
不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目是基于gc校正后的dna片段分布情況進(jìn)行統(tǒng)計(jì)的;
s104、采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例,然后對(duì)計(jì)算出的dna片段比例進(jìn)行g(shù)c校正,通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性,從而判斷待測(cè)染色體是否為非整倍體;
優(yōu)選地,所述采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例這一步驟,其具體包括:
采用滑窗法,按照預(yù)設(shè)的長(zhǎng)度梯度和step(步長(zhǎng)),將dna讀長(zhǎng)片段分別劃分到不同的長(zhǎng)度區(qū)間,具體地,以10bp作為長(zhǎng)度梯度(窗口),以10bp作為step(步長(zhǎng)),得到不同長(zhǎng)度片段區(qū)間為:[100,110),[110,120),[120,130),……,[210,220),[220,230);
然后,為了考慮到染色體之間長(zhǎng)度不同,在dna片段比例計(jì)算公式中引入染色體長(zhǎng)度變量,實(shí)現(xiàn)不同染色體之間readsratio的度量單位統(tǒng)一,即,所述染色體上長(zhǎng)度區(qū)間的dna片段比例,其所采用的第一計(jì)算公式如下所示:
其中,i表示為染色體編號(hào);j表示為長(zhǎng)度區(qū)間編號(hào);ratioij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段比例;reads_nij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段數(shù)目;reads_nj表示為樣本在第j個(gè)長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和;chr_leni表示為第i號(hào)染色體的長(zhǎng)度;
優(yōu)選地,所述通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性,從而判斷待測(cè)染色體是否為非整倍體這一步驟,其具體包括:
判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例,兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn),具體地,即判斷單位染色體長(zhǎng)度下不同長(zhǎng)度區(qū)間內(nèi)dna讀長(zhǎng)片段比例是否有統(tǒng)計(jì)學(xué)意義上的顯著差異,若是,則判斷待測(cè)染色體為非整倍體,反之,則判斷待測(cè)染色體不為非整倍體。
實(shí)施例3
將上述一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置應(yīng)用在胚胎染色體非整倍體檢測(cè)技術(shù)中,其具體檢測(cè)實(shí)現(xiàn)部分包括以下六個(gè)部分,并且具體實(shí)現(xiàn)流程步驟如圖1所示。
第一部分、樣本來(lái)源:2例樣本來(lái)自羊水細(xì)胞,其核型分析結(jié)果分別為46,xn和47,xn,+16;2例樣本來(lái)自胚胎卵裂時(shí)期的卵裂球單細(xì)胞擴(kuò)增產(chǎn)物,其array-cgh芯片分析結(jié)果分別為46,xn和47,xn,+9。
第二部分、測(cè)序數(shù)據(jù)比對(duì)與質(zhì)控
將測(cè)序數(shù)據(jù)與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì),確定dna片段序列在染色體上的準(zhǔn)確位置。為了保證測(cè)序結(jié)果的質(zhì)量及避免一些重復(fù)序列的干擾,剔除低質(zhì)量的序列,并對(duì)位于基因組串聯(lián)重復(fù)及轉(zhuǎn)座重復(fù)區(qū)域的堿基進(jìn)行過(guò)濾,最終獲得唯一匹配的dna片段,即unique序列。
第三部分、gc校正
為了消除gc含量對(duì)不同染色體不同長(zhǎng)度區(qū)間內(nèi)dna片段數(shù)目影響,統(tǒng)計(jì)不同gc含量組下dna片段數(shù)目,并利用中位數(shù)對(duì)其進(jìn)行校正。
第四部分、計(jì)算待測(cè)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間的dna片段比例
a、實(shí)施例中以10bp作為長(zhǎng)度梯度(窗口),以10bp作為step(步長(zhǎng)),得到不同長(zhǎng)度片段區(qū)間為:[100,110),[110,120),[120,130),……,[210,220),[220,230);
b、統(tǒng)計(jì)樣本內(nèi)各長(zhǎng)度區(qū)間經(jīng)gc校正后的dna片段總數(shù);
c、統(tǒng)計(jì)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間經(jīng)gc校正后的dna片段數(shù);
d、根據(jù)上述第一計(jì)算公式,計(jì)算待測(cè)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間的dna片段比例。結(jié)果如表1-4所示,其中i為第i號(hào)染色體,j為第j組長(zhǎng)度區(qū)間。
表1羊水細(xì)胞樣本t1中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例
表2羊水細(xì)胞樣本t2中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例
表3卵裂球單細(xì)胞擴(kuò)增產(chǎn)物樣本t3中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例
表4卵裂球單細(xì)胞擴(kuò)增產(chǎn)物樣本t4中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例
第五部分、對(duì)校正后的dna片段比例進(jìn)行雙向分類(lèi)的方差分析(two-wayclassificationanova)
a、兩個(gè)因素:因素1:dna片段讀長(zhǎng)區(qū)間,因素2:染色體,不考慮交互作用。根據(jù)p值和顯著性水平,判斷各染色體不同長(zhǎng)度區(qū)間下dna片段比例有無(wú)差別;
b、考慮dna片段長(zhǎng)度和染色體兩個(gè)因素,對(duì)dna片段比例進(jìn)行雙向分類(lèi)的方差分析(假設(shè)h0:22條常染色體dna片段比例總體均數(shù)都相等,即不考慮性染色體情況下,該樣本為陰性樣本;h1:22條常染色體dna片段比例總體均數(shù)不全相等,即該樣本為陽(yáng)性樣本,存在非整倍體染色體);
c、方差分析結(jié)果判讀:對(duì)于因素1—dna片段讀長(zhǎng)區(qū)間,如果p值(方差檢驗(yàn)結(jié)果對(duì)應(yīng)的概率值)小于顯著水平0.05,說(shuō)明不同染色體不同長(zhǎng)度區(qū)間下的dna片段比例的差異受到該因素影響,因此該樣本的結(jié)果是不可靠的(因?yàn)椴煌琩na片段長(zhǎng)度產(chǎn)生是通過(guò)酶切隨機(jī)片段化產(chǎn)生,dna片段長(zhǎng)度與dna片段比例是沒(méi)有聯(lián)系的);如果p值大于0.05,說(shuō)明該樣本結(jié)果是合理的,可以進(jìn)一步對(duì)因素2結(jié)果進(jìn)行分析;對(duì)于因素2—染色體,如果p值大于0.05,說(shuō)明不同染色體之間的dna片段比例沒(méi)有顯著差異,22條常染色體都為整倍體,故可判斷為正常樣本(不考慮性染色體情況下);如果p值小于0.05,說(shuō)明不同染色體之間dna片段存在顯著差異,22條常染色體中存在非整倍體染色體,故接下來(lái)需要進(jìn)行多條染色體間的多重比較,從而確定哪條染色體為非整倍體。
d、根據(jù)方差分析結(jié)果,計(jì)算p值。結(jié)果如表5所示(p1:不同dna片段讀長(zhǎng)區(qū)間因素;p2:染色體因素)。
表5方差分析的p值結(jié)果
注:t1和t2為羊水細(xì)胞;t3和t4為卵裂球單細(xì)胞擴(kuò)增產(chǎn)物。
根據(jù)上述表5,判斷如下:
1)對(duì)于t1,p1和p2都大于0.05,故可推斷為正常樣本;同理,推斷出t3為正常樣本。
2)對(duì)于t2,p1大于0.05,而p2小于0.05,則認(rèn)為該樣本存在非整倍體染色體,故判斷
為陽(yáng)性樣本;同理,推斷出t4也為陽(yáng)性樣本。
第六部分、對(duì)異常樣本的各染色體間dna片段均值進(jìn)行多重比較
由于方差分析只能判定該樣本是否存在非整倍體染色體,而不能確定具體是哪條異常,因此,利用多重t檢驗(yàn)對(duì)方差分析判定為異常的樣本進(jìn)行均值的多重比較。即對(duì)每條染色體的dna片段比例的總體均值而言,分別與其他21條染色體的dna片段比例的總體均值進(jìn)行差異性比較,方法是采用兩正態(tài)總體均值的t檢驗(yàn)。由于多次重復(fù)使用t檢驗(yàn)會(huì)增大犯ⅰ類(lèi)錯(cuò)誤(把本無(wú)差別的兩個(gè)總體均數(shù)判為有差別)的概率,從而使得“有顯著差異”的結(jié)論不一定可靠。因此,采用bonferroni方法對(duì)p值進(jìn)行調(diào)整。
對(duì)上述兩例異常樣本(t2和t4)進(jìn)行多重比較分析,p值結(jié)果如圖3所示。
對(duì)于t2樣本,從圖2的方差分析的p值指數(shù)的分布圖可以看出,16號(hào)染色體與其他染色體有明顯差異,圖3中多重比較的p值也可以看出,16號(hào)染色體與其他染色體之間都呈現(xiàn)顯著性差異(p值小于0.05),但其他染色體相互之間沒(méi)有顯著性差異。且16號(hào)染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例為5.627,其他染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例在3.7~3.8之間,因此,認(rèn)為多一條16號(hào)染色體,故判斷t2樣本核型為47,xn,+16(與核型分析結(jié)果一致)。
同理,對(duì)于t4樣本,從圖4的方差分析的p值指數(shù)的分布圖可以看出,9號(hào)染色體與其他染色體有明顯差異,圖5中多重比較的p值也可以看出,9號(hào)染色體與其他染色體之間都呈現(xiàn)顯著性差異(p值小于0.05),但其他染色體相互之間沒(méi)有顯著性差異。且9號(hào)染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例為5.915,其他染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例都在3.75左右,因此,認(rèn)為多一條9號(hào)染色體,故判斷t4樣本核型為47,xn,+9(與array-cgh分析結(jié)果一致)。
以上是對(duì)本發(fā)明的較佳實(shí)施進(jìn)行了具體說(shuō)明,但本發(fā)明創(chuàng)造并不限于所述實(shí)施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請(qǐng)權(quán)利要求所限定的范圍內(nèi)。