一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置的制作方法

文檔序號(hào)：11216724閱讀：341來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)處理技術(shù)，尤其涉及一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置，適用于胚胎染色體非整倍體檢測(cè)技術(shù)中。

背景技術(shù)：

染色體異常是導(dǎo)致自然流產(chǎn)、出生缺陷、胎兒多發(fā)畸形等重要臨床因素。所述染色體異常包括有染色體數(shù)目異常和染色體微缺失微重復(fù)。其中，孕早期原因未明的自然流產(chǎn)中大部分是染色體非整倍體所致，b超顯示存在多發(fā)畸形的胎兒中10％異常存在染色體非整倍體，出生缺陷的新生兒中約20％也為染色體異常所致。因此，對(duì)染色體異常進(jìn)行檢測(cè)，這一方面對(duì)于早期自然流產(chǎn)，有利于排查流產(chǎn)是否為胎兒染色體異常所致，特別是對(duì)多次未明原因的孕早期反復(fù)流產(chǎn)的孕婦，可以對(duì)夫妻雙方進(jìn)行染色體異常檢測(cè)，以減少再次妊娠時(shí)異?；純撼錾目赡苄裕涣硪环矫?，有利于早期發(fā)現(xiàn)胎兒異常是否為染色體異常所致，為醫(yī)生提供診斷的輔助信息，從而實(shí)現(xiàn)胎兒異常的早期治療，進(jìn)而降低出生缺陷。

此外，近年來(lái)，人類(lèi)輔助生殖技術(shù)的快速發(fā)展使得“試管嬰兒”技術(shù)逐漸應(yīng)用于臨床，幫助更多不孕不育或年齡較大或攜帶遺傳疾病的夫妻獲得下一代。然而大量臨床研究發(fā)現(xiàn)，在體外受精形成的胚胎中，大約一半左右的胚胎存在染色體異常的現(xiàn)象，這往往是許多孕婦會(huì)出現(xiàn)反復(fù)種植失敗或自然流產(chǎn)或死產(chǎn)的主要原因[1]。而且隨著孕婦年齡增加，胚胎發(fā)生染色體異常的風(fēng)險(xiǎn)也越高，極大地限制了輔助生殖技術(shù)的成功率。因此，胚胎植入前能對(duì)胚胎染色體異常的準(zhǔn)確篩查，進(jìn)而選擇健康的胚胎植入，是能顯著提高試管嬰兒的妊娠率和活產(chǎn)率。

目前，針對(duì)染色體異常檢測(cè)的方法主要包括有fish、微陣列-比較基因組雜交(array-cgh)技術(shù)和高通量測(cè)序技術(shù)。熒光原位雜交技術(shù)(fluorescenceinsituhybridization，fish)是早期染色體異常檢測(cè)的黃金標(biāo)準(zhǔn)。雖然fish具有快速、特異性高等優(yōu)勢(shì)，但是由于受到探針?lè)N類(lèi)和標(biāo)記熒光素種類(lèi)限制，使得該技術(shù)僅能一次對(duì)部分染色體數(shù)目異常進(jìn)行檢測(cè)，而不能在全基因組的水平上進(jìn)行檢測(cè)。目前更為普遍應(yīng)用于染色體異常檢測(cè)的方法是微陣列-比較基因組雜交(array-cgh)技術(shù)[2]。相比f(wàn)ish技術(shù)，array-cgh技術(shù)可以?xún)H通過(guò)一次雜交實(shí)驗(yàn)就能檢測(cè)全部23對(duì)染色體數(shù)目變化，但是其檢測(cè)的分辨率取決于探針的密度(探針未覆蓋的區(qū)域是無(wú)法檢測(cè)到的)，若要從全基因組水平上檢測(cè)23對(duì)染色體異常的情況，就必須增加探針的數(shù)量，大大地增加了成本費(fèi)用。而隨著高通量測(cè)序成本的降低，近幾年來(lái)，基于高通量測(cè)序技術(shù)進(jìn)行胚胎染色體非整倍體檢測(cè)的方法逐漸成為主流。

基于高通量測(cè)序技術(shù)來(lái)檢測(cè)胚胎染色體非整倍體的主要過(guò)程如下：1)、獲取合理數(shù)量的dna模板(流產(chǎn)物組織或胚胎組織則可以直接酶切或超聲將dna片段化；而囊胚細(xì)胞或者卵裂細(xì)胞由于起始的dna模板為微克級(jí)別所以需要提前進(jìn)行單細(xì)胞擴(kuò)增)；2)、選擇一定片段大小的dna分子(如150-250bp)；3)、構(gòu)建文庫(kù)，在上述dna分子兩端加上測(cè)序用接頭；4)、上機(jī)測(cè)序獲得一定長(zhǎng)度的序列(reads)；5)、利用比對(duì)軟件將序列(reads)比對(duì)到人類(lèi)參考基因組，過(guò)濾重復(fù)序列和低質(zhì)量的序列，得到各染色體不同位置的序列數(shù)目(readsnumber)和序列比例(readsratio)；6)、利用統(tǒng)計(jì)模型判斷胚胎是否存在染色體異常。當(dāng)胚胎出現(xiàn)染色體非整倍體時(shí)，相應(yīng)染色體總數(shù)會(huì)有一定比例的升高或降低，因此可以與一定量樣本構(gòu)成的參考集合相比較或者自身樣本內(nèi)比較來(lái)判斷染色體是否存在異常。染色體異常檢測(cè)的統(tǒng)計(jì)學(xué)方法主要可以分為參考樣本集合比較和自身樣本內(nèi)比較兩種方法。

參考樣本集合比較的代表性方法是z檢驗(yàn)[3]：z檢驗(yàn)?zāi)Ｐ屠么罅空颖緲?gòu)建參考數(shù)據(jù)庫(kù)，得到參考數(shù)據(jù)集中各染色體的讀長(zhǎng)比例(readsratio)的均值和標(biāo)準(zhǔn)差，然后計(jì)算待測(cè)樣本在每條染色體中的z-score，根據(jù)z-score來(lái)判斷樣本是否為非整倍體。但是，z檢驗(yàn)?zāi)Ｐ退嬗械闹饕獑?wèn)題是待測(cè)樣本的z-score大小對(duì)參考數(shù)據(jù)集的模型依賴(lài)性很強(qiáng)，如果待測(cè)樣本和參考樣本集合的數(shù)據(jù)一致性低的時(shí)候會(huì)導(dǎo)致靈敏性和特異性嚴(yán)重降低。對(duì)于胚胎植入前非整倍體篩查(pgs)，胚胎的起始dna含量約為6.6pg～30pg，dna起始的模板含量非常低，所以需要進(jìn)行全基因組擴(kuò)增(wholegenomeamplification，wga)然后測(cè)序，而全基因組擴(kuò)增會(huì)引入嚴(yán)重的gc偏好，這往往導(dǎo)致待測(cè)樣本和參考數(shù)據(jù)集樣本的一致性很差，可見(jiàn)，z-score模型不適用于胚胎植入前染色體非整倍體檢測(cè)方法。

因此，胚胎植入前篩查主要采用自身樣本內(nèi)比較的方法：將基因組分成不同窗口大小的bins(數(shù)據(jù)箱)，統(tǒng)計(jì)所有bins的序列比例(copyratio)，然后通過(guò)讀長(zhǎng)比例的變化趨勢(shì)來(lái)推斷是否存在染色體異常[4]。而基于自身樣本內(nèi)比較的檢驗(yàn)方法的主要問(wèn)題則在于檢驗(yàn)的結(jié)果只基于單一樣本的單一的統(tǒng)計(jì)指標(biāo)“copyratio”，當(dāng)單細(xì)胞擴(kuò)增均一性較差時(shí)，“copyratio”的波動(dòng)性很大，會(huì)出現(xiàn)大量的異常值以及假陽(yáng)性的結(jié)果。因此為了解決傳統(tǒng)自身樣本內(nèi)比較方法所產(chǎn)生的結(jié)果準(zhǔn)確度和可靠性低下的問(wèn)題，本發(fā)明針對(duì)自身樣本內(nèi)比較方法的數(shù)據(jù)處理過(guò)程提出了改進(jìn)。

參考文獻(xiàn)

1.bielanska,m.,s.l.tan,anda.ao,chromosomalmosaicismthroughouthumanpreimplantationdevelopmentinvitro:incidence,type,andrelevancetoembryooutcome.humreprod,2002.17(2):p.413-9.

2.gutierrez-mateo,c.,etal.,validationofmicroarraycomparativegenomichybridizationforcomprehensivechromosomeanalysisofembryos.fertilsteril,2011.95(3):p.953-8.

3.chiu,r.w.,etal.,noninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparalelgenomicsequencingofdnainmaternalplasma.procnatlacadsciusa,2008.105(51):p.20458-63.

4.fu,y.,etal.,uniformandaccuratesingle-celsequencingbasedonemulsionwhole-genomeamplification.procnatlacadsciusa,2015.112(38):p.11923-8.

技術(shù)實(shí)現(xiàn)要素：

為了解決上述技術(shù)問(wèn)題，本發(fā)明的目的是提供一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置。

本發(fā)明所采用的技術(shù)方案是：一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置，該裝置包括：

測(cè)序數(shù)據(jù)獲取單元，用于獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段；

測(cè)序數(shù)據(jù)處理單元，用于將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列進(jìn)行比對(duì)，將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置，從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、起始位點(diǎn)及序列長(zhǎng)度，以及唯一完全匹配序列；

數(shù)據(jù)結(jié)果分析單元，用于根據(jù)唯一完全匹配序列的讀長(zhǎng)片段分布情況，劃分不同的讀長(zhǎng)區(qū)間，計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例，根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異，判斷待測(cè)染色體是否為非整倍體；

其中，所述dna片段比例是根據(jù)長(zhǎng)度區(qū)間下的dna片段數(shù)目、樣本在長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和以及染色體的長(zhǎng)度計(jì)算得出。

進(jìn)一步，所述染色體上長(zhǎng)度區(qū)間的dna片段比例，其所采用的計(jì)算公式如下所示：

其中，i表示為染色體編號(hào)；j表示為長(zhǎng)度區(qū)間編號(hào)；ratioij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段比例；reads_nij表示為第i號(hào)染色體上第j個(gè)長(zhǎng)度區(qū)間下的dna片段數(shù)目；reads_nj表示為樣本在第j個(gè)長(zhǎng)度區(qū)間下的所有常染色體的dna片段數(shù)總和；chr_leni表示為第i號(hào)染色體的長(zhǎng)度。

進(jìn)一步，所述根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異，判斷待測(cè)染色體是否為非整倍體這一步驟，其具體包括：

判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn)，若是，則判斷待測(cè)染色體為非整倍體，反之，則判斷待測(cè)染色體不為非整倍體。

進(jìn)一步，所述染色體的長(zhǎng)度指的是染色體過(guò)濾掉著絲粒、端粒和隨體區(qū)后的長(zhǎng)度。

進(jìn)一步，所述讀長(zhǎng)區(qū)間的劃分采用滑窗法來(lái)實(shí)現(xiàn)。

本發(fā)明所采用的另一技術(shù)方案是：一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置，包括處理器，適于實(shí)現(xiàn)各種指令，所述指令適于由處理器加載并執(zhí)行以下步驟：

獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段；

將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列進(jìn)行比對(duì)，將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置，從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、起始位點(diǎn)及序列長(zhǎng)度，以及唯一完全匹配序列；

根據(jù)唯一完全匹配序列的讀長(zhǎng)片段分布情況，劃分不同的讀長(zhǎng)區(qū)間，計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例，根據(jù)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例兩者之間的差異，判斷待測(cè)染色體是否為非整倍體；

進(jìn)一步，所述染色體上長(zhǎng)度區(qū)間的dna片段比例，其所采用的計(jì)算公式如下所示：

進(jìn)一步，所述染色體的長(zhǎng)度指的是染色體過(guò)濾掉著絲粒、端粒和隨體區(qū)后的長(zhǎng)度。

進(jìn)一步，所述讀長(zhǎng)區(qū)間的劃分采用滑窗法來(lái)實(shí)現(xiàn)。

本發(fā)明的有益效果是：通過(guò)將本發(fā)明裝置應(yīng)用于傳統(tǒng)自身樣本內(nèi)比較方法，來(lái)實(shí)現(xiàn)胚胎染色體數(shù)目異常時(shí)，不僅準(zhǔn)確率高，而且本裝置不需要利用正常陰性樣本構(gòu)建的參考集作為參照，避免了參考樣本集合比較方法在參考樣本集和待測(cè)樣本存在嚴(yán)重偏差導(dǎo)致的假陽(yáng)性和假陰性。同時(shí)，本發(fā)明裝置引入了各染色體的讀長(zhǎng)信息，令對(duì)染色體異常的判斷不單單依賴(lài)于序列比例(copyratio)的數(shù)值變化，而且還需要考察copyratio在不同讀長(zhǎng)(readslength)比例下的特征變化是否合理，對(duì)染色體是否存在異常的判斷更為準(zhǔn)確，可以同時(shí)降低假陽(yáng)性率和假陽(yáng)性率。

附圖說(shuō)明

圖1是基于高通量測(cè)序數(shù)據(jù)進(jìn)行胚胎染色體非整倍體判定的分析流程圖；

圖2是羊水細(xì)胞t2樣本各染色體多重比較后各染色體的p值指數(shù)分布圖；

圖3是羊水細(xì)胞t2樣本各染色體多重比較的p值表；

圖4是卵裂球單細(xì)胞擴(kuò)增產(chǎn)物t4樣本各染色體多重比較后各染色體的p值指數(shù)分布圖；

圖5是卵裂球單細(xì)胞擴(kuò)增產(chǎn)物t4樣本各染色體多重比較的p值表。

具體實(shí)施方式

本發(fā)明的思想為：在自身樣本內(nèi)比較方法的基礎(chǔ)上，引入序列的長(zhǎng)度信息，利用序列的長(zhǎng)度對(duì)染色體的copyratio值進(jìn)行分類(lèi)，同時(shí)，本發(fā)明判斷染色體是否存在異常時(shí)除了考慮序列比例(readsratio)的變化，還考慮了不同讀長(zhǎng)(readslength)的序列比例的數(shù)值是否合理，因此通過(guò)使用本發(fā)明裝置而得出的檢測(cè)結(jié)果更為準(zhǔn)確可靠，且可同時(shí)減少假陽(yáng)性率和假陰性率?？梢?jiàn)，本發(fā)明不僅僅適用于流產(chǎn)物和胚胎組織的染色體異常檢測(cè)，也適用于基于單細(xì)胞擴(kuò)增的胚胎植入前篩查，是一項(xiàng)通用的檢測(cè)裝置。

以下結(jié)合具體實(shí)施例來(lái)對(duì)本發(fā)明裝置進(jìn)行詳細(xì)闡述。

實(shí)施例1

一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置，具體包括：

測(cè)序數(shù)據(jù)獲取單元，用于獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段；其中，所述dna讀長(zhǎng)片段指的是測(cè)序獲得的dna信息，包括dna堿基序列和長(zhǎng)度等信息；

其中，獲取得到的dna讀長(zhǎng)片段，其是對(duì)卵裂球單細(xì)胞擴(kuò)增產(chǎn)物或流產(chǎn)組織或羊水細(xì)胞中的dna進(jìn)行高通量測(cè)序后而得到的dna讀長(zhǎng)片段；

測(cè)序數(shù)據(jù)處理單元，用于將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)，將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置，從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、具體起始位點(diǎn)及序列長(zhǎng)度；同時(shí)，在dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)過(guò)程中，通過(guò)剔除處于串聯(lián)重復(fù)位置及轉(zhuǎn)座子重復(fù)位置的核苷酸序列，以及低質(zhì)量的、多匹配和非完全匹配到染色體上的核苷酸序列后，得到unique序列，即唯一完全匹配序列；

數(shù)據(jù)結(jié)果分析單元，用于根據(jù)unique序列的讀長(zhǎng)片段分布情況，劃分不同的讀長(zhǎng)區(qū)間，不同的讀長(zhǎng)區(qū)間為不同長(zhǎng)度區(qū)間；

采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例，然后對(duì)計(jì)算出的dna片段比例進(jìn)行g(shù)c校正，通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性，從而判斷待測(cè)染色體是否為非整倍體；

優(yōu)選地，所述采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例這一步驟，其具體包括：

采用滑窗法，按照預(yù)設(shè)的長(zhǎng)度梯度和step(步長(zhǎng))，將dna讀長(zhǎng)片段分別劃分到不同的長(zhǎng)度區(qū)間，具體地，以10bp作為長(zhǎng)度梯度(窗口)，以10bp作為step(步長(zhǎng))，得到不同長(zhǎng)度片段區(qū)間為：[100，110)，[110，120)，[120，130)，……，[210，220),[220，230)；

然后，為了考慮到染色體之間長(zhǎng)度不同，在dna片段比例計(jì)算公式中引入染色體長(zhǎng)度變量，實(shí)現(xiàn)不同染色體之間readsratio的度量單位統(tǒng)一，即，所述染色體上長(zhǎng)度區(qū)間的dna片段比例，其所采用的第一計(jì)算公式如下所示：

其中，上述經(jīng)統(tǒng)計(jì)得出的長(zhǎng)度區(qū)間下的dna片段數(shù)目是基于gc校正后的讀長(zhǎng)片段分布情況進(jìn)行統(tǒng)計(jì)得出的；

優(yōu)選地，所述通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性，從而判斷待測(cè)染色體是否為非整倍體這一步驟，其具體包括：

判斷待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例，兩者之間的差異是否符合統(tǒng)計(jì)學(xué)意義上顯著差異的標(biāo)準(zhǔn)，具體地，即判斷單位染色體長(zhǎng)度下不同長(zhǎng)度區(qū)間內(nèi)dna讀長(zhǎng)片段比例是否有統(tǒng)計(jì)學(xué)意義上的顯著差異，若是，則判斷待測(cè)染色體為非整倍體，反之，則判斷待測(cè)染色體不為非整倍體。

上述測(cè)序數(shù)據(jù)獲取單元、測(cè)序數(shù)據(jù)處理單元及數(shù)據(jù)結(jié)果分析單元可為程序模塊，也可為硬件設(shè)備模塊。

實(shí)施例2

一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置，包括處理器，適于實(shí)現(xiàn)各種指令，所述指令適于由處理器加載并執(zhí)行以下步驟：

s101、獲取經(jīng)高通量測(cè)序后得到的dna讀長(zhǎng)片段，其中，所述dna讀長(zhǎng)片段指的是測(cè)序獲得的dna信息，包括dna堿基序列和長(zhǎng)度等信息；

s102、將獲得的dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)，將各dna讀長(zhǎng)片段比對(duì)到染色體相應(yīng)位置，從而得到各dna讀長(zhǎng)片段所對(duì)應(yīng)的染色體、具體起始位點(diǎn)及序列長(zhǎng)度；同時(shí)，在dna讀長(zhǎng)片段與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)過(guò)程中，通過(guò)剔除處于串聯(lián)重復(fù)位置及轉(zhuǎn)座子重復(fù)位置的核苷酸序列，以及低質(zhì)量的、多匹配和非完全匹配到染色體上的核苷酸序列后，得到unique序列，即唯一完全匹配序列；

s103、根據(jù)unique序列的讀長(zhǎng)片段分布情況，劃分不同的讀長(zhǎng)區(qū)間，不同的讀長(zhǎng)區(qū)間對(duì)應(yīng)不同長(zhǎng)度區(qū)間；統(tǒng)計(jì)出不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目，當(dāng)待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目與對(duì)應(yīng)長(zhǎng)度區(qū)間下其他已知常染色體的dna片段數(shù)目，兩者之間的數(shù)值差符合顯著性條件時(shí)，即待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目顯著多于或少于對(duì)應(yīng)長(zhǎng)度區(qū)間下其他常染色體的dna片段數(shù)目時(shí)，則判斷該待測(cè)染色體為非整倍體；

優(yōu)選地，在所述統(tǒng)計(jì)出不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目這一步驟之前設(shè)有校正步驟，所述校正步驟為：對(duì)unique序列的讀長(zhǎng)片段分布情況進(jìn)行g(shù)c校正；也就是說(shuō)，

不同染色體不同長(zhǎng)度區(qū)間下的dna片段數(shù)目是基于gc校正后的dna片段分布情況進(jìn)行統(tǒng)計(jì)的；

s104、采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例，然后對(duì)計(jì)算出的dna片段比例進(jìn)行g(shù)c校正，通過(guò)比較校正后的待測(cè)染色體不同長(zhǎng)度區(qū)間下的dna片段比例與其他已知常染色體在不同長(zhǎng)度區(qū)間下的dna片段比例的差異是否具有顯著性，從而判斷待測(cè)染色體是否為非整倍體；

優(yōu)選地，所述采用滑窗法計(jì)算每條染色體上每個(gè)長(zhǎng)度區(qū)間的dna片段比例這一步驟，其具體包括：

實(shí)施例3

將上述一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置應(yīng)用在胚胎染色體非整倍體檢測(cè)技術(shù)中，其具體檢測(cè)實(shí)現(xiàn)部分包括以下六個(gè)部分，并且具體實(shí)現(xiàn)流程步驟如圖1所示。

第一部分、樣本來(lái)源：2例樣本來(lái)自羊水細(xì)胞，其核型分析結(jié)果分別為46,xn和47,xn,+16；2例樣本來(lái)自胚胎卵裂時(shí)期的卵裂球單細(xì)胞擴(kuò)增產(chǎn)物，其array-cgh芯片分析結(jié)果分別為46,xn和47,xn,+9。

第二部分、測(cè)序數(shù)據(jù)比對(duì)與質(zhì)控

將測(cè)序數(shù)據(jù)與人類(lèi)基因組標(biāo)準(zhǔn)序列hg19進(jìn)行比對(duì)，確定dna片段序列在染色體上的準(zhǔn)確位置。為了保證測(cè)序結(jié)果的質(zhì)量及避免一些重復(fù)序列的干擾，剔除低質(zhì)量的序列，并對(duì)位于基因組串聯(lián)重復(fù)及轉(zhuǎn)座重復(fù)區(qū)域的堿基進(jìn)行過(guò)濾，最終獲得唯一匹配的dna片段，即unique序列。

第三部分、gc校正

為了消除gc含量對(duì)不同染色體不同長(zhǎng)度區(qū)間內(nèi)dna片段數(shù)目影響，統(tǒng)計(jì)不同gc含量組下dna片段數(shù)目，并利用中位數(shù)對(duì)其進(jìn)行校正。

第四部分、計(jì)算待測(cè)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間的dna片段比例

a、實(shí)施例中以10bp作為長(zhǎng)度梯度(窗口)，以10bp作為step(步長(zhǎng))，得到不同長(zhǎng)度片段區(qū)間為：[100，110)，[110，120)，[120，130)，……，[210，220),[220，230)；

b、統(tǒng)計(jì)樣本內(nèi)各長(zhǎng)度區(qū)間經(jīng)gc校正后的dna片段總數(shù)；

c、統(tǒng)計(jì)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間經(jīng)gc校正后的dna片段數(shù)；

d、根據(jù)上述第一計(jì)算公式，計(jì)算待測(cè)樣本內(nèi)各染色體各長(zhǎng)度區(qū)間的dna片段比例。結(jié)果如表1-4所示，其中i為第i號(hào)染色體，j為第j組長(zhǎng)度區(qū)間。

表1羊水細(xì)胞樣本t1中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例

表2羊水細(xì)胞樣本t2中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例

表3卵裂球單細(xì)胞擴(kuò)增產(chǎn)物樣本t3中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例

表4卵裂球單細(xì)胞擴(kuò)增產(chǎn)物樣本t4中各常染色體各長(zhǎng)度區(qū)間對(duì)應(yīng)的dna片段比例

第五部分、對(duì)校正后的dna片段比例進(jìn)行雙向分類(lèi)的方差分析(two-wayclassificationanova)

a、兩個(gè)因素：因素1：dna片段讀長(zhǎng)區(qū)間，因素2：染色體，不考慮交互作用。根據(jù)p值和顯著性水平，判斷各染色體不同長(zhǎng)度區(qū)間下dna片段比例有無(wú)差別；

b、考慮dna片段長(zhǎng)度和染色體兩個(gè)因素，對(duì)dna片段比例進(jìn)行雙向分類(lèi)的方差分析(假設(shè)h0：22條常染色體dna片段比例總體均數(shù)都相等，即不考慮性染色體情況下，該樣本為陰性樣本；h1：22條常染色體dna片段比例總體均數(shù)不全相等，即該樣本為陽(yáng)性樣本，存在非整倍體染色體)；

c、方差分析結(jié)果判讀：對(duì)于因素1—dna片段讀長(zhǎng)區(qū)間，如果p值(方差檢驗(yàn)結(jié)果對(duì)應(yīng)的概率值)小于顯著水平0.05，說(shuō)明不同染色體不同長(zhǎng)度區(qū)間下的dna片段比例的差異受到該因素影響，因此該樣本的結(jié)果是不可靠的(因?yàn)椴煌琩na片段長(zhǎng)度產(chǎn)生是通過(guò)酶切隨機(jī)片段化產(chǎn)生，dna片段長(zhǎng)度與dna片段比例是沒(méi)有聯(lián)系的)；如果p值大于0.05，說(shuō)明該樣本結(jié)果是合理的，可以進(jìn)一步對(duì)因素2結(jié)果進(jìn)行分析；對(duì)于因素2—染色體，如果p值大于0.05，說(shuō)明不同染色體之間的dna片段比例沒(méi)有顯著差異，22條常染色體都為整倍體，故可判斷為正常樣本(不考慮性染色體情況下)；如果p值小于0.05，說(shuō)明不同染色體之間dna片段存在顯著差異，22條常染色體中存在非整倍體染色體，故接下來(lái)需要進(jìn)行多條染色體間的多重比較，從而確定哪條染色體為非整倍體。

d、根據(jù)方差分析結(jié)果，計(jì)算p值。結(jié)果如表5所示(p1：不同dna片段讀長(zhǎng)區(qū)間因素；p2：染色體因素)。

表5方差分析的p值結(jié)果

注：t1和t2為羊水細(xì)胞；t3和t4為卵裂球單細(xì)胞擴(kuò)增產(chǎn)物。

根據(jù)上述表5，判斷如下：

1)對(duì)于t1，p1和p2都大于0.05，故可推斷為正常樣本；同理，推斷出t3為正常樣本。

2)對(duì)于t2，p1大于0.05，而p2小于0.05，則認(rèn)為該樣本存在非整倍體染色體，故判斷

為陽(yáng)性樣本；同理，推斷出t4也為陽(yáng)性樣本。

第六部分、對(duì)異常樣本的各染色體間dna片段均值進(jìn)行多重比較

由于方差分析只能判定該樣本是否存在非整倍體染色體，而不能確定具體是哪條異常，因此，利用多重t檢驗(yàn)對(duì)方差分析判定為異常的樣本進(jìn)行均值的多重比較。即對(duì)每條染色體的dna片段比例的總體均值而言，分別與其他21條染色體的dna片段比例的總體均值進(jìn)行差異性比較，方法是采用兩正態(tài)總體均值的t檢驗(yàn)。由于多次重復(fù)使用t檢驗(yàn)會(huì)增大犯ⅰ類(lèi)錯(cuò)誤(把本無(wú)差別的兩個(gè)總體均數(shù)判為有差別)的概率，從而使得“有顯著差異”的結(jié)論不一定可靠。因此，采用bonferroni方法對(duì)p值進(jìn)行調(diào)整。

對(duì)上述兩例異常樣本(t2和t4)進(jìn)行多重比較分析，p值結(jié)果如圖3所示。

對(duì)于t2樣本，從圖2的方差分析的p值指數(shù)的分布圖可以看出，16號(hào)染色體與其他染色體有明顯差異，圖3中多重比較的p值也可以看出，16號(hào)染色體與其他染色體之間都呈現(xiàn)顯著性差異(p值小于0.05)，但其他染色體相互之間沒(méi)有顯著性差異。且16號(hào)染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例為5.627，其他染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例在3.7～3.8之間，因此，認(rèn)為多一條16號(hào)染色體，故判斷t2樣本核型為47,xn,+16(與核型分析結(jié)果一致)。

同理，對(duì)于t4樣本，從圖4的方差分析的p值指數(shù)的分布圖可以看出，9號(hào)染色體與其他染色體有明顯差異，圖5中多重比較的p值也可以看出，9號(hào)染色體與其他染色體之間都呈現(xiàn)顯著性差異(p值小于0.05)，但其他染色體相互之間沒(méi)有顯著性差異。且9號(hào)染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例為5.915，其他染色體在不同長(zhǎng)度區(qū)間下的平均dna片段比例都在3.75左右，因此，認(rèn)為多一條9號(hào)染色體，故判斷t4樣本核型為47,xn,+9(與array-cgh分析結(jié)果一致)。

以上是對(duì)本發(fā)明的較佳實(shí)施進(jìn)行了具體說(shuō)明，但本發(fā)明創(chuàng)造并不限于所述實(shí)施例，熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換，這些等同的變形或替換均包含在本申請(qǐng)權(quán)利要求所限定的范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：糜慶豐;陳樣宜;黃銓飛;彭春方;饒興薔;羅東紅
技術(shù)所有人：東莞博奧木華基因科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

胚胎染色體異常相關(guān)技術(shù)

胚胎染色體異常的原因相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種針對(duì)胚胎染色體的序列數(shù)據(jù)處理裝置的制作方法