專利名稱:基因序列數(shù)據(jù)的處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及ー種基因序列數(shù)據(jù)的處理方法和裝置。
背景技術(shù):
基于短片段序列數(shù)據(jù)進(jìn)行測(cè)序的方法日漸成熟,通過(guò)構(gòu)建德布魯因圖(deBruijn)的思想進(jìn)行基因組序列的組裝軟件,成功組裝了大量的全基因序列。但是,現(xiàn)有組裝軟件在進(jìn)行基因序列組裝時(shí),并不考慮用來(lái)組裝的基因序列是雜合基因還是純合基因,以生物界居多的二倍體基因?yàn)槔M(jìn)行舉例說(shuō)明,現(xiàn)有技術(shù)中在對(duì)二倍體基因進(jìn)行序列組裝時(shí),均是將二倍體基因當(dāng)作純合二倍體進(jìn)行組裝,對(duì)于其中的等位基因位點(diǎn)采取隨機(jī)選取其中ー個(gè)的方式進(jìn)行忽略,即,舍去等位基因中的一種情況,把二倍體基因當(dāng)成純合二倍體來(lái)處理,現(xiàn)有技術(shù)中的此種進(jìn)行基因序列數(shù)據(jù)的處理組裝的方式,不僅會(huì)造成了雜合二倍體基因的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,簡(jiǎn)稱SNP)的位點(diǎn)信息損失,影響生物信息的精確性,而且對(duì)于雜合度較高、SNP信息復(fù)雜的基因,組裝所得到的基因序 列偏離生物自身基因序列的程度更大。針對(duì)相關(guān)技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供ー種基因序列數(shù)據(jù)的處理方法和裝置,以解決現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的ー個(gè)方面,提供了ー種基因序列數(shù)據(jù)的處理方法,包括接收初始基因序列的測(cè)序數(shù)據(jù);構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖;保存德布魯因圖中的第一邊序列和組成第一邊序列的各個(gè)短序列,其中,第一邊序列為德布魯因圖中的任一邊序列;獲取組成第一邊序列的各個(gè)短序列的深度信息;根據(jù)組成第一邊序列的各個(gè)短序列的深度信息計(jì)算第一邊序列的深度信息;按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖;以及切割化簡(jiǎn)后的德布魯因圖,得到測(cè)序數(shù)據(jù)的置連群基因序列。進(jìn)ー步地,按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖包括獲取德布魯因圖中第一組合邊序列,其中,第一組合邊序列包括第一序列、第二序列和第三序列,第二序列連接在第一序列和第三序列之間,第一序列和第三序列均包括兩條分支邊序列,第二序列包括一條共有邊序列;判斷第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件;在判定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件吋,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定第一組合邊序列的基因類型;以及按照基因類型拆解第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。進(jìn)ー步地,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定第一組合邊序列的基因類型包括對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,第一分支邊序列為第一序列中的分支邊序列,第二分支邊序列為第三序列中的分支邊序列;復(fù)制共有邊序列,得到第一共有邊序列和第二共有邊序列;依次連接第一分支邊序列、第一共有邊序列和第二分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型;以及依次連接第三分支邊序列、第二共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型,其中,第三分支邊序列為第一序列中的分支邊序列且第三分支邊序列與第一分支邊序列不同,第四分支邊序列為第三序列中的分支邊序列且第四分支邊序列與第二分支邊序列不同。進(jìn)ー步地,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列包括判斷第一短序列的長(zhǎng)度是否大于共有邊序列的長(zhǎng)度,其中,第一短序列為各個(gè)短序列中的任一短序列;在判定第一短序列的長(zhǎng)度大于共有邊序列的長(zhǎng)度時(shí),對(duì)比第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列;以及在判定第一短序列的長(zhǎng)度小于或等于共有邊序列的長(zhǎng)度時(shí),對(duì)比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。進(jìn)ー步地,判斷第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件包 括判斷共有邊序列的深度信息值是否為分支邊序列的深度信息值的第一數(shù)值倍,其中,在判定共有邊序列的深度信息值為分支邊序列的深度信息值的第一數(shù)值倍時(shí),確定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件。進(jìn)ー步地,根據(jù)組成第一邊序列的各個(gè)短序列的深度信息計(jì)算第一邊序列的深度信息包括計(jì)算組成第一邊序列的各個(gè)短序列的深度信息值的平均值;以及確定計(jì)算出的平均值為第一邊序列的深度信息值。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了ー種基因序列數(shù)據(jù)的處理裝置,該處理裝置用于執(zhí)行上述本發(fā)明提供的任ー種基因序列數(shù)據(jù)的處理方法。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了ー種基因序列數(shù)據(jù)的處理裝置,包括接收單元,用于接收初始基因序列的測(cè)序數(shù)據(jù);構(gòu)建單元,與接收單元相連接,用于構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖;保存単元,與構(gòu)建單元相連接,用于保存德布魯因圖中的第ー邊序列和組成第一邊序列的各個(gè)短序列,其中,第一邊序列為德布魯因圖中的任ー邊序列;獲取單元,與保存単元相連接,用于獲取組成第一邊序列的各個(gè)短序列的深度信息;計(jì)算單元,與獲取單元相連接,用于根據(jù)組成第一邊序列的各個(gè)短序列的深度信息計(jì)算第一邊序列的深度信息;化簡(jiǎn)單元,與計(jì)算單元相連接,用于按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖;以及切割単元,與化簡(jiǎn)單元相連接,用于切割化簡(jiǎn)后的德布魯因圖,得到測(cè)序數(shù)據(jù)的疊連群基因序列。進(jìn)ー步地,化簡(jiǎn)單元包括獲取子単元,用于獲取德布魯因圖中第一組合邊序列,其中,第一組合邊序列包括第一序列、第二序列和第三序列,第二序列連接在第一序列和第三序列之間,第一序列和第三序列均包括兩條分支邊序列,第二序列包括一條共有邊序列;判斷子単元,與獲取子単元相連接,用于判斷第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件;對(duì)比子単元,與判斷子単元相連接,用于在判定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件吋,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定第一組合邊序列的基因類型;以及拆分子単元,與對(duì)比子単元相連接,用于按照基因類型拆解第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。
進(jìn)ー步地,對(duì)比子単元包括對(duì)比模塊,用于對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,第一分支邊序列為第一序列中的分支邊序列,第二分支邊序列為第三序列中的分支邊序列;復(fù)制模塊,與對(duì)比模塊相連接,用于復(fù)制共有邊序列,得到第一共有邊序列和第二共有邊序列;第一確定模塊,與復(fù)制模塊相連接,用于依次連接第一分支邊序列、第一共有邊序列和第二分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型;以及第ニ確定模塊,與復(fù)制模塊相連接,用于依次連接第三分支邊序列、第二共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型,其中,第三分支邊序列為第一序列中的分支邊序列且第三分支邊序列與第一分支邊序列不同,第四分支邊序列為第二序列中的分支邊序列且第四分支邊序列與第二分支邊序列不同。進(jìn)ー步地,對(duì)比模塊包括判斷子模塊,用于判斷第一短序列的長(zhǎng)度是否大于共有邊序列的長(zhǎng)度,其中,第一短序列為各個(gè)短序列中的任一短序列;第ー對(duì)比子模塊,與判斷子模塊相連接,用于在判定第一短序列的長(zhǎng)度大于共有邊序列的長(zhǎng)度時(shí),對(duì)比第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列;以及第二對(duì)比子模塊,與判斷子模塊相連接,用于在判定第一短序列的長(zhǎng)度小于或等于共有邊序列 的長(zhǎng)度時(shí),對(duì)比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。通過(guò)本發(fā)明,采用在構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖的過(guò)程中保存德布魯因圖中各個(gè)邊序列及組成各個(gè)邊序列的測(cè)序數(shù)據(jù)中的各個(gè)短序列,通過(guò)該保存步驟,為后續(xù)步驟處理中避免雜合二倍體基因的單核苷酸多態(tài)性位點(diǎn)信息的損失的提供了保障,根據(jù)各個(gè)短序列的深度信息得到德布魯因圖中各個(gè)邊序列的深度信息,然后按照各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)已構(gòu)建的德布魯因圖,通過(guò)按照邊序列的深度信息及測(cè)試數(shù)據(jù)中的短序列對(duì)德布魯因圖進(jìn)行化簡(jiǎn),最后對(duì)化簡(jiǎn)后的德布魯因圖進(jìn)行切割,得到疊連群基因序列,實(shí)現(xiàn)了得到較長(zhǎng)的測(cè)序數(shù)據(jù)的邊序列,對(duì)于雜合度較高、SNP信息復(fù)雜的基因,能夠精確地反映其基因信息,減小組裝所得到的基因序列偏離生物自身基因序列的程度,解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題,進(jìn)而達(dá)到了提高基因序列組裝的有效性的效果。
構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)ー步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中圖I是根據(jù)本發(fā)明實(shí)施例的處理裝置的示意圖;圖2是根據(jù)本發(fā)明優(yōu)選實(shí)施例的處理裝置的示意圖;圖3是根據(jù)本發(fā)明實(shí)施例的處理方法的流程圖;圖4是本發(fā)明實(shí)施例的處理方法中的第一組合邊序列的結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例的處理方法中的“雜合-純合-雜合”結(jié)構(gòu)的組合邊序列的結(jié)構(gòu)示意圖;圖6是根據(jù)本發(fā)明實(shí)施例的處理方法進(jìn)行基因類型判斷的第一判斷方法的示意圖7是根據(jù)本發(fā)明實(shí)施例的處理方法進(jìn)行基因類型判斷的第二判斷方法的示意圖;以及圖8是根據(jù)本發(fā)明實(shí)施例的處理方法拆解后的邊序列的示意圖。
具體實(shí)施例方式需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。本發(fā)明實(shí)施例提供了ー種基因序列數(shù)據(jù)的處理裝置,以下對(duì)本發(fā)明實(shí)施例所提供的基因序列數(shù)據(jù)的處理裝置進(jìn)行介紹。圖I是根據(jù)本發(fā)明實(shí)施例的處理裝置的示意圖,如圖I所示,該實(shí)施例的處理裝置包括接收單元10、構(gòu)建單元20、保存單元30、獲取單元40、計(jì)算單元50、化簡(jiǎn)單元60和切 割單元70。具體地,接收單元10用于接收初始基因序列的測(cè)序數(shù)據(jù);構(gòu)建單元20與接收單元10相連接,用于構(gòu)建接收到的測(cè)序數(shù)據(jù)的德布魯因圖;保存単元30與構(gòu)建單元20相連接,用于保存德布魯因圖中的第一邊序列edges和組成第一邊序列的各個(gè)短序列reads,其中,第一邊序列可以為構(gòu)建出的德布魯因圖中的任意一條邊序列;保存単元30可以為硬件存儲(chǔ)單元,也可以為后臺(tái)數(shù)據(jù)庫(kù),構(gòu)建單元20在構(gòu)建德布魯因圖的過(guò)程中可以邊構(gòu)建邊將構(gòu)建的邊序列存儲(chǔ)至保存単元30中,保存単元30中可以存儲(chǔ)任意一條邊序列及組成該邊序列的短序列,同時(shí)還存儲(chǔ)有各條短序列的深度信息值;獲取單元40與保存単元30相連接,用于從保存単元30中調(diào)用組成任意一條邊序列的各個(gè)短序列的深度信息值;計(jì)算單元50與獲取單元40相連接,用于根據(jù)組成某ー邊序列的各個(gè)短序列的深度信息計(jì)算該條邊序列的深度信息值;化簡(jiǎn)單元60與計(jì)算單元50相連接,用于按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖;以及切割單元70與化簡(jiǎn)單元60相連接,用于切割化簡(jiǎn)后的德布魯因圖,得到測(cè)序數(shù)據(jù)的疊連群基因序列。本發(fā)明實(shí)施例的處理裝置,通過(guò)保存単元在構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖的過(guò)程中保存德布魯因圖中各個(gè)邊序列及組成各個(gè)邊序列的測(cè)序數(shù)據(jù)中的各個(gè)短序列,通過(guò)該保存単元的保存工作,為后續(xù)各単元的處理工作中避免雜合二倍體基因的單核苷酸多態(tài)性位點(diǎn)信息的損失的提供了保障,根據(jù)各個(gè)短序列的深度信息得到德布魯因圖中各個(gè)邊序列的深度信息,然后由化簡(jiǎn)單元按照各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)已構(gòu)建的德布魯因圖,通過(guò)按照邊序列的深度信息及測(cè)試數(shù)據(jù)中的短序列對(duì)德布魯因圖進(jìn)行化簡(jiǎn),最后對(duì)化簡(jiǎn)后的德布魯因圖進(jìn)行切割,得到疊連群基因序列,實(shí)現(xiàn)了得到較長(zhǎng)的測(cè)序數(shù)據(jù)的邊序列,對(duì)于雜合度較高、SNP信息復(fù)雜的基因,能夠精確地反應(yīng)其基因信息,減小組裝所得到的基因序列偏離生物自身基因序列的程度,解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題,進(jìn)而達(dá)到了提高基因序列組裝的有效性的效果。圖2是本發(fā)明優(yōu)選實(shí)施例的處理裝置的示意圖,如圖2所示,該實(shí)施例的處理裝置與圖I中示出的處理裝置相比,二者區(qū)別在于,本發(fā)明優(yōu)選實(shí)施例的處理裝置中化簡(jiǎn)單元60包括獲取子単元61、判斷子単元62、對(duì)比子単元63和拆分子単元64。具體地,獲取子単元61,用于獲取德布魯因圖中滿足一定邊結(jié)構(gòu)的組合邊序列,假設(shè)滿足該一定結(jié)構(gòu)的組合邊序列為第一組合邊序列,那么,第一組合邊序列需包括第一序列、第二序列和第三序列,并且,第二序列連接在第一序列和第三序列之間,第一序列和第三序列均包括兩條分支邊序列,第二序列包括一條共有邊序列;判斷子単元62與獲取子單元61相連接,用于判斷獲取到的第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件;對(duì)比子単元63與判斷子単元62相連接,用于在判定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件時(shí),對(duì)比初始的測(cè)序數(shù)據(jù)中的各個(gè)短序列,以確定出第一組合邊序列的基因類型;以及拆分子単元64與對(duì)比子単元63相連接,用于按照確定出的第一組合邊序列的基因類型拆解第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。該優(yōu)選實(shí)施例的化簡(jiǎn)單元通過(guò)獲取子単元找到德布魯因圖中能夠被拆分的組合邊序列,并對(duì)滿足該結(jié)構(gòu)的組合邊序列中各分支序列的深度信息進(jìn)行判斷,以區(qū)分出雜合基因和純合基因,最終確定出能夠被完全拆解的組合邊序列,然后按照初始的測(cè)序數(shù)據(jù)中的各個(gè)短序列來(lái)確定第一組合邊序列的基因類型,并以其基因類 型為拆分依據(jù)拆分第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。該優(yōu)選實(shí)施例的化簡(jiǎn)單元通過(guò)在各個(gè)子單元分別設(shè)定相應(yīng)的參考量來(lái)實(shí)現(xiàn)對(duì)德布魯因圖的化簡(jiǎn),達(dá)到了提高拆解化簡(jiǎn)效率的效果。進(jìn)ー步地,對(duì)比子単元63在參考測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出第一組合邊序列的基因類型時(shí),可以通過(guò)以下方式來(lái)實(shí)現(xiàn)首先,可以由對(duì)比子単元中的對(duì)比模塊對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,第一分支邊序列為第一序列中的分支邊序列,第二分支邊序列為第三序列中的分支邊序列;其次,由與對(duì)比模塊相連接的復(fù)制模塊對(duì)第二序列中的共有邊序列進(jìn)行復(fù)制,得到兩個(gè)完全相同的共有邊序列,并且復(fù)制后的每ー個(gè)共有邊序列的深度信息均為原共有邊序列的深度信息的一半;最后,由與復(fù)制模塊相連接的第一確定模塊依次連接第一分支邊序列、復(fù)制后的ー個(gè)共有邊序列和第二分支邊序列,并將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型;以及由與復(fù)制模塊相連接的第二確定模塊依次連接第三分支邊序列、復(fù)制后的另ー個(gè)共有邊序列和第四分支邊序列,并將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型,其中,第三分支邊序列為第一序列中的分支邊序列,并且第三分支邊序列與第一分支邊序列不同,第四分支邊序列為第二序列中的分支邊序列,并且第四分支邊序列與第二分支邊序列不同。其中,對(duì)比模塊在對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列時(shí),可以通過(guò)以下方式來(lái)實(shí)現(xiàn)首選,由對(duì)比模塊中的判斷子模塊對(duì)第一短序列的長(zhǎng)度是否大于共有邊序列的長(zhǎng)度進(jìn)行判斷,其中,第一短序列為各個(gè)短序列中的任意一條短序列;其次,當(dāng)判斷出第一短序列的長(zhǎng)度大于共有邊序列的長(zhǎng)度吋,由與判斷子模塊相連接的第一對(duì)比子模塊對(duì)比第一短序列全部堿基組成以確定出同屬于ー條短序列的第一分支邊序列和第二分支邊序列;當(dāng)判斷出第一短序列的長(zhǎng)度小于或等于共有邊序列的長(zhǎng)度時(shí),由與判斷子模塊相連接的第二對(duì)比子模塊對(duì)比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。本發(fā)明實(shí)施例還提供了ー種基因序列數(shù)據(jù)的處理方法,以下對(duì)本發(fā)明實(shí)施例的處理方法進(jìn)行介紹。圖3是本發(fā)明實(shí)施例的處理方法的流程圖,如圖3所示,該實(shí)施例的處理方法包括如下的步驟S302至步驟S314 S302 :接收初始基因序列的測(cè)序數(shù)據(jù);
S304 :構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖;S306 :保存德布魯因圖中的第一邊序列和組成第一邊序列的各個(gè)短序列,其中,第ー邊序列為德布魯因圖中的任ー邊序列;具體地,可以在構(gòu)建德布魯因圖的過(guò)程中可以邊構(gòu)建邊將構(gòu)建的邊序列存儲(chǔ)至硬件存儲(chǔ)單元或后臺(tái)數(shù)據(jù)庫(kù)中,包括存儲(chǔ)任意一條邊序列及組成該邊序列的短序列,以及各條短序列的深度信息值。S308:從硬件存儲(chǔ)單元或者后臺(tái)數(shù)據(jù)庫(kù)中獲取組成第一邊序列的各個(gè)短序列的深
度信息值;S310 :根據(jù)組成第一邊序列的各個(gè)短序列的深度信息計(jì)算第一邊序列的深度信息;S312 :按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖;以及 S314 :切割化簡(jiǎn)后的德布魯因圖,得到測(cè)序數(shù)據(jù)的疊連群基因序列。該實(shí)施例的處理方法通過(guò)在構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖的過(guò)程中保存德布魯因圖中各個(gè)邊序列及組成各個(gè)邊序列的測(cè)序數(shù)據(jù)中的各個(gè)短序列,通過(guò)該保存步驟,為后續(xù)步驟處理中避免雜合二倍體基因的單核苷酸多態(tài)性位點(diǎn)信息的損失的提供了保障,根據(jù)各個(gè)短序列的深度信息得到德布魯因圖中各個(gè)邊序列的深度信息,然后按照各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)已構(gòu)建的德布魯因圖,通過(guò)按照邊序列的深度信息及測(cè)試數(shù)據(jù)中的短序列對(duì)德布魯因圖進(jìn)行化簡(jiǎn),最后對(duì)化簡(jiǎn)后的德布魯因圖進(jìn)行切割,得到疊連群基因序列,實(shí)現(xiàn)了拼接得到較長(zhǎng)的疊連群conting的邊序列,對(duì)于雜合度較高、SNP信息復(fù)雜的基因,能夠精確地反應(yīng)其基因信息,減小組裝所得到的基因序列偏離生物自身基因序列的程度,解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題,進(jìn)而達(dá)到了提高基因序列組裝的有效性的效果。其中,步驟S310可以通過(guò)以下方式計(jì)算第一邊序列的深度信息計(jì)算組成第一邊序列的各個(gè)短序列的深度信息值的平均值;將計(jì)算出的平均值確定為第一邊序列的深度信息值。步驟S312可以通過(guò)以下步驟化簡(jiǎn)德布魯因圖第一歩獲取德布魯因圖中滿足一定邊結(jié)構(gòu)的組合邊序列,假設(shè)滿足該一定結(jié)構(gòu)的組合邊序列為第一組合邊序列,那么,第一組合邊序列需包括第一序列、第二序列和第三序列,第二序列連接在第一序列和第三序列之間,第一序列和第三序列均包括兩條分支邊序列,第二序列包括一條共有邊序列;圖4中示出了第一組合邊序列的邊結(jié)構(gòu),其中,41和42表示第一序列的兩個(gè)分支邊序列,43和44表示第三序列的兩個(gè)分支邊序列,45表示第二序列的共有邊序列。第二步判斷第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件;具體地,判斷共有邊序列45的深度信息值是否為各個(gè)分支邊序列(包括分支邊序列41、分支邊序列42、分支邊序列44和分支邊序列44)的深度信息值的第一數(shù)值倍,由于雜合基因深度信息的期望值和純合基因深度信息的期望值約為I : 2的關(guān)系,所以,在本發(fā)明實(shí)施例的處理方法中,可以將第一數(shù)據(jù)設(shè)定為2,即,判斷共有邊序列45的深度信息值是否為分支邊序列41的深度信息值的2倍,判斷共有邊序列45的深度信息值是否為分支邊序列42的深度信息值的2倍,判斷共有邊序列45的深度信息值是否為分支邊序列43的深度信息值的2倍,以及判斷共有邊序列45的深度信息值是否為分支邊序列44的深度信息值的2倍,其中,在判定共有邊序列45的深度信息值為各個(gè)分支邊序列的深度信息值的2倍(即,各分支邊序列的深度信息值相等,而共有邊序列的深度信息值為ー個(gè)分支邊序列的深度值的2倍)時(shí),確定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件,即,確定出組合邊序列中滿足邊結(jié)構(gòu)為“上游雜合-中間純合-下游雜合”的組合邊序列,以分支邊序列41和分支邊序列42為基因型號(hào)Aa的雜合基因、分支邊序列44和分支邊序列44為基因型號(hào)Ce的雜合基因、共有邊序列為B的純合基因?yàn)槔M(jìn)行說(shuō)明,則邊結(jié)構(gòu)為“上游雜合-中間純合-下游雜合”的組合邊序列的結(jié)構(gòu)示意圖如圖5所示。第三步在判定第一組合邊序列中的各個(gè)邊序列的深度信息滿足預(yù)設(shè)條件吋,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定第一組合邊序列的基因類型;具體地,可以通過(guò)以下方式來(lái)實(shí)現(xiàn)首先,對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,第一分支邊序列為第一序列中的分支邊序列,第二分支邊序列為第三序列中的分支邊序列;其次,復(fù)制共有邊序列,得到兩個(gè)完全相同的共有邊序列,并且復(fù)制后的每ー個(gè)共有邊序列的深度信息均為原共有邊序列的深度信息的一半;最后,依次連 接第一分支邊序列、復(fù)制后的ー個(gè)共有邊序列和第二分支邊序列,并將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型;以及依次連接第三分支邊序列、復(fù)制后的另ー個(gè)共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型,其中,第三分支邊序列為第一序列中的分支邊序列,并且第三分支邊序列與第一分支邊序列不同,第四分支邊序列為第二序列中的分支邊序列,并且第四分支邊序列與第二分支邊序列不同。更具體地,結(jié)合附圖5、附圖6和附圖7來(lái)詳細(xì)說(shuō)明對(duì)比測(cè)序數(shù)據(jù)中的各個(gè)短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列的實(shí)現(xiàn)步驟首先,對(duì)第一短序列的堿基長(zhǎng)度是否大于共有邊序列B的堿基長(zhǎng)度進(jìn)行判斷,其中,第一短序列為各個(gè)短序列中的任意一條短序列;其次,當(dāng)判斷出第一短序列的長(zhǎng)度大于共有邊序列B的長(zhǎng)度吋,如圖6所示,對(duì)比第一短序列的全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,圖6中R表示第一短序列Read ;當(dāng)判斷出第一短序列的長(zhǎng)度小于或等于共有邊序列的長(zhǎng)度時(shí),如圖7所示,對(duì)比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,圖7中PER表示第一短序列雙末端Pair—end Reacts。第四步按照基因類型拆解第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖,假設(shè)本發(fā)明實(shí)施例的處理方法中經(jīng)由圖6或圖7的對(duì)比之后,確定出分支邊序列A和分支邊序列c同屬于一條短序列,即,第一組合邊序列的第一基因類型為ABc,第二基因類型為aBC,如圖8所示,復(fù)制后的兩條共有邊序列分別為B和B'則按照這兩個(gè)基因類型將第一組合邊序列拆解為基因類型分別為ABc和aB' C的兩條拆解后的邊序列。步驟S314具體為將上述第四步中各個(gè)拆解出的邊序列進(jìn)行連接,當(dāng)邊序列不能再連下去的時(shí)候就從此處斷開,將邊序列輸出,得到測(cè)序數(shù)據(jù)的疊連群基因序列。如果德布魯因圖中滿足上述特定邊結(jié)構(gòu)的組合邊序列是由重復(fù)序列導(dǎo)致的而不是由雜合導(dǎo)致的,則此種組合邊序列不可被拆解,此時(shí),通過(guò)對(duì)滿足該結(jié)構(gòu)的組合邊序列中各分支序列的深度信息進(jìn)行判斷,以區(qū)分出雜合基因和純合基因,最終確定出能夠被完全拆解的組合邊序列,然后按照初始的測(cè)序數(shù)據(jù)中的各個(gè)短序列來(lái)確定第一組合邊序列的基因類型,并以其基因類型為拆分依據(jù)拆分第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖,達(dá)到了提高拆解化簡(jiǎn)效率的效果。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基因序列數(shù)據(jù)的處理方法,其特征在于,包括 接收初始基因序列的測(cè)序數(shù)據(jù); 構(gòu)建所述測(cè)序數(shù)據(jù)的德布魯因圖; 保存所述德布魯因圖中的第一邊序列和組成所述第一邊序列的各個(gè)短序列,其中,所述第一邊序列為所述德布魯因圖中的任一邊序列; 獲取組成所述第一邊序列的各個(gè)短序列的深度信息; 根據(jù)組成所述第一邊序列的各個(gè)短序列的深度信息計(jì)算所述第一邊序列的深度信息; 按照所述德布魯因圖中的各個(gè)邊序列的深度信息和所述測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)所述德布魯因圖;以及 切割化簡(jiǎn)后的德布魯因圖,得到所述測(cè)序數(shù)據(jù)的疊連群基因序列。
2.根據(jù)權(quán)利要求I所述的處理方法,其特征在于,按照所述德布魯因圖中的各個(gè)邊序列的深度信息和所述測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)所述德布魯因圖包括 獲取所述德布魯因圖中第一組合邊序列,其中,所述第一組合邊序列包括第一序列、第二序列和第三序列,所述第二序列連接在所述第一序列和所述第三序列之間,所述第一序列和所述第三序列均包括兩條分支邊序列,所述第二序列包括一條共有邊序列; 判斷所述第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件; 在判定所述第一組合邊序列中的各個(gè)邊序列的深度信息滿足所述預(yù)設(shè)條件時(shí),對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定所述第一組合邊序列的基因類型;以及按照所述基因類型拆解所述第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。
3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定所述第一組合邊序列的基因類型包括 對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,所述第一分支邊序列為所述第一序列中的分支邊序列,所述第二分支邊序列為所述第三序列中的分支邊序列; 復(fù)制所述共有邊序列,得到第一共有邊序列和第二共有邊序列; 依次連接所述第一分支邊序列、所述第一共有邊序列和所述第二分支邊序列,將連接后的組合邊序列的類型確定為所述第一組合邊序列的第一基因類型;以及 依次連接第三分支邊序列、所述第二共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為所述第一組合邊序列的第二基因類型,其中,所述第三分支邊序列為所述第一序列中的分支邊序列且所述第三分支邊序列與所述第一分支邊序列不同,所述第四分支邊序列為所述第三序列中的分支邊序列且所述第四分支邊序列與所述第二分支邊序列不同。
4.根據(jù)權(quán)利要求3所述的處理方法,其特征在于,對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列包括 判斷第一短序列的長(zhǎng)度是否大于所述共有邊序列的長(zhǎng)度,其中,所述第一短序列為所述各個(gè)短序列中的任一短序列; 在判定所述第一短序列的長(zhǎng)度大于所述共有邊序列的長(zhǎng)度時(shí),對(duì)比所述第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列;以及在判定所述第一短序列的長(zhǎng)度小于或等于所述共有邊序列的長(zhǎng)度時(shí),對(duì)比所述第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。
5.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,判斷所述第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件包括 判斷所述共有邊序列的深度信息值是否為所述分支邊序列的深度信息值的第一數(shù)值倍, 其中,在判定所述共有邊序列的深度信息值為所述分支邊序列的深度信息值的第一數(shù)值倍時(shí),確定所述第一組合邊序列中的各個(gè)邊序列的深度信息滿足所述預(yù)設(shè)條件。
6.根據(jù)權(quán)利要求I所述的處理方法,其特征在于,根據(jù)組成所述第一邊序列的各個(gè)短序列的深度信息計(jì)算所述第一邊序列的深度信息包括 計(jì)算組成所述第一邊序列的各個(gè)短序列的深度信息值的平均值;以及 確定計(jì)算出的平均值為所述第一邊序列的深度信息值。
7.一種基因序列數(shù)據(jù)的處理裝置,其特征在于,包括 接收單元,用于接收初始基因序列的測(cè)序數(shù)據(jù); 構(gòu)建單元,與所述接收單元相連接,用于構(gòu)建所述測(cè)序數(shù)據(jù)的德布魯因圖; 保存單元,與所述構(gòu)建單元相連接,用于保存所述德布魯因圖中的第一邊序列和組成所述第一邊序列的各個(gè)短序列,其中,所述第一邊序列為所述德布魯因圖中的任一邊序列; 獲取單元,與所述保存單元相連接,用于獲取組成所述第一邊序列的各個(gè)短序列的深度 目息; 計(jì)算單元,與所述獲取單元相連接,用于根據(jù)組成所述第一邊序列的各個(gè)短序列的深度信息計(jì)算所述第一邊序列的深度信息; 化簡(jiǎn)單元,與所述計(jì)算單元相連接,用于按照所述德布魯因圖中的各個(gè)邊序列的深度信息和所述測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)所述德布魯因圖;以及 切割單元,與所述化簡(jiǎn)單元相連接,用于切割化簡(jiǎn)后的德布魯因圖,得到所述測(cè)序數(shù)據(jù)的置連群基因序列。
8.根據(jù)權(quán)利要求7所述的處理裝置,其特征在于,所述化簡(jiǎn)單元包括 獲取子單元,用于獲取所述德布魯因圖中第一組合邊序列,其中,所述第一組合邊序列包括第一序列、第二序列和第三序列,所述第二序列連接在所述第一序列和所述第三序列之間,所述第一序列和所述第三序列均包括兩條分支邊序列,所述第二序列包括一條共有邊序列; 判斷子單元,與所述獲取子單元相連接,用于判斷所述第一組合邊序列中的各個(gè)邊序列的深度信息是否滿足預(yù)設(shè)條件; 對(duì)比子單元,與所述判斷子單元相連接,用于在判定所述第一組合邊序列中的各個(gè)邊序列的深度信息滿足所述預(yù)設(shè)條件時(shí),對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列,確定所述第一組合邊序列的基因類型;以及 拆分子單元,與所述對(duì)比子單元相連接,用于按照所述基因類型拆解所述第一組合邊序列,得到化簡(jiǎn)后的德布魯因圖。
9.根據(jù)權(quán)利要求8所述的處理裝置,其特征在于,所述對(duì)比子單元包括對(duì)比模塊,用于對(duì)比所述測(cè)序數(shù)據(jù)中的各個(gè)短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,所述第一分支邊序列為所述第一序列中的分支邊序列,所述第二分支邊序列為所述第三序列中的分支邊序列; 復(fù)制模塊,與所述對(duì)比模塊相連接,用于復(fù)制所述共有邊序列,得到第一共有邊序列和第二共有邊序列; 第一確定模塊,與所述復(fù)制模塊相連接,用于依次連接所述第一分支邊序列、所述第一共有邊序列和所述第二分支邊序列,將連接后的組合邊序列的類型確定為所述第一組合邊序列的第一基因類型;以及 第二確定模塊,與所述復(fù)制模塊相連接,用于依次連接第三分支邊序列、所述第二共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為所述第一組合邊序列的第二基因類型,其中,所述第三分支邊序列為所述第一序列中的分支邊序列且所述第三分支邊序列與所述第一分支邊序列不同,所述第四分支邊序列為所述第二序列中的分支邊序列且所述第四分支邊序列與所述第二分支邊序列不同。
10.根據(jù)權(quán)利要求9所述的處理裝置,其特征在于,所述對(duì)比模塊包括 判斷子模塊,用于判斷第一短序列的長(zhǎng)度是否大于所述共有邊序列的長(zhǎng)度,其中,所述第一短序列為所述各個(gè)短序列中的任一短序列; 第一對(duì)比子模塊,與所述判斷子模塊相連接,用于在判定所述第一短序列的長(zhǎng)度大于所述共有邊序列的長(zhǎng)度時(shí),對(duì)比所述第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列;以及 第二對(duì)比子模塊,與所述判斷子模塊相連接,用于在判定所述第一短序列的長(zhǎng)度小于或等于所述共有邊序列的長(zhǎng)度時(shí),對(duì)比所述第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。
全文摘要
本發(fā)明公開了一種基因序列數(shù)據(jù)的處理方法和裝置。其中,基因序列數(shù)據(jù)的處理方法包括接收初始基因序列的測(cè)序數(shù)據(jù);構(gòu)建測(cè)序數(shù)據(jù)的德布魯因圖;保存德布魯因圖中的第一邊序列和組成第一邊序列的各個(gè)短序列;獲取組成第一邊序列的各個(gè)短序列的深度信息;根據(jù)組成第一邊序列的各個(gè)短序列的深度信息計(jì)算第一邊序列的深度信息;按照德布魯因圖中的各個(gè)邊序列的深度信息和測(cè)序數(shù)據(jù)中的各個(gè)短序列化簡(jiǎn)德布魯因圖;以及切割化簡(jiǎn)后的德布魯因圖,得到測(cè)序數(shù)據(jù)的疊連群基因序列。通過(guò)本發(fā)明,解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問(wèn)題,進(jìn)而達(dá)到了提高基因序列組裝的有效性的效果。
文檔編號(hào)G06F19/22GK102841987SQ20121014722
公開日2012年12月26日 申請(qǐng)日期2012年5月11日 優(yōu)先權(quán)日2012年5月11日
發(fā)明者王垚燊, 阮航, 李萌 申請(qǐng)人:北京諾禾致源生物信息科技有限公司