本公開(kāi)涉及生物信息處理,尤其涉及一種群體基因組變異數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、當(dāng)前,變異質(zhì)量值重校正(variant?quality?score?recalibration,vqsr)是群體基因組學(xué)研究的一個(gè)關(guān)鍵環(huán)節(jié),通過(guò)機(jī)器學(xué)習(xí)的方法利用多個(gè)不同的數(shù)據(jù)特征訓(xùn)練一個(gè)高斯混合模型對(duì)變異數(shù)據(jù)進(jìn)行質(zhì)控,以區(qū)分基因組變異數(shù)據(jù)中的“好”變異和“壞”變異,過(guò)濾得到高質(zhì)量的變異數(shù)據(jù)。
2、相關(guān)技術(shù)中,通常是采用重測(cè)序數(shù)據(jù)分析工具(the?genome?analysis?toolkit,gatk)運(yùn)算模式直接進(jìn)行群體基因組分析。
3、這種方式下,當(dāng)基因組數(shù)據(jù)規(guī)模上升到萬(wàn)人或十萬(wàn)人規(guī)模時(shí),處理群體基因組vqsr時(shí)容易存在超大型群體基因組分析難以實(shí)施,以及耗時(shí)超長(zhǎng)的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
2、為此,本公開(kāi)的目的在于提出一種群體基因組變異數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
3、本公開(kāi)第一方面實(shí)施例提出一種群體基因組變異數(shù)據(jù)處理方法,包括:獲取多個(gè)染色體變異數(shù)據(jù)樣本,其中,所述染色體變異數(shù)據(jù)樣本具有對(duì)應(yīng)的群體來(lái)源標(biāo)識(shí)信息;根據(jù)多個(gè)所述群體來(lái)源標(biāo)識(shí)信息,確定所述多個(gè)染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的區(qū)間劃分模式;根據(jù)所述區(qū)間劃分模式分別對(duì)各個(gè)所述染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)所述染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段;基于變異數(shù)據(jù)過(guò)濾參數(shù)處理所述多個(gè)變異數(shù)據(jù)片段,得到所述目標(biāo)群體基因組變異數(shù)據(jù)。
4、本公開(kāi)第二方面實(shí)施例提出一種群體基因組變異數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取多個(gè)染色體變異數(shù)據(jù)樣本,其中,所述染色體變異數(shù)據(jù)樣本具有對(duì)應(yīng)的群體來(lái)源標(biāo)識(shí)信息;確定模塊,用于根據(jù)多個(gè)所述群體來(lái)源標(biāo)識(shí)信息,確定所述多個(gè)染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的區(qū)間劃分模式;第一處理模塊,用于根據(jù)所述區(qū)間劃分模式分別對(duì)各個(gè)所述染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)所述染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段;第二處理模塊,用于基于變異數(shù)據(jù)過(guò)濾參數(shù)處理所述多個(gè)變異數(shù)據(jù)片段,得到所述目標(biāo)群體基因組變異數(shù)據(jù)。
5、本公開(kāi)第三方面實(shí)施例提出了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行程序時(shí),實(shí)現(xiàn)如本公開(kāi)第一方面實(shí)施例提出的群體基因組變異數(shù)據(jù)處理方法。
6、本公開(kāi)第四方面實(shí)施例提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本公開(kāi)第一方面實(shí)施例提出的群體基因組變異數(shù)據(jù)處理方法。
7、本公開(kāi)第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品中的指令由處理器執(zhí)行時(shí),執(zhí)行如本公開(kāi)第一方面實(shí)施例提出的群體基因組變異數(shù)據(jù)處理方法。
8、本公開(kāi)實(shí)施例中提出的群體基因組變異數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,至少可以包括以下有益效果:通過(guò)獲取多個(gè)染色體變異數(shù)據(jù)樣本,其中,染色體變異數(shù)據(jù)樣本具有對(duì)應(yīng)的群體來(lái)源標(biāo)識(shí)信息,根據(jù)多個(gè)群體來(lái)源標(biāo)識(shí)信息,確定多個(gè)染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的區(qū)間劃分模式,根據(jù)區(qū)間劃分模式分別對(duì)各個(gè)染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段,基于變異數(shù)據(jù)過(guò)濾參數(shù)處理多個(gè)變異數(shù)據(jù)片段,得到目標(biāo)群體基因組變異數(shù)據(jù),能夠基于將染色體變異數(shù)據(jù)樣本的群體來(lái)源,將染色體變異數(shù)據(jù)樣本的變異數(shù)據(jù)過(guò)濾任務(wù)分為數(shù)據(jù)處理量均衡的多個(gè)子任務(wù),對(duì)多個(gè)子任務(wù)進(jìn)行并行處理,從而可以避免存在子任務(wù)拖尾現(xiàn)象而造成運(yùn)行等待,從而有效節(jié)省計(jì)算資源和提升數(shù)據(jù)處理速度。
9、本公開(kāi)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本公開(kāi)的實(shí)踐了解到。
1.一種群體基因組變異數(shù)據(jù)處理方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)多個(gè)所述群體來(lái)源標(biāo)識(shí)信息,確定所述多個(gè)染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的區(qū)間劃分模式,包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述比對(duì)結(jié)果,確定所述區(qū)間劃分模式,包括:
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述區(qū)間劃分模式分別對(duì)各個(gè)所述染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)所述染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段,包括:
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和變異位點(diǎn)密度信息分別對(duì)各個(gè)所述染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)所述染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段,包括:
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和所述變異位點(diǎn)密度信息,確定各個(gè)所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標(biāo)區(qū)間信息,包括:
7.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和所述變異位點(diǎn)密度信息,確定各個(gè)所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標(biāo)區(qū)間信息,還包括:
8.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和等位基因密度信息分別對(duì)各個(gè)所述染色體變異數(shù)據(jù)樣本進(jìn)行劃分,以得到各個(gè)所述染色體變異數(shù)據(jù)樣本對(duì)應(yīng)的多個(gè)變異數(shù)據(jù)片段,包括:
9.如權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和所述等位基因密度信息,確定各個(gè)所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標(biāo)區(qū)間信息,包括:
10.如權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述參考位點(diǎn)數(shù)量和所述等位基因密度信息,確定各個(gè)所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標(biāo)區(qū)間信息,還包括:
11.如權(quán)利要求1所述的方法,其特征在于,所述基于變異數(shù)據(jù)過(guò)濾參數(shù)處理所述多個(gè)變異數(shù)據(jù)片段,得到所述目標(biāo)群體基因組變異數(shù)據(jù),包括:
12.一種群體基因組變異數(shù)據(jù)處理裝置,其特征在于,包括:
13.一種電子設(shè)備,其特征在于,包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-11中任一項(xiàng)所述方法。