国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于多核cpu和gpgpu硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的制作方法

      文檔序號(hào):6491461閱讀:451來(lái)源:國(guó)知局
      基于多核cpu和gpgpu硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的制作方法
      【專利摘要】“基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)”是針對(duì)傳統(tǒng)計(jì)算機(jī)無(wú)法滿足對(duì)海量高通量測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制的分析要求,根據(jù)高通量測(cè)序數(shù)據(jù)處理中海量數(shù)據(jù)可并行處理的特點(diǎn),提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結(jié)合的計(jì)算分析系統(tǒng)?;诙嗪薈PU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的主要模塊包括:多核CPU和GPGPU計(jì)算機(jī)以及統(tǒng)一的軟件平臺(tái)。其特點(diǎn)是(1)高性能并行計(jì)算和存儲(chǔ)硬件系統(tǒng),(2)高性能、統(tǒng)一的、可配置的軟件平臺(tái)。基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制處理可以顯著提高高通量測(cè)序數(shù)據(jù)質(zhì)量控制的分析效率。
      【專利說(shuō)明】基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明專利涉及一種用于生物信息學(xué)高通量測(cè)序數(shù)據(jù)質(zhì)量控制的軟硬件結(jié)合的計(jì)算機(jī)分析系統(tǒng),尤其是能夠快速的對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制。
      【背景技術(shù)】
      [0002]高通量測(cè)序技術(shù)又稱“下一代”測(cè)序技術(shù),是對(duì)傳統(tǒng)測(cè)序一次革命性的改變,能夠一次對(duì)幾十萬(wàn)到幾百萬(wàn)條DNA/RNA分子進(jìn)行序列測(cè)定,使得對(duì)一個(gè)物種的轉(zhuǎn)錄組,基因組以及微生物群落的元基因組進(jìn)行細(xì)致全貌的分析成為可能,越來(lái)越廣泛地應(yīng)用于生物學(xué)及相關(guān)研究中。
      [0003]與傳統(tǒng)的Sanger測(cè)序技術(shù)相比,新一代測(cè)序技術(shù)的通量提高了一到兩個(gè)數(shù)量級(jí),能夠較經(jīng)濟(jì)地對(duì)基因組進(jìn)行高倍率的序列覆蓋,數(shù)據(jù)量更多(100MB至數(shù)G)。隨著高通量測(cè)序儀器性能的逐漸穩(wěn)定和價(jià)格的不斷下降,其應(yīng)用必然會(huì)越來(lái)越廣泛,尤其是小型化的測(cè)序儀器的廣泛應(yīng)用,因此基于高通量測(cè)序數(shù)據(jù)的研究將會(huì)在數(shù)量上和應(yīng)用領(lǐng)域上呈現(xiàn)井噴式的快速發(fā)展趨勢(shì)。由于高通量測(cè)序技術(shù)本身的限制及人為實(shí)驗(yàn)的操作誤差,原始生成的高通量測(cè)序數(shù)據(jù)往往含有部分低質(zhì)量序列,包括低質(zhì)量堿基和污染序列等。這些低質(zhì)量序列的存在將會(huì)極大地影響后續(xù)數(shù)據(jù)分析的結(jié)果,甚至將導(dǎo)致錯(cuò)誤結(jié)果和結(jié)論。因此,質(zhì)量控制是進(jìn)行高通量測(cè)序數(shù)據(jù)分析必須的關(guān)鍵步驟之一。由于高通量測(cè)序數(shù)據(jù)往往具有上億條序列和幾百G的數(shù)據(jù)量,所以對(duì)應(yīng)于高通量測(cè)序數(shù)據(jù)的質(zhì)量控制,必須有具有相當(dāng)運(yùn)算能力的超級(jí)計(jì)算機(jī)和相應(yīng)的分析軟件來(lái)實(shí)現(xiàn)。采用目前的普通分析方法利用單一的CPU計(jì)算機(jī)對(duì)幾億條序列進(jìn)行逐條掃描并歸類統(tǒng)計(jì),可能需要數(shù)天甚至一個(gè)月的時(shí)間,使數(shù)據(jù)分析成為了相關(guān)研究中的一大瓶頸。下一代測(cè)序技術(shù)所產(chǎn)生的高通量數(shù)據(jù)的質(zhì)量控制問(wèn)題給廣大研究人員在基于高通量測(cè)序數(shù)據(jù)的研究方面設(shè)置了硬件和技術(shù)方面的障礙。

      【發(fā)明內(nèi)容】

      [0004]為了克服傳統(tǒng)計(jì)算機(jī)和分析方法無(wú)法滿足高通量測(cè)序數(shù)據(jù)分析要求這一不足,本發(fā)明根據(jù)高通量測(cè)序數(shù)據(jù)處理中數(shù)據(jù)可并行處理的特點(diǎn),提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結(jié)合的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)。
      [0005]本發(fā)明采用的技術(shù)方案是多核CPU和GPGPU計(jì)算機(jī)以及構(gòu)筑于其上的高效、統(tǒng)一的軟件平臺(tái)(圖1)。其特點(diǎn)是(I)高性能并行計(jì)算和存儲(chǔ)硬件系統(tǒng);(2)高性能、統(tǒng)一的、可配置的并行化軟件平臺(tái)。
      [0006](I)高性能并行計(jì)算和存儲(chǔ)硬件
      [0007]該硬件系統(tǒng)采用多路多核CPU和GPGPU進(jìn)行大規(guī)模并行化計(jì)算。圖2是計(jì)算服務(wù)器的系統(tǒng)結(jié)構(gòu)圖。其重點(diǎn)是:
      [0008]首先,多路多核CPU并行化計(jì)算,采用4路處理器,處理器之間采用QPI總線連接。每路處理器具有8個(gè)獨(dú)立計(jì)算核心,配備三通道DDR3 RDIMM內(nèi)存,并且適應(yīng)于智能化的計(jì)算資源配置和負(fù)載平衡控制,同時(shí)也適應(yīng)于云計(jì)算服務(wù)器的計(jì)算要求。
      [0009]其次,GPGPU協(xié)助計(jì)算芯片的多尺度并行化計(jì)算能力:448個(gè)流處理器和高達(dá)1.03Tflops的單精度計(jì)算峰值,板載6GB存儲(chǔ)器,同時(shí)可以在適當(dāng)?shù)那闆r下應(yīng)付交互性和可視化方面的需求。
      [0010]第三,高速緩存和高速總線:適應(yīng)于并發(fā)式的測(cè)序數(shù)據(jù)分析任務(wù)的調(diào)配和協(xié)同工作環(huán)境在大規(guī)模任務(wù)分配上的需要。
      [0011]最后,RAID磁盤(pán)陣列:通過(guò)RAID磁盤(pán)陣列存儲(chǔ),不但提高中心服務(wù)器的響應(yīng)速度和穩(wěn)定性,而且有利于不定期的中心服務(wù)器更新。同時(shí)可應(yīng)付云計(jì)算服務(wù)器的備份和升級(jí)需要。
      [0012](2)高性能、統(tǒng)一的、可配置的軟件平臺(tái)
      [0013]高性能的軟件平臺(tái)包括低質(zhì)量數(shù)據(jù)處理、污染序列的定性鑒定和污染序列的定量鑒定(圖 3)。此系統(tǒng)被命名為 QC-Chain 軟件系統(tǒng)(http://www.computationalbioenergy.0rR/qc-chain.html,自主知識(shí)產(chǎn)權(quán)),其高性能數(shù)據(jù)分析步驟是:
      [0014]首先,低質(zhì)量數(shù)據(jù)處理是基于多核CPU并行計(jì)算。將輸入文件分割成小規(guī)模子數(shù)據(jù),將不同的子數(shù)據(jù)分配到不同的CPU內(nèi)核上,然后在眾多CPU內(nèi)核上同時(shí)預(yù)測(cè)子序列的堿基質(zhì)量、重復(fù)序列和接頭序列,并依次切除序列兩端的低質(zhì)量堿基,過(guò)濾含有一定比例低質(zhì)量堿基的序列,刪除其中的接頭序列和重復(fù)序列,最后將過(guò)濾后的數(shù)據(jù)結(jié)果合并到一起。
      [0015]其次,污染序列的定性鑒定是基于多核CPU和GPGPU并行計(jì)算。利用Parallel-META 軟件(http://www.computationalbioenergy.0rg/parallel-meta.html,自主知識(shí)產(chǎn)權(quán)),對(duì)于16S或ISSrRNA特征序列(一種較短的生物標(biāo)記序列)進(jìn)行預(yù)測(cè)、提取和鑒定,定性地獲得高通量測(cè)序數(shù)據(jù)中所有序列的物種來(lái)源信息。首先,將輸入文件分割成小規(guī)模子數(shù)據(jù),將不同的子數(shù)據(jù)分配到不同的GPGPU內(nèi)核上,然后在眾多GPGPU內(nèi)核上同時(shí)預(yù)測(cè)子序列的16S或18S rRNA特征序列,最后將特征序列預(yù)測(cè)結(jié)果合并到一起;然后,根據(jù)特征序列預(yù)測(cè)結(jié)果多次將大規(guī)模輸入數(shù)據(jù)從外存儲(chǔ)器中載入內(nèi)存并查找提取。將輸入文件分割成小規(guī)模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時(shí)搜索子文件中的rRNA特征序列,最后將搜索結(jié)果合并。最后,分別將16S rRNA和18S rRNA特征序列的搜索結(jié)果匯總到一起,并生成圖形化的物種結(jié)構(gòu)組成,從而獲得高通量測(cè)序數(shù)據(jù)中所有可能存在的物種信息。
      [0016]第三,污染序列的定量鑒定是基于多核CPU并行計(jì)算。隨機(jī)地提取一定比例的高通量測(cè)序數(shù)據(jù)中的序列,并利用通用的序列比對(duì)方法(BLASTn),定量的獲得高通量測(cè)序數(shù)據(jù)中所有序列的物種來(lái)源信息及其分布比例。將輸入文件分割成小規(guī)模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時(shí)提取一定比例的序列,最后將提取的序列合并。
      [0017]因此本軟件平臺(tái)依賴于多核CPU和GPGPU硬件平臺(tái),只有相互配合才能夠發(fā)揮高效率高通量測(cè)序數(shù)據(jù)質(zhì)量控制的功能。
      [0018]本發(fā)明的有益效果是,QC-Chain軟件系統(tǒng)與基于多核CPU和GPGPU硬件計(jì)算機(jī)相配合,克服了基于單核CPU硬件計(jì)算機(jī)的計(jì)算瓶頸,可以使高通量測(cè)序數(shù)據(jù)質(zhì)量控制效率提高10倍以上。本發(fā)明的應(yīng)用將會(huì)加快高通量測(cè)序數(shù)據(jù)質(zhì)量控制的進(jìn)度,進(jìn)而提速高通量測(cè)序相關(guān)的研究?!緦@綀D】

      【附圖說(shuō)明】
      [0019]圖1、基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的總體流程。
      [0020]圖2、基于多核CPU和GPGPU和硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的硬件架構(gòu)。其主要部分是:第一,4路多核心CPU的多尺度并行化計(jì)算能力,每路CPU具備獨(dú)立8個(gè)計(jì)算核心,并具有三通道內(nèi)存。第二,GPGPU協(xié)助計(jì)算芯片具備448個(gè)流處理器和高達(dá)1.03Tflops的單精度計(jì)算峰值,板載6GB存儲(chǔ)器。第三,高速緩存和高速總線。第四,RAID磁盤(pán)陣列,不但提高中心服務(wù)器的響應(yīng)速度和穩(wěn)定性,而且有利于不定期的中心服務(wù)器更新。
      [0021]圖3、基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的軟件流程。其流程主要步驟是:首先,使用多核CPU對(duì)通量測(cè)序數(shù)據(jù)序列進(jìn)行處理,依次切除輸入數(shù)據(jù)序列兩端的低質(zhì)量堿基,過(guò)濾含有一定比例低質(zhì)量堿基的序列,刪除其中的接頭序列和重復(fù)序列,然后將結(jié)果合并起來(lái),作為高質(zhì)量序列數(shù)據(jù)。然后,對(duì)于上一步得到的數(shù)據(jù)進(jìn)行污染序列的定性檢測(cè),使用并行化多線程計(jì)算工具,提取rRNA序列(16S或18S),并映射到已知基因序列數(shù)據(jù)庫(kù)(如GreenGenes、RDP、SilVa數(shù)據(jù)庫(kù))上,獲得所有序列的物種來(lái)源信息。最后,通過(guò)并行化算法隨機(jī)提取一定數(shù)量的序列,利用blast算法獲得序列比對(duì)的結(jié)果和,同時(shí)統(tǒng)計(jì)其中各個(gè)物種的相對(duì)豐度。綜合上述結(jié)果,生成圖形化分析結(jié)果和分析報(bào)告。
      【具體實(shí)施方式】
      [0022]在圖1中,軟件必須和硬件兼容,因此軟件版本可向下兼容硬件。
      [0023]在圖2中,基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的計(jì)算和存儲(chǔ)硬件基本配置是:單路CPU至少具備4個(gè)獨(dú)立物理計(jì)算核心,包含GPGPU(通用并行處理器)運(yùn)行硬件(至少為G80以上架構(gòu)),雙通道內(nèi)存2GB以上,硬盤(pán)至少50G以上。CPU、GPGPU和存儲(chǔ)之間高速互聯(lián)。
      [0024]在圖3中,基于多核CPU和GPGPU硬件的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng)的軟件平臺(tái)基本配置是=Linux操作系統(tǒng),預(yù)裝GCC運(yùn)行環(huán)境、CUDA運(yùn)行環(huán)境(3.0以上)、QC-Chain軟件系統(tǒng)版本1.0以上,Parallel-META軟件版本2.0以上。QC-Chain軟件系統(tǒng)與Parallel-META軟件系統(tǒng)的運(yùn)行界面為命令行形式,配電子版使用說(shuō)明。同時(shí)官方網(wǎng)站(http://www.computationalbioenergy.0rg/software, html)提供長(zhǎng)期軟件更新服務(wù)。
      【權(quán)利要求】
      1.一種軟硬件結(jié)合的計(jì)算機(jī)高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:系統(tǒng)包含計(jì)算機(jī)硬件和基于其上的軟件系統(tǒng),輸入是在任何存儲(chǔ)介質(zhì)上保留的高通量測(cè)序數(shù)據(jù)文件,輸出去除低質(zhì)量序列和污染序列的定性及定量信息。
      2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:計(jì)算機(jī)硬件系統(tǒng)包括GPGPU硬件、多核CPU硬件、存儲(chǔ)介質(zhì)等,是一個(gè)完整的計(jì)算機(jī)硬件系統(tǒng)。
      3.根據(jù)權(quán)利要求1所述的高通量測(cè)序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:計(jì)算機(jī)軟件系統(tǒng)包括與多核CPU以及GPGPU硬件系統(tǒng)兼容的完整的高通量測(cè)序數(shù)據(jù)質(zhì)量控制分析軟件,是一個(gè)完整的計(jì)算機(jī)軟件分析系統(tǒng);該軟件系統(tǒng)的運(yùn)行界面為命令行形式,輸出結(jié)果為網(wǎng)頁(yè)形式的文檔、圖片以及文本形式,配電子版使用說(shuō)明。
      【文檔編號(hào)】G06F19/20GK103838985SQ201210478392
      【公開(kāi)日】2014年6月4日 申請(qǐng)日期:2012年11月22日 優(yōu)先權(quán)日:2012年11月22日
      【發(fā)明者】周茜, 寧康, 蘇曉泉, 徐健 申請(qǐng)人:中國(guó)科學(xué)院青島生物能源與過(guò)程研究所
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1