国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于生物信息序列分析的加速平臺的制作方法

      文檔序號:9327192閱讀:571來源:國知局
      一種用于生物信息序列分析的加速平臺的制作方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于生物信息計算與高性能計算領(lǐng)域,特別涉及一種用于生物信息序列分析的加速平臺。
      【背景技術(shù)】
      [0002]生物信息序列通常是包含遺傳信息的DNA、RNA序列等。這些帶有遺傳信息的序列在一些因素的影響下會發(fā)生突變,而突變往往對應(yīng)著各種疾病,如癌癥等。因此,對生物信息序列進行分析處理,找出其中的突變位點具有重要意義。當(dāng)前,生物信息序列主要是通過基因測序得到。
      [0003]近年來,隨著基因測序技術(shù)的高速發(fā)展,測序數(shù)據(jù)吞吐量有了極大的提升。在2014年初,基因測序儀龍頭企業(yè)Illumina發(fā)布了 HiSeq X Ten測序儀,其不間斷測序能力已達到每年18,000個全人類基因組。這令人驚嘆的數(shù)據(jù)生成速度對數(shù)據(jù)處理和分析的能力提出了極高的要求。具體來說,HiSeq XTen系統(tǒng)的一個運行周期為三天,一個運行周期內(nèi)測序150個基因組。這也就意味著在三天之內(nèi),這些數(shù)據(jù)必須得到處理,否則便會產(chǎn)生數(shù)據(jù)阻塞,待數(shù)據(jù)處理越積越多。簡單計算可知,要滿足數(shù)據(jù)處理的要求,就必須在28分鐘內(nèi)完成基因分析的整個流水線過程。如果采用通用云計算以及現(xiàn)今產(chǎn)業(yè)界標(biāo)準(zhǔn)的BWA+GATK等分析工具,在高端服務(wù)器(12核心雙路Intel至強處理器,96GB動態(tài)內(nèi)存)上需要24小時才能完成一個基因組的分析。為了達到HiSeq X Ten三天150個基因組數(shù)據(jù)的處理需求,至少需要50臺這樣的高端服務(wù)器。考慮到能耗,IT維護等因素,該計算平臺的成本將難以接受。
      [0004]可以看到,即便是高端服務(wù)器也遠(yuǎn)遠(yuǎn)不能滿足生物信息序列分析對速度的需求,并且其分析處理的成本很高?;驍?shù)據(jù)的處理如此費時的原因是其數(shù)據(jù)量極大,通??梢赃_到數(shù)百GB。為了找出突變,通常需要將基因序列與基因庫中的海量數(shù)據(jù)進行比對,這一過程包括了質(zhì)量評估、對準(zhǔn)、變體識別、標(biāo)記等處理。當(dāng)前,該流程中的各處理步驟都可由運行在CPU上的軟件來實現(xiàn)。發(fā)展到今天,這些軟件實現(xiàn)已經(jīng)顯得較為成熟,據(jù)統(tǒng)計,目前已經(jīng)有數(shù)百套軟件分別支持該流程中的各處理步驟。然而,由于基因數(shù)據(jù)極大并且計算過程較為復(fù)雜,因此運行在CPU上的軟件對各個步驟的計算十分緩慢。
      [0005]綜上所述,基因數(shù)據(jù)的產(chǎn)生較快并且其數(shù)據(jù)量極大。對基因數(shù)據(jù)的處理需要耗費大量計算資源,同時消耗大量時間。為了提高基因數(shù)據(jù)的處理速度,以匹配基因數(shù)據(jù)的產(chǎn)生速度,專用、高速、高效的生物信息序列分析平臺有著廣泛和根本的需求。
      [0006]當(dāng)前,用以進行生物信息序列處理的計算平臺主要包括ASIC(applicat1nspecific integrated circuits), FPGA(Field programmable gate arrays),GPU (Graphics Processor Units),以及 CPU (Central Processing Unit)等。在這些數(shù)據(jù)計算平臺上,ASIC無疑擁有最高的性能和最好的能耗效率。然而,ASIC的實現(xiàn)需要極大的研發(fā)投入和時間成本,實現(xiàn)難度最大。通常,實現(xiàn)一款A(yù)SIC需要對設(shè)計進行充分細(xì)致的驗證,測試并多次試產(chǎn),這個過程往往耗時數(shù)年且通常花費數(shù)百萬美元以上。常規(guī)的CPU計算平臺通過軟件程序?qū)崿F(xiàn)對數(shù)據(jù)的處理,實現(xiàn)起來較其他平臺容易,但性能也最低。而對GPU平臺而言,其擁有高速的1/0,但受限于有限的存儲資源。盡管實現(xiàn)起來相對FPGA和ASIC更為容易,其性能卻較FPGA和ASIC都低。FPGA的時鐘頻率雖然較CPU低一個數(shù)量級,但其提供了大量可利用的并行計算資源。此外,F(xiàn)PGA具有高速雙向1/0,較大的共享內(nèi)存,以及高度并行化的特點。這些特點使得FPGA十分適合用于計算加速。

      【發(fā)明內(nèi)容】

      [0007]為了克服上述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種用于生物信息序列分析的加速平臺,基于FPGA和ASIC,將生物序列分析流程以硬件的方式來實現(xiàn),在實現(xiàn)過程中通過高效的硬件架構(gòu)、高度并行化的計算來大大降低計算和分析所需的時間,其特點包括高效,可重構(gòu),可進化,易于與現(xiàn)有平臺整合,高精度,高速,可擴展,界面友好等。
      [0008]為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
      [0009]—種用于生物信息序列分析的加速平臺,包括:
      [0010]一個或者多個通用的云計算平臺1-1;
      [0011]—個或者多個用于生物信息序列分析的硬件加速器平臺1-2 ;
      [0012]若干與每個硬件加速平臺1-2--對應(yīng)的本地任務(wù)調(diào)度與重構(gòu)管控接口 1-3 ;
      [0013]—個或者多個生物信息序列參考數(shù)據(jù)庫1-5,用于和被分析目標(biāo)序列進行生物學(xué)對照分析從而獲得分析結(jié)果;
      [0014]—個或者多個目標(biāo)任務(wù)數(shù)據(jù)庫1-6,用于存儲目標(biāo)任務(wù);
      [0015]其特征在于:所述云計算平臺1-1接收壓縮或者非壓縮的目標(biāo)生物信息序列任務(wù),并將目標(biāo)任務(wù)存儲在目標(biāo)任務(wù)數(shù)據(jù)庫1-6,等待云計算平臺1-1單獨或者與硬件加速器平臺1-2協(xié)同分析處理。
      [0016]當(dāng)協(xié)同分析處理時,協(xié)同方式包括但不限于以完整任務(wù)、個別分析算法粒度為邊界的目標(biāo)任務(wù)劃分處理。此時,通過本地任務(wù)調(diào)度與重構(gòu)管控接口 1-3實現(xiàn)硬件加速器平臺1-2的本地分配與全局均衡,由云計算平臺1-1提供重構(gòu)配置數(shù)據(jù)流通過本地任務(wù)調(diào)度與重構(gòu)管控接口 1-3對參與協(xié)同的硬件加速器平臺1-2進行重構(gòu)。
      [0017]本發(fā)明設(shè)置用于訪問硬件加速平臺資源的底層驅(qū)動1-4,任何雙向流動于云計算平臺1-1與硬件加速器平臺1-2之間的數(shù)據(jù)與控制流均通過底層驅(qū)動1-4來提供訪問手段。
      [0018]所述分析處理是通過將目標(biāo)生物信息序列任務(wù)中的被分析目標(biāo)序列與生物信息序列參考數(shù)據(jù)庫1-5中的信息進行生物學(xué)對照分析獲得分析結(jié)果。
      [0019]所述生物信息序列包括但不限于生物基因組序列、生物RNA序列、蛋白質(zhì)序列等;所述生物學(xué)對照分析包括并不限于:基于參考序列生物基因組序列的映射、對齊、序列對比、變異分析與病理關(guān)聯(lián)分析;基于參考序列的生物RNA序列的映射、對齊、序列對比、變異分析與病理關(guān)聯(lián)分析;蛋白質(zhì)序列的映射、對齊、序列對比或變異分析與病理關(guān)聯(lián)分析。
      [0020]當(dāng)所述硬件加速器平臺1-2為多個時,相互之間通過高速互連結(jié)構(gòu)7實現(xiàn)互聯(lián)通信,以實現(xiàn)局部負(fù)載均衡。
      [0021]所述的硬件加速器平臺1-2,作為云計算平臺1-1的輔助計算節(jié)點,能夠但不必需地將生物信息序列分析流程的一部分或者全部步驟卸載在硬件加速器平臺1-2上并予以加速分析。硬件加速器平臺1-2基于專用集成電路(ASIC)或者現(xiàn)場可編程門陣列(FPGA),為一個可重構(gòu)、可進化、可擴展的生物信息序列分析硬件加速平臺。其包括:
      [0022]序列分析處理器簇2-1,由一個或者多個異質(zhì)結(jié)構(gòu)的序列分析處理器組成簇狀聚合;
      [0023]可重構(gòu)簇間互連結(jié)構(gòu)2-2 ;
      [0024]可重構(gòu)外周互連結(jié)構(gòu)2-3 ;
      [0025]分析核心控制單元2-4 ;
      [0026]高速數(shù)據(jù)接口 2-5;
      [0027]重構(gòu)配置接口 2-6;
      [0028]高速加速器芯片間/平臺電路板間/服務(wù)器機架間的互連結(jié)構(gòu)2-7 ;
      [0029]上位機接口 2-8;
      [0030]內(nèi)存控制器2-9;
      [0031]以及基于非揮發(fā)存儲器的分析平臺重構(gòu)配置數(shù)據(jù)庫2-10。
      [0032]所述高速數(shù)據(jù)接口 2-5為DMA控制器與PC
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1