一種甲型流感病毒快速分型與分析流程的制作方法
【專利摘要】本發(fā)明屬于生物技術(shù)領(lǐng)域,它確立了一種甲型流感病毒快速分型與分析流程,可以快速、準(zhǔn)確對甲型流感病毒進(jìn)行分型、分析和遺傳進(jìn)化研究,其包含3個(gè)技術(shù)要點(diǎn):(1)篩選了適合進(jìn)行甲型流感病毒分型的參考序列;(2)構(gòu)建了甲型流感病毒分型與序列分析方法;(3)實(shí)現(xiàn)了序列分析的并行化與自動化。該發(fā)明能夠滿足各類疫病預(yù)防控制機(jī)構(gòu)和研究院所開展流感病毒的流行病學(xué)調(diào)查和遺傳變異研究。
【專利說明】
一種甲型流感病毒快速分型與分析流程
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于生物技術(shù)領(lǐng)域;具體說來,本發(fā)明確立了一種甲型流感病毒快速分型與分析流程,可以快速、準(zhǔn)確對甲型流感病毒進(jìn)行分型、分析和遺傳進(jìn)化研究,并且不具備較深生物信息學(xué)和病原學(xué)基礎(chǔ)的操作人員也可進(jìn)行操作,該發(fā)明能夠滿足各類疫病預(yù)防控制機(jī)構(gòu)和研究院所開展流感病毒的流行病學(xué)調(diào)查和遺傳變異研究。
[0002]【背景技術(shù)】
[0003]甲型流感病毒,屬于正黏病毒科、流感病毒屬,是單股負(fù)鏈RNA病毒,其基因組由8 個(gè)單股負(fù)鏈RNA片段組成。其粒子表面有血凝素(Hemagglutinin,HA)和神經(jīng)氨酸酶 (Neuraminidase,NA)兩種表面結(jié)構(gòu)蛋白,根據(jù)HA和NA的抗原性差異可分為18種HA亞型(H1-H18)和11種NA亞型(N1-N11)。不同亞型的甲型流感病毒的致病性和宿主嗜性等均有較大差異。低保真RNA聚合酶會引起高突變率和重組,造成病毒分子多樣性,使每個(gè)病毒亞型可變異為各種不同的分支。通常一個(gè)堿基對的突變,也可引起病毒對宿主感染能力的改變。甲型流感病毒能感染多種宿主,包括馴養(yǎng)家禽、豬、馬、野生鳥類和人等溫血?jiǎng)游铩S嘘P(guān)甲型流感流行的記錄已超過百年,先后造成了 1918、1957、1968和2009年等四次全球性流感大流行, 對人類的生命健康和社會生活形成了巨大的威脅。
[0004]甲型流感病毒的分型與分析,通常使用RT-PCR方法擴(kuò)增甲型流感的HA和NA等基因,再通過Blast比對確定其亞型,之后再與同一亞型的其他流行毒株的序列進(jìn)行遺傳演化分析,確定其分支。在需要對大量樣品進(jìn)行檢測和分析的流行病學(xué)調(diào)查中,需要對每個(gè)病毒的亞型進(jìn)行確定,并將同一亞型的病毒序列進(jìn)行分類整理和分析,其效率較低,使用MEGA等 windows系統(tǒng)下的分析軟件進(jìn)行序列比對耗時(shí)過長,且需要大量的人工整理與比對過程,人為造成分析結(jié)果錯(cuò)誤的機(jī)會較多。
[0005]
【發(fā)明內(nèi)容】
[0006]本發(fā)明是一種甲型流感病毒快速分型與分析流程,可以快速、準(zhǔn)確對甲型流感病毒進(jìn)行分型、分析和遺傳進(jìn)化研究。該流程包括以下內(nèi)容:1.參考序列篩選從GenBank嚴(yán)格篩選了35條甲型流感病毒序列作為參考序列,這些序列包含了甲型流感病毒的全部亞型。這35條參考序列GenBank中的GI號分別為:632806741、78068066、 532807789、78096245、111380029、87246946、82654842、82653160、755186245、82654033、 82654109、82654166、82653631、324045、82654794、56425020、378734921、550600211、 73763199、71564694、78103389、78097082、78095720、78097649、82629291、78069952、 78070102、378734925、550600215、71564691、78706393、755180760、77747316、77747318、 71568559。
[0007]2.分型本分型流程通過將待分析序列(Query序列)與參考序列(Ref■序列)進(jìn)行BLAST比對,根據(jù)比對結(jié)果中Query序列與Ref序列的同源性進(jìn)行分析,選取最優(yōu)的比對結(jié)果作為分型判定依據(jù)。同時(shí)對兩條序列局部的比對結(jié)果進(jìn)行重新計(jì)算。首先,對原始BLAST結(jié)果進(jìn)行過濾,過濾掉比對長度小于50bp,并且identity值小于50的比對。這些比對由于同源性較低,會給計(jì)算帶來干擾。然后,我們通過Query序列比對到Ref?序列的位置信息,將兩條序列的多個(gè)比對結(jié)果進(jìn)行合并,并計(jì)算Query序列與Ref序列的覆蓋比率。設(shè)定一條Query序列長度為Q (length),比對到的參考序列長度為R(length),二者之間的比對長度為L。由于計(jì)算的比對長度L已經(jīng)為過濾之后滿足條件的同源比對,因此,最終計(jì)算得到的Query序列與參考序列的覆蓋比率,考慮了序列長度因素,具有更高的準(zhǔn)確性。我們最終設(shè)定閾值為當(dāng)Query (coverage)或者Ref (coverage )值大于60%時(shí),貝ljQuery序列與Ref序列為相同的基因或亞型。
[0008] 3.并行化計(jì)算一組Query序列之間是相互獨(dú)立的,每條序列需獨(dú)立與35條參考序列進(jìn)行比對。因此, 為提高計(jì)算效率,采用并行化處理和比對方式,將每條Query序列同時(shí)與參考序列進(jìn)行 BLAST比對計(jì)算,以期大大提高分析速度。
[0009]4.系統(tǒng)發(fā)育樹構(gòu)建在完成序列分型鑒定之后,將具有同一亞型的序列整合,進(jìn)行系統(tǒng)發(fā)育分析。選擇 MEGA-CC軟件(軟件版本7.0.7)對同一基因或同一亞型的Query序列進(jìn)行多序列比對,比對之后采用MEGA-CC對多序列比對結(jié)果進(jìn)行系統(tǒng)發(fā)育樹構(gòu)建,同樣采用并行化的處理方式,每個(gè)基因或每個(gè)亞型的基因并行化計(jì)算。
[0010]5.自動化開發(fā)了自動化的數(shù)據(jù)處理流程,并在程序中加入了上文提到的并行化處理方法。該軟件能夠?qū)崿F(xiàn)從數(shù)據(jù)比對、甲型流感病毒分型和整理、結(jié)果統(tǒng)計(jì)以及系統(tǒng)發(fā)育樹等過程自動化完成,只需將Query序列調(diào)入分析即可完成所有數(shù)據(jù)處理工作。
[0011]【具體實(shí)施方式】
[0012]下面通過實(shí)施例,說明本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不限于這個(gè)實(shí)施例。[0〇13]本實(shí)例用此發(fā)明的甲型流感病毒快速分型與分析流程,對GenBank中宿主為鴨的所有甲型流感病毒的序列(共25,815條)進(jìn)行亞型和遺傳演化分析。在此序列文件(FluA_ duck.fasta)所在的文件夾中,運(yùn)行perl fluA_tpye.pl _i FluA_duck.fasta,對序列進(jìn)行整理。進(jìn)入產(chǎn)生的Shell文件夾,運(yùn)行sh a.blast.sh,進(jìn)行BLAST比對;運(yùn)行sh b.blast.sh 計(jì)算Query (coverage)和Ref (coverage )值,并進(jìn)行序列分型;運(yùn)行sh c.blast ? sh構(gòu)建系統(tǒng)發(fā)育分析。對此25,815條序列進(jìn)行分型分析,運(yùn)行sh a.blast, sh進(jìn)行BLAST比對僅需29 秒,運(yùn)行sh b.blast.sh進(jìn)行分型僅需4秒,運(yùn)行sh c.blast.sh構(gòu)建系統(tǒng)發(fā)育分析僅需12, 612秒。分型結(jié)果在Result文件夾中,stat文件為結(jié)果統(tǒng)計(jì)表,各亞型或基因的序列分別成一個(gè)文件夾和文件。除34條(0.13%)極短序列外,其余均與GenBank中的數(shù)據(jù)一致,并能用系統(tǒng)發(fā)育分析結(jié)果構(gòu)建進(jìn)化樹。
【主權(quán)項(xiàng)】
1.一種甲型流感病毒快速分型與分析流程,其特征為一套lunix系統(tǒng)下的甲型流感病 毒快速分型與分析流程。2.—種甲型流感病毒快速分型與分析流程,是一種采用Perl語言編寫的甲型流感病毒 快速分型與分析軟件,能夠用于大量甲型流感病毒基因的快速分析。3.為實(shí)現(xiàn)快速準(zhǔn)確進(jìn)行甲型流感病毒的分型,從GenBank嚴(yán)格篩選了35條甲型流感病 毒序列作為參考序列,這些序列包含了甲型流感病毒的全部亞型。4.為對甲型流感病毒的序列進(jìn)行分型解析,將待分析的序列與35條參考序列進(jìn)行比 對,根據(jù)比對同源性在35條參考序列中篩選與病毒序列親緣關(guān)系最近的一條,若同時(shí)滿足 閾值標(biāo)準(zhǔn),則該序列與此參考序列是同一基因或亞型。5.為實(shí)現(xiàn)大批量樣本分型解析,采用并行化與自動化的方式進(jìn)行數(shù)據(jù)處理,將同一基 因或同一亞型的基因自動整合為一個(gè)文件,并自動進(jìn)行序列對齊與分析。6.只需將Query序列調(diào)入分析即可完成所有數(shù)據(jù)處理工作。
【文檔編號】G06F19/18GK105989247SQ201610048637
【公開日】2016年10月5日
【申請日】2016年1月26日
【發(fā)明人】王楷宬, 王通, 陳繼明, 莊青葉, 王素春, 彭程
【申請人】中國動物衛(wèi)生與流行病學(xué)中心