一種高通量測序數(shù)據(jù)處理及分析流程控制方法
【專利摘要】本發(fā)明涉及一種高通量測序數(shù)據(jù)處理及分析流程控制方法,屬于分子生物學(xué)【技術(shù)領(lǐng)域】。該方法首先生成自定義參數(shù)配置文件;在根據(jù)用戶設(shè)定參數(shù)后的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件;最終由系統(tǒng)執(zhí)行批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得處理結(jié)果文件。從而能有效幫助科研人員迅速完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,優(yōu)化科研人員和數(shù)據(jù)分析專員的工作時(shí)間分配,提升工作效率,降低總體科研成本,且本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法,其實(shí)現(xiàn)方法簡便,應(yīng)用范圍較為廣泛。
【專利說明】一種高通量測序數(shù)據(jù)處理及分析流程控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及分子生物學(xué)【技術(shù)領(lǐng)域】,特別涉及染色質(zhì)測序數(shù)據(jù)分析【技術(shù)領(lǐng)域】,具體是指一種高通量測序數(shù)據(jù)處理及分析流程控制方法。
【背景技術(shù)】
[0002]新一代高通量測序技術(shù)的出現(xiàn)極大地豐富了人們利用分子生物學(xué)手段研究細(xì)胞內(nèi)變化規(guī)律的方案。目前諸如 ChIp-seq、RNA-seq、ChIRP-seq、High-C、MeDIP-seq、DNA-seq等在內(nèi)的眾多高通量測序技術(shù),都有相關(guān)的分析方法或分析流程供科研人員使用,并總結(jié)出相應(yīng)的數(shù)據(jù)處理分析的標(biāo)準(zhǔn)流程。但是,如何高效地使用這些標(biāo)準(zhǔn)化的分析流程,如何降低科研人員在數(shù)據(jù)分析時(shí)的重復(fù)勞動,降低數(shù)據(jù)分析的時(shí)間成本,目前仍然沒有一個(gè)有效的解決方案供廣大技術(shù)從業(yè)人員參考,這無形中增加了數(shù)據(jù)分析人員的工作負(fù)擔(dān)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點(diǎn),提供一種通過不同數(shù)據(jù)處理模塊的選取,幫助科研人員迅速完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,從而優(yōu)化科研人員和數(shù)據(jù)分析專員的工作時(shí)間分配,提升工作效率,降低總體科研成本,且實(shí)現(xiàn)方法簡便,應(yīng)用范圍較為廣泛的高通量測序數(shù)據(jù)處理及分析流程控制方法。
[0004]為了實(shí)現(xiàn)上述的目的,本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法包括以下步驟:
[0005](I)系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版生成自定義參數(shù)配置文件;
[0006](2)系統(tǒng)根據(jù)用戶操作,將各參數(shù)存入所述的自定義參數(shù)配置文件;
[0007](3)系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件;
[0008](4)系統(tǒng)根據(jù)用戶操作,執(zhí)行所述的批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得并輸出高通量數(shù)據(jù)處理結(jié)果文件。
[0009]該高通量測序數(shù)據(jù)處理及分析流程控制方法中,所述的系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版生成自定義參數(shù)配置文件具體為:系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成自定義參數(shù)配置文件。
[0010]該高通量測序數(shù)據(jù)處理及分析流程控制方法中,所述的系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件,具體為:系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件。
[0011]采用了該發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法,由于其首先生成自定義參數(shù)配置文件;在根據(jù)用戶設(shè)定參數(shù)后的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件;最終由系統(tǒng)執(zhí)行批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得處理結(jié)果文件。從而能有效幫助科研人員迅速完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,優(yōu)化科研人員和數(shù)據(jù)分析專員的工作時(shí)間分配,提升工作效率,降低總體科研成本,且本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法,其實(shí)現(xiàn)方法簡便,應(yīng)用范圍較為廣泛。
【專利附圖】
【附圖說明】
[0012]圖1為本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法的步驟流程圖。
[0013]圖2為本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法在實(shí)際應(yīng)用中的流程示意圖。
【具體實(shí)施方式】
[0014]為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說明。
[0015]請參閱圖1所示,為本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法的步驟流程圖。
[0016]在一種實(shí)施方式中,該高通量測序數(shù)據(jù)處理及分析流程控制方法,如圖1所示,包括以下步驟:
[0017](I)系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版生成自定義參數(shù)配置文件;
[0018](2)系統(tǒng)根據(jù)用戶操作,將各參數(shù)存入所述的自定義參數(shù)配置文件;
[0019](3)系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件;
[0020](4)系統(tǒng)根據(jù)用戶操作,執(zhí)行所述的批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得并輸出高通量數(shù)據(jù)處理結(jié)果文件。
[0021]在較優(yōu)選的實(shí)施方式中,所述的步驟(I)具體為:系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成自定義參數(shù)配置文件。
[0022]在更優(yōu)選的實(shí)施方式中,所述的步驟(3)具體為:系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件。
[0023]在實(shí)際應(yīng)用中,本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法的應(yīng)用流程如圖2所示。
[0024]其系統(tǒng)包含I個(gè)Python腳本代碼和2個(gè)高通量數(shù)據(jù)批處理分析流程模板,腳本和模板的名稱如下:
[0025](I)PROGRAM_pipeline_scheduler.py
[0026](2)PIPELINE_ChIP-seq.sh
[0027](3)PIPELINE_MeDIP-seq.sh
[0028]系統(tǒng)腳本的代碼編寫基于Python語言和Shell命令,可以在Linux和MacOS系統(tǒng)平臺下使用。代碼運(yùn)行過程中,耗費(fèi)系統(tǒng)資源少,能夠在任意一臺個(gè)人PC、工作站和或服務(wù)器上進(jìn)行使用。
[0029]具體的數(shù)據(jù)處理流程如下:
[0030]該工具的數(shù)據(jù)處理和分析流程以各類型高通量數(shù)據(jù)批處理流程模版作為輸入文件。
[0031]第一步,基于高通量數(shù)據(jù)處理流程模版,使用PROGRAM_pipeline_scheduler.py的configuration模式,結(jié)合處理步驟的關(guān)鍵詞字段搜索,生成相關(guān)自定義參數(shù)配置文件。
[0032]第二步,用戶可以對自定義參數(shù)進(jìn)行逐一設(shè)置,并保存修改后的參數(shù)配置文件。
[0033]第三步,以修改后的修改后的參數(shù)配置文件作為輸入,基于高通量數(shù)據(jù)處理流程模版,使用PROGRAM_pipelinescheduler.py的execute模式,結(jié)合處理步驟的關(guān)鍵詞字段搜索,生成批處理可執(zhí)行文件。
[0034]第四步,在系統(tǒng)終端運(yùn)行新生成的可執(zhí)行文件,開始流程化運(yùn)作。
[0035]最終,按照用戶所選操作類型,自動化輸出相應(yīng)文本格式結(jié)果和圖形化。
[0036]此外,該工具包中附帶成品化的ChlP-seq高通量數(shù)據(jù)批處理流程模版文件“PIPELINE_ChIP-seq.sh”和MeDIP-seq高通量數(shù)據(jù)批處理流程模版文件“PIPELINE_MeDIP-seq.sh”。
[0037]命令行模式下,鍵入Python PROGRAM_pipeline_scheduler.py命令后,系統(tǒng)會返回一系列詳細(xì)的參數(shù)設(shè)置和對應(yīng)的參數(shù)說明,指導(dǎo)數(shù)據(jù)分析人員正確使用設(shè)定參數(shù)。其中,參數(shù)分為兩種類型:必要參數(shù)和可選參數(shù)。必要參數(shù)要求由數(shù)據(jù)分析人員提供輸入值,無默認(rèn)值??蛇x參數(shù)的默認(rèn)值有程序內(nèi)設(shè),分析人員也可以結(jié)合實(shí)際需求進(jìn)行調(diào)整,具有靈活性。
[0038]利用本發(fā)明,能夠結(jié)合如ChlP-seq數(shù)據(jù)處理標(biāo)準(zhǔn)化流程、MeDIP-seq數(shù)據(jù)處理標(biāo)準(zhǔn)化流程等不同類型的高通量數(shù)據(jù)處理流程,能夠單獨(dú)提取流程中的局部分析模塊,并進(jìn)行模塊內(nèi)規(guī)定數(shù)據(jù)分析流程的快速執(zhí)行。從而通過不同模塊的選取,幫助科研人員迅速完成一套高通量數(shù)據(jù)的前期reads質(zhì)控、數(shù)據(jù)上機(jī)比對以及后期的若干分析流程。該工具能夠優(yōu)化科研人員和數(shù)據(jù)分析專員的工作時(shí)間分配,顯著提升工作效率。
[0039]采用了該發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法,由于其首先生成自定義參數(shù)配置文件;在根據(jù)用戶設(shè)定參數(shù)后的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件;最終由系統(tǒng)執(zhí)行批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得處理結(jié)果文件。從而能有效幫助科研人員迅速完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,優(yōu)化科研人員和數(shù)據(jù)分析專員的工作時(shí)間分配,提升工作效率,降低總體科研成本,且本發(fā)明的高通量測序數(shù)據(jù)處理及分析流程控制方法,其實(shí)現(xiàn)方法簡便,應(yīng)用范圍較為廣泛。
[0040]在此說明書中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應(yīng)被認(rèn)為是說明性的而非限制性的。
【權(quán)利要求】
1.一種高通量測序數(shù)據(jù)處理及分析流程控制方法,其特征在于,所述的方法包括以下步驟: (1)系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版生成自定義參數(shù)配置文件; (2)系統(tǒng)根據(jù)用戶操作,將各參數(shù)存入所述的自定義參數(shù)配置文件; (3)系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件; (4)系統(tǒng)根據(jù)用戶操作,執(zhí)行所述的批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)分析流程運(yùn)作,獲得并輸出高通量數(shù)據(jù)處理結(jié)果文件。
2.根據(jù)權(quán)利要求1所述的高通量測序數(shù)據(jù)處理及分析流程控制方法,其特征在于,所述的系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版生成自定義參數(shù)配置文件具體為: 系統(tǒng)根據(jù)高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成自定義參數(shù)配置文件。
3.根據(jù)權(quán)利要求2所述的高通量測序數(shù)據(jù)處理及分析流程控制方法,其特征在于,所述的系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件,具體為: 系統(tǒng)根據(jù)所述的存入?yún)?shù)的自定義參數(shù)配置文件和所述的高通量數(shù)據(jù)處理流程模版,并結(jié)合數(shù)據(jù)分析流程各處理步驟的關(guān)鍵字段搜索,生成與數(shù)據(jù)分析流程對應(yīng)的批處理可執(zhí)行文件。
【文檔編號】G06F19/20GK103853938SQ201310610931
【公開日】2014年6月11日 申請日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】王立山, 曹鑫愷, 臧衛(wèi)東, 王媛媛 申請人:上海豐核信息科技有限公司