本發(fā)明屬于混樣測(cè)序,具體涉及一種混樣測(cè)序文庫索引管理方法和系統(tǒng)。
背景技術(shù):
1、在高通量測(cè)序中,混樣測(cè)序(pooled?sequencing)是一種重要的方法?;鞓訙y(cè)序的基本思想是將多個(gè)樣本的遺傳物質(zhì)混合在一起,然后通過高通量測(cè)序技術(shù)(如illumina平臺(tái))進(jìn)行測(cè)序。每個(gè)樣本在混合前都會(huì)被賦予一個(gè)獨(dú)特的索引標(biāo)簽(index),這些標(biāo)簽在測(cè)序過程中充當(dāng)條形碼的角色,幫助在后續(xù)的數(shù)據(jù)分析中識(shí)別和區(qū)分每個(gè)樣本的序列信息?;鞓訙y(cè)序顯著提高了測(cè)序的效率和成本效益。這種方法廣泛應(yīng)用于基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀遺傳學(xué)以及其他生物學(xué)研究中,使得研究人員能夠在短時(shí)間內(nèi)對(duì)大量樣本進(jìn)行深入分析。
2、盡管混樣測(cè)序具有顯著的優(yōu)勢(shì),但其實(shí)施過程中也面臨一些挑戰(zhàn),尤其是在文庫計(jì)算和index核對(duì)方面。文庫計(jì)算是指在進(jìn)行高通量測(cè)序之前,對(duì)混合樣本的dna或rna進(jìn)行處理和準(zhǔn)備的過程。index核對(duì)是指在進(jìn)行高通量測(cè)序之前,對(duì)每個(gè)樣本所賦予的獨(dú)特索引標(biāo)簽(index)進(jìn)行驗(yàn)證和確認(rèn)的過程。這一步驟至關(guān)重要,因?yàn)樗_保了在測(cè)序后的數(shù)據(jù)分析階段能夠正確地將序列數(shù)據(jù)歸屬到原始的樣本。隨著樣本數(shù)量的增加,文庫計(jì)算和index核對(duì)的復(fù)雜性也隨之增加,傳統(tǒng)的手工計(jì)算方法難以滿足大規(guī)模樣本處理的需求。此外,盡管混樣測(cè)序可以降低成本和提高測(cè)序效率,但文庫制備和測(cè)序后的數(shù)據(jù)分析仍然需要大量的時(shí)間和資源。
3、因此,本領(lǐng)域亟需開發(fā)一種高效、準(zhǔn)確的混樣測(cè)序文庫計(jì)算和index核對(duì)方法,這對(duì)于提高高通量測(cè)序的準(zhǔn)確性和可靠性具有重要意義。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的問題,本發(fā)明提供一種混樣測(cè)序文庫索引管理方法和系統(tǒng)。
2、一種混樣測(cè)序文庫索引管理方法,包括如下步驟:
3、步驟1,待測(cè)序樣本信息收集和管理:收集和存儲(chǔ)待測(cè)序樣本的信息;
4、步驟2,index核對(duì)與查重:系統(tǒng)生成測(cè)序初步排單表,執(zhí)行index核對(duì)和查重,index核對(duì)無誤后生成正式排單表;
5、步驟3,樣本定量與標(biāo)準(zhǔn)化計(jì)算:根據(jù)文庫濃度和統(tǒng)一稀釋的濃度計(jì)算稀釋所需文庫體積、溶劑體積,換算摩爾濃度;
6、步驟4,pooling方案生成:根據(jù)樣本的需求數(shù)據(jù)量和稀釋情況,生成pooling表;
7、步驟5,測(cè)序拆分?jǐn)?shù)據(jù)管理:進(jìn)行測(cè)序數(shù)據(jù)的拆分,生成拆分報(bào)告。
8、優(yōu)選的,步驟1中,所述信息包括:文庫名稱、文庫類型、文庫濃度、index序列和測(cè)序需求。
9、優(yōu)選的,步驟1中,對(duì)所述信息進(jìn)行處理后,將處理所得數(shù)據(jù)與所述信息一起進(jìn)行存儲(chǔ),所述處理包括:對(duì)文庫進(jìn)行編號(hào),計(jì)算index序列的堿基位數(shù),測(cè)序數(shù)據(jù)量單位換算。
10、優(yōu)選的,步驟2中,包括如下步驟:
11、步驟2.1,統(tǒng)計(jì)收集到的待測(cè)序文庫數(shù)據(jù)總數(shù)據(jù)量,根據(jù)錄入的測(cè)序平臺(tái)和測(cè)序芯片,匹配合適的測(cè)序芯片,生成初步測(cè)序排單表;
12、步驟2.2,進(jìn)行index核對(duì)和查重。
13、優(yōu)選的,步驟2.2中,所述index核對(duì)和查重包括如下兩項(xiàng):
14、1)i7?index序列重復(fù)性核對(duì);
15、2)i5?index/i5?index反向互補(bǔ)序列的重復(fù)性核對(duì)。
16、優(yōu)選的,步驟3中,包括如下步驟:
17、步驟3.1,將文庫濃度測(cè)定結(jié)果寫入系統(tǒng);
18、步驟3.2,確定統(tǒng)一稀釋的濃度;
19、步驟3.3,系統(tǒng)自動(dòng)計(jì)算稀釋需要的文庫體積和稀釋溶劑體積,若原始文庫濃度低于上述濃度,則不稀釋;
20、步驟3.4,根據(jù)片段化檢測(cè)結(jié)果,自動(dòng)換算為摩爾濃度。
21、優(yōu)選的,步驟5中,所述測(cè)序數(shù)據(jù)的拆分包括如下步驟:
22、步驟5.1,生成samplesheet.xlsx,上傳至服務(wù)器目錄內(nèi),并運(yùn)行bcl2fastq預(yù)拆分shell腳本;
23、步驟5.2,讀取fastq目錄下/stats/demultiplexingstats.xml文件,若每個(gè)樣本均有拆出樣本,則直接進(jìn)行正式拆分;若有個(gè)別樣本沒有拆分出來,排查未拆分出來的reads是否有該文庫i7?index和i5?index反向互補(bǔ)序列的數(shù)據(jù),若有,用i5?index反向互補(bǔ)序列替代原始的i5?index進(jìn)行重新預(yù)拆分,預(yù)拆分無誤進(jìn)行正式拆分,若沒有,則標(biāo)記此樣本為問題樣本;
24、所述預(yù)拆分shell腳本為:bcl2fastq-r/[bcl文件的絕對(duì)路徑]/runname-o/[fastq文件的絕對(duì)路徑]/runname_test--tiles?2201--sample-sheet
25、/[samplesheet文件的絕對(duì)路徑]/samplesheet_runname.csv;
26、所述正式拆分shell腳本為:nohup?bcl2fastq-r/[bcl文件的絕對(duì)路徑]/runname-o/[fastq文件的絕對(duì)路徑]/runname_fastq--tiles?2201
27、--sample-sheet/[samplesheet文件的絕對(duì)路徑]/samplesheet_runname.csv&。
28、優(yōu)選的,步驟5中,所述測(cè)序數(shù)據(jù)的拆分還包括如下步驟:獲取fastq目錄下/stats/demultiplexingstats.xml文件中每個(gè)樣本的數(shù)據(jù)量,存入數(shù)據(jù)庫中,并與初始要求的數(shù)據(jù)量進(jìn)行比對(duì),若大于等于初始數(shù)據(jù)量,則判定該樣本測(cè)序合格,若小于,則將該樣本退回待測(cè)序樣本庫中加測(cè)或者重測(cè)。
29、本發(fā)明還提供一種用于實(shí)現(xiàn)上述混樣測(cè)序文庫索引管理方法的系統(tǒng),其特征在于,包括:
30、樣本信息收集和管理模塊:用于收集和存儲(chǔ)待測(cè)序樣本的信息;
31、index核對(duì)與查重模塊:用于生成測(cè)序初步排單表,執(zhí)行index核對(duì)和查重,index核對(duì)無誤后生成正式排單表;
32、樣本定量與標(biāo)準(zhǔn)化計(jì)算模塊:用于根據(jù)文庫濃度和統(tǒng)一稀釋的濃度計(jì)算稀釋所需文庫體積、溶劑體積,換算摩爾濃度;
33、pooling方案生成模塊:用于根據(jù)樣本的需求數(shù)據(jù)量和稀釋情況,自動(dòng)生成pooling表;
34、測(cè)序拆分?jǐn)?shù)據(jù)管理模塊:用于進(jìn)行測(cè)序數(shù)據(jù)的拆分,生成拆分報(bào)告。
35、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有:用于實(shí)現(xiàn)上述混樣測(cè)序文庫索引管理方法的計(jì)算機(jī)程序。
36、本發(fā)明提供了一種能夠通過計(jì)算機(jī)自動(dòng)進(jìn)行高通量文庫計(jì)算和index核對(duì)的方法和系統(tǒng),為生物領(lǐng)域的研究和應(yīng)用提供了一種新的解決方案,具有自動(dòng)化程度高、運(yùn)行高效、操作簡(jiǎn)單的優(yōu)點(diǎn)。在本發(fā)明的基礎(chǔ)上,可擴(kuò)展更多的自動(dòng)化生信分析流程,有望在相關(guān)領(lǐng)域發(fā)揮重要作用。本發(fā)明能夠極大地促進(jìn)科學(xué)研究的進(jìn)展,并為研究人員提供更為高效和可靠的工具。
37、顯然,根據(jù)本發(fā)明的上述內(nèi)容,按照本領(lǐng)域的普通技術(shù)知識(shí)和慣用手段,在不脫離本發(fā)明上述基本技術(shù)思想前提下,還可以做出其它多種形式的修改、替換或變更。
38、以下通過實(shí)施例形式的具體實(shí)施方式,對(duì)本發(fā)明的上述內(nèi)容再作進(jìn)一步的詳細(xì)說明。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)例。凡基于本發(fā)明上述內(nèi)容所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。