Rna測序數(shù)據(jù)處理的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種RNA測序數(shù)據(jù)的處理方法和裝置。該方法包括獲取RNA測序數(shù)據(jù)的文件路徑;根據(jù)RNA測序數(shù)據(jù)的文件路徑獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。通過根據(jù)用戶輸入的感興趣查詢條件對RNA測序數(shù)據(jù)進(jìn)行查詢,為RNA測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理結(jié)果更多樣化,信息更全面,更具有指導(dǎo)價值。
【專利說明】RNA測序數(shù)據(jù)處理的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及測序數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種RNA測序數(shù)據(jù)的處理方法和
目.ο
【背景技術(shù)】
[0002]由于高通量測序技術(shù)具有通量高、成本低、數(shù)據(jù)信息量大的優(yōu)點,越來越多的生物學(xué)研宄人員選擇采用高通量測序的方法作為一種研宄的手段。然而,測序所得的數(shù)據(jù)是海量的,各大測序公司紛紛推出各種處理方法供用戶選擇,但現(xiàn)有技術(shù)中的測序數(shù)據(jù)的處理方法存在處理效率低下(只能針對單一樣本進(jìn)行分析)、輸出結(jié)果單一、無法進(jìn)行多樣化分析的缺陷。
[0003]因此,急需建立一種能夠?qū)y序數(shù)據(jù)進(jìn)行多樣化分析的方法,以提供更準(zhǔn)確、更全面的分析結(jié)果。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在提供一種RNA測序數(shù)據(jù)的處理方法和裝置,以改善現(xiàn)有的處理方法所得結(jié)果單一、信息不全等缺陷。
[0005]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種RNA測序數(shù)據(jù)的處理方法,方法包括:獲取RNA測序數(shù)據(jù)的文件路徑;根據(jù)RNA測序數(shù)據(jù)的文件路徑獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。
[0006]進(jìn)一步地,通過如下任意一種方式獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表:方式一:通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表;方式二:確定基因名稱列表對應(yīng)的列表保存地址,根據(jù)列表保存地址讀取并導(dǎo)入基因名稱列表;方式三:根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表,其中,基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。
[0007]進(jìn)一步地,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下:當(dāng)基因名稱的篩選條件至少包括樣品表達(dá)量時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入樣品的RPKM閾值或FPKM閾值,根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表。
[0008]進(jìn)一步地,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下:當(dāng)基因名稱的篩選條件至少包括差異比較組時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入的比較樣品組的log2fold change閾值和q值閾值,根據(jù)比較樣品組的log2fold change閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2fold change閾值和q值閾值的基因名稱列表。
[0009]進(jìn)一步地,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下:當(dāng)基因名稱的篩選條件至少包括基因功能時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入包括如下任意一個或多個基因功能信息:GO ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;根據(jù)一個或多個功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表。
[0010]進(jìn)一步地,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,方法還包括:根據(jù)用戶輸入的提取基因的基因信息標(biāo)簽,獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽;其中,基因信息標(biāo)簽包括基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集。
[0011]進(jìn)一步地,在基因信息標(biāo)簽為基因功能注釋的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,方法還包括:獲取用戶輸入的用于提取基因的如下任意一種或多種基因功能注釋:基因長度、NR、NT、KEGG、Swissprot、PFAM和GO的功能注釋;根據(jù)基因名稱列表和一種或多種基因功能注釋,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因功能注釋的篩選結(jié)果。
[0012]進(jìn)一步地,在基因信息標(biāo)簽為基因分子標(biāo)記的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,方法還包括:獲取用戶輸入的用于提取基因的如下任意一種或多種基因分子標(biāo)記:SSR、SNP和INDEL ;根據(jù)基因名稱列表和一種或多種基因分子標(biāo)記,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因分子標(biāo)記的篩選結(jié)果。
[0013]進(jìn)一步地,在基因信息標(biāo)簽為基因序列的情況下,其中,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,方法還包括:獲取用戶輸入的用于提取基因的如下任意一種或多種基因序列:轉(zhuǎn)錄本序列、單基因簇序列和CDS序列;根據(jù)基因名稱列表和一種或多種基因序列,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因序列的篩選結(jié)果。
[0014]進(jìn)一步地,在基因信息標(biāo)簽為基因富集的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,方法還包括:獲取用戶輸入的用于提取基因的如下任意一種或多種基因富集:G0富集和KEGG富集;根據(jù)基因名稱列表和一種或多種基因富集,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因富集的篩選結(jié)果。
[0015]根據(jù)本發(fā)明的另一方面,提供了一種RNA測序數(shù)據(jù)的處理裝置,該裝置包括:路徑模塊:用于獲取RNA測序數(shù)據(jù)的文件路徑;訪問模塊:用于根據(jù)RNA測序數(shù)據(jù)的文件路徑獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取模塊:用于獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;查詢模塊:用于根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;以及輸出模塊:用于輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。
[0016]進(jìn)一步地,獲取模塊包括如下任意一個獲取子模塊:第一獲取子模塊:用于通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表;第二獲取子模塊:用于確定基因名稱列表對應(yīng)的列表保存地址,并根據(jù)列表保存地址讀取并導(dǎo)入基因名稱列表;第三獲取子模塊:用于根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表,其中,基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。
[0017]進(jìn)一步地,第三獲取子模塊還包括樣品表達(dá)量篩選單元,樣品表達(dá)量篩選單元包括:第一獲取子單元,用于獲取用戶輸入樣品的RPKM閾值或FPKM閾值;以及第一篩選子單元,用于根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表。
[0018]進(jìn)一步地,第三獲取子模塊還包括差異比較組篩選單元,差異比較組單元包括:第二獲取子單元,用于獲取用戶輸入的比較樣品組的log2fold change閾值和q值閾值,以及第二篩選子單元,用于根據(jù)比較樣品組的log2fold change閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2fold change閾值和q值閾值的基因名稱列表。
[0019]進(jìn)一步地,第三獲取子模塊還包括基因功能篩選單元,基因功能單元包括:第三獲取子單元,用于獲取用戶輸入包括如下任意一個或多個基因功能信息:GO ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;以及第三篩選子單元,用于根據(jù)一個或多個功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表。
[0020]進(jìn)一步地,在第三獲取模塊之后,裝置還包括基因信息標(biāo)簽?zāi)K,基因信息標(biāo)簽?zāi)K包括:基因信息標(biāo)簽接收子模塊:用于接收用戶輸入的如下至少一種基因信息標(biāo)簽:基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集;以及基因信息標(biāo)簽獲取子模塊:用于獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽。
[0021]進(jìn)一步地,基因信息標(biāo)簽接收子模塊還包括如下至少一種提取單元:基因功能注釋提取單元:用于提取基因名稱列表中的基因的長度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一種功能注釋;基因表達(dá)量提取單元:用于提取基因名稱列表中的基因的表達(dá)量;基因分子標(biāo)記提取單元:用于提取基因名稱列表中的基因的SSR、SNP和INDEL分子標(biāo)記;基因序列提取單元:用于提取基因名稱列表中的基因的轉(zhuǎn)錄本序列、單一基因序列和CDS序列;基因差于分析提取單元:用于提取基因名稱列表中的基因的差異表達(dá)信息;基因富集提取單元:用于提取基因名稱列表中的基因的GO富集和KEGG富集。
[0022]應(yīng)用本發(fā)明的技術(shù)方案,通過獲取RNA測序數(shù)據(jù)的文件路徑;然后根據(jù)RNA測序數(shù)據(jù)的文件路徑訪問測序數(shù)據(jù)文件,獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,其中,通過測序數(shù)據(jù)文件保存包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;接著獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;之后根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;最后,輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。本發(fā)明的上述處理方法,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對RNA測序數(shù)據(jù)進(jìn)行查詢,為RNA測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理得到的結(jié)果更多樣化,信息更全面,更具有指導(dǎo)價值。該處理方法對RNA測序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的處理需求。通過提供多樣化的基因?qū)傩孕畔?,為測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理得到的結(jié)果更加多樣化,處理效率更高,所得到的信息更全面,更具有指導(dǎo)價值。
【專利附圖】
【附圖說明】
[0023]構(gòu)成本申請的一部分的說明書附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0024]圖1是根據(jù)本發(fā)明一種優(yōu)選的實施例中基因測序數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;
[0025]圖2是根據(jù)本發(fā)明一種優(yōu)選的實施例中基因測序數(shù)據(jù)處理方法的流程圖;以及
[0026]圖3是根據(jù)本發(fā)明另一種優(yōu)選實施例中基因測序數(shù)據(jù)處理方法的詳細(xì)流程圖。
【具體實施方式】
[0027]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。
[0028]術(shù)語解釋
[0029]SNP (single nucleotide polymorphism)代表單核苷酸多態(tài)性;
[0030]INDEL (insert and delet1n)代表插入缺失;
[0031]SSR (Simple Sequence Repeat)代表簡單重復(fù)序列;
[0032]Q)S (Coding Sequence)代表編碼序列;
[0033]RPKM (Per Kilo-base per Mill1n)代表每百萬讀段中來自于某基因每千堿基長度的讀段數(shù);
[0034]FPKM (Per Kilobase of exon model per Mill1n mapped reads)代表每一百萬個比對上的讀段中比對到外顯子的每一千個堿基上的讀段個數(shù);
[0035]NR(Non-redundant protein sequences)代表非冗余蛋白質(zhì)序列;
[0036]NT (Nucleotide acid sequence)代表核苷酸序列;
[0037]GO (Gene Ontology)代表基因本體論,在本發(fā)明中作為基因注釋的數(shù)據(jù)庫用;
[0038]Unigene代表單基因簇;
[0039]KEEG(Kyoto Encyclopedia of Genes and Genomes)代表京都基因與基因組百科全書,也是一種數(shù)據(jù)庫;
[0040]Swissprot是一個能夠?qū)蜻M(jìn)行注釋的數(shù)據(jù)庫;
[0041]PFAM是本領(lǐng)域常用的一個蛋白質(zhì)數(shù)據(jù)庫。上述詞語均為本領(lǐng)域的常規(guī)術(shù)語。
[0042]Log2foldchange和Qvalue是用來計算基因差異表達(dá)的一種科學(xué)計算式,為本領(lǐng)域常規(guī)的計算方式。Log2foldchange可譯為差異倍數(shù)的以二為底的對數(shù)值,Qvalue譯為矯正后的偏離零假設(shè)的概率值。
[0043]圖1是根據(jù)本發(fā)明實施例的RNA測序數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖。如圖1所示,該處理裝置包括:路徑模塊:用于獲取RNA測序數(shù)據(jù)的文件路徑;訪問模塊:用于根據(jù)RNA測序數(shù)據(jù)的文件路徑獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取模塊:用于獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;查詢模塊:用于根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;以及輸出模塊:用于輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。
[0044]采用本發(fā)明的RNA測序數(shù)據(jù)的處理裝置,通過路徑模塊獲取RNA測序數(shù)據(jù)的文件路徑;然后訪問模塊根據(jù)RNA測序數(shù)據(jù)的文件路徑訪問測序數(shù)據(jù)文件,獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,其中,通過測序數(shù)據(jù)文件保存包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;接著獲取模塊獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;之后查詢模塊根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;最后,輸出模塊輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。本發(fā)明的上述處理裝置,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對RNA測序數(shù)據(jù)進(jìn)行查詢,為RNA測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理得到的結(jié)果更多樣化,信息更全面,更具有指導(dǎo)價值。該處理裝置對RNA測序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的查詢需求。
[0045]根據(jù)本發(fā)明的上述實施例,在執(zhí)行上述獲取模塊時通過如下任意一個獲取子模塊獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表:第一獲取子模塊:用于通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表;第二獲取子模塊:用于確定基因名稱列表對應(yīng)的列表保存地址,并根據(jù)列表保存地址讀取并導(dǎo)入基因名稱列表;第三獲取子模塊:用于根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表,其中,基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。
[0046]上述實施例中,第一獲取子模塊能夠通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表;第二獲取子模塊能夠通過確定的基因名稱列表對應(yīng)的列表保存地址,并根據(jù)列表保存地址讀取并導(dǎo)入基因名稱列表;第三獲取子模塊通過根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表,具體地,預(yù)先確定的基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。通過至少提供上述三種獲取子模塊,滿足了用戶獲取查詢條件的多樣化的需求。
[0047]在本發(fā)明的上述實施例中,根據(jù)預(yù)先確定的篩選條件的不同,當(dāng)上述預(yù)先確定的篩選條件為樣品表達(dá)量時,上述第三獲取子模塊還包括樣品表達(dá)量篩選單元,其中,樣品表達(dá)量篩選單元包括:第一獲取子單元,用于獲取用戶輸入樣品的RPKM閾值或FPKM閾值;以及第一篩選子單元,用于根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表。
[0048]上述實施例中,當(dāng)預(yù)先確定的篩選條件為樣品表達(dá)量時,上述第三獲取子模塊通過樣品表達(dá)量篩選單元的第一獲取單元獲取用戶輸入樣品的RPKM閾值或FPKM閾值,然后利用第一篩選單元根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表。樣品表達(dá)量篩選單元為方便用戶根據(jù)感興趣的樣品的表達(dá)量來進(jìn)行篩選基因名稱列表。
[0049]在本發(fā)明的上述實施例中,根據(jù)預(yù)先確定的篩選條件的不同,當(dāng)上述預(yù)先確定的篩選條件為差異比較組時,上述第三獲取子模塊還包括差異比較組篩選單元,其中,差異比較組單元包括:第二獲取子單元,用于獲取用戶輸入的比較樣品組的log2foldchange閾值和q值閾值,以及第二篩選子單元,用于根據(jù)比較樣品組的log2foldchange閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2foldChange閾值和q值閾值的基因名稱列表。
[0050]上述實施例中,當(dāng)預(yù)先確定的篩選條件為差異比較組時,上述第三獲取子模塊通過差異比較組篩選單元的第二獲取子單元獲取用戶輸入的比較樣品組的log2foldchange閾值和q值閾值,然后通過第二篩選子單元根據(jù)比較樣品組的log2foldchange閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2foldChange閾值和q值閾值的基因名稱列表。差異比較組單元為方便用戶根據(jù)關(guān)注的樣品比較組的差異來進(jìn)行篩選得到基因名稱列表。
[0051]在本發(fā)明的上述實施例中,當(dāng)上述預(yù)先確定的篩選條件為基因序列時,上述第三獲取子模塊還包括基因功能篩選單元,其中,基因功能篩選單元包括:第三獲取子單元,用于獲取用戶輸入包括如下任意一個或多個基因功能信息:GO ID號、GO注釋庫中的關(guān)鍵詞、KEGGID號以及KEGG注釋庫中的關(guān)鍵詞;以及第三篩選子單元,用于根據(jù)一個或多個功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表。
[0052]上述實施例中,第三獲取子模塊利用基因功能篩選單元的第三獲取子單元獲取用戶輸入包括如下任意一個或多個基因功能信息:GO ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;然后利用第三篩選子單元根據(jù)上述一個或多個基因功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表?;蚬δ芎Y選單元便于用戶根據(jù)特定的基因功能信息從RNA測序數(shù)據(jù)文件中篩選得到基因名稱列表。
[0053]在本發(fā)明的上述實施例中,在執(zhí)行第三獲取模塊之后,上述裝置還包括基因信息標(biāo)簽?zāi)K,基因信息標(biāo)簽?zāi)K包括:基因信息標(biāo)簽接收子模塊:用于接收用戶輸入的如下至少一種基因信息標(biāo)簽:基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集;以及基因信息標(biāo)簽獲取子模塊:用于獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽。
[0054]上述實施例中,基因信息標(biāo)簽?zāi)K中的基因信息標(biāo)簽接收子模塊接收用戶輸入的如下至少一種基因信息標(biāo)簽:基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集,然后執(zhí)行基因信息標(biāo)簽獲取子模塊,獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽。通過在執(zhí)行第三獲取模塊之后執(zhí)行基因信息標(biāo)簽?zāi)K,便于用戶根據(jù)自己感興趣的基因信息標(biāo)簽作為查詢條件,從RNA測序數(shù)據(jù)文件中查詢得到符合基因信息標(biāo)簽的篩選結(jié)果,從而得到感興趣的輸入結(jié)果。
[0055]在上述實施例中,根據(jù)基因信息標(biāo)簽接收子模塊接收的用戶輸入的基因信息標(biāo)簽的不同,上述基因信息標(biāo)簽接收子模塊還包括如下至少一種提取單元:基因功能注釋提取單元:用于提取基因名稱列表中的基因的長度、殿、見\1^66、5#88?1'01--41和GO中的任意一種功能注釋;基因表達(dá)量提取單元:用于提取基因名稱列表中的基因的表達(dá)量;基因分子標(biāo)記提取單兀:用于提取基因名稱列表中的基因的SSR、SNP和INDEL分子標(biāo)記;基因序列提取單元:用于提取基因名稱列表中的基因的轉(zhuǎn)錄本序列、單一基因序列(單基因簇序列)和CDS序列;基因差于分析提取單元:用于提取基因名稱列表中的基因的差異表達(dá)信息;基因富集提取單元:用于提取基因名稱列表中的基因的GO富集和KEGG富集。
[0056]其中,基因功能注釋提取單元能夠提取基因名稱列表中的基因的長度、NR、NT、KEGG, Swissprot, PFAM和GO中的任意一種功能注釋;基因表達(dá)量提取單元能夠提取基因名稱列表中的基因的表達(dá)量;基因分子標(biāo)記提取單元能夠提取基因名稱列表中的基因的SSR、SNP和INDEL分子標(biāo)記;基因序列提取單元能夠提取基因名稱列表中的基因的轉(zhuǎn)錄本序列、單一基因序列(單基因簇序列)和CDS序列;基因差于分析提取單元能夠提取基因名稱列表中的基因的差異表達(dá)信息;基因富集提取單元能夠提取基因名稱列表中的基因的GO富集和KEGG富集。上述提取單元的多樣化選擇,使得客戶可以根據(jù)自己所需隨意選擇一種或多種基因信息標(biāo)簽,從而得到感興趣的基因信息標(biāo)簽。
[0057]圖2是根據(jù)本發(fā)明實施例的RNA測序數(shù)據(jù)的處理方法的流程圖。圖3是根據(jù)本發(fā)明實施例的RNA測序數(shù)據(jù)的處理方法的詳細(xì)流程圖。如圖2和圖3所示,該處理方法包括如下步驟:獲取RNA測序數(shù)據(jù)的文件路徑;根據(jù)RNA測序數(shù)據(jù)的文件路徑訪問測序數(shù)據(jù)文件,獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,其中,通過測序數(shù)據(jù)文件保存包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。
[0058]采用本發(fā)明的RNA測序數(shù)據(jù)的處理方法,通過獲取RNA測序數(shù)據(jù)的文件路徑;然后根據(jù)RNA測序數(shù)據(jù)的文件路徑訪問測序數(shù)據(jù)文件,獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,其中,通過測序數(shù)據(jù)文件保存包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;接著獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;之后根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;最后,輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。本發(fā)明的上述處理方法,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對RNA測序數(shù)據(jù)進(jìn)行查詢,為RNA測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理得到的結(jié)果更多樣化,信息更全面,更具有指導(dǎo)價值。該處理方法對RNA測序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的處理需求。
[0059]在上述實施例中,獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的方式包括如下任意一種方式:方式一:通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表;方式二:確定基因名稱列表對應(yīng)的列表保存地址,根據(jù)列表保存地址讀取并導(dǎo)入基因名稱列表;方式三:根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表。
[0060]上述實施例中,方式一便于用戶直接手動輸入或粘貼的方式直接輸入感興趣的基因名稱或基因名稱列表;方式二方便用戶在已經(jīng)有感興趣的基因名稱的列表時,采用直接導(dǎo)入的基因名稱列表文件保存地址的方式進(jìn)行獲取。其中,基因名稱列表文件為txt格式文本,且每個基因一行。方式三中,基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。當(dāng)根據(jù)樣品表達(dá)量、差異比較組或基因功能設(shè)定篩選條件時,將得到相應(yīng)篩選條件的基因名稱列表。當(dāng)上述所有篩選條件都選擇時,則得到滿足所有篩選條件的基因名稱列表。[0061 ] 上述實施例中,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下,當(dāng)基因名稱的篩選條件至少包括樣品表達(dá)量時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入樣品的RPKM閾值或FPKM閾值,根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表。
[0062]上述實施例中,當(dāng)基因名稱的篩選條件至少包括樣品表達(dá)量時,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:通過獲取用戶輸入樣品的RPKM閾值或FPKM閾值,根據(jù)樣品的RPKM閾值或FPKM閾值,從測序數(shù)據(jù)文件中篩選得到滿足樣品的RPKM閾值或FPKM閾值的基因名稱列表,這樣可以根據(jù)客戶輸入的樣品及樣品的表達(dá)量進(jìn)行篩選基因名稱列表。比如,選擇第一批樣品和第二批樣品,并且第一批樣品的RPKM值為0.5,第二批樣品的FPKM為0.5,則可以篩選得到這兩個樣品中FPKM值均大于0.5的基因名稱列表。
[0063]上述實施例中,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下,當(dāng)基因名稱的篩選條件至少包括差異比較組時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入的比較樣品組的log2fold change閾值和q值閾值,根據(jù)比較樣品組的log2foldchange閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2fold change閾值和q值閾值的基因名稱列表。
[0064]上述實施例中,通過獲取用戶輸入的比較樣品組的log2fold change閾值和q值閾值,根據(jù)比較樣品組的log2fold change閾值和q值閾值,從測序數(shù)據(jù)文件中篩選得到滿足比較樣品組的log2fold change閾值和q值閾值的基因名稱列表。這樣便于客戶根據(jù)感興趣的差異比較組,設(shè)置特定的篩選數(shù)值進(jìn)行篩選得到存在差異表達(dá)的基因名稱列表。比如,用戶可以通過勾選比較組,輸入log2fold change大于3,q值小于0.0001的篩選閾值,便可輸出在該比較組中l(wèi)og2fold change大于3,q value小于0.0001的基因名稱列表。
[0065]上述實施例中,在通過方式三獲取用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下,當(dāng)基因名稱的篩選條件至少包括基因功能時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從測序數(shù)據(jù)文件中篩選得到基因名稱列表的步驟包括:獲取用戶輸入包括如下任意一個或多個基因功能信息:GO ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;根據(jù)一個或多個功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表。
[0066]在上述實施例中,通過獲取用戶輸入包括如下任意一個或多個基因功能信息:G0ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;根據(jù)一個或多個功能信息,從測序數(shù)據(jù)文件中篩選得到滿足一個或多個基因功能信息的基因名稱列表。這樣便于客戶挑選功能相關(guān)的基因名稱列表,其中的篩選條件可以是感興趣的GO ID或KEGG ID,也可以是基因功能的關(guān)鍵詞,例如,輸入“膜”,則可以篩選得到測序數(shù)據(jù)中基因功能的描述中還有這個關(guān)鍵詞的基因的名稱列表。
[0067]在上述實施例中,如果在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,上述方法還包括:根據(jù)用戶輸入的提取基因的基因信息標(biāo)簽,獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽;其中,基因信息標(biāo)簽包括基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集。
[0068]具體地,根據(jù)所欲基因信息標(biāo)簽的不同,上述獲取測序數(shù)據(jù)文件中符合基因名稱列表中的基因的基因信息標(biāo)簽的步驟也略有調(diào)整。
[0069]上述實施例中,在基因信息標(biāo)簽為基因功能注釋的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,上述方法還包括根據(jù)用戶輸入的提取基因的如下任意一種或多種基因功能注釋的基因信息標(biāo)簽:基因長度、NR、NT、KEGG、SwiSSprot、PFAM和GO的功能注釋;根據(jù)基因名稱列表和一種或多種基因功能注釋,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因功能注釋的篩選結(jié)果。通過篩選不同數(shù)據(jù)文件的基因功能注釋,可以提取任何上述基因的功能注釋結(jié)果。
[0070]上述實施例中,在基因信息標(biāo)簽為基因分子標(biāo)記的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,上述方法還包括根據(jù)用戶輸入的提取基因的如下任意一種或多種基因分子標(biāo)記的基因信息標(biāo)簽:SSR、SNP和INDEL ;根據(jù)基因名稱列表和一種或多種基因分子標(biāo)記,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因分子標(biāo)記的篩選結(jié)果。通過篩選不同的分子標(biāo)記,可以提取基因名稱列表中的基因的上述任一種分子標(biāo)記。
[0071]上述實施例中,在基因信息標(biāo)簽為基因序列的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,上述方法還包括根據(jù)用戶輸入的提取基因的如下任意一種或多種基因序列的基因信息標(biāo)簽:轉(zhuǎn)錄本序列、單基因簇序列和CDS序列;根據(jù)基因名稱列表和一種或多種基因序列,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因序列的篩選結(jié)果。通過篩選基因不同結(jié)構(gòu)的序列,可以提取基因名稱列表中的基因的不同結(jié)構(gòu)的序列信息。
[0072]上述實施例中,在基因信息標(biāo)簽為基因富集的情況下,在獲取到用于對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,上述方法還包括根據(jù)用戶輸入的提取基因的如下任意一種或多種基因富集的基因信息標(biāo)簽:G0富集和KEGG富集;根據(jù)基因名稱列表和一種或多種基因富集,從測序數(shù)據(jù)文件中查詢得到滿足基因名稱列表和基因富集的篩選結(jié)果。通過篩選GO富集或KEGG富集,可以提取基因名稱列表中的基因的不同數(shù)據(jù)文件的富集信息。
[0073]下面結(jié)合圖3,以水稻RNA測序數(shù)據(jù)為例來詳細(xì)說明本發(fā)明的處理方法。首先,執(zhí)行處理結(jié)果文件保存地址確定步驟,以提供每次處理的結(jié)果輸出位置;然后執(zhí)行通過獲取RNA測序數(shù)據(jù)的文件路徑步驟,然后根據(jù)RNA測序數(shù)據(jù)的文件路徑獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,接著通過如下三種方式之一獲取到的對測序數(shù)據(jù)文件進(jìn)行查詢的基因名稱列表:通過應(yīng)用界面提供的輸入框接收用戶輸入的基因名稱列表、確定已知基因名稱列表對應(yīng)的保存低至,根據(jù)保存地址讀取并導(dǎo)入基因名稱列表或者根據(jù)預(yù)定篩選條件,從RNA測序數(shù)據(jù)文件中篩選得到的基因名稱列表,比如,通過篩選基因表達(dá)的RPKM值大于0.5的樣品1中的基因進(jìn)行篩選得到的基因名稱列表;然后通過提取基因信息標(biāo)簽步驟提取包括基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析以及基因富集中至少一種的基因信息標(biāo)簽,比如,通過提取基因中的INDEL和SNP分子標(biāo)記的信息標(biāo)簽;然后根據(jù)所獲得的待查詢的樣品1中表達(dá)量RPKM值大于0.5的基因名稱列表和INDEL、SNP基因標(biāo)簽信息作為查詢條件,執(zhí)行查詢步驟,從測序數(shù)據(jù)文件中查詢得到滿足上述查詢條件的篩選結(jié)果,最后輸出樣品1中表達(dá)量RPKM值大于0.5的基因中的INDEL和SNP分子標(biāo)記。
[0074]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0075]從以上的描述中,可以看出,本發(fā)明上述的實施例實現(xiàn)了如下技術(shù)效果:采用本發(fā)明的RNA測序數(shù)據(jù)的處理方法,通過獲取RNA測序數(shù)據(jù)的文件路徑;然后根據(jù)RNA測序數(shù)據(jù)的文件路徑訪問測序數(shù)據(jù)文件,獲取包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件,其中,通過測序數(shù)據(jù)文件保存包含RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;接著獲取對測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽;之后根據(jù)查詢條件從測序數(shù)據(jù)文件中查詢得到RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果;最后,輸出RNA測序數(shù)據(jù)中滿足查詢條件的篩選結(jié)果。本發(fā)明的上述處理方法,通過根據(jù)用戶輸入的感興趣的一種或多種查詢條件對RNA測序數(shù)據(jù)進(jìn)行查詢,為RNA測序數(shù)據(jù)的多樣化篩選及分析提供了便利,從而使得處理得到的結(jié)果更多樣化,信息更全面,更具有指導(dǎo)價值。該處理方法對RNA測序數(shù)據(jù)的處理操作簡單,既方便客戶自行查詢,又能滿足客戶多樣化的處理需求。
[0076]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0077]以上僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種RNA測序數(shù)據(jù)的處理方法,其特征在于,所述方法包括: 獲取RNA測序數(shù)據(jù)的文件路徑; 根據(jù)所述RNA測序數(shù)據(jù)的文件路徑獲取包含所述RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件;獲取用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,所述查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽; 根據(jù)所述查詢條件從所述測序數(shù)據(jù)文件中查詢得到所述RNA測序數(shù)據(jù)中滿足所述查詢條件的篩選結(jié)果; 輸出所述RNA測序數(shù)據(jù)中滿足所述查詢條件的篩選結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過如下任意一種方式獲取用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表: 方式一:通過應(yīng)用界面提供的輸入框接收用戶輸入的所述基因名稱列表; 方式二:確定所述基因名稱列表對應(yīng)的列表保存地址,根據(jù)所述列表保存地址讀取并導(dǎo)入所述基因名稱列表; 方式三:根據(jù)預(yù)先確定的基因名稱的篩選條件,從所述測序數(shù)據(jù)文件中篩選得到所述基因名稱列表,其中,所述基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在通過方式三獲取用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下: 當(dāng)所述基因名稱的篩選條件至少包括樣品表達(dá)量時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從所述測序數(shù)據(jù)文件中篩選得到所述基因名稱列表的步驟包括: 獲取用戶輸入樣品的RPKM閾值或FPKM閾值, 根據(jù)所述樣品的RPKM閾值或FPKM閾值,從所述測序數(shù)據(jù)文件中篩選得到滿足所述樣品的RPKM閾值或FPKM閾值的基因名稱列表。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,在通過方式三獲取用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下: 當(dāng)所述基因名稱的篩選條件至少包括差異比較組時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從所述測序數(shù)據(jù)文件中篩選得到所述基因名稱列表的步驟包括: 獲取用戶輸入的比較樣品組的1g2 fold change閾值和q值閾值, 根據(jù)所述比較樣品組的1g2 fold change閾值和q值閾值,從所述測序數(shù)據(jù)文件中篩選得到滿足所述比較樣品組的1g2 fold change閾值和q值閾值的基因名稱列表。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,在通過方式三獲取用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表的情況下: 當(dāng)所述基因名稱的篩選條件至少包括基因功能時,根據(jù)預(yù)先確定的基因名稱的篩選條件,從所述測序數(shù)據(jù)文件中篩選得到所述基因名稱列表的步驟包括: 獲取用戶輸入包括如下任意一個或多個基因功能信息:G0 ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞; 根據(jù)所述一個或多個基因功能信息,從所述測序數(shù)據(jù)文件中篩選得到滿足所述一個或多個基因功能信息的基因名稱列表。
6.根據(jù)權(quán)利要求2至5中任意一項所述的方法,其特征在于,在獲取到用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,所述方法還包括: 根據(jù)用戶輸入的提取基因的基因信息標(biāo)簽,獲取所述測序數(shù)據(jù)文件中符合所述基因名稱列表中的基因的所述基因信息標(biāo)簽;其中,所述基因信息標(biāo)簽包括基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述基因信息標(biāo)簽為基因功能注釋的情況下,在獲取到用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,所述方法還包括: 獲取用戶輸入的用于提取基因的如下任意一種或多種基因功能注釋:基因長度、NR、NT、KEGG, Swissprot, PFAM 和 GO 的功能注釋; 根據(jù)所述基因名稱列表和所述一種或多種基因功能注釋,從所述測序數(shù)據(jù)文件中查詢得到滿足所述基因名稱列表和所述基因功能注釋的篩選結(jié)果。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述基因信息標(biāo)簽為基因分子標(biāo)記的情況下,在獲取到用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,所述方法還包括: 獲取用戶輸入的用于提取基因的如下任意一種或多種基因分子標(biāo)記:SSR、SNP和INDEL ; 根據(jù)所述基因名稱列表和所述一種或多種基因分子標(biāo)記,從所述測序數(shù)據(jù)文件中查詢得到滿足所述基因名稱列表和所述基因分子標(biāo)記的篩選結(jié)果。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述基因信息標(biāo)簽為基因序列的情況下,其中,在獲取到用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,所述方法還包括: 獲取用戶輸入的用于提取基因的如下任意一種或多種基因序列:轉(zhuǎn)錄本序列、單基因簇序列和CDS序列; 根據(jù)所述基因名稱列表和所述一種或多種基因序列,從所述測序數(shù)據(jù)文件中查詢得到滿足所述基因名稱列表和所述基因序列的篩選結(jié)果。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述基因信息標(biāo)簽為基因富集的情況下,在獲取到用于對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件中的基因名稱列表之后,所述方法還包括: 獲取用戶輸入的用于提取基因的如下任意一種或多種基因富集:G0富集和KEGG富集; 根據(jù)所述基因名稱列表和所述一種或多種基因富集,從所述測序數(shù)據(jù)文件中查詢得到滿足所述基因名稱列表和所述基因富集的篩選結(jié)果。
11.一種RNA測序數(shù)據(jù)的處理裝置,其特征在于,所述裝置包括: 路徑模塊:用于獲取RNA測序數(shù)據(jù)的文件路徑; 訪問模塊:用于根據(jù)所述RNA測序數(shù)據(jù)的文件路徑獲取包含所述RNA測序數(shù)據(jù)的測序數(shù)據(jù)文件; 獲取模塊:用于獲取對所述測序數(shù)據(jù)文件進(jìn)行篩選處理的查詢條件,所述查詢條件至少包括如下任意一種或多種條件:包含至少一個基因名稱的基因名稱列表以及至少一個樣本的基因信息標(biāo)簽; 查詢模塊:用于根據(jù)所述查詢條件從所述測序數(shù)據(jù)文件中查詢得到所述RNA測序數(shù)據(jù)中滿足所述查詢條件的篩選結(jié)果;以及 輸出模塊:用于輸出所述RNA測序數(shù)據(jù)中滿足所述查詢條件的篩選結(jié)果。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述獲取模塊包括如下任意一個獲取子模塊: 第一獲取子模塊:用于通過應(yīng)用界面提供的輸入框接收用戶輸入的所述基因名稱列表; 第二獲取子模塊:用于確定所述基因名稱列表對應(yīng)的列表保存地址,并根據(jù)所述列表保存地址讀取并導(dǎo)入所述基因名稱列表; 第三獲取子模塊:用于根據(jù)預(yù)先確定的基因名稱的篩選條件,從所述測序數(shù)據(jù)文件中篩選得到所述基因名稱列表,其中,所述基因名稱的篩選條件包括如下任意一個或多個信息:樣品表達(dá)量、差異比較組以及基因功能。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第三獲取子模塊還包括樣品表達(dá)量篩選單元,所述樣品表達(dá)量篩選單元包括: 第一獲取子單元,用于獲取用戶輸入樣品的RPKM閾值或FPKM閾值;以及 第一篩選子單元,用于根據(jù)所述樣品的RPKM閾值或FPKM閾值,從所述測序數(shù)據(jù)文件中篩選得到滿足所述樣品的RPKM閾值或FPKM閾值的基因名稱列表。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第三獲取子模塊還包括差異比較組篩選單元,所述差異比較組單元包括: 第二獲取子單元,用于獲取用戶輸入的比較樣品組的1g2 fold change閾值和q值閾值,以及 第二篩選子單元,用于根據(jù)所述比較樣品組的1g2 fold change閾值和q值閾值,從所述測序數(shù)據(jù)文件中篩選得到滿足所述比較樣品組的1g2 fold change閾值和q值閾值的基因名稱列表。
15.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第三獲取子模塊還包括基因功能篩選單元,所述基因功能單元包括: 第三獲取子單元,用于獲取用戶輸入包括如下任意一個或多個基因功能信息:G0 ID號、GO注釋庫中的關(guān)鍵詞、KEGG ID號以及KEGG注釋庫中的關(guān)鍵詞;以及 第三篩選子單元,用于根據(jù)所述一個或多個功能信息,從所述測序數(shù)據(jù)文件中篩選得到滿足所述一個或多個基因功能信息的基因名稱列表。
16.根據(jù)權(quán)利要求12至15中任意一項所述的裝置,其特征在于,在所述第三獲取模塊之后,所述裝置還包括基因信息標(biāo)簽?zāi)K,所述基因信息標(biāo)簽?zāi)K包括: 基因信息標(biāo)簽接收子模塊:用于接收用戶輸入的如下至少一種基因信息標(biāo)簽:基因功能注釋、基因表達(dá)量、基因分子標(biāo)記、基因序列、基因差異分析和基因富集;以及 基因信息標(biāo)簽獲取子模塊:用于獲取所述測序數(shù)據(jù)文件中符合所述基因名稱列表中的基因的所述基因信息標(biāo)簽。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述基因信息標(biāo)簽接收子模塊還包括如下至少一種提取單元: 基因功能注釋提取單元:用于提取所述基因名稱列表中的基因的長度、NR、NT、KEGG、Swissprot、PFAM和GO中的任意一種功能注釋; 基因表達(dá)量提取單元:用于提取所述基因名稱列表中的基因的表達(dá)量; 基因分子標(biāo)記提取單元:用于提取所述基因名稱列表中的基因的SSR、SNP和INDEL分子標(biāo)記; 基因序列提取單元:用于提取所述基因名稱列表中的基因的轉(zhuǎn)錄本序列、單一基因序列和CDS序列; 基因差于分析提取單元:用于提取所述基因名稱列表中的基因的差異表達(dá)信息; 基因富集提取單元:用于提取所述基因名稱列表中的基因的GO富集和KEGG富集。
【文檔編號】G06F17/30GK104504302SQ201410724856
【公開日】2015年4月8日 申請日期:2014年12月2日 優(yōu)先權(quán)日:2014年12月2日
【發(fā)明者】陳利群, 姜曉雪, 郭陽, 周婷婷 申請人:北京諾禾致源生物信息科技有限公司