本發(fā)明屬于信息檢索領(lǐng)域,特別涉及用于基因產(chǎn)品的檢索方法。
背景技術(shù):
隨著測序技術(shù)的發(fā)展,多物種基因組測序陸續(xù)完成,并且由于互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,基于互聯(lián)網(wǎng)進行基因、以及基因文獻、基因產(chǎn)品等相關(guān)材料的搜索已經(jīng)成為業(yè)內(nèi)的趨勢。
迄今,美國國立衛(wèi)生院基因數(shù)據(jù)庫(NCBI)里收錄基因數(shù)目已經(jīng)超過一千三百萬條。但由于命名規(guī)則的歷史原因和同源基因的存在,每條基因除了具有基因編號(gene ID)之外,還可能有基因全稱(gene full name)、基因符號(gene symbol)、別稱(aliase,synonym)等業(yè)內(nèi)名稱,在收錄基因文獻、基因產(chǎn)品時不可能按統(tǒng)一的名稱進行收錄。導致當前基于單一基因名稱關(guān)鍵詞搜索查詢特異性基因相關(guān)信息和產(chǎn)品時,查詢效率低且查詢結(jié)果易出現(xiàn)無關(guān)數(shù)據(jù)或遺漏數(shù)據(jù)等情況。這樣給后期的搜索帶來了巨大的困難。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中存在的缺點和不足,本發(fā)明提供了用于提高檢索效率的用于基因產(chǎn)品的檢索方法。
為了達到上述技術(shù)目的,本發(fā)明提供了用于基因產(chǎn)品的檢索方法,所述檢索方法包括:
根據(jù)基因編號、基因符號、基因全稱以及別稱構(gòu)建同源基因數(shù)據(jù)庫;
獲取待檢索的關(guān)鍵詞,從同源基因數(shù)據(jù)庫中確定與關(guān)鍵詞對應的唯一特征標簽;
根據(jù)唯一特征標簽,結(jié)合基因編號、基因符號、基因全稱以及別稱對關(guān)鍵詞進行拓展,獲取拓展關(guān)鍵詞;
根據(jù)拓展關(guān)鍵詞進行網(wǎng)絡檢索,將檢索結(jié)果輸出。
可選的,所述檢索方法,還包括:
構(gòu)建包括基因文獻、基因產(chǎn)品的檢索數(shù)據(jù)庫,在所述檢索數(shù)據(jù)庫設有與每個所述基因文獻、每個所述基因產(chǎn)品對應的唯一特征標簽。
可選的,所述檢索方法,還包括:
在所述檢索數(shù)據(jù)庫中選取與所述唯一特征標簽對應的、包括基因文獻和/或基因產(chǎn)品的檢索結(jié)果;
將所述檢索結(jié)果輸出。
可選的,所述根據(jù)唯一特征標簽,結(jié)合基因編號、基因符號、基因全稱以及別稱對關(guān)鍵詞進行拓展,獲取拓展關(guān)鍵詞,包括:
根據(jù)唯一特征標簽,確定與唯一特征標簽對應的目的基因編號、目的基因符號、目的基因全稱以及別稱;
以關(guān)鍵詞為基礎(chǔ),將所述目的基因編號、所述目的基因符號、所述目的基因全稱以及別稱按或的邏輯結(jié)構(gòu)進行拓展,獲取拓展關(guān)鍵詞。
可選的,還包括:
所述唯一特征標簽為字符串,在所述字符串中設有序列字節(jié)和驗證字節(jié)。
可選的,在所述同源基因數(shù)據(jù)庫中設有與基因編號、基因符號、基因全稱以及別稱對應的標簽。
可選的,所述拓展關(guān)鍵詞為至少包括基因編號、基因符號、基因全稱以及別稱在內(nèi)的字符串。
可選的,還包括:
從基因子庫中獲取物種基因數(shù)據(jù),結(jié)合對比數(shù)據(jù)庫對物種基因數(shù)據(jù)進行篩選,得到跨物種直接同源基因;
基于跨物種直接同源基因,以基因全稱或基因編號相同為標準在基因子庫中進行擴充匹配,得到直接同源基因關(guān)鍵詞數(shù)據(jù)集,根據(jù)得到的直接同源基因關(guān)鍵詞數(shù)據(jù)集建立非冗余數(shù)據(jù)庫;
在非冗余數(shù)據(jù)庫中選取與關(guān)鍵詞匹配的拓展關(guān)鍵詞。
可選的,所述結(jié)合對比數(shù)據(jù)庫對物種基因數(shù)據(jù)進行篩選,得到跨物種直接同源基因,包括:
從對比數(shù)據(jù)庫中提取與物種基因數(shù)據(jù)對應的樣本基因數(shù)據(jù),基于樣本基因數(shù)據(jù)對物種基因數(shù)據(jù)進行去重篩選,得到篩選后的跨物種直接同源基因。
可選的,在所述非冗余數(shù)據(jù)庫中存儲的直接同源基因關(guān)鍵詞數(shù)據(jù)具有唯一性。
本發(fā)明提供的技術(shù)方案帶來的有益效果是:
通過根據(jù)待檢索的關(guān)鍵詞獲取唯一特征標簽,基于唯一特征標簽對關(guān)鍵詞進行拓展處理,最終根據(jù)得到的拓展關(guān)鍵詞進行全網(wǎng)檢索,由于拓展關(guān)鍵詞中包含了與待檢索的關(guān)鍵詞對應的多重限定,從而保證在互聯(lián)網(wǎng)上能夠搜索到與關(guān)鍵詞關(guān)聯(lián)性最強的資源,降低其他無關(guān)資源對搜索結(jié)果的干擾。
附圖說明
為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明提供的用于基因產(chǎn)品的檢索方法的流程示意圖;
圖2是本發(fā)明提供的拓展關(guān)鍵詞的獲取方式的流程示意圖。
具體實施方式
為使本發(fā)明的結(jié)構(gòu)和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的結(jié)構(gòu)作進一步地描述。
實施例一
本發(fā)明提供了用于基因產(chǎn)品的檢索方法,如圖1所示,所述檢索方法包括:
11、根據(jù)基因編號、基因符號、基因全稱以及別稱構(gòu)建同源基因數(shù)據(jù)庫。
12、獲取待檢索的關(guān)鍵詞,從同源基因數(shù)據(jù)庫中確定與關(guān)鍵詞對應的唯一特征標簽。
13、根據(jù)唯一特征標簽,結(jié)合基因編號、基因符號、基因全稱以及別稱對關(guān)鍵詞進行拓展,獲取拓展關(guān)鍵詞。
14、根據(jù)拓展關(guān)鍵詞進行網(wǎng)絡檢索,將檢索結(jié)果輸出。
在實施中,為了能夠根據(jù)關(guān)鍵詞獲取盡可能豐富、且與基因相關(guān)的檢索結(jié)果,本發(fā)明提供了用于基因產(chǎn)品的檢索方法,在本檢索方法中,首先構(gòu)建同源基因數(shù)據(jù)庫,在同源基因數(shù)據(jù)庫中包括大量的基因編號,基因符號、基因全稱以及別稱。以便于在后續(xù)步驟中,能夠根據(jù)關(guān)鍵詞的具體內(nèi)容,在同源基因數(shù)據(jù)庫中確定與關(guān)鍵詞關(guān)聯(lián)的基因編號、基因符號、基因全稱以及別稱。接著根據(jù)獲取到待檢索的關(guān)鍵詞,從前一步中構(gòu)建的同源基因數(shù)據(jù)庫中確定與關(guān)鍵詞對應的唯一特征標簽。再次根據(jù)唯一特征標簽對應的基因編號等內(nèi)容對關(guān)鍵詞進行拓展處理,得到處理后的拓展關(guān)鍵詞。最終根據(jù)拓展關(guān)鍵詞進行全網(wǎng)檢索,得到檢索結(jié)果。
在上述步驟中,之所以設置獲取唯一特征標簽的步驟,是為了將包含有基因編號、基因符號、基因全稱以及別稱的同源基因數(shù)據(jù)庫中的資源對關(guān)鍵詞進行拓展,對關(guān)鍵詞進行準確的限定,從而保證在互聯(lián)網(wǎng)上能夠搜索到與關(guān)鍵詞關(guān)聯(lián)性最強的資源,降低其他無關(guān)資源對搜索結(jié)果的干擾。
值得注意的是,在步驟12中確定唯一特征標簽時,在同源基因數(shù)據(jù)庫中存在的關(guān)鍵詞組可能會與關(guān)鍵詞一一對應,這樣,可以對應的關(guān)鍵詞組直接確定唯一特征標簽;如果在同源基因數(shù)據(jù)庫中,針對待檢索的關(guān)鍵詞,存在一個以上的關(guān)鍵詞組與之對應,這樣需要從多個關(guān)鍵詞組中選取更為接近的關(guān)鍵詞組,進而確定與選出的關(guān)鍵詞組對應的唯一特征標簽,從而便于根據(jù)確定的唯一特征標簽完成后續(xù)處理步驟。
步驟13中獲取拓展關(guān)鍵詞的步驟具體包括:
根據(jù)唯一特征標簽,確定與唯一特征標簽對應的目的基因編號、目的基因符號、目的基因全稱以及別稱;
以關(guān)鍵詞為基礎(chǔ),將所述目的基因編號、所述目的基因符號、所述目的基因全稱以及別稱按或的邏輯結(jié)構(gòu)進行拓展,獲取拓展關(guān)鍵詞。
其中的唯一特征標簽為字符串,在所述字符串中設有序列字節(jié)和驗證字節(jié)。以便于在確定唯一特征標簽后,通過驗證字節(jié)對計算出的序列字節(jié)進行驗證。此外,為了在同源基因數(shù)據(jù)庫中設有與基因編號、基因符號、基因全稱以及別稱對應的標簽。獲取到的拓展關(guān)鍵詞為至少包括基因編號、基因符號、基因全稱以及別稱在內(nèi)的字符串。
具體的,所述檢索方法,還包括:構(gòu)建包括基因文獻、基因產(chǎn)品的檢索數(shù)據(jù)庫,在所述檢索數(shù)據(jù)庫設有與每個所述基因文獻、每個所述基因產(chǎn)品對應的唯一特征標簽。
在實施中,除了上述方法中提出的對關(guān)鍵詞進行拓展,基于拓展關(guān)鍵詞進行全網(wǎng)檢索意外,還包括構(gòu)建檢索數(shù)據(jù)庫,進而根據(jù)唯一特征標簽在檢索數(shù)據(jù)庫中進行檢索,獲取檢索后的結(jié)果。
本步驟中所謂的檢索數(shù)據(jù)庫,是包含基因文獻、基因產(chǎn)品在內(nèi)的數(shù)據(jù)庫,事先將可能作為檢索結(jié)果的基因文獻以及基因產(chǎn)品構(gòu)建數(shù)據(jù)庫,并且為檢索數(shù)據(jù)庫中與每個基因?qū)膬?nèi)容賦予唯一特征標簽。這樣在根據(jù)關(guān)鍵詞確定唯一特征標簽后,可以在所述檢索數(shù)據(jù)庫中選取與所述唯一特征標簽對應的、包括基因文獻和/或基因產(chǎn)品的檢索結(jié)果,進而將所述檢索結(jié)果輸出,根據(jù)唯一特征標簽在檢索數(shù)據(jù)庫中選出與關(guān)鍵詞對應的檢索內(nèi)容,相對于通過互聯(lián)網(wǎng)進行全網(wǎng)檢索,能夠?qū)崿F(xiàn)更為迅速且準確的檢索。
在第一種檢索方式中,提出了根據(jù)拓展關(guān)鍵詞進行全網(wǎng)檢索的方式,下面提出另一種關(guān)于拓展關(guān)鍵詞的獲取方式,具體過程為如圖2所示。
21、從基因子庫中獲取物種基因數(shù)據(jù),結(jié)合對比數(shù)據(jù)庫對物種基因數(shù)據(jù)進行篩選,得到跨物種直接同源基因。
22、基于跨物種直接同源基因,以基因全稱或基因編號相同為標準在基因子庫中進行擴充匹配,得到直接同源基因關(guān)鍵詞數(shù)據(jù)集,根據(jù)得到的直接同源基因關(guān)鍵詞數(shù)據(jù)集建立非冗余數(shù)據(jù)庫。
23、在非冗余數(shù)據(jù)庫中選取與關(guān)鍵詞匹配的拓展關(guān)鍵詞。
在實施中,根據(jù)美國國家生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)的基因子庫整理多物種的基因數(shù)據(jù),結(jié)合HomoloGene數(shù)據(jù)庫,篩選跨物種直接同源基因,以基因符號Symbol或全稱full name相同為標準在基因子庫中匹配擴充直接同源基因數(shù)據(jù),最終產(chǎn)生直接同源基因關(guān)鍵詞數(shù)據(jù)集,建立基因符號Symbol名稱非冗余數(shù)據(jù)庫,選取與關(guān)鍵詞匹配的拓展關(guān)鍵詞。
步驟21中的結(jié)合對比數(shù)據(jù)庫對物種基因數(shù)據(jù)進行篩選,得到跨物種直接同源基因的具體方式為:從對比數(shù)據(jù)庫中提取與物種基因數(shù)據(jù)對應的樣本基因數(shù)據(jù),基于樣本基因數(shù)據(jù)對物種基因數(shù)據(jù)進行去重篩選,得到篩選后的跨物種直接同源基因。
并且,在非冗余數(shù)據(jù)庫中存儲的直接同源基因關(guān)鍵詞數(shù)據(jù)具有唯一性。
本發(fā)明提供了用于基因產(chǎn)品的檢索方法,包括構(gòu)建同源基因數(shù)據(jù)庫,獲取待檢索的關(guān)鍵詞,確定與關(guān)鍵詞對應的唯一特征標簽,根據(jù)唯一特征標簽,對關(guān)鍵詞進行拓展,獲取拓展關(guān)鍵詞,根據(jù)拓展關(guān)鍵詞進行網(wǎng)絡檢索。通過根據(jù)待檢索的關(guān)鍵詞獲取唯一特征標簽,基于唯一特征標簽對關(guān)鍵詞進行拓展處理,最終根據(jù)得到的拓展關(guān)鍵詞進行全網(wǎng)檢索,由于拓展關(guān)鍵詞中包含了與待檢索的關(guān)鍵詞對應的多重限定,從而保證在互聯(lián)網(wǎng)上能夠搜索到與關(guān)鍵詞關(guān)聯(lián)性最強的資源,降低其他無關(guān)資源對搜索結(jié)果的干擾。
上述實施例中的各個序號僅僅為了描述,不代表各部件的組裝或使用過程中的先后順序。
以上所述僅為本發(fā)明的實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。