国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法

      文檔序號(hào):6353729閱讀:278來(lái)源:國(guó)知局
      專利名稱:中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)技術(shù),尤其涉及針對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)技術(shù)。
      背景技術(shù)
      文獻(xiàn)知識(shí)挖掘是指從文獻(xiàn)中提取、整合并 發(fā)現(xiàn)有用信息和知識(shí)點(diǎn)的過(guò)程,通過(guò)文獻(xiàn)知識(shí)挖掘能夠快速處理大量文獻(xiàn)并得到特定領(lǐng)域的知識(shí),文獻(xiàn)知識(shí)挖掘涉及到數(shù)據(jù)挖掘、文本挖掘、自然語(yǔ)言處理和信息整合等多個(gè)研究領(lǐng)域。以生命科學(xué)文獻(xiàn)知識(shí)挖掘?yàn)槔齺?lái)說(shuō)明,生命科學(xué)文獻(xiàn)知識(shí)挖掘研究的主要內(nèi)容分為信息檢索,實(shí)體識(shí)別,信息提取,文本挖掘和信息集成與整合等五個(gè)部分[朱小燕,李嬌.生物學(xué)文獻(xiàn)挖掘[J].計(jì)算機(jī)教育,2006,9:11-15]。五部分的任務(wù)各不相同,前面問(wèn)題的解決構(gòu)成了后面部分研究與發(fā)展的基礎(chǔ)。就目前研究現(xiàn)狀而言,從信息檢索到信息集成與整合,方法研究的成熟度依次遞減,而知識(shí)挖掘發(fā)現(xiàn)的潛力卻依次遞增。生命科學(xué)領(lǐng)域的文本挖掘和信息集成整合則依賴于對(duì)本領(lǐng)域知識(shí)的理解和應(yīng)用,更依賴于從科學(xué)文獻(xiàn)中挖掘出未知的生命科學(xué)知識(shí)的新理論和新方法。目前,生命科學(xué)研究中的蛋白質(zhì)知識(shí)是文獻(xiàn)數(shù)據(jù)庫(kù)中挖掘和發(fā)現(xiàn)的重點(diǎn)領(lǐng)域之一。世界上不少發(fā)達(dá)國(guó)家均已借助數(shù)據(jù)挖掘和信息整合技術(shù)對(duì)英文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)進(jìn)行了大量蛋白質(zhì)的相關(guān)知識(shí)挖掘發(fā)現(xiàn)研究,實(shí)現(xiàn)了英文文獻(xiàn)中蛋白質(zhì)的挖掘發(fā)現(xiàn),為專業(yè)研究人員提供了方便獲取蛋白質(zhì)知識(shí)及潛在知識(shí)的新方法新途徑。然而,這些蛋白質(zhì)知識(shí)的挖掘方法和途徑還無(wú)法在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn)。因此,如何在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn),則是現(xiàn)有技術(shù)方法和途徑中有待解決的問(wèn)題。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于解決上述問(wèn)題,提供了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。本發(fā)明的另一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置。本發(fā)明的又一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)。本發(fā)明的技術(shù)方案為本發(fā)明揭示了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,包括步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù);步驟二 以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注;步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù);步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽(yáng)性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,中文文獻(xiàn)數(shù)據(jù)庫(kù)是中國(guó)生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(kù)和中國(guó)生物學(xué)文摘數(shù)據(jù)倉(cāng)庫(kù),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過(guò)程包括從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成, 通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的英文版文本挖掘工具字典;抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過(guò)歸并處理后得到英文版的字典工具數(shù)據(jù)表;對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語(yǔ)文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫(kù)與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,包括數(shù)據(jù)庫(kù)構(gòu)建模塊,構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù);文本挖掘工具字典處理模塊,以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)控制詞表進(jìn)行 --對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注;中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù)生成模塊,根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù);結(jié)果修正模塊,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽(yáng)性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例,中文文獻(xiàn)數(shù)據(jù)庫(kù)是中國(guó)生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(kù)和中國(guó)生物學(xué)文摘數(shù)據(jù)倉(cāng)庫(kù),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘 和發(fā)現(xiàn)的裝置的一實(shí)施例,文本挖掘工具字典處理模塊包括英文版文本挖掘工具字典整理模塊,從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的英文版文本挖掘工具字典;英文版字典工具數(shù)據(jù)表整理模塊,抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過(guò)歸并處理后得到英文版的字典工具數(shù)據(jù)表;
      雙語(yǔ)文本挖掘工具字典整理模塊,對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語(yǔ)文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫(kù)與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、用戶終端,其中應(yīng)用程序服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則;數(shù)據(jù)庫(kù)服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)、中文文獻(xiàn)數(shù)據(jù)庫(kù)、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫(kù);數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫(kù)服務(wù)器中的文本挖掘工具字典, 對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)進(jìn)行知識(shí)挖掘的標(biāo)引而得到,存放經(jīng)過(guò)知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉(cāng)庫(kù);用戶終端,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的一實(shí)施例,該系統(tǒng)還包括Web服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器和用戶終端,將數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器中的數(shù)據(jù)倉(cāng)庫(kù)鏡像到Web服務(wù)器,通過(guò)Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明的技術(shù)特點(diǎn)是構(gòu)建好含有豐富蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù),以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中出現(xiàn)的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰, 根據(jù)國(guó)外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議可將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息。并最終生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù),最后去除數(shù)據(jù)挖掘和信息整合結(jié)果中的“非法”信息 (去除假陽(yáng)性蛋白質(zhì)挖掘結(jié)果)和修改中文文獻(xiàn)文本挖掘結(jié)果。對(duì)比現(xiàn)有技術(shù),本發(fā)明具有如下的優(yōu)點(diǎn)①通過(guò)文本挖掘工具字典的控制,可實(shí)現(xiàn)中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)的深度挖掘和發(fā)現(xiàn)。②通過(guò)挖掘信息的分析和統(tǒng)計(jì),可實(shí)現(xiàn)智能化的蛋白質(zhì)相關(guān)知識(shí)發(fā)現(xiàn)。③通過(guò)關(guān)鍵詞標(biāo)引,可實(shí)現(xiàn)由人工控制的類自然語(yǔ)言檢索。④具有較高的陽(yáng)性挖掘率。⑤基于B/S結(jié)構(gòu)的知識(shí)庫(kù)系統(tǒng)設(shè)計(jì),可保證系統(tǒng)高安全性。


      圖I示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程圖。圖2示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向示意圖。
      圖3示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的實(shí)施例的原理圖。圖4示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的實(shí)施例的硬件結(jié)構(gòu)框圖。
      具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例圖I示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程。圖2示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向。請(qǐng)參見(jiàn)圖I和圖2,下面是對(duì)本實(shí)施例的方法的各個(gè)步驟的詳細(xì)描述。步驟SlO :構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)。中文文獻(xiàn)數(shù)據(jù)庫(kù)是中國(guó)生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(kù)(CBA基礎(chǔ)數(shù)據(jù)庫(kù),Chinese Biological Abstract基礎(chǔ)數(shù)據(jù)庫(kù))和中國(guó)生物學(xué)文摘數(shù)據(jù)倉(cāng)庫(kù)(CBA數(shù)據(jù)倉(cāng)庫(kù)),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)是歐洲生物信息學(xué)研究所(EBI)構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)(Uniprot數(shù)據(jù)庫(kù), United protein,聯(lián)合蛋白質(zhì))。步驟S12 :以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注。這一步驟可以細(xì)分為第一步從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出UniProt蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的英文版文本挖掘工具字典。UniProt蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)實(shí)例為〈entry version = " 85 " modified = " 2008-12-16 " dataset ="Swiss-Prot" created =" 1986-07-21" ><accession>P00888</accession〉〈accession>Q4706I〈/accession〉<name>AR0F_EC0LI</name>〈protein〉<recommendedName ref = " I" ><fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase, Tyr-sensitive</fulIName></recommendedName>
      <alternativeName><fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fulIName></alternativeName>
      <alternativeName><fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</ fullName></alternativeName>
      <alternativeName><fullName>DAHP synthetase</fulIName></alternativeName>〈/protein〉<gene>〈name type=" primary" >aroF</name>〈name type=" ordered locus" >b2601</name>〈name type=" ordered locus" >JW2582</name></gene>〈organism key=" 2" >〈name type=" scientific" >Escherichia coli (strain K12) </name>〈dbReference type=" NCBI Taxonomy!f key=" 3" id=" 83333" />〈lineage〉<taxon>Bacteria</taxon><taxon>Proteobacteria</taxon><taxon>Gammaproteobacteria</taxon><taxon>Enterobacteriales</taxon><taxon>Enterobacteriaceae</taxon><taxon>Escherichia</taxon>〈/lineage〉</organism)第二步抽取英文版文本挖掘工具字典中的序列號(hào)(Accession號(hào))、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過(guò)歸并處理后得到英文版的字典工具數(shù)據(jù)表。文本挖掘工具字典部分實(shí)例如下表
      權(quán)利要求
      1.一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,包括 步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù); 步驟二 以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注; 步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù); 步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽(yáng)性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
      2.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,中文文獻(xiàn)數(shù)據(jù)庫(kù)是中國(guó)生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(kù)和中國(guó)生物學(xué)文摘數(shù)據(jù)倉(cāng)庫(kù),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)。
      3.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過(guò)程包括 從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的英文版文本挖掘工具字典; 抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過(guò)歸并處理后得到英文版的字典工具數(shù)據(jù)表; 對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語(yǔ)文本挖掘工具字典。
      4.根據(jù)權(quán)利要求3所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫(kù)與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
      5.一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,包括 數(shù)據(jù)庫(kù)構(gòu)建模塊,構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫(kù)和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù); 文本挖掘工具字典處理模塊,以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注; 中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù)生成模塊,根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù); 結(jié)果修正模塊,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽(yáng)性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
      6.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,中文文獻(xiàn)數(shù)據(jù)庫(kù)是中國(guó)生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(kù)和中國(guó)生物學(xué)文摘數(shù)據(jù)倉(cāng)庫(kù),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(kù)。
      7.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,文本挖掘工具字典處理模塊包括 英文版文本挖掘工具字典整理模塊,從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)中的英文版文本挖掘工具字典; 英文版字典工具數(shù)據(jù)表整理模塊,抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過(guò)歸并處理后得到英文版的字典工具數(shù)據(jù)表; 雙語(yǔ)文本挖掘工具字典整理模塊,對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語(yǔ)文本挖掘工具字典。
      8.根據(jù)權(quán)利要求7所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫(kù)與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
      9.一種中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、用戶終端,其中 應(yīng)用程序服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則; 數(shù)據(jù)庫(kù)服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)、中文文獻(xiàn)數(shù)據(jù)庫(kù)、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫(kù); 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫(kù)服務(wù)器中的文本挖掘工具字典,對(duì)中文文獻(xiàn)數(shù)據(jù)庫(kù)進(jìn)行知識(shí)挖掘的標(biāo)引而得到,存放經(jīng)過(guò)知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉(cāng)庫(kù); 用戶終端,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
      10.根據(jù)權(quán)利要求9所述的中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),其特征在于,該系統(tǒng)還包括 Web服務(wù)器,耦接數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器和用戶終端,將數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器中的數(shù)據(jù)倉(cāng)庫(kù)鏡像到Web服務(wù)器,通過(guò)Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
      全文摘要
      本發(fā)明公開(kāi)了中文文獻(xiàn)數(shù)據(jù)庫(kù)的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng),可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。其技術(shù)方案為方法包括構(gòu)建中文文獻(xiàn)數(shù)據(jù)庫(kù)和科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù);以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫(kù)中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰;根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫(kù)提供的協(xié)議將訪問(wèn)號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù);去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽(yáng)性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
      文檔編號(hào)G06F17/30GK102622346SQ20111002806
      公開(kāi)日2012年8月1日 申請(qǐng)日期2011年1月26日 優(yōu)先權(quán)日2011年1月26日
      發(fā)明者孫繼林, 張永娟, 湯江, 趙 衍, 陳恒, 陳成材 申請(qǐng)人:上海外國(guó)語(yǔ)大學(xué), 中國(guó)科學(xué)院上海生命科學(xué)研究院
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1