專利名稱:識別結(jié)構(gòu)上或功能上重要的氨基酸序列的系統(tǒng)和方法
技術領域:
本發(fā)明涉及藥物研發(fā)領域,更特別地是,涉及識別結(jié)構(gòu)上或功能上重要的氨基酸序列的系統(tǒng)和方法。
背景技術:
病原菌是可感染寄助物并因此導致疾病或生病的細菌??墒褂迷O計用來導向和殺死某些病原菌的抗生素藥物來治療帶有病原菌的感染。最近數(shù)年已經(jīng)發(fā)現(xiàn),在公共場合出現(xiàn)了增長數(shù)量的抗生素抗性病原菌株。在該同一期限內(nèi),新抗生素藥物的引入已經(jīng)減少。因而,需要導向該增長數(shù)量的病原菌的新抗生素藥物,并因此需要研發(fā)這樣藥物的新的研究策略。發(fā)明概述本發(fā)明各個方面體現(xiàn)在用來識別由基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列的系統(tǒng)、方法和計算機可讀存儲介質(zhì)。可識別至少一個由基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列,通過為由該基因組編碼的多個氨基酸字符中每一個編譯觀察頻率, 使用計算機為由該基因組編碼的多個氨基酸字符中每一個計算期望頻率,并至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列。依照本發(fā)明的另一方面,可導向在病原體蛋白質(zhì)中的結(jié)構(gòu)上或功能上重要的氨基酸序列,通過為由該病原體基因組編碼的多個氨基酸字符中每一個編譯觀察頻率,使用計算機為由該病原體基因組編碼的多個氨基酸字符中每一個計算期望頻率,至少部分地基于由該病原體基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該病原體基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列,并研發(fā)一種藥物,配置用來與該至少一個由該病原體基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列進行相互作用。
當結(jié)合該附圖進行閱讀時,從下列具體說明處對本發(fā)明進行了最佳理解。包括在該附圖中的是下列圖圖1是依照本發(fā)明一方面描繪了識別由基因組編碼的重要氨基酸序列的示范系統(tǒng)的方框圖;圖2是依照本發(fā)明一方面提供識別用于研發(fā)抗生素藥物中的由基因組編碼的重要氨基酸序列的概述的示范步驟的流程圖3是依照本發(fā)明一方面用于識別由基因組編碼的重要氨基酸序列的示范步驟的流程圖;圖4是依照本發(fā)明一方面用于輸出基因組字符字典的示范步驟的流程圖;圖5是依照本發(fā)明一方面用于確定氨基酸序列的選擇得分的示例;圖6A是依照本發(fā)明一方面描述了在基因組的觀察和期望字符數(shù)之間殘余距離的示范圖;圖6B是依照本發(fā)明一方面描述了在基因組的觀察和期望字符數(shù)之間殘余距離的另一示范圖;圖7是依照本發(fā)明一方面描繪了由基因組編碼的氨基酸序列的選擇得分的示范表。發(fā)明詳述圖1依照本發(fā)明一方面描繪了識別來自有機體基因組處由該核酸序列所編碼的結(jié)構(gòu)上或功能上重要氨基酸序列的示范系統(tǒng)100。該基因組可來自例如細菌的人類病原體。 該結(jié)構(gòu)上或功能上重要氨基酸序列可表現(xiàn)為可能對抗生素藥物導向脆弱的細菌蛋白質(zhì)上的功能部位。該導向的病原菌可包括任意細菌性病原體,例如包括下列種類艱難梭菌菌株 630,志賀氏菌屬痢疾桿菌,幽門螺旋桿菌菌株HPAG1,白喉棒狀桿菌,腦膜炎奈瑟氏菌菌株 FAM18和立克次氏體傷寒菌株Wilmington。如此處所用的一樣,細菌的基因組指的是該細菌的完全基因序列。每一個基因組包括編碼各種多肽序列的多個基因。由該基因組編碼的該多肽序列的一些包括蛋白質(zhì)序列。由該基因組編碼的每一個蛋白質(zhì)序列由氨基酸序列組成。如一般概述一樣,系統(tǒng)100包括一個或多個輸入裝置102,數(shù)據(jù)處理器104,數(shù)據(jù)存儲裝置106和一個或多個輸入裝置108。系統(tǒng)100可以可選地包括外部處理系統(tǒng)110。以下提供了系統(tǒng)100的附加細節(jié)。輸入裝置102耦合到數(shù)據(jù)處理器104并可被用于將來自用戶或電子裝置的電子數(shù)據(jù)提供給數(shù)據(jù)處理器104。在一示范性實施方案中,該電子數(shù)據(jù)可包括與一個或多個基因組相關的數(shù)據(jù)。在另一個示范性實施方案中,該電子數(shù)據(jù)可包括在由該基因組編碼的蛋白質(zhì)序列中每一個氨基酸字符的觀察頻率。另外,可將輸入裝置102用于將用戶指令提供給數(shù)據(jù)處理器104。輸入裝置102可包括服務器、數(shù)據(jù)庫、鍵盤和/或能夠?qū)㈦娮訑?shù)據(jù)提供給數(shù)據(jù)處理器的其他計算機外圍裝置。數(shù)據(jù)處理器104接收來自輸入裝置102處的電子數(shù)據(jù)并處理該電子數(shù)據(jù)。數(shù)據(jù)處理器104可將接收到的電子數(shù)據(jù)或處理過的電子數(shù)據(jù)存入數(shù)據(jù)存儲裝置106(以下說明)。 在一示范性實施方案中,數(shù)據(jù)處理器104接收到包括與一個或多個基因組相關數(shù)據(jù)的電子數(shù)據(jù)。在另一示范性實施方案中,數(shù)據(jù)處理器104接收到包括在由基因組編碼的蛋白質(zhì)序列中每一個氨基酸字符的觀察頻率的電子數(shù)據(jù)。配置數(shù)據(jù)處理器104以處理電子數(shù)據(jù)。數(shù)據(jù)處理器104可將該電子數(shù)據(jù)轉(zhuǎn)換成另一種格式。在一示范性實施方案中,該轉(zhuǎn)換后的電子數(shù)據(jù)可包括用于基因組的氨基酸字符字典。在另一示范性實施方案中,該轉(zhuǎn)換后的電子數(shù)據(jù)可包括用于基因組的一個或多個選擇得分(以下說明)??蓪⒃撧D(zhuǎn)換后的電子數(shù)據(jù)存入數(shù)據(jù)存儲裝置106(以下說明),或發(fā)送到輸出裝置108(以下說明)。
數(shù)據(jù)存儲裝置106存儲了來自數(shù)據(jù)處理器104處接收到的電子數(shù)據(jù)。在一示范性實施方案中,數(shù)據(jù)處理器104可將包括與一個或多個基因組相關數(shù)據(jù)的電子數(shù)據(jù)存儲在數(shù)據(jù)存儲裝置106上。在另一示范性實施方案中,數(shù)據(jù)處理器104可將包括用于一個或多個基因組的一個或多個氨基酸字符字典的電子數(shù)據(jù)存儲在數(shù)據(jù)存儲裝置106上。在又一示范性實施方案中,數(shù)據(jù)處理器104可將包括用于一個或多個基因組的一個或多個選擇得分的電子數(shù)據(jù)存儲在數(shù)據(jù)存儲裝置106上。數(shù)據(jù)處理器104可訪問存儲在數(shù)據(jù)存儲裝置106上的電子數(shù)據(jù)。本領域技術人員從此處說明書處將理解用于本發(fā)明的合適的數(shù)據(jù)存儲裝置。包括用于本發(fā)明的合適處理器和數(shù)據(jù)存儲裝置的示范性系統(tǒng)包括Sim微系統(tǒng) SunFire V60x 群,特色 128 雙處理器 2. 8GHx Xeon CPU,7 個四處理器 Sunf ire X4100M2 節(jié)點,48節(jié)點Myrinet Switch,160GB存儲器和在兆兆字節(jié)磁盤存儲器上。本領域技術人員從此處說明書處將理解其他合適的數(shù)據(jù)處理器和數(shù)據(jù)存儲裝置。輸出裝置108耦合數(shù)據(jù)處理器104并可被用來將從輸出處理器104處接收到的電子數(shù)據(jù)展現(xiàn)給用戶。在一示范性實施方案中,該電子數(shù)據(jù)可包括用于一個或多個基因組的一個或多個氨基酸字符字典。在另一示范性實施方案中,該電子數(shù)據(jù)可包括用于一個或多個基因組的一個或多個選擇得分。輸出裝置108可包括計算機顯示器、打印機或能夠生成到來自接收到電子數(shù)據(jù)處用戶的輸出的其他計算機外圍裝置。配置可選外部處理系統(tǒng)110來與數(shù)據(jù)處理器104交換電子數(shù)據(jù)并可實施由數(shù)據(jù)處理器104所實施的一個或多個功能。另外,外部處理系統(tǒng)110可將電子數(shù)據(jù)提供給數(shù)據(jù)處理器104用于進一步處理。本領域技術人員從此處說明書處將理解用于本發(fā)明的合適的外部處理系統(tǒng)。圖2是依照本發(fā)明一方面識別用于研發(fā)抗生素藥物中的由細菌基因組編碼的蛋白質(zhì)序列中重要氨基酸序列的示范步驟的流程圖200。為了便于說明,參照圖1的系統(tǒng)組件對圖2的步驟進行描述。如此處參考的一樣,使用數(shù)據(jù)處理器104的任意步驟可替代外部處理系統(tǒng)110以實施該必須處理功能的所有或部分。本領域技術人員從此處說明書處將理解到,可省略一個或多個步驟和/或可利用不同組件而不背離本發(fā)明的范圍。在步驟202中,編譯了由基因組編碼的蛋白質(zhì)序列中的氨基酸字符的觀察頻率。 在示范性實施方案中,數(shù)據(jù)處理器104從輸出裝置102處接收到與基因組相關的數(shù)據(jù)。數(shù)據(jù)處理器104隨后可計算每一個氨基酸字符發(fā)生在由該基因組編碼的每一個蛋白質(zhì)序列中的次數(shù)數(shù)量,并為每一個氨基酸字符編譯觀察頻率列表??蓪⒃摪被嶙址挠^察頻率列表存入數(shù)據(jù)存儲裝置106中。在步驟204中,計算了在由基因組編碼的每一個蛋白質(zhì)序列中的氨基酸字符的期望頻率,如使用通用或?qū)S糜嬎銠C??芍辽俨糠值鼗谠诓襟E202中編譯的觀察氨基酸字符頻率列表來計算每一個氨基酸字符的期望頻率。在示范性實施方案中,數(shù)據(jù)處理器104 基于組成該氨基酸字符的兩個或更多氨基酸子字符的觀察頻率來計算氨基酸字符的期望頻率。如此處使用的一樣,氨基酸子字符是發(fā)生在另一個氨基酸字符內(nèi)的氨基酸字符。隨后數(shù)據(jù)處理器10410可為每一個氨基酸字符編譯期望頻率列表。該氨基酸字符的期望頻率列表隨后可被存入數(shù)據(jù)存儲裝置106中。在步驟206中,識別了結(jié)構(gòu)上或功能上重要的氨基酸序列。可至少部分地基于在步驟202和204中編譯的觀察和期望的氨基酸字符頻率來識別該結(jié)構(gòu)上或功能上重要的氨基酸序列。在示范性實施方案中,數(shù)據(jù)處理器104為在由該基因組編碼的每一個蛋白質(zhì)序列中每一個氨基酸序列生成選擇得分,基于在該序列中每一個氨基酸的期望和觀察字符頻率之間的差別。對應于氨基酸序列的最大選擇得分在由該基因組編碼的所有蛋白質(zhì)序列中比從其期望頻率處所期望的發(fā)生地更頻繁,這指出其對該細菌結(jié)構(gòu)上或功能上重要。該結(jié)構(gòu)上或功能上重要的氨基酸序列的識別可能另外地基于在由該基因組(如, 病原菌的基因組)所編碼的蛋白質(zhì)序列中的氨基酸字符頻率與在由相關基因組(如與該病原菌相關的非病原菌的基因組)所編碼的蛋白組序列中氨基酸字符頻率的比較。依照本實施方案,在該病原性基因組和該非病原性基因組的氨基酸頻率之間的差別可用來識別對該病原菌而不是對該非病原菌重要的氨基酸字符,如具有在該病原菌中比在該非病原菌中更高頻率的氨基酸字符。這可能進一步提供在病原體基因組上自然選擇的不同效果相關的信息,對比于在非病原體基因組上自然選擇的效果。在步驟208中,存儲和/或展現(xiàn)該結(jié)構(gòu)上或功能上重要的氨基酸序列。在一示范性實施方案中,可將用于一個或多個機構(gòu)上或功能上重要氨基酸序列的選擇得分存入數(shù)據(jù)存儲器裝置106。在另一示范性實施方案中,數(shù)據(jù)處理器104可能將電子數(shù)據(jù)傳送給輸出裝置108。該電子數(shù)據(jù)可能包括用于在該基因組中一個或多個機構(gòu)上或功能上重要氨基酸序列的選擇得分。隨后輸出裝置108可將該選擇得分展現(xiàn)給用戶,例如,通過在監(jiān)視器上展現(xiàn)或在紙上打印的指示用于該一個或多個結(jié)構(gòu)上或功能上重要氨基酸序列的選擇得分的相比較高度的表或圖??蓪魉徒o輸出裝置108處的電子數(shù)據(jù)至少臨時地存入例如視頻緩沖器(未圖示)。識別病原體的一個或多個結(jié)構(gòu)上或功能上重要的氨基酸序列對于設計用來導向該病原體的機構(gòu)上或功能上重要的部分可能是有用的。然而,識別結(jié)構(gòu)上或功能上重要的氨基酸序列可能具有其他用處。這樣的用處可能包括識別基因機構(gòu)和組織的模式,識別在病原體中關鍵的基因/路徑,識別在環(huán)境基因組中的潛伏病原體基因,識別潛在的新的或緊急病原體疾病,或識別緊急病原體進化模式。本領域技術人員應當理解,在這些應用中, 可省略以下步驟210。在步驟210中,研發(fā)了一種抗生素藥物用來與該結(jié)構(gòu)上或功能上重要的氨基酸序列相互作用??膳渲迷摽股厮幬镆詫虿≡w的一個或多個結(jié)構(gòu)上或功能上重要的氨基酸序列。在示范性實施方案中,設計一種抗生素藥物以導向在病原體中具有高選擇得分的氨基酸序列。在進一步示范性實施方案中,設計一種抗生素藥物以導向在多個病原體中具有高選擇得分的氨基酸序列,以提高該藥物的有效性。本領域技術人員將了解用來導向所選氨基酸序列的藥物研發(fā)。圖3是依照本發(fā)明一方面用于識別在由基因組編碼的蛋白質(zhì)序列中重要氨基酸序列的示范步驟的流程圖300。為了便于說明,參照圖1的系統(tǒng)組件對圖3的步驟進行描述。如此處參照的一樣,使用了數(shù)據(jù)處理器104的任意步驟可替換外部處理系統(tǒng)110以實施該必須處理功能的全部或部分。本領域技術人員從此處說明書容易理解,可省略一個或多個步驟和/或可使用不同組件而不背離本發(fā)明的精神和范圍。在步驟302中,讀出基因組導向列表。在示范性實施方案中,數(shù)據(jù)處理器104從輸入裝置102處接收基因組導向列表。該基因組導向列表可包括由需要將為其創(chuàng)建氨基酸字符字典的用戶所識別出的一個或多個基因組。例如,進行與人類病原菌相關研究的用戶可識別出用于包括在該基因組導向列表中的特定劇毒病原體。在步驟304中,讀出了在該基因組導向列表上每一個基因組內(nèi)的蛋白質(zhì)序列。如上述一樣,每一個基因組對多個多肽序列編碼,其中多個序列是蛋白質(zhì)序列。在示范性實施方案中,數(shù)據(jù)處理器104可讀出基因組以確定其編碼了哪個蛋白質(zhì)序列以分別對每一個蛋白質(zhì)序列進行分析。在步驟306中,為每一個蛋白質(zhì)序列寫出字符列表。在示范性實施方案中,數(shù)據(jù)處理器104將每一個蛋白質(zhì)序列劃分成具有在一和十二個氨基酸長度之間的氨基酸字符,盡管考慮了其他長度。例如,已經(jīng)將本發(fā)明用于具有相對大基因組的病原體,例如真核生物的病原體(如,類似錐蟲屬(美洲錐蟲病)和瘧原蟲(瘧疾)的原生動物)。對于這些大基因組,可將該氨基酸字符字典擴展到M個氨基酸或更多,當具有足夠深度以提供相關信息時。數(shù)據(jù)處理器104可寫出包含了發(fā)生在該蛋白質(zhì)序列中的每一個氨基酸字符的列表,例如,寫到數(shù)據(jù)存儲裝置106。在步驟308中,編譯發(fā)生在每一個蛋白質(zhì)序列中的字符的列表。在示范性實施方案中,數(shù)據(jù)處理器104可編譯在由基因組編碼的蛋白質(zhì)序列中發(fā)生超過一次的每一個氨基酸字符的列表??蓪⒃摼幾g的氨基酸字符列表存入數(shù)據(jù)存儲裝置106。在步驟310中,將在該蛋白質(zhì)序列中每一個氨基酸字符的觀察頻率進行計算并寫入計算列表。在示范性實施方案中,數(shù)據(jù)處理器104可計算在該編譯列表中每一個氨基酸字符的觀察到的出現(xiàn)。數(shù)據(jù)處理器104可計算在由該基因組編碼的每一個蛋白質(zhì)序列中每一個氨基酸字符的頻率,通過由該蛋白質(zhì)序列或基因組中氨基酸數(shù)量除以觀察到的每一個氨基酸字符的出現(xiàn)數(shù)量。數(shù)據(jù)處理器104隨后可將包括每一個氨基酸字符的頻率的列表寫入該蛋白質(zhì)序列。可將包含該觀察到的氨基酸字符頻率的列表存入數(shù)據(jù)存儲裝置106。在步驟312中,計算了在每一個蛋白質(zhì)序列中每一個氨基酸字符的期望頻率。在示范性實施方案中,該在蛋白質(zhì)序列中每一個氨基酸字符的期望頻率可來自每一個氨基酸在在該蛋白質(zhì)序列中出現(xiàn)的概率。數(shù)據(jù)處理器104可計算該氨基酸字符的概率,基于組成該氨基酸字符的兩個或更多氨基酸子字符出現(xiàn)的概率。用來確定在該蛋白質(zhì)序列中氨基酸字符出現(xiàn)概率的示范性算法可參與計算來自在該蛋白質(zhì)序列中每一個氨基酸字符的觀察頻率處的概率。出現(xiàn)在該蛋白質(zhì)序列內(nèi)的1長度氨基酸字符(如單個氨基酸)的概率等于該氨基酸的頻率,即在該蛋白質(zhì)中氨基酸的總數(shù)除以在蛋白質(zhì)中該氨基酸出現(xiàn)數(shù)量。例如,如果該氨基酸“A”(用于丙胺酸)在100個氨基酸的蛋白質(zhì)中出現(xiàn)11次,則該1長度氨基酸字符P(A)的概率是11%。對于2長度氨基酸字符,可將該概率確定為由該第二個1長度氨基酸子字符的概率乘以該第一個1長度氨基酸子字符的概率后的一半。例如,如果P(A)是11%,以及P(L)(用于亮氨酸“L”的1 長度氨基酸字符)是8%,則ρ (AL)(對于2長度氨基酸字符“AL”)將等于0.11*0. 08的一半,或.44% (具有用于ρ (AL)的相同概率存在)。對于N長度氨基酸字符(其中N >2), 可基于1長度氨基酸子字符和(N-I)長度氨基酸子字符的概率來確定該概率。例如,該氨基酸字符“VALK”的出現(xiàn)概率可等于ρ (VAL) *p (K)和ρ (V) *p (ALK)的平均。使用該算法,數(shù)據(jù)處理器104可計算任意氨基酸字符出現(xiàn)的概率,基于該氨基酸字符的兩個或更多子字符的概率,可使用在每一個蛋白質(zhì)中氨基酸字符的觀察頻率的列表來獲得他。數(shù)據(jù)處理器104可計算在蛋白質(zhì)中氨基酸字符的期望頻率,通過將該氨基酸字符出現(xiàn)概率乘以在該蛋白質(zhì)中氨基酸的總數(shù)。可將在由該基因組編碼的每一個蛋白質(zhì)序列中每一個氨基酸字符的期望的氨基酸字符頻率存入數(shù)據(jù)存儲裝置106。在步驟314中,基因組字符字典被輸出,例如,存到數(shù)據(jù)存儲裝置106和/或發(fā)送到輸出裝置108。在示范性實施方案中,數(shù)據(jù)處理器104生成了用于每一個基因組的氨基酸字符字典。該氨基酸字符字典可包含在由該基因組編碼的每一個蛋白質(zhì)序列中每一個氨基酸字符的入口。該氨基酸字符的每一個入口可包括該字符的觀察頻率,期望頻率和/或在該觀察頻率和期望頻率之間的差別。在為每一個基因組生成了該氨基酸字符字典之后, 數(shù)據(jù)處理器104隨后可將該氨基酸字符字典存儲在數(shù)據(jù)存儲裝置106上用于后期訪問。另外,數(shù)據(jù)處理器104可將包括用于在該基因組中每一個氨基酸字符的氨基酸字符字典的電子數(shù)據(jù)發(fā)送給輸出裝置108。輸出裝置108隨后可將該氨基酸字符字典通過例如表或圖來展現(xiàn)給用戶。以下所述的圖4描繪了用于實施步驟314的示范步驟的流程圖。在步驟316中,讀出基因組導向列表。數(shù)據(jù)處理器104可接收到該來自輸入裝置 102處的基因組導向列表??捎捎脩羯稍摶蚪M導向列表。在示范性實施方案中,該基因組導向列表可以是在步驟302中讀出的同一基因組列表。在可替換的示范性實施方案中, 該基因組導向列表可以是包括已經(jīng)為其創(chuàng)建了氨基酸字符字典的基因組的列表,如上述步驟304-314中一樣。在步驟318中,讀出用于在該基因組導向列表上每一個基因組的氨基酸字符字典。在示范性實施方案中,數(shù)據(jù)處理器104訪問由數(shù)據(jù)存儲裝置106所存儲的氨基酸字符字典。隨后數(shù)據(jù)處理器104讀出用于在該基因組導向列表上每一個基因組的氨基酸字符字在步驟320中,讀出用于在該基因組導向列表中的每一個基因組的蛋白質(zhì)序列。 在示范性實施方案中,數(shù)據(jù)處理器104可讀出在該基因組導向列表上的每一個基因組來確定其編碼了哪個蛋白質(zhì)序列以分別分析每一個蛋白質(zhì)序列。在步驟322中,為每一個蛋白質(zhì)序列中氨基酸序列來確定氨基酸序列選擇得分。 在示范性實施方案中,數(shù)據(jù)處理器104計算氨基酸序列選擇得分,基于用于在該蛋白質(zhì)序列中每一個氨基酸字符的氨基酸字符字典。數(shù)據(jù)處理器104可將氨基酸選擇得分分配給出現(xiàn)在該蛋白質(zhì)序列中的每一個氨基酸。可計算該氨基酸選擇得分,通過合計用于包含該氨基酸的每4長度、5長度和6長度字符的觀察和期望頻率之際的距離。數(shù)據(jù)處理器104隨后可檢查在每一個蛋白質(zhì)中的所有13長度氨基酸序列。數(shù)據(jù)處理器104可為在由該基因組編碼的每一個蛋白質(zhì)序列中每一個13長度氨基酸序列來確定氨基酸序列選擇得分,通過合計包含在該氨基酸序列中的每一個氨基酸的氨基酸選擇得分??蓪⒃摪被徇x擇得分存入數(shù)據(jù)存儲裝置106。如下所述的圖5,描繪了用來進一步解釋在步驟322中選擇得分確定的示范性氨基酸序列。在步驟324中,確定了蛋白質(zhì)選擇得分。在示范性實施方案中,數(shù)據(jù)處理器104 可為由基因組編碼的每一個蛋白質(zhì)計算蛋白質(zhì)選擇得分,通過合計在該蛋白質(zhì)中每一個13 長度氨基酸序列的氨基酸序列選擇得分。可將該蛋白質(zhì)選擇得分存入數(shù)據(jù)存儲裝置106。在步驟326中,確定了基因組選擇得分。在示范性實施方案中,數(shù)據(jù)處理器104可為該基因組計算基因組選擇得分,通過合計由該基因組編碼的每一個蛋白質(zhì)序列的蛋白質(zhì)選擇得分??蓪⒃摶蚪M選擇得分存入數(shù)據(jù)存儲裝置106。
在步驟328中,輸出了基因組選擇得得分據(jù)庫。在一個示范性實施方案中,將該氨基酸序列選擇得分、該蛋白質(zhì)選擇得分和該基因組選擇得分存到數(shù)據(jù)存儲裝置106。在另一示范性實施方案中,數(shù)據(jù)處理器104將電子數(shù)據(jù)傳送到輸出裝置108。該電子數(shù)據(jù)可能包括該氨基酸序列選擇得分、該蛋白質(zhì)選擇得分和該基因組選擇得分。輸出裝置108隨后可將這些選擇得分展現(xiàn)給用戶,通過例如指示用于該一個或多個結(jié)構(gòu)上或功能上重要氨基酸序列的選擇得分的相比較高度的表或圖。圖7描繪了用來描繪一組氨基酸序列的選擇得分的示范性表,將如下所述。圖4是依照本發(fā)明一方面的用來輸出基因組字符字典的示范性步驟(步驟314 ; 圖3)的流程圖。在步驟402中,計算了在每一個氨基酸字符的觀察和期望頻率之間的距離。在示范性實施方案中,數(shù)據(jù)處理器104將在由該基因組編碼的每一個蛋白質(zhì)中每一個氨基酸字符的觀察頻率與在由該基因組編碼的每一個蛋白質(zhì)中每一個氨基酸字符的期望頻率進行比較。數(shù)據(jù)處理器104可使用標準歐幾里德距離計算以將點標繪在相對于該氨基酸字符的觀察和期望頻率的二維空間中。該二維可以是用于氨基酸字符的觀測頻率和期望頻率,具有對應于氨基酸字符的那些頻率的每一個已標繪點。該二維可能線性地或?qū)?shù)地變化。數(shù)據(jù)處理器104隨后可計算在該二維空間內(nèi)該已標繪點和假設1 1參考線之間的線性距離。該1 1參考線可對應于在該圖上的點,其中該觀察頻率等于該氨基酸字符的期望頻率。該計算的距離可能是在氨基酸字符的觀察對比于期望頻率點和該11參考線之間的垂直距離,以及可使用歐幾里德幾何來進行計算。在可替換示范性實施方案中,數(shù)據(jù)處理器104可計算在每一個氨基酸字符的觀察和期望頻率之間的距離,通過確定在該兩個頻率之間進行減法的差別??蓪⒃谠撚^察和期望頻率之間的計算的距離存入數(shù)據(jù)存儲裝置106。在步驟404中,為每一個基因組編譯氨基酸字符字典。在示范性實施方案中,數(shù)據(jù)處理器104為在由該基因組編碼的每一個蛋白質(zhì)序列中的每一個氨基酸字符來編譯氨基酸字符字典。該氨基酸字符字典可包括在由該基因組所便民的的每一個蛋白質(zhì)序列中的每一個氨基酸字符的入口。每一個入口可包括該氨基酸字符的觀察頻率、期望頻率和該兩個頻率之間的計算的距離。在步驟406中,存儲和/或展現(xiàn)每一個基因組的氨基酸字符字典。在一示范性實施方案中,可將每一個基因組的氨基酸字符字典存入數(shù)據(jù)存儲裝置106。在另一示范性實施方案中,數(shù)據(jù)處理器104可將電子數(shù)據(jù)傳送給輸出裝置108。該電子數(shù)據(jù)可包括每一個基因組的氨基酸字符字典。輸出裝置108隨后可將氨基酸字符字典展現(xiàn)給用戶,例如通過在監(jiān)視器上展現(xiàn)或在紙上打印的描繪在由基因組編碼的每一個蛋白質(zhì)序列中的每一個氨基酸字符的觀察和期望頻率之間的計算距離的表或圖??蓪魉徒o輸出裝置108的電子數(shù)據(jù)至少臨時地存入例如視頻緩沖器(未圖示)。以下所述的圖6,描繪了在由基因組編碼的每一個蛋白質(zhì)序列中每一個氨基酸字符的觀察和期望頻率之間的計算距離的示范圖,如下所述的一樣。圖5是用于解釋如流程圖300的步驟322中所述的氨基酸序列的氨基酸序列選擇得分的確定的示圖500,依照本發(fā)明的一方面。示圖500描繪了 12個氨基酸(氨基酸 502a-502i),五個氨基酸字符(氨基酸字符5(Ma-504e),和一個氨基酸序列(氨基酸序列
11506)。以下提供了用來確定選擇得分的附加細節(jié)??纱_定在蛋白質(zhì)序列中氨基酸序列的選擇得分,基于在該序列中每一個氨基酸的選擇得分。示圖500描繪了在蛋白質(zhì)序列中的氨基酸50h-502i的取樣序列。在示范性實施方案中,數(shù)據(jù)處理器104檢查在每一個蛋白質(zhì)序列中的每一個4長度、5長度和6長度氨基酸字符。示例500描繪了一系列4長度氨基酸字符5(Ma-504e。例如,氨基酸字符50 包括氨基酸50加-502(1 ;氨基酸字符504b包括氨基酸5(^b_502e ;等等。每一個氨基酸字符504a-5(Me具有在該字符的觀察和期望頻率之間的相應計算距離,如包含在該步驟314中生成的氨基酸字符字典中一樣。對于每一個已檢查的字符 5(Ma-504e,將該氨基酸字符的計算距離加到在該氨基酸字符中每一個氨基酸以為每一個氨基酸生成選擇得分。例如,假定氨基酸字符50 具有為5的計算距離;字符504b具有為6的計算距離;字符5(Mc具有為4的計算距離;字符504d具有為6的計算距離;以及字符5(Me具有為7的計算距離。在本實施例中,該氨基酸502d的選擇得分將是氨基酸字符 504a-504d的計算距離的合計,或21 (5+6+4+6);氨基酸50 的選擇得分將是氨基酸字符 504b-504e的計算距離的合計,或23 ¢+4+6+7)。在示范性實施方案中,數(shù)據(jù)處理器104為使用所有4長度蛋氨基字符(如 5(Ma-504e)、5長度氨基酸字符(未圖示)和6長度氨基酸字符(未圖示)的蛋白質(zhì)序列中的每一個氨基酸實施該合計。數(shù)據(jù)處理器104隨后可在該蛋白質(zhì)中檢查所有13長度的氨基酸序列。數(shù)據(jù)處理器104可為在由該基因組編碼的每一個蛋白質(zhì)序列中的每一個13長度氨基酸序列確定選擇得分,通過對包含在該氨基酸序列中的每一個氨基酸的選擇得分進行合計。例如,該13長度氨基酸序列506的選擇得分將是氨基酸502『50業(yè)選擇得分的總和。數(shù)據(jù)處理器104可將該氨基酸序列的選擇得分存入數(shù)據(jù)存儲裝置106。圖6A&6B描繪了圖602&604,其示出了依照本發(fā)明一方面的在兩個基因組觀察和期望氨基酸字符頻率之間的計算距離。圖602對應于該常見非病原菌E. coli菌株K12的氨基酸字符字典,圖604對應于該人類病原菌E. coli菌株0157的氨基酸字符字典。每一個圖包括大量數(shù)據(jù)點,每一個對應于在由該相應細菌的基因組編碼的蛋白質(zhì)序列中出現(xiàn)的氨基酸字符。每一個圖進一步包括線606,對應于其中在由該基因組編碼的蛋白質(zhì)序列中每一個氨基酸字符的觀察和期望頻率相同的點。例如,落在線606右邊的點對應于具有觀察頻率大于他們期望頻率的氨基酸字符;落在線606左邊的點對應于具有觀察頻率小于他們期
望頻率的氨基酸字符。在兩個圖上的區(qū)域608表示在每一個圖上的示范位置,其中氨基酸字符具有比將期望的基本上較高的觀察頻率。包含落在區(qū)域608內(nèi)的氨基酸字符的氨基酸序列是具有高選擇得分的序列,如上所述。相應地,包含落在圖602的區(qū)域608內(nèi)的氨基酸字符的氨基酸序列可能是對于E. coli菌株K12細菌結(jié)構(gòu)上或功能上重要,包含落在圖604的區(qū)域608內(nèi)的氨基酸字符的氨基酸序列可能是對于E. coli菌株0157細菌結(jié)構(gòu)上或功能上重要。進一步地,圖602和604的比較可驗證了在非病原菌E. coli菌株K12和病原菌 E. coli菌株0157的基因組中的差別。例如,如果落在圖604的區(qū)域608內(nèi)、但未落在圖602 的區(qū)域608內(nèi)的氨基酸字符,其可能指出包含該氨基酸字符的氨基酸序列對該病原菌而不是該非病原菌是結(jié)構(gòu)上或功能上重要的。該比較可進一步提供在病原體基因組上自然選擇的不同效果相關的信息,對比于在非病原體基因組上自然選擇的效果。圖7依照本發(fā)明一方面描繪了示出由基因組編碼的蛋白質(zhì)序列中的氨基酸序列的選擇得分的示范表700。具體地,表700描繪了由艱難梭菌菌株630基因組編碼的蛋白質(zhì)序列YP-001086696的13長度氨基酸序列選擇得分。峰值702對應于比較這些氨基酸序列其他部分具有高選擇得分的13長度氨基酸序列,如上所計算的一樣。在該蛋白質(zhì)序列中最高氨基酸序列選擇得分對應于該13長度氨基酸序列“KLNKNVDEKLDIY”。相應地,該氨基酸序列可能是對于該蛋白質(zhì)序列結(jié)構(gòu)上或功能上重要,以及可能是用于抗生素藥物導向的好的結(jié)構(gòu),如上所述。可將如上所述的一個或多個步驟實現(xiàn)為存儲在計算機可讀存儲介質(zhì)上的計算機可執(zhí)行指令。例如,該計算機可讀存儲介質(zhì)實際上可以是能夠存儲指令用來由通用或?qū)S糜嬎銠C實施的任意實體存儲介質(zhì),如光盤、磁盤或固態(tài)裝置。盡管此處參照具體實施方案對本發(fā)明進行了說明和描述,不準備將本發(fā)明限定為所示的這些細節(jié)。相反,可在權利要求等同物的范圍和幅度內(nèi)而不背離本發(fā)明的細節(jié)中作出各種修改。
權利要求
1.一種計算機實施的識別由基因組編碼的至少一個重要氨基酸序列的方法,包括下列步驟為由該基因組編碼的多個氨基酸字符中每一個編譯觀察頻率; 使用計算機為由該基因組編碼的多個氨基酸字符中每一個計算期望頻率;和至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該基因組編碼的重要的氨基酸序列。
2.如權利要求1所述的方法,其中識別至少一個重要的氨基酸序列的步驟包括 至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率之間的差別來確定由該基因組編碼的至少一個氨基酸序列的選擇得分,該選擇得分對應于該至少一個氨基酸序列的結(jié)構(gòu)上的重要性;和基于該氨基酸序列的選擇得分識別至少一個重要的氨基酸序列。
3.如權利要求1所述的方法,其中使用計算機計算期望頻率的步驟包括使用計算機至少部分地基于由該基因組編碼的多個氨基酸字符中至少一個的觀察頻率來計算由該基因組編碼的多個氨基酸字符中每一個的期望頻率。
4.如權利要求1所述的方法,其中使用計算機計算出現(xiàn)的期望數(shù)量的步驟包括 使用計算機至少部分地基于由該基因組編碼的多個氨基酸字符中每一個內(nèi)發(fā)生的兩個或更多氨基酸子字符的觀察頻率來計算由該基因組編碼的多個氨基酸字符中每一個的期望頻率。
5.如權利要求1所述的方法,其中該多個氨基酸字符包括具有從一到十二個氨基酸的氨基酸字符。
6.如權利要求1所述的方法,其中該至少一個重要的氨基酸序列包括至少一個具有十三個氨基酸的重要氨基酸序列。
7.如權利要求2所述的方法,進一步包括步驟 為由該基因組編碼的每一個氨基酸序列編譯選擇得分。
8.如權利要求7所述的方法,進一步包括步驟基于在該至少一個蛋白質(zhì)序列內(nèi)發(fā)生的每一個氨基酸序列的選擇得分來計算由該基因組編碼的至少一個蛋白質(zhì)序列的蛋白質(zhì)選擇得分。
9.如權利要求8所述的方法,進一步包括步驟基于由該基因組編碼的每一個蛋白質(zhì)序列的選擇得分來計算用于該基因組的基因組選擇得分。
10.如權利要求1所述的方法,其中使用計算機計算期望頻率的步驟包括使用計算機將由該基因組解碼的多個氨基酸字符中每一個的觀察頻率轉(zhuǎn)換成由該基因組解碼的多個氨基酸字符中每一個的期望頻率。
11.如權利要求1所述的方法,其中識別該至少一個重要的氨基酸序列的步驟包括 將由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率轉(zhuǎn)換成由該基因組編碼的至少一個氨基酸序列的選擇得分,該選擇得分對應于該至少一個氨基酸序列的結(jié)構(gòu)上的重要性。
12.如權利要求1所述的方法,其中識別該至少一個重要的氨基酸序列的步驟包括 至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率以及由該基因組編碼和由相關基因組編碼的多個氨基酸字符中至少一個之間的觀察頻率差別, 識別由該基因組編碼的至少一個重要的氨基酸序列。
13.如權利要求12所述的方法,其中該基因組是病原性基因組,并且該相關基因組是非病原性基因組。
14.如權利要求1所述的方法,其中該至少一個重要的氨基酸序列包括至少一個結(jié)構(gòu)上重要的氨基酸序列。
15.如權利要求1所述的方法,其中該至少一個重要的氨基酸序列包括至少一個功能上重要的氨基酸序列。
16.一種導向在病原體蛋白質(zhì)中至少一個重要的氨基酸序列的方法,包括步驟 為由該病原體基因組編碼的多個氨基酸字符中每一個編譯觀察頻率;使用計算機為由該病原體基因組編碼的多個氨基酸字符中每一個計算期望頻率; 至少部分地基于由該病原體基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該病原體基因組編碼的重要的氨基酸序列;和研發(fā)藥物,所述藥物配置用來與由該病原體基因組編碼的至少一個重要的氨基酸序列相互作用。
17.如權利要求16所述的方法,其中識別至少一個重要的氨基酸序列的步驟包括 至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率之間的差別來確定由該基因組編碼的至少一個氨基酸序列的選擇得分,該選擇得分對應于該至少一個氨基酸序列的結(jié)構(gòu)上的重要性;和基于該氨基酸序列的選擇得分識別至少一個重要的氨基酸序列。
18.如權利要求17所述的方法,其中研發(fā)藥物的步驟包括研發(fā)一種藥物,配置用來與由該病原體基因組編碼的至少一個重要的氨基酸序列相互作用,至少部分地基于由該病原體基因組編碼的至少一個重要的氨基酸序列的選擇得分。
19.如權利要求17所述的方法,其中研發(fā)藥物的步驟包括研發(fā)一種藥物,配置用來與由該病原體基因組編碼的至少一個重要的氨基酸序列相互作用,至少部分地基于由另一種基因組編碼的至少一個重要的氨基酸序列的另一選擇得分。
20.如權利要求16所述的方法,其中該至少一個重要的氨基酸序列包括至少一個結(jié)構(gòu)上重要的氨基酸序列。
21.如權利要求16所述的方法,其中該至少一個重要的氨基酸序列包括至少一個功能上重要的氨基酸序列。
22.如權利要求16所述的方法,其中識別該至少一個重要的氨基酸序列的步驟包括 至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率以及由該基因組編碼和由相關基因組編碼的多個氨基酸字符中至少一個之間的觀察頻率差別, 識別由該基因組編碼的至少一個重要的氨基酸序列。
23.如權利要求22所述的方法,其中該相關基因組是非病原性基因組。
24.一種在基因組中識別至少一個重要氨基酸序列的系統(tǒng),該系統(tǒng)包括 用來為由該基因組編碼的多個氨基酸字符中每一個編譯觀察頻率的裝置;用來使用計算機為由該基因組編碼的多個氨基酸字符中每一個計算期望頻率的裝置;和用來至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該基因組編碼的重要的氨基酸序列的裝置。
25.如權利要求M所述的系統(tǒng),其中該識別裝置包括裝置,所述裝置用來至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率以及由該基因組編碼和由相關基因組編碼的多個氨基酸字符中至少一個之間的觀察頻率差別,識別由該基因組編碼的至少一個重要的氨基酸序列。
26.一種計算機可讀介質(zhì),其以指令編碼用來由計算機執(zhí)行以實施在基因組中識別至少一個重要氨基酸的方法,該方法包括步驟為由該基因組編碼的多個氨基酸字符中每一個編譯觀察頻率;為由該基因組編碼的多個氨基酸字符中每一個計算期望頻率;和從由該基因組編碼的多個氨基酸序列中每一個的觀察和期望頻率處識別至少一個由該基因組編碼的重要的氨基酸序列。
27.如權利要求沈所述的計算機可讀介質(zhì),其中識別該至少一個重要氨基酸序列的步驟包括至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率以及由該基因組編碼和由相關基因組編碼的多個氨基酸字符中至少一個之間的觀察頻率差別, 識別由該基因組編碼的至少一個重要的氨基酸序列。
全文摘要
公開了用來識別由基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列的方法和計算機可讀存儲介質(zhì)。可識別至少一個由基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列,通過為由該基因組編碼的多個氨基酸字符中每一個編譯觀察頻率,使用計算機為由該基因組編碼的多個氨基酸字符中每一個計算期望頻率,并至少部分地基于由該基因組編碼的多個氨基酸字符中每一個的觀察和期望頻率來識別至少一個由該基因組編碼的結(jié)構(gòu)上或功能上重要的氨基酸序列。
文檔編號G06F17/30GK102439591SQ201080009413
公開日2012年5月2日 申請日期2010年2月18日 優(yōu)先權日2009年2月25日
發(fā)明者A·G·瑪什, J·J·格雷澤姆斯基 申請人:內(nèi)華達高等教育系統(tǒng)董事會代表荒原研究所, 特拉華大學