本發(fā)明涉及生物學(xué)領(lǐng)域,特別地,涉及群體遺傳學(xué)領(lǐng)域,更特別地,本發(fā)明涉及一種確定群體中受到選擇作用的位點的方法和一種確定群體中受到選擇作用的位點的裝置。
背景技術(shù):
:隨著二代測序(nextgenerationsequencing,NGS)技術(shù)的成熟和成本的逐步降低,各項以此為基礎(chǔ)、用于不同目的的研究技術(shù)層出不窮。RNA-Seq是一種基于NGS,通過對樣品的轉(zhuǎn)錄組(transcriptome)進(jìn)行測序,主要用于揭示樣本中基因表達(dá)規(guī)律的技術(shù),現(xiàn)已被廣泛運用。同時,RNA-Seq的測序數(shù)據(jù)也可用于檢測整個基因組轉(zhuǎn)錄區(qū)域的多態(tài)性位點,包括SNP位點。技術(shù)實現(xiàn)要素:依據(jù)本發(fā)明的一方面,本發(fā)明提供一種確定群體中受到選擇作用的位點的方法,所述選擇作用包括人工選擇作用和自然選擇作用的至少一種,該方法包括以下步驟:(1)獲得群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的,所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)劃分成2n個一級亞群體,n為自然數(shù);(2)基于(1)中的核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);(3)基于(2)中的群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,以確定受到選擇作用的SNP,所述受到選擇作用的SNP為所述受到選擇作用的位點。在本發(fā)明的一個實施例中,所述核酸測序數(shù)據(jù)是利用RNA-Seq技術(shù)得來的,為轉(zhuǎn)錄本測序數(shù)據(jù)。所稱的預(yù)定指標(biāo)可以是任意的兩個個體樣本的不一樣的特征,在本發(fā)明的一個實施例中,預(yù)定指標(biāo)是地理的和/或生物性狀相關(guān)的,例如可以以不同地域來源、具有某個(些)不同性狀等來作為初步劃分群體的指標(biāo)。在本發(fā)明的一個實施例中,在進(jìn)行該方法的步驟(3)之前或者步驟(3)之后,進(jìn)行群體結(jié)構(gòu)分析,包括:基于(2)中的群體SNP數(shù)據(jù),對所述群體樣本進(jìn)行群體結(jié)構(gòu)分析,獲得群體結(jié)構(gòu)分析結(jié)果;任選的,進(jìn)行所述群體結(jié)構(gòu)分析包括構(gòu)建系統(tǒng)發(fā)育樹、主成分分析和STRUCTURE分析中的至少之一。而且,在本發(fā)明的另一個實施例中,進(jìn)一步的,基于所述群體結(jié)構(gòu)分析結(jié)果,對所述群體樣本進(jìn)行重新劃分,以獲得的劃分結(jié)果即對群體的分類結(jié)果替代原先所述 一級亞群體,進(jìn)而進(jìn)行(3)來確定群體中受到選擇作用的位點。依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種基于群體轉(zhuǎn)錄本數(shù)據(jù)分析群體結(jié)構(gòu)的方法,該方法包括:獲得群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的,所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)分成2n個一級亞群體,n為自然數(shù);基于所述核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);基于所述群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,確定受到選擇作用的SNP,和/或,基于所述群體SNP數(shù)據(jù),對所述群體進(jìn)行群體結(jié)構(gòu)分析。依據(jù)本發(fā)明的再一方面,本發(fā)明提供一種確定群體中受到選擇作用的位點的裝置,該裝置用以實施上述本發(fā)明一方面的確定群體中受到選擇作用的位點的方法,裝置包括:數(shù)據(jù)輸入單元,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元,用于輸出數(shù)據(jù);處理器,用于執(zhí)行機(jī)器可執(zhí)行程序,執(zhí)行所述機(jī)器可執(zhí)行程序包括完成本發(fā)明一方面的或者任一實施例中的方法;存儲單元,與所述數(shù)據(jù)輸入單元、數(shù)據(jù)輸出單元和處理器相連,用于存儲數(shù)據(jù),其中包括所述機(jī)器可執(zhí)行程序。本領(lǐng)域技術(shù)人員能夠理解,所說的機(jī)器可執(zhí)行程序可以保存在存儲介質(zhì)中,所稱存儲介質(zhì)可以包括:只讀存儲器、隨機(jī)存儲器、磁盤或光盤等。依據(jù)本發(fā)明的又一方面,本發(fā)明提供一種確定群體中受到選擇作用的位點的系統(tǒng),該系統(tǒng)能夠用以實施上述本發(fā)明一方面的或者任一實施例中的方法的全部或部分步驟,該系統(tǒng)包括:測序數(shù)據(jù)獲取裝置,用以獲取群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的,所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)分成2n個一級亞群體,n為自然數(shù);SNP檢測裝置,與所述測序數(shù)據(jù)獲取裝置連接,用于基于所述核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);目的位點確定裝置,與所述SNP檢測裝置連接,用以基于所述群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,以確定受到選擇作用的SNP,所述受到選擇作用的SNP為所述受到選擇作用的位點。利用上述本發(fā)明的方法、裝置和/或系統(tǒng)能夠準(zhǔn)確的判定出群體中受到選擇作用的位點。本發(fā)明的方法和/或裝置,集中于更具普遍重要性的基因組轉(zhuǎn)錄區(qū)域,能夠基于獲得的群體轉(zhuǎn)錄本數(shù)據(jù),獲得基因表達(dá)數(shù)據(jù),揭示樣本的基因表達(dá)規(guī)律,這將有利于揭示遺傳背景差異條件下的基因表達(dá)規(guī)律,是對RAD、GBS等群體研究范圍的進(jìn)一步拓展。而且,又能夠獲得群體SNP數(shù)據(jù),揭示群體結(jié)構(gòu)和群體遺傳進(jìn)化規(guī)律。本發(fā)明方法、裝置和/或系統(tǒng)能夠用以規(guī)范群體轉(zhuǎn)錄組重測序分析流程,降低分析風(fēng)險,能夠高效率、高質(zhì)量和高標(biāo)準(zhǔn)完成對群體項目的分析。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施方式的描述中將變得明顯和容易理解,其中:圖1是本發(fā)明的一個實施例中的確定群體中受到選擇作用的位點的方法的步驟流程圖。圖2是本發(fā)明的一個實施例中的確定群體中受到選擇作用的位點的方法的步驟流程圖。圖3是本發(fā)明的一個實施例中的確定群體中受到選擇作用的位點的方法的步驟流程圖。圖4是本發(fā)明的一個實施例中的確定群體中受到選擇作用的位點的裝置示意圖。圖5是本發(fā)明的一個實施例中的確定群體中受到選擇作用的位點的系統(tǒng)示意圖。圖6是本發(fā)明的一個實施例中的Frappe基于群體SNP推測的群體遺傳結(jié)構(gòu)的示意圖。圖7是本發(fā)明的一個實施例中的基于群體SNPs采用鄰接法推斷的系統(tǒng)發(fā)生樹的示意圖。圖8是本發(fā)明的一個實施例中的基于群體SNP的PCA分析結(jié)果示意圖。圖9是本發(fā)明的一個實施例中的Arlequin程序基于群體SNP檢測受選擇作用位點的結(jié)果示意圖。圖10是本發(fā)明的一個實施例中的GlobalFSTtest程序基于群體SNP檢測受選擇作用位點的結(jié)果示意圖。圖11是本發(fā)明的一個實施例中的BayeScan程序基于群體SNP檢測受選擇作用位點的結(jié)果示意圖。具體實施方式下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中,自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。需要說明的,本文中所使用的術(shù)語“一級”、“二級”等僅為方便描述,不能理解為指示或暗示相對重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。在本文中,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。根據(jù)本發(fā)明的一個實施例,如圖1所示,本發(fā)明提供一種確定群體中受到選擇作用的位點的方法,所述選擇作用包括人工選擇作用和自然選擇作用的至少一種,該方法包括以下步驟:S10獲得群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的, 所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)劃分成2n個一級亞群體,n為自然數(shù);S20基于S10中的核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);S30基于S20中的群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,以確定受到選擇作用的SNP,所述受到選擇作用的SNP為所述受到選擇作用的位點。根據(jù)本發(fā)明的一個實施例,所述核酸測序數(shù)據(jù)是利用RNA-Seq技術(shù)得來的,為轉(zhuǎn)錄本測序數(shù)據(jù)。以同一物種、多個不同遺傳背景的個體為研究對象,通過對轉(zhuǎn)錄組(transcriptome)樣品進(jìn)行高通量測序,一次性獲得該特定物種群體水平的基因組轉(zhuǎn)錄區(qū)域多態(tài)性數(shù)據(jù),包括群體SNP數(shù)據(jù)和全基因/轉(zhuǎn)錄本表達(dá)信息,可以用于揭示研究個體之間的進(jìn)化關(guān)系和遺傳組成差異、在特定選擇作用下共同進(jìn)化的基因簇、亞群體中受人工/自然選擇作用的位點以及個體或亞群體之間的在表達(dá)上具有顯著差異的功能模塊和代謝通路等生物學(xué)問題。而且,相對于常規(guī)的少量樣品的轉(zhuǎn)錄組重測序,相比于RAD、GBS等群體研究技術(shù),本發(fā)明的研究區(qū)域相對集中于基因組轉(zhuǎn)錄區(qū)域,可以對基因表達(dá)進(jìn)行定量,這將有利于揭示遺傳背景差異條件下的基因表達(dá)規(guī)律,是對RAD、GBS等群體研究范圍的進(jìn)一步拓展。所稱的預(yù)定指標(biāo)可以是任意的兩個個體樣本的不一樣的特征,根據(jù)本發(fā)明的一個實施例,預(yù)定指標(biāo)是地理的和/或生物性狀相關(guān)的,例如可以以不同地域來源、具有某個(些)不同性狀等來作為初步劃分群體的指標(biāo)。根據(jù)本發(fā)明的一個實施例,如圖2所示,在進(jìn)行該方法的步驟S30之前,還包括進(jìn)行S23群體結(jié)構(gòu)分析,S23群體結(jié)構(gòu)分析包括:基于S20中的群體SNP數(shù)據(jù),對所述群體樣本進(jìn)行群體結(jié)構(gòu)分析,獲得群體結(jié)構(gòu)分析結(jié)果;任選的,進(jìn)行所述群體結(jié)構(gòu)分析包括構(gòu)建系統(tǒng)發(fā)育樹、主成分分析(PCA)和GroupStructure分析中的至少之一??梢岳绵徑臃?gòu)建系統(tǒng)發(fā)育樹,也可以利用MEGA軟件構(gòu)建關(guān)系,利用MEGA軟件(http://www.megasoftware.net),將每個樣本所有SNP位點的基因型文件組成序列,一個個體樣本對應(yīng)一個序列,作為MEGA的輸入文件,MEGA根據(jù)各個體樣本序列上的差異,該軟件有三種方法(Maximumlikelihood、LeastSquares和Maximumparsimony)來構(gòu)建關(guān)系樹。在統(tǒng)計學(xué)中,主成分分析(PrincipalComponentsAnalysis,PCA)是一種簡化數(shù)據(jù)集的技術(shù),是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大變量數(shù)在第一個坐標(biāo)(稱為第一主成分)上、第二大變量數(shù)在第二坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保留對數(shù)據(jù)集貢獻(xiàn)最大的特征變量。通過保留低階主成分,忽略高階主成分來實現(xiàn)的。這是由于低階成分往往能夠保留數(shù) 據(jù)集中最重要的方面。根據(jù)參考文獻(xiàn)AtutorialonPrincipalComponentsAnalysis.LindsayISmith,2002-02和實施例中真實的SNP數(shù)據(jù)特點,首先將SNP數(shù)據(jù)轉(zhuǎn)換成數(shù)字矩陣,例如設(shè)定與參考序列一致的為0、相反的為2、簡并堿基為1,并作均一化。然后通過上述介紹的方法構(gòu)建線性向量方程。其中i從1到k表示第i個樣本。應(yīng)用R語言軟件包強(qiáng)大的解方程能力,解得矩陣a,根據(jù)各樣本的數(shù)據(jù)特點提取前四個主成分向量,以向量作為坐標(biāo)軸展示各個體聚類情況。GroupStructure分析可以利用Structure軟件(http://pritch.bsd.uchicago.edu/software/structure2_1.html)進(jìn)行,該軟件基于SNP位點的基因分型數(shù)據(jù),推斷是否存在不同群體并判斷每個個體所歸屬的群體。根據(jù)軟件說明,將群體SNP的基因型文件轉(zhuǎn)換格式,作為Structure輸入文件并在混合模型中采用高達(dá)5萬次模擬,假設(shè)多個群體存在時,計算每個個體歸屬各類(亞)群體的概率。經(jīng)過以上,能夠?qū)崿F(xiàn)對個體的分類。在本發(fā)明的一個實施例中,在分類的基礎(chǔ)上,還可以進(jìn)一步篩選個體,例如根據(jù)上述群體結(jié)構(gòu)分析結(jié)果,實現(xiàn)對個體的分類,提取每個個體樣本信息,剔除存在異議的個體,比如分類不明確或明顯離群樣本。根據(jù)本發(fā)明的一個實施例,進(jìn)一步的,基于所述群體結(jié)構(gòu)分析結(jié)果,對所述群體樣本進(jìn)行重新劃分,以獲得的劃分結(jié)果即獲得的新的亞群體替代原先的一級亞群體,進(jìn)而基于新的亞群體及其SNP數(shù)據(jù)進(jìn)行步驟S30來確定群體中受到選擇作用的位點,這樣,以群體結(jié)構(gòu)分析結(jié)果對群體/亞群體進(jìn)行再分類或者重新分類,有利于準(zhǔn)確判定受到選擇作用的位點。根據(jù)本發(fā)明的一個實施例,如圖3所示,在進(jìn)行該方法的步驟S30之后,還包括進(jìn)行S23群體結(jié)構(gòu)分析,S23群體結(jié)構(gòu)分析包括:基于S20中的群體SNP數(shù)據(jù),對所述群體樣本進(jìn)行群體結(jié)構(gòu)分析,獲得群體結(jié)構(gòu)分析結(jié)果;任選的,進(jìn)行所述群體結(jié)構(gòu)分析包括構(gòu)建系統(tǒng)發(fā)育樹、主成分分析(PCA)、GroupStructure分析和種群遺傳結(jié)構(gòu)Frappe檢測中的至少之一。根據(jù)本發(fā)明的一個實施例,所述群體樣本的核酸測序數(shù)據(jù)由組成群體樣本的每個個體樣本的核酸測序數(shù)據(jù)組成,要求每個個體樣本的核酸測序數(shù)據(jù)不少于4G,以利于準(zhǔn)確檢測出SNP,進(jìn)而有利于基于準(zhǔn)確的群體SNP數(shù)據(jù)準(zhǔn)確確定受到選擇作用位點。根據(jù)本發(fā)明的一個實施例,群體樣本來自同一物種的、具有不同遺傳背景的個體。對于群體樣本分析,建議群體樣本中包含的個體樣本數(shù)量不小于30個,而且,涉及的所有個體至少能夠根據(jù)某種指標(biāo)而被劃分為兩個及兩個以上的亞群體,即所稱的一級亞群體,以便于后續(xù)差異分析。根據(jù)本發(fā)明的一個實施例,較佳的,每個一級亞群體包括至少10個個體樣本,以利于差異分析。根據(jù)本發(fā)明的一個實施例,將所有個體樣本在相同的條件下進(jìn)行培養(yǎng),然 后在相同的組織或者部位取樣,來獲得群體樣本,這樣使得基于該群體樣本數(shù)據(jù)進(jìn)行群體分析包括進(jìn)行基因差異表達(dá)分析有意義,原因在于,個體樣本的遺傳差異即變量已經(jīng)存在,在相同條件下取樣,能夠使得到的差異表達(dá)基因能從遺傳差異的角度去作解釋,否則,多個變量的存在,會導(dǎo)致差異表達(dá)的原因模棱兩可。例如,研究群體可以被分為抗鹽堿和不抗鹽堿兩類,可以使用相同計量的鹽水對生長在相同環(huán)境下的所有個體進(jìn)行處理,然后對處理后特定時間(例如1小時)的根尖進(jìn)行取樣,這樣,后續(xù)群體分析鑒定出來的差異表達(dá)基因可能能用于揭示此物種抗鹽堿的機(jī)制,并且,能確定該差異表達(dá)是由于遺傳背景的差異導(dǎo)致的。根據(jù)本發(fā)明的一個實施例,所述一級亞群體包括至少一個二級亞群體;任選的,一個所述二級亞群體包括至少10個個體。二級亞群體可以通過利用不同于劃分群體的另一個(些)指標(biāo)劃分一級亞群體來獲得。利用本發(fā)明的任一實施例中的方法能夠?qū)Χ啻蝿澐趾蟮亩嗉墎喨后w中的受到選擇作用的位點進(jìn)行準(zhǔn)確判定。根據(jù)本發(fā)明的一個實施例,所述基于群體SNP數(shù)據(jù),比較不同一級亞群體多態(tài)性的差異,以確定受到選擇作用的SNP,包括:基于群體SNP數(shù)據(jù),利用至少兩種檢驗方法比較所述不同一級亞群體中的相同SNP位點的雜合度的差異,將得到至少兩種檢驗方法支持的SNP位點確定為受到選擇作用的SNP;任選的,所述檢驗方法包括F統(tǒng)計量、分子變異分析和多層貝葉斯方法。在本發(fā)明的一些實施例中,利用Arlequin程序、GlobalFSTtest程序和BayeScan程序中的兩個或者全部三個,或者包括利用Arlequin,BayesScan和Datacal三種方法中的至少兩個或者全部三種方法來判斷比較位點的雜合度差異程度,當(dāng)某SNP位點得到以上三種檢驗方法中的至少兩種或者全部三種的支持,即至少其中的兩種的檢驗結(jié)果都認(rèn)定該SNP在不同亞群體中的雜合度的差異是顯著的,則判定該SNP為受到選擇作用的位點。這樣,有利于準(zhǔn)確判定。根據(jù)本發(fā)明的一個實施例,所述利用至少兩種檢驗方法來比較所述不同一級亞群體中的相同SNP位點的雜合度的差異,將得到至少兩種檢驗方法支持的SNP位點確定為受到選擇作用的SNP,包括:計算所述SNP位點在不同一級亞群體中的雜合度差異值,將雜合度差異值不小于閾值的SNP位點確定為受到選擇作用的位點。在本發(fā)明的一個實施例中,所稱的雜合度差異值以FST(Fixationindex)表示。FST可以用來評價群體間的基因組距離和種群的差異,是度量種群間分化程度的一個指標(biāo),由SewallWright在1922年應(yīng)用F-檢驗的一種特殊情況發(fā)展而來。FST的零假設(shè)是在群體沒有分化時,多態(tài)性位點在(亞)群內(nèi)和(亞)群間的次等位堿基的頻率差別不具顯著性。計算FST的方法很多,雖然具體計算方法不同,但基本理 論是一致的,即由Hudson(1992)給出的定義:其中,ΠBetween在這里表示從兩個亞群體(Between)中分別抽取一個樣本,組成一對,計算這對樣本SNP基因型的差異,如此可以計算所有成對樣本SNP基因型的差異,最后求平均值即為ΠBetween。ΠWithin表示從一個亞群體(Within)中分別抽取2個樣本,組成一對,計算這對樣本SNP基因型的差異,如此可以計算所有成對樣本SNP基因型的差異,最后求平均值即為ΠWithin。如果有兩個亞群體,可以兩個亞群體分別先計算ΠWithin,然后累加。在該實施例中,結(jié)合已有亞群體SNP數(shù)據(jù)的結(jié)構(gòu),基于上述原理,推導(dǎo)公式如下:FST=ΠBetween-ΠWithinΠBetween=1-ΠWithinΠBetween=1-[Σj(2nj)Σj2nijnij-1(1-xij)]/Σj(2nj)Σj2nini-1xi(1-xi),]]>其中,xij是SNP位點i在亞群體j中的次等位堿基(第二堿基)的頻率,而nij是SNP位點i在亞群體j中染色體上的物理位置,nj則是亞群體j中用于比較分析的SNP位點個數(shù)的總和。在本發(fā)明的一個實施例中,利用Arlequin,BayesScan和Datacal三種方法來比較檢驗SNP位點的次等位堿基頻率在亞群體間的差異,各自設(shè)置的差異具有顯著性的閾值分別為0.05,0.1和0.01。根據(jù)本發(fā)明的一個實施例,本發(fā)明提供一種基于群體轉(zhuǎn)錄本數(shù)據(jù)分析群體結(jié)構(gòu)的方法,該方法包括:獲得群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的,所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)分成2n個一級亞群體,n為自然數(shù);基于所述核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);基于所述群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,確定受到選擇作用的SNP,和/或,基于所述群體SNP數(shù)據(jù),對所述群體進(jìn)行群體結(jié)構(gòu)分析。根據(jù)本發(fā)明的一個實施例,如圖4所示,本發(fā)明提供一種確定群體中受到選擇作用的位點的裝置100,該裝置100用以實施上述本發(fā)明一方面的確定群體中受到選擇作用的位點的方法,裝置100包括:數(shù)據(jù)輸入單元110,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元120,用于輸出數(shù)據(jù);處理器130,用于執(zhí)行機(jī)器可執(zhí)行程序,執(zhí)行所述機(jī)器可執(zhí)行程序包括完成本發(fā)明一方面的或者任一實施例中的方法;存儲單元140,與所述數(shù)據(jù)輸入單元110、數(shù)據(jù)輸出單元120和處理器130相連,用于存儲數(shù)據(jù),其中包括所述機(jī)器可執(zhí)行程序。本領(lǐng)域技術(shù)人員能夠理解,所說的機(jī)器可執(zhí)行程序可以保存在存儲介質(zhì)中,所稱存儲介質(zhì)可以包括:只讀存儲器、隨機(jī) 存儲器、磁盤或光盤等。根據(jù)本發(fā)明的一個實施例,如圖5所示,本發(fā)明提供一種確定群體中受到選擇作用的位點的系統(tǒng)1000,該系統(tǒng)能夠用以實施上述本發(fā)明一方面的或者任一實施例中的方法的全部或部分步驟,該系統(tǒng)1000包括:測序數(shù)據(jù)獲取裝置1100,用以獲取群體樣本的核酸測序數(shù)據(jù),所述群體樣本來自一個物種的多個個體,任選的,所述群體樣本來自一個物種多個個體的相同組織或者一個物種的多個個體的相同部位,所述群體樣本能夠依據(jù)n對預(yù)定指標(biāo)分成2n個一級亞群體,n為自然數(shù);SNP檢測裝置1200,與所述測序數(shù)據(jù)獲取裝置1100連接,用于基于所述核酸測序數(shù)據(jù),檢測以獲得群體SNP數(shù)據(jù),所述群體SNP數(shù)據(jù)包括多個一級亞群體SNP數(shù)據(jù);目的位點確定裝置1300,與所述SNP檢測裝置1200連接,用以基于所述群體SNP數(shù)據(jù),比較不同一級亞群體的多態(tài)性的差異,以確定受到選擇作用的SNP,所述受到選擇作用的SNP為所述受到選擇作用的位點。利用上述本發(fā)明任一實施例中的方法、裝置和/或系統(tǒng)能夠準(zhǔn)確的判定出群體中受到選擇作用的位點。本發(fā)明的方法和/或裝置,主要集中于更具普遍重要性的基因組轉(zhuǎn)錄區(qū)域,能夠基于獲得的群體轉(zhuǎn)錄本數(shù)據(jù),獲得基因表達(dá)數(shù)據(jù),揭示樣本的基因表達(dá)規(guī)律,這將有利于揭示遺傳背景差異條件下的基因表達(dá)規(guī)律,是對RAD、GBS等群體研究范圍的進(jìn)一步拓展。而且,又能夠獲得群體SNP數(shù)據(jù),揭示群體結(jié)構(gòu)和群體遺傳進(jìn)化規(guī)律。本發(fā)明方法、裝置和/或系統(tǒng)能夠用以規(guī)范群體轉(zhuǎn)錄組重測序分析流程,降低分析風(fēng)險,能夠高效率、高質(zhì)量和高標(biāo)準(zhǔn)完成對群體項目的分析。以下結(jié)合附圖和具體樣本數(shù)據(jù)實施例對本發(fā)明的確定受到選擇作用的位點的方法、群體項目分析裝置和/或系統(tǒng)進(jìn)行詳細(xì)的說明。通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。除另有交待,以下實施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、軟件及儀器,都是常規(guī)市售產(chǎn)品或者開源的,例如購買Illumina的轉(zhuǎn)錄組文庫構(gòu)建試劑盒。實施例一參考序列、測序策略、樣品要求及其他注意事項:i)參考序列:要求有用較高質(zhì)量的基因組參考序列。ii)測序策略:采用PE91(雙末端測序,獲得多對paired-endreads,每條reads的長度都為91bp)的測序策略,單個樣品達(dá)到過濾后數(shù)據(jù)量4G的標(biāo)準(zhǔn)。iii)樣品應(yīng)該來自同一物種、具有不同遺傳背景的個體。iv)對于總的研究群體,推薦30個個體及以上的體量。同時,涉及的所有個體能夠根據(jù)某種指標(biāo)而被劃分為兩個及兩個以上的亞群體(便于差異分析),且每個亞群體最好多于10個個體。v)將所有樣本在相同的條件下進(jìn)行培養(yǎng),然后在相同的組織、部位取樣。原因在于,樣品的遺傳差異(變量)已經(jīng)存在,只有在相同條件下取樣,得到的差異表達(dá)基因才可能從遺傳差異的角度去作解釋。否則,多個變量的存在,會導(dǎo)致差異表達(dá)的原因模棱兩可。例如研究群體可以被分為抗鹽堿和不抗鹽堿兩類。可以使用相同計量的鹽水對生長在相同環(huán)境下的所有個體進(jìn)行處理,然后對處理后特定時間(例如1小時)的根尖進(jìn)行取樣。那么后續(xù)鑒定出來的差異表達(dá)基因則可能揭示出此物種抗鹽堿的機(jī)制,因為,差異表達(dá)是由于遺傳背景的差異導(dǎo)致的。為規(guī)范群體轉(zhuǎn)錄組重測序項目的分析流程,降低分析風(fēng)險,以達(dá)到高效率、高質(zhì)量、高標(biāo)準(zhǔn)完成項目的目的,在此提出一種群體轉(zhuǎn)錄組重測序分析方法,主要包括:一、實驗流程提取樣本總RNA并使用DNaseI消化DNA后,用帶有Oligo(dT)的磁珠富集真核生物mRNA(若為原核生物,則用試劑盒去除rRNA后進(jìn)入下一步驟);加入打斷試劑在Thermomixer中適溫將mRNA打斷成短片段,以打斷后的mRNA為模板合成一鏈cDNA,然后配制二鏈合成反應(yīng)體系合成二鏈cDNA,并使用試劑盒純化回收粘性末端修復(fù)、cDNA的3'末端加上堿基"A"并連接接頭,然后進(jìn)行片段大小選擇,最后進(jìn)行PCR擴(kuò)增;構(gòu)建好的文庫用Agilent2100Bioanalyzer和ABIStepOnePlusReal-TimePCRSystem質(zhì)檢合格后,使用IlluminaHiSeqTM2000或其他測序儀進(jìn)行測序。二、信息分析內(nèi)容1)標(biāo)準(zhǔn)RNA-Seq分析包括數(shù)據(jù)過濾,基因表達(dá)定量,組間差異基因鑒定及其GO、KEGGPathway富集分析,SNPcalling及注釋等。2)基于群體SNP數(shù)據(jù)的分析基于標(biāo)準(zhǔn)RNA-Seq分析中對單個樣品的一致性序列(consensus序列)的預(yù)測,即SNP識別(SNPcalling)的中間步驟,整理得到群體水平的SNP數(shù)據(jù),用于下述多個方面的分析:a、群體結(jié)構(gòu)分析:包括構(gòu)建系統(tǒng)發(fā)育樹、主成分(PCA)分析和STRUCTURE分析,三者都能夠反映出群體的結(jié)構(gòu),但每個分析側(cè)重點又有所不同。構(gòu)建系統(tǒng)發(fā)育樹側(cè)重于揭示群體中個體之間的進(jìn)化關(guān)系;主成分(PCA)分析側(cè)重于揭示群體中個體之間遺傳背景差異的主要因素;STRUCTURE分析側(cè)重于對每個個體的遺傳組成進(jìn)行比較、量化,并以圖示的 方式揭示個體之間遺傳組成的異同。b、檢測受到選擇作用的位點:選擇作用(來自于人工or自然)通常在種群的分化(亞群的形成)過程中起著非常重要的作用。從亞群的SNP數(shù)據(jù)出發(fā),可以統(tǒng)計出所有位點在不同亞群之間多態(tài)性的差異(Fst),并檢驗出Fst顯著差異的位點。這些位點作為潛在的受到選擇作用的位點,能夠輔助研究者進(jìn)一步認(rèn)識針對于某些亞群的選擇作用的過程。Fst(Fixationindex)主要用來評價群體間的基因組距離和種群的差異,是度量種群間分化程度的一個指標(biāo),由SewallWright在1922年應(yīng)用F-檢驗的一種特殊情況發(fā)展而來。FST的零假設(shè)是在群體沒有分化時,多態(tài)性位點在群內(nèi)和群間的次等位堿基的頻率差別是不顯著的。計算FST的方法很多,雖然具體計算方法不同,但基本理論是一致的,即由Hudson(1992)給出的定義:FST=ΠBetween-ΠWithinΠBetween,]]>其中ΠBetween表示從兩個群體(Between)中分別抽取一個樣本,組成一對,計算這對樣本SNP基因型的差異,如此可以計算所有成對樣本SNP基因型的差異,最后求平均值即為ΠBetween。ΠWithin表示從一個群體(Within)中分別抽取2個樣本,組成一對,計算這對樣本SNP基因型的差異,如此可以計算所有成對樣本SNP基因型的差異,最后求平均值即為ΠWithin。如果有兩個群體,可以兩個群體分別先計算ΠWithin,然后累加。3)基于基因表達(dá)數(shù)據(jù)的額外分析a、聚類分析、PCA分析:基于基因表達(dá)數(shù)據(jù),可以對群體中的個體進(jìn)行聚類、PCA分析,呈現(xiàn)個體與個體之間在基因表達(dá)層次上的差異。這一結(jié)果可與SNP數(shù)據(jù)構(gòu)建出來的系統(tǒng)發(fā)育樹和PCA分析結(jié)果相互印證、比較。b、共表達(dá)基因網(wǎng)絡(luò)構(gòu)建和組間比較:在各種生命活動中,多個基因(co-expressiongenes)通常在很多條件下協(xié)同地表達(dá),以實現(xiàn)某些特定的功能。從多個不同個體的基因表達(dá)數(shù)據(jù)出發(fā),可以構(gòu)建出許多共表達(dá)基因的模塊。以此為基礎(chǔ),研究者可以分析:i)在特定條件下,哪些共表達(dá)基因模塊在發(fā)揮著作用(較高水平地表達(dá)),這有利于認(rèn)識這些特定條件背后的基因表達(dá)規(guī)律;ii)哪些共表達(dá)基因模塊在哪個(哪些)特定的個體中發(fā)揮作用,這有利于解析部分共表達(dá)基因模塊的生物學(xué)功能;iii)以上構(gòu)建出的共表達(dá)基因模塊還可以亞群體之間進(jìn)行比較。從共表達(dá)基因模塊這一更高的水平上去比較個體之間的差異,可以揭示出從常規(guī) 的基因差異表達(dá)數(shù)據(jù)(假定基因與基因之間相互獨立,不考慮它們之間的相互作用)中無法體現(xiàn)出來的新內(nèi)容。以上,以同一物種、多個不同遺傳背景的個體為研究對象,通過對轉(zhuǎn)錄組(transcriptome)樣品進(jìn)行高通量測序,一次性獲得該特定物種群體水平的基因組轉(zhuǎn)錄區(qū)域多態(tài)性數(shù)據(jù)(群體SNP)和全基因/轉(zhuǎn)錄本表達(dá)信息,進(jìn)而可以揭示(i)研究個體之間的進(jìn)化關(guān)系和遺傳組成差異,(ii)在特定選擇作用下共同進(jìn)化的基因簇,(iii)亞群體中受人工/自然選擇作用的位點,以及(iv)個體或亞群體之間的在表達(dá)上具有顯著差異的功能模塊和代謝通路等生物學(xué)問題。相對于常規(guī)的少量樣品的轉(zhuǎn)錄組重測序,該方法還將給出群體SNP數(shù)據(jù),該數(shù)據(jù)可用于揭示群體結(jié)構(gòu)、群體進(jìn)化歷史、群體中每個個體的進(jìn)化關(guān)系,以及潛在的受選擇作用的位點等生物學(xué)問題。相比于RAD、GBS等群體研究技術(shù),該方法的研究區(qū)域集中于更具普遍重要性的基因組轉(zhuǎn)錄區(qū)域。同時,本發(fā)明可以對基因表達(dá)進(jìn)行定量,這將有利于揭示遺傳背景差異條件下的基因表達(dá)規(guī)律,是對RAD、GBS等群體研究范圍的進(jìn)一步拓展。實施例二下面詳細(xì)示例介紹分步驟操作過程:一、常規(guī)轉(zhuǎn)錄組重測序流程不同地域包括秦嶺、岷山、梁山、邛崍和相嶺的大熊貓,獲取的大熊貓血液或組織樣本數(shù)目總共34個,其中,來自梁山為2個——樣本編號為GP37和GP52(均為血液樣本),來自岷山的有7個——樣本編號為GP14-19和GP51(均為血液樣本),來自秦嶺的有8個——樣本編號分別為GP3-8(血液樣本)、GP10(組織樣本)和GP12(血液樣本),來自邛崍的有15個——樣本編號分別為GP2、GP13、GP22-31、GP33和GP35-36(均為血液樣本),來自相嶺的有2個——樣本編號分別為GP38-39(均為血液樣本)。樣本轉(zhuǎn)錄組核酸提取、文庫構(gòu)建以及測序參照前面實施例進(jìn)行,獲得各樣本測序數(shù)據(jù)。根據(jù)地域的不同,將34個樣本分為5個一級亞群體。完成數(shù)據(jù)過濾、質(zhì)控,將干凈測序數(shù)據(jù)(cleandata)比對到基因組參考序列,比如利用SOAP或者BWA、按照其默認(rèn)設(shè)置進(jìn)行比對,對每個樣品進(jìn)行SNP識別(callsnp),將cleandata比對到基因集參考序列上,計算每個基因的表達(dá)量并進(jìn)行組間差異表達(dá)基因鑒定和GO、KEGGpathway富集分析。再次將cleandata比對到基因組參考序列,例如利用TopHat或者STAR進(jìn)行比對,預(yù)測可變剪切及新的轉(zhuǎn)錄本,以及完成各種統(tǒng)計工作,包括原始、過濾后數(shù)據(jù)量統(tǒng)計、readsmapping信息統(tǒng)計、基因組覆蓋度統(tǒng)計、生成文庫隨機(jī)性評估圖等。二、識別(Call)群體SNP、以及基于群體SNP的群體進(jìn)化分析從上一步獲得的每個個體相對于基因組參考序列的consensus信息(即SOAPsnp輸出的cns文件)出發(fā),整合形成群體SNP數(shù)據(jù),此為所有個體水平,即為取所有個體樣本SNP的并集為群體SNP數(shù)據(jù)。以此群體SNP為基礎(chǔ),進(jìn)行群體進(jìn)化分析,群體進(jìn)化分析包括進(jìn)化樹的構(gòu)建、主成分分析、個體遺傳組成分析等。此流程需要準(zhǔn)備一些簡單的配置文件,說明如下:individual.txt:樣品(個體樣本)信息文件,每一行是一個樣品的信息,每行6列,如表1所示。表1snp.lst:群體SNP(genotype)文件列表,群體SNP文件格式如表2所示。表2第一列染色體編號第二列等位基因位置第三列對應(yīng)參考序列位點的核苷酸第四列測序樣本基因型,以空格隔開,順序需與individual文件對應(yīng)population.txt:進(jìn)行位點選擇分析的兩個群體信息,第一列是亞群名稱,可以與individual文件不同,第二列是樣品縮寫ID,需存在于individual文件第四列中。*.gff:基因組gff文件,進(jìn)行位點選擇分析時確定受選擇位點所在基因,可以不提供。1)Call群體SNP利用SOAPsnp檢測每個樣本的SNP,整合所有單個樣品的SNP數(shù)據(jù)獲得群體SNP數(shù)據(jù)。具體包括:我們首先充分考慮并利用已公開的熊貓基因組信息(ZhaoS,etal.Whole-genomesequencingofgiantpandasprovidesinsightsintodemographichistoryandlocaladaptation.NatGenet.45(1):67-71(2013)),從NCBI網(wǎng)站下載熊貓基因組對應(yīng)的dbsnp,作為SOAPsnp的先驗概率,并依據(jù)目前確定的研究結(jié)果,設(shè)置雜合位點SNP的先驗概率為0.0010,純合位點SNP的先驗概率為0.0005。在設(shè)置以上參數(shù)后,利用SOAPsnp軟件將過濾后數(shù)據(jù)與熊貓參考基因組比對,得到比對結(jié)果為CNS文件。由于每個樣本基因組存在一些低測序深度的區(qū)域,在此 綜合所有樣本基因型的可能性的文件,利用最大似然法整合所有樣本的數(shù)據(jù),產(chǎn)生包含所有樣本每個位點的偽基因組(Pseudo-genome)。選擇概率最大的基因型作為每個樣本的一致基因型,通過基因型和測序深度等信息檢測出高質(zhì)量的SNPs。得到各個樣本的一致性序列后,結(jié)果保存為群體SNPs格式,獲得群體SNP數(shù)據(jù)。2)群體進(jìn)化分析輸入群體SNP結(jié)果,并以群體SNP為基礎(chǔ),整合調(diào)用多個軟件進(jìn)行群體進(jìn)化分析,包括Tree,PCA,Structure和Frappe分析,具體如下。將軟件命名PopuStruct.pl,相關(guān)參數(shù)說明如表3,需注意的是群體SNP文件必須與individual文件對應(yīng)。Structure軟件運行時間較長,如果時間緊急,建議首先用Frappe進(jìn)行群體結(jié)構(gòu)分析,得到初步分析結(jié)果。表3參數(shù)說明-indi<s>群體中每個個體信息,個體順序與群體SNP文件一致,必須設(shè)置。-list<s>群體SNPsgenotype文件列表,必須設(shè)置。-OutDir<s>輸出路徑,默認(rèn)當(dāng)前路徑。-prefix<s>輸出腳本前綴信息,默認(rèn)“Pop”。-Struct<y/n>是否用Structure軟件進(jìn)行群體結(jié)構(gòu)分析,默認(rèn)“y”-Tree<y/n>是否構(gòu)建系統(tǒng)發(fā)生樹,默認(rèn)“y”-Frappe<y/n>是否用Frappe軟件進(jìn)行群體結(jié)構(gòu)分析,默認(rèn)“y”-PCA<y/n>是否進(jìn)行主成分分析,默認(rèn)“y”-queue<s>投遞任務(wù)隊列,默認(rèn)bc.q-project<s>投遞投任務(wù)-P參數(shù)值,默認(rèn)rdtest-help幫助信息輸出文件(結(jié)果)i)Frappe結(jié)果文件和Structure結(jié)果文件,可結(jié)合excel進(jìn)行調(diào)整和作圖。結(jié)果如圖6所示,圖6是Frappe基于群體SNP推測的群體遺傳結(jié)構(gòu)示意圖,圖中,分隔的每塊代表一個群體,橫坐標(biāo)代表一個樣本,不同分隔塊代表K個不同或差異較大的祖先,分析每一個品系的遺傳成分中,所具有的每一個假想祖先成分的比例。如果一個樣品對應(yīng)兩個不同的分割塊,則表示該樣品可能是兩個亞群之間的中間品種。當(dāng)K值取得越大時,樣品之間的差異性越被放大,分得越細(xì),可根據(jù)實際結(jié)果來決定K值取到哪就可以完全體現(xiàn)出所有樣品的結(jié)構(gòu)關(guān)系。圖中,K分別取2、3、4和5,可以看出K=3即將群體分成3個亞群體基本可以完整體現(xiàn)出所有樣本的結(jié)構(gòu)關(guān)系。ii)tree結(jié)果文件利用mega軟件進(jìn)行調(diào)整,結(jié)果如圖7所示。圖7是基于群體SNP采用 鄰接法推斷的系統(tǒng)發(fā)生樹的示意圖,圖中,分支距離越近,說明兩分支間進(jìn)化關(guān)系越近。對于同一亞群內(nèi)的樣本,應(yīng)當(dāng)顯示能很好的分在一起或離得不遠(yuǎn),通過該圖可以說明品種之間的進(jìn)化關(guān)系遠(yuǎn)近。從圖7可看出,該群體可以分成3個亞群體。iii)PCA分析結(jié)果,需用excel進(jìn)行作圖,結(jié)果如圖8所示。圖8是基于群體SNP的PCA分析結(jié)果的示意圖,圖中不同形狀的標(biāo)記代表不同亞群的樣本,一個標(biāo)記點代表一個樣品,點的橫縱坐標(biāo)分別是該樣品對應(yīng)的第一和第二特征向量中同一順序元素的值,相應(yīng)的特征值大小代表該主成分在整個關(guān)系中所占的比例,通過該圖可以跟樣品的實際分組進(jìn)行對比,看出樣品分組好壞。進(jìn)而可以看要不要重新分類以獲得新亞群。三、受選擇作用位點的檢測結(jié)合實施例一以及上述獲得的群體SNP數(shù)據(jù)的結(jié)構(gòu),推導(dǎo)公式如下:FST=ΠBetween-ΠWithinΠBetween=1-ΠWithinΠBetween=1-[Σj(2nj)Σi2nijnij-1xij(1-xij)]/Σj(2nj)Σi2nini-1xi(1-xi)]]>上式中xij是SNP位點i在亞群體j中的次等位堿基(第二堿基)的頻率;而nij是SNP位點i在亞群體j中染色體上的物理位置;nj則是亞群體j用于比較分析的SNP位點個數(shù)的總和。其中變量j依據(jù)上述群體結(jié)構(gòu)分析結(jié)果,新取為3,變量i以最后判定的SNP位置代入。上述計算分析過程以群體SNP為基礎(chǔ),調(diào)用多個軟件檢測亞群體間可能存在的受到選擇作用的位點,命名為SnpSelect.pl,使用的軟件方法包括:Arlequin,BayesScan和Datacal三種,各軟件對應(yīng)參數(shù)說明,包括閾值的設(shè)置,詳見表4。perlSnpSelect.pl<snp.list><individual><2population.txt>[options];其中2population文件指的是參與位點選擇分析的兩個亞群信息,具體格式見說明。表4輸出文件i)Arlequin分析結(jié)果,如圖9所示。圖9顯示Arlequin程序基于群體SNP檢測受選擇作用位點的分析結(jié)果。橫軸表示給定位點在群體水平的雜合度,縱軸表示亞群之間在給定位點上的雜合度差異值(Fst)。上部分圈起中的點表示受定向選擇的位點(q<0.01或者q<0.05),下部分圈起中的點表示受平衡選擇的位點(q<0.01或者q<0.05)。ii)GlobalFSTtest分析結(jié)果,如圖10所示。圖10顯示GlobalFSTtest程序基于群體SNP檢測受選擇作用位點的結(jié)果。橫軸表示給定位點在群體水平的雜合度,縱軸表示亞群之間在給定位點上的雜合度差異值(Fst)。前1%Fst值所對應(yīng)位點被認(rèn)為是候選位點,即橫線以上的點為檢測出的受到選擇作用的位點。iii)BayeScan分析結(jié)果,如圖11所示。圖11顯示BayeScan程序基于群體SNP檢測受選擇作用位點的結(jié)果。橫軸表示給定位點在群體水平的雜合度,縱軸表示將給定位點的檢驗q值(qvalue)取對數(shù)的值(以10為底數(shù))。qvalue<0.1的位點被認(rèn)為是候選受選擇作用位點,即位于圖上豎線右邊的點為候選受選擇作用位點。結(jié)合圖9-圖11,在位點選擇分析時,獲得有以上至少兩種方法支持的判為最終的受選擇作用位點。在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。當(dāng)前第1頁1 2 3