本發(fā)明涉及生物信息學(xué)分析
技術(shù)領(lǐng)域:
,尤其涉及一種微生物基因組16srrna高可變區(qū)v6區(qū)域的分類方法和裝置。
背景技術(shù):
:為了微生物群體的種類及豐度的傳統(tǒng)方法包括:直接對微生物進(jìn)行培養(yǎng),變性梯度凝膠電泳、末端限制性內(nèi)切酶片段長度多態(tài)性、焚光原位雜交、對可能的微生物種類進(jìn)行pcr(聚合酶鏈?zhǔn)椒磻?yīng));但這些方式都只能揭露環(huán)境中很小一部分微生物種類。如果能進(jìn)行宏基因組的分析,通過直接對環(huán)境中的微生物群體進(jìn)行基因組研究,得到一個比較全面的微生物種類目錄,將有助于對微生物群體的后續(xù)研究和應(yīng)用。原核生物中16srrna(核蛋白核糖核酸,ribosomalrna)的序列一方面在整體上高度保守,同時含有種間差異的高變異區(qū)(v1-v7),因此該基因醫(yī)療可精確指示細(xì)菌之間的親緣關(guān)系及其進(jìn)化關(guān)系,易操作,適用于各級分類單元;所以在微生物基因組的研究中,16srrna測序是最常用的聚類和分類方法。但傳統(tǒng)的基因測序是通過sanger技術(shù)測定16srrna基因序列,這個技術(shù)一般得到至少500bp的讀長,能幫助我們?nèi)ゾ珳?zhǔn)地研究每一條序列的物種來源,但它容易產(chǎn)生嵌合體,而且測序成本比較高,費時又費力。隨著新開發(fā)出的測序技術(shù)以及測序成本的逐步降低,基因組的研究變得越來越實用,所涉及的技術(shù)包括pyrosequencing、solexa等。對于這些革命性的技術(shù)的一個主要挑戰(zhàn)就是讀長太短,無法對每個個體的16srrna進(jìn)行測序,因而它的測序信息不足以讓我們?nèi)ゾ珳?zhǔn)地對微生物進(jìn)行分類。但測定16srrna的變異區(qū)可用來來對微生物進(jìn)行分類,通過設(shè)計特定的通用引物對16s可變區(qū)進(jìn)行特定的pcr(聚合酶鏈?zhǔn)椒磻?yīng),polymerasechainreaction),然后用測序儀測序,建立在這種方法上的系統(tǒng)樹顯示了很好的生物多樣性,但它的測序成本高,雖然是傳統(tǒng)毛細(xì)管測序法費用的1/10,但卻是其他新一代測序儀測序費用的10倍左右。綜上所述,提供一種更加準(zhǔn)確地對微生物進(jìn)行聚類分析的方法且方便快捷、成本低廉成為本領(lǐng)域亟待解決的技術(shù)問題。技術(shù)實現(xiàn)要素:本發(fā)明要解決的一個技術(shù)問題是提供一種基于16srrna基因高可變區(qū)v6的微生物分類方法和裝置,通過對16srrna的高可變區(qū)v6區(qū)進(jìn)行solexa測序,并通過對這些16srrna可變區(qū)的短序列進(jìn)行系統(tǒng)分類,可以在成本低廉的基礎(chǔ)上準(zhǔn)確反映物種的豐度信息。本發(fā)明的第一方面提供了一種基于16srrna基因高可變區(qū)v6的分類方法,該方法包括:提取微生物樣品中的脫氧核糖核酸(dna);對提取dna的宏基因組16srrna核糖體核糖核酸(rrna)的高可變區(qū)(v6)進(jìn)行擴增,得到作為擴增產(chǎn)物的dna片段;對dna片段進(jìn)行pcr-freesolexa建庫,建庫過程中在dna片段上加上標(biāo)簽序列以對每個樣品進(jìn)行標(biāo)記;將各個樣品的帶有標(biāo)簽序列的dna片段進(jìn)行混合,使用solexa測序工具對混合后的dna片段進(jìn)行測序,得到按照標(biāo)簽區(qū)分的測序讀長;利用讀長的重疊關(guān)系組裝得到高可變區(qū)v6的全長序列;對全長序列進(jìn)行分類分析,以實現(xiàn)對微生物群體的分類。優(yōu)選地,該方法還包括:在步驟“提取微生物樣品中的脫氧核糖核酸dna”之前,執(zhí)行微生物群體的取樣。優(yōu)選地,所述對全長序列進(jìn)行分類分析包括:計算全長序列序列差異度;根據(jù)序列差異度執(zhí)行操作分類學(xué)單元otu的分類,將全長序列(uniquereads)分配到otu中;將每一個otu分類中的全長序列比對到16srrna的v6數(shù)據(jù)庫中,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋。優(yōu)選地,根據(jù)序列差異度執(zhí)行操作分類學(xué)單元(otu)的分類是指根據(jù)本領(lǐng)域公知的otu分類中“種”水平之間的差異度將全長序列分配到相應(yīng)的otu中。在本發(fā)明的一個實施方案中,將序列差異度在3%以內(nèi)的全長序列(uniquereads)分配到一個otu中。優(yōu)選地,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋是指如果一個otu中66%以上的比對結(jié)果均為同一個物種,則將該otu注釋為該物種;如果未達(dá)到該比例,則將物種分類信息上移一個水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計,直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。優(yōu)選地,該方法還包括:在步驟“對全長序列進(jìn)行分類分析”之后,基于分類分析結(jié)果,進(jìn)行種群多樣性分析和/或統(tǒng)計得到微生物群體的相對豐度值。優(yōu)選地,步驟“對宏基因組16srrna的高可變區(qū)v6進(jìn)行擴增”是指利用本領(lǐng)域公知的方法擴增dna序列,在本發(fā)明的一個實施方案中,采用聚合酶鏈?zhǔn)椒磻?yīng)(pcr)擴增16srrna的高可變區(qū)v1/v2,所述pcr反應(yīng)的引物為引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt。優(yōu)選地,步驟“對dna片段進(jìn)行pcr-freesolexa建庫,建庫過程中在dna片段上加上標(biāo)簽序列,對每個樣品進(jìn)行標(biāo)記”進(jìn)一步包括:將所述dna片段進(jìn)行純化,對純化后的dna片段進(jìn)行濃度定量,定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基a,然后加上標(biāo)簽序列,再進(jìn)一步加上pcr-free的接頭,最后對樣品進(jìn)行純化。優(yōu)選地,在得到按照標(biāo)簽區(qū)分的原始的測序讀長(reads)后,還包括對所述測序序列進(jìn)行篩選的步驟,以過濾掉低質(zhì)量的測序序列;所述低質(zhì)量的測序序列選自以下序列中的任意一種或數(shù)種:接頭污染序列,含有多個poly(a|t|c|g)的序列、以及含有連續(xù)2個以上的n的序列;優(yōu)選地,步驟“利用讀長的重疊關(guān)系組裝得到高可變區(qū)v1/v2的全長序列(uniquereads)是指按照本領(lǐng)域公知的條件進(jìn)行序列的拼接,例如運用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對讀長進(jìn)行拼接,將其組裝成v1/v2的全長序列。在本發(fā)明的一個實施方案中,拼接的條件是最小匹配長度為s3p,重疊區(qū)域不允許錯配,重疊區(qū)域n所占最大百分比是0.4%;為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次,最終產(chǎn)生的就是v1/v2的序列,如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。本發(fā)明的第二方面提供了一種基于宏基因組16srrna高可變區(qū)v1/v2的分類裝置,所述裝置包括:脫氧核糖核酸dna提取設(shè)備,用于提取微生物樣品中的脫氧核糖核酸dna;擴增設(shè)備,用于對宏基因組16srrna的高可變區(qū)v1/v2進(jìn)行擴增,得到作為擴增產(chǎn)物的dna片段;solexa建庫設(shè)備,用于對dna片段進(jìn)行pcr-freesolexa建庫,建庫過程中在dna片段上加上標(biāo)簽序列,對每個樣品進(jìn)行標(biāo)記;solexa測序設(shè)備,將各個樣品的帶有標(biāo)簽序列的dna片段進(jìn)行混合,使用solexa測序工具對混合后的dna片段進(jìn)行測序,得到按照標(biāo)簽區(qū)分的原始的測序讀長(reads);全長序列組裝設(shè)備,用于利用讀長r的重疊關(guān)系組裝得到高可變區(qū)v1/v2的全長序列(uniquereads);分類設(shè)備,用于對全長序列進(jìn)行分類分析,以實現(xiàn)對微生物群體的分類。優(yōu)選地,該裝置還包括取樣設(shè)備,用于執(zhí)行微生物群體的取樣。優(yōu)選地,分類設(shè)備包括:序列差異度計算單元,用于計算全長序列之間的序列差異度;otu分類單元,用于根據(jù)序列差異度執(zhí)行操作分類學(xué)單元otu的分類,將全長序列(uniquereads)分配到otu中;物種注釋單元,用于將每一個otu分類中的全長序列比對到16srrna的v1/v2數(shù)據(jù)庫中,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋。優(yōu)選地,根據(jù)序列差異度執(zhí)行操作分類學(xué)單元(otu)的分類是指根據(jù)本領(lǐng)域公知的otu分類中“種”水平之間的差異度將全長序列分配到相應(yīng)的otu中。在本發(fā)明的一個實施方案中,將序列差異度在3%以內(nèi)的全長序列分配到一個otu中。優(yōu)選地,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋是指如果一個otu中66%以上的比對結(jié)果均為同一個物種,則將該otu注釋為該物種;如果未達(dá)到該比例,則將物種分類信息上移一個水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計,直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。優(yōu)選地,還可以包括數(shù)據(jù)分析設(shè)備,用于在對全長序列進(jìn)行分類分析之后,對所得到的數(shù)據(jù)結(jié)果進(jìn)行進(jìn)一步分析;所述數(shù)據(jù)分析設(shè)備包括種群多樣性分析單元,用于分析種群多樣性;和/或相對豐度統(tǒng)計單元,用于統(tǒng)計得到微生物群體的相對豐度值。優(yōu)選地,對宏基因組16s核糖體脫氧核糖核酸rdna的高可變區(qū)v1/v2進(jìn)行擴增是指利用本領(lǐng)域公知的方法擴增dna序列,在本發(fā)明的一個實施方案中,采用聚合酶鏈?zhǔn)椒磻?yīng)(pcr)擴增16srdna的高可變區(qū)v1/v2,所述pcr反應(yīng)的引物為引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt。優(yōu)選地,solexa建庫設(shè)備包括:dna片段純化單元,用于將所獲得的dna片段進(jìn)行純化;定量單元,用于對純化后的dna片段進(jìn)行濃度定量;dna片段修飾單元,用于在定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基a,然后加上標(biāo)簽序列,再進(jìn)一步加上pcr-free的接頭;修飾后產(chǎn)物純化單元,用于對修飾后的dna片段進(jìn)行純化。優(yōu)選地,還包括測序序列篩選設(shè)備,用于在得到按照標(biāo)簽區(qū)分的原始的測序讀長(reads)后,對所述測序序列進(jìn)行篩選,以過濾掉低質(zhì)量的測序序列;所述低質(zhì)量的測序序列選自以下序列中的任意一種或數(shù)種:接頭污染序列,含有多個poly(a|t|c|g)的序列、以及含有連續(xù)2個以上的n的序列。優(yōu)選地,所述全長序列組裝設(shè)備按照本領(lǐng)域公知的條件進(jìn)行序列的拼接,例如運用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對讀長(reads)數(shù)據(jù)進(jìn)行拼接,將其組裝成v1/v2的全長序列(uniquereads)。在本發(fā)明的一個實施方案中,拼接的條件是最小匹配長度為^p,重疊區(qū)域不允許錯配,重疊區(qū)域n所占最大百分比是0.4%;為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次,最終產(chǎn)生的就是v1/v2的序列,如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。本發(fā)明提供的基于宏基因組16srrna高可變區(qū)v1/v2的分類方法,采用結(jié)合了加標(biāo)簽技術(shù)的solexa技術(shù),對特定環(huán)境下的微生物群體進(jìn)行了高通量測序,既減少了人力勞動也節(jié)省了經(jīng)濟花費,使得在研究微生物群落結(jié)構(gòu)與健康、環(huán)境因子等的關(guān)系上變得容易可行。具體實施方式現(xiàn)在來詳細(xì)描述本發(fā)明的各種示例性實施例。應(yīng)注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。同時,應(yīng)當(dāng)明白,為了便于描述,所指明的各個部分的尺寸并不是按照實際的比例關(guān)系繪制的。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制。對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說明書的一部分。在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。應(yīng)注意到:相似的標(biāo)號和字母在下面的描述中表示類似項,因此,一旦某一項在一個處被定義,則在隨后的描述中不需要對其進(jìn)行進(jìn)一步討論。下面介紹幾個本發(fā)明技術(shù)方案涉及的概念。微生物群落組成是指特定環(huán)境中全部微小生物的種類及其相對豐度(個數(shù)多少)的總和。它包含了可培養(yǎng)的和未可培養(yǎng)的微生物的基因,目前主要指環(huán)境樣品中的細(xì)菌和真菌的基因組總和。pcr-freesolexa建庫是指對pcr產(chǎn)物進(jìn)行純化,然后進(jìn)行濃度定量。不同樣品取等濃度的量分別進(jìn)行末端修復(fù)(即通過酶反應(yīng)使所有dna雙鏈的粘性末端成為平末端),然后加上堿基“a”,再加上pcr-free的接頭,加完接頭后,對樣品進(jìn)行純化。所述pcr-free的接頭是指測序用的引物序列。標(biāo)簽序列(barcode)是指加在引物5’端前面的一段堿基序列,用于區(qū)分不同的樣本。標(biāo)簽序列可以是由6個堿基組成條形碼序列,標(biāo)簽序列的設(shè)計要符合一定規(guī)則,比如堿基含量和不同堿基數(shù)目等,目的是防止因為個別測序錯誤等原因?qū)е聵?biāo)簽相互之間的混淆,例如可以參考美國專利申請us20100267043a1中公開的方法和原則。讀長(reads)是指solexa測序后產(chǎn)生的測序片段的序列,也稱為測序序列。全長序列(uniquereads)是指讀長(reads)經(jīng)過拼接后產(chǎn)生的v1/v2的全長序列。全長序列的數(shù)目是指將序列相同的全長序列合并后得到的全長序列數(shù)。序列差異度是指兩條序列比對時不同堿基的個數(shù)所占的百分比。下面是分析樣品中微生物群落組成的詳細(xì)步驟。步驟一,提取樣品中的脫氧核糖核酸dna。例如,采用ultracleansoildnakit試劑盒(mobio,usa)從樣品沉積物中提取微生物的dna。步驟二,對樣品中微生物的16s核糖體脫氧核糖核酸rdna的高可變區(qū)v1/v2進(jìn)行擴增,得到作為擴增產(chǎn)物的dna片段。例如利用聚合酶鏈?zhǔn)椒磻?yīng)pcr,使用引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt去擴增微生物群體中細(xì)菌的16s高可變區(qū)v1/v2區(qū)片段。步驟三,對獲得的dna片段進(jìn)行pcr-freesolexa建庫法建庫,建庫過程中在dna片段上加上標(biāo)簽序列,對每個樣品進(jìn)行標(biāo)記。例如,把pcr產(chǎn)物用qiaquickpcrpurificationkit(qiagen)進(jìn)行純化,用分光光度計對所述16s的高可變區(qū)v1/v2的pcr產(chǎn)物進(jìn)行濃度定量。不同樣品取等濃度的量分別進(jìn)行末端修復(fù)(即通過酶反應(yīng)使所有dna雙鏈的粘性末端成為平末端),加“a”,加上標(biāo)簽序列,再加上pcr-free的接頭(i^ir-endlibrarypreparationkit,illumina);加完接頭后,對樣品進(jìn)行純化(用1.8xampurexp磁珠進(jìn)行純化)。有些試劑盒中pcr-free的接頭是帶有標(biāo)簽序列的接頭,這樣可以將加標(biāo)簽序列和加作為引物的接頭一步完成。步驟四,將各個樣品的帶有標(biāo)簽序列的dna片段進(jìn)行混合,使用solexa測序工具對混合后的dna片段進(jìn)行測序,得到按照標(biāo)簽區(qū)分的原始的測序序列reads。例如,直接用illuminagaii(150bppair-end策略)進(jìn)行測序。solexa測序儀(illuminagenomeanalyzer)是新一代的高通量測序儀,測序價格低廉,數(shù)據(jù)讀取量大,相同的測序量的情況下,solexa測序費用是妨4測序費用的十分之一,而且錯誤率低(如單堿基測序錯誤率<10_5),測序無偏性,對于宏基因組,可以真實反映物種的豐度信息。而且得到的測序結(jié)果是已根據(jù)標(biāo)簽序列進(jìn)行區(qū)分的測序讀長reads。步驟五,利用讀長reads的重疊關(guān)系組裝得到高可變區(qū)v1/v2的全長序列(uniquereads)例如,運用拼接軟件對reads數(shù)據(jù)進(jìn)行拼接,得到拼接的結(jié)果。通過序列兩端的重疊關(guān)系將兩端測序得到的序列組裝成v1/v2的全長序列uniquereads。拼接的條件是最小匹配長度為s3p,重疊區(qū)域不允許錯配,n所占最大百分比是0.4%。為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次。最終產(chǎn)生的就是v1/v2的序列。如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。所述拼接軟件可以為merger、cabog、arachne、reps.phrap及newbler等軟件,在本發(fā)明的一個實施例中,應(yīng)用了merger拼接軟件。根據(jù)標(biāo)簽序列即可以把全長序列分配到對應(yīng)的樣品上。步驟六,對全長序列(uniquereads)進(jìn)行分類分析,以實現(xiàn)對微生物群體進(jìn)行高通量的分類。本發(fā)明采用結(jié)合了標(biāo)簽技術(shù)的solexa技術(shù),分辨率大大提高,單個rim上solexa(illumina)能產(chǎn)生比妨4多100倍的reads,因此,僅僅通過測序這么短的長度就能得到很好的分類效果,另外由于結(jié)合了標(biāo)簽技術(shù),能夠在單個lanedllumina高通量測序儀一張芯片有8個通道,每個通道被稱為“l(fā)ane”)上點更多的樣,大大節(jié)約了每個樣品的測序成本。步驟七,對全長序列進(jìn)行分類分析的基本思想為根據(jù)全長序列的序列差異度將其分配到各個otu中,再將每一個otu中的序列比對到16srdna的v1/v2數(shù)據(jù)庫中,得到每一個otu的物種分類。步驟八,計算全長序列uniquereads之間的序列差異度。根據(jù)序列差異度執(zhí)行操作分類學(xué)單元otu的分類,將uniquereads分配到otu中。分配到otu的軟件可以例如為mothur、rdpclassifier、qiime等軟件,在本發(fā)明中采用mothur軟件,其版本為v.1.6.0,下載網(wǎng)址為http://www.mothur.orr/wiki/mainpage0。一般情況下,將序列差異度在3%以內(nèi)的全長序列分配到一個otu中。步驟九,將每一個otu分類中的全長序列uniquereads比對到16srdna數(shù)據(jù)庫中,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋。在本發(fā)明的一個具體實施例中,將比對結(jié)果根據(jù)眾數(shù)原則對otu進(jìn)行物種注釋是指如果一個otu中66%以上的比對結(jié)果均為同一個物種,則將該otu注釋為該物種;如果未達(dá)到該比例,則將物種分類信息上移一個水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計,直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。本發(fā)明首先根據(jù)序列的差異度進(jìn)行聚類分析,將拼接后得到的全長序列按照種的水平分配到不同的otu中,再將otu中的序列比對到16srdnav1/v2數(shù)據(jù)庫中,在最好匹配的基礎(chǔ)上進(jìn)行物種的分類,實現(xiàn)了對復(fù)雜微生物樣品的準(zhǔn)確注釋;而且采用大量平行測序能夠發(fā)現(xiàn)更多的稀有微生物種類。另外,在對全長序列uniquereads進(jìn)行分類的基礎(chǔ)上,還可以基于分類分析結(jié)果,進(jìn)行群多樣性分析和/或統(tǒng)計得到微生物群體的相對豐度值。在本發(fā)明的一個實施方案中,利用mothurcanoco軟件進(jìn)行chaol分析,計算樣品otu的alpha多樣性,可以得到該環(huán)境樣品的物種豐富度;同時,對比對后得到的物種注釋結(jié)果進(jìn)行統(tǒng)計,可以得到各種微生物的相對豐度。其與16s測全長序列在微生物分類和測量群體的相對豐度上具有等同的技術(shù)效果。接下來是一個一個具體實施方式。步驟1、收集蘇州大學(xué)附屬醫(yī)院腸道樣品共15個樣本。提取微生物樣本的基因組dna。所有樣本的dna都采用ultracleansoildnakit(mobio,usa)從腸道樣品中提取出來。步驟2、使用特定的引物進(jìn)行pcr擴增。具體來說,使用引物27f:agagtttgatcmtggctcag和337r:gctgcctcccgtaggagt去擴增微生物群體中細(xì)菌的16s高可變區(qū)v1/v2區(qū)片段。步驟3、對pcr產(chǎn)物進(jìn)行pcr-freesolexa建庫法建庫。具體來說,把pcr產(chǎn)物用qiaquickpcrpurificationkit(qiagen)進(jìn)行純化,用分光光度計對所述16s的高可變區(qū)v1/v2的pcr產(chǎn)物進(jìn)行濃度定量。20個樣本取等濃度的量分別進(jìn)行末端修復(fù)(即通過酶反應(yīng)使所有dna雙鏈的粘性末端成為平末端),接著3′端加“a”,然后3′端加上標(biāo)簽序列,再在3′端力口上pcr-free的接頭(pair-endlibrarypreparationkit,illumina);加完接頭后,對樣品進(jìn)行純化(用1.8xampurexp磁珠進(jìn)行純化)。用12μl的eb(洗脫液,elutionbuffer)進(jìn)行溶解。步驟4、solexa測序。具體來說,可以按照廠家說明書直接用iuminagaii進(jìn)行測序(150bppair-end策略,即讀長為150個堿基的雙末端測序),得到原始的測序讀長reads。而且這些讀長reads已根據(jù)標(biāo)簽序列進(jìn)行了區(qū)分。步驟5、得到原始的測序數(shù)據(jù)后,過濾掉那些低質(zhì)量的數(shù)據(jù)。具體來說,低質(zhì)量的數(shù)據(jù)是指接頭污染序列,含有多個poly(aiticig)的序列、以及含有連續(xù)2個以上的n的序列;如表2所示。接頭污染序列的判斷標(biāo)準(zhǔn)為:若讀長reads與接頭序列可以連續(xù)比對上15bp的長度,則認(rèn)為該reads有接頭污染。含有多個poly(a|t|c|g)的序列,即低復(fù)雜度序列的判斷標(biāo)準(zhǔn)為:若讀長reads中poly(a|t|c|g)序列的長度為10bp,則為低復(fù)雜度序列的讀長reads。步驟6、利用讀長(reads)的重疊關(guān)系來組裝v1/v2的全長序列。具體來說,通過所述pair-end的reads重疊區(qū)來組裝高可變區(qū)v1/v2的序列。運用merger拼接軟件(http://emboss,sourceforge.net/apps/release/6.2/emboss/apps/merger,html)對讀長reads數(shù)據(jù)進(jìn)行拼接,得到拼接的結(jié)果,即通過重疊關(guān)系將兩條兩端測序得到的序列組裝成一條序列。拼接的條件是最小匹配長度為s3p,重疊區(qū)域不允許錯配,重疊區(qū)域n所占最大百分比是0.4%。為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次。最終產(chǎn)生的就是v1/v2的全長序列。如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。利用mothur所帶unique程序去冗余,統(tǒng)計就能得到全長序列uniquereads的個數(shù)。所述去冗余是指將序列相同的全長序列合并為一條。通過條形碼標(biāo)簽序列把全長序列都對應(yīng)到相應(yīng)的樣品上。步驟7、執(zhí)行otu(operationaltaxonomicunit,操作分類學(xué)單元)的分類。使用blast軟件對樣品的全長序列(uniquereads)進(jìn)行差異度計算,根據(jù)全長序列之間的差異,利用mothur(mothur(v.1.6.0)http://www.mothur.org/wiki/main_page)對uniquereads進(jìn)行otu分類。差異度在3%以內(nèi)(相當(dāng)于分類水平中“種”的水平)的uniquereads被聚為一個otu。步驟8、對各otu進(jìn)行物種注釋。使用blastn將otu中的tags序列比對到16srdna數(shù)據(jù)庫refhvr_v1/v2(http://vamps,mbl.edu/resources/databases,php)中。將得到的blast結(jié)果根據(jù)眾數(shù)原則,對out進(jìn)行注釋,如果一個otu中66%(三分之二)的比對結(jié)果均為同一個物種,則將該otu注釋為該物種。如果未達(dá)到該比例,則將物種分類信息上移一個水平(從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計,直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。步驟9、數(shù)據(jù)分析。具體來說,基于步驟8的otu分類的結(jié)果,采用mothur.軟件進(jìn)行chaol,即群落內(nèi)的多樣性分析,計算樣品otu的alpha多樣性。alpha多樣性是一個環(huán)境中物種的多樣性分析的結(jié)果。aiarmon,npsharmon模型計算的結(jié)果越大表示該環(huán)境的物種越豐富。simpson模型的結(jié)果越接近于0表示物種越豐富,結(jié)果如表3所示。同時對步驟9中得到的otu注釋結(jié)果進(jìn)行統(tǒng)計,得到表4所示的微生物群體的相對豐度值。并根據(jù)各樣品的otu數(shù)量及其序列總數(shù)量繪制其稀釋(rarefaction)曲線。表1,各樣品經(jīng)solexa測序得到的讀長及全長序列數(shù)目。樣品名稱測序讀長(reads)數(shù)目全長序列數(shù)目腸道樣品1800,00075,234腸道樣品2800,00084,234腸道樣品3800,00069,034腸道樣品4800,00076,452腸道樣品5800,00089,739腸道樣品6800,00087,192腸道樣品7800,00098,034腸道樣品8800,00087,391腸道樣品9800,00057,298腸道樣品10800,00066,98l腸道樣品11800,00069,820腸道樣品12800,00076,892腸道樣品13800,00079,801腸道樣品14800,00082,103腸道樣品15800,00083,296表2,各樣品alpha多樣性指數(shù)。部分樣品里結(jié)果代表性微生物種的相對豐度。當(dāng)前第1頁12