国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      篩選甲基化檢測標志物的方法與流程

      文檔序號:40278174發(fā)布日期:2024-12-11 13:13閱讀:24來源:國知局
      篩選甲基化檢測標志物的方法與流程

      本技術(shù)涉及生物信息領(lǐng)域,尤其涉及基于生物信息學的方法篩選基于甲基化檢測的標志物的方法,及所述標志物的用途。


      背景技術(shù):

      1、針對各種癌癥類型,臨床上有對應(yīng)的檢測手段,但是那些能作為檢測金標準的方法,往往檢測成本高,而且侵入性大,極大地影響了人們的檢測意愿,這也是導致目前癌癥早篩普及率低的重要原因。而近年來,血漿游離dna(cell?free?dna,cfdna)在無創(chuàng)產(chǎn)前診斷和疾病檢測等領(lǐng)域中的一些成功應(yīng)用,展現(xiàn)出其作為新一代分子標志物的巨大前景。其中,異常的cfdna甲基化模式是極具潛力的疾病診斷分子標志物。

      2、cfdna在細胞死亡時作為正常細胞更新或病理的一部分進入循環(huán)。在健康人中,血漿中的大部分游離dna分子來自血細胞。當器官或組織出現(xiàn)細胞死亡增加的病理時,來自累及組織或器官的更多游離細胞dna將存在于循環(huán)中,由于dna甲基化存在明顯的組織差異,特定組織或器官來源的cfdna的增加,會改變其正常的甲基化模式,另外由于生理狀態(tài)改變導致特定組織或器官甲基化模式的改變,當其進入血液循環(huán),也會影響血漿cfdna甲基化模式。因此特定組織來源cfdna比例的改變,或者特點組織來源cfdna甲基化模式的改變,均能帶來最終血漿游離dna甲基化模式的異常,因而從患者血漿游離dna中識別出異常的甲基化模式,可以有效診斷出其患病狀態(tài),以及定位出其患病的組織或器官。

      3、然而,癌癥早期血漿中極低的腫瘤游離dna(ctdna)含量,以及腫瘤內(nèi)部和腫瘤之間的異質(zhì)性,給基于cfdna的癌癥早篩帶來了巨大的挑戰(zhàn)。由于癌癥早期血漿中極低的腫瘤游離dna(ctdna)含量,傳統(tǒng)的高深度測序或小panel等檢測方法,只能捕獲到極少量的ctdna片段,導致極高的假陰性(false?negatives)檢測結(jié)果。另外,傳統(tǒng)的甲基化定量方法,即beta值,定義為一個cpg位點上甲基化read數(shù)量的占比,其對于微量的ctdna帶來的甲基化水平改變不敏感,難以與隨機噪聲區(qū)別開。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)提供了一種甲基化標志物的篩選方法,使用所述篩選方法篩選獲得的甲基化標志物,使用所述甲基化標志物區(qū)分健康人群與患病人群的方法。其中,在一些實施方案中,健康人群與患病人群的所述甲基化標志物在cfdna中具有區(qū)分度。在一些實施方案中,所述患病人群是食管癌患者人群。在一些實施方案中,所述甲基化標志物相較于其他標志物對于健康人群與患病人群的區(qū)分具有更高的靈敏度。

      2、具體地,本技術(shù)涉及:

      3、1、一種篩選用于甲基化檢測的標志物的方法,包括:

      4、(1)確定候選區(qū)的步驟,包括:

      5、獲取基于組織的第一目標數(shù)據(jù),所述第一目標數(shù)據(jù)為甲基化測序數(shù)據(jù),其包含各cpg位點在該組織細胞類型中的甲基化水平信息;

      6、基于所述第一目標數(shù)據(jù)確定候選區(qū),所述候選區(qū)是指包含x個以上cpg位點且所述候選區(qū)的全部cpg位點在該組織細胞類型中的甲基化水平相當;

      7、(2)從候選區(qū)選取標志物的步驟,包括:

      8、獲取各候選區(qū)在第一人群和第二人群各樣本中的第二目標數(shù)據(jù),其中所述第二目標數(shù)據(jù)為基于各候選區(qū)在各樣本中的甲基化測序數(shù)據(jù)統(tǒng)計計算后獲得的數(shù)據(jù),

      9、將第二目標數(shù)據(jù)在第一人群和第二人群中差異達到一定程度的候選區(qū)作為基于甲基化檢測的標志物,

      10、其中第一人群和第二人群是具有不同特征且所述特征不重合的兩類人群。

      11、其中,使得所述候選區(qū)的全部cpg位點在該組織細胞類型中的甲基化水平相當是必要的,因為相鄰cpg位點之間常常組成一個連續(xù)的甲基化功能性區(qū)域,具有一致的甲基化模式,因此要求候選區(qū)域內(nèi)cpg位點甲基化模式一致符合生物學規(guī)律,具有生物學意義。

      12、2、根據(jù)項1的方法,其中x的取值為3至6,優(yōu)選為4。當x取值范圍小于3時,會導致有效cpg位點太少,對read的甲基化程度的估計誤差較大;當x取值范圍大于6時,則容易導致候選區(qū)域過大,增加panel設(shè)計的成本,并且經(jīng)過驗證也是不必要的。

      13、3.根據(jù)項1所述的方法,在從候選區(qū)選取標志物的步驟中,

      14、對于每一個候選區(qū),從每一個樣本獲取z個序列不相同的甲基化測序讀段(read),且每個read包含至少y個cpg位點的數(shù)據(jù),獲取每個read的甲基化水平;

      15、對于每個樣本的每個候選區(qū)的z個read,計算其中甲基化水平位于特定數(shù)值范圍內(nèi)的read的個數(shù)與z的比值,即為該樣本該候選區(qū)的第二目標數(shù)據(jù)。

      16、基于所述第二目標數(shù)據(jù)的差異程度,本領(lǐng)域技術(shù)人員可方便地區(qū)分出第一目標人群及第二目標人群。4、根據(jù)項3的方法,其中y=x。此處用于限定各read中cpg位點個數(shù)的下限,當y數(shù)量過小時會導致有效cpg位點太少,對read的甲基化程度的估計誤差較大。

      17、5.根據(jù)項3所述的方法,其中所述read的甲基化水平為該read中甲基化的cpg位點數(shù)量與該read中全部cpg位點數(shù)量的比值。

      18、6、根據(jù)項3的方法,其中所述z個read覆蓋該候選區(qū)的50%至100%的cpg位點,優(yōu)選為75%的cpg位點。當read覆蓋的cpg位點比例過小時,有效cpg位點太少,對read的甲基化程度的估計誤差較大;當read覆蓋的cpg位點比例過大時,條件過于嚴苛,容易導致滿足該條件的有效read過少;

      19、7、根據(jù)項3的方法,其中z至少為30至50。所述z的取值范圍是經(jīng)過發(fā)明人優(yōu)化的合適取值范圍,因為當z值過小時,有效read數(shù)量太少,對候選區(qū)域甲基化程度的估計誤差較大;而當z值過大時則條件過于嚴苛,容易導致滿足該條件的有效區(qū)間過少;

      20、8、根據(jù)項3的方法,其中所述特定數(shù)值范圍為0至1中的任一子范圍,優(yōu)選為:0至25%、>25%且<75%或75%至1。在所述實施方案中,所述特定數(shù)值范圍是0至1三等分范圍中的任一個。

      21、9、根據(jù)項1-8中任一項所述的方法,其中,

      22、所述第一人群為罹患目標疾病的人群,第二人群為未罹患目標疾病的人群。

      23、10、根據(jù)項9所述的方法,其中,候選區(qū)的第二目標數(shù)據(jù)在第一人群和第二人群中差異達到一定程度是指:

      24、基于該候選區(qū)的第二目標數(shù)據(jù)區(qū)分第一人群和第二人群的靈敏度(sensitivity)達到一定程度。

      25、11、根據(jù)項10所述的方法,其中候選區(qū)的所述靈敏度是指:

      26、當?shù)诙巳旱牡诙繕藬?shù)據(jù)的中位數(shù)小于第一人群的第二目標數(shù)據(jù)的中位數(shù)時,該候選區(qū)在第一人群中的第二目標數(shù)據(jù)大于或等于判別閾值的樣本與第一人群總樣本的比值,其中,所述判別閾值大于等于該候選區(qū)的第二目標數(shù)據(jù)在第二人群中的50%分位數(shù),優(yōu)選55%分位數(shù)、60%分位數(shù)、65%分位數(shù)、70%分位數(shù)、75%分位數(shù)、80%分位數(shù)、85%分位數(shù)、90%分位數(shù)或95%分位數(shù);或

      27、當?shù)诙巳旱牡诙繕藬?shù)據(jù)的中位數(shù)大于第一人群的第二目標數(shù)據(jù)的中位數(shù)時,該候選區(qū)在第一人群中的第二目標數(shù)據(jù)小于或等于判別閾值的樣本與第一人群總樣本的比值,其中所述判別閾值小于等于該候選區(qū)的第二目標數(shù)據(jù)在第二人群中的50%分位數(shù),優(yōu)選45%分位數(shù)、40%分位數(shù)、35%分位數(shù)、30%分位數(shù)、25%分位數(shù)、20%分位數(shù)、15%分位數(shù)、10%分位數(shù)或5%分位數(shù)。

      28、12、根據(jù)項11所述的方法,其中,候選區(qū)的所述靈敏度達到一定程度是指:

      29、將各候選區(qū)按照靈敏度值從高至低進行整體排序,所述候選區(qū)的所述靈敏度在排序中位于前w位的候選區(qū)間。

      30、13、根據(jù)項12的方法,其中w的取值范圍為5至50,優(yōu)選為20。

      31、其中判別閾值決定了將候選區(qū)作為標志物以區(qū)分第一人群和第二人群的精確度。因為標志物的用途是準確區(qū)分第一人群和第二人群,所以靈敏度只有在精確度達到一定程度的情況下才有意義?,F(xiàn)有技術(shù)中,通常甲基化標志物能夠達到的精確度為60%,而本技術(shù)在確保80%以上精確度的前提下,還通過大量試驗確定了參數(shù)w的取值范圍。當w小于5時,用于后續(xù)建模的標志物太少,模型性能在測試集中表現(xiàn)不佳auc為0.71,繼續(xù)增加標志物數(shù)量,可以帶來模型性能的提升;當w大于50時,用于后續(xù)建模的標志物過多,模型過擬合,模型性能有所下降,而當w為約20,例如15、16、17、18、19、20、21、22、23、24或25時,則模型性能處于性能提升的拐點附近。

      32、14.根據(jù)項1所述的方法,其中所述候選區(qū)的cpg位點在至少兩種組織細胞類型的甲基化水平不同,可保證候選區(qū)域具有最基礎(chǔ)的生物學差異性,能夠為后續(xù)的標志物篩選和建模提供可用的生物學信息。

      33、15、根據(jù)項14的方法,其中所述至少兩種組織細胞類型選自:

      34、脂肪細胞,膀胱上皮細胞,血液b細胞,血液粒細胞,血液單核細胞,血液nk細胞,血液t細胞,成骨細胞,乳房基底上皮細胞,乳房導管上皮細胞,結(jié)腸上皮細胞,結(jié)腸成纖維細胞,皮膚成纖維細胞,子宮內(nèi)膜上皮細胞,表皮角質(zhì)形成層細胞,骨髓紅系祖細胞,食管上皮細胞,輸卵管上皮細胞,膽囊上皮細胞,胃粘膜上皮細胞,心肌細胞,心臟成纖維細胞,腎上皮細胞,肝細胞,肺泡上皮細胞,肺支氣管上皮細胞,神經(jīng)元細胞,少突膠質(zhì)細胞,卵巢上皮細胞,胰腺腺泡細胞,胰腺α細胞,胰腺β細胞,胰腺δ細胞,胰腺導管細胞,前列腺上皮細胞,骨骼肌細胞,小腸上皮細胞和甲狀腺上皮細胞。

      35、16、根據(jù)項1的方法,其中所述樣本為血液樣本,所述血液樣本選自:全血、血漿或血清。

      36、當所述標志物用于通過血液樣本來區(qū)分來自第一人群及第二人群時,由于血液樣本中可包含來自身體各組織細胞的cfdna,因此,本技術(shù)的標志物優(yōu)選地具有通過甲基化測序數(shù)據(jù)區(qū)分上述組織細胞類型的能力。所述組織細胞類型不限于上述組織細胞,只要經(jīng)篩選的標志物中各cpg位點的甲基化程度在至少兩種組織細胞中具有區(qū)分度即可。所述區(qū)分度根據(jù)統(tǒng)計方法的不同,可以具有差異。

      37、17、根據(jù)項9的方法,其中所述目標疾病選自癌癥、肝病、非酒精性脂肪性肝炎、代謝疾病、自身免疫疾病、心血管疾病、高血壓、全身性高血壓、肺動脈高血壓、血管疾病、動脈粥樣硬化、糖尿病性血管疾病、血管鈣化、心律失常、心力衰竭、肥大、纖維化、心肌細胞增殖和凋亡、炎癥、糖尿病性心肌病、血管生成、神經(jīng)障礙、病毒性疾病、藥物成癮、由藥物成癮引起的病況、脂肪組織增加、胰島素抗性、骨質(zhì)疏松癥中的一種或兩種以上;

      38、優(yōu)選地,

      39、所述癌癥選自肝癌、肺癌、胰腺癌、乳腺癌、宮頸癌、子宮內(nèi)膜癌、大腸癌、鼻咽癌、卵巢癌、前列腺癌癥、皮膚癌、膀胱癌、胃癌、前列腺癌、結(jié)腸癌、骨癌、腦癌、直腸癌、食管癌、舌癌、腎癌、子宮體癌、睪丸癌、泌尿癌、黑素癌、星型細胞癌、腦膜瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、急性淋巴性白血病、慢性淋巴性白血病、急性骨髓性白血病、慢性粒細胞白血病、成人t細胞白血病淋巴瘤、肝細胞癌、支氣管癌、多發(fā)性骨髓瘤、基底細胞瘤、精原細胞瘤、軟骨肉瘤、肌肉瘤、纖維肉瘤中的任一種。

      40、18、根據(jù)項9的方法,其中,所述目標疾病為食管癌。

      41、通過本技術(shù)的篩選用于甲基化檢測的標志物的方法,可以根據(jù)不同疾病調(diào)節(jié)前述各項中涉及的參數(shù)以實現(xiàn)篩選所述標志物的目的。尤其,在本技術(shù)的實施例中,針對食管癌,使用本技術(shù)的篩選用于甲基化檢測的標志物的方法可以使得經(jīng)所述方法篩選的標志物具有0.833特異性的情況下,達到0.923的靈敏度。

      42、19、根據(jù)項1的方法,其中所述第一人群與第二人群的樣本數(shù)量的比值為2:1至1:2,優(yōu)選為1:1。在理想的建模實踐中,要求不同分組樣本盡可能地保持均勻,即要求兩組樣本比值接近1:1,而實際應(yīng)用中難以做到,但是至少需要保證任意一組樣本的數(shù)量不超過另外一組的兩倍。

      43、20、根據(jù)項1的方法,其中所述第一人群與第二人群的樣本數(shù)量不小于20至50,優(yōu)選為不小于30。樣本量越大則可用于建模與模型評估的樣本越多,得到的模型越穩(wěn)定,模型評估的結(jié)果也越可靠,但是相應(yīng)的成本會大大增加。而20至50的樣本數(shù)量范圍可以在較低成本下實現(xiàn)臨床所需的特異性及更高的靈敏度。

      44、21、構(gòu)建用于區(qū)分第一人群和第二人群的模型的方法,其包含:

      45、從第一人群及第二人群的樣本中獲取標志物的甲基化測序統(tǒng)計數(shù)據(jù);

      46、將所述統(tǒng)計數(shù)據(jù)作為輸入構(gòu)建二分類判別模型;

      47、其中,所述標志物為:

      48、利用項1-20中任一項的方法得到的標志物,或

      49、選自下表的兩種以上或全部標志物:

      50、

      51、

      52、如本技術(shù)實施例所示,將通過利用項1-20中任一項的方法得到的標志物或上表中的標志物中的一個或多個,例如20個,用于構(gòu)建模型以區(qū)分第一人群和第二人群可在滿足特異性為0.833的前提下,達到0.923的靈敏度。

      53、22、根據(jù)項21所述的方法,其中所述構(gòu)建二分類判別模型的方法選自:

      54、隨機森林法,邏輯回歸,及支持向量機。

      55、23、根據(jù)項22所述的方法,其中獲取標志物的甲基化測序統(tǒng)計數(shù)據(jù)的步驟包括:

      56、針對所述標志物,從每一個樣本獲取z個序列不相同的甲基化測序讀段(read),且每個read包含至少y個cpg位點的數(shù)據(jù),獲取每個read的甲基化水平;

      57、對于每個樣本的每個標志物的z個read,計算其中甲基化水平位于特定數(shù)值范圍內(nèi)的read的個數(shù)與z的比值,即為該樣本該標志物的所述甲基化測序統(tǒng)計數(shù)據(jù)。

      58、24、根據(jù)項23所述的方法,其中所述read的甲基化水平為該read中甲基化的cpg位點數(shù)量與該read中全部cpg位點數(shù)量的比值。

      59、25、根據(jù)項24所述的方法,其中所述z個read覆蓋所述標志物的50%至100%的cpg位點,優(yōu)選為75%的cpg位點。

      60、26、根據(jù)項23所述的方法,其中z至少為30,優(yōu)選為≥50。

      61、27、根據(jù)項23所述的方法,其中所述特定數(shù)值范圍為0至1,優(yōu)選為:0至25%、>25%且<75%或75%至1。

      62、28、使用根據(jù)項21至27中任一項所述的方法構(gòu)建的模型區(qū)分第一人群和第二人群的方法。

      63、29、根據(jù)項21或28的方法,其中所述第一人群為罹患目標疾病的人群,第二人群未罹患目標疾病的人群,所述目標疾病選自癌癥、肝病、非酒精性脂肪性肝炎、代謝疾病、自身免疫疾病、心血管疾病、高血壓、全身性高血壓、肺動脈高血壓、血管疾病、動脈粥樣硬化、糖尿病性血管疾病、血管鈣化、心律失常、心力衰竭、肥大、纖維化、心肌細胞增殖和凋亡、炎癥、糖尿病性心肌病、血管生成、神經(jīng)障礙、病毒性疾病、藥物成癮、由藥物成癮引起的病況、脂肪組織增加、胰島素抗性、骨質(zhì)疏松癥中的一種或兩種以上;

      64、優(yōu)選地,

      65、所述癌癥選自肝癌、肺癌、胰腺癌、乳腺癌、宮頸癌、子宮內(nèi)膜癌、大腸癌、鼻咽癌、卵巢癌、前列腺癌癥、皮膚癌、膀胱癌、胃癌、前列腺癌、結(jié)腸癌、骨癌、腦癌、直腸癌、食管癌、舌癌、腎癌、子宮體癌、睪丸癌、泌尿癌、黑素癌、星型細胞癌、腦膜瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、急性淋巴性白血病、慢性淋巴性白血病、急性骨髓性白血病、慢性粒細胞白血病、成人t細胞白血病淋巴瘤、肝細胞癌、支氣管癌、多發(fā)性骨髓瘤、基底細胞瘤、精原細胞瘤、軟骨肉瘤、肌肉瘤、纖維肉瘤中的任一種。

      66、30、一種探針組合物,包含靶向選自下表的一種或多種標志物的探針:

      67、 標志物編號 染色體 起始位置 終止位置 目標基因 1 chr1 224804716 224805088 cnih3 2 chr2 38302118 38302190 cyp1b1 3 chr3 27766032 27766367 eomes 4 chr4 113432549 113432657 neurog2 5 chr4 134073584 134073906 pcdh10 6 chr5 3594738 3595978 irx1 7 chr5 16179012 16179268 marchf11 8 chr6 100055731 100056756 prdm13 9 chr6 105388800 105388961 lin28b-as1 10 chr10 22623460 22623607 spag6 11 chr11 20181456 20182036 dbx1 12 chr12 113917865 113918236 lhx5 13 chr13 28500781 28501299 pdx1 14 chr13 53775490 53775596 olfm4 15 chr14 29237294 29237532 foxg1 16 chr14 37132008 37132598 pax9 17 chr14 60977414 60977962 six6 18 chr18 13868635 13869240 mc5r 19 chr18 25755415 25756043 cdh2 20 chr19 54481832 54482102 mir935

      68、31、一種甲基化測序組合物,包含靶向選自下表的一種或多種標志物的引物:

      69、 標志物編號 染色體 起始位置 終止位置 目標基因 1 chr1 224804716 224805088 cnih3 2 chr2 38302118 38302190 cyp1b1 3 chr3 27766032 27766367 eomes 4 chr4 113432549 113432657 neurog2 5 chr4 134073584 134073906 pcdh10 6 chr5 3594738 3595978 irx1 7 chr5 16179012 16179268 marchf11 8 chr6 100055731 100056756 prdm13 9 chr6 105388800 105388961 lin28b-as1 10 chr10 22623460 22623607 spag6 11 chr11 20181456 20182036 dbx1 12 chr12 113917865 113918236 lhx5 13 chr13 28500781 28501299 pdx1 14 chr13 53775490 53775596 olfm4 15 chr14 29237294 29237532 foxg1 16 chr14 37132008 37132598 pax9 17 chr14 60977414 60977962 six6 18 chr18 13868635 13869240 mc5r 19 chr18 25755415 25756043 cdh2 20 chr19 54481832 54482102 mir935

      70、綜上所述,本技術(shù)的實施方案通過對甲基化測序數(shù)據(jù)的創(chuàng)新性處理方法,以及對該方法各參數(shù)的逐一優(yōu)化,可以在樣本量較小(20至50個)的情況下,實現(xiàn)對甲基化標志物的篩選。并且經(jīng)過所述方法篩選的甲基化標志物可用于二分類判別模型的訓練,使得經(jīng)過訓練的二分類判別模型在特異性不低于80%的前提下,區(qū)分患病與非患病人群的精確度超過90%。此外,經(jīng)過該方法篩選的甲基化標志物可用于區(qū)分不同組織來源的dna,因此還可用于血液cfdna樣本的檢測,在通過手術(shù)或穿刺獲取組織樣本之前,花更小的代價實現(xiàn)癌癥的早期篩查。

      71、以上詳細描述了本技術(shù)的優(yōu)選實施方式,但是,本技術(shù)并不限于此。在本技術(shù)的技術(shù)構(gòu)思范圍內(nèi),可以對本技術(shù)的技術(shù)方案進行多種簡單變型,包括各個技術(shù)特征以任何其它的合適方式進行組合,這些簡單變型和組合同樣應(yīng)當視為本技術(shù)所公開的內(nèi)容,均屬于本技術(shù)的保護范圍。本文描述的本技術(shù)的方面和實施方式包括“包含”,“組成”和“基本上由……組成”的方面和實施方式。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1