本發(fā)明涉及生化檢測(cè),尤其涉及一種基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法、系統(tǒng)及設(shè)備。
背景技術(shù):
1、基于毛細(xì)管電泳技術(shù)的基因分析儀可應(yīng)用于sanger測(cè)序與基因片段分析。毛細(xì)管電泳是以石英毛細(xì)管為分離通道,以高壓直流電場(chǎng)為驅(qū)動(dòng)力,充填多孔凝膠作為支持介質(zhì),通過溫度控制保證凝膠的孔徑分布于dna構(gòu)象。當(dāng)dna分子的大小與凝膠孔徑相當(dāng)時(shí),其淌度與尺寸大小有關(guān),短片段受到的阻礙較小,從毛細(xì)管中涌動(dòng)較快,長片段受到的阻礙較大,從毛細(xì)管中涌動(dòng)較慢。因dna分子帶負(fù)電,在毛細(xì)管兩端加上直流高壓電后,通過電進(jìn)樣的方式,標(biāo)記了熒光基團(tuán)的dna會(huì)從毛細(xì)管陰極端口進(jìn)入毛細(xì)管,并向陽極涌動(dòng),不同長度的dna分子會(huì)先后通過檢測(cè)窗口,當(dāng)某一dna分子經(jīng)過光學(xué)檢測(cè)窗口時(shí),通過激光激發(fā)dna上的熒光基團(tuán)而產(chǎn)生熒光,從而被光譜儀采集,光譜儀將光信號(hào)轉(zhuǎn)換為電信號(hào)再轉(zhuǎn)換為數(shù)字信號(hào)。將原始的數(shù)字信號(hào)進(jìn)行處理后,通過分析軟件分析,就可獲得dna分子的堿基序列或相對(duì)片段長度。
2、在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中實(shí)現(xiàn)基因分析儀檢測(cè)光譜信息處理時(shí)存在以下問題:由于激光背景、基底拉曼信號(hào)、光譜儀暗噪聲等問題,不同波段采集出的信號(hào)基線不一致,導(dǎo)致無法直接通過信號(hào)強(qiáng)度判斷dna種類與含量;對(duì)于毛細(xì)管電泳基因分析數(shù)據(jù),數(shù)據(jù)采集時(shí)間較長,數(shù)據(jù)峰較多,在實(shí)現(xiàn)數(shù)據(jù)點(diǎn)識(shí)別處理時(shí),往往會(huì)造成峰無法準(zhǔn)確識(shí)別,進(jìn)而造成內(nèi)標(biāo)峰錯(cuò)誤匹配或無法匹配的情況,最終導(dǎo)致檢出片段長度錯(cuò)誤。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法、系統(tǒng)及設(shè)備。
2、本發(fā)明的一個(gè)方面,提供了一種基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法,所述方法包括:
3、s11、對(duì)基因分析儀電泳過程中采集的光譜信號(hào)進(jìn)行峰識(shí)別,以篩選出當(dāng)前光譜信號(hào)中包含的候選峰序列;
4、s12、按照采樣先后順序依次對(duì)候選峰序列中的候選峰與電泳過程所選內(nèi)標(biāo)物對(duì)應(yīng)的標(biāo)準(zhǔn)光譜信號(hào)中的標(biāo)準(zhǔn)峰序列進(jìn)行內(nèi)標(biāo)匹配,以找到候選峰序列中存在的符合預(yù)設(shè)的內(nèi)標(biāo)匹配條件的候選峰組合;內(nèi)標(biāo)匹配條件包括第一距離與第二距離之間的差值的絕對(duì)值小于預(yù)設(shè)的距離誤差閾值,且,max{候選峰組合中已選定候選峰的峰高度,當(dāng)前待匹配候選峰的峰高度}/min{候選峰組合中已選定候選峰的峰高度,當(dāng)前待匹配候選峰的峰高度}<預(yù)設(shè)的相對(duì)高度閾值,其中,第一距離為候選峰序列中相鄰候選峰峰值點(diǎn)之間的距離,第二距離為標(biāo)準(zhǔn)峰序列中與當(dāng)前計(jì)算第一距離的候選峰采樣順序相同的相鄰標(biāo)準(zhǔn)峰峰值點(diǎn)之間的距離;
5、s13、以每一候選峰組合作為匹配基礎(chǔ)對(duì)候選峰序列中其他候選峰依次進(jìn)行內(nèi)標(biāo)匹配,得到每一候選峰組合對(duì)應(yīng)的匹配結(jié)果;
6、s14、統(tǒng)計(jì)每一候選峰組合對(duì)應(yīng)的匹配結(jié)果中包含的候選峰數(shù)量;
7、s15、當(dāng)各個(gè)候選峰組合對(duì)應(yīng)的匹配結(jié)果中包含的候選峰數(shù)量的最大值等于標(biāo)準(zhǔn)峰序列中包含的標(biāo)準(zhǔn)峰數(shù)量時(shí),則判定內(nèi)標(biāo)匹配成功,并將所述最大值對(duì)應(yīng)的匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果。
8、可選地,在將所述最大值對(duì)應(yīng)的匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果之后,所述方法包括:
9、將標(biāo)準(zhǔn)峰序列和最優(yōu)內(nèi)標(biāo)匹配結(jié)果的峰序列進(jìn)行曲線擬合,將曲線擬合后的標(biāo)準(zhǔn)差、平均殘差和最大殘差作為當(dāng)前最優(yōu)內(nèi)標(biāo)匹配結(jié)果的特征數(shù)據(jù);
10、將所述特征數(shù)據(jù)輸入預(yù)設(shè)的內(nèi)標(biāo)匹配評(píng)分模型進(jìn)行識(shí)別,以得到當(dāng)期最優(yōu)內(nèi)標(biāo)匹配結(jié)果的匹配程度評(píng)分。
11、可選地,所述方法還包括內(nèi)標(biāo)匹配評(píng)分模型的訓(xùn)練步驟,具體包括:
12、將預(yù)設(shè)的不同內(nèi)標(biāo)匹配情況下的樣本數(shù)據(jù)對(duì)應(yīng)的曲線擬合后的標(biāo)準(zhǔn)差、平均殘差和最大殘差作為對(duì)應(yīng)樣本的樣本特征數(shù)據(jù),將正確的內(nèi)標(biāo)匹配結(jié)果的樣本數(shù)據(jù)設(shè)為正類,將不正確的內(nèi)標(biāo)匹配結(jié)果的樣本數(shù)據(jù)設(shè)為負(fù)類,得到訓(xùn)練數(shù)據(jù)集;
13、采用hinge損失作為模型訓(xùn)練的損失函數(shù),采用sigmoid函數(shù)歸一化分類結(jié)果,基于預(yù)設(shè)的機(jī)器學(xué)習(xí)模型對(duì)所述訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,得到訓(xùn)練好的內(nèi)標(biāo)匹配評(píng)分模型。
14、可選地,所述方法還包括:
15、若每一候選峰組合對(duì)應(yīng)的匹配結(jié)果中包含的候選峰數(shù)量的最大值均不等于標(biāo)準(zhǔn)峰序列中包含的標(biāo)準(zhǔn)峰數(shù)量,則根據(jù)預(yù)設(shè)的第一閾值調(diào)整規(guī)則更新所述距離誤差閾值,并返回步驟s12,直到更新后的距離誤差閾值大于距離誤差閾值的最大值;
16、當(dāng)更新后的距離誤差閾值大于距離誤差閾值的最大值時(shí),根據(jù)預(yù)設(shè)的第二閾值調(diào)整規(guī)則更新所述相對(duì)高度閾值,且將距離誤差閾值更新為對(duì)應(yīng)的初始值,并返回步驟s12,直到更新后的相對(duì)高度閾值大于相對(duì)高度閾值的最大值;
17、當(dāng)更新后的相對(duì)高度閾值大于相對(duì)高度閾值的最大值時(shí),則判定內(nèi)標(biāo)匹配失敗。
18、可選地,在對(duì)基因分析儀電泳過程中采集的光譜信號(hào)進(jìn)行峰識(shí)別之前,所述方法還包括:對(duì)所述光譜信號(hào)進(jìn)行數(shù)據(jù)前處理的步驟;
19、對(duì)所述光譜信號(hào)進(jìn)行數(shù)據(jù)前處理,包括
20、采用預(yù)設(shè)的局部自適應(yīng)多項(xiàng)式擬合算法濾除所述光譜信號(hào)的背景噪聲;
21、采用savitzky-golay多項(xiàng)式平滑算法對(duì)濾除背景噪聲后的光譜信號(hào)進(jìn)行平滑處理。
22、可選地,所述步驟s11具體包括:
23、識(shí)別所述光譜信號(hào)中的極大值點(diǎn),計(jì)算各個(gè)極大值點(diǎn)對(duì)應(yīng)波峰信號(hào)的峰特征,所述峰特征包括峰高度、底峰寬、半高寬、峰間距和鄰近點(diǎn)下降高度中的一個(gè)或多個(gè)特征;
24、按照峰高度、半高寬、峰間距、鄰近點(diǎn)下降的最小高度、底峰寬的順序依次對(duì)每一各個(gè)極大值點(diǎn)對(duì)應(yīng)波峰信號(hào)的峰特征進(jìn)行篩選,將得到的滿足各個(gè)峰特征對(duì)應(yīng)閾值要求的波峰信號(hào)作為候選峰以形成候選峰序列。
25、可選地,所述步驟s12具體包括:
26、獲取候選峰序列中任意相鄰候選峰峰值點(diǎn)之間的距離,以及獲取標(biāo)準(zhǔn)峰序列中任意相鄰標(biāo)準(zhǔn)峰峰值點(diǎn)之間的距離;
27、根據(jù)預(yù)設(shè)的候選峰組合中包含候選峰的數(shù)量按照采樣先后順序從候選峰序列中匹配出相應(yīng)數(shù)量的符合預(yù)設(shè)的內(nèi)標(biāo)匹配條件的候選峰,得到候選峰組合。
28、可選地,將所述最大值對(duì)應(yīng)的匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果包括:
29、若與最大值對(duì)應(yīng)的匹配結(jié)果只有一個(gè),則將與最大值對(duì)應(yīng)的匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果;
30、若與最大值對(duì)應(yīng)的匹配結(jié)果大于一個(gè),則將最大值對(duì)應(yīng)的各個(gè)匹配結(jié)果中第一個(gè)候選峰的采樣點(diǎn)位置最大的匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果。
31、第二方面,本發(fā)明還提供了一種基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配系統(tǒng),所述系統(tǒng)包括用于實(shí)現(xiàn)如上基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法的功能模塊。
32、第三方面,本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備,存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法的步驟。
33、本發(fā)明實(shí)施例提供的基因分析儀檢測(cè)光譜的內(nèi)標(biāo)匹配方法、系統(tǒng)及設(shè)備,通過對(duì)光譜信號(hào)進(jìn)行峰識(shí)別,以篩選出當(dāng)前光譜信號(hào)中包含的符合要求的候選峰序列,然后基于距離相似、高度均勻兩個(gè)內(nèi)標(biāo)匹配條件,按照采樣先后順序依次對(duì)候選峰序列中的候選峰與電泳過程所選內(nèi)標(biāo)物對(duì)應(yīng)的標(biāo)準(zhǔn)光譜信號(hào)中的標(biāo)準(zhǔn)峰序列進(jìn)行內(nèi)標(biāo)匹配,以找到候選峰序列中存在的符合預(yù)設(shè)的內(nèi)標(biāo)匹配條件的候選峰組合,將候選峰組合作為匹配結(jié)果的初始部分,并以此作為匹配基礎(chǔ)對(duì)候選峰序列中其他候選峰依次進(jìn)行內(nèi)標(biāo)匹配,得到與每一候選峰組合對(duì)應(yīng)的完整匹配結(jié)果,當(dāng)?shù)玫降钠ヅ浣Y(jié)果中包含的候選峰數(shù)量等于標(biāo)準(zhǔn)峰序列中包含的標(biāo)準(zhǔn)峰數(shù)量時(shí),則判定內(nèi)標(biāo)匹配成功并將當(dāng)前匹配結(jié)果作為最優(yōu)內(nèi)標(biāo)匹配結(jié)果,本發(fā)明能夠快速、準(zhǔn)確地實(shí)現(xiàn)內(nèi)標(biāo)峰的最優(yōu)匹配,進(jìn)而保證光譜檢出片段長度的準(zhǔn)確性。
34、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。