1.一種用于FFPE樣本拷貝數(shù)變異檢測(cè)的裝置,其包括:
測(cè)序數(shù)據(jù)獲取模塊,用于獲取來自待檢FFPE樣本的捕獲測(cè)序數(shù)據(jù)以及來自健康人群樣本的測(cè)序數(shù)據(jù),所述健康人群樣本為多個(gè)健康人樣本;
序列比對(duì)模塊,其與所述測(cè)序數(shù)據(jù)獲取模塊連接,用于將所述測(cè)序數(shù)據(jù)獲取模塊獲取的測(cè)序數(shù)據(jù)與參考基因組序列進(jìn)行比對(duì),得到比對(duì)結(jié)果,根據(jù)該比對(duì)結(jié)果計(jì)算每一個(gè)位點(diǎn)的深度值;
前期數(shù)據(jù)處理模塊,其與所述序列比對(duì)模塊連接,用于將目標(biāo)區(qū)域劃分為一定長(zhǎng)度的有重疊的窗口,去掉窗口內(nèi)位點(diǎn)的深度極值并計(jì)算深度均值或中值,且計(jì)算該窗口內(nèi)的參考基因組序列的GC含量;
歸一化模塊,其與所述前期數(shù)據(jù)處理模塊連接,用于對(duì)所述前期數(shù)據(jù)處理模塊所得到的每一個(gè)窗口內(nèi)的深度均值或中值進(jìn)行歸一化,計(jì)算得到待檢FFPE樣本和健康人群樣本每個(gè)窗口內(nèi)的Z值;
背景庫(kù)篩選模塊,其與所述歸一化模塊連接,用于根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出n個(gè)健康人樣本,得到n個(gè)健康人樣本的背景庫(kù)樣本集,然后使用該n個(gè)健康人樣本在m個(gè)窗口內(nèi)的Z值構(gòu)建m行n列的矩陣Xm×n;
數(shù)據(jù)波動(dòng)消除模塊,其與所述背景庫(kù)篩選模塊連接,用于消除捕獲測(cè)序帶來的固有數(shù)據(jù)波動(dòng);
GC校正模塊,其與所述數(shù)據(jù)波動(dòng)消除模塊連接,用于根據(jù)各窗口內(nèi)的GC含量進(jìn)行GC矯正;
輸出模塊,其與所述GC校正模塊連接,用于輸出CNV檢測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述測(cè)序數(shù)據(jù)是采用捕獲測(cè)序方法獲得的測(cè)序數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的裝置,其中,所述前期數(shù)據(jù)處理模塊采用滑動(dòng)窗口法劃分所述窗口。
4.根據(jù)權(quán)利要求1所述的裝置,其中,所述歸一化模塊依據(jù)下述公式(1)計(jì)算得到待檢生物樣本每個(gè)窗口內(nèi)的Z值,公式(1)中Zi表示第i個(gè)窗口的Z值,
Zi=trimScale(Zi,Zi)……(1)。
5.根據(jù)權(quán)利要求1所述的裝置,其中,定義公式(2):
定義
其中,chr表示染色體,ST表示待檢樣本,SN表示健康人群樣本,
所述背景庫(kù)篩選模塊根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出使得所述d值最小的n個(gè)健康人樣本,得到篩選后的背景庫(kù)樣本集S1,S2,S3,…,Sn。
6.根據(jù)權(quán)利要求1所述的裝置,其中,所述數(shù)據(jù)波動(dòng)消除模塊對(duì)背景庫(kù)矩陣Xm×n做奇異值分解,得到m行r列因子矩陣Um×r,r為因子個(gè)數(shù),然后取貢獻(xiàn)率最大的k個(gè)因子進(jìn)行LOESS回歸,得到殘差Zp。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述GC校正模塊根據(jù)各窗口內(nèi)的GC含量,對(duì)Zp基于LOESS回歸做GC矯正,得到殘差Zpg。
8.根據(jù)權(quán)利要求1所述的裝置,還包括數(shù)據(jù)質(zhì)檢模塊,其與所述測(cè)序模塊和所述序列比對(duì)模塊連接,用于對(duì)所述測(cè)序模塊獲得的測(cè)序數(shù)據(jù)進(jìn)行質(zhì)檢。