本發(fā)明涉及生物信息分析,尤其涉及一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法、存儲介質(zhì)、設備。
背景技術:
1、單細胞轉(zhuǎn)錄組測序(single-cell?rna?sequencing,scrna-seq)是一種強大的技術,用于研究單個細胞中的基因表達。它填補了傳統(tǒng)轉(zhuǎn)錄組測序技術的空白,使研究人員能夠在單細胞水平上揭示基因表達的異質(zhì)性。
2、單細胞轉(zhuǎn)錄組測序技術通過分離單個細胞,從每個細胞中提取rna,并進行高通量測序。與傳統(tǒng)的轉(zhuǎn)錄組測序相比,scrna-seq可以在單細胞水平上捕獲基因表達的動態(tài)變化和細胞間的差異。
3、目前由于單細胞轉(zhuǎn)錄組測序技術目前發(fā)展還不太完善,所以獲取的數(shù)據(jù)還存在許多問題。許多技術噪音會影響scrna-seq數(shù)據(jù),其中一個重要特征稱為“dropout”,其中基因在一個細胞中適度表達,但在另一個細胞中未檢測到。這是因為大多數(shù)scrna-seq技術通常需要大量擴增,因為逆轉(zhuǎn)錄后rna的轉(zhuǎn)錄本可能會在反轉(zhuǎn)錄和擴增步驟中丟失,因此在后續(xù)測序中無法檢測到它們。由技術引起的丟失事件提高了細胞間的變異性,導致信號對每個基因的影響,以及基因-基因和細胞-細胞真實關系的模糊。因此,dropout值的存在將大大降低下游分析的準確性。此外,通過選擇性基因表達,單個細胞中存在許多真正未表達的基因,這導致生物零點與技術誘導的零點混淆。區(qū)分這兩種情況是一個非常重要但尚未完全解決的問題。因此必須通過一些填充方法估算scrna-seq數(shù)據(jù)中由技術引起的丟失事件。然而,對于海量的生物數(shù)據(jù)集,仍然沒有通用的和有效的填充算法來消除批次效應并找到稀有細胞類型。
4、因此,如何從這些已有數(shù)據(jù)中挖掘出其所蘊含的有價值的信息進行填充才是科研人員所面臨的重要問題。
技術實現(xiàn)思路
1、本發(fā)明的目的在于:為了解決現(xiàn)有填補技術中不能識別基因不表達的零值對所有零值進行填補的問題,提出一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,包括以下步驟:
2、s1、獲取單細胞轉(zhuǎn)錄組基因表達的原始矩陣,將原始矩陣進行預處理,得到預處理矩陣;
3、s2、基于預處理矩陣對細胞進行k均值聚類,根據(jù)聚類結(jié)果中每個類的基因表達,求每個類的基因表達的期望,得到初始填充矩陣;
4、基于預處理矩陣得到細胞的相似性矩陣和基因的相似性矩陣;
5、s3、根據(jù)初始填充矩陣、細胞的相似性矩陣和基因的相似性矩陣構(gòu)建圖正則化非負矩陣分解的目標函數(shù),設計細胞的相似性矩陣和基因的相似性矩陣的迭代更新規(guī)則求解目標函數(shù)的局部最優(yōu)解;
6、s4、通過迭代更新規(guī)則迭代后的細胞的相似性矩陣和基因的相似性矩陣,得到迭代后的填充矩陣;
7、s5、將迭代后的填充矩陣的每個元素與設定的閾值比較,得到元素為0或1的目標矩陣;
8、s6、將迭代后的填充矩陣與目標矩陣對比,將迭代后的填充矩陣為0且目標矩陣為1的元素標注為技術零值,迭代后的填充矩陣其他元素保留原值,得到最終填充矩陣。
9、進一步地,求每個類的基因表達的期望,得到初始填充矩陣表示為:
10、
11、其中,e(xij)表示初始填充矩陣第i行第j列的基因表達,h表示類的數(shù)量,e(xij∣ch)表示第h個類的細胞的第i行第j列的基因表達的期望。
12、進一步地,基于預處理矩陣得到細胞的相似性矩陣和基因的相似性矩陣具體為:
13、利用皮爾遜相關系數(shù)構(gòu)建基因相似性矩陣,具體為:
14、
15、其中,vab表示第a個基因和第b個基因的相似性,xi和yi分別表示第a個基因、第b個基因在第i個細胞中的表達值,和為第a個基因、第b個基因在所有細胞中表達的均值,n表示細胞數(shù)量;
16、利用皮爾遜相關系數(shù)構(gòu)建細胞相似性矩陣,具體為:
17、
18、其中,uab表示第a個細胞和第b個細胞的相似性,gi和hi分別表示第i個基因在第a個細胞、第b個細胞中的表達值,和分別表示第a個細胞、第b個細胞所有基因表達量的均值,m表示基因數(shù)量。
19、進一步地,根據(jù)細胞的相似性矩陣和基因的相似性矩陣構(gòu)建圖正則化非負矩陣分解的目標函數(shù)具體為:
20、
21、s.t.u≥0,v≥0
22、其中,y表示初始填充矩陣,u表示細胞相似性矩陣,v表示基因相似性矩陣,‖‖f表示f范數(shù),β表示正則化參數(shù),λc和λg分別表示矩陣u和v的正則化參數(shù),tr()表示求括號中矩陣的跡,lc和lg分別表示矩陣u和v的損失項。
23、進一步地,細胞的相似性矩陣和基因的相似性矩陣的迭代更新規(guī)則具體為:
24、
25、其中,uki和vki分別表示u和v的第k行第i列,cor1和cor2分別表示圖拉普拉斯矩陣,dc和dg分別關于表示細胞的相似性矩陣和基因的相似性矩陣的對角矩陣,y表示初始填充矩陣,()ki表示括號內(nèi)得到的矩陣的第k行第i列;
26、通過迭代預設的次數(shù),得到迭代完成的u和v。
27、進一步地,迭代后的填充矩陣表示為:
28、y1=utv
29、其中,y1表示迭代后的填充矩陣。
30、進一步地,目標矩陣表示為:
31、
32、其中,y*表示目標矩陣,表示目標矩陣的第i行第j列,表示迭代后的填充矩陣的第i行第j列,α表示根據(jù)聚類的指標得到的閾值。
33、本發(fā)明還提出一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法。
34、本發(fā)明還提出一種電子設備,包括處理器和存儲器,所述處理器與所述存儲器相互連接,其中,所述存儲器用于存儲計算機程序,所述計算機程序包括計算機可讀指令,所述處理器被配置用于調(diào)用所述計算機可讀指令,執(zhí)行上述的單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法。
35、本發(fā)明提供的技術方案帶來的有益效果是:
36、本發(fā)明提出本發(fā)明提出了一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)填充方法,基于單細胞轉(zhuǎn)錄組基因表達的原始矩陣對細胞進行k均值聚類,根據(jù)聚類結(jié)果中每個類的基因表達,求每個類的基因表達的期望,得到初始填充矩陣;基于單細胞轉(zhuǎn)錄組基因表達的原始矩陣得到細胞和基因的相似性矩陣,根據(jù)細胞和基因的相似性矩陣構(gòu)建圖正則化非負矩陣分解目標函數(shù),通過迭代規(guī)則,得到迭代后的填充矩陣,并將迭代后的填充矩陣每個元素與設定閾值比較,得到目標矩陣;將迭代后的填充矩陣與目標矩陣對比,將迭代后的填充矩陣為0且目標矩陣為1的元素標注為技術零值,其他元素保留原值,得到最終填充矩陣。本發(fā)明通過以上方法可以準確的識別出真實的細胞表達,并對真實的數(shù)據(jù)進行填充,可應用到細胞類型以及細胞分化的預測中,為臨床醫(yī)學研究提供技術支持。
1.一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,求每個類的基因表達的期望,得到初始填充矩陣表示為:
3.根據(jù)權(quán)利要求1所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,基于預處理矩陣得到細胞的相似性矩陣和基因的相似性矩陣具體為:
4.根據(jù)權(quán)利要求3所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,根據(jù)細胞的相似性矩陣和基因的相似性矩陣構(gòu)建圖正則化非負矩陣分解的目標函數(shù)具體為:
5.根據(jù)權(quán)利要求4所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,細胞的相似性矩陣和基因的相似性矩陣的迭代更新規(guī)則具體為:
6.根據(jù)權(quán)利要求5所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,迭代后的填充矩陣表示為:
7.根據(jù)權(quán)利要求1所述的一種單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的填充方法,其特征在于,目標矩陣表示為:
8.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其特征在于:所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7任一項所述的方法。
9.一種電子設備,其特征在于,包括處理器和存儲器,所述處理器與所述存儲器相互連接,其中,所述存儲器用于存儲計算機程序,所述計算機程序包括計算機可讀指令,所述處理器被配置用于調(diào)用所述計算機可讀指令,執(zhí)行如權(quán)利要求1-7任一項所述的方法。