本申請涉及機器學習領域,具體而言,涉及一種基于主成分回歸的預測方法、裝置及非易失性存儲介質。
背景技術:
1、近年來,對數(shù)據(jù)進行降維和特征提取,降低維度的同時發(fā)現(xiàn)關鍵的變量,并且盡可能減少信息損失,在高維統(tǒng)計領域變得越來越重要,量化事件及其相應的因果關系,比如可應用于藥物臨床試驗、工程安全監(jiān)測、銷售研究等場景,尤其是涉及到多特征的預測場景中,主成分回歸(principal?component?regression,簡稱為pcr)便是這樣一種能夠有效降低變量維數(shù)、在處理變量多重共線性問題上有優(yōu)良性質、并且揭露自變量和因變量內在關系的多元統(tǒng)計方法,但在相關技術中現(xiàn)有的主成分回歸方法的懲罰函數(shù)和損失函數(shù)不能保證主成分回歸模型的穩(wěn)健性、預測準確性和可解釋性,急需對現(xiàn)有的主成分回歸方法進行優(yōu)化,提升主成分回歸模型的穩(wěn)健性、預測準確性和可解釋性。
2、針對上述的問題,目前尚未提出有效的解決方案。
技術實現(xiàn)思路
1、本申請實施例提供了一種基于主成分回歸的預測方法、裝置及非易失性存儲介質,以至少解決相關技術中現(xiàn)有的主成分回歸方法的主成分回歸模型的穩(wěn)健性、預測準確性和可解釋性較低的技術問題。
2、根據(jù)本申請實施例的一個方面,提供了一種基于主成分回歸的預測方法,包括:獲取待預測的原始數(shù)據(jù);使用目標主成分回歸模型對原始數(shù)據(jù)進行預測,得到預測數(shù)據(jù),其中,目標主成分回歸模型包括由總損失函數(shù)和總懲罰函數(shù)組成的目標函數(shù),總損失函數(shù)包括表示主成分回歸的第一損失函數(shù)和用于表示對原始數(shù)據(jù)進行主成分分解的第二損失函數(shù),總懲罰函數(shù)包括主成分回歸對載荷矩陣的第一懲罰函數(shù)和主成分回歸對回歸系數(shù)的第二懲罰函數(shù)。
3、在本申請的一些實施例中,方法還包括:獲取原始數(shù)據(jù)的預測數(shù)據(jù),以及獲取估計系數(shù)的截距項、原始數(shù)據(jù)的數(shù)據(jù)矩陣、載荷矩陣、主成分回歸系數(shù);依據(jù)預測數(shù)據(jù)、估計系數(shù)的截距項、數(shù)據(jù)矩陣、載荷矩陣和主成分回歸系數(shù),對huber損失函數(shù)進行調整,得到第一損失函數(shù)。
4、在本申請的一些實施例中,第一損失函數(shù)通過以下公式表示:
5、
6、其中,lreg(γ0,γ,b)表示第一損失函數(shù),n表示原始數(shù)據(jù)的特征數(shù)量,lτ(yi-γ0-xitbγ)為huber損失函數(shù),yi表示第i個預測數(shù)據(jù),γ0為估計系數(shù)的截距項,xi表示第i個原始數(shù)據(jù),b表示載荷矩陣,γ表示主成分回歸系數(shù)。
7、在本申請的一些實施例中,huber損失函數(shù)通過以下公式表示:
8、
9、其中,lτ(yi-γ0-xitbγ)表示huber損失函數(shù),τ為huber損失函數(shù)的閾值參數(shù)。
10、上述huber損失函數(shù)在不同情況下的作用不同,τ>0,表示控制huber函數(shù)的超參數(shù),當τ→∞時,lτ(yi-γ0-xitbγ)退化普通最小二乘損失;當τ→0時,lτ(·yi-γ0-xitbγ)退化為絕對值損失,其中τ的取值取決于實際問題中如何定義異常值的大小。huber損失是平方損失和絕對損失的綜合,它克服了平方損失和絕對損失的缺點,不僅使損失函數(shù)具有連續(xù)的導數(shù),而且利用mse梯度隨誤差減小的特性,可取得更精確的最小值。
11、第二損失函數(shù)通過以下公式表示:
12、
13、其中,lpca(a,b)表示第二損失函數(shù),n表示原始數(shù)據(jù)的特征數(shù)量,yi表示第i個預測數(shù)據(jù),x表示由原始數(shù)據(jù)構成的數(shù)據(jù)矩陣,b表示載荷矩陣,ω表示權重系數(shù),f表示范數(shù),a表示主成分矩陣。
14、在本申請的一些實施例中,第一懲罰函數(shù)通過以下公式表示:
15、p1(b;λb)=λb‖b‖1
16、其中,p1(b;λb)表示第一懲罰函數(shù),λb表示正則化參數(shù),b表示載荷矩陣。
17、在本申請的一些實施例中,第二懲罰函數(shù)通過以下公式表示:
18、
19、其中,p2(γ,λ)表示第二懲罰函數(shù),λ表示正則化參數(shù),表示scad懲罰函數(shù),γ表示主成分回歸系數(shù),γj為第j個主成分回歸系數(shù)。
20、在本申請的一些實施例中,scad懲罰函數(shù)通過以下公式表示:
21、
22、其中,表示scad懲罰函數(shù),i表示示性函數(shù),λ表示調諧參數(shù),μ表示scad懲罰函數(shù)的輸入,a表示預設參數(shù)。
23、根據(jù)本申請實施例的另一方面,還提供了一種基于主成分回歸的預測裝置,包括:獲取模塊,用于獲取待預測的原始數(shù)據(jù);預測模塊,用于使用目標主成分回歸模型對原始數(shù)據(jù)進行預測,得到預測數(shù)據(jù),其中,目標主成分回歸模型包括由總損失函數(shù)和總懲罰函數(shù)組成的目標函數(shù),總損失函數(shù)包括表示主成分回歸的第一損失函數(shù)和用于表示對原始數(shù)據(jù)進行主成分分解的第二損失函數(shù),總懲罰函數(shù)包括主成分回歸對載荷矩陣的第一懲罰函數(shù)和主成分回歸對回歸系數(shù)的第二懲罰函數(shù)。
24、根據(jù)本申請實施例的另一方面,還提供了一種非易失性存儲介質,非易失性存儲介質中存儲有程序,其中,在程序運行時控制非易失性存儲介質所在設備執(zhí)行上述任意一項的基于主成分回歸的預測方法。
25、根據(jù)本申請實施例的另一方面,還提供了一種電子設備,存儲器和處理器,處理器用于運行存儲在存儲器中的程序,其中,程序運行時執(zhí)行上述任意一項的基于主成分回歸的預測方法。
26、根據(jù)本申請實施例的另一方面,還提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令被處理器執(zhí)行時實現(xiàn)上述任意一項的基于主成分回歸的預測方法。
27、在本申請實施例中,采用獲取待預測的原始數(shù)據(jù);使用目標主成分回歸模型對原始數(shù)據(jù)進行預測,得到預測數(shù)據(jù),其中,目標主成分回歸模型包括由總損失函數(shù)和總懲罰函數(shù)組成的目標函數(shù),總損失函數(shù)包括表示主成分回歸的第一損失函數(shù)和用于表示對原始數(shù)據(jù)進行主成分分解的第二損失函數(shù),總懲罰函數(shù)包括主成分回歸對載荷矩陣的第一懲罰函數(shù)和主成分回歸對回歸系數(shù)的第二懲罰函數(shù)的方式,通過目標主成分回歸模型對原始數(shù)據(jù)進行預測,得到預測數(shù)據(jù),其中,總損失函數(shù)和總懲罰函數(shù)提升了模型的穩(wěn)健性,從而提高預測準確性和可解釋性,減小因變量方向的異常值對模型帶來的誤差影響,進而解決了相關技術中現(xiàn)有的主成分回歸方法的主成分回歸模型的穩(wěn)健性、預測準確性和可解釋性較低技術問題。
1.一種基于主成分回歸的預測方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述第一損失函數(shù)通過以下公式表示:
4.根據(jù)權利要求3所述的方法,其特征在于,所述huber損失函數(shù)通過以下公式表示:
5.根據(jù)權利要求1所述的方法,其特征在于,所述第二損失函數(shù)通過以下公式表示:
6.根據(jù)權利要求1所述的方法,其特征在于,所述第一懲罰函數(shù)通過以下公式表示:
7.根據(jù)權利要求1所述的方法,其特征在于,所述第二懲罰函數(shù)通過以下公式表示:
8.根據(jù)權利要求7所述的方法,其特征在于,所述scad懲罰函數(shù)通過以下公式表示:
9.一種基于主成分回歸的預測裝置,其特征在于,包括:
10.一種非易失性存儲介質,其特征在于,所述非易失性存儲介質中存儲有程序,其中,在所述程序運行時控制所述非易失性存儲介質所在設備執(zhí)行權利要求1至8中任意一項所述的基于主成分回歸的預測方法。
11.一種電子設備,其特征在于,包括:存儲器和處理器,所述處理器用于運行存儲在所述存儲器中的程序,其中,所述程序運行時執(zhí)行權利要求1至8中任意一項所述的基于主成分回歸的預測方法。
12.一種計算機程序產(chǎn)品,包括計算機指令,其特征在于,所述計算機指令被處理器執(zhí)行時實現(xiàn)權利要求1至8中任意一項所述的基于主成分回歸的預測方法。