本發(fā)明涉及一種信息分類預測方法,特別是涉及一種使用標記相關性作為描述樣本的補充特征,并且將多標記學習算法和貝葉斯網(wǎng)絡進行結(jié)合的基于多標記學習的中醫(yī)臨床癥型分類方法。
背景技術:
中醫(yī)臨床癥型分類主要是通過中醫(yī)望聞問切的手法得到患者的癥狀信息(如:頭疼、四肢冰冷、脈細等),并運用分類模型得到該患者對應癥型(如:氣虛、肝胃郁熱等)。中醫(yī)臨床癥型分類問題最大特點在于:每個患者對應癥型常有多個,例如:氣陰兩虛兼血瘀,其中包含了氣虛、陰虛和血瘀三種癥型,因此使用多標記學習模型構建分類器成為解決該問題的常用方法。基于考察標記之間相關性的不同方式,已有的多標記學習問題求解策略大致可以分為三種:一階、二階和高階;其中一階方法將多標記問題轉(zhuǎn)化成多個獨立的二分類問題,忽略標記之間的關系,所以模型泛化能力最低,正確率不高;二階方法將多標記問題拆分成兩兩標記比較,在一定程度上提高分類器泛化能力和正確率,但當現(xiàn)實問題具有超越二階的相關性時,該類方法的性能將會受到很大影響;高階方法策略通過考察高階的標記相關性來構造分類器,如處理任一標記對其它所有標記的影響,這類方法往往泛化能力最高,但其復雜度也可能隨之變大,不利于處理大規(guī)模數(shù)據(jù)。使用標記相關性來設計分類器,是多標記學習領域的特點也是難點?,F(xiàn)在常用的多標記分類方法有大部分是將已有的二分類器進行改編,以適應多標記學習問題。
技術實現(xiàn)要素:
要解決的技術問題
為了避免現(xiàn)有技術的不足之處,本發(fā)明提出一種基于多標記學習和貝葉斯網(wǎng)絡的中醫(yī)癥型分類預測方法。
技術方案
一種基于多標記學習和貝葉斯網(wǎng)絡的中醫(yī)癥型分類預測方法,其特征在于步驟如下:
步驟1:根據(jù)收集到的t個中醫(yī)病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現(xiàn)某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同時,根據(jù)中醫(yī)病例整理出k種常見的糖尿病癥型,針對每個樣本,如果該樣本對應標記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個樣本的標記集Yi=(yi1,yi2,…,yik),其中i=1,…,t,將每個樣本的特征集和標記集一一對應對應得到一個數(shù)據(jù)集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},將數(shù)據(jù)集S分為訓練數(shù)據(jù)集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測試數(shù)據(jù)集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};
步驟2:將樣本的標記集Yi=(yi1,yi2,…,yik)輸入到Bayesian DAG learning工具包中,使用Bayesian DAG learning工具包中所提供動態(tài)規(guī)劃算法DP來計算得到最優(yōu)貝葉斯網(wǎng)絡模型;
步驟3:根據(jù)貝葉斯網(wǎng)絡模型讀取訓練數(shù)據(jù)集D中每個樣本標記的父節(jié)點信息pa=(p1,p2,…,pk),將已有s維的四診信息與k維的父節(jié)點信息融合,得到了一個s+k維的訓練數(shù)據(jù)的增廣特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);
步驟4:使用訓練數(shù)據(jù)D的特征集x1,x2,…,xm和它們的父節(jié)點信息pa1,pa2,…,pam分別作為訓練數(shù)據(jù)和訓練數(shù)據(jù)的標記集,訓練得到一個多標記神經(jīng)網(wǎng)絡,使用這個多標記神經(jīng)網(wǎng)絡來預測測試數(shù)據(jù)集K中每個樣本標記的父節(jié)點信息;然后將父節(jié)點信息與測試數(shù)據(jù)四診信息融合,形成測試數(shù)據(jù)的增廣特征集;
步驟5:將增廣訓練數(shù)據(jù)集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來訓練出最優(yōu)特征子集;使用訓練數(shù)據(jù)D1’來隨機生成新的特征子集共100組,將100組特征子集作為最初解空間,使用模擬退火算法SA進行迭代,每輪迭代中,將經(jīng)過每組特征子集簡化后的訓練數(shù)據(jù)D1’輸入多標記分類器,由多標記分類器輸出一個指標Average precision作為描述特征子集的適應度,在設定時間Tk搜索解空間里適應度最高的解,即100組的特征子集:BF1’,BF2’,…,BF100’;
步驟6:將BF1’,BF2’,…,BF100’作為遺傳算法GA的100個初始種群,經(jīng)過選擇、交叉和變異算子,不斷迭代產(chǎn)生新的解,每輪迭代中,將經(jīng)過每組特征子集簡化后的訓練數(shù)據(jù)D1’輸入多標記分類器,由多標記分類器輸出一個指標Average precision作為描述特征子集的適應度,在設定時間Tg內(nèi)得到適應度最高的100組的特征子集:BF1”,BF2”,…,BF100”;
步驟7:將適應度最高的100組解:BF1”,BF2”,…,BF100”作為爬山算法HC的輸入,每輪迭代時改變每組特征子集中的任意一個特征值,將經(jīng)過這組特征子集簡化后的訓練數(shù)據(jù)D1’輸入多標記分類器,由多標記分類器輸出一個指標Average precision作為描述特征子集的適應度,在設定時間Th內(nèi)計算選出適應度最優(yōu)的一組,將其作為最優(yōu)特征子集BF;
步驟8:使用步驟5-7對D2’依次進行隨機生成新的特征子集共100組、模擬退火算法SA、遺傳算法GA、爬山算法HC迭代,得到最優(yōu)特征子集BF’,比較BF和BF’的適應度,選取適應度高的那組的那組作為最終的最優(yōu)特征子集;
步驟9:將增廣測試數(shù)據(jù)集中的增廣特征集按照步驟8得到的最終最優(yōu)特征子集的特征序號進行特征選擇,將訓練數(shù)據(jù)集和測試數(shù)據(jù)集中的增廣特征集替換為最優(yōu)特征子集,分別得到了最優(yōu)訓練數(shù)據(jù)集DBF和最優(yōu)測試數(shù)據(jù)集KBF;最后使用DBF訓練多標記分類器,并在KBF上完成測試。
步驟4中所述的多標記神經(jīng)網(wǎng)絡使用誤差反向傳播算法實現(xiàn)訓練,誤差函數(shù)是:
其中,m是訓練樣本數(shù),Yi表示樣本xi對應的相關標記,表示樣本xi對應的無關標記,表示該網(wǎng)絡對樣本xi的相關標記的實際輸出值;表示該網(wǎng)絡對樣本xi的無關標記的實際輸出值。
所述的多標記分類器采用SVM算法設計分類器。
步驟6中所述的選擇、交叉和變異算子分別使用輪盤賭選擇策略Roulette Select Scheme、Half Uniform Crossover Scheme、二進制變異策略,交叉和變異概率設置為pc≥0.8,pm≤0.05。
有益效果
本發(fā)明提出的一種基于多標記學習和貝葉斯網(wǎng)絡的中醫(yī)癥型分類預測方法,首先,由于增加了癥型之間的相關性作為補充信息,對樣本的描述相較傳統(tǒng)四診信息更為豐富,更清晰的刻畫了樣本,提高了分類器的正確率。而且,在中醫(yī)診療實踐中,中醫(yī)專家是通過中醫(yī)的理論結(jié)合長期的臨床實踐經(jīng)驗得出最終的判斷,所以統(tǒng)計常見癥型并通過貝葉斯網(wǎng)絡來分析癥型之間的聯(lián)系與中醫(yī)診療過程是一致的。最后,本發(fā)明方法相較于一階的多標記學習算法,在構造分類器時,都使用一樣數(shù)量的分類器,只是本發(fā)明在樣本特征集上增加了若干父節(jié)點信息的值,所以,在計算復雜度和時間成本上的增加極小,但分類效果明顯優(yōu)于一階多標記學習算法。
附圖說明
圖1 6種中醫(yī)癥型的貝葉斯網(wǎng)絡模型
具體實施方式
現(xiàn)結(jié)合實施例、附圖對本發(fā)明作進一步描述:
為了更好的運用標記之間的相關性來提高分類正確率,本發(fā)明提供一種將貝葉斯網(wǎng)絡與多標記學習結(jié)合的分類方法。該方法首先針對中醫(yī)臨床糖尿病的6種常見癥型進行統(tǒng)計,使用貝葉斯網(wǎng)絡計算每種癥型在其他癥型出現(xiàn)下的條件概率,得到6種癥型之間的有向無環(huán)圖模型,這種圖模型可以很好的描述標記之間的相關性:兩個節(jié)點的箭頭代表此兩個癥型是具有因果關系或是非條件獨立的;而節(jié)點中變量間若沒有箭頭相互連接一起的情況就稱這兩個癥型彼此之間為條件獨立。若兩個節(jié)點間以一個單箭頭連接在一起,表示其中一個節(jié)點是“成因(parents)”,另一個是“果(descendants or children)”。由此通過建立貝葉斯網(wǎng)絡,可以直觀的發(fā)現(xiàn)每種癥型存在的隱形“成因”,在這里我們稱之為每個癥型的父節(jié)點信息。所以,本發(fā)明通過尋找到中醫(yī)糖尿病6種癥型之間的關系,發(fā)掘每個癥型存在的隱形“成因”,并將這些“成因”與傳統(tǒng)四診信息結(jié)合起來,構造增廣特征集來描述樣本。最后通過特征選擇算法和多標記分類算法來構造分類器,實現(xiàn)對中醫(yī)臨床糖尿病6種常見癥型的分類預測。
1.構造數(shù)據(jù)集
根據(jù)收集到的128個糖尿病病例,整理了78種四診癥狀,例如:多飲、多食、口苦、舌紅、脈弦等等,這些癥狀全方位的描述了病人的情況,可當作描述樣本的特征。選擇以二值方式為特征賦值,根據(jù)病例的記載如果病人出現(xiàn)某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集xi=(xi1,xi2,…,xi78),(i=1,…,128)。同時,根據(jù)病例整理出6種常見的糖尿病癥型,分別是:氣虛、陰虛、血瘀、肝胃郁熱和濕阻,針對每個樣本,如果該樣本對應標記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個樣本的標記集Yi=(yi1,yi2,…,yi6),(i=1,…,128)。將每個樣本的特征集和標記集一一對應對應得到一個數(shù)據(jù)集S={(x1,Y1),(x2,Y2),…,(x128,Y128)},將數(shù)據(jù)集S分為訓練數(shù)據(jù)集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測試數(shù)據(jù)集K={(x1,Y1),(x2,Y2),…,(xn,Yn)}。
2.構造貝葉斯網(wǎng)絡
本發(fā)明運用貝葉斯網(wǎng)絡來描述標記相關性時,將采集到的128組病例的6維癥型(標記集)Yi=(yi1,yi2,…,yi6),(i=1,…,128)作為輸入數(shù)據(jù),隨機變量y1,y2,…,y6分別代表貝葉斯網(wǎng)絡中的6個節(jié)點。使用Bayesian DAG learning(BDAGL)工具包中所提供動態(tài)規(guī)劃算法(dynamic programming,DP)來得到如圖1所示的最優(yōu)貝葉斯網(wǎng)絡結(jié)構,貝葉斯網(wǎng)絡結(jié)構是以矩陣形式存在。
3.構造訓練數(shù)據(jù)的增廣特征集
得到圖1所示的貝葉斯網(wǎng)絡后,可以讀取每種癥型的父節(jié)點信息pa=(p1,p2,…,p6),例如一個樣本的標記是“肝胃郁熱兼血瘀”(Yi=(0,0,1,1,0,0)),那么他的父節(jié)點信息是“氣虛、陰虛、濕和痰瘀阻內(nèi)”(pai=(1,1,0,0,1,1))。在訓練階段,對每個訓練樣本標記集Y中,排在第一個的,也就是中醫(yī)診斷中的“主證”(key syndrome)按照上述貝葉斯網(wǎng)絡尋找它的父節(jié)點信息。然后,將已有78維的四診信息與6維的父節(jié)點信息融合,得到了一個84維的增廣特征集(Augmented feature):xi′=xi∪pai=(xi1,xi2,…,xi78,pi1,pi2,…,pi6)。
4.構造測試數(shù)據(jù)的增廣特征集
對于測試數(shù)據(jù),由于不知道其真實標記,所以無法直接從貝葉斯網(wǎng)絡中獲取其父節(jié)點信息,從而需要對它們的父節(jié)點信息進行預測。本發(fā)明使用多標記神經(jīng)網(wǎng)絡對測試樣本的父節(jié)點信息進行預測。將訓練數(shù)據(jù)D的特征集x1,x2,…,xm和它們的父節(jié)點信息pa1,pa2,…,pam作為訓練數(shù)據(jù)和訓練數(shù)據(jù)的標記集,訓練得到一個多標記神經(jīng)網(wǎng)絡,使用這個多標記神經(jīng)網(wǎng)絡來預測測試數(shù)據(jù)集K中的每個樣本標記的父節(jié)點信息。多標記神經(jīng)網(wǎng)絡中使用誤差反向傳播算法實現(xiàn)訓練,誤差函數(shù)是:
m是訓練樣本數(shù),Yi表示樣本xi對應的相關標記,表示樣本xi對應的無關標記,表示該網(wǎng)絡對樣本xi的相關標記的實際輸出值;表示該網(wǎng)絡對樣本xi的無關標記的實際輸出值。可以看出當越大,分類誤差越小,分類器效果越好。這個誤差函數(shù)是為了區(qū)別樣本xi的相關標記和無關標記,該網(wǎng)絡在相關標記Yi上的輸出值應該大于無關標記的,其含義與效果與多標記算法評價指標中的ranking loss比較相似,最后通過梯度下降和誤差反向傳播最小化誤差函數(shù)。
在構造網(wǎng)絡時,網(wǎng)絡中的輸入層有78個節(jié)點,輸出層有6個節(jié)點,隱層節(jié)點數(shù)設置為10,激活函數(shù)設置為“tanh”。將訓練好的網(wǎng)絡用于預測測試數(shù)據(jù)K的6維父節(jié)點信息,然后將父節(jié)點信息與測試數(shù)據(jù)四診信息合并,形成測試數(shù)據(jù)的增廣特征集。
5.特征選擇和分類
本發(fā)明使用特征選擇算法對樣本特征集進行特征篩選,找到最優(yōu)特征子集,降低增廣特征集的維數(shù)。本發(fā)明使用的特征選擇算法集合了模擬退火算法、遺傳算法和爬山算法,其核心是遺傳算法。為了避免由于遺傳算法隨機初始化導致算法陷入局部最優(yōu),在開始時借助模擬退火的全局搜索能力,在解空間里找到散落在不同位置的多個近似最優(yōu)解,將這些近似最優(yōu)解作為遺傳算法的初始種群,從而避免了在收斂速率很高時陷入局部最優(yōu),最終在遺傳算法輸出的多個解中進行改編并使用爬山算法將結(jié)果進一步優(yōu)化。為了找到最優(yōu)特征子集,同時需要對每種特征子集進行評估,本發(fā)明使用多標記分類器來測試每個特征子集的性能。
本發(fā)明將增廣訓練數(shù)據(jù)集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來訓練出最優(yōu)特征子集(也可以分成三份D1’,D2’和D3’,其中兩份用來訓練出最優(yōu)特征子集,一份用來測試最優(yōu)特征子集的性能,在經(jīng)過D1’,D2’訓練得到最優(yōu)特征子集后,為了放心,再利用D3’去進行測試,具體操作為:將D3’按照最優(yōu)特征子集的特征序號進行特征選擇,將經(jīng)過這組特征子集簡化后的訓練數(shù)據(jù)D3’輸入多標記分類器,由多標記分類器輸出一個指標Average precision作為描述特征子集的適應度,比較D3’測試得到的適應度和經(jīng)D1’,D2’訓練得到最高的那個適應度,如果在D3’測試得到的適應度值在D1’,D2’訓練得到最高的那個適應度的值±0.1范圍內(nèi),就說明最優(yōu)特征子集沒有問題;否則重新開始訓練)。在劃分數(shù)據(jù)集時,盡量保證每種標記的數(shù)據(jù)在各個數(shù)據(jù)集中大致一樣多。在進行特征選擇前,需構造多標記分類器實現(xiàn)對最優(yōu)特征子集的評估,本發(fā)明使用SVM算法設計分類器:
F(x,Y)=[f(x,y1),…f(x,y6)],
其中Θ是人為加入用以區(qū)分相關標記和無關標記的閾值,假設F(x,Y)都是線性模型。該分類器是以最小化ploss為目標,即:
其中
可以看出是hinge losses的和,定義
則該問題可轉(zhuǎn)化為:
此處q是標記個數(shù),n是訓練樣本數(shù),向量C表示hinge loss的權重。可以發(fā)現(xiàn),ξ可由決定,不需要優(yōu)化,所以通過引入約束矩陣A,我們可將優(yōu)化問題寫成:
由于上式計算量較大,需要將數(shù)據(jù)集劃分成若干份,以便于并行計算,最后引入surrogate augmented lagrangian算子:
其中αz和η是拉格朗日乘數(shù)。那么,上式可分解成為Z個獨立的子問題,即:
k是迭代次數(shù)。由此,該問題可由現(xiàn)有處理SVM分類問題的多種方法來處理。
得到分類器F(x,Y)=[f(x,y1),…f(x,y6)]后,可以用來測試每種特征子集的好壞。接下使用訓練數(shù)據(jù)D1’和D2’來隨機生成新的特征子集共100組:BF1,BF2,…,BF100,將100組特征子集輸入特征選擇算法,經(jīng)過不斷更新迭代最終輸出最優(yōu)特征子集。本發(fā)明使用分類器中的指標Average precision作為適應度函數(shù)(fittness)來評價每一種特征子集的好壞,最優(yōu)特征子集具有最高的Average precision。
首先,將100組特征子集BF1,BF2,…,BF100作為最初解空間,輸入模擬退火算法(SA)。在SA的每次迭代時,對100組特征子集進行變異,以產(chǎn)生新的特征子集,模擬退火算法的變異概率pm隨著溫度下降而降低,最終在限定時間Tk搜索到解空間里適應度最高的解(特征子集)。
其中Tc表示當前溫度,由上式可知,變異概率pm隨著當前溫度Tc的下降,由0.5逐漸趨近于0,即對特征子集的改變逐漸變小,這個變異操作相當于在整個解空間隨機的采樣。產(chǎn)生新的特征子集進入搜索空間后,模擬退火算法(SA)以一定概率接受比當解稍差的解,狀態(tài)轉(zhuǎn)移概率如下所示:
可以看出,隨著溫度Tc降低,較差的解被接受的概率也越來越小。溫度冷卻的進度是隨著程序運行的耗時進行的。于是當時間截止,可得到經(jīng)過全局搜索保留下的100組較好的解,即100組較好的特征子集:BF1’,BF2’,…,BF100’。將BF1’,BF2’,…,BF100’作為遺傳算法(GA)的100個初始種群,在時間Tg內(nèi),經(jīng)過選擇、交叉和變異算子,不斷迭代產(chǎn)生新的解,在這里使用輪盤賭選擇策略(Roulette Select Scheme),交叉使用Half Uniform Crossover Scheme,變異采用二進制變異策略,交叉和變異概率一般設置為pc≥0.8,pm≤0.05,得到適應度最高的100組解:BF1”,BF2”,…,BF100”。最后,把由遺傳算法搜索得到的100組特征子集,作為爬山算法(HC)的輸入,在時間Th內(nèi),每輪迭代時改變每組特征子集中的任意一個特征值,并從中計算選出適應度最優(yōu)的一組,即為最優(yōu)特征子集,例如:原始特征子集x=(x1,x2,…,x84)是84維的,經(jīng)過特征選擇之后的最優(yōu)特征子集也許是x=(x2,x4…,x81)是40維的。這個特征子集記錄了被選擇的特征序號。
在增廣訓練數(shù)據(jù)集D’上得到最優(yōu)特征子集之后,對增廣測試數(shù)據(jù)集中的增廣特征集按照最優(yōu)特征子集的特征序號進行特征選擇,由此完成了增廣訓練數(shù)據(jù)集D’和增廣測試數(shù)據(jù)集的特征選擇,將訓練數(shù)據(jù)集和測試數(shù)據(jù)集中的增廣特征集替換為最優(yōu)特征子集分別得到了最優(yōu)訓練數(shù)據(jù)集DBF和最優(yōu)測試數(shù)據(jù)集KBF。最后使用DBF訓練先前構造的多標記分類器,并在KBF上完成測試。