一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法
【技術領域】
[0001] 本發(fā)明涉及一種概率計算方法,尤其是涉及一種基于糖尿病系統(tǒng)大數據的糖尿病 概率計算方法。
【背景技術】
[0002] 隨著社會經濟的發(fā)展,人口老齡化、生活方式等危險因素迅速增加,糖尿病患病率 在世界范圍內呈上升趨勢。據世界衛(wèi)生組織統(tǒng)計:1985年全世界有糖尿病患者3000萬 人,1995年為1. 35億人,2000年為1. 77億人,估計到2025年將達到3億人;每年約有 400萬人死于和糖尿病相關的疾病,占世界死亡人數的9%。許多糖尿病患者不能被早期 識別,并且糖尿病人群正趨于低齡化,對于糖尿病的防治成為了當下重要的技術問題。
[0003] 現(xiàn)有的糖尿病防治技術主要分為兩類:第一類是從大數據中分析出影響糖尿病發(fā) 生的主要因素,從而來預防糖尿??;第二類是對糖尿病發(fā)生風險的預測。
[0004] 第一類主要利用大數據作為樣本,提取影響糖尿病發(fā)生的因素,主要是與生活習 慣、飲食習慣方面相關的因素,讓人們可以注意這些方面,從而來預防糖尿病的發(fā)生。該類 方法僅僅是提供一個預防功能,且預防的因素也不夠全面,同時缺少了重要的預測功能,為 糖尿病的防治帶來了困難。
[0005] 第二類主要采用分類方法來預測糖尿病發(fā)生的風險,主要分為:高危、中危、低危, 這樣的分類方法區(qū)間廣,較為模糊。并且,僅僅通過這些分類方法不能很好的篩選出糖尿病 特征屬性,導致預測結果誤差變大。
[0006] 從上述兩類現(xiàn)有的技術可以看出,當下的糖尿病防治技術還不夠成熟,影響糖尿 病的因素較為復雜,單純的大數據分析方法以及單純的預測方法都是存在較大缺陷的,一 方面是預防不夠全面,另一方面是預測不夠精確。因此,設計一種預防和預測相結合即更加 全面精確的技術方法對糖尿病的防治具有深遠的意義。
【發(fā)明內容】
[0007] 本發(fā)明目的是:提供一種預防和預測相結合且更加全面精確的基于糖尿病系統(tǒng)大 數據的糖尿病概率計算方法,該方法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模 型方法,通過提取大數據中糖尿病的特征屬性,從而預測糖尿病發(fā)生與否,并進一步計算其 發(fā)生的概率。
[0008] 本發(fā)明的技術方案是:一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,包括 以下步驟:
[0009] 1)構建糖尿病決策樹模型,提取70%的糖尿病系統(tǒng)大數據作為所述決策樹模型 的訓練樣本S,根據該訓練樣本S獲取糖尿病特征屬性并將其作為所述決策樹模型的輸入 變量X i,每個輸入變量Xi都有其對應的分類Xij,其中i = 1,2,…,n,j的值由其對應的Xi 分類值確定;
[0010] 2)根據所述訓練樣本S的信息增益率Gains (Xi)選擇所述決策樹模型的最佳分枝 變量;
[0011] 3)提取剩余30%的糖尿病系統(tǒng)大數據并從下向上進行決策樹后剪枝,得到糖尿 病診斷結果輸出變量C k,其中k = 1,2,3,(^、(:2、(:3分別對應為可能、否、是糖尿病診斷結果 的決策樹輸出變量;
[0012] 4)構建糖尿病樸素貝葉斯模型,從糖尿病系統(tǒng)大數據中提取包含上述決策樹模 型篩選后的特征屬性數據并重新構成訓練樣本D,提取上述決策樹模型中所有輸出變量為 C1的節(jié)點,自上向下獲取每個節(jié)點所經過的特征屬性分類X y并定義第!個節(jié)點所擁有的 特征屬性集合乙為:Y1= {y P y2,…,ym},其中m是對應節(jié)點所擁有的特征屬性個數,再 利用貝葉斯公式得,第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P (C i Iy1 *y2 -y3..... ym)。
[0013] 作為優(yōu)選的技術方案,步驟2)中信息增益率Gains (Xi)的計算公式如下:
【主權項】
1. 一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,其特征在于,包括以下步驟: 1) 構建糖尿病決策樹模型,提取70 %的糖尿病系統(tǒng)大數據作為所述決策樹模型的訓 練樣本S,根據該訓練樣本S獲取糖尿病特征屬性并將其作為所述決策樹模型的輸入變量 Xi,每個輸入變量Xi都有其對應的分類Xij,其中i = 1,2,···,!!,j的值由其對應的Xi分類 值確定; 2) 根據所述訓練樣本S的信息增益率Gains (Xi)選擇所述決策樹模型的最佳分枝變 量; 3) 提取剩余30%的糖尿病系統(tǒng)大數據并從下向上進行決策樹后剪枝,得到糖尿病診 斷結果輸出變量Ck,其中k = 1,2,3,(^、(:2、(:3分別對應為可能、否、是糖尿病診斷結果的決 策樹輸出變量; 4) 構建糖尿病樸素貝葉斯模型,從糖尿病系統(tǒng)大數據中提取包含上述決策樹模型篩選 后的特征屬性數據并重新構成訓練樣本D,提取上述決策樹模型中所有輸出變量為C1的節(jié) 點,自上向下獲取每個節(jié)點所經過的特征屬性分類Xm并定義第r個節(jié)點所擁有的特征屬 性集合Y1?為:Y 1= {ypyy 其中m是對應節(jié)點所擁有的特征屬性個數,再利用貝葉 斯公式得,第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....ym)。
2. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,其特征在 于,步驟2)中信息增益率Gains (Xi)的計算公式如下:
Gain(Xi) = Info(S)-Info(Xi), (i = 1,2,…,η) Gains(Xi) =Gain(Xi)Zlnfo(Xi), (i = 1,2,…,η) 其中,|s|為訓練樣本s的樣本總數; freq(ck,s)為訓練樣本s中屬于Ck類糖尿病診斷結果的樣本數量; freq(Ck,Xij)為訓練樣本S中包含輸入變量\分類值為X ij的屬于Ck類糖尿病診斷結 果的樣本數量; Ixi I為訓練樣本S中包含輸入變量Xi的樣本數量; Xij I為訓練樣本s中包含輸入變量\分類值為X U的樣本數量; Info(S)為訓練樣本S的信息熵;Info (Xi)為糖尿病特征屬性Xi在訓練樣本S中的條 件熵;Info(Xip為糖尿病特征屬性分類Xu在訓練樣本S中的條件熵;Gain (Xi)為糖尿病特 征屬性Xi的信息增益。
3. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,其特征在 于,步驟3)中決策樹后剪枝的具體方法如下: 采用置信區(qū)間法,給定置信水平I-α,假設第r個節(jié)點上的\個診斷預測中有B ^個是 錯誤的,則錯誤率為By\,且通過正態(tài)分布表得到第r個節(jié)點上的糖尿病診斷結果的誤差 μ 1?滿足:
令Er=Br/Ar,的置信區(qū)間為:
假設父節(jié)點上的診斷結果的誤差為μ,母個于節(jié)點占該分支樣本量的比例為Θ,,對父 節(jié)點擁有的所有子節(jié)點的診斷結果的誤差進行加權計算:
當所有的μ,都取最小值時,如果V >叫則將該父節(jié)點的所有子節(jié)點都修剪去除。
4. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,其特征在 于,步驟4)中第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....又^勺 計 |?Λν 才 f/mc .
P(Ck) = freq(Ck,D)/|D|,(k = 1,2,3)
其中|D I為訓練訓練樣本D的樣本總數; freq(Ck,D)為訓練樣本D中屬于Ck類糖尿病診斷結果的樣本數量; freq(Ck,ym)為訓練樣本D中包含輸入變量7111的屬于C k類糖尿病診斷結果的樣本數 量; P(Ck)為訓練樣本D中糖尿病診斷結果為Ck的概率;P (ym I Ck)為訓練樣本D中糖尿病 診斷結果為(^且包含特征屬性y 概率。
5. 根據權利要求1至4任一項所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法, 其特征在于,所述決策樹模型選自C5. O決策樹模型。
【專利摘要】本發(fā)明公開了一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法,包括以下步驟:1)構建糖尿病決策樹模型;2)根據訓練樣本S的信息增益率Gains(Xi)選擇所述決策樹模型的最佳分枝變量;3)從下向上進行決策樹后剪枝;4)構建糖尿病樸素貝葉斯模型,并利用貝葉斯公式得,第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym);該方法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模型方法,通過提取大數據中糖尿病的特征屬性,從來而預測糖尿病發(fā)生與否,并進一步計算其發(fā)生的概率,預防和預測相結合,且更加全面精確。
【IPC分類】G06F19-00
【公開號】CN104636631
【申請?zhí)枴緾N201510103017
【發(fā)明人】董建成, 顧春燕
【申請人】江蘇中康軟件有限責任公司
【公開日】2015年5月20日
【申請日】2015年3月9日