一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法

文檔序號：8319443閱讀：675來源：國知局

一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法
【技術領域】
[0001] 本發(fā)明涉及一種概率計算方法，尤其是涉及一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法。
【背景技術】
[0002] 隨著社會經濟的發(fā)展，人口老齡化、生活方式等危險因素迅速增加，糖尿病患病率在世界范圍內呈上升趨勢。據世界衛(wèi)生組織統(tǒng)計：1985年全世界有糖尿病患者3000萬人，1995年為1. 35億人，2000年為1. 77億人，估計到2025年將達到3億人；每年約有 400萬人死于和糖尿病相關的疾病，占世界死亡人數的9%。許多糖尿病患者不能被早期識別，并且糖尿病人群正趨于低齡化，對于糖尿病的防治成為了當下重要的技術問題。
[0003] 現(xiàn)有的糖尿病防治技術主要分為兩類：第一類是從大數據中分析出影響糖尿病發(fā) 生的主要因素，從而來預防糖尿??；第二類是對糖尿病發(fā)生風險的預測。
[0004] 第一類主要利用大數據作為樣本，提取影響糖尿病發(fā)生的因素，主要是與生活習慣、飲食習慣方面相關的因素，讓人們可以注意這些方面，從而來預防糖尿病的發(fā)生。該類方法僅僅是提供一個預防功能，且預防的因素也不夠全面，同時缺少了重要的預測功能，為糖尿病的防治帶來了困難。
[0005] 第二類主要采用分類方法來預測糖尿病發(fā)生的風險，主要分為：高危、中危、低危，這樣的分類方法區(qū)間廣，較為模糊。并且，僅僅通過這些分類方法不能很好的篩選出糖尿病特征屬性，導致預測結果誤差變大。
[0006] 從上述兩類現(xiàn)有的技術可以看出，當下的糖尿病防治技術還不夠成熟，影響糖尿病的因素較為復雜，單純的大數據分析方法以及單純的預測方法都是存在較大缺陷的，一方面是預防不夠全面，另一方面是預測不夠精確。因此，設計一種預防和預測相結合即更加全面精確的技術方法對糖尿病的防治具有深遠的意義。

【發(fā)明內容】

[0007] 本發(fā)明目的是：提供一種預防和預測相結合且更加全面精確的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，該方法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模型方法，通過提取大數據中糖尿病的特征屬性，從而預測糖尿病發(fā)生與否，并進一步計算其發(fā)生的概率。
[0008] 本發(fā)明的技術方案是：一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，包括以下步驟：
[0009] 1)構建糖尿病決策樹模型，提取70%的糖尿病系統(tǒng)大數據作為所述決策樹模型的訓練樣本S，根據該訓練樣本S獲取糖尿病特征屬性并將其作為所述決策樹模型的輸入變量X i,每個輸入變量Xi都有其對應的分類Xij，其中i = 1，2，…，n，j的值由其對應的Xi 分類值確定；
[0010] 2)根據所述訓練樣本S的信息增益率Gains (Xi)選擇所述決策樹模型的最佳分枝變量；
[0011] 3)提取剩余30%的糖尿病系統(tǒng)大數據并從下向上進行決策樹后剪枝，得到糖尿病診斷結果輸出變量C k，其中k = 1，2,3，(^、(：2、(：3分別對應為可能、否、是糖尿病診斷結果的決策樹輸出變量；
[0012] 4)構建糖尿病樸素貝葉斯模型，從糖尿病系統(tǒng)大數據中提取包含上述決策樹模型篩選后的特征屬性數據并重新構成訓練樣本D，提取上述決策樹模型中所有輸出變量為 C1的節(jié)點，自上向下獲取每個節(jié)點所經過的特征屬性分類X y并定義第!個節(jié)點所擁有的特征屬性集合乙為：Y1= {y P y2，…，ym}，其中m是對應節(jié)點所擁有的特征屬性個數，再利用貝葉斯公式得，第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P (C i Iy1 *y2 -y3..... ym)。
[0013] 作為優(yōu)選的技術方案，步驟2)中信息增益率Gains (Xi)的計算公式如下：
【主權項】
1. 一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，其特征在于，包括以下步驟： 1) 構建糖尿病決策樹模型，提取70 %的糖尿病系統(tǒng)大數據作為所述決策樹模型的訓練樣本S，根據該訓練樣本S獲取糖尿病特征屬性并將其作為所述決策樹模型的輸入變量 Xi,每個輸入變量Xi都有其對應的分類Xij,其中i = 1，2，···，!!，j的值由其對應的Xi分類值確定； 2) 根據所述訓練樣本S的信息增益率Gains (Xi)選擇所述決策樹模型的最佳分枝變量； 3) 提取剩余30%的糖尿病系統(tǒng)大數據并從下向上進行決策樹后剪枝，得到糖尿病診斷結果輸出變量Ck，其中k = 1，2,3，(^、(：2、(：3分別對應為可能、否、是糖尿病診斷結果的決策樹輸出變量； 4) 構建糖尿病樸素貝葉斯模型，從糖尿病系統(tǒng)大數據中提取包含上述決策樹模型篩選后的特征屬性數據并重新構成訓練樣本D，提取上述決策樹模型中所有輸出變量為C1的節(jié) 點，自上向下獲取每個節(jié)點所經過的特征屬性分類Xm并定義第r個節(jié)點所擁有的特征屬性集合Y1?為：Y 1= {ypyy 其中m是對應節(jié)點所擁有的特征屬性個數，再利用貝葉斯公式得，第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....ym)。
2. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，其特征在于，步驟2)中信息增益率Gains (Xi)的計算公式如下：
Gain(Xi) = Info(S)-Info(Xi), (i = 1，2，…，η) Gains(Xi) =Gain(Xi)Zlnfo(Xi), (i = 1，2，…，η) 其中，|s|為訓練樣本s的樣本總數； freq(ck，s)為訓練樣本s中屬于Ck類糖尿病診斷結果的樣本數量； freq(Ck，Xij)為訓練樣本S中包含輸入變量\分類值為X ij的屬于Ck類糖尿病診斷結果的樣本數量； Ixi I為訓練樣本S中包含輸入變量Xi的樣本數量； Xij I為訓練樣本s中包含輸入變量\分類值為X U的樣本數量； Info(S)為訓練樣本S的信息熵；Info (Xi)為糖尿病特征屬性Xi在訓練樣本S中的條件熵；Info(Xip為糖尿病特征屬性分類Xu在訓練樣本S中的條件熵；Gain (Xi)為糖尿病特征屬性Xi的信息增益。
3. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，其特征在于，步驟3)中決策樹后剪枝的具體方法如下：采用置信區(qū)間法，給定置信水平I-α，假設第r個節(jié)點上的\個診斷預測中有B ^個是錯誤的，則錯誤率為By\，且通過正態(tài)分布表得到第r個節(jié)點上的糖尿病診斷結果的誤差 μ 1?滿足：
令Er=Br/Ar，的置信區(qū)間為：
假設父節(jié)點上的診斷結果的誤差為μ，母個于節(jié)點占該分支樣本量的比例為Θ,，對父節(jié)點擁有的所有子節(jié)點的診斷結果的誤差進行加權計算：
當所有的μ,都取最小值時，如果V >叫則將該父節(jié)點的所有子節(jié)點都修剪去除。
4. 根據權利要求1所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，其特征在于，步驟4)中第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....又^勺計 |?Λν 才 f/mc .
P(Ck) = freq(Ck，D)/|D|，（k = 1，2,3)
其中|D I為訓練訓練樣本D的樣本總數； freq(Ck，D)為訓練樣本D中屬于Ck類糖尿病診斷結果的樣本數量； freq(Ck，ym)為訓練樣本D中包含輸入變量7111的屬于C k類糖尿病診斷結果的樣本數量； P(Ck)為訓練樣本D中糖尿病診斷結果為Ck的概率；P (ym I Ck)為訓練樣本D中糖尿病診斷結果為(^且包含特征屬性y 概率。
5. 根據權利要求1至4任一項所述的基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，其特征在于，所述決策樹模型選自C5. O決策樹模型。
【專利摘要】本發(fā)明公開了一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法，包括以下步驟：1)構建糖尿病決策樹模型；2)根據訓練樣本S的信息增益率Gains(Xi)選擇所述決策樹模型的最佳分枝變量；3)從下向上進行決策樹后剪枝；4)構建糖尿病樸素貝葉斯模型，并利用貝葉斯公式得，第r個節(jié)點上輸出變量為C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym)；該方法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模型方法，通過提取大數據中糖尿病的特征屬性，從來而預測糖尿病發(fā)生與否，并進一步計算其發(fā)生的概率，預防和預測相結合，且更加全面精確。
【IPC分類】G06F19-00
【公開號】CN104636631
【申請?zhí)枴緾N201510103017
【發(fā)明人】董建成, 顧春燕
【申請人】江蘇中康軟件有限責任公司
【公開日】2015年5月20日
【申請日】2015年3月9日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：董建成;顧春燕;
技術所有人：江蘇中康軟件有限責任公司;
我是此專利的發(fā)明人

上一篇：高精度相位小存儲量查表計算方法
上一篇：一種基于均值濾波和等梯度的熱電廠蒸汽壓力濾波方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聯(lián)合概率數據關聯(lián)相關技術

聯(lián)合概率數據關聯(lián)算法相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于糖尿病系統(tǒng)大數據的糖尿病概率計算方法