本發(fā)明涉及一種基于患者生物信息的身份識(shí)別方法。
背景
患者主索引(Enterprise Master Patient Index,EMPI)是二十世紀(jì)末出現(xiàn)的醫(yī)療信息化專(zhuān)業(yè)用語(yǔ),簡(jiǎn)單來(lái)說(shuō),它是患者基本信息檢索目錄。其主要用途是在一個(gè)復(fù)雜的醫(yī)療體系內(nèi),通過(guò)唯一的患者標(biāo)識(shí)將多個(gè)醫(yī)療信息系統(tǒng)有效地關(guān)聯(lián)在一起,以實(shí)現(xiàn)各個(gè)系統(tǒng)之間的互聯(lián)互通,保證對(duì)同一個(gè)患者,分布在不同系統(tǒng)中的個(gè)人信息采集的完整性和準(zhǔn)確性。建立患者主索引是實(shí)現(xiàn)大型醫(yī)院內(nèi)部系統(tǒng)集成,醫(yī)院集團(tuán)內(nèi)資源共享,以及建立居民健康檔案實(shí)現(xiàn)區(qū)域醫(yī)療共享的必要條件。
患者主索引在醫(yī)院的作用隨著醫(yī)院信息化建設(shè)的發(fā)展,從原有HIS系統(tǒng)的基礎(chǔ)上,逐步發(fā)展出LIS、RIS/PACS、手術(shù)麻醉、病理、心電、重癥監(jiān)護(hù)(ICU/CCU)、EMR(電子病歷)等系統(tǒng)。這些不同的系統(tǒng)可能來(lái)自不同的提供商,每個(gè)系統(tǒng)的架構(gòu)、數(shù)據(jù)格式、編碼標(biāo)準(zhǔn)可能不同,致使不同系統(tǒng)的患者信息和臨床信息不能實(shí)現(xiàn)共享。為了解決達(dá)樣的問(wèn)題,一些HIS廠商托管了患者信息管理的職能,而且加強(qiáng)了對(duì)其他系統(tǒng)的開(kāi)放接口?;颊咧魉饕闹饕氊?zé)是:通過(guò)建立起唯一的患者標(biāo)識(shí),將多個(gè)醫(yī)療信息系統(tǒng)之間的患者信息有效地關(guān)聯(lián)在一起;以患者為中心,將不同系統(tǒng)的個(gè)人身份信息進(jìn)行統(tǒng)一管理;為不同的系統(tǒng)提供統(tǒng)一的患者身份信息管理服務(wù)。
目前在醫(yī)療行業(yè)內(nèi)部,對(duì)于患者信息管理與身份標(biāo)識(shí)主要是在以下幾種情況:醫(yī)院內(nèi)部不同患者在同一系統(tǒng)內(nèi)部的信息管理與身份標(biāo)識(shí);醫(yī)院內(nèi)部不同系統(tǒng)之間的患者信息管理與身份標(biāo)識(shí);集團(tuán)醫(yī)院之間的患者信息管理與身份標(biāo)識(shí);區(qū)域內(nèi)各醫(yī)療機(jī)構(gòu)之間的患者信息管理與身份標(biāo)識(shí)。以上四個(gè)場(chǎng)景歸納為醫(yī)院內(nèi)部與跨機(jī)構(gòu)兩個(gè)大的應(yīng)用場(chǎng)景。從就醫(yī)過(guò)程來(lái)看,一般患者首先是在醫(yī)院掛號(hào)或住院登記后再進(jìn)行其它的醫(yī)療活動(dòng),而掛號(hào)與住院登記就是身份注冊(cè)與標(biāo)識(shí)的關(guān)鍵點(diǎn),而這一點(diǎn)由于歷史原因,很多醫(yī)院的系統(tǒng)都未將此功能完善,從而導(dǎo)致了這一大需求的出現(xiàn)。
根據(jù)不同醫(yī)院系統(tǒng)的建設(shè)情況,主要存在以下幾種情況:1)住院與門(mén)診的身份標(biāo)識(shí)不統(tǒng)一:患者住院時(shí),在住院登記時(shí)重新進(jìn)行身份信息的注冊(cè),并沒(méi)有沿用門(mén)診的身份標(biāo)識(shí)信息,從而導(dǎo)致同一個(gè)患者在住院和門(mén)診之間無(wú)法進(jìn)行關(guān)聯(lián);2)多次住院(或門(mén)診、體檢)身份標(biāo)識(shí)不統(tǒng)一:患者多次住院時(shí),每次都進(jìn)行了身份信息的登記,且多次之間沒(méi)有關(guān)聯(lián);可能是由于操作員或患者未提供關(guān)聯(lián)的信息而導(dǎo)致的;3)體檢系統(tǒng)與住院和門(mén)診身份標(biāo)識(shí)不統(tǒng)一:一般是由于體檢系統(tǒng)與住院和門(mén)診系統(tǒng)未互聯(lián)互通導(dǎo)致的,一般都是由不同產(chǎn)家提供的。
院內(nèi)除了門(mén)急診、住院和體檢系統(tǒng)是重要的患者信息注冊(cè)的入口外,從醫(yī)療活動(dòng)的過(guò)程來(lái)看,其它系統(tǒng)都是由于這三個(gè)業(yè)務(wù)發(fā)生后才發(fā)生,如檢查一般是在患者門(mén)診看診或住院后發(fā)生。所以從理論上來(lái)說(shuō)這些系統(tǒng)應(yīng)當(dāng)沿用這三個(gè)業(yè)務(wù)系統(tǒng)的患者身份標(biāo)識(shí)信息,但由于醫(yī)院信息系統(tǒng)在建設(shè)的過(guò)程中,這些系統(tǒng)并未與以上三個(gè)系統(tǒng)互通互聯(lián)而導(dǎo)致了現(xiàn)在的這個(gè)情況。目前主要的情況是:各系統(tǒng)的使用人員還沒(méi)有患者身份標(biāo)識(shí)的概念,一般是通過(guò)申請(qǐng)單上的簡(jiǎn)單信息在對(duì)應(yīng)的系統(tǒng)進(jìn)行簡(jiǎn)單地登記后再進(jìn)行后續(xù)的業(yè)務(wù),而且這些系統(tǒng)無(wú)完善的患者信息管理模塊;
跨機(jī)構(gòu)的患者身份標(biāo)識(shí)必須基于院內(nèi)已經(jīng)統(tǒng)一患者身份管理之后才能進(jìn)行。而且都是非實(shí)時(shí)的,一般是發(fā)生地機(jī)構(gòu)之間有信息交換時(shí)才進(jìn)行患者身份的標(biāo)識(shí)。主要的場(chǎng)景有以下幾個(gè):1)向外機(jī)構(gòu)注冊(cè)本院所產(chǎn)生的患者信息時(shí)(包括基本信息和醫(yī)療信息等);2)向外機(jī)構(gòu)申請(qǐng)查閱患者的醫(yī)療信息時(shí);3)向外機(jī)構(gòu)發(fā)起醫(yī)療服務(wù)申請(qǐng)時(shí);4)向外機(jī)構(gòu)提供醫(yī)療服務(wù)時(shí)。
患者在醫(yī)院就診的過(guò)程中,醫(yī)院會(huì)采集的信息按與EMPI的關(guān)聯(lián)性分為兩大類(lèi),一類(lèi)是患者的社會(huì)屬性,如身份證號(hào)碼、醫(yī)保證號(hào)、農(nóng)合號(hào)、電話號(hào)碼、住址等;另一類(lèi)是生物屬性(也稱(chēng)之為臨床信息),如身高、體重、血壓、呼吸、脈搏等,這部分醫(yī)院是在臨床診療的過(guò)程中產(chǎn)生的,而且具有個(gè)性化的特征。這兩類(lèi)信息目前在醫(yī)院的信息采集過(guò)程中,很多都無(wú)法完整地采集,這就導(dǎo)致了這兩部分信息不完整、分散,對(duì)于基于這些信息來(lái)建立EMPI難度是很大的,為了保證這些信息能被再次利用到EMPI上,所以必須得對(duì)這些信息按EMPI算法、結(jié)構(gòu)的要求進(jìn)行統(tǒng)一的加工處理。
現(xiàn)在主要的患者身份標(biāo)識(shí)實(shí)現(xiàn)方法為基于患者的社會(huì)屬性,采集匹配的算法進(jìn)行的。這種算法的最大問(wèn)題在于患者的基本信息在采集的時(shí)候不完整,很多關(guān)鍵的ID都沒(méi)有采集到,這樣就會(huì)導(dǎo)致這種算法匹配的成功率會(huì)很低。根據(jù)對(duì)幾個(gè)項(xiàng)目的數(shù)據(jù)分析,有能唯一進(jìn)行身份識(shí)別ID的患者信息量不足20%,特別是歷史數(shù)據(jù)。
因此,有必要設(shè)計(jì)一種新的有效的患者身份識(shí)別方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所解決的技術(shù)問(wèn)題是,針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于患者生物信息的身份識(shí)別方法,通過(guò)引入患者在醫(yī)院所收集的生物信息,結(jié)合已經(jīng)收集的患者社會(huì)屬性信息,基于對(duì)現(xiàn)有匹配算法的改進(jìn),提升患者主索引識(shí)別的效率和成功率。
本發(fā)明的技術(shù)方案為:
一種基于患者生物信息的身份識(shí)別方法,包括以下步驟:
步驟1:社會(huì)屬性特征匹配;通過(guò)社會(huì)屬性特征匹配,獲取待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度權(quán)重W(Ri,Rj);
步驟2:生物屬性特征匹配與身份識(shí)別;通過(guò)生物屬性特征匹配,獲取待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度S(Ri,Rj)
由相似度權(quán)重W(Ri,Rj)和相似度S(Ri,Rj)進(jìn)行加權(quán)計(jì)算,得到Ri和Rj的綜合相似度S(Ri,Rj);
將S(Ri,Rj)與設(shè)定閾值λ進(jìn)行比較;若S(Ri,Rj)大于或等于λ,則認(rèn)為兩條數(shù)據(jù)Ri和Rj屬于同一個(gè)人,從而實(shí)現(xiàn)患者身份的識(shí)別。
所述步驟1社會(huì)屬性特征匹配包括以下步驟:
1.1)數(shù)據(jù)預(yù)處理;
社會(huì)屬性信息在錄入的過(guò)程中,常常會(huì)發(fā)生錄入信息不規(guī)范不完整的情況,為了提高匹配結(jié)果的準(zhǔn)確性和效率,對(duì)患者身份數(shù)據(jù)庫(kù)中的數(shù)據(jù)(包括醫(yī)院歷史數(shù)據(jù)和新患者數(shù)據(jù))進(jìn)行預(yù)處理,以統(tǒng)一數(shù)據(jù)格式;例如,將不符合各社會(huì)屬性特征字段要求的錯(cuò)誤和冗余數(shù)據(jù)進(jìn)行置空處理,以免影響匹配結(jié)果;對(duì)于號(hào)碼放置位置錯(cuò)誤的情況,進(jìn)行位置重置;對(duì)于證件號(hào)碼或電話號(hào)碼,如身份證位數(shù)不 一致或者電話號(hào)碼格式不統(tǒng)一的問(wèn)題,進(jìn)行統(tǒng)一格式處理;如身份證號(hào)碼不足18位的,在后面用符號(hào)X進(jìn)行補(bǔ)全。
1.2)對(duì)于患者身份數(shù)據(jù)庫(kù)中的每一條數(shù)據(jù),進(jìn)行社會(huì)屬性特征篩選;
將患者社會(huì)屬性特征按照可信度分為兩個(gè)等級(jí),分別是一級(jí)特征和二級(jí)特征:
一級(jí)特征為基本不變的信息,包括姓、名、性別、身份證號(hào)、出生日期;一級(jí)特征是進(jìn)行匹配的主要特征,可靠性相對(duì)較高;
二級(jí)特征為變化頻率較低的信息,包括電話號(hào)碼、手機(jī)號(hào)碼、居住地址、戶(hù)口地址和郵編;二級(jí)特征是進(jìn)行匹配的輔助特征,可靠性相對(duì)較低;
1.3)將待識(shí)別的患者數(shù)據(jù)與患者身份數(shù)據(jù)庫(kù)中的其它所有數(shù)據(jù)逐條進(jìn)行一級(jí)特征匹配;
將患者身份數(shù)據(jù)庫(kù)中與待識(shí)別的患者數(shù)據(jù)一級(jí)特征匹配成功的所有數(shù)據(jù)組成一級(jí)成功匹配記錄集,記為Set(I);Set(I)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w1;
將患者身份數(shù)據(jù)庫(kù)中未與待識(shí)別的患者數(shù)據(jù)一級(jí)特征匹配成功的所有數(shù)據(jù)組成一級(jí)未成功匹配記錄集,進(jìn)入1.4);
1.4)將待識(shí)別的患者數(shù)據(jù)與一級(jí)未成功匹配記錄集中的所有數(shù)據(jù)逐條進(jìn)行二級(jí)特征匹配;
將一級(jí)未成功匹配記錄集中與待識(shí)別的患者數(shù)據(jù)二級(jí)特征匹配成功的所有數(shù)據(jù)組成二級(jí)成功匹配記錄集,記為Set(II);Set(II)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w2;
將一級(jí)未成功匹配記錄集中未與待識(shí)別的患者數(shù)據(jù)二級(jí)特征匹配成功的剩余所有數(shù)據(jù)組成二級(jí)未成功匹配記錄集,記為Set(III);Set(III)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w3。
其中w1>w2>w3;由w1、w2和w3得到待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度權(quán)重W(Ri,Rj)。
所述步驟1.3)具體為:
先根據(jù)待識(shí)別的患者數(shù)據(jù)一級(jí)特征中的姓和性別,篩選出患者身份數(shù)據(jù)庫(kù)中所有與待識(shí)別的患者數(shù)據(jù)的姓和性別相同的數(shù)據(jù);
再將待識(shí)別的患者數(shù)據(jù)與篩選出的患者身份數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行除了姓和性別以外的其它一級(jí)特征匹配。
先對(duì)患者身份數(shù)據(jù)庫(kù)中的患者進(jìn)行索引,再基于索引結(jié)果進(jìn)行匹配,相對(duì)于逐條進(jìn)行所有一級(jí)特征匹配,可以減少比較量,從而能夠整體提升效率。
所述w1=1,w2=0.5,w3=0.1。
所述步驟2生物屬性特征匹配與身份識(shí)別包括以下步驟:
2.1)生物屬性特征提?。?/p>
對(duì)患者身份數(shù)據(jù)庫(kù)中的任意一條數(shù)據(jù)R,首先進(jìn)行關(guān)鍵詞提?。?/p>
R={KW1,KW2,…,KWn}
其中,KW1表示R中的第一個(gè)關(guān)鍵詞;關(guān)鍵詞包括屬性關(guān)鍵詞(例如,血液、身高等)和特征關(guān)鍵詞;特征關(guān)鍵詞描述的是屬性的取值或者特征(例如粘稠,170cm等);
然后將屬性關(guān)鍵詞與特征關(guān)鍵詞進(jìn)行配對(duì),得到屬性/特征關(guān)鍵詞對(duì)集合:
{(S1,KW1),(S2,KW2),…,(Sn,KWn)}
(Sn,KWn)表示R中第n個(gè)屬性/特征關(guān)鍵詞對(duì),n為R中的屬性/特征關(guān)鍵詞對(duì)的總個(gè)數(shù),Sn表示R中第n個(gè)屬性/特征關(guān)鍵詞對(duì)中的屬性關(guān)鍵詞,KWn表示第n個(gè)屬性/特征關(guān)鍵詞對(duì)中的特征關(guān)鍵詞;
屬性/特征關(guān)鍵詞對(duì)描述了不同檢查結(jié)果,例如關(guān)鍵詞對(duì)(體重,70kg)表示患者的體重是70公斤。
2.2)計(jì)算兩條數(shù)據(jù)Ri和Rj之間的生物屬性特征的相似度Sim(Ri,Rj);
Sim(Ri,Rj)等于兩條數(shù)據(jù)之間匹配的屬性/特征關(guān)鍵詞對(duì)個(gè)數(shù);
設(shè)置Sim(Ri,Rj)的初始值為0;兩條數(shù)據(jù)的屬性/特征關(guān)鍵詞對(duì)有一個(gè)匹配則相似度加1。例如,對(duì)于兩條數(shù)據(jù)Ri與Rj,其中屬性/特征關(guān)鍵詞對(duì){Si,KWi}屬于Ri,而屬性/特征關(guān)鍵詞對(duì){Sj,KWj}屬于Rj,如果Si=Sj,且KWi=KWj,則{Si,KWi}與{Sj,KWj}匹配,Sim(Ri,Rj)加1。
2.3)通過(guò)以下公式計(jì)算兩條數(shù)據(jù)Ri和Rj的綜合相似度S(Ri,Rj):
S(Ri,Rj)=W(Ri,Rj)·Sim(Ri,Rj)
2.4)進(jìn)行閾值比較,識(shí)別待識(shí)別的患者身份;
將Ri和Rj的綜合相似度S(Ri,Rj)與閾值λ進(jìn)行比較;若S(Ri,Rj)大于或等于λ,則認(rèn)為兩條數(shù)據(jù)Ri和Rj屬于同一個(gè)人,從而實(shí)現(xiàn)患者身份的識(shí)別。
所述步驟2.1)中利用Keygraph算法進(jìn)行關(guān)鍵詞提取。
所述步驟2.2)中,對(duì)于其中的特征關(guān)鍵詞為數(shù)值的屬性/特征關(guān)鍵詞對(duì)(如屬性關(guān)鍵詞為身高、體重等),進(jìn)行模糊匹配,即只要特征關(guān)鍵詞的大小偏差在5%范圍內(nèi),均認(rèn)為特征關(guān)鍵詞匹配(相等)。
有益效果:
本發(fā)明通過(guò)引入患者在醫(yī)院所收集的生物信息,結(jié)合已經(jīng)收集的患者社會(huì)屬性信息,基于對(duì)現(xiàn)有匹配算法的改進(jìn),對(duì)患者身份數(shù)據(jù)庫(kù)進(jìn)行匹配操作,匹配算法包括社會(huì)屬性特征匹配算法和生物屬性特征匹配兩部分,共同構(gòu)成基于患者生物信息的身份識(shí)別方法。本發(fā)明能應(yīng)用于患者身份特征數(shù)據(jù)庫(kù)中醫(yī)院歷史數(shù)據(jù)合并處理以及新患者數(shù)據(jù)識(shí)別融合兩種情況。本發(fā)明能有效提升患者主索引識(shí)別的效率和成功率。
附圖說(shuō)明
圖1為本發(fā)明流程圖;
圖2為本發(fā)明社會(huì)屬性特征匹配流程圖;
圖3為本發(fā)明生物屬性特征匹配流程圖與身份識(shí)別;
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步具體說(shuō)明。
如圖1所示,本發(fā)明公開(kāi)了一種基于患者生物信息的身份識(shí)別方法,包括以下步驟:
步驟1:社會(huì)屬性特征匹配;通過(guò)社會(huì)屬性特征匹配,獲取待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度權(quán)重W(Ri,Rj);
步驟2:生物屬性特征匹配與身份識(shí)別;通過(guò)生物屬性特征匹配,獲取待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度S(Ri,Rj)
由相似度權(quán)重W(Ri,Rj)和相似度S(Ri,Rj)進(jìn)行加權(quán)計(jì)算,得到Ri和Rj的綜合相似度S(Ri,Rj);
將S(Ri,Rj)與設(shè)定閾值λ進(jìn)行比較;若S(Ri,Rj)大于或等于λ,則認(rèn)為兩條數(shù)據(jù)Ri和Rj屬于同一個(gè)人,從而實(shí)現(xiàn)患者身份的識(shí)別。
如圖2所示,所述步驟1社會(huì)屬性特征匹配包括以下步驟:
1.1)數(shù)據(jù)預(yù)處理;
社會(huì)屬性信息在錄入的過(guò)程中,常常會(huì)發(fā)生錄入信息不規(guī)范不完整的情況,為了提高匹配結(jié)果的準(zhǔn)確性和效率,對(duì)患者身份數(shù)據(jù)庫(kù)中的數(shù)據(jù)(包括醫(yī)院歷史數(shù)據(jù)和新患者數(shù)據(jù))進(jìn)行預(yù)處理,以統(tǒng)一數(shù)據(jù)格式;例如,將不符合各社會(huì)屬性特征字段要求的錯(cuò)誤和冗余數(shù)據(jù)進(jìn)行置空處理,以免影響匹配結(jié)果;對(duì)于號(hào)碼放置位置錯(cuò)誤的情況,進(jìn)行位置重置;對(duì)于證件號(hào)碼或電話號(hào)碼,如身份證位數(shù)不一致或者電話號(hào)碼格式不統(tǒng)一的問(wèn)題,進(jìn)行統(tǒng)一格式處理;如身份證號(hào)碼不足18位的,通過(guò)在后面用符號(hào)X進(jìn)行補(bǔ)全。
1.2)對(duì)于患者身份數(shù)據(jù)庫(kù)中的每一條數(shù)據(jù),進(jìn)行社會(huì)屬性特征篩選;
將患者社會(huì)屬性特征按照可信度分為兩個(gè)等級(jí),分別是一級(jí)特征和二級(jí)特征:
一級(jí)特征為基本不變的信息,包括姓、名、性別、身份證號(hào)、出生日期;一級(jí)特征是進(jìn)行匹配的主要特征,可靠性相對(duì)較高;
二級(jí)特征為變化頻率較低的信息,包括電話號(hào)碼、手機(jī)號(hào)碼、居住地址、戶(hù)口地址和郵編;二級(jí)特征是進(jìn)行匹配的輔助特征,可靠性相對(duì)較低;
1.3)將待識(shí)別的患者數(shù)據(jù)與患者身份數(shù)據(jù)庫(kù)中的其它所有數(shù)據(jù)逐條進(jìn)行一級(jí)特征匹配;
將患者身份數(shù)據(jù)庫(kù)中與待識(shí)別的患者數(shù)據(jù)一級(jí)特征匹配成功的所有數(shù)據(jù)組成一級(jí)成功匹配記錄集,記為Set(I);Set(I)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w1;
將患者身份數(shù)據(jù)庫(kù)中未與待識(shí)別的患者數(shù)據(jù)一級(jí)特征匹配成功的所有數(shù)據(jù)組成一級(jí)未成功匹配記錄集,進(jìn)入1.4);
1.4)將待識(shí)別的患者數(shù)據(jù)與一級(jí)未成功匹配記錄集中的所有數(shù)據(jù)逐條進(jìn)行二級(jí)特征匹配;
將一級(jí)未成功匹配記錄集中與待識(shí)別的患者數(shù)據(jù)二級(jí)特征匹配成功的所有數(shù)據(jù)組成二級(jí)成功匹配記錄集,記為Set(II);Set(II)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w2;
將一級(jí)未成功匹配記錄集中未與待識(shí)別的患者數(shù)據(jù)二級(jí)特征匹配成功的剩余所有數(shù)據(jù)組成二級(jí)未成功匹配記錄集,記為Set(III);Set(III)中的每一條數(shù)據(jù)與待識(shí)別的患者數(shù)據(jù)的相關(guān)性權(quán)重設(shè)置為w3。
其中w1>w2>w3;由w1、w2和w3得到待識(shí)別的患者數(shù)據(jù)Ri與患者身份數(shù)據(jù)庫(kù)中的其它任意一條數(shù)據(jù)Rj的相似度權(quán)重W(Ri,Rj)。
所述步驟1.3)具體為:
先根據(jù)待識(shí)別的患者數(shù)據(jù)一級(jí)特征中的姓和性別,篩選出患者身份數(shù)據(jù)庫(kù)中所有與待識(shí)別的患者數(shù)據(jù)的姓和性別相同的數(shù)據(jù);
再將待識(shí)別的患者數(shù)據(jù)與篩選出的患者身份數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行除了姓和性別以外的其它一級(jí)特征匹配。
所述w1=1,w2=0.5,w3=0.1。
如圖3所示,所述步驟2生物屬性特征匹配與身份識(shí)別包括以下步驟:
2.1)生物屬性特征提??;
對(duì)患者身份數(shù)據(jù)庫(kù)中的任意一條數(shù)據(jù)R,首先進(jìn)行關(guān)鍵詞提?。?/p>
R={KW1,KW2,…,KWn}
其中,KW1表示R中的第一個(gè)關(guān)鍵詞;關(guān)鍵詞包括屬性關(guān)鍵詞(例如,血液、身高等)和特征關(guān)鍵詞;特征關(guān)鍵詞描述的是屬性的取值或者特征(,例如粘稠,170cm等);
然后將屬性關(guān)鍵詞與特征關(guān)鍵詞進(jìn)行配對(duì),得到屬性/特征關(guān)鍵詞對(duì)集合:
{(S1,KW1),(S2,KW2),…,(Sn,KWn)}
(Sn,KWn)表示R中第n個(gè)屬性/特征關(guān)鍵詞對(duì),n為R中的屬性/特征關(guān)鍵詞對(duì)的總個(gè)數(shù),Sn表示R中第n個(gè)屬性/特征關(guān)鍵詞對(duì)中的屬性關(guān)鍵詞,KWn表示第n個(gè)屬性/特征關(guān)鍵詞對(duì)中的特征關(guān)鍵詞;
屬性/特征關(guān)鍵詞對(duì)描述了不同檢查結(jié)果,例如關(guān)鍵詞對(duì)(體重,70kg)表示患者的體重是70公斤。
2.2)計(jì)算兩條數(shù)據(jù)Ri和Rj之間的生物屬性特征的相似度Sim(Ri,Rj);
Sim(Ri,Rj)等于兩條數(shù)據(jù)之間匹配的屬性/特征關(guān)鍵詞對(duì)個(gè)數(shù);
設(shè)置Sim(Ri,Rj)的初始值為0;兩條數(shù)據(jù)的屬性/特征關(guān)鍵詞對(duì)有一個(gè)匹配則相似度加1。例如,對(duì)于兩條數(shù)據(jù)Ri與Rj,其中屬性/特征關(guān)鍵詞對(duì){Si,KWi}屬于 Ri,而屬性/特征關(guān)鍵詞對(duì){Sj,KWj}屬于Rj,如果Si=Sj,且KWi=KWj,則{Si,KWi}與{Sj,KWj}匹配,Sim(Ri,Rj)加1。
2.3)通過(guò)以下公式計(jì)算兩條數(shù)據(jù)Ri和Rj的綜合相似度S(Ri,Rj):
S(Ri,Rj)=W(Ri,Rj)·Sim(Ri,Rj)
2.4)進(jìn)行閾值比較,識(shí)別待識(shí)別的患者身份;
將Ri和Rj的綜合相似度S(Ri,Rj)與閾值λ進(jìn)行比較;若S(Ri,Rj)大于或等于λ,則認(rèn)為兩條數(shù)據(jù)Ri和Rj屬于同一個(gè)人,從而實(shí)現(xiàn)患者身份的識(shí)別。
所述步驟2.1)中利用Keygraph算法進(jìn)行關(guān)鍵詞提取。
所述步驟2.2)中,對(duì)于其中的特征關(guān)鍵詞為數(shù)值的屬性/特征關(guān)鍵詞對(duì)(如屬性關(guān)鍵詞為身高、體重等),進(jìn)行模糊匹配,即只要特征關(guān)鍵詞的大小偏差在5%范圍內(nèi),均認(rèn)為特征關(guān)鍵詞匹配(相等)。
實(shí)施例1:
有患者信息R1:姓名:張三,年齡:37,身高:170cm,體重:70kg,肺部陰影,咳嗽有痰。
數(shù)據(jù)庫(kù)中有兩條記錄,分別是:
R2:姓名:張三,年齡:35,身高:162cm,體重:69kg,肺部無(wú)陰影。
R3:姓名:張三,年齡:36,身高:171cm,體重:65kg,肺部陰影。
下面計(jì)算患者于數(shù)據(jù)庫(kù)中記錄的綜合相似度:
首先計(jì)算相似度權(quán)重:W(R1,R2)=1,W(R1,R3)=1;
隨后計(jì)算相似度:Sim(R1,R2)=1,Sim(R1,R3)=2;
最后計(jì)算綜合相似度:S(R1,R2)=1,S(R1,R3)=2;
如果閾值λ=2。由于S(R1,R3)>=λ,則可以認(rèn)為R1,R3是同一個(gè)人。