本發(fā)明涉及計(jì)算機(jī)大數(shù)據(jù)處理,尤其涉及一種醫(yī)療數(shù)據(jù)特征提取方法及裝置。
背景技術(shù):
1、隨著智慧醫(yī)療的技術(shù)水平在逐步提高。將醫(yī)療領(lǐng)域的信息數(shù)據(jù)通過(guò)大數(shù)據(jù)處理進(jìn)行歸類,可以幫助醫(yī)務(wù)人員進(jìn)行更好的理解和分析,提高醫(yī)務(wù)人員的診斷速度和準(zhǔn)確性。
2、但是對(duì)于數(shù)量日益增多的醫(yī)療信息數(shù)據(jù),需要更快的數(shù)據(jù)處理速度以及更加直觀明了的輸出結(jié)果,才能發(fā)揮出大數(shù)據(jù)信息處理的優(yōu)勢(shì)。在醫(yī)療領(lǐng)域使用大數(shù)據(jù)分析定然需要用到大量的醫(yī)療信息數(shù)據(jù),其中醫(yī)療信息數(shù)據(jù)包含了病人的個(gè)人基本信息、家庭住址、聯(lián)系方式、病歷信息、藥物處方等等信息。如何快速、直觀、有效的讓醫(yī)務(wù)人員看到這些醫(yī)療信息就成了大數(shù)據(jù)亟待解決的問(wèn)題,這也間接的影響著大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的發(fā)展。
3、現(xiàn)有的醫(yī)療數(shù)據(jù)特征提取方法大多對(duì)醫(yī)療數(shù)據(jù)運(yùn)用特征選擇技術(shù)或者降維技術(shù),如卡方檢驗(yàn)、互信息、主成分分析等,但這些技術(shù)容易造成醫(yī)療原始數(shù)據(jù)信息的損失,導(dǎo)致醫(yī)療數(shù)據(jù)特征結(jié)果的可靠性較差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種醫(yī)療數(shù)據(jù)特征提取方法及裝置,用于解決現(xiàn)有的醫(yī)療數(shù)據(jù)特征提取方法導(dǎo)致醫(yī)療數(shù)據(jù)特征結(jié)果的可靠性較差的技術(shù)問(wèn)題。
2、本發(fā)明第一方面提供的一種醫(yī)療數(shù)據(jù)特征提取方法,包括:
3、獲取多個(gè)初始醫(yī)療文檔,并對(duì)各所述初始醫(yī)療文檔分別進(jìn)行劃分,生成各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)文本塊;
4、對(duì)各所述文本塊分別進(jìn)行分割篩選,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ);
5、采用各所述目標(biāo)詞短語(yǔ)構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì),并對(duì)各所述詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔;
6、根據(jù)各所述目標(biāo)醫(yī)療文檔和各所述目標(biāo)詞短語(yǔ),確定多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值;
7、采用各所述目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和各所述主導(dǎo)項(xiàng)乘積值,生成醫(yī)療數(shù)據(jù)特征結(jié)果。
8、可選地,所述對(duì)各所述文本塊分別進(jìn)行分割篩選,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ)的步驟,包括:
9、對(duì)各所述文本塊分別進(jìn)行語(yǔ)句分割,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)初始詞短語(yǔ);
10、通過(guò)預(yù)置停用詞列表對(duì)各所述初始詞短語(yǔ)進(jìn)行篩選,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ)。
11、可選地,所述采用各所述目標(biāo)詞短語(yǔ)構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì),并對(duì)各所述詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔的步驟,包括:
12、分別統(tǒng)計(jì)各所述目標(biāo)詞短語(yǔ)在所述初始醫(yī)療文檔中的文檔出現(xiàn)次數(shù);
13、將各所述文檔出現(xiàn)次數(shù)分別代入采用預(yù)置詞頻函數(shù),計(jì)算各所述目標(biāo)詞短語(yǔ)對(duì)應(yīng)的文檔詞頻;
14、將各所述目標(biāo)詞短語(yǔ)作為鍵、將各所述目標(biāo)詞短語(yǔ)對(duì)應(yīng)的初始醫(yī)療文檔標(biāo)識(shí)符、文檔詞頻作為值,構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì);
15、按照預(yù)置分組條件對(duì)各所述詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔。
16、可選地,所述根據(jù)各所述目標(biāo)醫(yī)療文檔和各所述目標(biāo)詞短語(yǔ),確定多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值的步驟,包括:
17、分別統(tǒng)計(jì)各所述目標(biāo)詞短語(yǔ)在各所述目標(biāo)醫(yī)療文檔中的文檔出現(xiàn)個(gè)數(shù);
18、將各所述文檔出現(xiàn)個(gè)數(shù)分別代入預(yù)置逆文檔頻率函數(shù),計(jì)算各所述目標(biāo)詞短語(yǔ)對(duì)應(yīng)的逆文檔頻率值;
19、分別判斷各所述逆文檔頻率值是否符合預(yù)置篩選條件;
20、將任一符合所述預(yù)置篩選條件的逆文檔頻率值對(duì)應(yīng)的目標(biāo)詞短語(yǔ)作為初始詞短語(yǔ)主導(dǎo)項(xiàng);
21、對(duì)各所述初始詞短語(yǔ)主導(dǎo)項(xiàng)對(duì)應(yīng)的逆文檔頻率值和文檔詞頻進(jìn)行乘積運(yùn)算,確定各所述初始詞短語(yǔ)主導(dǎo)項(xiàng)對(duì)應(yīng)的主導(dǎo)項(xiàng)乘積值;
22、對(duì)各所述主導(dǎo)項(xiàng)乘積值進(jìn)行降序排序,輸出前預(yù)置數(shù)量位的所述初始詞短語(yǔ)主導(dǎo)項(xiàng)并作為目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)。
23、可選地,所述預(yù)置詞頻函數(shù),具體為:
24、
25、其中,為文檔詞頻;為目標(biāo)詞短語(yǔ)w在初始醫(yī)療文檔d中的文檔出現(xiàn)次數(shù);為初始醫(yī)療文檔d中的總詞數(shù)。
26、可選地,所述預(yù)置逆文檔頻率函數(shù),具體為:
27、
28、其中,為目標(biāo)詞短語(yǔ)w的逆文檔頻率值;為目標(biāo)詞短語(yǔ)w的文檔出現(xiàn)個(gè)數(shù);為目標(biāo)醫(yī)療文檔的總數(shù)量。
29、本發(fā)明第二方面提供的一種醫(yī)療數(shù)據(jù)特征提取裝置,包括:
30、獲取模塊,用于獲取多個(gè)初始醫(yī)療文檔,并對(duì)各所述初始醫(yī)療文檔分別進(jìn)行劃分,生成各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)文本塊;
31、確定模塊,用于對(duì)各所述文本塊分別進(jìn)行分割篩選,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ);
32、采用模塊,用于采用各所述目標(biāo)詞短語(yǔ)構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì),并對(duì)各所述詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔;
33、根據(jù)模塊,用于根據(jù)各所述目標(biāo)醫(yī)療文檔和各所述目標(biāo)詞短語(yǔ),確定多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值;
34、生成模塊,用于采用各所述目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和各所述主導(dǎo)項(xiàng)乘積值,生成醫(yī)療數(shù)據(jù)特征結(jié)果。
35、本發(fā)明第三方面提供的一種電子設(shè)備,包括存儲(chǔ)器及處理器,所述存儲(chǔ)器中儲(chǔ)存有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如上述任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。
36、本發(fā)明第四方面提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。
37、本發(fā)明第五方面提供的一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。
38、從以上技術(shù)方案可以看出,本發(fā)明具有以下優(yōu)點(diǎn):
39、本發(fā)明的上述技術(shù)方案提供了一種醫(yī)療數(shù)據(jù)特征提取方法,首先獲取多個(gè)初始醫(yī)療文檔,并對(duì)各初始醫(yī)療文檔分別進(jìn)行劃分,生成各初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)文本塊;接著,對(duì)各文本塊分別進(jìn)行分割篩選,確定各初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ);采用各目標(biāo)詞短語(yǔ)構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì),并對(duì)各詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔;根據(jù)各目標(biāo)醫(yī)療文檔和各目標(biāo)詞短語(yǔ),確定多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值;采用各目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和各主導(dǎo)項(xiàng)乘積值,生成醫(yī)療數(shù)據(jù)特征結(jié)果;基于上述方案,獲取的初始醫(yī)療文檔經(jīng)過(guò)劃分、分割篩選后,采用根據(jù)目標(biāo)醫(yī)療文檔和各目標(biāo)詞短語(yǔ),確定的多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值生成醫(yī)療數(shù)據(jù)特征結(jié)果的過(guò)程,不需要運(yùn)用特征選擇技術(shù)或者降維技術(shù),不會(huì)造成醫(yī)療原始數(shù)據(jù)信息的損失,進(jìn)一步地提高了醫(yī)療數(shù)據(jù)特征結(jié)果的可靠性。
1.一種醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,所述對(duì)各所述文本塊分別進(jìn)行分割篩選,確定各所述初始醫(yī)療文檔對(duì)應(yīng)的多個(gè)目標(biāo)詞短語(yǔ)的步驟,包括:
3.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,所述采用各所述目標(biāo)詞短語(yǔ)構(gòu)建多個(gè)詞語(yǔ)鍵值對(duì),并對(duì)各所述詞語(yǔ)鍵值對(duì)進(jìn)行分組合并,確定多個(gè)目標(biāo)醫(yī)療文檔的步驟,包括:
4.根據(jù)權(quán)利要求3所述的醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,所述根據(jù)各所述目標(biāo)醫(yī)療文檔和各所述目標(biāo)詞短語(yǔ),確定多個(gè)目標(biāo)詞短語(yǔ)主導(dǎo)項(xiàng)和多個(gè)主導(dǎo)項(xiàng)乘積值的步驟,包括:
5.根據(jù)權(quán)利要求3所述的醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,所述預(yù)置詞頻函數(shù),具體為:
6.根據(jù)權(quán)利要求4所述的醫(yī)療數(shù)據(jù)特征提取方法,其特征在于,所述預(yù)置逆文檔頻率函數(shù),具體為:
7.一種醫(yī)療數(shù)據(jù)特征提取裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器及處理器,所述存儲(chǔ)器中儲(chǔ)存有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1-6任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的醫(yī)療數(shù)據(jù)特征提取方法的步驟。