專(zhuān)利名稱(chēng):一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子識(shí)別技術(shù)領(lǐng)域,特別涉及一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置。
背景技術(shù):
電子信息是以電子化方式管理的數(shù)據(jù)信息,涉及數(shù)據(jù)信息的采集、存儲(chǔ)、傳輸、處理和利用。例如,電子病歷(Electronic Health Record)是以電子化方式管理的有關(guān)個(gè)人終生健康狀態(tài)和醫(yī)療保健行為的文本數(shù)據(jù),涉及病人信息的采集、存儲(chǔ)、傳輸、處理和利用。 病歷信息化在醫(yī)院信息化建設(shè)中處于核心的地位,電子病歷是醫(yī)院數(shù)字化之本。因此,近年來(lái)電子病歷得到了從政府到醫(yī)院、從業(yè)務(wù)科室到IT部門(mén)的普遍關(guān)注。為了更好地識(shí)別出文本數(shù)據(jù)所表達(dá)的語(yǔ)義,國(guó)外很多機(jī)構(gòu)構(gòu)架了針對(duì)某一領(lǐng)域的知識(shí)標(biāo)準(zhǔn)即某一領(lǐng)域的知識(shí)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),而國(guó)內(nèi)缺少這樣有應(yīng)用價(jià)值的中文知識(shí)標(biāo)準(zhǔn)。沒(méi)有統(tǒng)一的知識(shí)標(biāo)準(zhǔn)(知識(shí)庫(kù))很難準(zhǔn)確的識(shí)別文本數(shù)據(jù)所表達(dá)的語(yǔ)義,而沒(méi)有語(yǔ)義分析能力的文本數(shù)據(jù),其結(jié)構(gòu)化及上層應(yīng)用也無(wú)從談起。由于中英文語(yǔ)言及文化的差異,英文標(biāo)準(zhǔn)很難直接應(yīng)用于國(guó)內(nèi)的數(shù)據(jù)識(shí)別分析。例如,對(duì)于電子病歷文本數(shù)據(jù)的識(shí)別,國(guó)外很多研究機(jī)構(gòu)構(gòu)建了醫(yī)學(xué)臨床知識(shí)標(biāo)準(zhǔn),但由于中英語(yǔ)言及臨床差異,英文標(biāo)準(zhǔn)很難直接應(yīng)用于國(guó)內(nèi)臨床診療過(guò)程,且中文醫(yī)學(xué)知識(shí)獲取也有自己特性,主要表現(xiàn)在一詞多意中文專(zhuān)業(yè)醫(yī)學(xué)詞匯通常是無(wú)歧義詞,而英文專(zhuān)業(yè)醫(yī)學(xué)詞匯在不同科室可能含義不同,比如COLD包含體征發(fā)冷、感冒疾病、慢性阻塞性肺炎三個(gè)不同的意思;多詞一意很多詞匯表達(dá)同一臨床表現(xiàn),甚至同一疾病有很多名稱(chēng),比如高血壓這個(gè)概念,至少有36種表達(dá)方法;臨床文本中詞語(yǔ)的頻率高低對(duì)語(yǔ)義的權(quán)重影響小,不同于信息檢索中 TF-IDF (Term Frequency-Inverse Document Frequency)步頁(yè)度計(jì)算方法,醫(yī)學(xué)文本特另Ij是電子病歷中很少重復(fù)出現(xiàn)相同內(nèi)容,但并不能表明僅出現(xiàn)一次的內(nèi)容不重要。目前的電子病歷在系統(tǒng)架構(gòu)方面,病歷信息呈現(xiàn)海量、異構(gòu)、分布、多模態(tài)等特點(diǎn), 缺乏統(tǒng)一以病人為中心的信息組織與管理機(jī)制,歷史遺留系統(tǒng)缺乏統(tǒng)一管理機(jī)制和訪問(wèn)手段。在功能應(yīng)用方面,當(dāng)前電子病歷系統(tǒng)要求醫(yī)生操作多而干擾與患者的溝通,失去捕捉 “望” “聞”患者信息的機(jī)會(huì),系統(tǒng)缺乏感知上下文的語(yǔ)義支持技術(shù);同時(shí)病歷查詢(xún)方式也多為結(jié)構(gòu)化條件且條件組合復(fù)雜,通常以增加醫(yī)生操作量為代價(jià)來(lái)解決復(fù)雜的檢索問(wèn)題,甚至提供過(guò)多的選項(xiàng),以至于醫(yī)生無(wú)從下手,使得傳統(tǒng)檢索方式檢索條件的全面性與醫(yī)生操作的便利性互相沖突,系統(tǒng)缺乏靈活的基于語(yǔ)義的病歷檢索方式和語(yǔ)義搜索引擎,特別是對(duì)多模態(tài)數(shù)據(jù)的支持??梢?jiàn),如何自動(dòng)的判別不同文本數(shù)據(jù)之間語(yǔ)義的相似度,例如不同電子病歷之間所描述病情的相似度,是亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例在提供一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置,其能夠準(zhǔn)確的識(shí)別出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。本發(fā)明實(shí)施例提供了一種文本數(shù)據(jù)相似度的計(jì)算方法,所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。其中,根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括i)判斷所述第一文本數(shù)據(jù)中是否存在否定句法,若是,執(zhí)行步驟ii),否則執(zhí)行步驟 iii);ii)對(duì)否定句法進(jìn)行預(yù)處理;iii)以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn);iv)識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞;ν)使用語(yǔ)義單元分裂算法,根據(jù)所識(shí)別出的根中心詞,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù),其中,所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。其中,使用語(yǔ)義單元分裂算法,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn),并且,預(yù)先設(shè)置中心詞庫(kù), 所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系;所述方法還包括i)獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞;ii)確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)ρ是否為空,若是,執(zhí)行步驟ix),否則,執(zhí)行步驟iii);iii)以分割標(biāo)點(diǎn)ρ分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元,生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ;iv)根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞,若是,則執(zhí)行步驟vii),否則執(zhí)行步驟ν);ν)根據(jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ;vi)以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn),將語(yǔ)義單元CVkt作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn),連接至父節(jié)點(diǎn)PV上,然后執(zhí)行步驟ix);vii)通過(guò)中心詞庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞,獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ;viii)以父節(jié)點(diǎn)PV為根,將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV,然后執(zhí)行步驟ix);ix)返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù),生成第一語(yǔ)義單元樹(shù)。其中,所述步驟vii)中獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt 的步驟包括01)識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元 CVPre的中心詞CW ;02)將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn),生成合并處理后的語(yǔ)義單元CVkt ;該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè);初始化語(yǔ)義單元樹(shù)集合CVTreekt,令CVTreekt = Φ ;其中,Φ表示空集合;03)判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt,若是,則執(zhí)行步驟07),否則執(zhí)行步驟04);04)獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV,該待分裂的子節(jié)點(diǎn)CV代表一語(yǔ)義單元,及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的中心詞CW ;05)遞歸的采用語(yǔ)義單元分裂算法,生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù) CVTree ;06)將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ;07)返回語(yǔ)義單元樹(shù)集合CViTreekt。其中,將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的步驟包括由葉子節(jié)點(diǎn)為基礎(chǔ),向上逐步比較每個(gè)節(jié)點(diǎn)的相似度,并且,根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值,計(jì)算出根節(jié)點(diǎn)的相似度,從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。本發(fā)明實(shí)施例還提供了一種文本數(shù)據(jù)相似度的計(jì)算裝置,所述裝置包括獲取單元,用于獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);語(yǔ)義單元樹(shù)生成單元,用于生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;相似度比較單元,用于將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。其中,語(yǔ)義單元樹(shù)生成單元包括否定句法判斷單元,用于判斷所述第一文本數(shù)據(jù)中是否存在否定句法,若是,通知否定句法處理單元,否則通知第一識(shí)別單元;否定句法處理單元,用于對(duì)否定句法進(jìn)行預(yù)處理;第一識(shí)別單元,用于以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn);識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞;
分裂算法計(jì)算單元,用于使用語(yǔ)義單元分裂算法,根據(jù)所識(shí)別出的根中心詞,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù),其中,所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。其中,預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn),并且,預(yù)先設(shè)置中心詞庫(kù),所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系;所述分裂算法計(jì)算單元包括第一識(shí)別單元,用于獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV,及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞;分割標(biāo)點(diǎn)級(jí)別判斷單元,用于確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P否存為空,若是,通知第一返回單元,否則,通知分割單元;分割單元,用于以分割標(biāo)點(diǎn)ρ分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元,生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ;下一級(jí)中心詞判斷單元,用于根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞,若是,則通知語(yǔ)義單元樹(shù)集合獲取單元,否則通知?jiǎng)澐謫卧粍澐謫卧?,用于根?jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ;第一連接單元,用于以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn),將語(yǔ)義單元CVkt作為節(jié)點(diǎn)PV 的下一級(jí)子節(jié)點(diǎn),連接至父節(jié)點(diǎn)PV上,然后通知第一返回單元;語(yǔ)義單元樹(shù)集合獲取單元,用于通過(guò)中心詞數(shù)據(jù)庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞,獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ;第二連接單元,用于以父節(jié)點(diǎn)PV為根,將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV,然后通知第一返回單元;第一返回單元,用于返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù),生成第一語(yǔ)義單元樹(shù)。其中,所述語(yǔ)義單元樹(shù)集合獲取單元包括第二識(shí)別單元,用于識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre的中心詞CW ;合并單元,用于將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn),生成合并處理后的語(yǔ)義單元CVkt ; 該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè);初始化語(yǔ)義單元樹(shù)集合CVTreekt,令 CVTreeSet = Φ ;其中,Φ表示空集合;遍歷判斷單元,用于判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt,若是,則通知第二返回單元,否則通知第三識(shí)別單元;第三識(shí)別單元,用于獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV,及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的子中心詞CW ;分裂算法子單元,用于遞歸的采用語(yǔ)義單元分裂算法,生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree ;添加單元,用于將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ;第二返回單元,用于返回語(yǔ)義單元樹(shù)集合CVTreekt。其中,所述相似度比較單元包括
節(jié)點(diǎn)相似度計(jì)算單元,用于以由葉子節(jié)點(diǎn)為基礎(chǔ),向上逐步比較每個(gè)節(jié)點(diǎn)的相似度;根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值,計(jì)算出根節(jié)點(diǎn)的相似度,從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的相似度。應(yīng)用本發(fā)明實(shí)施例提供的方法和裝置,通過(guò)建立語(yǔ)義單元樹(shù),比較語(yǔ)義單元樹(shù)的相似度,從而能夠準(zhǔn)確的比較出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。為文本數(shù)據(jù)的匹配檢索等提供了有利的支持??梢匝杆僬业较嚓P(guān)的文本數(shù)據(jù)。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明一具體實(shí)例的語(yǔ)義單元樹(shù)的示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算方法流程圖;圖3是一種可能的生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的流程示意圖;圖4是圖3中步驟305的一種可能的實(shí)現(xiàn)流程圖;圖5是根據(jù)本發(fā)明實(shí)施例的獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的流程圖;圖6是根據(jù)本發(fā)明實(shí)施例的用于語(yǔ)義單元相似度計(jì)算的一實(shí)例;圖7是電子病歷語(yǔ)義搜索引擎頁(yè)面;圖8是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了本發(fā)明描述的需要,這里定義如下幾個(gè)概念定義1 段落或句子論述所圍繞的概念稱(chēng)為“中心詞”。定義2:由不同中心詞所劃分開(kāi)的段落或句子稱(chēng)為“語(yǔ)義單元”(SS,Semantic Segment)。定義3 明確出現(xiàn)中心詞詞匯的語(yǔ)義單元稱(chēng)為“顯式語(yǔ)義單元”;相反,未明確出現(xiàn)中心詞,但論述仍然圍繞同一概念的語(yǔ)義單元稱(chēng)為“隱式語(yǔ)義單元”。定義4:再不能合并其它語(yǔ)句組成新的語(yǔ)義單元的語(yǔ)義單元稱(chēng)為“最大語(yǔ)義單元”(MaxSS,Maximum SS);相反,再不能從自身中分割出更小的語(yǔ)義單元的語(yǔ)義單元稱(chēng)為 “最小語(yǔ)義單元”(MinSS,Minimum SS)。定義5 將 SST = (SSV, SR)定義為語(yǔ)義單元樹(shù)(Semantic Segment Tree, SST), 其中SSV表示一個(gè)有限的節(jié)點(diǎn)集,每個(gè)結(jié)點(diǎn)代表一個(gè)語(yǔ)義單元,每個(gè)結(jié)點(diǎn)有且僅有唯一的中心詞;Root(SST)表示語(yǔ)義單元樹(shù)的根節(jié)點(diǎn),代表最大語(yǔ)義單元;Leaf (SST)表示語(yǔ)義單元樹(shù)的葉子節(jié)點(diǎn),代表最小語(yǔ)義單元;SR表示邊集,是SSV上的一個(gè)二元語(yǔ)義包含關(guān)系 (Semantic Relation)0以下以病歷文本為例,來(lái)說(shuō)明本發(fā)明如何計(jì)算文本數(shù)據(jù)相似度?;谏鲜龆x,某患者病歷中包括如下部分內(nèi)容病歷1 “......查體咽粘膜光滑無(wú)流血,雙扁桃體II度大,表面欠光滑,未見(jiàn)膿
點(diǎn)及出血點(diǎn)。既往史3年前,診斷"腺樣體肥大"于某醫(yī)院手術(shù)治療。否認(rèn)外傷史,否認(rèn)肝炎、哮喘及其它傳染病史。青霉素頭孢過(guò)敏。......,,上述病歷1中,包含三個(gè)一級(jí)語(yǔ)義單元,中心詞分別為“查體”,“既往史”和“過(guò)敏史”,其中“查體”和“既往史”為顯式中心語(yǔ)義單元,“過(guò)敏史”為隱式語(yǔ)義單元。“既往史” 語(yǔ)義單元包含三個(gè)二級(jí)語(yǔ)義單元,中心詞分別是為“手術(shù)史”,“外傷史”和“傳染病史”,其中 “手術(shù)史”為隱式語(yǔ)義單元,“外傷史”和“傳染病史”為顯示語(yǔ)義單元。根據(jù)上述病歷1記載的文本數(shù)據(jù),采用本發(fā)明提供的方法即可自動(dòng)生成如圖1所示語(yǔ)義單元樹(shù)。在應(yīng)用本發(fā)明生成如圖1所示語(yǔ)義單元樹(shù)的過(guò)程中,需要涉及到“中心詞識(shí)別”這一操作。這里的中心詞識(shí)別,實(shí)際是一個(gè)對(duì)文本進(jìn)行分類(lèi)的過(guò)程,大致步驟如下構(gòu)建一個(gè)類(lèi)別空間,所述類(lèi)別空間包括多個(gè)坐標(biāo)軸,每個(gè)坐標(biāo)軸代表一個(gè)文本類(lèi)別;計(jì)算任一訓(xùn)練文本中所包含詞項(xiàng)在所述類(lèi)別空間中的表示向量,獲得訓(xùn)練文本集所有詞項(xiàng)在所述類(lèi)別空間中的表示向量;根據(jù)待分類(lèi)文本所包含的詞項(xiàng)及所述詞項(xiàng)在所述類(lèi)別空間中的表示向量, 獲得待分類(lèi)文本在所述類(lèi)別空間中的表示向量;計(jì)算所述待分類(lèi)文本在所述類(lèi)別空間中的表示向量與所述類(lèi)別空間中各個(gè)坐標(biāo)軸對(duì)應(yīng)的基向量的余弦相似度值;將最大的余弦相似度值所對(duì)應(yīng)的坐標(biāo)軸所代表的文本類(lèi)別作為待分類(lèi)文本的類(lèi)別。該分類(lèi)結(jié)果作為待分類(lèi)文本的中心詞。具體的,可參考本申請(qǐng)人同一日遞交的名稱(chēng)為“一種對(duì)文本進(jìn)行分類(lèi)的方法及裝置”的申請(qǐng)文件。下面具體說(shuō)明如何對(duì)文本數(shù)據(jù)相似度進(jìn)行計(jì)算。參見(jiàn)圖2,其是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算方法流程圖,本實(shí)施例中,具體包括步驟201,獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);這里,該文本數(shù)據(jù)就是要比較的一段文字,例如第一文本數(shù)據(jù)可以是前述病歷1 所示的文本數(shù)據(jù),第二文本數(shù)據(jù)可以是和前述例1類(lèi)似的一段病歷記錄;步驟202,根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;例如,前述圖1所示的語(yǔ)義單元樹(shù);步驟203,將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。下面對(duì)前述步驟202的具體實(shí)現(xiàn)過(guò)程做詳細(xì)說(shuō)明。參見(jiàn)圖3,其是一種可能的生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的流程示意圖。具體包括步驟301,判斷所述第一文本數(shù)據(jù)中是否存在否定句法,若是,執(zhí)行步驟302,否則執(zhí)行步驟403 ;步驟302,對(duì)否定句法進(jìn)行預(yù)處理;這里,對(duì)否定句法的預(yù)處理是指將否定句中的每個(gè)詞之前都加上否定詞,例如,病歷1中記載的有“否認(rèn)外傷史,否認(rèn)肝炎、哮喘及其它傳染病史”,如果不做預(yù)處理而簡(jiǎn)單的分詞,則會(huì)得到“否認(rèn)外傷史”、“否認(rèn)肝炎”和“哮喘及其它傳染病史”,注意,這里的“哮喘及其它傳染病史”成為之前已經(jīng)存在的病史了。而經(jīng)過(guò)預(yù)處理后再分詞,則會(huì)得到“否認(rèn)外傷史”、“否認(rèn)肝炎”和“否認(rèn)哮喘及其它傳染病史”,可見(jiàn),這才是病歷1中的原意。步驟303,以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)(RV,Root Vertex),也即,以第一文本數(shù)據(jù)作為根節(jié)點(diǎn);步驟304,識(shí)別根節(jié)點(diǎn)所對(duì)應(yīng)的根中心詞(RW,Root Word);具體的,可采用前述識(shí)別中心詞的方法,這里只做一簡(jiǎn)單說(shuō)明在對(duì)一個(gè)對(duì)文本T進(jìn)行分類(lèi)時(shí),預(yù)先要給定具有同一上級(jí)中心詞(PW,Parent Word)的訓(xùn)練文本集合S ;以及以中心詞PW的下位中心詞為類(lèi)別集合訓(xùn)練分類(lèi)器;在分類(lèi)過(guò)程中,對(duì)于給定的待分類(lèi)文本T,及該待分類(lèi)文本T對(duì)應(yīng)的上位中心詞PW,采用前述對(duì)文本進(jìn)行分類(lèi)的步驟,得到該待分類(lèi)文本的分類(lèi)結(jié)果,將該分類(lèi)結(jié)果作為文本T的中心詞。例如,通過(guò)前述識(shí)別中心詞方法,識(shí)別出病歷1這段文字所對(duì)應(yīng)的根中心詞是病程記錄。步驟305,使用語(yǔ)義單元分裂算法SSTree_Split(RV,RW),生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù),其中,所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。之后,返回第一文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)義單元樹(shù)SSTree。該步驟是一個(gè)循環(huán)遞歸分裂的過(guò)程。這樣,得到了以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)。參見(jiàn)圖4,其是圖3中步驟305的一種可能的實(shí)現(xiàn)流程圖,在本實(shí)施例中,預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同的級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn),并且,預(yù)先設(shè)置中心詞庫(kù),所述中心詞庫(kù)中包括若干個(gè)中心詞和各中心詞之間的上下級(jí)關(guān)系,例如,在中心詞庫(kù)中記錄了 “既往史”的下一級(jí)中心詞包括“手術(shù)史”、“外傷史”和“傳染病使”,而“既往史”的上一級(jí)中心詞為“病
程記錄”??梢岳斫?,語(yǔ)義單元樹(shù)的生成過(guò)程也是語(yǔ)義單元樹(shù)節(jié)點(diǎn)遞歸分裂的過(guò)程。中文標(biāo)點(diǎn)符號(hào)蘊(yùn)含了大量的語(yǔ)義信息,是最理想的語(yǔ)義單元切分標(biāo)志。中文標(biāo)點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)少于中文詞項(xiàng)的數(shù)量,且文本標(biāo)點(diǎn)應(yīng)用比較嚴(yán)格,所以語(yǔ)義單元樹(shù)的生成應(yīng)當(dāng)參考中文標(biāo)點(diǎn)符號(hào)。這里將具有語(yǔ)義單元?jiǎng)澐趾x的標(biāo)點(diǎn)符號(hào)按照表1所示的可能的實(shí)施例進(jìn)行級(jí)別劃分表權(quán)利要求
1.一種文本數(shù)據(jù)相似度的計(jì)算方法,其特征在于,所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括i)判斷所述第一文本數(shù)據(jù)中是否存在否定句法,若是,執(zhí)行步驟ii),否則執(zhí)行步驟 iii); )對(duì)否定句法進(jìn)行預(yù)處理;iii)以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn);iv)識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞;ν)使用語(yǔ)義單元分裂算法,根據(jù)所識(shí)別出的根中心詞,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù),其中,所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,使用語(yǔ)義單元分裂算法,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn),并且,預(yù)先設(shè)置中心詞庫(kù),所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系;所述方法還包括i)獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞;ii)確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P是否為空,若是,執(zhí)行步驟ix),否則,執(zhí)行步驟iii);iii)以分割標(biāo)點(diǎn)P分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元,生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ;iv)根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞,若是,則執(zhí)行步驟vii),否則執(zhí)行步驟ν);ν)根據(jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ;vi)以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn),將語(yǔ)義單元CVSet作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn),連接至父節(jié)點(diǎn)PV上,然后執(zhí)行步驟ix);vii)通過(guò)中心詞庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞,獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ;viii)以父節(jié)點(diǎn)PV為根,將語(yǔ)義單元樹(shù)集合CVTreeSet中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV,然后執(zhí)行步驟ix);ix)返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù),生成第一語(yǔ)義單元樹(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟vii)中獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt的步驟包括01)識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre 的中心詞CW ;02)將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn),生成合并處理后的語(yǔ)義單元CVkt ;該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè);初始化語(yǔ)義單元樹(shù)集合CVTreekt,令CVTreekt = Φ ; 其中,Φ表示空集合;03)判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt,若是,則執(zhí)行步驟07),否則執(zhí)行步驟04);04)獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV,該待分裂的子節(jié)點(diǎn)CV代表一語(yǔ)義單元,及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的中心詞CW ;05)遞歸的采用語(yǔ)義單元分裂算法,生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù) CVTree ;06)將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ;07)返回語(yǔ)義單元樹(shù)集合CVI^reekt。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的步驟包括由葉子節(jié)點(diǎn)為基礎(chǔ),向上逐步比較每個(gè)節(jié)點(diǎn)的相似度,并且,根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值,計(jì)算出根節(jié)點(diǎn)的相似度,從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
6.一種文本數(shù)據(jù)相似度的計(jì)算裝置,其特征在于,所述裝置包括獲取單元,用于獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);語(yǔ)義單元樹(shù)生成單元,用于生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;相似度比較單元,用于將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,語(yǔ)義單元樹(shù)生成單元包括否定句法判斷單元,用于判斷所述第一文本數(shù)據(jù)中是否存在否定句法,若是,通知否定句法處理單元,否則通知第一識(shí)別單元;否定句法處理單元,用于對(duì)否定句法進(jìn)行預(yù)處理;第一識(shí)別單元,用于以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn);識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞;分裂算法計(jì)算單元,用于使用語(yǔ)義單元分裂算法,根據(jù)所識(shí)別出的根中心詞,生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù),其中,所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn),并且,預(yù)先設(shè)置中心詞庫(kù),所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系;所述分裂算法計(jì)算單元包括第一識(shí)別單元,用于獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV,及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞; 分割標(biāo)點(diǎn)級(jí)別判斷單元,用于確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P否存為空,若是,通知第一返回單元,否則,通知分割單元;分割單元,用于以分割標(biāo)點(diǎn)P分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元,生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ;下一級(jí)中心詞判斷單元,用于根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞,若是,則通知語(yǔ)義單元樹(shù)集合獲取單元,否則通知?jiǎng)澐謫卧?;劃分單元,用于根?jù)分割標(biāo)點(diǎn)P做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ; 第一連接單元,用于以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn),將語(yǔ)義單元CVSet作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn),連接至父節(jié)點(diǎn)PV上,然后通知第一返回單元;語(yǔ)義單元樹(shù)集合獲取單元,用于通過(guò)中心詞數(shù)據(jù)庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞,獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ;第二連接單元,用于以父節(jié)點(diǎn)PV為根,將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV,然后通知第一返回單元;第一返回單元,用于返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù),生成第一語(yǔ)義單元樹(shù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述語(yǔ)義單元樹(shù)集合獲取單元包括 第二識(shí)別單元,用于識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre的中心詞CW ;合并單元,用于將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn),生成合并處理后的語(yǔ)義單元CVkt ; 該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè);初始化語(yǔ)義單元樹(shù)集合CVTreekt,令 CVTreeSet = Φ ;其中,Φ表示空集合;遍歷判斷單元,用于判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CWet,若是,則通知第二返回單元,否則通知第三識(shí)別單元;第三識(shí)別單元,用于獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV,及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的子中心詞CW ;分裂算法子單元,用于遞歸的采用語(yǔ)義單元分裂算法,生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV 為根的子樹(shù)CVTree ;添加單元,用于將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ;第二返回單元,用于返回語(yǔ)義單元樹(shù)集合CVTreekt。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述相似度比較單元包括節(jié)點(diǎn)相似度計(jì)算單元,用于以由葉子節(jié)點(diǎn)為基礎(chǔ),向上逐步比較每個(gè)節(jié)點(diǎn)的相似度;根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值,計(jì)算出根節(jié)點(diǎn)的相似度,從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的相似度。
全文摘要
本發(fā)明公開(kāi)了一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置,所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù);根據(jù)所述第一文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù);根據(jù)所述第二文本數(shù)據(jù),生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù);其中,所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元,葉子為最小語(yǔ)義單元;將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算,獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。應(yīng)用本發(fā)明,能夠準(zhǔn)確的比較出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。為文本數(shù)據(jù)的匹配檢索等提供了有利的支持??梢匝杆僬业较嚓P(guān)的文本數(shù)據(jù)。
文檔編號(hào)G06F17/30GK102214232SQ201110177789
公開(kāi)日2011年10月12日 申請(qǐng)日期2011年6月28日 優(yōu)先權(quán)日2011年6月28日
發(fā)明者李博, 楊金柱, 栗偉, 覃文軍, 趙大哲 申請(qǐng)人:東軟集團(tuán)股份有限公司