一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置的制作方法

文檔序號(hào)：6427429閱讀：202來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及電子識(shí)別技術(shù)領(lǐng)域，特別涉及一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置。
背景技術(shù)：
電子信息是以電子化方式管理的數(shù)據(jù)信息，涉及數(shù)據(jù)信息的采集、存儲(chǔ)、傳輸、處理和利用。例如，電子病歷(Electronic Health Record)是以電子化方式管理的有關(guān)個(gè)人終生健康狀態(tài)和醫(yī)療保健行為的文本數(shù)據(jù)，涉及病人信息的采集、存儲(chǔ)、傳輸、處理和利用。病歷信息化在醫(yī)院信息化建設(shè)中處于核心的地位，電子病歷是醫(yī)院數(shù)字化之本。因此，近年來(lái)電子病歷得到了從政府到醫(yī)院、從業(yè)務(wù)科室到IT部門(mén)的普遍關(guān)注。為了更好地識(shí)別出文本數(shù)據(jù)所表達(dá)的語(yǔ)義，國(guó)外很多機(jī)構(gòu)構(gòu)架了針對(duì)某一領(lǐng)域的知識(shí)標(biāo)準(zhǔn)即某一領(lǐng)域的知識(shí)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)，而國(guó)內(nèi)缺少這樣有應(yīng)用價(jià)值的中文知識(shí)標(biāo)準(zhǔn)。沒(méi)有統(tǒng)一的知識(shí)標(biāo)準(zhǔn)(知識(shí)庫(kù))很難準(zhǔn)確的識(shí)別文本數(shù)據(jù)所表達(dá)的語(yǔ)義，而沒(méi)有語(yǔ)義分析能力的文本數(shù)據(jù)，其結(jié)構(gòu)化及上層應(yīng)用也無(wú)從談起。由于中英文語(yǔ)言及文化的差異，英文標(biāo)準(zhǔn)很難直接應(yīng)用于國(guó)內(nèi)的數(shù)據(jù)識(shí)別分析。例如，對(duì)于電子病歷文本數(shù)據(jù)的識(shí)別，國(guó)外很多研究機(jī)構(gòu)構(gòu)建了醫(yī)學(xué)臨床知識(shí)標(biāo)準(zhǔn)，但由于中英語(yǔ)言及臨床差異，英文標(biāo)準(zhǔn)很難直接應(yīng)用于國(guó)內(nèi)臨床診療過(guò)程，且中文醫(yī)學(xué)知識(shí)獲取也有自己特性，主要表現(xiàn)在一詞多意中文專(zhuān)業(yè)醫(yī)學(xué)詞匯通常是無(wú)歧義詞，而英文專(zhuān)業(yè)醫(yī)學(xué)詞匯在不同科室可能含義不同，比如COLD包含體征發(fā)冷、感冒疾病、慢性阻塞性肺炎三個(gè)不同的意思；多詞一意很多詞匯表達(dá)同一臨床表現(xiàn)，甚至同一疾病有很多名稱(chēng)，比如高血壓這個(gè)概念，至少有36種表達(dá)方法；臨床文本中詞語(yǔ)的頻率高低對(duì)語(yǔ)義的權(quán)重影響小，不同于信息檢索中 TF-IDF (Term Frequency-Inverse Document Frequency)步頁(yè)度計(jì)算方法，醫(yī)學(xué)文本特另Ij是電子病歷中很少重復(fù)出現(xiàn)相同內(nèi)容，但并不能表明僅出現(xiàn)一次的內(nèi)容不重要。目前的電子病歷在系統(tǒng)架構(gòu)方面，病歷信息呈現(xiàn)海量、異構(gòu)、分布、多模態(tài)等特點(diǎn)，缺乏統(tǒng)一以病人為中心的信息組織與管理機(jī)制，歷史遺留系統(tǒng)缺乏統(tǒng)一管理機(jī)制和訪問(wèn)手段。在功能應(yīng)用方面，當(dāng)前電子病歷系統(tǒng)要求醫(yī)生操作多而干擾與患者的溝通，失去捕捉 “望” “聞”患者信息的機(jī)會(huì)，系統(tǒng)缺乏感知上下文的語(yǔ)義支持技術(shù)；同時(shí)病歷查詢(xún)方式也多為結(jié)構(gòu)化條件且條件組合復(fù)雜，通常以增加醫(yī)生操作量為代價(jià)來(lái)解決復(fù)雜的檢索問(wèn)題，甚至提供過(guò)多的選項(xiàng)，以至于醫(yī)生無(wú)從下手，使得傳統(tǒng)檢索方式檢索條件的全面性與醫(yī)生操作的便利性互相沖突，系統(tǒng)缺乏靈活的基于語(yǔ)義的病歷檢索方式和語(yǔ)義搜索引擎，特別是對(duì)多模態(tài)數(shù)據(jù)的支持?？梢?jiàn)，如何自動(dòng)的判別不同文本數(shù)據(jù)之間語(yǔ)義的相似度，例如不同電子病歷之間所描述病情的相似度，是亟待解決的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例在提供一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置，其能夠準(zhǔn)確的識(shí)別出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。本發(fā)明實(shí)施例提供了一種文本數(shù)據(jù)相似度的計(jì)算方法，所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。其中，根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括i)判斷所述第一文本數(shù)據(jù)中是否存在否定句法，若是，執(zhí)行步驟ii)，否則執(zhí)行步驟 iii)；ii)對(duì)否定句法進(jìn)行預(yù)處理；iii)以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)；iv)識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞；ν)使用語(yǔ)義單元分裂算法，根據(jù)所識(shí)別出的根中心詞，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)，其中，所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。其中，使用語(yǔ)義單元分裂算法，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn)，并且，預(yù)先設(shè)置中心詞庫(kù)，所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系；所述方法還包括i)獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞；ii)確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)ρ是否為空，若是，執(zhí)行步驟ix)，否則，執(zhí)行步驟iii)；iii)以分割標(biāo)點(diǎn)ρ分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元，生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ；iv)根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞，若是，則執(zhí)行步驟vii)，否則執(zhí)行步驟ν)；ν)根據(jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ；vi)以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn)，將語(yǔ)義單元CVkt作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn)，連接至父節(jié)點(diǎn)PV上，然后執(zhí)行步驟ix)；vii)通過(guò)中心詞庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞，獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ；viii)以父節(jié)點(diǎn)PV為根，將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV，然后執(zhí)行步驟ix)；ix)返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù)，生成第一語(yǔ)義單元樹(shù)。其中，所述步驟vii)中獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt 的步驟包括01)識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元 CVPre的中心詞CW ；02)將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn)，生成合并處理后的語(yǔ)義單元CVkt ；該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè)；初始化語(yǔ)義單元樹(shù)集合CVTreekt，令CVTreekt = Φ ；其中，Φ表示空集合；03)判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt，若是，則執(zhí)行步驟07)，否則執(zhí)行步驟04)；04)獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV，該待分裂的子節(jié)點(diǎn)CV代表一語(yǔ)義單元，及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的中心詞CW ；05)遞歸的采用語(yǔ)義單元分裂算法，生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù) CVTree ；06)將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ；07)返回語(yǔ)義單元樹(shù)集合CViTreekt。其中，將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的步驟包括由葉子節(jié)點(diǎn)為基礎(chǔ)，向上逐步比較每個(gè)節(jié)點(diǎn)的相似度，并且，根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值，計(jì)算出根節(jié)點(diǎn)的相似度，從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。本發(fā)明實(shí)施例還提供了一種文本數(shù)據(jù)相似度的計(jì)算裝置，所述裝置包括獲取單元，用于獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；語(yǔ)義單元樹(shù)生成單元，用于生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；相似度比較單元，用于將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。其中，語(yǔ)義單元樹(shù)生成單元包括否定句法判斷單元，用于判斷所述第一文本數(shù)據(jù)中是否存在否定句法，若是，通知否定句法處理單元，否則通知第一識(shí)別單元；否定句法處理單元，用于對(duì)否定句法進(jìn)行預(yù)處理；第一識(shí)別單元，用于以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)；識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞；
分裂算法計(jì)算單元，用于使用語(yǔ)義單元分裂算法，根據(jù)所識(shí)別出的根中心詞，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)，其中，所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。其中，預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn)，并且，預(yù)先設(shè)置中心詞庫(kù)，所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系；所述分裂算法計(jì)算單元包括第一識(shí)別單元，用于獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV，及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞；分割標(biāo)點(diǎn)級(jí)別判斷單元，用于確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P否存為空，若是，通知第一返回單元，否則，通知分割單元；分割單元，用于以分割標(biāo)點(diǎn)ρ分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元，生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ；下一級(jí)中心詞判斷單元，用于根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞，若是，則通知語(yǔ)義單元樹(shù)集合獲取單元，否則通知?jiǎng)澐謫卧粍澐謫卧?，用于根?jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ；第一連接單元，用于以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn)，將語(yǔ)義單元CVkt作為節(jié)點(diǎn)PV 的下一級(jí)子節(jié)點(diǎn)，連接至父節(jié)點(diǎn)PV上，然后通知第一返回單元；語(yǔ)義單元樹(shù)集合獲取單元，用于通過(guò)中心詞數(shù)據(jù)庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞，獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ；第二連接單元，用于以父節(jié)點(diǎn)PV為根，將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV，然后通知第一返回單元；第一返回單元，用于返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù)，生成第一語(yǔ)義單元樹(shù)。其中，所述語(yǔ)義單元樹(shù)集合獲取單元包括第二識(shí)別單元，用于識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre的中心詞CW ；合并單元，用于將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn)，生成合并處理后的語(yǔ)義單元CVkt ；該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè)；初始化語(yǔ)義單元樹(shù)集合CVTreekt，令 CVTreeSet = Φ ；其中，Φ表示空集合；遍歷判斷單元，用于判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt，若是，則通知第二返回單元，否則通知第三識(shí)別單元；第三識(shí)別單元，用于獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV，及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的子中心詞CW ；分裂算法子單元，用于遞歸的采用語(yǔ)義單元分裂算法，生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree ；添加單元，用于將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ；第二返回單元，用于返回語(yǔ)義單元樹(shù)集合CVTreekt。其中，所述相似度比較單元包括
節(jié)點(diǎn)相似度計(jì)算單元，用于以由葉子節(jié)點(diǎn)為基礎(chǔ)，向上逐步比較每個(gè)節(jié)點(diǎn)的相似度；根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值，計(jì)算出根節(jié)點(diǎn)的相似度，從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的相似度。應(yīng)用本發(fā)明實(shí)施例提供的方法和裝置，通過(guò)建立語(yǔ)義單元樹(shù)，比較語(yǔ)義單元樹(shù)的相似度，從而能夠準(zhǔn)確的比較出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。為文本數(shù)據(jù)的匹配檢索等提供了有利的支持?？梢匝杆僬业较嚓P(guān)的文本數(shù)據(jù)。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明一具體實(shí)例的語(yǔ)義單元樹(shù)的示意圖；圖2是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算方法流程圖；圖3是一種可能的生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的流程示意圖；圖4是圖3中步驟305的一種可能的實(shí)現(xiàn)流程圖；圖5是根據(jù)本發(fā)明實(shí)施例的獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的流程圖；圖6是根據(jù)本發(fā)明實(shí)施例的用于語(yǔ)義單元相似度計(jì)算的一實(shí)例；圖7是電子病歷語(yǔ)義搜索引擎頁(yè)面；圖8是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。為了本發(fā)明描述的需要，這里定義如下幾個(gè)概念定義1 段落或句子論述所圍繞的概念稱(chēng)為“中心詞”。定義2:由不同中心詞所劃分開(kāi)的段落或句子稱(chēng)為“語(yǔ)義單元”(SS，Semantic Segment)。定義3 明確出現(xiàn)中心詞詞匯的語(yǔ)義單元稱(chēng)為“顯式語(yǔ)義單元”；相反，未明確出現(xiàn)中心詞，但論述仍然圍繞同一概念的語(yǔ)義單元稱(chēng)為“隱式語(yǔ)義單元”。定義4:再不能合并其它語(yǔ)句組成新的語(yǔ)義單元的語(yǔ)義單元稱(chēng)為“最大語(yǔ)義單元”(MaxSS，Maximum SS)；相反，再不能從自身中分割出更小的語(yǔ)義單元的語(yǔ)義單元稱(chēng)為 “最小語(yǔ)義單元”(MinSS，Minimum SS)。定義5 將 SST = (SSV, SR)定義為語(yǔ)義單元樹(shù)(Semantic Segment Tree, SST)，其中SSV表示一個(gè)有限的節(jié)點(diǎn)集，每個(gè)結(jié)點(diǎn)代表一個(gè)語(yǔ)義單元，每個(gè)結(jié)點(diǎn)有且僅有唯一的中心詞；Root(SST)表示語(yǔ)義單元樹(shù)的根節(jié)點(diǎn)，代表最大語(yǔ)義單元；Leaf (SST)表示語(yǔ)義單元樹(shù)的葉子節(jié)點(diǎn)，代表最小語(yǔ)義單元；SR表示邊集，是SSV上的一個(gè)二元語(yǔ)義包含關(guān)系 (Semantic Relation)0以下以病歷文本為例，來(lái)說(shuō)明本發(fā)明如何計(jì)算文本數(shù)據(jù)相似度?；谏鲜龆x，某患者病歷中包括如下部分內(nèi)容病歷1 “......查體咽粘膜光滑無(wú)流血，雙扁桃體II度大，表面欠光滑，未見(jiàn)膿
點(diǎn)及出血點(diǎn)。既往史3年前，診斷"腺樣體肥大"于某醫(yī)院手術(shù)治療。否認(rèn)外傷史，否認(rèn)肝炎、哮喘及其它傳染病史。青霉素頭孢過(guò)敏。......，，上述病歷1中，包含三個(gè)一級(jí)語(yǔ)義單元，中心詞分別為“查體”，“既往史”和“過(guò)敏史”，其中“查體”和“既往史”為顯式中心語(yǔ)義單元，“過(guò)敏史”為隱式語(yǔ)義單元。“既往史” 語(yǔ)義單元包含三個(gè)二級(jí)語(yǔ)義單元，中心詞分別是為“手術(shù)史”，“外傷史”和“傳染病史”，其中 “手術(shù)史”為隱式語(yǔ)義單元，“外傷史”和“傳染病史”為顯示語(yǔ)義單元。根據(jù)上述病歷1記載的文本數(shù)據(jù)，采用本發(fā)明提供的方法即可自動(dòng)生成如圖1所示語(yǔ)義單元樹(shù)。在應(yīng)用本發(fā)明生成如圖1所示語(yǔ)義單元樹(shù)的過(guò)程中，需要涉及到“中心詞識(shí)別”這一操作。這里的中心詞識(shí)別，實(shí)際是一個(gè)對(duì)文本進(jìn)行分類(lèi)的過(guò)程，大致步驟如下構(gòu)建一個(gè)類(lèi)別空間，所述類(lèi)別空間包括多個(gè)坐標(biāo)軸，每個(gè)坐標(biāo)軸代表一個(gè)文本類(lèi)別；計(jì)算任一訓(xùn)練文本中所包含詞項(xiàng)在所述類(lèi)別空間中的表示向量，獲得訓(xùn)練文本集所有詞項(xiàng)在所述類(lèi)別空間中的表示向量；根據(jù)待分類(lèi)文本所包含的詞項(xiàng)及所述詞項(xiàng)在所述類(lèi)別空間中的表示向量，獲得待分類(lèi)文本在所述類(lèi)別空間中的表示向量；計(jì)算所述待分類(lèi)文本在所述類(lèi)別空間中的表示向量與所述類(lèi)別空間中各個(gè)坐標(biāo)軸對(duì)應(yīng)的基向量的余弦相似度值；將最大的余弦相似度值所對(duì)應(yīng)的坐標(biāo)軸所代表的文本類(lèi)別作為待分類(lèi)文本的類(lèi)別。該分類(lèi)結(jié)果作為待分類(lèi)文本的中心詞。具體的，可參考本申請(qǐng)人同一日遞交的名稱(chēng)為“一種對(duì)文本進(jìn)行分類(lèi)的方法及裝置”的申請(qǐng)文件。下面具體說(shuō)明如何對(duì)文本數(shù)據(jù)相似度進(jìn)行計(jì)算。參見(jiàn)圖2，其是根據(jù)本發(fā)明實(shí)施例的文本數(shù)據(jù)相似度的計(jì)算方法流程圖，本實(shí)施例中，具體包括步驟201，獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；這里，該文本數(shù)據(jù)就是要比較的一段文字，例如第一文本數(shù)據(jù)可以是前述病歷1 所示的文本數(shù)據(jù)，第二文本數(shù)據(jù)可以是和前述例1類(lèi)似的一段病歷記錄；步驟202，根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；例如，前述圖1所示的語(yǔ)義單元樹(shù)；步驟203，將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。下面對(duì)前述步驟202的具體實(shí)現(xiàn)過(guò)程做詳細(xì)說(shuō)明。參見(jiàn)圖3，其是一種可能的生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的流程示意圖。具體包括步驟301，判斷所述第一文本數(shù)據(jù)中是否存在否定句法，若是，執(zhí)行步驟302，否則執(zhí)行步驟403 ；步驟302，對(duì)否定句法進(jìn)行預(yù)處理；這里，對(duì)否定句法的預(yù)處理是指將否定句中的每個(gè)詞之前都加上否定詞，例如，病歷1中記載的有“否認(rèn)外傷史，否認(rèn)肝炎、哮喘及其它傳染病史”，如果不做預(yù)處理而簡(jiǎn)單的分詞，則會(huì)得到“否認(rèn)外傷史”、“否認(rèn)肝炎”和“哮喘及其它傳染病史”，注意，這里的“哮喘及其它傳染病史”成為之前已經(jīng)存在的病史了。而經(jīng)過(guò)預(yù)處理后再分詞，則會(huì)得到“否認(rèn)外傷史”、“否認(rèn)肝炎”和“否認(rèn)哮喘及其它傳染病史”，可見(jiàn)，這才是病歷1中的原意。步驟303，以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)(RV，Root Vertex)，也即，以第一文本數(shù)據(jù)作為根節(jié)點(diǎn)；步驟304，識(shí)別根節(jié)點(diǎn)所對(duì)應(yīng)的根中心詞(RW，Root Word)；具體的，可采用前述識(shí)別中心詞的方法，這里只做一簡(jiǎn)單說(shuō)明在對(duì)一個(gè)對(duì)文本T進(jìn)行分類(lèi)時(shí)，預(yù)先要給定具有同一上級(jí)中心詞(PW，Parent Word)的訓(xùn)練文本集合S ；以及以中心詞PW的下位中心詞為類(lèi)別集合訓(xùn)練分類(lèi)器；在分類(lèi)過(guò)程中，對(duì)于給定的待分類(lèi)文本T，及該待分類(lèi)文本T對(duì)應(yīng)的上位中心詞PW，采用前述對(duì)文本進(jìn)行分類(lèi)的步驟，得到該待分類(lèi)文本的分類(lèi)結(jié)果，將該分類(lèi)結(jié)果作為文本T的中心詞。例如，通過(guò)前述識(shí)別中心詞方法，識(shí)別出病歷1這段文字所對(duì)應(yīng)的根中心詞是病程記錄。步驟305，使用語(yǔ)義單元分裂算法SSTree_Split(RV，RW)，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)，其中，所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。之后，返回第一文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)義單元樹(shù)SSTree。該步驟是一個(gè)循環(huán)遞歸分裂的過(guò)程。這樣，得到了以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)。參見(jiàn)圖4，其是圖3中步驟305的一種可能的實(shí)現(xiàn)流程圖，在本實(shí)施例中，預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同的級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn)，并且，預(yù)先設(shè)置中心詞庫(kù)，所述中心詞庫(kù)中包括若干個(gè)中心詞和各中心詞之間的上下級(jí)關(guān)系，例如，在中心詞庫(kù)中記錄了 “既往史”的下一級(jí)中心詞包括“手術(shù)史”、“外傷史”和“傳染病使”，而“既往史”的上一級(jí)中心詞為“病
程記錄”?？梢岳斫?，語(yǔ)義單元樹(shù)的生成過(guò)程也是語(yǔ)義單元樹(shù)節(jié)點(diǎn)遞歸分裂的過(guò)程。中文標(biāo)點(diǎn)符號(hào)蘊(yùn)含了大量的語(yǔ)義信息，是最理想的語(yǔ)義單元切分標(biāo)志。中文標(biāo)點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)少于中文詞項(xiàng)的數(shù)量，且文本標(biāo)點(diǎn)應(yīng)用比較嚴(yán)格，所以語(yǔ)義單元樹(shù)的生成應(yīng)當(dāng)參考中文標(biāo)點(diǎn)符號(hào)。這里將具有語(yǔ)義單元?jiǎng)澐趾x的標(biāo)點(diǎn)符號(hào)按照表1所示的可能的實(shí)施例進(jìn)行級(jí)別劃分表權(quán)利要求
1.一種文本數(shù)據(jù)相似度的計(jì)算方法，其特征在于，所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括i)判斷所述第一文本數(shù)據(jù)中是否存在否定句法，若是，執(zhí)行步驟ii)，否則執(zhí)行步驟 iii)； )對(duì)否定句法進(jìn)行預(yù)處理；iii)以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)；iv)識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞；ν)使用語(yǔ)義單元分裂算法，根據(jù)所識(shí)別出的根中心詞，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)，其中，所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，使用語(yǔ)義單元分裂算法，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)的步驟包括預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn)，并且，預(yù)先設(shè)置中心詞庫(kù)，所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系；所述方法還包括i)獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞；ii)確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P是否為空，若是，執(zhí)行步驟ix)，否則，執(zhí)行步驟iii)；iii)以分割標(biāo)點(diǎn)P分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元，生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ；iv)根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞，若是，則執(zhí)行步驟vii)，否則執(zhí)行步驟ν)；ν)根據(jù)分割標(biāo)點(diǎn)ρ做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ；vi)以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn)，將語(yǔ)義單元CVSet作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn)，連接至父節(jié)點(diǎn)PV上，然后執(zhí)行步驟ix)；vii)通過(guò)中心詞庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞，獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ；viii)以父節(jié)點(diǎn)PV為根，將語(yǔ)義單元樹(shù)集合CVTreeSet中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV，然后執(zhí)行步驟ix)；ix)返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù)，生成第一語(yǔ)義單元樹(shù)。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述步驟vii)中獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt的步驟包括01)識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre 的中心詞CW ；02)將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn)，生成合并處理后的語(yǔ)義單元CVkt ；該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè)；初始化語(yǔ)義單元樹(shù)集合CVTreekt，令CVTreekt = Φ ；其中，Φ表示空集合；03)判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CVkt，若是，則執(zhí)行步驟07)，否則執(zhí)行步驟04)；04)獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV，該待分裂的子節(jié)點(diǎn)CV代表一語(yǔ)義單元，及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的中心詞CW ；05)遞歸的采用語(yǔ)義單元分裂算法，生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù) CVTree ；06)將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ；07)返回語(yǔ)義單元樹(shù)集合CVI^reekt。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度的步驟包括由葉子節(jié)點(diǎn)為基礎(chǔ)，向上逐步比較每個(gè)節(jié)點(diǎn)的相似度，并且，根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值，計(jì)算出根節(jié)點(diǎn)的相似度，從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
6.一種文本數(shù)據(jù)相似度的計(jì)算裝置，其特征在于，所述裝置包括獲取單元，用于獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；語(yǔ)義單元樹(shù)生成單元，用于生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；相似度比較單元，用于將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。
7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，語(yǔ)義單元樹(shù)生成單元包括否定句法判斷單元，用于判斷所述第一文本數(shù)據(jù)中是否存在否定句法，若是，通知否定句法處理單元，否則通知第一識(shí)別單元；否定句法處理單元，用于對(duì)否定句法進(jìn)行預(yù)處理；第一識(shí)別單元，用于以第一文本數(shù)據(jù)作為最大語(yǔ)義單元生成根節(jié)點(diǎn)；識(shí)別根節(jié)點(diǎn)的所對(duì)應(yīng)的根中心詞；分裂算法計(jì)算單元，用于使用語(yǔ)義單元分裂算法，根據(jù)所識(shí)別出的根中心詞，生成以第一文本數(shù)據(jù)所對(duì)應(yīng)的根中心詞為根節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)，其中，所述第一語(yǔ)義單元樹(shù)中的各節(jié)點(diǎn)和葉子與第一文本數(shù)據(jù)的內(nèi)容相對(duì)應(yīng)。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，預(yù)先將標(biāo)點(diǎn)符號(hào)劃分為不同級(jí)別的語(yǔ)義級(jí)別分割標(biāo)點(diǎn)，并且，預(yù)先設(shè)置中心詞庫(kù)，所述中心詞庫(kù)中包括若干個(gè)中心詞和所述中心詞之間的上下級(jí)關(guān)系；所述分裂算法計(jì)算單元包括第一識(shí)別單元，用于獲得當(dāng)前待分裂的父節(jié)點(diǎn)PV，及該父節(jié)點(diǎn)PV對(duì)應(yīng)的中心詞；分割標(biāo)點(diǎn)級(jí)別判斷單元，用于確定當(dāng)前待分裂語(yǔ)義單元中所包含的最高語(yǔ)義級(jí)別分割標(biāo)點(diǎn)P否存為空，若是，通知第一返回單元，否則，通知分割單元；分割單元，用于以分割標(biāo)點(diǎn)P分割當(dāng)前待分裂父節(jié)點(diǎn)所代表的語(yǔ)義單元，生成下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre ；下一級(jí)中心詞判斷單元，用于根據(jù)所述中心詞庫(kù)判斷所述待分裂父節(jié)點(diǎn)PV所對(duì)應(yīng)的中心詞PW是否對(duì)應(yīng)下一級(jí)中心詞，若是，則通知語(yǔ)義單元樹(shù)集合獲取單元，否則通知?jiǎng)澐謫卧?；劃分單元，用于根?jù)分割標(biāo)點(diǎn)P做語(yǔ)義單元全分割得到下一級(jí)的語(yǔ)義單元CVkt ；第一連接單元，用于以父節(jié)點(diǎn)PV為當(dāng)前的父節(jié)點(diǎn)，將語(yǔ)義單元CVSet作為節(jié)點(diǎn)PV的下一級(jí)子節(jié)點(diǎn)，連接至父節(jié)點(diǎn)PV上，然后通知第一返回單元；語(yǔ)義單元樹(shù)集合獲取單元，用于通過(guò)中心詞數(shù)據(jù)庫(kù)獲取所述中心詞PW所對(duì)應(yīng)的下一級(jí)中心詞，獲得下一級(jí)中心詞為根的所有語(yǔ)義單元樹(shù)集合CVTreekt ；第二連接單元，用于以父節(jié)點(diǎn)PV為根，將語(yǔ)義單元樹(shù)集合CVTreekt中的所有語(yǔ)義單元樹(shù)CVTree連接到父節(jié)點(diǎn)PV，然后通知第一返回單元；第一返回單元，用于返回父節(jié)點(diǎn)PV為根的語(yǔ)義單元樹(shù)，生成第一語(yǔ)義單元樹(shù)。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述語(yǔ)義單元樹(shù)集合獲取單元包括第二識(shí)別單元，用于識(shí)別下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中每個(gè)預(yù)劃分的語(yǔ)義單元CVPre的中心詞CW ；合并單元，用于將下一級(jí)預(yù)劃分的語(yǔ)義單元節(jié)點(diǎn)集合CVktPre中中心詞相同且語(yǔ)義單元位置相鄰的語(yǔ)義單元合為一個(gè)語(yǔ)義單元節(jié)點(diǎn)，生成合并處理后的語(yǔ)義單元CVkt ；該合并處理后的語(yǔ)義單元CVSet是一個(gè)或多個(gè)；初始化語(yǔ)義單元樹(shù)集合CVTreekt，令 CVTreeSet = Φ ；其中，Φ表示空集合；遍歷判斷單元，用于判斷是否遍歷合并處理后的每個(gè)語(yǔ)義單元CWet，若是，則通知第二返回單元，否則通知第三識(shí)別單元；第三識(shí)別單元，用于獲得當(dāng)前待分裂的子節(jié)點(diǎn)CV，及所述待分裂子節(jié)點(diǎn)CV的對(duì)應(yīng)的子中心詞CW ；分裂算法子單元，用于遞歸的采用語(yǔ)義單元分裂算法，生成以當(dāng)前待分裂的子節(jié)點(diǎn)CV 為根的子樹(shù)CVTree ；添加單元，用于將以當(dāng)前待分裂的子節(jié)點(diǎn)CV為根的子樹(shù)CVTree添加到語(yǔ)義單元樹(shù)集合 CVTreeSet ；第二返回單元，用于返回語(yǔ)義單元樹(shù)集合CVTreekt。
10.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述相似度比較單元包括節(jié)點(diǎn)相似度計(jì)算單元，用于以由葉子節(jié)點(diǎn)為基礎(chǔ)，向上逐步比較每個(gè)節(jié)點(diǎn)的相似度；根據(jù)各節(jié)點(diǎn)占整棵樹(shù)的權(quán)重值，計(jì)算出根節(jié)點(diǎn)的相似度，從而獲得第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的相似度。
全文摘要
本發(fā)明公開(kāi)了一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置，所述方法包括獲取第一文本數(shù)據(jù)和第二文本數(shù)據(jù)；根據(jù)所述第一文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第一語(yǔ)義單元樹(shù)；根據(jù)所述第二文本數(shù)據(jù)，生成以語(yǔ)義單元為節(jié)點(diǎn)的第二語(yǔ)義單元樹(shù)；其中，所述第一語(yǔ)義單元樹(shù)和第二語(yǔ)義單元樹(shù)的樹(shù)根為最大語(yǔ)義單元，葉子為最小語(yǔ)義單元；將所生成的第一語(yǔ)義單元樹(shù)與已生成的第二語(yǔ)義單元樹(shù)進(jìn)行語(yǔ)義相似度計(jì)算，獲得所述第一語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第一文本數(shù)據(jù)與第二語(yǔ)義單元樹(shù)所對(duì)應(yīng)的第二文本數(shù)據(jù)的語(yǔ)義相似度。應(yīng)用本發(fā)明，能夠準(zhǔn)確的比較出不同文本數(shù)據(jù)之間語(yǔ)義的相似度。為文本數(shù)據(jù)的匹配檢索等提供了有利的支持?？梢匝杆僬业较嚓P(guān)的文本數(shù)據(jù)。
文檔編號(hào)G06F17/30GK102214232SQ201110177789
公開(kāi)日2011年10月12日申請(qǐng)日期2011年6月28日優(yōu)先權(quán)日2011年6月28日
發(fā)明者李博, 楊金柱, 栗偉, 覃文軍, 趙大哲申請(qǐng)人:東軟集團(tuán)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙大哲;栗偉;楊金柱;覃文軍;李博
技術(shù)所有人：東軟集團(tuán)股份有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：移動(dòng)終端的制作方法
上一篇：定制選項(xiàng)卡組內(nèi)的可視化的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本相似度計(jì)算方法相關(guān)技術(shù)

文本相似度計(jì)算相關(guān)技術(shù)

短文本相似度計(jì)算相關(guān)技術(shù)

python計(jì)算文本相似度相關(guān)技術(shù)

文本語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

中文文本相似度計(jì)算相關(guān)技術(shù)

文本相似性計(jì)算相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本數(shù)據(jù)相似度的計(jì)算方法及裝置的制作方法