一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于跨語(yǔ)言信息匹配領(lǐng)域,涉及一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配 方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著語(yǔ)義萬(wàn)維網(wǎng)的不斷發(fā)展,以分類(lèi)結(jié)構(gòu)為主干的模式信息在語(yǔ)義網(wǎng)領(lǐng) 域中扮演著越來(lái)越重要的角色,隨著開(kāi)放鏈接模式概念的突出,對(duì)模式信息,尤其是分類(lèi)結(jié) 構(gòu)信息的研宄也引來(lái)了一個(gè)新的熱潮。然而,當(dāng)前的研宄主要集中在單語(yǔ)言的環(huán)境中,現(xiàn)已 經(jīng)發(fā)布的分類(lèi)結(jié)構(gòu)數(shù)據(jù)也大多只包含單一語(yǔ)言的信息,不同語(yǔ)言的分類(lèi)結(jié)構(gòu)信息之間并沒(méi) 有很有效的連接起來(lái)。如何將不同語(yǔ)言的分類(lèi)信息整合起來(lái),使之發(fā)揮更大的應(yīng)用價(jià)值是 一個(gè)很值得研宄的問(wèn)題。
[0003] 不同語(yǔ)言這個(gè)天然的障礙為跨語(yǔ)言的信息匹配帶來(lái)了很大的困難。近年來(lái),國(guó)內(nèi) 外的研宄人員為了解決跨語(yǔ)言信息匹配的問(wèn)題,提出了很多性能頗佳的方法,包括清華大 學(xué)提出的擴(kuò)充維基百科中跨語(yǔ)言連接的方法,阿姆斯特丹自由大學(xué)提出的基于實(shí)例對(duì)不同 語(yǔ)言間的圖書(shū)分類(lèi)進(jìn)行匹配的方法,加拿大維多利亞大學(xué)設(shè)計(jì)的SOCOM++跨語(yǔ)言本體匹配 系統(tǒng)。清華大學(xué)提出的擴(kuò)充維基百科中的跨語(yǔ)言連接的方法首先將維基百科中每一篇文章 的標(biāo)題,作者,所屬類(lèi)別,出度,入度等信息作為特征對(duì)文章進(jìn)行描述,通過(guò)這些特征的相似 程度來(lái)評(píng)價(jià)不用語(yǔ)言文章之間的相似程度,然后使用機(jī)器學(xué)習(xí)的方法對(duì)跨語(yǔ)言連接進(jìn)行了 擴(kuò)充。
[0004] 然而,目前并未出現(xiàn)針對(duì)跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配的方法,現(xiàn)已提出的方法雖然都涉 及跨語(yǔ)言信息匹配領(lǐng)域,但是假定的待匹配數(shù)據(jù)都與本發(fā)明針對(duì)的分類(lèi)結(jié)構(gòu)數(shù)據(jù)有一定的 差異,從而導(dǎo)致直接將這些方法應(yīng)用到跨語(yǔ)言分類(lèi)結(jié)構(gòu)的匹配中去,并不能獲得很好的效 果。
【發(fā)明內(nèi)容】
[0005] 技術(shù)問(wèn)題:本發(fā)明提供了一種對(duì)不同語(yǔ)言的兩個(gè)分類(lèi)結(jié)構(gòu)之間進(jìn)行匹配,可以識(shí) 別出兩個(gè)分類(lèi)結(jié)構(gòu)之間等價(jià)分類(lèi)的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法。
[0006] 技術(shù)方案:本發(fā)明的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,首先根據(jù)給定的 兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典;然后對(duì)于給定的兩個(gè)分類(lèi)結(jié)構(gòu)生成所有待匹配的 分類(lèi)對(duì);接下來(lái)使用先前產(chǎn)生的字典作為輔助,使用一種基于機(jī)器學(xué)習(xí)的判定方法對(duì)每個(gè) 分類(lèi)對(duì)中兩個(gè)分類(lèi)是否可以匹配做出判定,該判定方法包含兩步,第一步使用三個(gè)不同的 評(píng)價(jià)方法(基于結(jié)構(gòu)的相似度,基于屬性的相似度,基于屬性取值的相似度)對(duì)每個(gè)分類(lèi)對(duì) 中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià),第二步使用機(jī)器學(xué)習(xí)的方法綜合三種評(píng)價(jià)方法并對(duì)是 否可匹配給出判定;最后,將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
[0007] 本發(fā)明的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,包括如下步驟:
[0008] 1)根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典;同時(shí)對(duì)于給定的兩個(gè)分 類(lèi)結(jié)構(gòu)生成所有待匹配的分類(lèi)對(duì);
[0009] 2)使用所述步驟1)中產(chǎn)生的對(duì)照字典作為輔助,分別使用基于結(jié)構(gòu)的相似度評(píng) 價(jià)方法、基于屬性的相似度評(píng)價(jià)方法和基于屬性取值的相似度評(píng)價(jià)方法,對(duì)每個(gè)待匹配的 分類(lèi)對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià);
[0010] 3)使用機(jī)器學(xué)習(xí)的方法對(duì)所述步驟2)獲得的三種評(píng)價(jià)結(jié)果方法進(jìn)行綜合匹配判 定,將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
[0011] 本發(fā)明的優(yōu)選方案中,步驟1)中所述根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的 對(duì)照字典,具體包含如下步驟:
[0012] la)對(duì)應(yīng)給定的兩個(gè)分類(lèi)結(jié)構(gòu)扎和H。,遍歷He中所有的出現(xiàn)的詞匯,建立詞匯集 合We= {w el, we2,…,WeJ,其中η表示W(wǎng)e中共包含η個(gè)詞匯,w el, we2,…,wm分別表示這些詞 匯,所述的η個(gè)詞匯不僅包括分類(lèi)的名稱(chēng),還包括所有分類(lèi)描述信息中出現(xiàn)的的詞匯;
[0013] 同時(shí),采用同樣的方法遍歷Η。,建立詞匯集合W。= {wel, we2,…,w"},其中m表示W(wǎng)。 中包含的詞匯個(gè)數(shù),?。2,…,Wcm分別表示這些詞匯;
[0014] 求集合We與集合W。的笛卡爾乘積,將得到的集合DC作為待定字典:
[0015] DC = {(wcl, wel), (wcl, we2), ···, (wci, weJ), ···, (wcn, We ill^1), (wcn, wem)},其中 i e [I, η], j e [I, m];
[0016] lb)將DC中每一個(gè)元素(Wi,%)都分別使用多語(yǔ)言同義詞字典和機(jī)器翻譯技術(shù)進(jìn) 行分析,來(lái)判定^與、是否有相同含義:如果^與、出現(xiàn)在同一個(gè)多語(yǔ)言同義詞字典的同 義詞集合中,或者^(guò)能通過(guò)機(jī)器翻譯技術(shù)翻譯得到或者%能通過(guò)機(jī)器翻譯技術(shù)翻譯得 到W i,則判定&與w j有相同含義,并將此元素 (w i, Wj)放入集合D中;最終得到的集合D作 為雙語(yǔ)對(duì)照字典:
[0017] D = Kwi, Wj) Iw^ w j被判定為有相同含義}。
[0018] 本發(fā)明的優(yōu)選方案中,步驟1)中還可以包括:對(duì)于給定的一個(gè)英文詞匯e和一個(gè) 中文詞匯c,根據(jù)字典D定義基于字典的相似度Sim diJe, c):
[0019]
【主權(quán)項(xiàng)】
1. 一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,其特征在于,該方法包括如下步 驟: 1) 根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典;同時(shí)對(duì)于給定的兩個(gè)分類(lèi)結(jié) 構(gòu)生成所有待匹配的分類(lèi)對(duì); 2) 使用所述步驟1)中產(chǎn)生的對(duì)照字典作為輔助,分別使用基于結(jié)構(gòu)的相似度評(píng)價(jià)方 法、基于屬性的相似度評(píng)價(jià)方法和基于屬性取值的相似度評(píng)價(jià)方法,對(duì)每個(gè)待匹配的分類(lèi) 對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià); 3) 使用機(jī)器學(xué)習(xí)的方法對(duì)所述步驟2)獲得的三種評(píng)價(jià)結(jié)果方法進(jìn)行綜合匹配判定, 將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,其特征在于,所 述根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典,具體包含如下步驟: la) 對(duì)應(yīng)給定的兩個(gè)分類(lèi)結(jié)構(gòu)札和H。,遍歷扎中所有出現(xiàn)的詞匯,建立詞匯集合We = {wel,we2, ? ? ?,wen},其中n表示1中共包含n個(gè)詞匯,wel,we2, ? ? ?,wen分另丨」表示這些詞匯,所 述的n個(gè)詞匯不僅包括分類(lèi)的名稱(chēng),還包括所有分類(lèi)描述信息中出現(xiàn)的詞匯; 同時(shí),采用同樣的方法遍歷H。,建立詞匯集合評(píng)。={w&W&,. . .,wj,其中m表示W(wǎng)。中 包含的詞匯個(gè)數(shù),Wc;1,《。2,. . .,分別表示這些詞匯; 求集合與集合W。的笛卡爾乘積,將得到的集合DC作為待定字典: DC= {(wcl,wel),(wcl,we2),? ? ?,(wci,wej),? ? ?,(wcn,Wej-i),(wcn,wem)},其中iG[1,n],jG[l,m]; lb) 將DC中每一個(gè)元素(Wi,Wp都分別使用多語(yǔ)言同義詞字典和機(jī)器翻譯技術(shù)進(jìn)行分 析,來(lái)判定^與、是否有相同含義:如果w1與"出現(xiàn)在同一個(gè)多語(yǔ)言同義詞字典的同義 詞集合中,或者^(guò)能通過(guò)機(jī)器翻譯技術(shù)翻譯得到W」,或者%能通過(guò)機(jī)器翻譯技術(shù)翻譯得到 Wi,貝1」判定&與wj有相同含義,并將此元素(wi,Wj)放入集合D中;最終得到的集合D作為 雙語(yǔ)對(duì)照字典: D= {(Wi,Wj) | w』被判定為有相同含義}。
3. 根據(jù)權(quán)利要求1或2所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,其特征在于, 所述步驟1)中還包括:對(duì)于給定的一個(gè)英文詞匯e和一個(gè)中文詞匯c,根據(jù)字典D定義基 于字典的相似度Simdie(e,c):
4. 根據(jù)權(quán)利要求3所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,其特征在于,所 述步驟2)中基于結(jié)構(gòu)的相似度評(píng)價(jià)方法的具體內(nèi)容為: 對(duì)于給定的一個(gè)分類(lèi)對(duì)(e,c),分類(lèi)e與分類(lèi)c之間的基于結(jié)構(gòu)的相似度Simstraet(e,c) 定義如下所示:
這里將每一個(gè)分類(lèi)結(jié)構(gòu)看作一個(gè)樹(shù)結(jié)構(gòu),每一個(gè)分類(lèi)為樹(shù)結(jié)構(gòu)的一個(gè)節(jié)點(diǎn),上式中N(e)與N(c)分別表不分類(lèi)e與分類(lèi)c在自己所在的分類(lèi)結(jié)構(gòu)中所有相鄰的分類(lèi)節(jié)點(diǎn)和所 有兄弟分類(lèi)節(jié)點(diǎn)所構(gòu)成的集合,Simdic;(a,b)表示的是N(e)中的分類(lèi)a與N(c)中的分類(lèi)b基于字典的相似度; 基于屬性的相似度評(píng)價(jià)方法的具體內(nèi)容為:對(duì)于任意給定一個(gè)分類(lèi)c,總結(jié)出其中所 有實(shí)例都包含的屬性,形成一個(gè)集合作為分類(lèi)c的屬性,記做P(c) = {?1,?2,...,?1;},其中 k表示屬性的個(gè)數(shù),Pl,p2, . . .,pk表示這些屬性,所述分類(lèi)c中包含一定數(shù)量的實(shí)例,并且每 一個(gè)實(shí)例是由若干"屬性-屬性值"對(duì)描述的; 對(duì)于給定的一個(gè)分類(lèi)結(jié)構(gòu)H,根據(jù)其中包含屬性p的分類(lèi)在所有分類(lèi)中占的比例,為屬 性P定義權(quán)重WH (p)為: 其中CH為分類(lèi)結(jié)構(gòu)H甲所令分突的集甘,分
母指的是CH甲所令?含屬性p的分類(lèi)的個(gè) 數(shù); 對(duì)于給定的一個(gè)分類(lèi)對(duì)(e,c),根據(jù)下式獲得分類(lèi)e與分類(lèi)c之間的基于屬性的相似 度SimprQP(e,c):
其中P和q分別為e和c的屬性,R和S分別為e和c所在的分類(lèi)結(jié)構(gòu),WK(p)和Ws (q) 分別表不P和q這兩個(gè)屬性的權(quán)重; 基于屬性取值的相似度評(píng)價(jià)方法的具體內(nèi)容為:對(duì)于任意給定一個(gè)分類(lèi)c,總結(jié) 出分類(lèi)c中所有實(shí)例都包含的屬性,形成一個(gè)集合作為分類(lèi)c的屬性,記做P(c)= {ppp2,. . .,pk},其中k表示屬性的個(gè)數(shù),Ppp2,. . .,pk表示這些屬性,并為c的每一個(gè)屬性 P取出它在c的所有實(shí)例中取值的集合,記做VH(p),其中,所述分類(lèi)c中包含一定數(shù)量的實(shí) 例,并且每一個(gè)實(shí)例是由若干"屬性-屬性值"對(duì)描述的,H為c所在的分類(lèi)結(jié)構(gòu); 對(duì)于給定的兩個(gè)屬性P與q,根據(jù)下式定義出屬性取值集合的相似度Simval(p,q):
其中,R和S分別為e和c所在的分類(lèi)結(jié)構(gòu),VK(p)和Vs (q)分別為p在R中的取值集 合與q在S中的取值集合; 對(duì)于給定的一個(gè)分類(lèi)對(duì)(e,c),根據(jù)下式獲得分類(lèi)e與分類(lèi)c之間的基于屬性取值的相 似度SimpMpval(e,c):
其中P和q分別為e和c的屬性,R和S分別為e和c所在的分類(lèi)結(jié)構(gòu),WK(p)和Ws (q) 分別表示P和q這兩個(gè)屬性的權(quán)重,WK(p)與Ws(q)都是按照"基于屬性的相似度評(píng)價(jià)方法" 中的方式計(jì)算的到的。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法,主要用于處理不同語(yǔ)言分類(lèi)結(jié)構(gòu)之間的匹配問(wèn)題。本發(fā)明首先根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典;然后對(duì)于給定的兩個(gè)分類(lèi)結(jié)構(gòu)生成所有待匹配的分類(lèi)對(duì);接下來(lái)使用先前產(chǎn)生的字典作為輔助,使用一種基于機(jī)器學(xué)習(xí)的判定方法對(duì)每個(gè)分類(lèi)對(duì)中兩個(gè)分類(lèi)是否可以匹配做出判定,該判定方法包含兩步,第一步使用三個(gè)不同的評(píng)價(jià)方法(基于結(jié)構(gòu)的相似度,基于屬性的相似度,基于屬性取值的相似度)對(duì)每個(gè)分類(lèi)對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià),第二步使用機(jī)器學(xué)習(xí)的方法綜合三種評(píng)價(jià)方法并對(duì)是否可匹配給出判定;最后,將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
【IPC分類(lèi)】G06F17-28, G06F17-30
【公開(kāi)號(hào)】CN104699778
【申請(qǐng)?zhí)枴緾N201510105414
【發(fā)明人】方一曙, 漆桂林, 吳天星, 陸彬, 張慧
【申請(qǐng)人】東南大學(xué)
【公開(kāi)日】2015年6月10日
【申請(qǐng)日】2015年3月10日