一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法

文檔序號(hào)：8381038閱讀：279來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于跨語(yǔ)言信息匹配領(lǐng)域，涉及一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法。
【背景技術(shù)】
[0002] 近年來(lái)，隨著語(yǔ)義萬(wàn)維網(wǎng)的不斷發(fā)展，以分類(lèi)結(jié)構(gòu)為主干的模式信息在語(yǔ)義網(wǎng)領(lǐng) 域中扮演著越來(lái)越重要的角色，隨著開(kāi)放鏈接模式概念的突出，對(duì)模式信息，尤其是分類(lèi)結(jié) 構(gòu)信息的研宄也引來(lái)了一個(gè)新的熱潮。然而，當(dāng)前的研宄主要集中在單語(yǔ)言的環(huán)境中，現(xiàn)已經(jīng)發(fā)布的分類(lèi)結(jié)構(gòu)數(shù)據(jù)也大多只包含單一語(yǔ)言的信息，不同語(yǔ)言的分類(lèi)結(jié)構(gòu)信息之間并沒(méi) 有很有效的連接起來(lái)。如何將不同語(yǔ)言的分類(lèi)信息整合起來(lái)，使之發(fā)揮更大的應(yīng)用價(jià)值是一個(gè)很值得研宄的問(wèn)題。
[0003] 不同語(yǔ)言這個(gè)天然的障礙為跨語(yǔ)言的信息匹配帶來(lái)了很大的困難。近年來(lái)，國(guó)內(nèi) 外的研宄人員為了解決跨語(yǔ)言信息匹配的問(wèn)題，提出了很多性能頗佳的方法，包括清華大學(xué)提出的擴(kuò)充維基百科中跨語(yǔ)言連接的方法，阿姆斯特丹自由大學(xué)提出的基于實(shí)例對(duì)不同語(yǔ)言間的圖書(shū)分類(lèi)進(jìn)行匹配的方法，加拿大維多利亞大學(xué)設(shè)計(jì)的SOCOM++跨語(yǔ)言本體匹配系統(tǒng)。清華大學(xué)提出的擴(kuò)充維基百科中的跨語(yǔ)言連接的方法首先將維基百科中每一篇文章的標(biāo)題，作者，所屬類(lèi)別，出度，入度等信息作為特征對(duì)文章進(jìn)行描述，通過(guò)這些特征的相似程度來(lái)評(píng)價(jià)不用語(yǔ)言文章之間的相似程度，然后使用機(jī)器學(xué)習(xí)的方法對(duì)跨語(yǔ)言連接進(jìn)行了擴(kuò)充。
[0004] 然而，目前并未出現(xiàn)針對(duì)跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配的方法，現(xiàn)已提出的方法雖然都涉及跨語(yǔ)言信息匹配領(lǐng)域，但是假定的待匹配數(shù)據(jù)都與本發(fā)明針對(duì)的分類(lèi)結(jié)構(gòu)數(shù)據(jù)有一定的差異，從而導(dǎo)致直接將這些方法應(yīng)用到跨語(yǔ)言分類(lèi)結(jié)構(gòu)的匹配中去，并不能獲得很好的效果。

【發(fā)明內(nèi)容】

[0005] 技術(shù)問(wèn)題：本發(fā)明提供了一種對(duì)不同語(yǔ)言的兩個(gè)分類(lèi)結(jié)構(gòu)之間進(jìn)行匹配，可以識(shí) 別出兩個(gè)分類(lèi)結(jié)構(gòu)之間等價(jià)分類(lèi)的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法。
[0006] 技術(shù)方案：本發(fā)明的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，首先根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典；然后對(duì)于給定的兩個(gè)分類(lèi)結(jié)構(gòu)生成所有待匹配的分類(lèi)對(duì)；接下來(lái)使用先前產(chǎn)生的字典作為輔助，使用一種基于機(jī)器學(xué)習(xí)的判定方法對(duì)每個(gè) 分類(lèi)對(duì)中兩個(gè)分類(lèi)是否可以匹配做出判定，該判定方法包含兩步，第一步使用三個(gè)不同的評(píng)價(jià)方法（基于結(jié)構(gòu)的相似度，基于屬性的相似度，基于屬性取值的相似度）對(duì)每個(gè)分類(lèi)對(duì) 中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià)，第二步使用機(jī)器學(xué)習(xí)的方法綜合三種評(píng)價(jià)方法并對(duì)是否可匹配給出判定；最后，將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
[0007] 本發(fā)明的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，包括如下步驟：
[0008] 1)根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典；同時(shí)對(duì)于給定的兩個(gè)分類(lèi)結(jié)構(gòu)生成所有待匹配的分類(lèi)對(duì)；
[0009] 2)使用所述步驟1)中產(chǎn)生的對(duì)照字典作為輔助，分別使用基于結(jié)構(gòu)的相似度評(píng) 價(jià)方法、基于屬性的相似度評(píng)價(jià)方法和基于屬性取值的相似度評(píng)價(jià)方法，對(duì)每個(gè)待匹配的分類(lèi)對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià)；
[0010] 3)使用機(jī)器學(xué)習(xí)的方法對(duì)所述步驟2)獲得的三種評(píng)價(jià)結(jié)果方法進(jìn)行綜合匹配判定，將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
[0011] 本發(fā)明的優(yōu)選方案中，步驟1)中所述根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典，具體包含如下步驟：
[0012] la)對(duì)應(yīng)給定的兩個(gè)分類(lèi)結(jié)構(gòu)扎和H。，遍歷He中所有的出現(xiàn)的詞匯，建立詞匯集合We= {w el, we2，…，WeJ，其中η表示W(wǎng)e中共包含η個(gè)詞匯，w el, we2,…，wm分別表示這些詞匯，所述的η個(gè)詞匯不僅包括分類(lèi)的名稱(chēng)，還包括所有分類(lèi)描述信息中出現(xiàn)的的詞匯；
[0013] 同時(shí)，采用同樣的方法遍歷Η。，建立詞匯集合W。= {wel, we2，…，w"}，其中m表示W(wǎng)。中包含的詞匯個(gè)數(shù)，?。2，…，Wcm分別表示這些詞匯；
[0014] 求集合We與集合W。的笛卡爾乘積，將得到的集合DC作為待定字典：
[0015] DC = {(wcl, wel), (wcl, we2), ···, (wci, weJ), ···, (wcn, We ill^1), (wcn, wem)},其中 i e [I, η], j e [I, m]；
[0016] lb)將DC中每一個(gè)元素（Wi，％)都分別使用多語(yǔ)言同義詞字典和機(jī)器翻譯技術(shù)進(jìn) 行分析，來(lái)判定^與、是否有相同含義：如果^與、出現(xiàn)在同一個(gè)多語(yǔ)言同義詞字典的同義詞集合中，或者^(guò)能通過(guò)機(jī)器翻譯技術(shù)翻譯得到或者％能通過(guò)機(jī)器翻譯技術(shù)翻譯得到W i，則判定&與w j有相同含義，并將此元素（w i, Wj)放入集合D中；最終得到的集合D作為雙語(yǔ)對(duì)照字典：
[0017] D = Kwi, Wj) Iw^ w j被判定為有相同含義}。
[0018] 本發(fā)明的優(yōu)選方案中，步驟1)中還可以包括：對(duì)于給定的一個(gè)英文詞匯e和一個(gè) 中文詞匯c，根據(jù)字典D定義基于字典的相似度Sim diJe, c):
[0019]
【主權(quán)項(xiàng)】
1. 一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，其特征在于，該方法包括如下步驟： 1) 根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典；同時(shí)對(duì)于給定的兩個(gè)分類(lèi)結(jié) 構(gòu)生成所有待匹配的分類(lèi)對(duì)； 2) 使用所述步驟1)中產(chǎn)生的對(duì)照字典作為輔助，分別使用基于結(jié)構(gòu)的相似度評(píng)價(jià)方法、基于屬性的相似度評(píng)價(jià)方法和基于屬性取值的相似度評(píng)價(jià)方法，對(duì)每個(gè)待匹配的分類(lèi) 對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià)； 3) 使用機(jī)器學(xué)習(xí)的方法對(duì)所述步驟2)獲得的三種評(píng)價(jià)結(jié)果方法進(jìn)行綜合匹配判定，將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，其特征在于，所述根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典，具體包含如下步驟： la) 對(duì)應(yīng)給定的兩個(gè)分類(lèi)結(jié)構(gòu)札和H。，遍歷扎中所有出現(xiàn)的詞匯，建立詞匯集合We = {wel，we2, ? ? ?，wen}，其中n表示1中共包含n個(gè)詞匯，wel，we2, ? ? ?，wen分另丨」表示這些詞匯，所述的n個(gè)詞匯不僅包括分類(lèi)的名稱(chēng)，還包括所有分類(lèi)描述信息中出現(xiàn)的詞匯；同時(shí)，采用同樣的方法遍歷H。，建立詞匯集合評(píng)。={w&W&,. . .，wj，其中m表示W(wǎng)。中包含的詞匯個(gè)數(shù)，Wc;1，《。2,. . .，分別表示這些詞匯；求集合與集合W。的笛卡爾乘積，將得到的集合DC作為待定字典： DC= {(wcl，wel)，（wcl，we2)，? ? ?，（wci，wej)，? ? ?，（wcn，Wej-i)，（wcn，wem)}，其中iG[1，n]，jG[l,m]； lb) 將DC中每一個(gè)元素（Wi，Wp都分別使用多語(yǔ)言同義詞字典和機(jī)器翻譯技術(shù)進(jìn)行分析，來(lái)判定^與、是否有相同含義：如果w1與"出現(xiàn)在同一個(gè)多語(yǔ)言同義詞字典的同義詞集合中，或者^(guò)能通過(guò)機(jī)器翻譯技術(shù)翻譯得到W」，或者％能通過(guò)機(jī)器翻譯技術(shù)翻譯得到 Wi，貝1」判定&與wj有相同含義，并將此元素（wi,Wj)放入集合D中；最終得到的集合D作為雙語(yǔ)對(duì)照字典： D= {(Wi,Wj) | w』被判定為有相同含義}。
3. 根據(jù)權(quán)利要求1或2所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，其特征在于，所述步驟1)中還包括：對(duì)于給定的一個(gè)英文詞匯e和一個(gè)中文詞匯c，根據(jù)字典D定義基于字典的相似度Simdie(e，c):
4. 根據(jù)權(quán)利要求3所述的基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，其特征在于，所述步驟2)中基于結(jié)構(gòu)的相似度評(píng)價(jià)方法的具體內(nèi)容為：對(duì)于給定的一個(gè)分類(lèi)對(duì)（e,c)，分類(lèi)e與分類(lèi)c之間的基于結(jié)構(gòu)的相似度Simstraet(e,c) 定義如下所示：
這里將每一個(gè)分類(lèi)結(jié)構(gòu)看作一個(gè)樹(shù)結(jié)構(gòu)，每一個(gè)分類(lèi)為樹(shù)結(jié)構(gòu)的一個(gè)節(jié)點(diǎn)，上式中N(e)與N(c)分別表不分類(lèi)e與分類(lèi)c在自己所在的分類(lèi)結(jié)構(gòu)中所有相鄰的分類(lèi)節(jié)點(diǎn)和所有兄弟分類(lèi)節(jié)點(diǎn)所構(gòu)成的集合，Simdic;(a，b)表示的是N(e)中的分類(lèi)a與N(c)中的分類(lèi)b基于字典的相似度；基于屬性的相似度評(píng)價(jià)方法的具體內(nèi)容為：對(duì)于任意給定一個(gè)分類(lèi)c，總結(jié)出其中所有實(shí)例都包含的屬性，形成一個(gè)集合作為分類(lèi)c的屬性，記做P(c) = {?1，？2，...，？1;}，其中 k表示屬性的個(gè)數(shù)，Pl，p2, . . .，pk表示這些屬性，所述分類(lèi)c中包含一定數(shù)量的實(shí)例，并且每一個(gè)實(shí)例是由若干"屬性-屬性值"對(duì)描述的；對(duì)于給定的一個(gè)分類(lèi)結(jié)構(gòu)H，根據(jù)其中包含屬性p的分類(lèi)在所有分類(lèi)中占的比例，為屬性P定義權(quán)重WH (p)為：其中CH為分類(lèi)結(jié)構(gòu)H甲所令分突的集甘，分
母指的是CH甲所令?含屬性p的分類(lèi)的個(gè) 數(shù)；對(duì)于給定的一個(gè)分類(lèi)對(duì)（e，c)，根據(jù)下式獲得分類(lèi)e與分類(lèi)c之間的基于屬性的相似度SimprQP(e，c):
其中P和q分別為e和c的屬性，R和S分別為e和c所在的分類(lèi)結(jié)構(gòu)，WK(p)和Ws (q) 分別表不P和q這兩個(gè)屬性的權(quán)重；基于屬性取值的相似度評(píng)價(jià)方法的具體內(nèi)容為：對(duì)于任意給定一個(gè)分類(lèi)c，總結(jié) 出分類(lèi)c中所有實(shí)例都包含的屬性，形成一個(gè)集合作為分類(lèi)c的屬性，記做P(c)= {ppp2,. . .，pk}，其中k表示屬性的個(gè)數(shù)，Ppp2,. . .，pk表示這些屬性，并為c的每一個(gè)屬性 P取出它在c的所有實(shí)例中取值的集合，記做VH(p)，其中，所述分類(lèi)c中包含一定數(shù)量的實(shí) 例，并且每一個(gè)實(shí)例是由若干"屬性-屬性值"對(duì)描述的，H為c所在的分類(lèi)結(jié)構(gòu)；對(duì)于給定的兩個(gè)屬性P與q，根據(jù)下式定義出屬性取值集合的相似度Simval(p,q):
其中，R和S分別為e和c所在的分類(lèi)結(jié)構(gòu)，VK(p)和Vs (q)分別為p在R中的取值集合與q在S中的取值集合；對(duì)于給定的一個(gè)分類(lèi)對(duì)（e，c)，根據(jù)下式獲得分類(lèi)e與分類(lèi)c之間的基于屬性取值的相似度SimpMpval(e，c):
其中P和q分別為e和c的屬性，R和S分別為e和c所在的分類(lèi)結(jié)構(gòu)，WK(p)和Ws (q) 分別表示P和q這兩個(gè)屬性的權(quán)重，WK(p)與Ws(q)都是按照"基于屬性的相似度評(píng)價(jià)方法" 中的方式計(jì)算的到的。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法，主要用于處理不同語(yǔ)言分類(lèi)結(jié)構(gòu)之間的匹配問(wèn)題。本發(fā)明首先根據(jù)給定的兩個(gè)分類(lèi)結(jié)構(gòu)產(chǎn)生一個(gè)雙語(yǔ)的對(duì)照字典；然后對(duì)于給定的兩個(gè)分類(lèi)結(jié)構(gòu)生成所有待匹配的分類(lèi)對(duì)；接下來(lái)使用先前產(chǎn)生的字典作為輔助，使用一種基于機(jī)器學(xué)習(xí)的判定方法對(duì)每個(gè)分類(lèi)對(duì)中兩個(gè)分類(lèi)是否可以匹配做出判定，該判定方法包含兩步，第一步使用三個(gè)不同的評(píng)價(jià)方法(基于結(jié)構(gòu)的相似度，基于屬性的相似度，基于屬性取值的相似度)對(duì)每個(gè)分類(lèi)對(duì)中兩個(gè)分類(lèi)的可匹配程度進(jìn)行評(píng)價(jià)，第二步使用機(jī)器學(xué)習(xí)的方法綜合三種評(píng)價(jià)方法并對(duì)是否可匹配給出判定；最后，將所有被判定為可以匹配的分類(lèi)對(duì)作為分類(lèi)結(jié)構(gòu)的匹配結(jié)果。
【IPC分類(lèi)】G06F17-28, G06F17-30
【公開(kāi)號(hào)】CN104699778
【申請(qǐng)?zhí)枴緾N201510105414
【發(fā)明人】方一曙, 漆桂林, 吳天星, 陸彬, 張慧
【申請(qǐng)人】東南大學(xué)
【公開(kāi)日】2015年6月10日
【申請(qǐng)日】2015年3月10日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：方一曙;漆桂林;吳天星;陸彬;張慧;
技術(shù)所有人：東南大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于機(jī)器學(xué)習(xí)的跨語(yǔ)言分類(lèi)結(jié)構(gòu)匹配方法