專利名稱:一種基于語義的相似度計算方法和裝置的制作方法
一種基于語義的相似度計算方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別涉及一種基于語義的相似度計算方法和裝置。背景技術(shù):
隨著計算機(jī)技術(shù)的不斷發(fā)展,用戶越來越依賴通過諸如搜索技術(shù)、問答平臺或者熱點(diǎn)新聞等獲取信息。其中,會涉及到計算句子之間相似度的問題,例如,通過計算搜索結(jié)果與用戶query之間的相似度確定搜索結(jié)果的排序;通過計算用戶所輸入問句與問答平臺數(shù)據(jù)庫中已有問題之間的相似度,找出用戶所輸入問句對應(yīng)的答案;通過新聞頁面的標(biāo)題之間的相似度對各新聞頁面進(jìn)行聚類從而確定熱點(diǎn)事件。在現(xiàn)有的相似度計算方式中,僅通過計算兩個句子之間的字面相似程度,但實(shí)際上,兩個句子之間的相似度更多的體現(xiàn)在語義上。例如句子“華中科技大學(xué)在湖北武漢那 個地方”和“華科大在武漢市什么位置”,這兩個句子中字面僅有“在”和“武漢”存在重合,如果采用現(xiàn)有的相似度計算方式計算得到的這兩個句子之間的相似度很低,但實(shí)際上這兩個句子在語義上是一致的,相似度應(yīng)該很高。可見,現(xiàn)有的相似度計算方式準(zhǔn)確性較差。
發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種基于語義的相似度計算方法和裝置,以便于提高所計算句子之間相似度的準(zhǔn)確性。具體技術(shù)方案如下一種基于語義的相似度計算方法,該方法包括A、獲取待比較的句子S1和S2 ;B、分別對所述S1和S2進(jìn)行分詞;C、對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述;D、計算經(jīng)步驟C處理后的S1和S2之間的相似度SinKS1, S2)。所述步驟B中還包括對分詞后得到的各詞語賦予權(quán)值;所述步驟D具體包括將所述S1分詞后得到的各詞語與所述S2分詞后得到的各詞語分別進(jìn)行匹配,利用匹配成功的詞語的權(quán)值以及句子類型匹配程度,計算所述S1和S2之間的相似度SinKS1, S2);其中所述匹配成功為詞語表述相同或者詞語映射到相同的歸一化表述。其中,所述步驟B具體包括BI、分別對所述S1和S2進(jìn)行分詞和詞性標(biāo)注;B2、對分詞后得到的各詞語進(jìn)行基于停用詞表的過濾;B3、對分詞后得到的各詞語賦予權(quán)值。具體地,所述對分詞后得到的各詞語賦予權(quán)值包括對所述分詞后得到的各詞語進(jìn)行倒文檔率的統(tǒng)計,按照預(yù)設(shè)的倒文檔率與權(quán)值之間的對應(yīng)關(guān)系,分別對所述分詞后得到的各詞語賦予權(quán)值;或者,
按照預(yù)設(shè)的詞性與權(quán)值之間的對應(yīng)關(guān)系,分別對所述分詞后得到的各詞語賦予權(quán)值。較優(yōu)地,在所述步驟B之后且在所述步驟D之前還包括識別語義冗余的詞語,并對語義冗余的詞語進(jìn)行降權(quán)處理;或者,在構(gòu)成偏正結(jié)構(gòu)的詞語中,對作為中心詞的詞語進(jìn)行提權(quán)處理或者對作為修飾詞的詞語進(jìn)行降權(quán)處理。 其中,所述識別語義冗余的詞語具體包括將所述S1分詞后得到的各詞語和所述 S2分詞后得到的各詞語分別與預(yù)設(shè)的語義模板進(jìn)行匹配,通過匹配到的語義模板識別出在一個句子中同時出現(xiàn)的上位和下位的詞語,將所述上位的詞語識別為語義冗余的詞語。更進(jìn)一步地,該方法還包括預(yù)先將具有相同語義但不同表述的詞語組成一個簇,并從該簇中選擇一個詞語作為該簇的歸一化表述,該簇中所有的詞語都語義映射到所述歸一化表述。如果所述S1和S2均為問句,則在所述步驟D之前還包括識別所述S1和S2的問句類型;所述句子類型匹配程度體現(xiàn)所述S1和S2是否屬于同一問句類型。其中,識別問句的問句類型的方式具體包括識別問句中的疑問詞,按照預(yù)設(shè)的疑問詞與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型;或者,識別問句中的疑問詞以及該疑問詞上下文出現(xiàn)的名詞,根據(jù)預(yù)設(shè)的名詞和疑問詞的組合與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型。 具體地,所述步驟D可以包括D1、將所述S1和S2中最大分詞粒度的詞語以及該最大分詞粒度的詞語進(jìn)一步劃分的更小分詞粒度的詞語對應(yīng)到同一個語義映射位;D2、將所述S1中各語義映射位逐一與所述S2中各語義映射位分別進(jìn)行匹配;
權(quán)利要求
1.一種基于語義的相似度計算方法,其特征在于,該方法包括 A、獲取待比較的句子S1和S2; B、分別對所述S1和S2進(jìn)行分詞; C、對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述; D、計算經(jīng)步驟C處理后的S1和S2之間的相似度SinKS1,S2)。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B中還包括對分詞后得到的各詞語賦予權(quán)值; 所述步驟D具體包括 將所述S1分詞后得到的各詞語與所述S2分詞后得到的各詞語分別進(jìn)行匹配,利用匹配成功的詞語的權(quán)值以及句子類型匹配程度,計算所述S1和S2之間的相似度SinKS1, S2);其中所述匹配成功為詞語表述相同或者詞語映射到相同的歸一化表述。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B具體包括 BI、分別對所述S1和S2進(jìn)行分詞和詞性標(biāo)注; B2、對分詞后得到的各詞語進(jìn)行基于停用詞表的過濾; B3、對分詞后得到的各詞語賦予權(quán)值。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述對分詞后得到的各詞語賦予權(quán)值包括 對所述分詞后得到的各詞語進(jìn)行倒文檔率的統(tǒng)計,按照預(yù)設(shè)的倒文檔率與權(quán)值之間的對應(yīng)關(guān)系,分別對所述分詞后得到的各詞語賦予權(quán)值;或者, 按照預(yù)設(shè)的詞性與權(quán)值之間的對應(yīng)關(guān)系,分別對所述分詞后得到的各詞語賦予權(quán)值。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟B之后且在所述步驟D之前還包括 識別語義冗余的詞語,并對語義冗余的詞語進(jìn)行降權(quán)處理;或者, 在構(gòu)成偏正結(jié)構(gòu)的詞語中,對作為中心詞的詞語進(jìn)行提權(quán)處理或者對作為修飾詞的詞語進(jìn)行降權(quán)處理。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述識別語義冗余的詞語具體包括將所述S1分詞后得到的各詞語和所述S2分詞后得到的各詞語分別與預(yù)設(shè)的語義模板進(jìn)行匹配,通過匹配到的語義模板識別出在一個句子中同時出現(xiàn)的上位和下位的詞語,將所述上位的詞語識別為語義冗余的詞語。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,該方法還包括 預(yù)先將具有相同語義但不同表述的詞語組成一個簇,并從該簇中選擇一個詞語作為該簇的歸一化表述,該簇中所有的詞語都語義映射到所述歸一化表述。
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,如果所述S1和S2均為問句,則在所述步驟D之前還包括識別所述S1和S2的問句類型; 所述句子類型匹配程度體現(xiàn)所述S1和S2是否屬于同一問句類型。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,識別問句的問句類型的方式具體包括 識別問句中的疑問詞,按照預(yù)設(shè)的疑問詞與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型;或者, 識別問句中的疑問詞以及該疑問詞上下文出現(xiàn)的名詞,根據(jù)預(yù)設(shè)的名詞和疑問詞的組合與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型。
10.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟D具體包括 D1、將所述SjP S2中最大分詞粒度的詞語以及該最大分詞粒度的詞語進(jìn)一步劃分的更小分詞粒度的詞語對應(yīng)到同一個語義映射位; D2、將所述S1中各語義映射位逐一與所述S2中各語義映射位分別進(jìn)行匹配; D3、按照公式
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,如果一個句子中的一個語義映射位中存在多個詞語與另一個句子的一個語義映射位的詞語匹配,則從所述多個詞語中選擇分詞粒度最大的詞語作為匹配成功的詞語。
12.一種基于語義的相似度計算裝置,其特征在于,該裝置包括 句子獲取單元,用于獲取待比較的句子S1和S2 ; 分詞賦權(quán)單元,用于分別對所述S1和S2進(jìn)行分詞; 語義映射單元,用于對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述; 相似度計算單元,用于計算經(jīng)所述語義映射單元處理后的S1和S2之間的相似度SinKS1, S2)。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述分詞賦權(quán)單元還用于對分詞后得到的各詞語賦予權(quán)值; 所述相似度計算單元具體將所述S1分詞后得到的各詞語與所述S2分詞后得到的各詞語分別進(jìn)行匹配,利用匹配成功的詞語的權(quán)值以及句子類型匹配程度,計算所述S1和S2之間的相似度SinKS1, S2);其中所述匹配成功為詞語表述相同或者詞語映射到相同的歸一化表述。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述分詞賦權(quán)單元具體包括分詞標(biāo)注子單元、過濾子單元和賦權(quán)子單元;所述分詞標(biāo)注子單元,用于對所述S1和S2進(jìn)行分詞和詞性標(biāo)注; 所述過濾子單元,用于對分詞后得到的各詞語進(jìn)行基于停用詞表的過濾后發(fā)送給所述賦權(quán)子單元; 所述賦權(quán)子單元,用于將接收到的詞語賦予權(quán)值。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述賦權(quán)子單元對接收到的詞語進(jìn)行倒文檔率的統(tǒng)計,按照預(yù)設(shè)的倒文檔率與權(quán)值之間的對應(yīng)關(guān)系,分別對接收到的詞語賦予權(quán)值;或者,按照預(yù)設(shè)的詞性與權(quán)值之間的對應(yīng)關(guān)系,分別對接收到的詞語賦予權(quán)值。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置還包括冗余處理單元或者結(jié)構(gòu)處理單元; 所述冗余處理單元,用于識別所述分詞處理后得到的詞語中語義冗余的詞語,并對語義冗余的詞語進(jìn)行降權(quán)處理; 所述結(jié)構(gòu)處理單元,用于在所述分詞處理后得到的詞語中,對構(gòu)成偏正結(jié)構(gòu)的詞語中的中心詞進(jìn)行提權(quán)處理,或者,對構(gòu)成偏正結(jié)構(gòu)的詞語中的修飾詞進(jìn)行降權(quán)處理。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述冗余處理單元將所述S1分詞后得到的各詞語和所述S2分詞后得到的各詞語分別與預(yù)設(shè)的語義模板進(jìn)行匹配,通過匹配到的語義模板識別出在一個句子中同時出現(xiàn)的上位和下位的詞語,將所述上位的詞語識別為語義冗余的詞語。
18.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置還包括映射挖掘單元,用于預(yù)先將具有相同語義但不同表述的詞語組成一個簇,并從該簇中選擇一個詞語作為該簇的歸一化表述,該簇中所有的詞語都語義映射到所述歸一化表述。
19.根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置還包括類型識別單元,用于在所述S1和S2為問句時,識別所述S1和S2的問句類型; 所述句子類型匹配程度體現(xiàn)所述S1和S2是否屬于同一問句類型。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述類型識別單元識別問句中的疑問詞,按照預(yù)設(shè)的疑問詞與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型;或者,識別問句中的疑問詞以及該疑問詞上下文出現(xiàn)的名詞,根據(jù)預(yù)設(shè)的名詞和疑問詞的組合與問句類型之間的對應(yīng)關(guān)系,確定問句的問句類型。
21.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述相似度計算單元具體包括 映射位對應(yīng)子單元,用于將所述SJP S2中最大分詞粒度的詞語以及該最大分詞粒度的詞語進(jìn)一步劃分的更小分詞粒度的詞語對應(yīng)到同一個語義映射位; 匹配處理子單元,用于將所述S1中各語義映射位逐一與所述S2中各語義映射位分別進(jìn)行匹配; 相似度計算子單元,用于按照公式
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,如果一個句子中的一個語義映射位中存在多個詞語與另一個句子的一個語義映射位的詞語匹配,則所述匹配處理子單元從所述多個詞語中選擇分詞粒度最大的詞語作為匹配成功的詞語。
全文摘要
本發(fā)明提供了一種基于語義的相似度計算方法和裝置,其中方法包括獲取待比較的句子S1和S2;分別對所述S1和S2進(jìn)行分詞;對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述;計算經(jīng)步驟C處理后的S1和S2之間的相似度Sim(S1,S2)。本發(fā)明通過將句子中存在語義映射的詞語映射到歸一化的表述,并將其融入相似度的計算,從而在語義上體現(xiàn)句子之間的相似度而不僅僅是字面上的相似程度,提高了計算句子之間相似度的準(zhǔn)確性。
文檔編號G06F17/27GK102955772SQ20111023690
公開日2013年3月6日 申請日期2011年8月17日 優(yōu)先權(quán)日2011年8月17日
發(fā)明者方高林, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司