專利名稱:用于匹配實體的系統和方法及其中使用的同義詞群組織器的制作方法
技術領域:
本發(fā)明涉及數據采集和分析領域,并且具體地說,涉及用于確定匹配系統收到的實體是否與以前收到的實體匹配的方法及系統,以及系統中使用的組件。這些組件包括用于組織同義詞的同義詞群組織器。本發(fā)明還涉及用于實現如上所述系統、方法及其組件的計算機程序和計算機程序產品。
背景技術:
在過去5-10年內,“搜索”已變成在全球的人們之間在數字界的一個現象。在典型的搜索情況中,短的搜索查詢用于查找大或至少更大的文檔。典型的示例是因特網搜索引擎或安裝在庫計算機上以便搜索庫中存儲的文章或書籍的搜索引擎。如上所述的傳統搜索情形與典型匹配情形不同。在匹配情形中,兩個或更多個用 戶將數據輸入到系統中以便查明該數據是否與其它用戶輸入的數據匹配。也就是說,與搜索情形不同,輸入信息到系統的所有用戶都關注查找匹配信息。在搜索情形中,僅錄入搜索查詢的用戶關注匹配結果,搜索查詢在典型情況下是一個或多個關鍵詞的形式。從技術角度而言,匹配系統與搜索引擎不同,至少表現在匹配系統要索引進入的“查詢”,這是因為這些查詢也是以前或以后收到的查詢的潛在匹配。為區(qū)分“匹配查詢”和常規(guī)搜索查詢,在“匹配查詢”中傳送到匹配系統的數據將在本文檔通篇中稱為“實體”。匹配系統能夠在許多不同類型的匹配服務中使用。此類服務的示例有在線找工作/招聘服務、電子商務服務及約會服務。Ericsson以前提交的專利申請PCT/EP2008/066617公開了此類匹配系統,該匹配系統能夠確定從第一用戶的客戶端裝置收到的第一實體是否與在每個實體與一個或多個索引點相關聯的索引中索引的多個實體至少之一匹配。實體例如可以是文本文件、圖像文件、音頻文件或具有能夠“轉換”成詞或符號的其它序列的任何其它類型的數據,而詞或符號的其它序列能夠用作索引點,表征與其相關聯的實體。PCT/EP2008/066617公開了在一個單一操作中執(zhí)行實體插入和搜索的方式,以提高系統用于的匹配服務的用戶感知質量以及降低在匹配系統中所需計算容量。它也減少了在系統中查找所有潛在匹配所需的時間。在現有技術的匹配系統中,一實體匹配另一實體意味著這些實體具有共同的至少一個索引點,即,在索引中存在兩個實體均相關聯的至少一個索引點。然而,當前匹配系統在用于確定實體是否應與某個索引點相關聯的準則上是嚴格的。具體而言,當前匹配系統不能將搜索實體與包含搜索實體中存在的詞的同義詞的實體相關聯。換而言之,當前匹配系統不能提供實際上與搜索實體有關的更多實體。例如,在搜索實體包含表述“整理房間”時,根據當前匹配系統,包含“整理房間”的相似含意的“家居清潔”的實體不能被視為是匹配實體,這使得當前匹配系統較不適用。另外,詞的實際含意在演進,現有詞的新含意由于信息通信,特別是因特網在全球的使用原因而產生。匹配系統應足夠靈活以反映詞的含意的動態(tài)更改。因此,與根據現有技術的匹配系統相關聯的一個問題是如何提供具有與搜索實體相似的含意、但未與匹配的實體包含搜索實體的相同詞的更多實體,以提高系統用于的匹配服務的用戶感知質量。另一問題是如何動態(tài)更新匹配系統以反映詞的演進含意。
發(fā)明內容
本發(fā)明的目的是解決或至少減輕匹配系統的上述問題的至少之一。此目的通過用于管理至少一個同義詞群的方法而得以實現,每個同義詞群包括第一部分和第二部分,且每個同義詞群包括至少一個同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群的所有其它同義詞,其中,該方法包括以下步驟在同義詞群包括不止一個同義詞時,計算在同義詞群的所有同義詞的每兩個同義詞之間指示這兩個同義詞相互相似程度的相似性值。
根據本發(fā)明的一實施例,計算每兩個同義詞之間相似性值的步驟包括以下步驟為同義詞群中的每個同義詞確定頁面分級值;基于同義詞群的兩個同義詞的頁面分級值,計算在這兩個同義詞之間的初始相似性值;以及將這兩個同義詞之間的初始相似性值設置為在同義詞群的每兩個同義詞之間的相似性值。根據本發(fā)明的一實施例,計算在同義詞群中兩個同義詞之間的相似性值的步驟包括以下步驟基于在會話時段內恰巧使用兩個同義詞的第二同義詞時使用這兩個同義詞的第一同義詞的條件概率并基于在會話時段內恰巧使用第一同義詞時使用第二同義詞的條件概率,計算這兩個同義詞之間的動態(tài)相似性值;以及將這兩個同義詞之間的動態(tài)相似性值設置為在每兩個同義詞之間的相似性值。根據本發(fā)明的一實施例,計算相似性值的步驟包括基于在兩個同義詞之間的初始相似性值和在這兩個同義詞之間的動態(tài)相似性值,設置在同義詞群中兩個同義詞之間的相似性值的步驟。根據本發(fā)明的另一方面,提供了一種同義詞群組織器,包括至少一個同義詞群,每個同義詞群包括第一部分和第二部分,且每個同義詞群包括至少一個同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群的所有其它同義詞,其中,在同義詞群包括不止一個同義詞時,所述同義詞群包括在同義詞群中所有同義詞的每兩個同義詞之間指示所述兩個同義詞相互相似程度的相似性值;以及適用于執(zhí)行本發(fā)明的方法的管理引擎。根據本發(fā)明的另一方面,提供了一種匹配系統,包括至少一個同義詞群,每個同義詞群包括第一部分和第二部分,且每個同義詞群包括至少一個同義詞,第一部分包括是代表用于同義詞群的特定類別的詞的同義詞,并且第二部分包括同義詞群中的所有其它同義詞,其中,在同義詞群包括不止一個同義詞時,同義詞群包括同義詞群中所有同義詞的每兩個同義詞之間指示所述兩個同義詞相互相似程度的相似性值;以及與至少一個同義詞群的一個或多個同義詞群相關聯的至少一個實體。根據本申請的又一方面,提供了一種用于添加新實體到匹配系統中的方法,所述方法包括以下步驟將新實體預處理成至少一個詞;以及對于新實體的每個詞搜索包含對應于詞的同義詞的同義詞群;以及將新實體與搜索到的同義詞群相關聯。
根據本發(fā)申請的又一方面,提供了一種用于確定從客戶端裝置收到的第一實體是否與匹配系統中的至少一個實體匹配的方法,所述方法包括以下步驟將第一實體預處理成至少一個詞;對于第一實體的每個詞搜索包含對應于所述詞的同義詞的同義詞群;以及搜索與搜索到的同義詞群相關聯的實體,并且創(chuàng)建詞的相關聯實體集合,其中每個搜索到的實體作為詞的相關聯實體集合的項目;通過合并第一實體的每個詞的相關聯實體集合,為第一實體創(chuàng)建合并的實體集合,其中,合并的實體集合的每個項目是獨特實體,并且每個項目包含用于對在每個詞的所有相關聯實體集合中出現的獨特實體的數量進行計數的計數器;以及如果合并的實體集合包含計數器 的值大于閾值的任何實體項目,則確定從客戶端裝置收到的第一實體匹配,否則確定從客戶端實體收到的第一實體不匹配。通過使用同義詞群組織器組織詞,帶有相似含意的所有詞能夠編組到一個同義詞群中。當此類同義詞群與匹配系統結合使用時,可能在基于同義詞群形成關聯時在帶有相似含意的實體之間形成鏈接,因此,可能提供帶有與搜索實體相似含意的更多匹配實體。另外,使用同義詞群的兩個同義詞之間的相似性值,可能提供指示這兩個同義詞相互相似程度的量。還可能的是,基于在同義詞群的兩個同義詞之間的相似性值,計算兩個實體之間的相似性,這使得提供搜索實體的匹配的實體的適當分級成為可能?;谑褂猛x詞群組織器的用戶行為統計,可使用貝葉斯定理動態(tài)修改同義詞群的兩個同義詞之間的相似性值。通過動態(tài)更新同義詞群的兩個同義詞之間的相似性值,可能的是,更準確地反映在兩個同義詞之間的相似性,并且還可能的是,基于在同義詞群的每兩個同義詞之間的相似性值更新同義詞群中的同義詞。在下文的描述中和在隨附權利要求書中將描述根據本發(fā)明的同義詞群組織器和匹配系統的更多有利特征。此外,本發(fā)明涉及用于促使服務器節(jié)點執(zhí)行如上所述的那些方法的計算機程序和包含其上存儲有此類計算機程序的存儲媒體的計算機程序產品。
結合附圖閱讀時,將從本發(fā)明的示范實施例的以下詳細描述中更容易理解本發(fā)明的目的、優(yōu)點和效果及特征,其中
圖I示出根據本發(fā)明的一實施例的示范同義詞群組織器;
圖2a和2b以示意圖方式分別示出根據本發(fā)明的實施例,在同義詞群組織器中同義詞群的結構;
圖3示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于在同義詞群組織器的同義詞群中兩個同義詞之間計算初始相似性值的方法;
圖4不出在圖3所不方法中使用的同義詞圖表;
圖5示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于保持在同義詞群組織器的同義詞群中兩個同義詞之間的相似性值的方法;
圖6示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于從同義詞群中刪除不相關同義詞的方法;
圖7示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于將新同義詞添加到同義詞群中的方法;圖8示出根據本發(fā)明的一實施例的示范匹配系統;
圖9示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于將新實體添加到匹配系統中的方法;
圖10示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于確定從客戶端裝置收到的第一實體是否與匹配系統中至少一個實體匹配的方法;
圖11示出流程圖,該流程圖示出根據本發(fā)明的一實施例,用于計算在兩個匹配的實體之間相似性的方法;以及
圖12示出框圖,該框圖示出用于實現本發(fā)明的實施例的典型服務器;以及 圖13示出保存或攜帶由服務器使用的程序代碼的存儲器單元的示意圖。
具體實施方式
雖然本發(fā)明包括各種修改和備選構造,但在圖形中示出并且將在下文詳細描述本發(fā)明的實施例。然而,要理解的是,特定的描述和圖形無意將本發(fā)明限為公開的特定形式。相反,要求權利的發(fā)明的范圍要包括落入如隨附權利要求書表述的本發(fā)明的范圍內的其所有修改和備選構造。圖I示出根據本發(fā)明的一實施例的示范同義詞群組織器100。同義詞群組織器100在此實施例中是服務器主機,并且包括至少一個同義詞群(101 -103)和用于管理同義詞群組織器100的這些同義詞群的管理引擎105。這些同義詞群可存儲在同義詞群組織器100中的數據庫108中,并且實際上,同步詞群組織器中同義詞群的數量取決于在同義詞群組織器中使用的詞的語言,典型情況下,在同義詞群組織器中使用的詞是英文時,同義詞群組織器能夠包括一萬個同義詞群。圖2a示出根據本發(fā)明的一實施例,在同義詞群組織器中同義詞群的結構。如圖2a所示,每個同義詞群101-103包括第一部分和第二部分,下文在描述中將第一部分稱為頭部110,并且下文在描述中將第二部分稱為同義詞指示器部分120。頭部110包括表示同義詞群的特定類的最常用詞,而同義詞指示器部分120包括同義詞群的頭部中詞的所有其它同義詞。視頭部110中詞的含意而定,同義詞指示器部分120可不必包括任何同義詞。例如,在頭部110中帶有詞“北京”的同義詞群101在同義詞指示器部分120中不包括任何同義詞,并且在頭部110中帶有詞“清潔”的同義詞群102此處在同義詞指示器部分120中包括6個同義詞??纱嬖谠谕x詞指示器部分120中組織同義詞的多種方式。在一種方式中,同義詞指示器部分120能夠包括同義詞列表,每個同義詞作為同義詞列表的一個項目。在另一種方式中,同義詞指示器部分120能夠包括其中每個項目指向同義詞的同義詞指示器列表。在又一種方式中,同義詞指示器部分120能夠包括鏈接的列表,通過將一個同義詞與另一同義詞鏈接而將所有同義詞鏈接在一起。應注意的是,本發(fā)明只要求對應于頭部中的詞的所有同義詞包括在同義詞指示器部分120中,并且在同義詞指示器部分120中組織這些同義詞的所有方式都在本發(fā)明的保護范圍內。圖2b以示意圖方式示出同義詞群的另一結構。根據語義定義,詞A是詞B的同義詞意味著詞A具有與詞B完全或幾乎相同的含意,詞A是詞B的上位詞意味著詞A具有比詞B更廣的含意,并且詞A是詞B的下位詞意味著詞A具有比詞B更具體的含意。根據本申請的一實施例,在描述通篇中使用的術語“同義詞”應包括語義定義的“同義詞”、“上位詞”和“下位詞”的所有方式。在圖2b中,同義詞群的結構更反映詞的語義定義,詳細地說,同義詞指示器部分120進一步分成三個部分同義詞部分,包括是帶有與頭部中的詞相似含意的詞的同義詞(對應于語義定義的術語“同義詞”);超類部分,包括是包含與頭部中的詞相似含意的根源詞(parent words)的同義詞(對應于語義定義的術語“上位詞”);以及子類部分,包括是與頭部中的詞相似含意的擴展詞的同義詞(對應于語義定義的術語“下位詞”)。普林斯頓大學所著的著名同義詞詞典WordNet (有關詳情,請訪問http://wordnet.princeton. edu/)具有與結合圖2a和2b所定義的那些內容相似的結構,并且根據本發(fā)明的一實施例,同義詞群組織器的那些同義詞群從此類同義詞詞典推導。有多種方式來選擇同義詞之中的詞作為同義詞群的頭部110中的詞。例如,能夠基于具體的服務或應用上下文選擇此類詞,例如,如果它是象清潔等日常生活有關的服務,則使用例如“清潔”等最常見的服務類別名稱作為頭部中的詞;如果它是位置,則使用例如“Kista”等位置的最常見名稱作為頭部中的詞;如果它是商品或產品,則也使用例如“移動電話”等最常見的名稱作為頭部中的詞。在另一種方式中,頭部中的詞應該是根據同義詞群組織器100的用戶數據的歷史統計出現或呈現次數最多的名稱。一種方式可以是計算同義 詞群中每個同義詞的頁面分級(PR)值(這將在下面的描述中詳細描述),并且選擇同義詞群中具有最高PR值的同義詞作為頭部中的詞??苫谧帜副眄樞蚪M織同義詞群,典型情況下從同義詞群的頭部中詞的“a”開始。應注意的是,同義詞群的所有其它組織方式能夠使每個同義詞群在同義詞群組織器內可搜索,此類組織方式便均在本申請的保護范圍內。為給出有關同義詞群中兩個同義詞相互相似程度的計量,每個同義詞群包括在同義詞群的所有同義詞的每兩個同義詞之間的,所述相似性值指示這兩個同義詞相互相似程度。同義詞群組織器基于這些相似性值管理同義詞群的同義詞。再參照圖1,管理引擎105負責管理同義詞群(101-103),即,對于每個同義詞群計算相似性值,在同義詞群組織器的實際使用期間更新相似性值,在同義詞群組織器的實際使用期間管理每個同義詞群的要素。在下面的描述中結合圖3-7詳細描述管理引擎105為計算相似性值和管理同義詞群而執(zhí)行的方法。應理解的是,同義詞群組織器100的所示結構只是示范,并且同義詞群組織器能夠以許多其它方式實現。例如,用于存儲同義詞群的數據庫108能夠在專用服務器節(jié)點中被托管,并且管理引擎105位于與托管數據庫108的服務器通信的另一服務器中,以便對同義詞群進行的所有過程能夠由管理引擎105執(zhí)行。存在多種方式用來計算在同義詞群中兩個同義詞之間的相似性值。在最初根據同義詞詞典創(chuàng)建同義詞群組織器的同義詞群時,根據本發(fā)明的一實施例,在同義詞群中兩個同義詞之間的相似性值能夠設成在同義詞群中兩個同義詞之間的初始相似性值。圖3示出流程圖,所述流程圖示出根據本發(fā)明的一實施例、由管理引擎105執(zhí)行的用于計算同義詞群組織器的同義詞群中兩個同義詞之間的初始相似性值的頁面分級方法300。頁面分級方面300是基于以下原理首先,如果兩個詞A和B是同義詞,則在描述其定義中必須有多個相同詞,或者兩個詞A和B必須經常一起使用以定義某一其它第三詞;其次,在知道A和B是同義詞時,同時如果B在A的定義中存在,這意味著A引用B,則B應包括A的頁面分級值。此方法300從步驟S310開始,其中,從同義詞詞典加載同義詞群中每個同義詞的定義。例如,對于圖I和2的同義詞群102,每個同義詞的定義如下
權利要求
1.一種用于管理至少一個同義詞群的方法,每個同義詞群包括第一部分和第二部分,并且每個同義詞群包括至少一個同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群的所有其它同義詞,其中所述方法包括以下步驟 在同義詞群包括不止一個同義詞時,計算在所述同義詞群的所有同義詞的每兩個同義詞之間的相似性值,所述相似性值指示這兩個同義詞相互的相似程度。
2.如權利要求I所述的方法,其中計算每兩個同義詞之間的所述相似性值的所述步驟包括以下步驟 為所述同義詞群中的每個同義詞確定頁面分級值; 基于這兩個同義詞的所述頁面分級值,計算在所述同義詞群的兩個同義詞之間的初始相似性值;以及 將這兩個同義詞之間的所述初始相似性值設置為在所述同義詞群的每兩個同義詞之間的所述相似性值。
3.如權利要求2所述的方法,其中兩個同義詞之間的所述初始相似性值通過下式計算Simi(AfB) = (PR(A)十 PR(B)) / (2 + jPR(A) - PR(B)]),, 其中A是第一同義詞,并且B是第二同義詞;PR(A)和PR(B)分別是所述第一同義詞和所述第二同義詞的所述頁面分級值;以及Simi (A,B)是在所述第一同義詞與所述第二同義詞之間的所述初始相似性值。
4.如權利要求2所述的方法,其中為每個同義詞確定所述頁面分級值包括以下步驟 從所述同義詞詞典中得到每個同義詞的定義; 將每個同義詞的所述頁面分級值定義為PR(W) = (l*d)-d{ PE(T1)/CCT1)+ ……+PR(Td)/C(Tn)) 其中W是被定義的所述同義詞;T1,. . . Tn是在所述同義詞群中所述同義詞W的所述定義中出現的同義詞;PR(Tl),...PR(Tn)分別是所述同義詞Tl,... Tn的所述頁面分級值;C(Tl),.. .C(Tn)分別是在所述同義詞Tl,. . . Tn的所述定義中出現的所述同義詞群中其它同義詞的數量;以及d是范圍設在O到I的阻尼因數;以及 將定義每個同義詞的所述頁面分級值的所述步驟迭代至少兩次。
5.如權利要求2所述的方法,其中將所述同義詞群中所有同義詞之中具有最高頁面分級值的所述同義詞設置為在所述同義詞群的所述第一部分中的所述同義詞。
6.如權利要求4所述的方法,其中將定義每個同義詞的所述頁面分級值的所述步驟迭代log2 (N)次,所述N是所述同義詞群中同義詞的數量。
7.如權利要求6所述的方法,其中所述阻尼因數d設為O.15。
8.如權利要求2所述的方法,其中在每個同義詞群中,所述第二部分進一步分成三個子部分同義詞部分、超類部分和子類部分;以及 計算這兩個同義詞之間的所述初始相似性值的所述步驟還包括通過考慮這兩個同義詞所屬的所述子部分,修改所述初始相似性值。
9.如權利要求8所述的方法,其中作為第一同義詞和第二同義詞的這兩個同義詞之間的所述初始相似性值通過還乘以(l-w(A)廣(l-w(B))而得到修改, 其中W(A)和《(B)分別是所述第一同義詞和所述第二同義詞的折扣因數,以及 對于屬于所述頭部的同義詞,w=0 ; 對于屬于所述同義詞部分的同義詞,w=0 ; 對于屬于所述超類部分的同義詞,w=0. 2 ;以及 對于屬于所述子類部分的同義詞,w=0. 2。
10.如權利要求1-8任一項所述的方法,還包括以下步驟 基于使用所述同義詞群組織器的用戶行為統計,計算在所述同義詞群中兩個同義詞之間的所述相似性值。
11.如權利要求10所述的方法,其中計算在所述同義詞群中兩個同義詞之間的所述相似性值包括以下步驟 基于在會話時段內恰巧使用兩個同義詞的第二同義詞時使用這兩個同義詞的第一同義詞的條件概率并基于在所述會話時段內恰巧使用所述第一同義詞時使用所述第二同義詞的條件概率,計算這兩個同義詞之間的動態(tài)相似性值;以及 將這兩個同義詞之間的所述動態(tài)相似性值設置為在每兩個同義詞之間的所述相似性值。
12.如權利要求11所述的方法,其中兩個同義詞之間的所述動態(tài)相似性值按照下式計算Simm(AtB) = I;P(AjB) + Ρ(Β|ΑΗ/α + (Ρ(Α[Β) - Ρ(Β|Α)|) 其中,Simffl(A, B)是在所述第一同義詞與所述第二同義詞之間的所述動態(tài)相似性值;P(A|B)是在所述會話時段內恰巧使用所述第二同義詞時使用所述第一同義詞的所述條件概率; P(B|A)是在所述會話時段內恰巧使用所述第一同義詞時使用所述第二同義詞的所述條件概率;以及 能夠從3秒到30分鐘的范圍中選擇所述會話時段。
13.如權利要求12所述的方法,其中所述會話時段設為30秒。
14.如權利要求1-13任一項所述的方法,還包括如下步驟基于在兩個同義詞之間的所述初始相似性值和在這兩個同義詞之間的所述動態(tài)相似性值,設置在所述同義詞群中兩個同義詞之間的所述相似性值。
15.如權利要求14所述的方法,其中兩個同義詞之間的所述相似性值按照下式計算Sim(AsB) = q* Simi(A5B) + (1-q) * Simm(AtB) Simi (A, B)是在第一同義詞與第二同義詞之間的所述初始相似性值; Simffl(A, B)是在所述第一同義詞與所述第二同義詞之間的所述動態(tài)相似性值;以及q是其值為OSqSl的調整因數,并且能夠基于使用所述同義詞群組織器的用戶行為統計的量設置所述調整因數q。
16.如權利要求15所述的方法,其中q的初始值設為1,并且q的最終值設為0,以及q隨著用戶行為統計的所述量增大而減小。
17.如權利要求1-16任一項所述的方法,包括以下步驟基于在同義詞群中第一同義詞與所有其它同義詞之間的所述相似性值,為所述同義詞群的每個同義詞計算平均相似性值; 如果所述第一同義詞的所述平均相似性值低于第一閾值,則從所述同義詞群中去除所述第一同義詞。
18.如權利要求17所述的方法,其中用于所述第一同義詞的所述平均相似性值按照下式計算Sim(A) = 1/M * Σ Sim(A, Bj), j = U 其中A表示所述第一同義詞,M是所述同義詞群中同義詞的數量,Bj是所述同義詞群中的同義詞,以及Sim(A, A)的值定義為I。
19.如權利要求17所述的方法,包括以下步驟如果所述第一同義詞是所述同義詞群的所述第一部分中的所述同義詞,并且所述第一同義詞是第二同義詞群的同義詞,則將所述同義詞群中的所有其它同義詞移到所述第二同義詞群。
20.如權利要求17所述的方法,其中所述第一閾值是O.3。
21.如權利要求1-20任一項所述的方法,包括以下步驟 針對詞計算相對于同義詞群的平均相似性值,相對于所述同義詞群的所述平均相似性值是基于在所述詞與所述同義詞群中所有同義詞之間的所述相似性值計算的;以及 如果所述平均相似性值高于第二閾值,則將所述詞添加到所述同義詞群中。
22.如權利要求21所述的方法,其中通過下式計算相對于所述同義詞群的所述平均相似性值Sim(NW, SG) - I/M * I SimCNW, Bj), j = I,”M 其中NW表示所述詞,SG表示所述同義詞群,M是所述同義詞群中同義詞的數量,以及Bj是所述同義詞群中的所述同義詞。
23.如權利要求22所述的方法,其中所述第二閾值是O.6。
24.一種同義詞群組織器,包括 至少一個同義詞群,每個同義詞群包括第一部分和第二部分,且每個同義詞群包括至少一個同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群的所有其它同義詞,其中在同義詞群包括不止一個同義詞時,所述同義詞群包括所述同義詞群中所有同義詞的每兩個同義詞之間的相似性值,所述相似性值指示所述兩個同義詞相互相似程度; 管理引擎,適用于執(zhí)行如權利要求1-23任一項所述的方法。
25.—種匹配系統,包括 至少一個同義詞群,每個同義詞群包括第一部分和第二部分,且每個同義詞群包括至少一個同義詞,所述第一部分包括是代表用于所述同義詞群的特定類別的詞的同義詞,并且所述第二部分包括所述同義詞群中所有其它同義詞,其中在同義詞群包括不止一個同義詞時,所述同義詞群包括所述同義詞群中所有同義詞的每兩個同義詞之間的相似性值,所述相似性值指示所述兩個同義詞相互相似程度;以及 與所述至少一個同義詞群的一個或多個同義詞群相關聯的至少一個實體。
26.如權利要求25所述的匹配系統,其中所述同義詞群還包括指示與所述同義詞群相關聯的所有實體的實體。
27.如權利要求25或26所述的匹配系統,還包括適用于執(zhí)行如權利要求1-23任一項所述方法的管理引擎。
28.如權利要求25-27任一項所述的匹配系統,其中所述匹配系統包括適用于添加新實體到所述匹配系統中并確定從客戶端裝置收到的第一實體是否與所述匹配系統中的所述至少一個實體匹配的匹配引擎。
29.如權利要求28所述的匹配系統,其中所述匹配引擎適用于通過以下操作添加新實體到所述匹配系統中 將所述新實體預處理成至少一個詞;以及 對于所述新實體的每個詞 搜索包含對應于所述詞的所述同義詞的同義詞群;以及 將所述新實體與所述搜索到的同義詞群相關聯。
30.如權利要求29所述的匹配系統,其中所述匹配引擎適用于通過以下操作將所述新實體預處理成至少一個詞 從所述新實體中去除不必要的詞; 識別所述新實體中的至少一個關鍵詞;以及 將所述新實體分段成對應于所述至少一個關鍵詞的至少一個詞。
31.如權利要求29所述的匹配系統,其中如果未搜索到包含對應于所述詞的所述同義詞的所述同義詞群,則所述匹配引擎適用于 將其中所述第一部分設為所述詞的新同義詞群添加到所述同義詞群組織器中;以及 將所述新實體與所述新同義詞群相關聯。
32.如權利要求28所述的匹配系統,其中所述匹配引擎適用于通過以下操作確定從所述客戶端裝置收到的所述第一實體是否與所述匹配系統中的所述至少一個實體匹配 將所述第一實體預處理成至少一個詞; 對于所述第一實體的每個詞 搜索包含對應于所述詞的所述同義詞的同義詞群;以及 搜索與所述搜索到的同義詞群相關聯的所述實體,并且創(chuàng)建所述詞的相關聯實體集合,其中每個搜索到的實體作為所述詞的所述相關聯實體集合的項目; 通過合并所述第一實體的每個詞的所述相關聯實體集合,為所述第一實體創(chuàng)建合并的實體集合,其中所述合并的實體集合的每個項目是獨特實體,并且每個項目包含用于對在每個詞的所有相關聯實體集合中出現的所述獨特實體的數量進行計數的計數器;以及如果所述合并的實體集合包含計數器的所述值大于閾值的任何實體項目,則確定從所述客戶端裝置收到的所述第一實體匹配,否則確定從所述客戶端實體收到的所述第一實體不匹配。
33.如權利要求32所述的匹配系統,其中所述閾值設為所述第一實體的關鍵詞的數量乘以匹配比率。
34.如權利要求33所述的匹配系統,其中所述匹配比率設為O.8。
35.如權利要求32所述的匹配系統,其中所述匹配引擎適用于通過以下操作將所述第一實體預處理成至少一個詞 從所述第一實體中去除不必要的詞;識別所述第一實體中的至少一個關鍵詞;以及 將所述第一實體分段成對應于所述至少一個關鍵詞的至少一個詞。
36.如權利要求32所述的匹配系統,其中所述匹配引擎適用于將所述合并的實體集合中的所述實體輸出到所述客戶端裝置。
37.如權利要求36所述的匹配系統,其中所述匹配引擎適用于在將所述合并的實體集合中的所述實體輸出到所述客戶端裝置前基于在所述第一實體與所述合并的實體集合中所述實體之間的相似性,為所述合并的實體集合中的所述實體分級;以及 所述匹配引擎適用于通過以下操作計算在所述第一實體與所述合并的實體集合中所述實體之間的所述相似性 對于所述第一實體中的每個詞 獲得包含對應于所述詞的所述同義詞并且與所述合并的實體集合中的所述實體相關聯的所述同義詞群;以及 在所述同義詞群中,獲得在對應于所述詞的所述同義詞與所述合并的實體集合中的所述實體關聯所述同義詞群所依據的所述同義詞之間的所述相似性值,作為用于所述詞的所述相似性值; 將用于所述第一實體中所有詞的所述相似性值相加并且除以所述第一實體中所述詞的數量以獲得在所述第一實體與所述合并的實體集合中所述實體之間的所述相似性。
38.如權利要求37所述的匹配系統,其中如果在對應于所述詞的所述同義詞與所述合并的實體集合中的所述實體關聯所述同義詞群所依據的所述同義詞之間的所述相似性值在不止一個同義詞群中存在,則將所有同義詞群之中的最高相似性值設為用于所述詞的所述相似性值。
39.一種用于將新實體添加到如權利要求25所述匹配系統中的方法,所述方法包括以下步驟 將所述新實體預處理成至少一個詞;以及 對于所述新實體的每個詞 搜索包含對應于所述詞的所述同義詞的同義詞群;以及 將所述新實體與所述搜索到的同義詞群相關聯。
40.如權利要求39所述的方法,其中將所述新實體預處理成至少一個詞還包括以下步驟 從所述新實體中去除不必要的詞; 識別所述新實體中的至少一個關鍵詞;以及 將所述新實體分段成對應于所述至少一個關鍵詞的至少一個詞。
41.如權利要求39所述的方法,其中如果未搜索到包含對應于所述詞的所述同義詞的同義詞群,則所述方法還包括以下步驟 將其中頭部設為所述詞的新同義詞群添加到同義詞群組織器中;以及 將所述新實體與所述新同義詞群相關聯。
42.一種用于確定從所述客戶端裝置收到的所述第一實體與如權利要求25所述的匹配系統中的所述至少一個實體是否匹配的方法,所述方法包括以下步驟 將所述第一實體預處理成至少一個詞;對于所述第一實體的每個詞 搜索包含對應于所述詞的所述同義詞的同義詞群;以及 搜索與所述搜索到的同義詞群相關聯的所述實體,并且創(chuàng)建所述詞的相關聯實體集合,其中每個搜索到的實體作為所述詞的所述相關聯實體集合的項目; 通過合并所述第一實體的每個詞的所述相關聯實體集合,為所述第一實體創(chuàng)建合并的實體集合,其中所述合并的實體集合的每個項目是獨特實體,并且每個項目包含用于對在每個詞的所有相關聯實體集合中出現的所述獨特實體的數量進行計數的計數器;以及 如果所述合并的實體集合包含計數器的所述值大于閾值的任何實體項目,則確定從所述客戶端裝置收到的所述第一實體匹配,否則確定從所述客戶端實體收到的所述第一實體不匹配。
43.如權利要求42所述的方法,其中所述閾值設為所述第一實體的關鍵詞的數量乘以匹配比率。
44.如權利要求43所述的方法,其中所述匹配比率設為O.8。
45.如權利要求44所述的方法,其中將所述第一實體預處理成至少一個詞還包括以下步驟 從所述第一實體中去除不必要的詞; 識別所述第一實體中的至少一個關鍵詞;以及 將所述第一實體分段成對應于所述至少一個關鍵詞的至少一個詞。
46.如權利要求45所述的方法,還包括如下步驟將所述合并的實體集合中的所述實體輸出到所述客戶端裝置。
47.如權利要求46所述的方法,還包括如下步驟在將所述合并的實體集合中的所述實體輸出到所述客戶端裝置前基于在所述第一實體與所述合并的實體集合中所述實體之間的相似性,為所述合并的實體集合中的所述實體分級,以及 通過以下操作計算在所述第一實體與所述合并的實體集合中所述實體之間的所述相似性 對于所述第一實體中的每個詞 獲得包含對應于所述詞的所述同義詞并且與所述合并的實體集合中的所述實體相關聯的所述同義詞群;以及 在所述同義詞群中,獲得在對應于所述詞的所述同義詞與所述合并的實體集合中的所述實體關聯所述同義詞群所依據的所述同義詞之間的所述相似性值,作為用于所述詞的所述相似性值; 將用于所述第一實體中所有詞的所述相似性值相加并且除以所述第一實體中所述詞的數量以獲得在所述第一實體與在所述合并的實體集合中所述實體之間的所述相似性。
48.如權利要求47所述的方法,其中如果在對應于所述詞的所述同義詞與所述合并的實體集合中的所述實體關聯所述同義詞群所依據的所述同義詞之間的所述相似性值在不止一個同義詞群中存在,則將所有同義詞群之中的最高相似性值設為用于所述詞的所述相似性值。
49.一種計算機程序,在應用服務器上運行時,所述計算機程序促使所述應用服務器執(zhí)行如權利要求1-23和39-48任一項所述的方法。
50.一種計算機可讀媒體,上面存儲有如權利要求49所述的計算機程序。
全文摘要
提供了一種用于管理至少一個同義詞群的方法,其中,該方法包括以下步驟在同義詞群包括不止一個同義詞時,計算在同義詞群的所有同義詞的每兩個同義詞之間指示這兩個同義詞相互相似程度的相似性值。本發(fā)明還提供同義詞群組織器、使用同義詞群組織器的匹配系統及其方法。
文檔編號G06F17/30GK102906736SQ201080065386
公開日2013年1月30日 申請日期2010年3月12日 優(yōu)先權日2010年3月12日
發(fā)明者李強, O.倫德斯特倫, 麥興隆 申請人:愛立信(中國)通信有限公司