專利名稱:一種利用計算機對詞義進(jìn)行排歧的方法、系統(tǒng)及檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體地說,涉及一種用計算機對語言文字 進(jìn)行處理時,對詞語的詞義進(jìn)行排歧的方法及詞義排歧系統(tǒng),本發(fā)明還涉及 一種檢索方法。
背景技術(shù):
在計算機檢索、語音識別、機器翻譯等技術(shù)領(lǐng)域,需要由計算機對文字 或語言進(jìn)行處理,從而達(dá)到以機器來模擬人的部分乃至全部的語言能力的目 的。經(jīng)過長時間的發(fā)展,人類的語言已經(jīng)形成了自身固有的客觀語言規(guī)律。 但是,由于自然語言中的詞匯存在大量的歧義,即同一詞語可能具有多種涵 義,因此,計算機在對語言進(jìn)行處理的過程中,需要根據(jù)某一詞匯上下文中 的詞例從該詞匯的諸多項詞義中選擇出正確的詞義,該過程稱為詞義排歧或 詞義消歧。詞義排歧作為自然語言處理領(lǐng)域十分重要的內(nèi)容,主要用作兩種 語言的機器翻譯系統(tǒng)中,也有一些應(yīng)用在信息檢索系統(tǒng)中。由于漢語中單個詞語通常具有很多的涵義,詞義排歧通常有比較大的難 度。如果不能夠很好的選擇詞語的詞義,那么,需要準(zhǔn)確理解文本內(nèi)容和準(zhǔn) 確理解單獨詞的詞義的目標(biāo)將難以實現(xiàn)。目前,對于歧義問題通常有兩種基本的處理方法第一種方法是在詞義分析過程中消除非良構(gòu)詞義表示,即一 個語句結(jié)構(gòu)可以有兩種或兩種以上的理解方法,通過分析語句的句法結(jié)構(gòu), 把一個語句變成一顆確定的語法樹,使其不會有兩種或兩種以上的理解方法, 而在這個過程中,能夠消除一些詞語的歧義,從而產(chǎn)生的正確的詞語涵義; 第二種方法是在詞義分析之前獨立進(jìn)行詞義排歧。對于獨立的方法,目前有 一些數(shù)學(xué)模型可以實現(xiàn)詞義排歧。由于不同的計算機系統(tǒng)處理文本中關(guān)注的重點是不一樣的,如機器翻譯 領(lǐng)域需要把每個詞的詞義的選擇與文章的整體語境協(xié)調(diào)起來;但某些系統(tǒng)只關(guān)心某些特定詞匯的詞義排歧,而不關(guān)心其他詞的詞義判斷是否準(zhǔn)確,例如 在信息檢索領(lǐng)域只關(guān)心檢索關(guān)鍵詞的詞義選擇是否正確。這樣,導(dǎo)致了現(xiàn)有 的詞義排歧方法在適應(yīng)不同的應(yīng)用時需要有不同的方法。中文切詞(或中文分詞)是中文信息處理的基礎(chǔ),即將連續(xù)的中文字序 列按一定的規(guī)范重新組合成詞的序列,例如,將"我的筆記本"切分成"我" "的""筆記本"三個詞匯單元。對中文切詞的算法主要有兩種方法。第 一種是使用詞典進(jìn)行切詞。使用詞典的方法必須有一個中文的詞庫, 這個詞庫中包含中文中出現(xiàn)的幾乎所有的詞。有了詞庫的情況下就可以使用最大正向匹配,或者最大逆向匹配進(jìn)行中文切詞了。最大正向匹配的算法為(1) 將整篇文章按照標(biāo)點符號切分成句子;(2) 依次處理每一個句子S,設(shè)句子中字的個數(shù)為n;(3 )設(shè)置一個詞的最大長度K,令K^min(m,n); (m為詞庫中詞的最大 長度,min(m,n)為m和n的最小值。)(4)取句子S中的前K個字作為一個待選詞,到詞典里查找是否含有 這個詞,如果詞典里含有這個詞,那么就找到了一個詞,并把S中這前K個 字去掉,這時S的長度為n-K,如果S的長度變成O,那么轉(zhuǎn)到(2),處理 下一個句子,如果S的長度大于O,則重復(fù)步驟(3);如果詞典中不含有 這個詞,把K減1,并重復(fù)步驟(4);直至處理完所有句子。另一種中文切詞方法是使用概率的方法。舉個例子,對"有意見分歧" 進(jìn)行切詞,那么,按照最大正向匹配的方法,這個句子應(yīng)該被切成"有意", "見","分歧,,。但實際上正確的切法應(yīng)該是"有","意見","分歧"。 用概率的方法就是統(tǒng)計詞在語言中出現(xiàn)的概率,當(dāng) 一個句子有多種切法的時 候,計算每一種切法每個詞出現(xiàn)的概率的乘積,取值最大的一種作為切詞結(jié) 果。命名實體(NamedEntity)是指文本中具有特定意義的專有名稱和數(shù)量短 語。命名實體是文本中比較重要的元素,命名實體對于自動理解文本內(nèi)容和 理解文本詞義都有非常重要的作用。很多命名實體名稱中的一些詞存在歧義。例如,"聯(lián)想集團"是一個公司實體,組成這個公司實體的一個詞"聯(lián)想"就存在著歧義。這很有可能導(dǎo) 致命名實體識別的不準(zhǔn)確,或者整個文章的計算機理解不準(zhǔn)確的問題。當(dāng)系 統(tǒng)中關(guān)注的詞中存在著大量歧義的情況下,不解決辨別詞的歧義問題是無法 滿足系統(tǒng)的目的和要求的。在檢索技術(shù)領(lǐng)域,有些用戶掌握不了檢索技巧,不會選擇正確的檢索關(guān) 鍵詞,因此不能檢索到準(zhǔn)確的結(jié)果。即使用戶選對了檢索關(guān)鍵詞,由于關(guān)鍵 詞可能存在歧義,而現(xiàn)有的檢索方法會忽略關(guān)鍵詞的歧義,將所有包含關(guān)鍵 詞的結(jié)果均展示給用戶,導(dǎo)致檢索結(jié)果信息量過大,用戶需要耗費大量時間 和精力從中選擇出自已需要的信息。
一種解決辦法是輸入多個關(guān)鍵詞,例如GOOGLE中允許輸入多種類型的關(guān)鍵詞,可以是檢索結(jié)果中必須包含所有的 關(guān)鍵詞,也可以是檢索結(jié)果中包含多個關(guān)鍵詞其中之一,或者檢索結(jié)果中包 含一部分關(guān)鍵詞而不能包含另一部分關(guān)鍵詞。但是,這些檢索系統(tǒng)的這些關(guān) 鍵詞都是包含或者不包含的關(guān)系。對于檢索中經(jīng)常存在的一種情形,即真正 要搜索的是具有某個確定詞義的關(guān)鍵詞,采用這種方法,將導(dǎo)致不加其他關(guān) 鍵詞時,檢索結(jié)果過大,而加上其他關(guān)鍵詞,則可能導(dǎo)致檢索結(jié)果過小。比 如,要檢索可以吃的"蘋果"的相關(guān)文章,如果只輸入"蘋果",那么會將 電腦品牌的"蘋果"和電影"蘋果,,等相關(guān)的文章都搜索出來,但如果加上 "吃"、"紅色"等關(guān)鍵詞,又會導(dǎo)致與吃的"蘋果,,相關(guān)但不具有增加的 這些關(guān)鍵詞的文章搜不出來??傊?,不能根據(jù)其實際詞義來確定一個范圍適 當(dāng)?shù)乃阉鹘Y(jié)果。另外,現(xiàn)有技術(shù)中的詞義排歧方法是針對文本中所有詞的詞義排歧,都 只關(guān)注如何進(jìn)行詞義排歧,而沒有關(guān)注如何確定哪些是所要關(guān)注的歧義詞。 由于中文中有特別多的詞,而且?guī)缀趺總€詞都存在著不同的義項(即詞義選 項),詞義的排歧系統(tǒng)不可能對所有的詞進(jìn)行排歧,這些方法不能直接應(yīng)用 于對系統(tǒng)核心關(guān)注詞的詞義排歧而有很好的效果。因此,有必要將如何確定 系統(tǒng)關(guān)注的歧義詞與詞義排歧結(jié)合起來。并且,目前現(xiàn)有的詞義排歧技術(shù)通 常比較復(fù)雜,實現(xiàn)成本高,代價大。發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是提供一種用計算機對語言文字進(jìn)行處理的方 法及系統(tǒng),該方法和系統(tǒng)實現(xiàn)簡單、處理速度快、準(zhǔn)確率高。本發(fā)明要解決 的另 一技術(shù)問題是提供一種檢索方法。為了解決上述問題,本發(fā)明提供了 一種計算機處理語言時對詞義進(jìn)行排歧的方法,包括建立包含多篇文章的文章庫,根據(jù)詞語詞義詞典對所述文章中各詞匯的 詞義進(jìn)行標(biāo)注,每一詞匯具有一個或多個詞義選項即義項;對每一詞匯,確定該詞匯的背景特征詞以及每一背景特征詞對于該詞匯 各義項的權(quán)重;對于待分析文本中需進(jìn)行排歧的歧義詞,確定該待分析文本中包含的該 歧義詞的背景特征詞,然后對該歧義詞的每個義項,分別計算出所述背景特 ;f正詞對于該義項的;f又重之和;根據(jù)各義項的權(quán)重之和選擇一個義項作為該歧義詞的詞義。進(jìn)一步地,所述待分析文本中需進(jìn)行排歧的歧義詞由以下方法選出分 析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用,利用目標(biāo)系統(tǒng)的應(yīng)用和命名實體或詞之 間的關(guān)系,找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞, 即系統(tǒng)it心關(guān)注詞。進(jìn)一步地,從所述目標(biāo)系統(tǒng)中提取出所述系統(tǒng)核心關(guān)注詞后,首先到所 述詞語詞義詞典中查找所述系統(tǒng)核心關(guān)注詞的義項,如果所述系統(tǒng)核心關(guān)注 詞的義項個數(shù)為多個,執(zhí)行后續(xù)詞義排歧步驟;如果所述系統(tǒng)核心關(guān)注詞的 義項個數(shù)為一個,則將所述系統(tǒng)核心關(guān)注詞對應(yīng)的唯一義項作為所述系統(tǒng)核 心關(guān)注詞的涵義。進(jìn)一步地,所述確定詞匯的背景特征詞的方法為在文章庫中包含所述詞匯的每條語料中所述詞匯的前后分別確定背景詞 的提取范圍,并提取中其中的背景詞;計算出每個背景詞對應(yīng)所述詞匯的每個義項的權(quán)重,所述背景詞的權(quán)重 為包含有所述詞匯的某義項的所有語料中,包含所述背景詞的語料所占的 比例;判斷所述背景詞的權(quán)重是否大于或等于一預(yù)先配置的第二閾值,如果大于或等于,提取該背景詞作為背景特征詞;如果小于,放棄該背景詞,不作 為背景特征詞。進(jìn)一步地,所述根據(jù)各義項的權(quán)重之和選擇一個義項作為該歧義詞的詞 義的方法為選出歧義詞的背景特征詞權(quán)重和最大的和第二大的兩個義項,對該兩個 義項的權(quán)重和求差值,當(dāng)所述差值的絕對值大于或等于一預(yù)先配置的第一閾 值時,將所述權(quán)重和最大的義項作為所述歧義詞的涵義。進(jìn)一步地,所述第一閾值的取值范圍是0.02-0.20;所述第二閾值的取 值范圍是0.03-0.15。本發(fā)明還提供了 一種計算機處理語言時對詞義進(jìn)行排歧的系統(tǒng),包括存儲單元,用于存儲詞語詞義詞典、文章庫和歧義詞分類才莫型,所述文 章庫中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類才莫型包含文章庫中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫中提取出每 個詞匯的背景詞;背景特征詞提取單元,用于從所述背景詞提取單元所提取出的背景詞中 選取出背景特征詞,并傳送給背景詞權(quán)重計算單元;背景特征詞提取單元,用于逐一判斷每一背景詞對于相應(yīng)的每一詞匯各 義項的權(quán)重中是否至少有一個大于或大于等亍預(yù)先配置的第二閾值,如果是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對于該詞匯各義項 的權(quán)重;如此得到文章庫中全部或部分詞匯的背景特征詞及其對于相應(yīng)詞匯 各義項的權(quán)重,生成歧義詞分類;f莫型并保存到所述存儲單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對每一個具 有多個義項的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對該歧義詞的每個義項, 計算出這些背景特征詞對于該義項的權(quán)重之和,根據(jù)各義項的權(quán)重之和選擇一個義項作為該歧義詞的詞義。進(jìn)一步地,所述詞義排歧單元包括系統(tǒng)核心關(guān)注詞選取模塊,用于分析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項查詢模塊;背景特征詞查詢模塊,用于對每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對 于該歧義詞各義項的權(quán)重,然后對該歧義詞的每個義項,計算所有背景特征 詞對于該義項的權(quán)重之和,如權(quán)重和最大的二個義項的權(quán)重和之差的絕對值 大于第一閾值,則將權(quán)重和最大的義項作為該歧義詞的詞義。。進(jìn)一步地,所述詞義排歧單元還包括義項查詢才莫塊,用于到所述詞語詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項 個數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項數(shù)為一個,將所述系統(tǒng)核心關(guān)注詞的 該唯一義項作為所述歧義詞的涵義;如果所述系統(tǒng)核心關(guān)注詞的義項數(shù)為多 個,通知背景特征詞查詢才莫塊對該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧。本發(fā)明對系統(tǒng)關(guān)注核心歧義詞的選取提供了一種可行的方法。同時,對 詞義排歧提供了背景特征詞的選取方法,以及歧義詞詞義的判定方法。本發(fā) 明的方法其優(yōu)點在于實現(xiàn)方法簡單且容易理解并且是十分有效的。通過實驗 表明,對于系統(tǒng)關(guān)注的詞義排歧,平均準(zhǔn)確率可以達(dá)到90%以上。同時,對 比其他歧義排除方法,此方法運行速度很快并且系統(tǒng)容易實現(xiàn)。本發(fā)明還提供了一種檢索方法,包括建立詞語詞義詞典和文章庫,對于文章庫中的每一個詞匯,作如下處理 選出文章庫中包含該詞匯的所有語料,分別標(biāo)注出該詞匯在各條語料中的涵 義,提取出該詞匯在各語料中的背景特征詞,并計算出該詞匯每個背景特征 詞在詞匯的每個義項中的權(quán)重,將所述背景特征詞及其權(quán)重存儲在所述數(shù)據(jù)庫中,所述背景特征詞的權(quán)重為包含有所迷歧義詞的某義項的所有語料中, 包含所述背景特征詞的語料所占的比例;接收用戶輸入的檢索語句,從所述檢索語句中提取出檢索關(guān)鍵詞,根據(jù) 所述檢索關(guān)鍵詞進(jìn)行初步檢索,將檢索到的包含有所述檢索關(guān)鍵詞的文本作 為初步檢索結(jié)果;從所述檢索語句中提取出該檢索關(guān)鍵詞的背景詞,到所述文章庫中查詢 該檢索關(guān)鍵詞詞所對應(yīng)的背景特征詞,根據(jù)查詢結(jié)杲從該檢索關(guān)鍵詞的背景 詞中選取出背景特征詞及每個背景特征詞在該檢索關(guān)鍵詞的每個義項中的權(quán) 重;計算出所述檢索關(guān)鍵詞的每個義項下所有背景特征詞的權(quán)重之和,選出 權(quán)重和最大的和第二大的兩個義項,對該兩個義項的權(quán)重和求差值,當(dāng)所述 差值的絕對值大于或等于一預(yù)先配置的第一閾值時,將所述權(quán)重和最大的義 項作為所述檢索關(guān)鍵詞的涵義;利用上述方法獲取出初步檢索結(jié)果中各檢索關(guān)鍵詞的涵義,將所述初步 檢索結(jié)果中檢索關(guān)鍵詞的涵義與所述檢索語句中檢索關(guān)鍵詞的涵義相同的文 本作為最終檢索結(jié)果展示給用戶。本發(fā)明所提供的檢索方法,無須用戶自己選擇檢索關(guān)鍵詞,用戶只需要 輸入檢索語句即可。用戶不需要掌握檢索技巧,檢索復(fù)雜度大大降低,因此 適于各種人群使用。另外,本發(fā)明的檢索方法將與檢索語句中檢索關(guān)鍵詞涵 義不同的檢索結(jié)果去除,只展示給用戶檢索關(guān)鍵詞的涵義與檢索語句中檢索 關(guān)鍵詞涵義相同的結(jié)果,大大減少了展示給用戶的信息量,方便用戶從中找 到自己需要的信息,提高了檢索效率。
圖l是本發(fā)明的用計算機進(jìn)行詞義排歧的方法的流程圖; 圖2是本發(fā)明的用計算機進(jìn)^^]義排歧的系統(tǒng)的示意圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明,以使本領(lǐng)域的技術(shù) 人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的 限定。第一實施例為了實現(xiàn)對詞義的排歧,首先,要選取文章中的系統(tǒng)核心關(guān)注詞。所述 系統(tǒng)核心關(guān)注詞是指系統(tǒng)中關(guān)注的需要進(jìn)行詞義排歧的歧義詞。如圖1所示,選取系統(tǒng)核心關(guān)注詞并進(jìn)行排歧的方法為步驟101:建立一個詞語詞義詞典,其中包含幾乎全部漢語詞匯以及這 些詞匯對應(yīng)的詞義;建立一個文章庫;步驟102:選出文章庫中包含某一詞匯的所有句子,每一個包含該詞匯 的句子稱為該詞匯的一條語料,分別標(biāo)注出該詞匯在各條語料中的詞義,一 個詞匯可以有多個詞義選項即義項,按該方式完成對文章庫中全部或部分詞 匯的詞義的標(biāo)注;在進(jìn)行標(biāo)注時,只區(qū)分系統(tǒng)需要關(guān)注的詞義。如"感冒"這個詞,可 能有多個義項,如名詞表疾病、名詞表癥狀、動詞和不正規(guī)語。如果系統(tǒng)只 希望區(qū)分一個詞"感冒"是不是疾病,那么,只需要在語料中標(biāo)注這個詞"是" 疾病,或"不是"疾病,而不需要關(guān)注其他詞義。步驟103:提取該詞匯的背景特征詞。某詞匯的背景詞是指語料中出現(xiàn) 在該詞匯周圍的詞,而背景特征詞是指語料中出現(xiàn)在該詞匯周圍,并且對進(jìn) 行詞義排歧有幫助的詞;該詞匯的背景特征詞提取方法為a) 在包含該詞匯的語料中指定背景詞的提取范圍,即該詞匯前后的位置 K,并提取出該詞匯的背景詞;b) 基于文章庫,對該詞匯的每一背景詞進(jìn)行以下處理逐一計算該背景詞對于該詞匯各義項的權(quán)重,該背景詞對于該詞匯某義 項的權(quán)重等于包含該詞匯該義項的所有語料中,包含該背景詞的語料所占的 比例;如果該背景詞對于該詞匯的至少一個義項的權(quán)重大于或大于等于預(yù)先配置的第二閾值,則將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對于該詞匯各義項的權(quán)重;c)對該詞匯的每一背景詞,按步驟b)進(jìn)行處理后,得到該詞匯的所有背 景特征詞,以及每一背景特征詞對于該詞匯各義項的權(quán)重。假設(shè)該詞匯為a,詞匯的義項有n個,每個義項分別為Si,S2,…,Sn,對 每個義項Si,它出現(xiàn)的語料的條目為numi個;設(shè)背景詞共有m個,對于每一 個背景詞w,它出現(xiàn)在該詞匯a的義項Si所在語料(即該語料包含歧義詞a, 且在人工標(biāo)注時a的義項被標(biāo)注為Si)中的個數(shù)(既包含該岐義詞a又包含這 個背景詞w的語料的個數(shù))記為wni;那么確定背景特征詞的方法為對于 每一個背景詞w,如果對其中某個義項中,Wni/numi^THRESHOLE2,那 么這個詞是背景特征詞;如果對于某個義項中,Wni/nunii〈THRESHOLE2, 那么這個詞不是背景特征詞。其中,wni/numi為某背景詞w在該詞匯a的某 個義項Si中的權(quán)重,即在包含有該義項Si的語料中,背景詞w出現(xiàn)的語料數(shù) 目占包含有該義項Si的所有語料數(shù)目的比例;THRESHOLE2為一預(yù)先配置的 第二閾值。判斷表達(dá)式可以描述為當(dāng)某背景詞w在該詞匯的某個義項Si中 的權(quán)重超過了第二閾值,則該背景詞為背景特征詞,否則該背景詞不是背景 特征詞。例如,"蘋果"這個詞存在以下三個義項, 一是"水果,,的一種,二是 一家IT公司或者是品牌的名稱,三是范冰冰拍的一部電影的名稱。人工標(biāo)注 的語料中,包含第一個義項的語料有2000條,第二個義項的語料有1000條, 包含第三個義項的語料有1500條。其中的THRESH0LE2為0.1。假設(shè)在"蘋 果"這個詞周圍有這樣二個背景詞"香蕉""草碎",其中有"香蕉"出現(xiàn) 的包含第一個義項的語料有500條,有"香蕉"出現(xiàn)的包含第二個義項的語 料有30條,有"香蕉"出現(xiàn)的包含第三個義項中語料有IOO條,那么,在包 含第一個義項的2000條語料中,有"香蕉"出現(xiàn)的語料的數(shù)目500 > 2000 * 0.1 =200,所以,"香蕉"這個詞是背景特征詞,且其對于這個義項的權(quán)重為0.4。 假設(shè)有"草沖"出現(xiàn)的包含第一個義項的語料有100條,有"草坪"出現(xiàn)的 包含第二個義項的語料有50條,包含第三個義項的語料有80條,因為100 < 2000*0.1 =200,并且50 < 1000* 0.1 = 100,并且80 < 1500*0.1 = 150,所以"草坪"這個背景詞不是"蘋果"這個歧義詞的背景特征詞。THRESH0LE2的取值0.03至0.15時,選取出的背景特征詞對判斷歧義 詞的意思最有效。重復(fù)步驟102 103,選取出文章庫中所有詞匯的背景特征詞,并計算出 每一背景特征詞對于相應(yīng)詞匯各義項的權(quán)重,生成歧義詞分類模型并保存。某背景特征詞的相應(yīng)詞匯是指該背景特征詞是從這些詞匯的背景詞中提 取出來的, 一個背景特征詞的相應(yīng)詞匯可以有一個或多個。另外,在其他實 施例中,也可以根據(jù)需要只對文章庫中所選的部分詞匯進(jìn)行背景特征詞的選 擇和權(quán)重的計算。步驟104:分析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用,利用目標(biāo)系統(tǒng)的應(yīng)用 和命名實體或詞之間的關(guān)系,從待分析文本中找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容, 并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞,即系統(tǒng)核心關(guān)注詞;所述目標(biāo)系統(tǒng)是指本發(fā)明的方法所應(yīng)用的系統(tǒng),例如醫(yī)藥檢索系統(tǒng)等。 如目標(biāo)系統(tǒng)是針對醫(yī)藥領(lǐng)域的,則需要找出醫(yī)藥領(lǐng)域的疾病類命名實體,和 一些醫(yī)藥領(lǐng)域的名詞。如何轉(zhuǎn)化是由系統(tǒng)的使用者來指定的,例如,在涉及 計算機領(lǐng)域的應(yīng)用中,從目標(biāo)系統(tǒng)中找出了 "聯(lián)想集團"這個詞,則需要將 "聯(lián)想集團"轉(zhuǎn)化成"聯(lián)想"和"集團"兩個詞,其中"聯(lián)想"這個詞就是 系統(tǒng)核心關(guān)注詞。步驟105:將每一個選出來的系統(tǒng)核心關(guān)注詞,到詞語詞義詞典中進(jìn)行 查找,如果這個詞只有一個義項,那么,將不對它進(jìn)行處理;如果這個詞有 多個詞義,將這個詞作為歧義詞放入需要處理的歧義詞的列表中;步驟106:對歧義詞列表中的歧義詞進(jìn)行排歧。假設(shè)要判定的某個歧義詞有n個義項,對該歧義詞的詞義排歧步驟為1 )從待分析文本中選取出該歧義詞周圍的背景詞,并到文章庫中去查詢 背景詞是否為背景特征詞,根據(jù)查詢結(jié)果將非背景特征詞排除;2)從文章庫中查詢出每個背景特征詞在歧義詞的每個義項中的權(quán)重 (weighti, weight2, ... , weightn),其中weighti = / nunii;3 )對該歧義詞的每個義項,計算出該義項的所有背景特征詞的權(quán)重之和。一種計算方法是將歧義詞的不同義項的評分設(shè)為(sensel5 sense2, ..., sensen), 初始值都是0 (初始值的作用是計算每個背景特征值對各個義項貢獻(xiàn)的和); 對于每個背景特征詞,將它在每個義項中的權(quán)重值加到相應(yīng)義項的評分上, 即sensei + weighti賦值給sensei;這里可以看出sensei就A^加和每個背景特 征詞對岐義詞的不同義項的貢獻(xiàn)(weightl)。4 )將該歧義詞的所有義項下背景特征詞的權(quán)重之和進(jìn)行排序,取權(quán)重和 最大和第二大的兩個義項,計算這兩個義項權(quán)重和的差值,如果該差值大于 或等于一預(yù)先配置的第一閾值THRESH0LE1,那么即判斷權(quán)重和最大的義項 為該歧義詞的詞義。這里,如果閾值取為零,即相當(dāng)于直接將權(quán)重和最大的義項作為該歧義 詞的詞義。即取出最大的兩個義項評分sense" sensej,如果sens^ - sensej 〉= THRESHOLE1 ,那么這個歧義詞在這句話中的意思就是snese;對應(yīng)的義項的 意思;如果senses sensej <THRESHOLEl,說明這兩個義項區(qū)別不明顯,則 可以通過其它現(xiàn)有詞義排歧技術(shù)輔助排歧,或選取詞義表中這兩個義項中位 置靠前(在步驟102確定需要關(guān)注的詞義時,就應(yīng)該生成了歧義詞的詞義的 表,這個表中的第一個位置應(yīng)該是默認(rèn)的詞義,既第一個位置的詞義是在判 斷不出詞義的情況下默認(rèn)選擇的詞義)的義項作為它的詞義。其中, THRESHOLE1取為0.02到0.20的取值范圍,可以達(dá)到識別準(zhǔn)確率在90%以 上的效果。例如仍以"蘋果,,這個詞為例。假設(shè)"蘋果"這個詞出現(xiàn)在"今天我 想吃蘋果和香蕉,不想吃西瓜"這個句子中,需要對其進(jìn)行詞義排歧。蘋果 有三個義項,分別為"水果"、"公司"、"電影"。通過前述的方法,判 斷出"吃"和"香蕉"是背景特征詞,假定,"吃,,在這三個義項中的權(quán)重 (weight)值經(jīng)過計算后分別為0.13, 0.03, 0.04;"香蕉,,在這三個義項中 的權(quán)重(weight)值經(jīng)過計算后分別為0.11, 0.01, 0.02。那么,初始時,三 個義項的評分都是0,將"吃"和"香蕉,,的三個義項的權(quán)重值分別加到三 個義項的評分中。"水果"義項的評分=0.13+0.11 =0.24; "乂>司"義項的評 分=0.03+0.01=0.04;"電影,,義項的評分=0.04+0.02=0.06。取出評分最大的個義項"水果"、"電影"的評分0.24和0.06,假定設(shè)置的THRESH0LE1 為0.05,由于0.24-0.06 > 0.05,所以,"蘋果"在例句中的義項應(yīng)為"水果"。通過上述方法,計算機可以完成對詞義的一個學(xué)習(xí)過程。上述實施例的一個應(yīng)用場景是比如想統(tǒng)計一個々欠食醫(yī)療的網(wǎng)站中有多 少篇文章講到水果,水果中有蘋果等其他水果,很多水果有歧義,因此,如 果想要準(zhǔn)確判斷有多少篇文章講到水果,就需要進(jìn)行詞義的排歧。對講述水 果的文章的統(tǒng)計就是一個具體的應(yīng)用系統(tǒng),水果的名稱等就是相關(guān)的命名實 體,利用詞義排歧方法,可以準(zhǔn)確的判斷出多少網(wǎng)頁中講到了水果。如圖2所示,本發(fā)明的計算機處理語言時對詞義進(jìn)行排歧的系統(tǒng)包括存儲單元,用于存儲詞語詞義詞典、文*庫和歧義詞分類才莫型,所述文 章庫中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類模型包含文章庫中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫中提取出每 個詞匯的背景詞,并傳送給背景詞權(quán)重計算單元;背景詞權(quán)重計算單元,用于基于文章庫,計算提取的每一背景詞對于相 應(yīng)詞匯各義項的權(quán)重并傳送給所述背景特征詞提^^莫塊,某背景詞對于某詞 匯某義項的權(quán)重等于包含該詞匯該義項的所有語料中,包含該背景詞的語料 所占的比例;背景特征詞提取單元,用于逐一判斷每一背景詞對于相應(yīng)的每一詞匯各 義項的權(quán)重中是否至少有一個大于或大于等于預(yù)先配置的第二閾值,如果是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對于該詞匯各義項 的權(quán)重;如此得到文章庫中全部或部分詞匯的背景特征詞及其對于相應(yīng)詞匯 各義項的權(quán)重,生成歧義詞分類模型并保存到所述存儲單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對每一個具 有多個義項的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對該歧義詞的每個義項, 計算出這些背景特征詞對于該義項的權(quán)重之和,根據(jù)各義項的權(quán)重之和選擇一個義項作為該歧義詞的詞義。詞義排歧單元又包括系統(tǒng)核心關(guān)注詞選取^f莫塊,用于分析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項查詢模塊;義項查詢^f莫塊,用于到所述詞語詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項 個數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項數(shù)為一個,將所述系統(tǒng)核心關(guān)注詞的該唯一義項作為所述歧義詞的涵義;如果所述系統(tǒng)核心關(guān)注詞的義項數(shù)為多 個,通知背景特征詞查詢才莫塊對該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧;背景特征詞查詢模塊,用于對每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的 背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對 于該歧義詞各義項的權(quán)重,然后對該歧義詞的每個義項,計算所有背景特征 詞對于該義項的權(quán)重之和,如權(quán)重和最大的二個義項的權(quán)重和之差的絕對值 大于第一閾值,則將^L重和最大的義項作為該歧義詞的詞義。詞,第二實施例將本發(fā)明的詞義排歧方法應(yīng)用于檢索技術(shù)領(lǐng)域時,其步驟如下 首先同上述步驟101~103,生成歧義詞分類模型。在檢索時,接收用戶輸入的檢索語句,從檢索語語句中提取出檢索關(guān)鍵 此處的檢索關(guān)鍵詞同上述詞義排歧方法中的系統(tǒng)核心關(guān)注詞,提取檢索關(guān)鍵詞的方法同上述詞義排歧方法中提取系統(tǒng)核心關(guān)注詞的方法相同檢索結(jié)果。判斷檢索關(guān)鍵詞是否為歧義詞,如果是,利用上述步驟106的方法對檢 索語句中的檢索關(guān)鍵詞(歧義詞)進(jìn)行排歧,獲^U企索關(guān)鍵詞在檢索語句中 的涵義。同樣,利用上述步驟106的方法對初步檢索結(jié)果中各文本中的檢索關(guān)鍵 詞進(jìn)行排歧,獲得初步檢索結(jié)果中各文本中的檢索關(guān)鍵詞的涵義。同的文本作為最終檢索結(jié)果展示給用戶。本發(fā)明的檢索方法與現(xiàn)有技術(shù)相比,無須用戶自己選擇檢索關(guān)鍵詞,用 戶只需要輸入檢索語句即可。用戶不需要掌握檢索技巧,檢索復(fù)雜度大大降 低,因此適于各種人群使用。另外,本發(fā)明的檢索方法將與檢索語句中檢索 關(guān)鍵詞涵義不同的檢索結(jié)果去除,只展示給用戶檢索關(guān)鍵詞的涵義與4僉索語 句中檢索關(guān)鍵詞涵義相同的結(jié)果,大大減少了展示給用戶的信息量,方便用 戶從中找到自己需要的信息,提高了檢索效率。以用戶想在網(wǎng)絡(luò)中檢索"吃蘋果是否可以降低血壓"這個問題為例說明 本發(fā)明。首先,如上所述,生成歧義詞分類模型。檢索時,用戶只需要輸入 "吃蘋果是否可以降低血壓?"作為檢索語句。本發(fā)明的方法在接收到上述檢索語句后,從其中提取出"蘋果"、"降 低"、"血壓,,作為檢索關(guān)鍵詞,然后從網(wǎng)絡(luò)中檢索出所有包含"蘋果,,、 "降^f氐"、"血壓"的文章作為初步檢索結(jié)果,并暫存該初步檢索結(jié)果。由于"蘋果"是一個歧義詞,在檢索語句中,"蘋果"的涵義是水果的 一種,但該初步檢索結(jié)果中可能包含其它涵義的結(jié)果,這些結(jié)果會增加用戶 的工作量。于是本發(fā)明根據(jù)"蘋果"在檢索語句中的背景特征詞"吃"的權(quán) 重,得知蘋果"在檢索語句中的含義是"一種水杲"。同樣,利用上述步驟 106所述方法,對初步檢索結(jié)果中所有檢索關(guān)鍵字"蘋果"進(jìn)行排歧,其結(jié) 果是,初步檢索結(jié)果中有一部分文章中的"蘋果"是"一種水果"的涵義, 而其它文章中的"蘋果"是"一家IT公司"、"一個品牌"或"一部電影" 的涵義。本發(fā)明將初步檢索結(jié)果中"蘋果,,的涵義是"一種水果"的文章提 取出來作為最終檢索結(jié)構(gòu)展示給用戶。由此,大大減少了展示給用戶的信息 量,讓用戶更容易的從檢索結(jié)果中找到自己想要的信息,提高了工作效率。第三實施例本實施例是另一檢索的實施方式,首先同上述步驟101-103,生成歧義 詞分類模型。在檢索時,用戶對輸入的一檢索關(guān)鍵詞,增加用于確定該檢索關(guān)鍵詞詞義的背景特征詞,即將該檢索關(guān)鍵詞作為要進(jìn)行詞義排歧的歧義詞;從輸入的背景特征詞中選擇出在歧義詞分類模型中保存的該檢索關(guān)鍵詞 的背景特征詞,對該檢索關(guān)鍵詞的每一個義項,計算選擇出的所有背景特征 詞對于該義項的權(quán)重之和,然后按上一實施例同樣的方法選擇一個義項作為 該檢索關(guān)鍵詞的詞義;利用現(xiàn)有的檢索方法檢索出包含有該檢索關(guān)鍵詞的所有文本,作為初步 檢索結(jié)果;按第一實施例的方法確定初步檢索結(jié)果各文本中的檢索關(guān)鍵詞的詞義, 將詞義與已確定的該檢索關(guān)鍵詞詞義相同的文本作為最終的檢索結(jié)杲輸出。在人類長期的智力活動中產(chǎn)生了語言,又經(jīng)過了數(shù)萬年的演進(jìn),人類的語 言已經(jīng)形成了客觀固定的自然規(guī)律,例如, 一個歧義詞的周圍會伴隨有其它 相關(guān)的詞(即前述背景特征詞)出現(xiàn),這些相關(guān)的詞與歧義詞的某個義項相 關(guān)。有些相關(guān)的詞只與歧義詞的某個義項相關(guān),有些相關(guān)的詞與歧義詞的多 個義項相關(guān),但在各義項中出現(xiàn)的機率是不同的。本發(fā)明即是利用了這些規(guī) 律來對歧義詞進(jìn)行排歧的。本發(fā)明對系統(tǒng)關(guān)注核心歧義詞的選取提供了一種可行的方法。同時,對 詞義排歧提供了背景特征詞的選取方法,以及歧義詞詞義的判定方法。本發(fā) 明的方法其優(yōu)點在于實現(xiàn)方法筒單且容易理解,并且是十分有效的。從文章 庫中重新選取包含系統(tǒng)關(guān)注歧義詞的句子,通過人工的方式標(biāo)定這些歧義詞 的義項,與通過本系統(tǒng)自動的標(biāo)定這些歧義詞的義項進(jìn)行比較,實驗表明, 對于系統(tǒng)關(guān)注的詞義排歧,本發(fā)明的平均準(zhǔn)確率可以達(dá)到90%以上。同時, 對比其他歧義排除方法,此方法運行速度很快并且系統(tǒng)容易實現(xiàn)。以上所述實施例僅是為充分說明本發(fā)明而所舉的較佳的實施例,本發(fā)明 的保護(hù)范圍不限于此。本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明基礎(chǔ)上所作的等同替 代或變換,均在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍以權(quán)利要求書為 準(zhǔn)。
權(quán)利要求
1、一種計算機處理語言時對詞義進(jìn)行排歧的方法,包括建立包含多篇文章的文章庫,根據(jù)詞語詞義詞典對所述文章中各詞匯的詞義進(jìn)行標(biāo)注,每一詞匯具有一個或多個詞義選項即義項;對每一詞匯,確定該詞匯的背景特征詞以及每一背景特征詞對于該詞匯各義項的權(quán)重;對于待分析文本中需進(jìn)行排歧的歧義詞,確定該待分析文本中包含的該歧義詞的背景特征詞,然后對該歧義詞的每個義項,分別計算出所述背景特征詞對于該義項的權(quán)重之和;根據(jù)各義項的權(quán)重之和選擇一個義項作為該歧義詞的詞義。
2、 如權(quán)利要求1所述的方法,其特征在于,所述待分析文本中需進(jìn)行 排歧的歧義詞由以下方法選出分析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用,利用 目標(biāo)系統(tǒng)的應(yīng)用和命名實體或詞之間的關(guān)系,找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容, 并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞,即系統(tǒng)核心關(guān)注詞。
3、 如權(quán)利要求2所述的方法,其特征在于,從所述目標(biāo)系統(tǒng)中提取出 所述系統(tǒng)核心關(guān)注詞后,首先到所述詞語詞義詞典中查找所述系統(tǒng)核心關(guān)注 詞的義項,如果所迷系統(tǒng)核心關(guān)注詞的義項個數(shù)為多個,執(zhí)行后續(xù)詞義排歧 步驟;如果所述系統(tǒng)核心關(guān)注詞的義項個數(shù)為一個,則將所述系統(tǒng)核心關(guān)注 詞對應(yīng)的唯一義項作為所述系統(tǒng)核心關(guān)注詞的涵義。
4、 如權(quán)利要求1所述的方法,其特征在于,所述確定詞匯的背景特征 詞的方法為在文章庫中包含所述詞匯的每條語料中所述詞匯的前后分別確定背景詞 的提取范圍,并提取中其中的背景詞;計算出每個背景詞對應(yīng)所述詞匯的每個義項的權(quán)重,所述背景詞的權(quán)重 為包含有所述詞匯的某義項的所有語料中,包含所述背景詞的語料所占的 比例;判斷所迷背景詞的權(quán)重是否大于或等于一預(yù)先配置的第二閾值,如果大于或等于,提取該背景詞作為背景特征詞;如果小于,放棄該背景詞,不作 為背景特征詞。
5、 如權(quán)利要求4所述的方法,其特征在于,所迷根據(jù)各義項的權(quán)重之 和選擇一個義項作為該歧義詞的詞義的方法為選出歧義詞的背景特征詞權(quán)重和最大的和第二大的兩個義項,對該兩個 義項的權(quán)重和求差值,當(dāng)所述差值的絕對值大于或等于一預(yù)先配置的第一閾 值時,將所述權(quán)重和最大的義項作為所述歧義詞的涵義。
6、 如權(quán)利要求5所述的方法,其特征在于,所述第一閾值的取值范圍是 0.02 ~ 0.20;所述第二閾值的取值范圍是0.03 ~ 0.15。
7、 一種計算機處理語言時對詞義進(jìn)行排歧的系統(tǒng),其特征在于,包括存儲單元,用于存儲詞語詞義詞典、文章庫和歧義詞分類才莫型,所述文 章庫中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類模型包含文章 庫中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫中提取出每 個詞匯的背景詞;背景特征詞提取單元,用于從所述背景詞提取單元所提取出的背景詞中 選取出背景特征詞,并傳送給背景詞權(quán)重計算單元;背景特征詞提取單元,用于逐一判斷每一背景詞對于相應(yīng)的每一詞匯各 義項的權(quán)重中是否至少有一個大于或大于等于預(yù)先配置的第二閾值,如杲是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對于該詞匯各義項 的權(quán)重;如此得到文章庫中全部或部分詞匯的背景特征詞及其對于相應(yīng)詞匯 各義項的權(quán)重,生成歧義詞分類才莫型并保存到所述存儲單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對每一個具 有多個義項的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對該歧義詞的每個義項,計算出這些背景特征詞對于該義項的權(quán)重之和,根據(jù)各義項的權(quán)重之和選擇 一個義項作為該歧義詞的詞義。
8、 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述詞義排歧單元包括系統(tǒng)核心關(guān)注詞選取模塊,用于分析任務(wù)需求,針對目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項查 詢模塊;背景特征詞查詢模塊,用于對每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的 背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對 于該歧義詞各義項的權(quán)重,然后對該歧義詞的每個義項,計算所有背景特征 詞對于該義項的權(quán)重之和,如權(quán)重和最大的二個義項的權(quán)重和之差的絕對值 大于第一閾值,則將權(quán)重和最大的義項作為該歧義詞的詞義。
9、 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述詞義排歧單元還包括義項查詢4莫塊,用于到所述詞語詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項 個數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項數(shù)為一個,將所述系統(tǒng)核心關(guān)注詞的 該唯一義項作為所述歧義詞的涵義;如果所迷系統(tǒng)核心關(guān)注詞的義項數(shù)為多 個,通知背景特征詞查詢模塊對該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧。
10、 一種檢索方法,其特征在于,包括建立詞語詞義詞典和文章庫,對于文章庫中的每一個詞匯,作如下處理 選出文章庫中包含該詞匯的所有語料,分別標(biāo)注出該詞匯在各條語料中的涵義,提取出該詞匯在各語料中的背景特征詞,并計算出該詞匯每個背景特征 詞在詞匯的每個義項中的權(quán)重,將所述背景特征詞及其權(quán)重存儲在所述數(shù)據(jù) 庫中,所述背景特征詞的權(quán)重為包^^有所述歧義詞的某義項的所有語料中, 包含所述背景特征詞的語料所占的比例;接收用戶輸入的檢索語句,從所述檢索語句中提取出檢索關(guān)鍵詞,根據(jù)所述檢索關(guān)鍵詞進(jìn)行初步檢索,將檢索到的包含有所迷檢索關(guān)鍵詞的文本作為初步檢索結(jié)果;從所述檢索語句中提取出該檢索關(guān)鍵詞的背景詞,到所述文章庫中查詢 該檢索關(guān)鍵詞詞所對應(yīng)的背景特征詞,根據(jù)查詢結(jié)果從該檢索關(guān)鍵詞的背景 詞中選取出背景特征詞及每個背景特征詞在該檢索關(guān)鍵詞的每個義項中的權(quán) 重;計算出所述檢索關(guān)鍵詞的每個義項下所有背景特征詞的權(quán)重之和,選出 權(quán)重和最大的和第二大的兩個義項,對該兩個義項的權(quán)重和求差值,當(dāng)所述 差值的絕對值大于或等于一預(yù)先配置的第一閾值時,將所述權(quán)重和最大的義 項作為所述檢索關(guān)鍵詞的涵義;利用上述方法獲取出初步檢索結(jié)果中各檢索關(guān)鍵詞的涵義,將所述初步 檢索結(jié)果中檢索關(guān)鍵詞的涵義與所述檢索語句中檢索關(guān)鍵詞的涵義相同的文 本作為最終檢索結(jié)果展示給用戶。
全文摘要
本發(fā)明公開了一種利用計算機對詞義進(jìn)行排歧的方法、系統(tǒng)及檢索方法。本發(fā)明利用歧義詞的背景特征詞對歧義詞每個義項的貢獻(xiàn)度來確定歧義詞的涵義,計算機可以自己對排歧進(jìn)行學(xué)習(xí)。本發(fā)明排歧的實現(xiàn)方法簡單且容易理解并且是十分有效的。通過實驗表明,對于系統(tǒng)關(guān)注的詞義排歧,平均準(zhǔn)確率可以達(dá)到90%以上。同時,對比其他歧義排除方法,此方法運行速度很快并且系統(tǒng)容易實現(xiàn)。本發(fā)明的檢索方法可以只展示給用戶與用戶輸入關(guān)鍵詞涵義相同的檢索結(jié)果,大大提高了檢索效率。
文檔編號G06F17/27GK101334768SQ20081011790
公開日2008年12月31日 申請日期2008年8月5日 優(yōu)先權(quán)日2008年8月5日
發(fā)明者飛 劉, 吳明輝, 潘小雙, 遲松濤 申請人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司