專利名稱:機構名稱檢索方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種檢索方法,特別是涉及一種機構名稱檢索方法及系統(tǒng)。背景技術:
海量機構名稱快速查詢技術是在語音服務中話務員賴以提升工作質量、提高工作 效率的重要工具。目前該類工具廣泛應用于電信114查號臺和移動12580信息服務平臺。 在號碼百事通后臺龐大業(yè)務數(shù)據(jù)的基礎上,話務員必須在最短的時間內為用戶提供最準確的信息,但沒有一個話務員能掌握 浩瀚無邊的業(yè)務數(shù)據(jù)。因此,機構名稱快速查詢系統(tǒng)是話務員向用戶提供服務的必不可少 工具。目前的查詢系統(tǒng)大多基于拼音編碼規(guī)范進行擴展,操作員按照編碼規(guī)范的要求輸入 拼音字母,系統(tǒng)以操作員的輸入為查詢依據(jù)從數(shù)據(jù)庫中匹配相關信息。目前的信息查詢系 統(tǒng)存在如下問題(1)編碼死板,容錯性差。由于話務員無法掌握所有信息,因此他們無法判別查詢 客戶說出的機構名稱是否錯誤或不完整。目前系統(tǒng)不能針對話務員輸入的“錯誤”查詢指 令提供模糊處理,最終造成“查無此人”的服務結果。實際上,查詢客戶非常容易在機構名 稱正確性和完整性上出現(xiàn)小小差錯,而這些小差錯會嚴重降低話務員的服務質量。(2)不具備學習和適應能力。多數(shù)查詢系統(tǒng)需要事先對海量數(shù)據(jù)進行人工編碼,工 作量巨大。同時,在業(yè)務數(shù)據(jù)發(fā)生變化時,系統(tǒng)無法自動進行必要的編碼適應,給系統(tǒng)維護 帶來巨大困難。
發(fā)明內容有鑒于此,有必要針對上述問題,提供一種容錯能力強、具有自動學習能力的機構 名稱檢索方法。一種機構名稱檢索方法,包括如下步驟Sll 將業(yè)務數(shù)據(jù)中所有機構名稱自動切分為地名R、標識I、類型T和后綴S四部 分;S12 將業(yè)務數(shù)據(jù)中所有機構名稱轉換為縮寫字母;S13 建立對所有標識I所對應字母縮寫的全文索引;S14 建立標識I字母語言模型;S15 建立地名詞典、類型同義詞詞典和后綴同義詞詞典。S16 建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I全文檢索, 得出候選檢索結果和檢索分數(shù);S17 檢索地名R、類型T和后綴S,縮小候選檢索結果范圍;S18 對候選檢索結果進行排序并輸出。優(yōu)選的,所述步驟Sll中,地名R(regi0n)是指出現(xiàn)在機構名稱中的地理名稱,標 識I (identifier)是指標識機構名稱的核心詞匯,類型T (type)指區(qū)分機構類型中詞匯,后綴S(SUfTix)指出現(xiàn)在機構名稱匯總的后綴詞匯。優(yōu)選的,所述步驟S11,切分時,詞典優(yōu)先識別地名R、類型T和后綴S從而確定標 識I邊界,準確獲得標示I。優(yōu)選的,所述步驟S12中,先將中文機構名稱的漢字轉換為拼音,再提取漢語拼音 首字母或英文單詞首字母以形成機構名稱的縮寫字母。優(yōu)選的,所述步驟S12將漢字轉換為拼音時采取上下文拼音相關算法消除多音字 的歧義問題。優(yōu)選的,所述步驟S13采用倒排索引算法建立全文索引。優(yōu)選的,在建立全文索引時以所有標識I所對應字母縮寫為元素。優(yōu)選的,所述步驟S14中,針對所有標識I所對應字母縮寫建立標識I字母語言模型。優(yōu)選的,在建立標識I字母語言模型時以字母為元素,并采用了最大似然估計 (Maximum Likelihood Estimation)方法。優(yōu)選的,在建立標示I字母語言模型時采取二元字母語言模型,降低計算負責度。優(yōu)選的,所述步驟S15在建立地名詞典、類型同義詞詞典和后綴同義詞詞典時采 用步驟Sll所產生的切分結果。優(yōu)選的,所述步驟S16中,從輸入字母串中識別標識I,采用了如下規(guī)則所有機構名稱全稱都包含地點(R)、機構名稱標識詞(I)、機構類型(T)和名稱后 綴⑶;即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母串靠 前的位置;機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛 倒;在任何狀態(tài)下的輸入字母串應包含機構名稱標識I或地名R。優(yōu)選的,所述步驟S17中,以字典匹配的方法識別輸入字母中可能存在的地名R、 類型T和后綴S。優(yōu)選的,在進行字典匹配時采用了步驟S15產生的地名詞典、類型同義詞詞典和 后綴同義詞詞典。優(yōu)選的,在步驟S18中,以全文檢索分數(shù)結合步驟S14產生的標識I字母語言模型 對所有候選檢索結果進行排序。優(yōu)選的,在對候選檢索結果排序時采用了以下計算公式 其中I為輸入字母串,L為候選檢索結果w對應的字母串,SIR(L,I)為L的全文 檢索分數(shù),SLM (L,I)為L的語言模型分數(shù),巧和問分別為全文檢索分數(shù)和語言模型分數(shù)的權 重;全文檢索分數(shù)SIR(L,I)的計算公式如下
其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用于計算輸入字母串I與檢索結果對應字母串L的編輯距離;語言模型分數(shù)SLM (L,I)的計算公式如下
Slm (L, I) = ?v(L 11) 二 Pr(L) χ Pr(/ 丨 L) 其中,L=(Li)i = Ojl,...,^一種機構名稱檢索系統(tǒng),包括離線學習模塊、全文索引數(shù)據(jù)庫、語言模型、詞典、 實時檢索模塊;所述離線學習模塊,用于自動從海量業(yè)務數(shù)據(jù)中的機構名稱中產生全文索引數(shù)據(jù) 庫、語言模型和詞典;所述全文索引數(shù)據(jù)庫,用于存放機構名稱中標識I部分的字母全文索引;所述語言模型,用于管理機構名稱中標識I部分的字母分布概率;所述詞典,用于存放業(yè)務數(shù)據(jù)中機構名稱所涉及的地名、機構類型和名稱后綴;所述實時檢索模塊,用于接收用戶輸入的字母串切分出各部分得出標示I,全文索 弓丨,產生包含標識I的多種切分方式的候選結果,并產生檢索分數(shù),得出查詢詞典將候選檢 索結果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型對候選檢索結果進行排序,最后輸 出檢索結果。上述機構名稱檢索方法及系統(tǒng)自動對機構名稱進行自動處理,構建全文索引和語 言模型,在系統(tǒng)業(yè)務數(shù)據(jù)發(fā)生變化時,具有自動學習能力。將輸入的字母串自動切分出標識 I進行檢索,得出多種候選檢索結果,并根據(jù)檢索分數(shù)和語言模型對候選檢索結果進行排 序,實現(xiàn)了對用戶輸入最大限度地容錯,從而準確、快速地以字母檢索中西文機構名稱,在 不損失準確率的前提下縮短信息搜索時間,極大的提高檢索的工作效率,提升檢索質量。
圖1是機構名稱檢索方法流程示意圖。圖2是機構名稱檢索系統(tǒng)示意圖。
具體實施方式下面結合附圖和實施例,對本發(fā)明的具體實施方式
作進一步詳細描述。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。圖1是機構名稱檢索方法流程示意圖。該機構名稱檢索方法包括Sll 將業(yè)務數(shù)據(jù)中所有機構名稱自動切分為地名R、標識I、類型T和后綴S四部 分。地名R(regi0n)是指出現(xiàn)在機構名稱中的地理名稱;標識I (identifier)是指標 識機構名稱的核心詞匯;類型T(type)指區(qū)分機構類型中詞匯;后綴S(suffix)指出現(xiàn)在機構名稱匯總的后綴詞匯。以“深圳市華為技術有限公司”為例,“深圳市”是地名,“華為” 為標識,“技術”為類型,“有限公司”為后綴。機構名稱切分即實現(xiàn)將“深圳市華為技術有限 公司”切分為“深圳市(R)華為⑴技術⑴有限公司(S)”。本發(fā)明優(yōu)選實施例的所有步 驟中,針對中西文機構名稱,以漢語拼音首字母替代中文機構名稱中的漢字,以西文單詞首 字母處理西文機構名稱中的西文單詞。由于現(xiàn)有的地名、類型和后綴均可枚舉,切分中,詞典優(yōu)先識別機構名稱中的地名 R、類型T和后綴S,從而確定標識I邊界,最終準確獲得標識I。S12 將業(yè)務數(shù)據(jù)中所有機構名稱轉換為縮寫字母機構名稱中的漢字轉換為漢語拼音,雙字節(jié)阿拉伯數(shù)字和標點符號也被轉換為對 應的單字節(jié)字符,漢語拼音轉化時采取上下文拼音相關算法消除多音字的歧義問題,完成 上述轉換后,獲得由漢語拼音首字母和西文單詞首字母以及數(shù)字組成的機構名稱縮寫,所 有機構名稱由西文字母(大寫)、數(shù)字和標點符號組成。S13 建立對所有標識I所對應的字母縮寫的全文索引。采用倒排索引算法,對機構名稱的標識I所對應的字母縮寫建立全文索引。S14 建立標示I字母語言模型以字母為元素,采用最大似然估計(MLE,Maximum Likelihood Estimation)方法, 建立標識I字母語言模型,為降低計算負責度,采取二元字母語言模型。以現(xiàn)有機構名稱縮 寫為依據(jù),以MLE算法計算所有觀察概率值方法如下(1)枚舉26個英文字母、10個數(shù)字和 16個主要標點符號;(2)枚舉所有字符的兩兩有序組合(包含重復)。(3)以如下公式(MLE 算法)計算二元字母概率 其中,Count (li+1, Ii)代表二元字母li+1,Ii在機構名稱集合中出現(xiàn)的次數(shù), Count (bigram)代表所有可能二元字母的總數(shù)。S15 建立地名詞典、類型同義詞詞典和后綴同義詞詞典根據(jù)步驟Sll產生的切分結果建立地名詞典、類型同義詞詞典和后綴同義詞詞 典。上述詞典均采取漢語拼音首字母排序,以便快速查詢。S16:建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I,全文檢 索,得出候選檢索結果和檢索分數(shù)建立用戶可以操作的檢索界面,允許用戶輸入字母串,接收字母串,根據(jù)用戶輸入 的字母串,采用步驟S11,切分各部分得出標示I ;采取步驟S13,對切分出的標識I所對應 的縮寫字母進行全文索引,產生包含標識I的多種切分方式的候選檢索結果,并產生檢索 分數(shù)。從輸入字母串中識別標識I,采用了如下規(guī)則(1)所有機構名稱全稱都包含地點(R)、機構名稱標識詞⑴、機構類型⑴和名稱
后綴(S) O(2)即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母 串靠前的位置。(3)機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛倒。(4)在任何狀態(tài)下的輸入字母串應包含機構名稱標識I或地名R?;谏鲜鲆?guī)則,本發(fā)明可優(yōu)選地以標識I或地名匹配輸入字母串,從而產生N個候 選檢索結果,并自然產生了候選檢索結果所對應的輸入字母串切分方法。結合該字母串切 分方法和標識I,輸出全文檢索分數(shù)的方法如下 其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用于計算輸入字母串I與檢索結果對應字母串L的編輯距離。S17 檢索字母串中的地名R、類型T和后綴S基于步驟S15產生的地名詞典、類型同義詞詞典和后綴同義詞詞典,以字典匹配 的方法識別輸入字母串中可能存在的地名R、類型T和后綴S,從而將候選檢索結果縮小到 更小的范圍。S18 對候選結果進行排序并輸出以全文檢索分數(shù)結合步驟S14建立的標識I字母語言模型對所有候選檢索結果進
行排序,采用了以下計算公式 其中I為輸入字母串,L為候選檢索結果w對應的字母串,Sik (L,I)為L的全文檢 索分數(shù),SLff (L, I)為L的語言模型分數(shù),巧和巧分別為全文檢索分數(shù)和語言模型分數(shù)的權重。語言模型分數(shù)Sui (L,I)的計算公式如下 其中,L= {^^...^是字母串L中的字母。得出排序結果然后輸出。圖2是機構名稱檢索系統(tǒng)示意圖。機構名稱檢索系統(tǒng)包括離線學習模塊110,全 文索引數(shù)據(jù)庫120,語言模型30,詞典140,實時檢索模塊150。離線學習模塊110,用于自動從海量業(yè)務數(shù)據(jù)中的機構名稱中產生全文索引數(shù)據(jù) 庫120、語言模型130和詞典140 ;產生全文索引數(shù)據(jù)庫120、語言模型130和詞典140的方 法已經在步驟Sll至S15中詳細描述,不再贅述。全文索引數(shù)據(jù)庫120,用于存放機構名稱中標識I部分的字母全文索引。語言模型130,用于管理機構名稱中標識I部分的字母分布概率。詞典140 (地名,類型,后綴),用于存放業(yè)務數(shù)據(jù)中機構名稱所涉及的地名R、機構 類型T和名稱后綴S。實時檢索模塊150,用于接收用戶輸入的字母串用于接收用戶輸入的字母串切分 出各部分得出標示I,全文索引,產生包含標識I的多種切分方式的候選結果,并產生檢索 分數(shù),得出查詢詞典140將候選檢索結果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型130對候選檢索結果進行排序,最后輸出檢索結果。 上述機構名稱檢索方法及系統(tǒng)在系統(tǒng)業(yè)務數(shù)據(jù)發(fā)生變化時,可自動對機構名稱進 行自動處理,構建全文索引、語言模型和詞典,具有自動學習能力。將輸入的字母串自動切 分出標識I進行檢索,得出多種候選檢索結果,并根據(jù)檢索分數(shù)和語言模型對候選檢索結 果進行排序,同時可以根據(jù)服務現(xiàn)場實際情況靈活調整地名和標識的輸入先后順序,對輸 入的錯誤查詢指令提供模糊處理,最大限度地排除話務服務中不應出現(xiàn)的“查無此人”情 況,實現(xiàn)了對用戶輸入的最大限度地容錯,從而準確、快速地以字母檢索中西文機構名稱, 在不損失準確率的前提下縮短信息搜索時間,極大的提高檢索的工作效率,提升檢索質量。
權利要求
一種機構名稱檢索方法,包括如下步驟S11將業(yè)務數(shù)據(jù)中所有機構名稱自動切分為地名R、標識I、類型T和后綴S四部分;S12將業(yè)務數(shù)據(jù)中所有機構名稱轉換為縮寫字母;S13建立對所有標識I所對應字母縮寫的全文索引;S14建立標識I字母語言模型;S15建立地名詞典、類型同義詞詞典和后綴同義詞詞典;S16建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I全文檢索,得出候選檢索結果和檢索分數(shù);S17檢索地名R、類型T和后綴S,縮小候選檢索結果范圍;S18對候選檢索結果進行排序并輸出。
2.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于,所述步驟Sll中,地名R是 指出現(xiàn)在機構名稱中的地理名稱,標識I是指標識機構名稱的核心詞匯,類型T指區(qū)分機構 類型中詞匯,后綴S指出現(xiàn)在機構名稱匯總的后綴詞匯。
3.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S11,切分時,詞典 優(yōu)先識別地名R、類型T和后綴S從而確定標識I邊界,準確獲得標示I。
4.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S12中,先將中文 機構名稱的漢字轉換為拼音,再提取漢語拼音首字母或英文單詞首字母以形成機構名稱的 縮寫字母。
5.根據(jù)權利要求4所述的機構名稱檢索方法,其特征在于所述步驟S12將漢字轉換 為拼音時采取上下文拼音相關算法消除多音字的歧義問題。
6.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S13采用倒排索 引算法建立全文索引。
7.根據(jù)權利要求6所述的機構名稱檢索方法,其特征在于在建立全文索引時以所有 標識I所對應字母縮寫為元素。
8.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S14中,針對所有 標識I所對應字母縮寫建立標識I字母語言模型。
9.根據(jù)權利要求8所述的機構名稱檢索方法,其特征在于在建立標識I字母語言模 型時以字母為元素,并采用了最大似然估計方法。
10.根據(jù)權利要求9所述的機構名稱檢索方法,其特征在于在建立標示I字母語言模 型時采取二元字母語言模型,降低計算負責度。
11.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S15在建立地名 詞典、類型同義詞詞典和后綴同義詞詞典時采用步驟Sll所產生的切分結果。
12.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S16中,從輸入 字母串中識別標識I,采用了如下規(guī)則所有機構名稱全稱都包含地點R、機構名稱標識詞I、機構類型T和名稱后綴S ;即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母串靠前的 位置;機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛倒;在任何狀態(tài)下的輸入字母串應包含機構名稱標識I或地名R。
13.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于所述步驟S17中,以字典 匹配的方法識別輸入字母中可能存在的地名R、類型T和后綴S。
14.根據(jù)權利要求13所述的機構名稱檢索方法,其特征在于在進行字典匹配時采用 了步驟S15產生的地名詞典、類型同義詞詞典和后綴同義詞詞典。
15.根據(jù)權利要求1所述的機構名稱檢索方法,其特征在于在步驟S18中,以全文檢 索分數(shù)結合步驟S14產生的標識I字母語言模型對所有候選檢索結果進行排序。
16.根據(jù)權利要求15所述的機構名稱檢索方法,其特征在于在對候選檢索結果排序 時采用了以下計算公式CT1 X Sm (L,I) + m2x Slm {L, I)其中I為輸入字母串,L為候選檢索結果W對應的字母串,SIR(L,I)為L的全文檢索分 數(shù),SLM(L,I)為L的語言模型分數(shù),巧和巧.分別為全文檢索分數(shù)和語言模型分數(shù)的權重;全文檢索分數(shù)SIR(L,I)的計算公式如下 LenjCMN (I, L)) Len(I)+ED{I,L)其中,CMN(χ, y)返回兩字母串的共同字母串,LenC )返回字母串的長度,ED(I, L)用 于計算輸入字母串I與檢索結果對應字母串L的編輯距離;語言模型分數(shù)SLM (L,I)的計算公式如下Slm (L, I) = Pr(Z 11) = Pr(Z) χ Pr(/ | L)二 Π" Pr仏+丨 |Z.)x-!-丄丄‘=0、’+'丨l + ED(I,L)其中,L = {Lj i =(!,!,...,『
17.一種機構名稱檢索系統(tǒng),包括離線學習模塊、全文索引數(shù)據(jù)庫、語言模型、詞典、 實時檢索模塊;所述離線學習模塊,用于自動從海量業(yè)務數(shù)據(jù)中的機構名稱中產生全文索引數(shù)據(jù)庫、 語言模型和詞典;所述全文索引數(shù)據(jù)庫,用于存放機構名稱中標識I部分的字母全文索引;所述語言模型,用于管理機構名稱中標識I部分的字母分布概率;所述詞典,用于存放業(yè)務數(shù)據(jù)中機構名稱所涉及的地名、機構類型和名稱后綴;所述實時檢索模塊,用于接收用戶輸入的字母串切分出各部分得出標示I,全文索引, 產生包含標識I的多種切分方式的候選結果,并產生檢索分數(shù),得出查詢詞典將候選檢索 結果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型對候選檢索結果進行排序,最后輸出 檢索結果。
全文摘要
一種機構名稱檢索方法和系統(tǒng),將所有機構名稱自動切分為地名R、標識I、類型T和后綴S四部分,將所有機構名稱轉換為縮寫字母,建立對所有標識I所對應字母縮寫的全文索引以及語言模型,建立地名詞典、類型同義詞詞典和后綴同義詞詞典,接受輸入字母串并切分出標識I全文檢索,檢索地名R、類型T和后綴S,得出候選檢索結果進行排序并輸出。本發(fā)明可以準確、快速地以字母檢索中西文機構名稱,實現(xiàn)對用戶輸入最大限度地容錯,在不損失準確率的前提下縮短信息搜索時間,同時具有自動學習功能。
文檔編號H04M3/51GK101930435SQ20091011037
公開日2010年12月29日 申請日期2009年10月27日 優(yōu)先權日2009年10月27日
發(fā)明者劉偉, 劉軼, 夏云慶, 程剛 申請人:深圳市北科瑞聲科技有限公司;深港產學研基地產業(yè)發(fā)展中心