專利名稱:基于詞法分析的客戶名稱計算機(jī)檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及客戶資料計算機(jī)管理領(lǐng)域,尤其涉及客戶名稱的計算機(jī)檢索。
背景技術(shù):
眾所周知,目前全球中小企業(yè)的競爭環(huán)境激烈,生存壓力大,企業(yè)間競爭直接體現(xiàn) 為對“客戶資源”的爭奪,哪個企業(yè)擁有了大量客戶資源,它就擁有了生存、發(fā)展的機(jī)會。因 此,客戶資料是每個企業(yè)的核心,客戶管理失控會導(dǎo)致客戶反感、客戶服務(wù)質(zhì)量低下、客戶 貢獻(xiàn)度評估不準(zhǔn)確、客戶結(jié)算混亂、財務(wù)人員工作量巨大等諸多問題。目前國內(nèi)大部分中小企業(yè)的客戶資料系管理基本上處于混亂無序的狀態(tài),各部門 客戶資料混亂、無法統(tǒng)一管理;客戶資料各自為政、銷售部門的收款到賬時間與財務(wù)部門不 一致。尤其是客戶資料重復(fù),多個業(yè)務(wù)員接觸同一客戶,引發(fā)業(yè)務(wù)員紛爭,導(dǎo)致客戶不滿等等。中國科學(xué)院計算技術(shù)研究所提出了一種基于層疊隱馬模型的漢語詞法分析方法。 在分詞方面,采取的是基于類的隱馬模型,在這層隱馬模型中,未登錄詞和詞典中收錄的普 通詞一樣處理。未登錄詞識別引入了角色HMM =Viterbi算法標(biāo)注出全局最優(yōu)的角色序列, 然后在角色序列的基礎(chǔ)上,識別出未登錄詞,并計算出真實的可信度。在切分排歧方面,提 出了一種基于N-最短路徑的策略,即在早期階段召回N個最佳結(jié)果作為候選集,目的是 覆蓋盡可能多的歧義字段,最終的結(jié)果會在未登錄詞識別和詞性標(biāo)注之后,從N個最有潛 力的候選結(jié)果中選優(yōu)得到。不同層面的實驗表明,層疊隱馬模型的各個層面對漢語詞法分 析都發(fā)揮了積極的作用。中國科學(xué)院計算技術(shù)研究所實現(xiàn)了基于層疊隱馬模型的漢語詞 法分析系統(tǒng)ICTCLAS,該系統(tǒng)在2002年的973專家組評測中獲得第一名,在2003年漢語 特別興趣石if究組(the ACL Special Interest Group on ChineseLanguage Processing, SIGHAN)組織的第一屆國際漢語分詞大賽中綜合得分獲得兩項第一名、一項第二名。這表 明ICTCLAS是目前最好的漢語詞法分析系統(tǒng)之一。
發(fā)明內(nèi)容
本發(fā)明根據(jù)詞法分析技術(shù)的原理,提供了一種基于詞法分析的客戶名稱計算機(jī)檢 索方法來解決客戶資料的重復(fù)錄入問題。本發(fā)明所提基于詞法分析的客戶名稱檢索方法至少包含以下步驟(1)詞法分析步驟,輸入客戶名稱,結(jié)合客戶名稱詞典10,經(jīng)過詞法分析模塊20的 處理,輸出客戶名稱的分詞結(jié)果。(2)未定義詞識別步驟,人為對所述(1)詞法分析步驟輸出結(jié)果中未能正確識別 的詞進(jìn)行修正,并將修正后的正確詞儲存到客戶名稱詞典10中。(3)客戶檢索步驟,從所述(2)未定義詞識別步驟修正后的分詞結(jié)果中,取出客戶 名稱的關(guān)鍵詞,并根據(jù)該關(guān)鍵詞到客戶資料庫50中查找具有相似名稱的客戶。
附圖為本發(fā)明方法的流程示意圖。
具體實施例方式下面結(jié)合附圖,以一優(yōu)選計算機(jī)程序?qū)嵤├?,詳?xì)說明本發(fā)明的實施方式。本優(yōu)選實施例的計算機(jī)程序可以用C/C++、C#、Java語言實現(xiàn)。本優(yōu)選實施例的客戶名稱詞典10采用.TXT文本文件,格式為詞,每行不得超過 1000個字節(jié)。示例如下新科??系禄鶉辣緝?yōu)選實施例的詞法分析模塊20采用的是中國科學(xué)院計算技術(shù)研究所研制 的漢語詞法分析系統(tǒng) ICTCLASdnstitute of Computing Technology, ChineseLexical Analysis System) 3. 0版的動態(tài)連接庫ICTCLAS. dll。在計算機(jī)程序中,首先調(diào)用ICTCLAS. dll中的ICTCLASJnit函數(shù)進(jìn)行初始化;接著調(diào)用ICTCLAS_ImportUserDict函數(shù),加載客 戶名稱詞典20 ;然后調(diào)用ICTCLAS-ParagraphProcess函數(shù),傳入客戶名稱字串,即可輸出 分詞結(jié)果。例如輸入江蘇英諾威特軟件有限公司輸出江蘇/ns英諾威/nrf特/ag軟件/n有限公司/η。在上述輸出結(jié)果中,由于“英諾威特”是未定義詞,因此ICTCLAS將它切分兩個詞 “英諾威”和“特”,這顯然是不符合要求的。此時,就需要在未定義詞識別模塊30中進(jìn)行人 工修正。在未定義詞識別模塊30中,將詞法分析模塊20的輸出結(jié)果顯示在計算機(jī)人機(jī)界 面中,供用戶對其中不正確的詞進(jìn)行修改。修改結(jié)束后,應(yīng)將正確的詞,如“英諾威特”,添加 到客戶名稱詞典10中,如下所示新科??系禄鶉烙⒅Z威特此時,如果再次調(diào)用ICTCLAS_ParagraphPr0CeSS函數(shù),傳入“江蘇英諾威特軟件 有限公司”字串,即可輸出正確的分詞結(jié)果,如“江蘇/ns英諾威特/n軟件/n有限公司/ η”。最后,客戶檢索模塊40,根據(jù)客戶名稱的關(guān)鍵詞,如“英諾威特”,采用 Transact-SQL的LIKE運(yùn)算符,到客戶資料數(shù)據(jù)庫50中執(zhí)行模糊查詢,如“SELECT*FR0M Customer WHERE Name LIKE,%英諾威特%,”,即可檢索出所有名稱中包含“英諾威特”詞 的客戶??蛻糍Y料數(shù)據(jù)庫50可以用關(guān)系型數(shù)據(jù)庫系統(tǒng)來組織,如Microsoft SQL Server。
權(quán)利要求
1.基于詞法分析的客戶名稱計算機(jī)檢索方法,該方法至少包含以下步驟(1)詞法分析步驟,輸入客戶名稱,結(jié)合客戶名稱詞典,經(jīng)過詞法分析模塊的處理,輸出 客戶名稱的分詞結(jié)果。(2)未定義詞識別步驟,人為對所述(1)詞法分析步驟輸出結(jié)果中未能正確識別的詞 進(jìn)行修正,并將修正后的正確詞儲存到客戶名稱詞典中。(3)客戶檢索步驟,從所述(2)未定義詞識別步驟修正后的分詞結(jié)果中,取出客戶名稱 的關(guān)鍵詞,并根據(jù)該關(guān)鍵詞到客戶資料庫中查找具有相似名稱的客戶。
2.如權(quán)利要求1所述的基于詞法分析的客戶名稱計算機(jī)檢索方法,其特征在于,所述 的客戶名稱詞典,用于存儲客戶名稱的關(guān)鍵詞。
3.如權(quán)利要求1所述的基于詞法分析的客戶名稱計算機(jī)檢索方法,其特征在于,所述 的詞法分析模塊,至少包含分詞、切分排歧和未定義詞識別步驟。
全文摘要
基于詞法分析的客戶名稱計算機(jī)檢索方法,涉及客戶資料計算機(jī)管理領(lǐng)域,尤其涉及客戶名稱的計算機(jī)檢索。本發(fā)明根據(jù)詞法分析技術(shù)的原理,提供了一種基于詞法分析的客戶名稱檢索方法。本方法首先通過詞法分析步驟,輸入客戶名稱,結(jié)合客戶名稱詞典,經(jīng)過詞法分析模塊的處理,輸出客戶名稱的分詞結(jié)果;接著在未定義詞識別步驟中,人為對所述詞法分析步驟輸出結(jié)果中未能正確識別的詞進(jìn)行修正,并將修正后的正確詞儲存到客戶名稱詞典中;最后在客戶檢索步驟中,從所述未定義詞識別步驟修正后的分詞結(jié)果中,取出客戶名稱的關(guān)鍵詞,并根據(jù)該關(guān)鍵詞到客戶資料庫中查找具有相似名稱的客戶。
文檔編號G06F17/30GK102073665SQ200910247149
公開日2011年5月25日 申請日期2009年11月25日 優(yōu)先權(quán)日2009年11月25日
發(fā)明者王平, 陳新康 申請人:王平, 陳新康