專利名稱:一種分詞處理方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種分詞處理方法及設(shè)備。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,信息處理設(shè)備對(duì)信息的處理能力越來(lái)越強(qiáng),可以滿 足處理需要"理解能力"的需求,比如信息識(shí)別、糾錯(cuò)、分詞處理等。"詞"是 表達(dá)語(yǔ)意的最小單位,分詞技術(shù)如何能讓計(jì)算機(jī)識(shí)別簡(jiǎn)單的"詞"以便信息處 理的需要,其在信息檢索、信息糾錯(cuò)、自動(dòng)翻譯等方面有著廣泛的用途。在英
語(yǔ)中,詞和詞之間是以空格為自然分隔符的;但在漢語(yǔ)或其他語(yǔ)言中,詞和詞 之間沒(méi)有明顯的分隔,比如"我是一個(gè)學(xué)生,,可以分詞為"我/是/一個(gè)/學(xué)生", 這是基于我們對(duì)語(yǔ)言語(yǔ)義的理解基礎(chǔ)上作出的判斷,那么信息處理設(shè)備(比如 計(jì)算機(jī),以下以計(jì)算機(jī)為例)在如何能進(jìn)行分詞操作?目前現(xiàn)有技術(shù)的分詞方 法包括基于詞表的分詞方法,即依據(jù)一個(gè)詞庫(kù),采用"長(zhǎng)詞優(yōu)先"原則進(jìn)行分 詞,即對(duì)于一個(gè)需要分詞的語(yǔ)句T,先從第一個(gè)字A開始,找出在詞庫(kù)中第一 個(gè)字最長(zhǎng)的詞X;然后把該語(yǔ)句T刪除詞X,對(duì)剩下的所有詞構(gòu)成的語(yǔ)句T,進(jìn) 行采用上述切分方式進(jìn)行類似的切分。比如對(duì)語(yǔ)句"中國(guó)人民共和國(guó)",在詞 庫(kù)中"中國(guó),,是一個(gè)詞,"中國(guó)人,,是一個(gè)詞、"中國(guó)人民"也是一個(gè)詞的話, 則以最長(zhǎng)的"中國(guó)人民"作為一個(gè)詞,最終將語(yǔ)句切分成"中國(guó)人民/共和國(guó)"。 使用這種分詞方法會(huì)引發(fā)一些切分錯(cuò)誤因?yàn)樵谡Z(yǔ)義表達(dá)中,切分出來(lái)的長(zhǎng)詞 并不是我們期望的分詞結(jié)果,正如上面對(duì)語(yǔ)句"中國(guó)人民共和國(guó)"的分詞處理 結(jié)果。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種分詞處理方法及設(shè)備,用以解決目前分詞處理結(jié)果
準(zhǔn)確率不高的問(wèn)題。
本發(fā)明實(shí)施例提供的分詞處理方法包括 接收待分詞的語(yǔ)句;
切分所述語(yǔ)句并獲得所述語(yǔ)句的所有分詞方式;
分別計(jì)算所述的所有分詞方式中每種分詞方式的語(yǔ)句權(quán)值,比較每種分 詞方式的語(yǔ)句權(quán)值,從所述的所有分詞方式中確定所述語(yǔ)句的分詞結(jié)果。
本發(fā)明實(shí)施例提供一種分詞處理設(shè)備,包括
接收單元用于接收待分詞的語(yǔ)句;
切分單元用于切分所述語(yǔ)句并獲得所述接收單元接收的語(yǔ)句的所有分 詞方式;
結(jié)果確定單元用于所述的所有分詞方式中每種分詞方式的語(yǔ)句權(quán)值, 比較每種分詞方式的語(yǔ)句權(quán)值,從所述的所有分詞方式中確定所述語(yǔ)句的分 詞結(jié)果。
本發(fā)明有益效果如下通過(guò)對(duì)各種分詞方式進(jìn)行量化比較,從而進(jìn)一步 確定最終分詞結(jié)果,相比基于詞表的分詞方法獲得的分詞結(jié)果提高了準(zhǔn)確率, 提高分詞處理設(shè)備的處理效率。
圖1是本發(fā)明實(shí)施例的方法流程示意圖2是本發(fā)明實(shí)施例創(chuàng)建FChain、 LChain的流程示意圖3是本發(fā)明實(shí)施例語(yǔ)言模型分析的流程示意圖4是本發(fā)明實(shí)施例確定最終分詞結(jié)果的流程示意圖5是本發(fā)明實(shí)施例分詞處理設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖 對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述。
本發(fā)明實(shí)施例的核心在于,結(jié)合使用基于詞表的分詞方法和基于統(tǒng)計(jì)的 分詞方法獲得更優(yōu)的中文分詞策略,獲得分詞結(jié)果。如下為本發(fā)明相關(guān)技術(shù)
術(shù)語(yǔ)的描述
1、 詞庫(kù) 一個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)表,存儲(chǔ)了需要使用的所有詞的集合,相 當(dāng)于漢語(yǔ)中的詞典;
2、 字是語(yǔ)言定義的最小表達(dá)單位,用于和其他字組合構(gòu)成可表達(dá)語(yǔ) 言的詞,字也可以單獨(dú)成詞,相當(dāng)于漢語(yǔ)的漢字;
3、 語(yǔ)言模型用來(lái)訓(xùn)練分詞的基礎(chǔ)文件,可以是單個(gè)文件,也可以多 個(gè)文件組合;內(nèi)容可以是一般文章、小說(shuō)、報(bào)紙新聞等;
4、 詞指在詞庫(kù)中對(duì)應(yīng)的詞組,是字或字的組合(其中字是語(yǔ)言定義的 最小表達(dá)單位,用于和其他字組合構(gòu)成可表達(dá)語(yǔ)言的詞,字也可以單獨(dú)成詞, 相當(dāng)于漢語(yǔ)的"字,,),相當(dāng)于漢語(yǔ)意義上的詞,本發(fā)明的詞不限于漢語(yǔ), 可以是其他語(yǔ)言(比如日語(yǔ))甚至是為了其他需要自定義語(yǔ)言的詞;
5、 語(yǔ)句是詞或者詞的組合,本發(fā)明所指語(yǔ)句可以是真實(shí)的語(yǔ)句,也 可以是沒(méi)有具體語(yǔ)言含義的的詞的組合;
6、 詞首鏈表FChain:指以某一個(gè)字開頭的所有詞構(gòu)成的鏈表,比如"中" 的詞首鏈表為中國(guó)-> 中華-> 中間-> 中國(guó)人-> 中獎(jiǎng)-> 中意-> 中暑;
7、 詞尾鏈表LChain:指以某一個(gè)字結(jié)束的所有詞構(gòu)成的鏈表,比如"家" 的詞首鏈表為大家->專家->科學(xué)家->數(shù)學(xué)家;
8、 異構(gòu)詞鏈表IChain:指的是分詞后,上一個(gè)詞的詞尾和下一個(gè)詞的 詞首組成的組合,比如"解決技術(shù)問(wèn)題"經(jīng)過(guò)分詞后得到如下分詞結(jié)果解
決/技術(shù)/問(wèn)題,則"決技"、"術(shù)問(wèn)"就構(gòu)成了異構(gòu)詞,"決技->術(shù)問(wèn)"構(gòu)成
的鏈表即為異構(gòu)詞鏈表;需要補(bǔ)充說(shuō)明的是, 一個(gè)詞可能既是詞,又是異構(gòu)
詞,比如"國(guó)人",在分詞結(jié)果"中國(guó)/人"中是異構(gòu)詞,而在"中/國(guó)人"
中則是詞;
9、 詞頻Freq(A):詞或者異構(gòu)詞出現(xiàn)的頻率;
10、 權(quán)值詞或者異構(gòu)詞對(duì)應(yīng)的權(quán)值可以是根據(jù)詞頻以及其他統(tǒng)計(jì)項(xiàng)計(jì) 算出來(lái)數(shù)值,表示該詞或者異構(gòu)詞出現(xiàn)的可能性大小,指示一組詞和短語(yǔ)中 的每個(gè)詞和短語(yǔ)的重要程度。比如可以設(shè)定詞在詞首鏈表中的權(quán)值為M(A), 在詞尾鏈表中的權(quán)值為N(A),在異構(gòu)詞鏈表中的權(quán)值為MM(A);
11、 權(quán)值因子權(quán)值因子在建立分詞方案的時(shí)候確定,每個(gè)鏈表都有自 己的權(quán)值,比如可以設(shè)定詞首鏈表的權(quán)值因子為F(A),詞尾鏈表的權(quán)值因子 為L(zhǎng)(A),異構(gòu)次首鏈表的權(quán)值因子為FF(A),異構(gòu)詞尾鏈表的權(quán)值因子為 IX(A);
12、 語(yǔ)句權(quán)值是用于表征分詞結(jié)果對(duì)應(yīng)的具體數(shù)值,根據(jù)語(yǔ)句對(duì)應(yīng)的
算的結(jié)果S,可以是各個(gè)鏈表的權(quán)值與權(quán)值因子乘積的總和S,也可以是根 據(jù)具體的語(yǔ)言和分詞策略等確定其他的語(yǔ)句權(quán)值計(jì)算方式。不同的分詞方式, 相應(yīng)S的值會(huì)不同,比如對(duì)于"深圳大學(xué)城",如果分詞結(jié)果是(深圳/大學(xué)/ 城),則語(yǔ)句權(quán)值為
S(深圳/大學(xué)/城)=M(深圳"F(A) + M(大學(xué)"F(A)十]V[(城"F(A) + 1^(深圳)*!^(八)+ N(大學(xué)"L(A) +NQA)*L(A) + MM(圳大"FF(A) + MM(學(xué)城"FF(A) 如果分詞結(jié)果是(深圳/大學(xué)城),則語(yǔ)句權(quán)值為
S(深圳/大學(xué)城)=M(深圳"F(A) + M(大學(xué)城"F(A)
+ N(深圳)承L(A)十N(大學(xué)城"L(A)
+ MM(圳大"FF(A)
從上可知,S(深圳/大學(xué)城)計(jì)算的方法和S(深圳/大學(xué)/城)不一樣,在 最后的統(tǒng)計(jì)中,根據(jù)需要可以取語(yǔ)句權(quán)值S最大對(duì)應(yīng)的分詞結(jié)果作為最終分 詞結(jié)果。需要說(shuō)明的是, 一般在分詞有歧義的時(shí)候才通過(guò)計(jì)算最大的語(yǔ)句權(quán) 值S來(lái)推導(dǎo)最終分詞結(jié)果。比如,如果"圳大"在詞庫(kù)中沒(méi)有即其不是一個(gè) 詞,則分詞結(jié)果"深/圳大/學(xué)城"不成立,也就可以不計(jì)算其語(yǔ)句權(quán)值。
本發(fā)明實(shí)施例的方法可以在分詞處理設(shè)備上完成,分詞處理設(shè)備可以是 個(gè)人計(jì)算機(jī),手機(jī),個(gè)人數(shù)字助理等數(shù)字設(shè)備,也可以是一個(gè)軟件或者硬件 實(shí)現(xiàn)的獨(dú)立功能模塊,當(dāng)然該獨(dú)立功能模塊可以存在于具體的數(shù)字設(shè)備中。
具體如圖1所示,為本發(fā)明實(shí)施例的流程示意圖,該實(shí)施例用于對(duì)一 語(yǔ)句進(jìn)行分詞處理
Stepl:根據(jù)詞庫(kù)創(chuàng)建詞首鏈表FChain和詞尾鏈表LChain,并初始化每 個(gè)詞的詞頻Freq(A),該步驟的具體方法如圖2所示(需要說(shuō)明的是,并不是 每次分詞操作都要執(zhí)行該步驟,該步驟是根據(jù)詞庫(kù)初始化FChain、 LChain、 每個(gè)詞的詞頻Freq(A), 一旦創(chuàng)建了就可以供后續(xù)分詞操作直接使用這些已經(jīng) 初始化好);
Step2:基于全切分規(guī)則,從語(yǔ)言模型中統(tǒng)計(jì)分出每個(gè)可行的詞,修改 FChain和LChain中的詞頻,生成IChain,并初始化IChain中各詞的詞頻。
在該步驟中,通過(guò)對(duì)語(yǔ)言模型進(jìn)行處理,修改FChain和LChain中的詞 頻,生成IChain,并初始化IChain中各詞的詞頻,用來(lái)訓(xùn)練分詞,可以使得 后續(xù)使用FChain、 LChain、 IChain獲得的分詞結(jié)果更準(zhǔn)確,也可以通過(guò)選擇 不同的語(yǔ)言模型進(jìn)行分詞,從而使得對(duì)語(yǔ)句進(jìn)行分詞處理更有針對(duì)性,通過(guò) 語(yǔ)言模型的訓(xùn)練,使得本發(fā)明實(shí)施例的分詞方案能進(jìn)行"智能學(xué)習(xí)"。
Step3:分詞處理設(shè)備對(duì)語(yǔ)句進(jìn)行分析,獲得語(yǔ)句對(duì)應(yīng)的所有分詞方式, 并計(jì)算每種分詞方式對(duì)應(yīng)的語(yǔ)句權(quán)值S,以權(quán)值最高的分詞結(jié)果作為最終分 詞結(jié)果。
該Step3是對(duì)語(yǔ)句進(jìn)行分詞處理的具體方法。其中語(yǔ)句對(duì)應(yīng)的所有分詞 方式可以通過(guò)圖4對(duì)應(yīng)的方法獲得,也可以通過(guò)其他的方式獲得(比如基于 統(tǒng)計(jì)的分詞方法);確定最后的分詞結(jié)果,可以以權(quán)值最高的分詞結(jié)果作為 最終分詞結(jié)果,也可以根據(jù)分詞結(jié)果選擇策略和語(yǔ)句權(quán)值計(jì)算方法的不同, 根據(jù)語(yǔ)句權(quán)值確定所有分詞方式中的一個(gè)作為分詞結(jié)果。在分詞處理設(shè)備對(duì) 語(yǔ)句進(jìn)行分析,獲得語(yǔ)句對(duì)應(yīng)的所有分詞方式,并計(jì)算每種分詞方式對(duì)應(yīng)的 語(yǔ)句權(quán)值S后,分詞處理設(shè)備比較每種分詞方式的語(yǔ)句權(quán)值,并通過(guò)分詞結(jié) 果選擇策略確定分詞結(jié)果語(yǔ)句權(quán)值,根據(jù)該分詞結(jié)果語(yǔ)句權(quán)值確定語(yǔ)句的分 詞結(jié)果(即該分詞結(jié)果語(yǔ)句權(quán)值對(duì)應(yīng)的分詞方式即為分詞結(jié)果)。這里的分 詞結(jié)果選擇策略可以是選擇語(yǔ)句權(quán)值最小或語(yǔ)句權(quán)值最大或?qū)φZ(yǔ)句權(quán)值進(jìn)行 進(jìn)一步數(shù)學(xué)運(yùn)算再選擇相應(yīng)語(yǔ)句權(quán)值的分詞方式作為分詞結(jié)果。分詞結(jié)果選 擇策略用于根據(jù)語(yǔ)句權(quán)值從所有分詞方式中確定其中的一種分詞方式作為分 詞結(jié)果,是分詞處理設(shè)備根據(jù)語(yǔ)言的特性確定的,比如對(duì)于漢語(yǔ)的日常用于 分詞,分詞結(jié)果選擇策略可以是選擇語(yǔ)句權(quán)值最大的分詞方式分詞結(jié)果。從 上面的分析可以得知,對(duì)于一個(gè)特定的詞語(yǔ),其分詞結(jié)果選擇策略是確定的, 而各種分詞方式可以通過(guò)Step2確定,因此最后可以選擇出確定的分詞方式 作為分詞結(jié)果。采用這種分詞方法,由于對(duì)各種分詞方式進(jìn)行了量化處理, 并結(jié)合分詞結(jié)果選擇策略進(jìn)行分詞結(jié)果的選擇,可以提高分詞結(jié)果的準(zhǔn)確性。
在上面的方法中,通過(guò)對(duì)各種分詞方式進(jìn)行量化比較,從而進(jìn)一步確定 最終分詞結(jié)果,相比基于詞表的分詞方法獲得的分詞結(jié)果提高了準(zhǔn)確率。
如圖2所示,為本發(fā)明實(shí)施例創(chuàng)建FChain、 LChain及初始化Freq(A)的 流程示意圖。創(chuàng)建FChain、 LChain及初始化Freq(A)之前,需要先確定使用
的詞庫(kù),以便按一定順序依次掃描詞庫(kù)獲取詞庫(kù)中的所有詞,然后根據(jù)各詞
構(gòu)建FChain、 LChain。
步驟200:開始創(chuàng)建FChain、 LChain及初始化Freq(A);
步驟201:按一定順序依次掃描詞庫(kù),確定是否還有下一次未處理的詞, 如果是,則轉(zhuǎn)至步驟202,否則轉(zhuǎn)至步驟203;
步驟202:獲取需處理的詞,取得該詞詞首,遍歷目前已有的詞首鏈表, 如果存在該詞詞首的詞首鏈表FChain-C,則將該詞加入該詞詞首的詞首鏈表 FChain-C,并記錄該詞的詞頻Freq(A);如果不存在該詞詞首的詞首鏈表,則 建立該詞詞首的詞首鏈表并記錄該詞的詞頻Freq(A);
步驟203:流程結(jié)束。
如圖3所示,是語(yǔ)言模型分析的流程示意圖,具體描述如下
步驟300:開始語(yǔ)言模型分析,創(chuàng)建異構(gòu)詞鏈表(可以通過(guò)初始化一空 的鏈表實(shí)現(xiàn));
步驟301:判斷語(yǔ)言模型中是否有需要分析的下一個(gè)字,如果有則轉(zhuǎn)至 步驟302,否則轉(zhuǎn)至步驟307;
步驟302:獲取當(dāng)前需要分析的字A(即步驟301中所述的下一個(gè)字), 及A之后的第一個(gè)字Bi、第二個(gè)字B2......第N個(gè)字BN(N可以為可設(shè)置的
常量,比如一般詞的最大長(zhǎng)度是4,則N可以取值為4);
步驟303:設(shè)置變量m二l;
步驟304:判斷ABiB2.....Bm是一個(gè)完整的詞(可以通過(guò)查詢?cè)~庫(kù)作出 判斷),如果是,則轉(zhuǎn)至步驟305,否則轉(zhuǎn)至步驟306;
步驟305:修正鏈表FChain、 LChain中該詞的詞頻(可以是將原有相應(yīng) 詞的詞頻加1,也可以根據(jù)實(shí)際需要選擇其他的運(yùn)算規(guī)則),并將上一個(gè)詞 的詞——字Bm,與A構(gòu)成的異構(gòu)詞Bm,A在異構(gòu)詞《連表IChain中的詞頻;轉(zhuǎn)
至步驟301;
步驟306:將m的值加l,判斷m是否大于N,如果是,則至步驟301, 否則轉(zhuǎn)至步驟304;
步驟307:語(yǔ)言模型分析流程結(jié)束
一個(gè)語(yǔ)句T將會(huì)被切分為多個(gè)詞,同時(shí)可能有多種切分方法。假如將語(yǔ) 句T切分為S (a/b.…/n),其中
a、 b...n分別為詞庫(kù)中的一個(gè)詞;a的詞尾對(duì)應(yīng)的字與b的詞首對(duì)應(yīng)的 字構(gòu)成的詞為異構(gòu)詞ul、 b的詞尾對(duì)應(yīng)的字與c的詞首對(duì)應(yīng)的字構(gòu)成的詞為 異構(gòu)詞u2,以此類推得到異構(gòu)詞u3.......
切分為S (a,/b,...../n,),其中
a, 、 b,.. .n,分別為詞庫(kù)中的 一個(gè)詞;a,的詞尾對(duì)應(yīng)的字與b,的詞首對(duì)應(yīng)的 字構(gòu)成的詞為異構(gòu)詞ul'、b'的詞尾對(duì)應(yīng)的字與c'的詞首對(duì)應(yīng)的字構(gòu)成的詞為 異構(gòu)詞u2,,以此類推得到異構(gòu)詞u3,.......
則語(yǔ)句T對(duì)應(yīng)的兩種分詞結(jié)果對(duì)應(yīng)的語(yǔ)句權(quán)值可以通過(guò)如下計(jì)算方法獲 得,如下所示
S(a/b..../n)= M(a)承F(A) + M(b)承F(A) +.....+M(n)*F(A)
+ N(a)*L(A)+ N(b)承L(A) +.....+N(n)*L(A)
+ MM(ul)*FF(A) +MM(u2)*FF(A)+....
S(a7b,...../m,)= M(a,)*F(A) + M(b,)*F(A) ++M(m,)*F(A)
+N(a,)*L(A)+ N(b,)*L(A) +.....+N(m,)*L(A)
+ MM(ul,)*FF(A) +MM(u2,)*FF(A)+....
如果還有其他的分詞結(jié)果,也進(jìn)行類似的計(jì)算,可以根據(jù)S值最高的分 詞結(jié)果作為語(yǔ)句T的分詞結(jié)果。
如圖4所示,是確定最終分詞結(jié)果的流程示意圖。圖中所示方法以語(yǔ)句 為單位,深度遍歷并計(jì)算獲得每種分詞結(jié)果的語(yǔ)句權(quán)值,以權(quán)值最高的分詞
結(jié)果作為最終分詞結(jié)果,具體描述如下
步驟400:判斷語(yǔ)句T中的字?jǐn)?shù)是否為0,如果是轉(zhuǎn)至步驟404,否則轉(zhuǎn) 至步驟401;
步驟401:取語(yǔ)句T的第一個(gè)字即首字A;
步驟402:在FChain鏈表中查詢以字A為首的所有詞即首詞a,并將語(yǔ) 句T除去詞a后其他所有字組成的語(yǔ)句即語(yǔ)句T的截首詞句設(shè)置為T,,實(shí)現(xiàn) 了將T到(a/T,)的切分;
在對(duì)語(yǔ)句T中進(jìn)行切分的過(guò)程中,可能存在多種記錄匹配成功的分詞方 式,設(shè)有為r (A)種切分方式(如果r<0則說(shuō)明語(yǔ)句語(yǔ)法有問(wèn)題或FChain 鏈表中收錄的詞匯不夠,可以進(jìn)行特殊處理,比如提示用戶錯(cuò)誤信息,以便 用戶決定擴(kuò)大詞匯或檢查語(yǔ)法錯(cuò)誤等),比如"中國(guó)人民共和國(guó)",以"中,, 字開頭的詞有"中國(guó)"、"中國(guó)人"兩種,則r(中"2;
步驟403:遍歷步驟402中的r ( A)種分詞方式中的每一種,執(zhí)行如下 操作設(shè)置T-T,,返回至步驟400 (即對(duì)語(yǔ)句T,也進(jìn)行進(jìn)一步分詞處理,相 當(dāng)于遞歸處理);
步驟404:通過(guò)上面的步驟,可以得到語(yǔ)句T所有的分詞方式,并對(duì)各 種分詞方式計(jì)算其語(yǔ)句權(quán)值,取語(yǔ)句權(quán)值最高的分詞方式作為本語(yǔ)句分詞結(jié) 果,也可以根據(jù)實(shí)際需要設(shè)定分詞結(jié)果選擇策略,根據(jù)各分詞結(jié)果對(duì)應(yīng)的語(yǔ) 句權(quán)值和分詞結(jié)果選擇策略從各種分詞方式中取特定的語(yǔ)言權(quán)值的分詞方式 作為本語(yǔ)句的分詞結(jié)果(比如語(yǔ)言權(quán)值最低等)。
需要說(shuō)明的是
(1 )上面給出的本發(fā)明相關(guān)技術(shù)術(shù)語(yǔ)的描述是為了描述的方便,如詞、
字、語(yǔ)句、語(yǔ)言模型、詞庫(kù)等是在諸如漢語(yǔ)等實(shí)際語(yǔ)言中的概念上總結(jié)的, 上面給出的僅僅是這些概念的解釋描述,不用于限定這些概念僅僅表達(dá)成所
描述的字面含義;另外,本發(fā)明中計(jì)算語(yǔ)句權(quán)值的方法是使用了各鏈表(詞 首鏈表、詞尾鏈表、異構(gòu)詞鏈表)及相應(yīng)的權(quán)值因子進(jìn)行計(jì)算,在實(shí)際實(shí)現(xiàn) 過(guò)程中,可以根據(jù)實(shí)際需要只使用其中的一種或兩種鏈表進(jìn)行計(jì)算,比如只 使用詞首鏈表和詞尾鏈表用于計(jì)算語(yǔ)句權(quán)值,此時(shí)在具體實(shí)現(xiàn)的過(guò)程中(圖 3所示的流程處理種)可以不使用異構(gòu)詞鏈表了。上述具體實(shí)施例是同時(shí)使 用了上面所述的3種鏈表,作為示例進(jìn)行詳細(xì)描述;
(2)本發(fā)明將上述各鏈表(詞首鏈表、詞尾鏈表、異構(gòu)詞鏈表)及其 組合組成的用于進(jìn)行分詞處理過(guò)程中記錄分詞過(guò)程并用于計(jì)算語(yǔ)句權(quán)值的鏈 表統(tǒng)稱為分詞過(guò)程鏈表,語(yǔ)句權(quán)值通過(guò)分詞過(guò)程鏈表計(jì)算獲得。分詞過(guò)程鏈 表在具體實(shí)現(xiàn)的過(guò)程中可以采用鏈表、數(shù)組等各種方式實(shí)現(xiàn)。
為了實(shí)現(xiàn)本發(fā)明上述實(shí)施例的分詞方法,本發(fā)明還需要提供一種分詞處 理設(shè)備,該分詞處理設(shè)備可以包括
接收單元用于接收待分詞的語(yǔ)句;
切分單元用于切分獲得接收單元接收的語(yǔ)句的所有分詞方式;
結(jié)果確定單元用于計(jì)算切分單元獲得所有分詞方式中每種分詞方式的 語(yǔ)句權(quán)值,比較每種分詞方式的語(yǔ)句權(quán)值從所有分詞方式中確定語(yǔ)句的分詞 結(jié)果。
切分單元對(duì)將語(yǔ)句T切分為多個(gè)詞,可以有多種切分方法。假如將語(yǔ)句 T切分為S (a/b…./n),其中
a、 b...n分別為詞庫(kù)中的一個(gè)詞;a的詞尾對(duì)應(yīng)的字與b的詞首對(duì)應(yīng)的 字構(gòu)成的詞為異構(gòu)詞ul、 b的詞尾對(duì)應(yīng)的字與c的詞首對(duì)應(yīng)的字構(gòu)成的詞為 異構(gòu)詞u2,以此類推得到異構(gòu)詞u3.......切分為S (a,/b,...../n,),其中
a'、 b'...n'分別為詞庫(kù)中的一個(gè)詞;a'的詞尾對(duì)應(yīng)的字與b'的詞首對(duì)應(yīng)的 字構(gòu)成的詞為異構(gòu)詞ul'、b'的詞尾對(duì)應(yīng)的字與c'的詞首對(duì)應(yīng)的字構(gòu)成的詞為 異構(gòu)詞u2,,以此類推得到異構(gòu)詞u3,.......
切分單元通過(guò)對(duì)語(yǔ)句T進(jìn)行切分獲得語(yǔ)句T的多種切分方式后,由結(jié)果 確定單元計(jì)算語(yǔ)句權(quán)值并根據(jù)該語(yǔ)句權(quán)值從上面的所有分詞方式中確定該語(yǔ) 句的分詞結(jié)果。以上面的例子為例,則語(yǔ)句T對(duì)應(yīng)的兩種分詞結(jié)果對(duì)應(yīng)的語(yǔ) 句權(quán)值可以通過(guò)如下計(jì)算方法獲得,如下所示
S(a/b..../n)= M(a)*F(A) + M(b)承F(A) +.....+M(n)*F(A) + N(a)*L(A)+ N(b)承L(A) +.....+N(n)*L(A) + MM(ul)*FF(A) +MM(u2)*FF(A)+.... S(a7b,...../m,)= M(a,)*F(A) + M(b,)*F(A) +.....+M(m,)*F(A) +N(a,)*L(A)+ N(b,)*L(A) +.....+N(m,)*L(A) + MM(ul,)*FF(A) +MM(u2,)*FF(A)+....
如果還有其他的分詞結(jié)果,也進(jìn)行類似的計(jì)算,可以根據(jù)S值最高的分 詞結(jié)果作為語(yǔ)句T的分詞結(jié)果。確定最后的分詞結(jié)果,可以以權(quán)值最高的分 詞結(jié)果作為最終分詞結(jié)果,也可以根據(jù)策略和語(yǔ)句權(quán)值計(jì)算方法的不同,根 據(jù)語(yǔ)句權(quán)值確定所有分詞方式中的 一個(gè)作為分詞結(jié)果。這里的分詞結(jié)果選擇 策略可以是選擇語(yǔ)句權(quán)值最小或語(yǔ)句權(quán)值最大或?qū)φZ(yǔ)句權(quán)值進(jìn)行進(jìn)一步數(shù)學(xué) 運(yùn)算再選擇相應(yīng)語(yǔ)句權(quán)值的分詞方式作為分詞結(jié)果。
其中的結(jié)果確定單元可以包括
策略設(shè)置單元用于預(yù)先設(shè)置分詞結(jié)果選擇策略;
選擇單元用于比較每種分詞方式的語(yǔ)句權(quán)值,并通過(guò)分詞結(jié)果選擇策 略確定分詞結(jié)果語(yǔ)句權(quán)值,根據(jù)該分詞結(jié)果語(yǔ)句權(quán)值確定語(yǔ)句的分詞結(jié)果。
這里的分詞結(jié)果選擇策略可以是選擇語(yǔ)句權(quán)值最小或語(yǔ)句權(quán)值最大或 對(duì)語(yǔ)句權(quán)值進(jìn)行進(jìn)一 步數(shù)學(xué)運(yùn)算再選擇相應(yīng)語(yǔ)句權(quán)值的分詞方式作為分詞結(jié) 果。分詞結(jié)果選擇策略可以預(yù)先設(shè)置在分詞處理設(shè)備中。另外,分詞處理設(shè)備還可以包括初始化單元用于根據(jù)詞庫(kù)初始化獲得分詞過(guò)程鏈表;分詞訓(xùn)練單元用于通過(guò)語(yǔ)言模型對(duì)分詞過(guò)程鏈表進(jìn)行修改。初始化單元初始化獲得分詞過(guò)程鏈表的方法如圖2所示。創(chuàng)建FChain、 LChain及初始化Freq(A)之前,需要先確定使用的詞庫(kù),以便按一定順序依 次掃描詞庫(kù)獲取詞庫(kù)中的所有詞,然后根據(jù)各詞構(gòu)建FChain、 LChain,具體 如下:開始創(chuàng)建FChain、 LChain及初始化Freq(A);然后按一定順序依次掃描 詞庫(kù),確定是否還有下一次未處理的詞,如果是,則獲取需處理的詞,取得 該詞詞首,遍歷目前已有的詞首鏈表,如果存在該詞詞首的詞首鏈表 FChain-C,則將該詞加入該詞詞首的詞首鏈表FChain-C,并記錄該詞的詞頻 Freq(A);如果不存在該詞詞首的詞首4連表,則建立該詞詞首的詞首鏈表并記 錄該詞的詞頻Freq(A)。本發(fā)明實(shí)施例提供的分詞處理設(shè)備中,分詞訓(xùn)練單元可以通過(guò)語(yǔ)言模型 對(duì)分詞過(guò)程鏈表進(jìn)行修改,具體描述如下開始語(yǔ)言模型分析,創(chuàng)建異構(gòu)詞鏈表(可以通過(guò)初始化一空的鏈表實(shí) 現(xiàn));判斷語(yǔ)言模型中是否有需要分析的下一個(gè)字,如果有則繼續(xù)分析,否 則分詞訓(xùn)練流程結(jié)束;分詞訓(xùn)練單元獲取當(dāng)前需要分析的字A(即步驟301中所述的下一個(gè)字),及A之后的第一個(gè)字Bi、第二個(gè)字B2......第N個(gè)字BN(N可以為可設(shè)置的常量,比如一般詞的最大長(zhǎng)度是4,則N可以取值為4);并設(shè)置變量m=l;分詞訓(xùn)練單元判斷A Bi B2.....Bm是一個(gè)完整的詞(可以通過(guò)查詢?cè)~庫(kù) 作出判斷),如果是,則修正鏈表FChain、 LChain中該詞的詞頻(可以是將 原有相應(yīng)詞的詞頻加1,也可以根據(jù)實(shí)際需要選擇其他的運(yùn)算規(guī)則),并將 上一個(gè)詞的詞——字Bm,與A構(gòu)成的異構(gòu)詞Bm'A在異構(gòu)詞鏈表IChain中的 詞頻,否則將m加l,重新判斷判斷AB1B2.....Bm是一個(gè)完整的詞。具體的 流程參見(jiàn)圖3所示。在該分詞處理設(shè)備中,通過(guò)對(duì)各種分詞方式進(jìn)行量化比較,從而進(jìn)一步 確定最終分詞結(jié)果,提高了分詞結(jié)果準(zhǔn)確率;分詞訓(xùn)練單元通過(guò)語(yǔ)言模型對(duì) 分詞過(guò)程鏈表進(jìn)行處理,修改分詞過(guò)程鏈表用來(lái)訓(xùn)練分詞,可以使得后續(xù)使 用分詞過(guò)程鏈表獲得的分詞結(jié)果更準(zhǔn)確,也可以通過(guò)選擇不同的語(yǔ)言模型進(jìn) 行分詞,從而使得對(duì)語(yǔ)句進(jìn)行分詞處理更有針對(duì)性,通過(guò)語(yǔ)言模型的訓(xùn)練, 使得本發(fā)明實(shí)施例的分詞方案能進(jìn)行"智能學(xué)習(xí)"。從而提高了分詞處理設(shè) 備的的性能、處理效率。本發(fā)明實(shí)施例提供的方法和設(shè)備還可以作為計(jì)算機(jī)進(jìn)程,計(jì)算機(jī)系統(tǒng)或 者作為諸如計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)可讀媒介之類的生產(chǎn)物品而得以實(shí)現(xiàn)。 計(jì)算機(jī)程序產(chǎn)品可以計(jì)算機(jī)系統(tǒng)可篤定且能夠編碼指令的計(jì)算機(jī)程序用于執(zhí) 行計(jì)算機(jī)進(jìn)程的計(jì)算機(jī)存儲(chǔ)媒介。計(jì)算機(jī)產(chǎn)品還可以是計(jì)算機(jī)系統(tǒng)可讀得并 且編碼指令地算機(jī)程序用于執(zhí)行計(jì)算機(jī)進(jìn)程的產(chǎn)品。雖然通過(guò)參照本發(fā)明的某些優(yōu)選實(shí)施方式,已經(jīng)對(duì)本發(fā)明進(jìn)行了圖示和 描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,可以在形式上和細(xì)節(jié)上對(duì)其作各 種改變,而不偏離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種分詞處理方法,其特征在于,所述方法包括接收待分詞的語(yǔ)句;切分所述語(yǔ)句并獲得所述語(yǔ)句的所有分詞方式;分別計(jì)算所述的所有分詞方式中每種分詞方式的語(yǔ)句權(quán)值,比較每種分詞方式的語(yǔ)句權(quán)值,從所述的所有分詞方式中確定所述語(yǔ)句的分詞結(jié)果。
2. 如權(quán)利要求1所述的方法,其特征在于,切分所述語(yǔ)句并獲得所述 語(yǔ)句的所有分詞方式包括獲取所述語(yǔ)句的首字;根據(jù)詞表確定所述語(yǔ)句中以所述首字為首的首詞;切分獲得所述語(yǔ)句的截首詞句的所有分詞方式,根據(jù)所述首詞和所述截 首詞句的所有分詞方式獲得所述語(yǔ)句的所有分詞方式。
3. 如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算每種分詞方式對(duì) 應(yīng)的語(yǔ)句權(quán)值的方法是獲取給定分詞方式中各詞在分詞過(guò)程鏈表中的權(quán)值;利用所述權(quán)值和所述分詞過(guò)程鏈表的權(quán)值因子進(jìn)行數(shù)學(xué)運(yùn)算獲得所述 給定分詞方式的語(yǔ)句權(quán)值。
4. 如權(quán)利要求3所述的方法,其特征在于,所述分詞過(guò)程鏈表根據(jù)詞 庫(kù)初始化獲得,并通過(guò)語(yǔ)言模型進(jìn)行修改。
5. 如權(quán)利要求3或4所述的方法,其特征在于,所述分詞過(guò)程鏈表包 括如下之一或其組合詞首鏈表或詞尾《連表或異構(gòu)詞4連表。
6. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述語(yǔ)句權(quán)值從所述分詞方式中確定所述語(yǔ)句的分詞結(jié)果的方法為預(yù)先設(shè)置分詞結(jié)果選擇策 略,比較所述每種分詞方式的語(yǔ)句權(quán)值,并通過(guò)所述分詞結(jié)果選擇策略確定
7. —種分詞處理設(shè)備,其特征在于,所述分詞處理設(shè)備包括 接收單元用于接收待分詞的語(yǔ)句;切分單元用于切分所述語(yǔ)句并獲得所述接收單元接收的語(yǔ)句的所有分 詞方式;結(jié)果確定單元用于所述的所有分詞方式中每種分詞方式的語(yǔ)句權(quán)值, 比較每種分詞方式的語(yǔ)句權(quán)值,從所述的所有分詞方式中確定所述語(yǔ)句的分 詞結(jié)果。
8. 如權(quán)利要求7所述的分詞處理設(shè)備,其特征在于,所述結(jié)果確定單 元包括策略設(shè)置單元用于預(yù)先設(shè)置分詞結(jié)果選擇策略;選擇單元用于比較所述每種分詞方式的語(yǔ)句權(quán)值,并通過(guò)所述分詞結(jié) 果選擇策略確定分詞結(jié)果語(yǔ)句權(quán)值,根據(jù)所述分詞結(jié)果語(yǔ)句權(quán)值確定所述語(yǔ) 句的分詞結(jié)果。
9. 如權(quán)利要求7所述的分詞處理設(shè)備,其特征在于,所述分詞處理設(shè) 備還包括初始化單元用于根據(jù)詞庫(kù)初始化獲得分詞過(guò)程鏈表; 分詞訓(xùn)練單元用于通過(guò)語(yǔ)言模型對(duì)所述分詞過(guò)程鏈表進(jìn)行修改。
全文摘要
本發(fā)明實(shí)施例涉及信息處理技術(shù),公開了一種分詞處理方法,該方法包括接收待分詞的語(yǔ)句;切分所述語(yǔ)句并獲得所述語(yǔ)句的所有分詞方式;分別計(jì)算所述的所有分詞方式中每種分詞方式的語(yǔ)句權(quán)值,比較每種分詞方式的語(yǔ)句權(quán)值從所述的所有分詞方式中確定所述語(yǔ)句的分詞結(jié)果。本發(fā)明實(shí)施例還公開了一種分詞處理設(shè)備。
文檔編號(hào)G06F17/28GK101114282SQ20071007600
公開日2008年1月30日 申請(qǐng)日期2007年7月12日 優(yōu)先權(quán)日2007年7月12日
發(fā)明者朱鵬喜 申請(qǐng)人:華為技術(shù)有限公司