漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)的制作方法

文檔序號(hào)：6414418閱讀：542來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音處理技術(shù)，特別是涉及一種能對(duì)漢語(yǔ)語(yǔ)句切分予以最佳化的方法及其系統(tǒng)，借以提高漢語(yǔ)語(yǔ)句經(jīng)切分后詞語(yǔ)的精確度。
漢語(yǔ)語(yǔ)句切分處理屬語(yǔ)音處理程序預(yù)處理階段中相當(dāng)重要的一環(huán)，是對(duì)語(yǔ)音發(fā)聲的漢語(yǔ)語(yǔ)句所代表的文字字串(字串由若干字符所組成)，進(jìn)行適當(dāng)?shù)厍蟹?。若?jīng)切分后的文字字串能精確地表達(dá)出原語(yǔ)義的話，接下來(lái)便可據(jù)此表達(dá)出此漢語(yǔ)語(yǔ)句的抑揚(yáng)頓挫，再經(jīng)語(yǔ)音處理后，便能產(chǎn)生接近真人發(fā)聲的質(zhì)量效果。
目前，對(duì)于漢語(yǔ)語(yǔ)句切分的方法包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、以及切割標(biāo)志法等數(shù)種。其中，正向最大匹配法是從文字字串的字首開始匹配，每次切分出可匹配的最長(zhǎng)詞，再對(duì)剩余字串重復(fù)這一步驟，直至全部文字字串都經(jīng)過(guò)切分止。逆向最大匹配法是從漢語(yǔ)文字字串字尾開始匹配，每次切分出可匹配的最長(zhǎng)詞，再對(duì)剩余字串重復(fù)這一步驟，直至全部文字字串都經(jīng)過(guò)切分止。雙向最大匹配法為正向最大匹配法和逆向最大匹配法的綜合運(yùn)用，分別執(zhí)行正向最大匹配法和逆向最大匹配法，若二者所切分的結(jié)果不同，則需采用別的方法處理。而逐詞遍歷匹配法是對(duì)整個(gè)文字字串搜尋出最長(zhǎng)詞，切分出可匹配的最長(zhǎng)詞后，再對(duì)剩余字串重復(fù)這一步驟，直至全部文字字串都經(jīng)過(guò)切分止。切割標(biāo)志法則先分析文字字串中僅能做為詞首或詞尾的字符，將其做為分詞標(biāo)志，據(jù)此將字串分割成較短的字串，然后配合其他方法進(jìn)行切分。
由于正向最大匹配法和逆向最大匹配法，是以單向分別自字首和字尾起進(jìn)行匹配，其時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)(以自然數(shù)n表示)成正比。然而，以此既定順序單向進(jìn)行匹配的方法，并不能確保全部語(yǔ)句切分的最佳化。譬如，以語(yǔ)句“他說(shuō)出去一下”為例，若以正向最大匹配法分析，則經(jīng)切分后為“他／／說(shuō)出／／去／／一下／／”(注，本說(shuō)明書皆以“／／”做為經(jīng)切分后各詞語(yǔ)間的間隔符號(hào))；而以語(yǔ)句“他說(shuō)出去公園的目的”為例，若以逆向最大匹配法分析，則經(jīng)切分后為“他／／說(shuō)／／出去／／公園／／的／／目的／／”。由此可知，正向最大匹配法和逆向最大匹配法，雖屬一種局部最佳化的方法，卻無(wú)法確保全部語(yǔ)句切分的最佳化。
對(duì)于雙向最大匹配法，其以正向最大匹配法和逆向最大匹配法進(jìn)行分析，雖能給出一些可能出錯(cuò)的詞語(yǔ)成分，譬如以語(yǔ)句“他說(shuō)出去一下”為例，若以雙向最大匹配法進(jìn)行，則經(jīng)切分后為“他／／說(shuō)出／／去／／一下／／”、“他／／說(shuō)／／出去／／一下／／”等兩種，然后配合別的方法另行處理。然而，對(duì)于不能由正向最大匹配法或逆向最大匹配法切分出的情況，同樣地，也不能確保全部語(yǔ)句經(jīng)切分后得以最佳化，其時(shí)間復(fù)雜性比正向最大匹配法或逆向最大匹配法多出了一倍。
而逐詞遍歷匹配法不僅不能保證全部語(yǔ)句最佳化，其時(shí)間復(fù)雜性也與語(yǔ)句內(nèi)含字符數(shù)的平方(譬如以n2表示)成正比、甚或更高，故實(shí)際上很少被采用。至于切割標(biāo)志法的時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)(以n表示)成正比。然而由于普遍存在的分詞標(biāo)志并不多見，故據(jù)以將文字字串分割成較短字串的效果，也相當(dāng)?shù)赜邢蕖?br> 因此，本發(fā)明的一個(gè)目的，是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)，其經(jīng)切分后所得到的詞語(yǔ)精確度，比正向或逆向最大匹配法等單向最大匹配法高出兩個(gè)數(shù)量級(jí)。
本發(fā)明的另一個(gè)目的，是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)，其經(jīng)切分后所得到的詞語(yǔ)精確度，比雙向最大匹配法高。
本發(fā)明的再一個(gè)目的，是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)，其時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)成正比。
為了達(dá)到上述目的，本發(fā)明可通過(guò)提供一種漢語(yǔ)語(yǔ)句切分的方法來(lái)完成。首先輸入一個(gè)漢語(yǔ)語(yǔ)句，此漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一個(gè)文字字串。再根據(jù)一詞語(yǔ)庫(kù)，對(duì)此文字字串進(jìn)行詞語(yǔ)匹配。接著，判斷經(jīng)匹配后的分詞路徑是否唯一；若是，則完成漢語(yǔ)語(yǔ)句切分的方法；若否，則選擇此分詞路徑中最短的一個(gè)，然后，判斷此最短分詞路徑是否唯一；若是，則完成漢語(yǔ)語(yǔ)句切分的方法；若否，則根據(jù)一詞語(yǔ)詞頻庫(kù)，計(jì)算該最短分詞路徑相對(duì)應(yīng)的詞語(yǔ)數(shù)量，確定該最短分詞路徑中最佳的一個(gè)。最后，將最佳的最短分詞路徑輸出。
另外，本發(fā)明也可通過(guò)提供一種漢語(yǔ)語(yǔ)句切分系統(tǒng)來(lái)完成。該系統(tǒng)包括一詞語(yǔ)庫(kù)、一詞語(yǔ)詞頻庫(kù)、一輸入裝置、一切分處理器、以及一輸出裝置。詞語(yǔ)庫(kù)和詞語(yǔ)詞頻庫(kù)分別提供進(jìn)行切分處理時(shí)匹配所需的詞語(yǔ)及詞頻資料。輸入裝置則提供一漢語(yǔ)語(yǔ)句的輸入。切分處理器接收此漢語(yǔ)語(yǔ)句，根據(jù)詞語(yǔ)庫(kù)提供的詞語(yǔ)資料，依次進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞語(yǔ)數(shù)量計(jì)算等步驟。若在進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞語(yǔ)數(shù)量計(jì)算等步驟中，所得到的分詞路徑已屬唯一，則得到一個(gè)分詞結(jié)果。此分詞結(jié)果再經(jīng)輸出裝置輸出。
為使本發(fā)明的上述和其他目的、特征、和優(yōu)點(diǎn)能更明顯易懂，下文將通過(guò)一個(gè)較佳實(shí)施例，并結(jié)合附圖，作如下詳細(xì)說(shuō)明

圖1是根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分系統(tǒng)方塊圖；圖2是根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分方法的流程圖；圖3是應(yīng)用本發(fā)明方法切分一漢語(yǔ)語(yǔ)句“立即解決戰(zhàn)斗”的示意圖；以及圖4是顯示F(t，N，W)的一個(gè)實(shí)施例的流程圖。
本發(fā)明的漢語(yǔ)語(yǔ)句切分方法采用三個(gè)主要原則第一是分詞與語(yǔ)義無(wú)關(guān)原則，第二是最少分詞優(yōu)先原則，第三是將詞語(yǔ)可能性予以量化原則。
人類在將語(yǔ)句切分成詞語(yǔ)時(shí)，可借助對(duì)語(yǔ)義知識(shí)的累積，以及考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系，但是如果讓計(jì)算機(jī)系統(tǒng)同時(shí)考慮語(yǔ)句與整個(gè)語(yǔ)句的語(yǔ)義關(guān)系，則易陷入互為因果的無(wú)窮循環(huán)中。為避免這種因果循環(huán)的現(xiàn)象，本發(fā)明采用分詞與需經(jīng)切分語(yǔ)句語(yǔ)義無(wú)關(guān)的原則，該原則指將語(yǔ)句切分成詞語(yǔ)時(shí)，不考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系，而僅考慮詞語(yǔ)的匹配和排序。再者，本發(fā)明利用了最少分詞優(yōu)先原則，該原則是指在各種可能的分詞結(jié)果中，優(yōu)先選取詞語(yǔ)數(shù)量最少者，換言之，就是選取最短分詞路徑。另外，將詞語(yǔ)可能性予以量化的原則，是指采用詞頻和詞長(zhǎng)做為可能性量度的參數(shù)，據(jù)以計(jì)算出分詞路徑的詞頻加權(quán)值，以此確定出最佳的最短分詞路徑。因此無(wú)須人類智能的參與，以一般計(jì)算機(jī)處理器及其相關(guān)硬件，便能精準(zhǔn)地切分漢語(yǔ)語(yǔ)句。
參照?qǐng)D1，所示為根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分系統(tǒng)方塊圖。該漢語(yǔ)語(yǔ)句切分系統(tǒng)包括切分處理器10、輸入裝置12、詞語(yǔ)庫(kù)14、詞語(yǔ)詞頻庫(kù)16以及輸出裝置18等等。圖2所示為根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分方法的流程圖。下文結(jié)合圖1，詳細(xì)說(shuō)明圖2的漢語(yǔ)語(yǔ)句切分方法。
參照?qǐng)D2，此方法流程開始后，在步驟20從輸入裝置12輸入漢語(yǔ)語(yǔ)句。然后進(jìn)行到步驟21，由切分處理器10根據(jù)詞語(yǔ)庫(kù)14所具有的詞語(yǔ)資料進(jìn)行詞語(yǔ)匹配，此時(shí)按照前面所述的“分詞與語(yǔ)義無(wú)關(guān)原則”做切分，該原則指在切分漢語(yǔ)語(yǔ)句成若干詞語(yǔ)時(shí)，并不考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系，而僅考慮詞語(yǔ)的匹配和排序，此經(jīng)詞語(yǔ)匹配后的分詞路徑可能是唯一，也可能匹配出多種可能的分詞路徑。
接著，在步驟22判斷經(jīng)步驟21匹配后得出的分詞路徑是否唯一。若所匹配后得到的分詞路徑是唯一的，則前進(jìn)至步驟26，將該分詞結(jié)果經(jīng)輸出裝置18輸出，完成此漢語(yǔ)語(yǔ)句切分過(guò)程；若所匹配后得到的分詞路徑不是唯一的，則前進(jìn)到步驟23，根據(jù)最少分詞優(yōu)先原則，判斷各種匹配所得到的分詞路徑中哪一個(gè)分詞路徑詞語(yǔ)數(shù)量最少，從而據(jù)以選取出分詞路徑最短的一個(gè)。
然后前進(jìn)至步驟24，判斷經(jīng)步驟23所選取的最短分詞路徑是否唯一。若所選取的最短分詞路徑唯一，則直接轉(zhuǎn)至步驟26，將分詞結(jié)果經(jīng)輸出裝置18輸出，完成此漢語(yǔ)語(yǔ)句切分過(guò)程；如果所選取的最短分詞路徑不是唯一的，則切分處理器10前進(jìn)到步驟25，根據(jù)詞語(yǔ)詞頻庫(kù)16選擇最短分詞路徑中最佳的一個(gè)。步驟25是根據(jù)詞語(yǔ)可能性量化原則，采用詞頻和詞長(zhǎng)做為可能性量度參數(shù)，據(jù)以計(jì)算出分詞路徑的詞頻加權(quán)值，據(jù)以確定出最佳最短分詞路徑。步驟25選出最佳最短分詞路徑，然后經(jīng)輸出裝置18輸出，完成此漢語(yǔ)語(yǔ)句切分過(guò)程。
以下就步驟21分詞與語(yǔ)義無(wú)關(guān)原則、步驟23最少分詞優(yōu)先原則、步驟25將詞語(yǔ)可能性予以量化原則等，以舉例方式詳細(xì)說(shuō)明。
分詞與語(yǔ)義無(wú)關(guān)原則為能實(shí)現(xiàn)步驟21的詞語(yǔ)匹配，本發(fā)明的較佳實(shí)施例定義一函數(shù)Ma(t，L，V)，其以t為輸入?yún)?shù)，L和V為輸出參數(shù)。其中，t表示漢語(yǔ)語(yǔ)句的文字字串內(nèi)某字符前的節(jié)點(diǎn)(后面詳述)序號(hào)；L表示以該字符起始，所匹配成功的最長(zhǎng)詞語(yǔ)的詞長(zhǎng)；V表示詞長(zhǎng)為L(zhǎng)的可變匹配向量，可表為V={V(1)，V(2)，……，V(L)}。具體地說(shuō)，對(duì)于節(jié)點(diǎn)t與其后L個(gè)節(jié)點(diǎn)間所包含的L個(gè)字符，若匹配成功的詞長(zhǎng)為k(k=1，2，……，L)，則V(k)=1，若匹配不成功的詞長(zhǎng)為k(k=1，2……，L)，則V(k)=max。例如，以語(yǔ)句“亂七八槽”為例，以字符“亂”起始，所能匹配成功最長(zhǎng)詞語(yǔ)的詞長(zhǎng)為四，其中，字符“亂”可以看做是一單字詞，故V(1)=1；“亂七”無(wú)法匹配構(gòu)成詞語(yǔ)，故V(2)=max；“亂七八”也無(wú)法匹配構(gòu)成詞語(yǔ)，故V(3)=max；“亂七八槽”可匹配構(gòu)成詞語(yǔ)，故V(4)=1。因此，V={1，max，max，1}。
再者，參照?qǐng)D3，其以一漢語(yǔ)語(yǔ)句為例解釋分詞語(yǔ)義無(wú)關(guān)原則。假設(shè)所需切分的語(yǔ)句具有n個(gè)字符，則節(jié)點(diǎn)數(shù)為n+1個(gè)。圖3所示的漢語(yǔ)語(yǔ)句為“立即解決戰(zhàn)斗”，包括六個(gè)字符，分別為“立”、“即”、“解”、“決”、“戰(zhàn)”、“斗”等六字，故節(jié)點(diǎn)數(shù)為七個(gè)，分別以標(biāo)號(hào)“1、2、3、4、5、6、7”表示。如圖3所示，節(jié)點(diǎn)1位于“立”之前，節(jié)點(diǎn)2位于“立”和“即”之間，節(jié)點(diǎn)3位于“即”和“解”之間，節(jié)點(diǎn)4位于“解”和“決”之間，節(jié)點(diǎn)5位于“決”和“戰(zhàn)”之間，節(jié)點(diǎn)6位于“戰(zhàn)”和“斗”之間，而節(jié)點(diǎn)7位于“斗”字之后。
如圖2步驟21所示，由切分處理器10根據(jù)詞語(yǔ)庫(kù)14所具有的詞語(yǔ)資料進(jìn)行詞語(yǔ)匹配，即直接以分詞語(yǔ)義無(wú)關(guān)原則做切分。值得一提的是，根據(jù)本發(fā)明的較佳實(shí)施例，每一個(gè)字符都可以看做是一單字詞。故經(jīng)步驟21處理后，可能切分成如圖3所示的分詞路徑8，由節(jié)點(diǎn)1→節(jié)點(diǎn)3→節(jié)點(diǎn)5→節(jié)點(diǎn)7，切分成“立即／／解決／／戰(zhàn)斗／／”；亦或可能如圖3所示的分詞路徑9，由節(jié)點(diǎn)1→節(jié)點(diǎn)3→節(jié)點(diǎn)4→節(jié)點(diǎn)6→節(jié)點(diǎn)7，切分成“立即／／解／／決戰(zhàn)／／斗”。當(dāng)然也可依節(jié)點(diǎn)1→節(jié)點(diǎn)2→節(jié)點(diǎn)3→節(jié)點(diǎn)4→節(jié)點(diǎn)5→節(jié)點(diǎn)6→節(jié)點(diǎn)7的路徑，就每一單字詞切分，即成“立／／即／／解／／決／／戰(zhàn)／／斗／／”，然這種切分結(jié)果通常不是最短路徑，故不予考慮。
然而為能清楚說(shuō)明起見，首先定義幾個(gè)術(shù)語(yǔ)?！岸吸c(diǎn)”指兩節(jié)點(diǎn)間依特定方向，自起始節(jié)點(diǎn)至末端節(jié)點(diǎn)間，依據(jù)分詞與語(yǔ)義無(wú)關(guān)原則切分后，任一分詞路徑都需經(jīng)過(guò)的節(jié)點(diǎn)?！白侄巍敝竷上噜彾吸c(diǎn)間所包括的字串?！岸伍L(zhǎng)”指字段所具有的字符數(shù)。如圖3所示，節(jié)點(diǎn)1、3、7即為段點(diǎn)，“立即”和“解決戰(zhàn)斗”分別屬一字段，而這二字段的段長(zhǎng)分別為二和四。
若以Ma(t，L，V)表示圖3段點(diǎn)、字段、以及段長(zhǎng)等概念，則對(duì)于段點(diǎn)1而言，以Ma(1，L，V)函數(shù)表示后，其L等于二。字符“立”可以看做是一單字詞，故V(1)=1；“立即”亦可匹配構(gòu)成詞語(yǔ)，故V(2)=1，因此V={1，1}。就段點(diǎn)3而言，以Ma(3，L，V)函數(shù)表示后，其L等于四。字符“解”可以看做是一單字詞，故V(1)=1；“解決”可匹配構(gòu)成詞語(yǔ)，故V(2)=1；“解決戰(zhàn)”也無(wú)法匹配構(gòu)成詞語(yǔ)，故V(3)=max；“解決戰(zhàn)斗”可匹配構(gòu)成詞語(yǔ)，故V(4)=1。因此，V={1，1，max，1}。若t為字段的終點(diǎn)，則需滿足以下兩個(gè)條件(1)執(zhí)行Ma(t-1，L，V)后，L=1，V={1}；以及(2)對(duì)任一節(jié)點(diǎn)t1，若t1＜t，則執(zhí)行Ma(t1，L，V)后，t1+L≤t。
條件(1)表示字段終點(diǎn)前的字符可以是單字詞，但不能與后一個(gè)字符構(gòu)成詞語(yǔ)。條件(2)表示字段終點(diǎn)前的字符可以是詞尾，但不能連同前一字符和后一字符構(gòu)成詞語(yǔ)。因此，根據(jù)上述方法，便可依據(jù)分詞與詞義無(wú)關(guān)原則，實(shí)現(xiàn)步驟21根據(jù)詞語(yǔ)庫(kù)14進(jìn)行詞語(yǔ)的匹配。由于根據(jù)詞語(yǔ)庫(kù)14切分漢語(yǔ)語(yǔ)句成若干詞語(yǔ)時(shí)，僅考慮詞語(yǔ)的匹配和排序，此經(jīng)詞語(yǔ)匹配后的分詞路徑可能是唯一的，也可能匹配出多種可能的分詞路徑。圖3示出兩種分詞路徑8和9。
最少分詞優(yōu)先原則如圖2所示，步驟22判斷經(jīng)步驟21匹配后的分詞路徑是否唯一。若所匹配得到的分詞路徑是唯一的，則直接至步驟26，將分詞結(jié)果經(jīng)輸出裝置18輸出，完成此漢語(yǔ)語(yǔ)句切分的方法；若所匹配得到的分詞路徑不是唯一的，則前進(jìn)到步驟23，配合最少分詞優(yōu)先原則，在各種匹配得到的各分詞路徑中，優(yōu)先選取詞語(yǔ)數(shù)量最少的一個(gè)，換句話說(shuō)，即選擇最短路徑者。如圖3所示，存在兩種分詞路徑8和9，故前進(jìn)到步驟23，以最少分詞優(yōu)先原則選擇分詞路徑最短的一個(gè)。
本發(fā)明所采用的最少分詞優(yōu)先原則，在于尋求解決包含n個(gè)字符的漢語(yǔ)語(yǔ)句切分后最短路徑的問(wèn)題，簡(jiǎn)言之，即為尋求K個(gè)段長(zhǎng)分別為L(zhǎng)1、L2、……、LK等字段的最短路徑問(wèn)題。因此，可以定義函數(shù)F(t，N，W)，其以t為輸入?yún)?shù)，N和W為輸出參數(shù)。其中，t表示漢語(yǔ)語(yǔ)句文字字串的節(jié)點(diǎn)序號(hào)；N為包含兩個(gè)元素的一維數(shù)值，其中，N[1]表示以該字符為首的字段長(zhǎng)度，N[2]表示該字段所含詞語(yǔ)的個(gè)數(shù)。W為一個(gè)可變長(zhǎng)數(shù)值，其維數(shù)表示最短路徑所包含的詞語(yǔ)數(shù)，而數(shù)組中每一元素依序表示相對(duì)應(yīng)詞語(yǔ)的長(zhǎng)度。此步驟的時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)成正比。
現(xiàn)在參照?qǐng)D4對(duì)F(t，N，W)的一個(gè)實(shí)施例進(jìn)行說(shuō)明。在此流程圖中除了使用前面描述的幾個(gè)符號(hào)外，還用到另外幾個(gè)變量，下面對(duì)它們略作解釋。
r是一個(gè)計(jì)數(shù)器，表示對(duì)V中第幾個(gè)字符進(jìn)行操作，在V(r)=1時(shí)，r表示匹配成功的詞長(zhǎng)；I表示當(dāng)前所操作的節(jié)點(diǎn)指針；buffer是一個(gè)分詞路徑緩沖區(qū)，用于保存多個(gè)中間分詞路徑；m是W的初值，m=(1，1，1，1……)。
下面參照?qǐng)D4，并以“乒乓球拍賣完了”為例對(duì)最少分詞優(yōu)先原則進(jìn)行解釋。對(duì)于“乒乓球拍賣完了”這個(gè)語(yǔ)句，在利用Ma(t，L，V)判斷后可分成兩個(gè)字段乒乓球拍賣／／完了。下面僅對(duì)第一個(gè)字段“乒乓球拍賣”的處理過(guò)程進(jìn)行說(shuō)明，對(duì)其他字段的處理可以同樣的方式進(jìn)行。
在步驟41，將有關(guān)變量，I，N，buffer置為0，字段起點(diǎn)指向節(jié)點(diǎn)t，W=m=(1，1，1，1，1)。
在步驟42，將I增1，I+t指向要處理的字段“乒乓球拍賣”，然后執(zhí)行Ma(I+t，L，V)。對(duì)所例示的字段進(jìn)行所述處理的結(jié)果是L=4，V=(1，1，1，1)。
在步驟43，判斷當(dāng)前字段是否處理完，即L是否為0；如果當(dāng)前字段尚未處理完，則進(jìn)入步驟44，否則轉(zhuǎn)入步驟50。對(duì)于例示的字段，由于L=4，因此進(jìn)入步驟44。
在步驟44，判斷當(dāng)前處理的字符串是否為單字，即L是否為1；如果L為1，則不進(jìn)行最少分詞處理，返回步驟42。在本例中，由于L=4，因此流程進(jìn)入步驟45。
在步驟45，令變量r=2，即從當(dāng)前指針?biāo)赶虻淖址暮笠粋€(gè)字符開始后續(xù)處理。
在步驟46，判斷當(dāng)前字符是否可與其前面的相關(guān)字符匹配成短語(yǔ)，即判斷V(r)是否等于1。
如果步驟46的判斷結(jié)果為是，則進(jìn)入步驟47，48進(jìn)行路徑計(jì)算，否則轉(zhuǎn)入步驟49。
在解釋步驟47，48之前，我們首先介紹buffer的結(jié)構(gòu)。變量buffer用于存儲(chǔ)要進(jìn)行處理的所有路徑(包括W，但是W是一個(gè)特殊的路徑，我們?cè)谙旅嬉獙?duì)其介紹)，以n表示其中所存儲(chǔ)的路徑個(gè)數(shù)。分別以temp
，temp[1]，…，temp[n-1]表示其中存儲(chǔ)的n條路徑。
我們現(xiàn)在用偽碼表示步驟47，48的處理過(guò)程。
FOR i=0；i＜n；i++／／搜索buffer中的全部路徑IF(temp[i]
+temp[i][1]+…+temp[i][k])=I&&temp[i][k]=1／／尋找變量kTHEN用r取代temp[i]中從第k個(gè)元素開始的r個(gè)元素生成一個(gè)新的路徑；將該新路徑存入buffer以取代temp[i]；ENDIF簡(jiǎn)言之，就是尋找出在buffer中所存儲(chǔ)的一個(gè)路徑中與當(dāng)前I對(duì)應(yīng)的一個(gè)變量k，然后用r取代在所尋找出的路徑中的從第k個(gè)元素開始的r個(gè)元素，生成新的路徑。這里需要說(shuō)明的是，W雖然是buffer中的一個(gè)路徑，但它是一個(gè)特殊的路徑，主要用于在尋找變量k時(shí)進(jìn)行比較，并且不被新的路徑更新。
在步驟49，判斷是否已將V中的元素處理完畢，如果處理完畢，則轉(zhuǎn)移到步驟42，否則重復(fù)步驟46，47，48。
現(xiàn)在仍然以上面的例子“乒乓球拍賣”，說(shuō)明步驟46，47，48的處理過(guò)程。
在對(duì)于字段“乒乓球拍賣”初次進(jìn)入循環(huán)46，47，48時(shí)，I=1，W=(1，1，1，1，1)，buffer中只有一個(gè)路徑W。由于V(2)=1，因此進(jìn)入步驟46，參看上述偽碼，我們發(fā)現(xiàn)只有k=0才符合IF中的判斷條件，因此用r=2取代W中的從k=0開始的兩個(gè)元素，因?yàn)閃不能被更新，所以建立一個(gè)新的路徑(2，1，1，1)。
由于L=4，r++=3＜L，V中的元素尚未處理完，該過(guò)程返回步驟46，由于V(3)=1，重復(fù)步驟47，48，其結(jié)果是k=0，產(chǎn)生第二個(gè)路徑(3，1，1)。然后r++=4＜=L，該過(guò)程再次返回步驟46，由于V(4)=1，再次進(jìn)入步驟47，48。其中發(fā)現(xiàn)k=0，產(chǎn)生第三條路徑(4，1)。
接下來(lái)，由于r++=5＞L，該過(guò)程返回步驟42，在執(zhí)行了步驟42之后，I=2(對(duì)“乓”進(jìn)行操作)，L=1，V=(1)。由于L=1表示該字為單字，經(jīng)過(guò)步驟44后該過(guò)程返回步驟42。
再次執(zhí)行步驟42之后，I=3(對(duì)“球”進(jìn)行操作)，L=2，V=(1，1)。然后過(guò)程又進(jìn)入45，46，47，48對(duì)V，buffer，W操作，其處理方式與上面的描述完全相同，這里不再贅述，對(duì)I=3處理的結(jié)果是在buffer中存儲(chǔ)了四條路徑(1，1，2，1)，(2，2，1)，(3，1，1)，(4，1)。然后該過(guò)程返回步驟42。對(duì)I=4處理的結(jié)果是在buffer中存儲(chǔ)有五條路徑(1，1，1，2)，(1，1，2，1)，(2，2，1)，(3，2)，(4，1)。然后該過(guò)程又返回步驟42。
對(duì)于I=5，L=1，V=(1)，由于L=1，對(duì)于單字不進(jìn)行路徑處理，過(guò)程返回步驟42。
對(duì)于I=6，執(zhí)行Ma(I+t，L，V)之后，由于L=0，該過(guò)程從步驟43轉(zhuǎn)移到步驟50。
在步驟50中，選出buffer中所有最短路徑，并將其存入W。從上面的說(shuō)明中，我們知道在buffer中共有五條路徑，其中最短的路徑有兩條(3，2)，(4，1)。
因此在步驟50，51之后，W中有兩條路徑路徑1W=(3，2)，N[1]=5，N[2]=2；路徑2W=(4，1)，N[1]=5，N[2]=2；其中W=(3，2)表示該字段分為長(zhǎng)度分別為3和2的兩個(gè)詞。W=(4，1)表示該字段分為長(zhǎng)度分別為4和1的兩個(gè)詞詞語(yǔ)可能性量化原則然而，經(jīng)過(guò)步驟23處理后，所選取的最短分詞路徑不是唯一時(shí)，例如，語(yǔ)句“乒乓球拍賣完了”經(jīng)步驟23處理后，可切分為“乒乓球／／拍賣／／完／／了／／”或“乒乓球拍／／賣／／完／／了／／”。較有爭(zhēng)議的字串“乒乓球拍賣”，在經(jīng)執(zhí)行F(1，N，W)后，雖然N[1]等于5、N[2]等于2、W也是二維，但是，W值一個(gè)為{3，2}，另一個(gè)為{4，1}，由此可知，上述兩種切分方式均屬最短路徑。因此，必須再經(jīng)步驟25進(jìn)行詞頻加權(quán)值的計(jì)算，以確定出最佳的最短分詞路徑。
為實(shí)現(xiàn)對(duì)最佳的最短分詞路徑的確認(rèn)，本發(fā)明利用詞語(yǔ)詞頻庫(kù)16，將詞語(yǔ)的可能性予以量化，采用詞頻和詞長(zhǎng)作為可能性量度的參數(shù)。假設(shè)語(yǔ)句的文字字串S=X1X2X3……Xn，X1、X2、X3、……、Xn表示構(gòu)成語(yǔ)句的n個(gè)字符，經(jīng)步驟23處理后，最短分詞路徑A將字串S切分為W1W2W3……Wk等k個(gè)詞語(yǔ)，而這k個(gè)詞語(yǔ)的頻度分別為P1、P2、P3、……、Pk，其詞長(zhǎng)分別為L(zhǎng)1、L2、L3、……Lk，L1+L2+L3+……+Lk=n。據(jù)此，定義一詞頻加權(quán)函數(shù)g(S，A)如下g(S，A)=f(L1，P1)+f(L2，P2)+f(L3，P3)+……+f(Lk，Pk)。
此式表示以最短分詞路徑A切分字串S的詞頻加權(quán)函數(shù)，而f(L，P)稱為關(guān)于詞頻P和詞長(zhǎng)L的詞頻加權(quán)函數(shù)。根據(jù)本發(fā)明方法，詞頻加權(quán)函數(shù)f(L，P)定義成若L=1，f(L，P)=P；若L＞1 f(L，P)=CP，C為一常數(shù)，最好是5以上的正整數(shù)。因此，只要確定適當(dāng)?shù)脑~頻加權(quán)函數(shù)f(L1，P1)、f(L2，P2)、f(L3，P3)……或f(Lk，Pk)等，即可計(jì)算出每個(gè)切分詞語(yǔ)的詞頻加權(quán)數(shù)值，再將每個(gè)詞語(yǔ)的詞頻加權(quán)數(shù)值相加，就可以對(duì)各種可能切分結(jié)果進(jìn)行可能性的排序，據(jù)此選擇最短分詞路徑中可能性最高的。因此，步驟25根據(jù)詞語(yǔ)詞頻選擇最短路徑中最佳的一個(gè)，根據(jù)本發(fā)明的較佳實(shí)施例，就是選擇將每個(gè)詞語(yǔ)的詞頻加權(quán)數(shù)值相加后得到的詞頻加權(quán)函數(shù)g(S，A)為最大的一個(gè)。
若以上述語(yǔ)句“乒乓球拍賣完了”為例，經(jīng)步驟23處理后，有兩種切分情況，分別為“乒乓球／／拍賣／／完／／了／／”或“乒乓球拍／／賣／／完／／了／／”。若詞語(yǔ)“乒乓球”、“拍賣”、“完”、“了”相對(duì)應(yīng)的詞頻分別為0．00080、0．00019、0．03425、1．81942等，常數(shù)C等于7，則切分“乒乓球／／拍賣／／完／／了”的詞頻加權(quán)數(shù)值即為g1=0．00080×7+0．00019×7+0．03425+1．81942=1．8606；若詞語(yǔ)“乒乓球拍”、“賣”、“完”、“了”相對(duì)應(yīng)之詞頻分別辦0．00012、0．01127、0．03425、1．81942等，常數(shù)C等于7，則切分“乒乓球拍／／賣／／完／／了／／”之詞頻加權(quán)數(shù)值即為g2=0．00012×7+0．01127+0．03425+1．81942=1．86578。
由于g2＞g1，故選擇切分結(jié)果“乒乓球拍／／賣／／完／／了／／”輸出。
當(dāng)然，以詞頻加權(quán)數(shù)值做為選擇最佳最短分詞路徑的依據(jù)，其精確度要依賴詞語(yǔ)詞頻庫(kù)內(nèi)各詞語(yǔ)的詞頻資料。詞頻資料來(lái)自于實(shí)際上對(duì)語(yǔ)言使用的統(tǒng)計(jì)，和本發(fā)明方法無(wú)關(guān)，故對(duì)于如何建立詞語(yǔ)詞頻庫(kù)在此不再贅述。
綜合上述，本發(fā)明的漢語(yǔ)語(yǔ)句切分的方法，采用分詞與需經(jīng)切分語(yǔ)句的語(yǔ)義無(wú)關(guān)原則、以及最少分詞優(yōu)先原則，按照切分所需運(yùn)行時(shí)間的長(zhǎng)短來(lái)排序，優(yōu)先選擇運(yùn)行時(shí)間最短者，尋求最短分詞路徑。若所獲得的最短分詞路徑不唯一，則以詞語(yǔ)的可能性量化原則，采用詞頻和詞長(zhǎng)做為可能性量度的參數(shù)，計(jì)算各個(gè)最短分詞路徑的詞頻加權(quán)數(shù)值，換句話說(shuō)，就是按照可能性大小排序，選擇出最佳的最短分詞路徑。因此，本發(fā)明的漢語(yǔ)語(yǔ)句切分的方法，同時(shí)兼具運(yùn)行時(shí)間短、切分詞語(yǔ)精確度高等優(yōu)點(diǎn)。
雖然本發(fā)明以一個(gè)較佳實(shí)施例的方式進(jìn)行了說(shuō)明，然而其目的并非限制本發(fā)明，本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下，可進(jìn)行各種修改和變形，因此本發(fā)明的保護(hù)范圍應(yīng)以所附的權(quán)利要求書為準(zhǔn)。
權(quán)利要求
1．一種漢語(yǔ)語(yǔ)句切分方法，包括下列步驟(a)輸入一漢語(yǔ)語(yǔ)句，該漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一文字字串；(b)根據(jù)一詞語(yǔ)庫(kù)，對(duì)該文字字串進(jìn)行詞語(yǔ)匹配；(c)判斷經(jīng)匹配后的分詞路徑是否唯一；若是，則完成該漢語(yǔ)語(yǔ)句切分過(guò)程；否則，(d)選擇該分詞路徑中最短者；(e)判斷該最短分詞路徑是否唯一，若是，則完成該漢語(yǔ)語(yǔ)句切分過(guò)程；否則(f)根據(jù)一詞語(yǔ)詞頻庫(kù)，選擇該最短分詞路徑可能性最高者；以及(g)輸出該可能性最高的最短分詞路徑。
2．如權(quán)利要求1的方法，其中，步驟(b)是采用詞語(yǔ)與該語(yǔ)句的語(yǔ)義無(wú)關(guān)原則。
3．如權(quán)利要求1的方法，其中，步驟(d)是采用最少分詞優(yōu)先原則。
4．如權(quán)利要求1的方法，其中，步驟(f)是以詞頻加權(quán)數(shù)值來(lái)決定。
5．如權(quán)利要求4的方法，其中，該詞頻加權(quán)數(shù)值是根據(jù)該最短分詞路徑中，所匹配而得到的該詞語(yǔ)的詞長(zhǎng)與詞頻而定。
6．如權(quán)利要求5的方法，其中，若該詞語(yǔ)為單字詞，該詞頻加權(quán)數(shù)值僅包含相對(duì)應(yīng)的該詞頻；若該詞語(yǔ)為非單字詞，則該詞頻加權(quán)數(shù)值為相對(duì)應(yīng)的該詞頻與一加權(quán)常數(shù)的乘積。
7．如權(quán)利要求6的方法，其中，該加權(quán)常數(shù)為大于5的正整數(shù)。
8．一種漢語(yǔ)語(yǔ)句切分系統(tǒng)，包括一詞語(yǔ)庫(kù)和一詞語(yǔ)詞頻庫(kù)，它們分別提供在切分處理時(shí)匹配所需的詞語(yǔ)及詞頻資料；一輸入裝置，用于輸入一漢語(yǔ)語(yǔ)句；一切分處理器，接收該漢語(yǔ)語(yǔ)句，根據(jù)該詞語(yǔ)庫(kù)中該詞語(yǔ)的資料，依序進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞頻加權(quán)數(shù)值計(jì)算；若在進(jìn)行該詞語(yǔ)匹配、選擇最短路徑、以及詞頻加權(quán)數(shù)值計(jì)算中，所得到的分詞路徑為唯一，即屬一分詞結(jié)果；以及一輸出裝置，用以輸出該分詞結(jié)果。
9．如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng)，其中，在該詞語(yǔ)匹配的步驟中采用詞語(yǔ)與該語(yǔ)句的語(yǔ)義無(wú)關(guān)原則。
10．如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng)，其中，在該選擇最短路徑的步驟中采用最少分詞優(yōu)先原則。
11．如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng)，其中，該詞頻加權(quán)值是根據(jù)該最短分詞路徑中，所匹配而得到的該詞語(yǔ)的詞長(zhǎng)與詞頻而定。
12．如權(quán)利要求11的漢語(yǔ)語(yǔ)句切分系統(tǒng)，其中，若該詞語(yǔ)為單字詞，該詞頻加權(quán)數(shù)值僅包含相對(duì)應(yīng)的該詞頻；若該詞頻為非單字詞，則該詞頻加權(quán)數(shù)值為相對(duì)應(yīng)的該詞頻與一加權(quán)常數(shù)的乘積。
13．如權(quán)利要求12的漢語(yǔ)語(yǔ)句切分系統(tǒng)，其中，該加權(quán)常數(shù)為大于5的正整數(shù)。
全文摘要
一種漢語(yǔ)語(yǔ)句切分的方法及系統(tǒng)。其先提供一漢語(yǔ)語(yǔ)句的輸入,此漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一文字字串。再根據(jù)一詞語(yǔ)庫(kù),對(duì)此文字字串進(jìn)行詞語(yǔ)匹配。接著,判斷經(jīng)匹配后的分詞路徑是否唯一;若是,則完成該漢語(yǔ)語(yǔ)句切分的方法;若否,則選擇該多個(gè)分詞路徑中的最短者。然后,判斷該最短分詞路徑是否唯一;若是,則完成該漢語(yǔ)語(yǔ)句切分的方法;若否,則根據(jù)一詞語(yǔ)詞頻庫(kù),計(jì)算該最短分詞路徑相對(duì)應(yīng)的詞語(yǔ)數(shù)量,確定該最短分詞路徑之中的最佳者。最后,將最佳最短分詞路徑輸出。
文檔編號(hào)G06F17/20GK1204811SQ9811841
公開日1999年1月13日申請(qǐng)日期1998年8月13日優(yōu)先權(quán)日1998年8月13日
發(fā)明者張景嵩, 張金玉, 鄭奕申請(qǐng)人:英業(yè)達(dá)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張景嵩;張金玉;鄭奕
技術(shù)所有人：英業(yè)達(dá)股份有限公司
我是此專利的發(fā)明人

上一篇：服務(wù)器側(cè)的異步格式管理的制作方法
上一篇：結(jié)構(gòu)性圖形顯示系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢語(yǔ)分詞系統(tǒng)相關(guān)技術(shù)

nlpir漢語(yǔ)分詞系統(tǒng)相關(guān)技術(shù)

漢語(yǔ)情感詞系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)的制作方法