国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)的制作方法

      文檔序號(hào):6414418閱讀:542來(lái)源:國(guó)知局
      專利名稱:漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音處理技術(shù),特別是涉及一種能對(duì)漢語(yǔ)語(yǔ)句切分予以最佳化的方法及其系統(tǒng),借以提高漢語(yǔ)語(yǔ)句經(jīng)切分后詞語(yǔ)的精確度。
      漢語(yǔ)語(yǔ)句切分處理屬語(yǔ)音處理程序預(yù)處理階段中相當(dāng)重要的一環(huán),是對(duì)語(yǔ)音發(fā)聲的漢語(yǔ)語(yǔ)句所代表的文字字串(字串由若干字符所組成),進(jìn)行適當(dāng)?shù)厍蟹?。若?jīng)切分后的文字字串能精確地表達(dá)出原語(yǔ)義的話,接下來(lái)便可據(jù)此表達(dá)出此漢語(yǔ)語(yǔ)句的抑揚(yáng)頓挫,再經(jīng)語(yǔ)音處理后,便能產(chǎn)生接近真人發(fā)聲的質(zhì)量效果。
      目前,對(duì)于漢語(yǔ)語(yǔ)句切分的方法包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、以及切割標(biāo)志法等數(shù)種。其中,正向最大匹配法是從文字字串的字首開始匹配,每次切分出可匹配的最長(zhǎng)詞,再對(duì)剩余字串重復(fù)這一步驟,直至全部文字字串都經(jīng)過(guò)切分止。逆向最大匹配法是從漢語(yǔ)文字字串字尾開始匹配,每次切分出可匹配的最長(zhǎng)詞,再對(duì)剩余字串重復(fù)這一步驟,直至全部文字字串都經(jīng)過(guò)切分止。雙向最大匹配法為正向最大匹配法和逆向最大匹配法的綜合運(yùn)用,分別執(zhí)行正向最大匹配法和逆向最大匹配法,若二者所切分的結(jié)果不同,則需采用別的方法處理。而逐詞遍歷匹配法是對(duì)整個(gè)文字字串搜尋出最長(zhǎng)詞,切分出可匹配的最長(zhǎng)詞后,再對(duì)剩余字串重復(fù)這一步驟,直至全部文字字串都經(jīng)過(guò)切分止。切割標(biāo)志法則先分析文字字串中僅能做為詞首或詞尾的字符,將其做為分詞標(biāo)志,據(jù)此將字串分割成較短的字串,然后配合其他方法進(jìn)行切分。
      由于正向最大匹配法和逆向最大匹配法,是以單向分別自字首和字尾起進(jìn)行匹配,其時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)(以自然數(shù)n表示)成正比。然而,以此既定順序單向進(jìn)行匹配的方法,并不能確保全部語(yǔ)句切分的最佳化。譬如,以語(yǔ)句“他說(shuō)出去一下”為例,若以正向最大匹配法分析,則經(jīng)切分后為“他//說(shuō)出//去//一下//”(注,本說(shuō)明書皆以“//”做為經(jīng)切分后各詞語(yǔ)間的間隔符號(hào));而以語(yǔ)句“他說(shuō)出去公園的目的”為例,若以逆向最大匹配法分析,則經(jīng)切分后為“他//說(shuō)//出去//公園//的//目的//”。由此可知,正向最大匹配法和逆向最大匹配法,雖屬一種局部最佳化的方法,卻無(wú)法確保全部語(yǔ)句切分的最佳化。
      對(duì)于雙向最大匹配法,其以正向最大匹配法和逆向最大匹配法進(jìn)行分析,雖能給出一些可能出錯(cuò)的詞語(yǔ)成分,譬如以語(yǔ)句“他說(shuō)出去一下”為例,若以雙向最大匹配法進(jìn)行,則經(jīng)切分后為“他//說(shuō)出//去//一下//”、“他//說(shuō)//出去//一下//”等兩種,然后配合別的方法另行處理。然而,對(duì)于不能由正向最大匹配法或逆向最大匹配法切分出的情況,同樣地,也不能確保全部語(yǔ)句經(jīng)切分后得以最佳化,其時(shí)間復(fù)雜性比正向最大匹配法或逆向最大匹配法多出了一倍。
      而逐詞遍歷匹配法不僅不能保證全部語(yǔ)句最佳化,其時(shí)間復(fù)雜性也與語(yǔ)句內(nèi)含字符數(shù)的平方(譬如以n2表示)成正比、甚或更高,故實(shí)際上很少被采用。至于切割標(biāo)志法的時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)(以n表示)成正比。然而由于普遍存在的分詞標(biāo)志并不多見,故據(jù)以將文字字串分割成較短字串的效果,也相當(dāng)?shù)赜邢蕖?br> 因此,本發(fā)明的一個(gè)目的,是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng),其經(jīng)切分后所得到的詞語(yǔ)精確度,比正向或逆向最大匹配法等單向最大匹配法高出兩個(gè)數(shù)量級(jí)。
      本發(fā)明的另一個(gè)目的,是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng),其經(jīng)切分后所得到的詞語(yǔ)精確度,比雙向最大匹配法高。
      本發(fā)明的再一個(gè)目的,是提供一種能將漢語(yǔ)語(yǔ)句切分的方法及其系統(tǒng),其時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)成正比。
      為了達(dá)到上述目的,本發(fā)明可通過(guò)提供一種漢語(yǔ)語(yǔ)句切分的方法來(lái)完成。首先輸入一個(gè)漢語(yǔ)語(yǔ)句,此漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一個(gè)文字字串。再根據(jù)一詞語(yǔ)庫(kù),對(duì)此文字字串進(jìn)行詞語(yǔ)匹配。接著,判斷經(jīng)匹配后的分詞路徑是否唯一;若是,則完成漢語(yǔ)語(yǔ)句切分的方法;若否,則選擇此分詞路徑中最短的一個(gè),然后,判斷此最短分詞路徑是否唯一;若是,則完成漢語(yǔ)語(yǔ)句切分的方法;若否,則根據(jù)一詞語(yǔ)詞頻庫(kù),計(jì)算該最短分詞路徑相對(duì)應(yīng)的詞語(yǔ)數(shù)量,確定該最短分詞路徑中最佳的一個(gè)。最后,將最佳的最短分詞路徑輸出。
      另外,本發(fā)明也可通過(guò)提供一種漢語(yǔ)語(yǔ)句切分系統(tǒng)來(lái)完成。該系統(tǒng)包括一詞語(yǔ)庫(kù)、一詞語(yǔ)詞頻庫(kù)、一輸入裝置、一切分處理器、以及一輸出裝置。詞語(yǔ)庫(kù)和詞語(yǔ)詞頻庫(kù)分別提供進(jìn)行切分處理時(shí)匹配所需的詞語(yǔ)及詞頻資料。輸入裝置則提供一漢語(yǔ)語(yǔ)句的輸入。切分處理器接收此漢語(yǔ)語(yǔ)句,根據(jù)詞語(yǔ)庫(kù)提供的詞語(yǔ)資料,依次進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞語(yǔ)數(shù)量計(jì)算等步驟。若在進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞語(yǔ)數(shù)量計(jì)算等步驟中,所得到的分詞路徑已屬唯一,則得到一個(gè)分詞結(jié)果。此分詞結(jié)果再經(jīng)輸出裝置輸出。
      為使本發(fā)明的上述和其他目的、特征、和優(yōu)點(diǎn)能更明顯易懂,下文將通過(guò)一個(gè)較佳實(shí)施例,并結(jié)合附圖,作如下詳細(xì)說(shuō)明

      圖1是根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分系統(tǒng)方塊圖;圖2是根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分方法的流程圖;圖3是應(yīng)用本發(fā)明方法切分一漢語(yǔ)語(yǔ)句“立即解決戰(zhàn)斗”的示意圖;以及圖4是顯示F(t,N,W)的一個(gè)實(shí)施例的流程圖。
      本發(fā)明的漢語(yǔ)語(yǔ)句切分方法采用三個(gè)主要原則第一是分詞與語(yǔ)義無(wú)關(guān)原則,第二是最少分詞優(yōu)先原則,第三是將詞語(yǔ)可能性予以量化原則。
      人類在將語(yǔ)句切分成詞語(yǔ)時(shí),可借助對(duì)語(yǔ)義知識(shí)的累積,以及考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系,但是如果讓計(jì)算機(jī)系統(tǒng)同時(shí)考慮語(yǔ)句與整個(gè)語(yǔ)句的語(yǔ)義關(guān)系,則易陷入互為因果的無(wú)窮循環(huán)中。為避免這種因果循環(huán)的現(xiàn)象,本發(fā)明采用分詞與需經(jīng)切分語(yǔ)句語(yǔ)義無(wú)關(guān)的原則,該原則指將語(yǔ)句切分成詞語(yǔ)時(shí),不考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系,而僅考慮詞語(yǔ)的匹配和排序。再者,本發(fā)明利用了最少分詞優(yōu)先原則,該原則是指在各種可能的分詞結(jié)果中,優(yōu)先選取詞語(yǔ)數(shù)量最少者,換言之,就是選取最短分詞路徑。另外,將詞語(yǔ)可能性予以量化的原則,是指采用詞頻和詞長(zhǎng)做為可能性量度的參數(shù),據(jù)以計(jì)算出分詞路徑的詞頻加權(quán)值,以此確定出最佳的最短分詞路徑。因此無(wú)須人類智能的參與,以一般計(jì)算機(jī)處理器及其相關(guān)硬件,便能精準(zhǔn)地切分漢語(yǔ)語(yǔ)句。
      參照?qǐng)D1,所示為根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分系統(tǒng)方塊圖。該漢語(yǔ)語(yǔ)句切分系統(tǒng)包括切分處理器10、輸入裝置12、詞語(yǔ)庫(kù)14、詞語(yǔ)詞頻庫(kù)16以及輸出裝置18等等。圖2所示為根據(jù)本發(fā)明的漢語(yǔ)語(yǔ)句切分方法的流程圖。下文結(jié)合圖1,詳細(xì)說(shuō)明圖2的漢語(yǔ)語(yǔ)句切分方法。
      參照?qǐng)D2,此方法流程開始后,在步驟20從輸入裝置12輸入漢語(yǔ)語(yǔ)句。然后進(jìn)行到步驟21,由切分處理器10根據(jù)詞語(yǔ)庫(kù)14所具有的詞語(yǔ)資料進(jìn)行詞語(yǔ)匹配,此時(shí)按照前面所述的“分詞與語(yǔ)義無(wú)關(guān)原則”做切分,該原則指在切分漢語(yǔ)語(yǔ)句成若干詞語(yǔ)時(shí),并不考慮其與整個(gè)語(yǔ)句語(yǔ)義間的關(guān)系,而僅考慮詞語(yǔ)的匹配和排序,此經(jīng)詞語(yǔ)匹配后的分詞路徑可能是唯一,也可能匹配出多種可能的分詞路徑。
      接著,在步驟22判斷經(jīng)步驟21匹配后得出的分詞路徑是否唯一。若所匹配后得到的分詞路徑是唯一的,則前進(jìn)至步驟26,將該分詞結(jié)果經(jīng)輸出裝置18輸出,完成此漢語(yǔ)語(yǔ)句切分過(guò)程;若所匹配后得到的分詞路徑不是唯一的,則前進(jìn)到步驟23,根據(jù)最少分詞優(yōu)先原則,判斷各種匹配所得到的分詞路徑中哪一個(gè)分詞路徑詞語(yǔ)數(shù)量最少,從而據(jù)以選取出分詞路徑最短的一個(gè)。
      然后前進(jìn)至步驟24,判斷經(jīng)步驟23所選取的最短分詞路徑是否唯一。若所選取的最短分詞路徑唯一,則直接轉(zhuǎn)至步驟26,將分詞結(jié)果經(jīng)輸出裝置18輸出,完成此漢語(yǔ)語(yǔ)句切分過(guò)程;如果所選取的最短分詞路徑不是唯一的,則切分處理器10前進(jìn)到步驟25,根據(jù)詞語(yǔ)詞頻庫(kù)16選擇最短分詞路徑中最佳的一個(gè)。步驟25是根據(jù)詞語(yǔ)可能性量化原則,采用詞頻和詞長(zhǎng)做為可能性量度參數(shù),據(jù)以計(jì)算出分詞路徑的詞頻加權(quán)值,據(jù)以確定出最佳最短分詞路徑。步驟25選出最佳最短分詞路徑,然后經(jīng)輸出裝置18輸出,完成此漢語(yǔ)語(yǔ)句切分過(guò)程。
      以下就步驟21分詞與語(yǔ)義無(wú)關(guān)原則、步驟23最少分詞優(yōu)先原則、步驟25將詞語(yǔ)可能性予以量化原則等,以舉例方式詳細(xì)說(shuō)明。
      分詞與語(yǔ)義無(wú)關(guān)原則為能實(shí)現(xiàn)步驟21的詞語(yǔ)匹配,本發(fā)明的較佳實(shí)施例定義一函數(shù)Ma(t,L,V),其以t為輸入?yún)?shù),L和V為輸出參數(shù)。其中,t表示漢語(yǔ)語(yǔ)句的文字字串內(nèi)某字符前的節(jié)點(diǎn)(后面詳述)序號(hào);L表示以該字符起始,所匹配成功的最長(zhǎng)詞語(yǔ)的詞長(zhǎng);V表示詞長(zhǎng)為L(zhǎng)的可變匹配向量,可表為V={V(1),V(2),……,V(L)}。具體地說(shuō),對(duì)于節(jié)點(diǎn)t與其后L個(gè)節(jié)點(diǎn)間所包含的L個(gè)字符,若匹配成功的詞長(zhǎng)為k(k=1,2,……,L),則V(k)=1,若匹配不成功的詞長(zhǎng)為k(k=1,2……,L),則V(k)=max。例如,以語(yǔ)句“亂七八槽”為例,以字符“亂”起始,所能匹配成功最長(zhǎng)詞語(yǔ)的詞長(zhǎng)為四,其中,字符“亂”可以看做是一單字詞,故V(1)=1;“亂七”無(wú)法匹配構(gòu)成詞語(yǔ),故V(2)=max;“亂七八”也無(wú)法匹配構(gòu)成詞語(yǔ),故V(3)=max;“亂七八槽”可匹配構(gòu)成詞語(yǔ),故V(4)=1。因此,V={1,max,max,1}。
      再者,參照?qǐng)D3,其以一漢語(yǔ)語(yǔ)句為例解釋分詞語(yǔ)義無(wú)關(guān)原則。假設(shè)所需切分的語(yǔ)句具有n個(gè)字符,則節(jié)點(diǎn)數(shù)為n+1個(gè)。圖3所示的漢語(yǔ)語(yǔ)句為“立即解決戰(zhàn)斗”,包括六個(gè)字符,分別為“立”、“即”、“解”、“決”、“戰(zhàn)”、“斗”等六字,故節(jié)點(diǎn)數(shù)為七個(gè),分別以標(biāo)號(hào)“1、2、3、4、5、6、7”表示。如圖3所示,節(jié)點(diǎn)1位于“立”之前,節(jié)點(diǎn)2位于“立”和“即”之間,節(jié)點(diǎn)3位于“即”和“解”之間,節(jié)點(diǎn)4位于“解”和“決”之間,節(jié)點(diǎn)5位于“決”和“戰(zhàn)”之間,節(jié)點(diǎn)6位于“戰(zhàn)”和“斗”之間,而節(jié)點(diǎn)7位于“斗”字之后。
      如圖2步驟21所示,由切分處理器10根據(jù)詞語(yǔ)庫(kù)14所具有的詞語(yǔ)資料進(jìn)行詞語(yǔ)匹配,即直接以分詞語(yǔ)義無(wú)關(guān)原則做切分。值得一提的是,根據(jù)本發(fā)明的較佳實(shí)施例,每一個(gè)字符都可以看做是一單字詞。故經(jīng)步驟21處理后,可能切分成如圖3所示的分詞路徑8,由節(jié)點(diǎn)1→節(jié)點(diǎn)3→節(jié)點(diǎn)5→節(jié)點(diǎn)7,切分成“立即//解決//戰(zhàn)斗//”;亦或可能如圖3所示的分詞路徑9,由節(jié)點(diǎn)1→節(jié)點(diǎn)3→節(jié)點(diǎn)4→節(jié)點(diǎn)6→節(jié)點(diǎn)7,切分成“立即//解//決戰(zhàn)//斗”。當(dāng)然也可依節(jié)點(diǎn)1→節(jié)點(diǎn)2→節(jié)點(diǎn)3→節(jié)點(diǎn)4→節(jié)點(diǎn)5→節(jié)點(diǎn)6→節(jié)點(diǎn)7的路徑,就每一單字詞切分,即成“立//即//解//決//戰(zhàn)//斗//”,然這種切分結(jié)果通常不是最短路徑,故不予考慮。
      然而為能清楚說(shuō)明起見,首先定義幾個(gè)術(shù)語(yǔ)?!岸吸c(diǎn)”指兩節(jié)點(diǎn)間依特定方向,自起始節(jié)點(diǎn)至末端節(jié)點(diǎn)間,依據(jù)分詞與語(yǔ)義無(wú)關(guān)原則切分后,任一分詞路徑都需經(jīng)過(guò)的節(jié)點(diǎn)?!白侄巍敝竷上噜彾吸c(diǎn)間所包括的字串?!岸伍L(zhǎng)”指字段所具有的字符數(shù)。如圖3所示,節(jié)點(diǎn)1、3、7即為段點(diǎn),“立即”和“解決戰(zhàn)斗”分別屬一字段,而這二字段的段長(zhǎng)分別為二和四。
      若以Ma(t,L,V)表示圖3段點(diǎn)、字段、以及段長(zhǎng)等概念,則對(duì)于段點(diǎn)1而言,以Ma(1,L,V)函數(shù)表示后,其L等于二。字符“立”可以看做是一單字詞,故V(1)=1;“立即”亦可匹配構(gòu)成詞語(yǔ),故V(2)=1,因此V={1,1}。就段點(diǎn)3而言,以Ma(3,L,V)函數(shù)表示后,其L等于四。字符“解”可以看做是一單字詞,故V(1)=1;“解決”可匹配構(gòu)成詞語(yǔ),故V(2)=1;“解決戰(zhàn)”也無(wú)法匹配構(gòu)成詞語(yǔ),故V(3)=max;“解決戰(zhàn)斗”可匹配構(gòu)成詞語(yǔ),故V(4)=1。因此,V={1,1,max,1}。若t為字段的終點(diǎn),則需滿足以下兩個(gè)條件(1)執(zhí)行Ma(t-1,L,V)后,L=1,V={1};以及(2)對(duì)任一節(jié)點(diǎn)t1,若t1<t,則執(zhí)行Ma(t1,L,V)后,t1+L≤t。
      條件(1)表示字段終點(diǎn)前的字符可以是單字詞,但不能與后一個(gè)字符構(gòu)成詞語(yǔ)。條件(2)表示字段終點(diǎn)前的字符可以是詞尾,但不能連同前一字符和后一字符構(gòu)成詞語(yǔ)。因此,根據(jù)上述方法,便可依據(jù)分詞與詞義無(wú)關(guān)原則,實(shí)現(xiàn)步驟21根據(jù)詞語(yǔ)庫(kù)14進(jìn)行詞語(yǔ)的匹配。由于根據(jù)詞語(yǔ)庫(kù)14切分漢語(yǔ)語(yǔ)句成若干詞語(yǔ)時(shí),僅考慮詞語(yǔ)的匹配和排序,此經(jīng)詞語(yǔ)匹配后的分詞路徑可能是唯一的,也可能匹配出多種可能的分詞路徑。圖3示出兩種分詞路徑8和9。
      最少分詞優(yōu)先原則如圖2所示,步驟22判斷經(jīng)步驟21匹配后的分詞路徑是否唯一。若所匹配得到的分詞路徑是唯一的,則直接至步驟26,將分詞結(jié)果經(jīng)輸出裝置18輸出,完成此漢語(yǔ)語(yǔ)句切分的方法;若所匹配得到的分詞路徑不是唯一的,則前進(jìn)到步驟23,配合最少分詞優(yōu)先原則,在各種匹配得到的各分詞路徑中,優(yōu)先選取詞語(yǔ)數(shù)量最少的一個(gè),換句話說(shuō),即選擇最短路徑者。如圖3所示,存在兩種分詞路徑8和9,故前進(jìn)到步驟23,以最少分詞優(yōu)先原則選擇分詞路徑最短的一個(gè)。
      本發(fā)明所采用的最少分詞優(yōu)先原則,在于尋求解決包含n個(gè)字符的漢語(yǔ)語(yǔ)句切分后最短路徑的問(wèn)題,簡(jiǎn)言之,即為尋求K個(gè)段長(zhǎng)分別為L(zhǎng)1、L2、……、LK等字段的最短路徑問(wèn)題。因此,可以定義函數(shù)F(t,N,W),其以t為輸入?yún)?shù),N和W為輸出參數(shù)。其中,t表示漢語(yǔ)語(yǔ)句文字字串的節(jié)點(diǎn)序號(hào);N為包含兩個(gè)元素的一維數(shù)值,其中,N[1]表示以該字符為首的字段長(zhǎng)度,N[2]表示該字段所含詞語(yǔ)的個(gè)數(shù)。W為一個(gè)可變長(zhǎng)數(shù)值,其維數(shù)表示最短路徑所包含的詞語(yǔ)數(shù),而數(shù)組中每一元素依序表示相對(duì)應(yīng)詞語(yǔ)的長(zhǎng)度。此步驟的時(shí)間復(fù)雜性與語(yǔ)句內(nèi)所含的字符數(shù)成正比。
      現(xiàn)在參照?qǐng)D4對(duì)F(t,N,W)的一個(gè)實(shí)施例進(jìn)行說(shuō)明。在此流程圖中除了使用前面描述的幾個(gè)符號(hào)外,還用到另外幾個(gè)變量,下面對(duì)它們略作解釋。
      r是一個(gè)計(jì)數(shù)器,表示對(duì)V中第幾個(gè)字符進(jìn)行操作,在V(r)=1時(shí),r表示匹配成功的詞長(zhǎng);I表示當(dāng)前所操作的節(jié)點(diǎn)指針;buffer是一個(gè)分詞路徑緩沖區(qū),用于保存多個(gè)中間分詞路徑;m是W的初值,m=(1,1,1,1……)。
      下面參照?qǐng)D4,并以“乒乓球拍賣完了”為例對(duì)最少分詞優(yōu)先原則進(jìn)行解釋。對(duì)于“乒乓球拍賣完了”這個(gè)語(yǔ)句,在利用Ma(t,L,V)判斷后可分成兩個(gè)字段乒乓球拍賣//完了。下面僅對(duì)第一個(gè)字段“乒乓球拍賣”的處理過(guò)程進(jìn)行說(shuō)明,對(duì)其他字段的處理可以同樣的方式進(jìn)行。
      在步驟41,將有關(guān)變量,I,N,buffer置為0,字段起點(diǎn)指向節(jié)點(diǎn)t,W=m=(1,1,1,1,1)。
      在步驟42,將I增1,I+t指向要處理的字段“乒乓球拍賣”,然后執(zhí)行Ma(I+t,L,V)。對(duì)所例示的字段進(jìn)行所述處理的結(jié)果是L=4,V=(1,1,1,1)。
      在步驟43,判斷當(dāng)前字段是否處理完,即L是否為0;如果當(dāng)前字段尚未處理完,則進(jìn)入步驟44,否則轉(zhuǎn)入步驟50。對(duì)于例示的字段,由于L=4,因此進(jìn)入步驟44。
      在步驟44,判斷當(dāng)前處理的字符串是否為單字,即L是否為1;如果L為1,則不進(jìn)行最少分詞處理,返回步驟42。在本例中,由于L=4,因此流程進(jìn)入步驟45。
      在步驟45,令變量r=2,即從當(dāng)前指針?biāo)赶虻淖址暮笠粋€(gè)字符開始后續(xù)處理。
      在步驟46,判斷當(dāng)前字符是否可與其前面的相關(guān)字符匹配成短語(yǔ),即判斷V(r)是否等于1。
      如果步驟46的判斷結(jié)果為是,則進(jìn)入步驟47,48進(jìn)行路徑計(jì)算,否則轉(zhuǎn)入步驟49。
      在解釋步驟47,48之前,我們首先介紹buffer的結(jié)構(gòu)。變量buffer用于存儲(chǔ)要進(jìn)行處理的所有路徑(包括W,但是W是一個(gè)特殊的路徑,我們?cè)谙旅嬉獙?duì)其介紹),以n表示其中所存儲(chǔ)的路徑個(gè)數(shù)。分別以temp
      ,temp[1],…,temp[n-1]表示其中存儲(chǔ)的n條路徑。
      我們現(xiàn)在用偽碼表示步驟47,48的處理過(guò)程。
      FOR i=0;i<n;i++//搜索buffer中的全部路徑IF(temp[i]
      +temp[i][1]+…+temp[i][k])=I&amp;&amp;temp[i][k]=1//尋找變量kTHEN用r取代temp[i]中從第k個(gè)元素開始的r個(gè)元素生成一個(gè)新的路徑;將該新路徑存入buffer以取代temp[i];ENDIF簡(jiǎn)言之,就是尋找出在buffer中所存儲(chǔ)的一個(gè)路徑中與當(dāng)前I對(duì)應(yīng)的一個(gè)變量k,然后用r取代在所尋找出的路徑中的從第k個(gè)元素開始的r個(gè)元素,生成新的路徑。這里需要說(shuō)明的是,W雖然是buffer中的一個(gè)路徑,但它是一個(gè)特殊的路徑,主要用于在尋找變量k時(shí)進(jìn)行比較,并且不被新的路徑更新。
      在步驟49,判斷是否已將V中的元素處理完畢,如果處理完畢,則轉(zhuǎn)移到步驟42,否則重復(fù)步驟46,47,48。
      現(xiàn)在仍然以上面的例子“乒乓球拍賣”,說(shuō)明步驟46,47,48的處理過(guò)程。
      在對(duì)于字段“乒乓球拍賣”初次進(jìn)入循環(huán)46,47,48時(shí),I=1,W=(1,1,1,1,1),buffer中只有一個(gè)路徑W。由于V(2)=1,因此進(jìn)入步驟46,參看上述偽碼,我們發(fā)現(xiàn)只有k=0才符合IF中的判斷條件,因此用r=2取代W中的從k=0開始的兩個(gè)元素,因?yàn)閃不能被更新,所以建立一個(gè)新的路徑(2,1,1,1)。
      由于L=4,r++=3<L,V中的元素尚未處理完,該過(guò)程返回步驟46,由于V(3)=1,重復(fù)步驟47,48,其結(jié)果是k=0,產(chǎn)生第二個(gè)路徑(3,1,1)。然后r++=4<=L,該過(guò)程再次返回步驟46,由于V(4)=1,再次進(jìn)入步驟47,48。其中發(fā)現(xiàn)k=0,產(chǎn)生第三條路徑(4,1)。
      接下來(lái),由于r++=5>L,該過(guò)程返回步驟42,在執(zhí)行了步驟42之后,I=2(對(duì)“乓”進(jìn)行操作),L=1,V=(1)。由于L=1表示該字為單字,經(jīng)過(guò)步驟44后該過(guò)程返回步驟42。
      再次執(zhí)行步驟42之后,I=3(對(duì)“球”進(jìn)行操作),L=2,V=(1,1)。然后過(guò)程又進(jìn)入45,46,47,48對(duì)V,buffer,W操作,其處理方式與上面的描述完全相同,這里不再贅述,對(duì)I=3處理的結(jié)果是在buffer中存儲(chǔ)了四條路徑(1,1,2,1),(2,2,1),(3,1,1),(4,1)。然后該過(guò)程返回步驟42。對(duì)I=4處理的結(jié)果是在buffer中存儲(chǔ)有五條路徑(1,1,1,2),(1,1,2,1),(2,2,1),(3,2),(4,1)。然后該過(guò)程又返回步驟42。
      對(duì)于I=5,L=1,V=(1),由于L=1,對(duì)于單字不進(jìn)行路徑處理,過(guò)程返回步驟42。
      對(duì)于I=6,執(zhí)行Ma(I+t,L,V)之后,由于L=0,該過(guò)程從步驟43轉(zhuǎn)移到步驟50。
      在步驟50中,選出buffer中所有最短路徑,并將其存入W。從上面的說(shuō)明中,我們知道在buffer中共有五條路徑,其中最短的路徑有兩條(3,2),(4,1)。
      因此在步驟50,51之后,W中有兩條路徑路徑1W=(3,2),N[1]=5,N[2]=2;路徑2W=(4,1),N[1]=5,N[2]=2;其中W=(3,2)表示該字段分為長(zhǎng)度分別為3和2的兩個(gè)詞。W=(4,1)表示該字段分為長(zhǎng)度分別為4和1的兩個(gè)詞詞語(yǔ)可能性量化原則然而,經(jīng)過(guò)步驟23處理后,所選取的最短分詞路徑不是唯一時(shí),例如,語(yǔ)句“乒乓球拍賣完了”經(jīng)步驟23處理后,可切分為“乒乓球//拍賣//完//了//”或“乒乓球拍//賣//完//了//”。較有爭(zhēng)議的字串“乒乓球拍賣”,在經(jīng)執(zhí)行F(1,N,W)后,雖然N[1]等于5、N[2]等于2、W也是二維,但是,W值一個(gè)為{3,2},另一個(gè)為{4,1},由此可知,上述兩種切分方式均屬最短路徑。因此,必須再經(jīng)步驟25進(jìn)行詞頻加權(quán)值的計(jì)算,以確定出最佳的最短分詞路徑。
      為實(shí)現(xiàn)對(duì)最佳的最短分詞路徑的確認(rèn),本發(fā)明利用詞語(yǔ)詞頻庫(kù)16,將詞語(yǔ)的可能性予以量化,采用詞頻和詞長(zhǎng)作為可能性量度的參數(shù)。假設(shè)語(yǔ)句的文字字串S=X1X2X3……Xn,X1、X2、X3、……、Xn表示構(gòu)成語(yǔ)句的n個(gè)字符,經(jīng)步驟23處理后,最短分詞路徑A將字串S切分為W1W2W3……Wk等k個(gè)詞語(yǔ),而這k個(gè)詞語(yǔ)的頻度分別為P1、P2、P3、……、Pk,其詞長(zhǎng)分別為L(zhǎng)1、L2、L3、……Lk,L1+L2+L3+……+Lk=n。據(jù)此,定義一詞頻加權(quán)函數(shù)g(S,A)如下g(S,A)=f(L1,P1)+f(L2,P2)+f(L3,P3)+……+f(Lk,Pk)。
      此式表示以最短分詞路徑A切分字串S的詞頻加權(quán)函數(shù),而f(L,P)稱為關(guān)于詞頻P和詞長(zhǎng)L的詞頻加權(quán)函數(shù)。根據(jù)本發(fā)明方法,詞頻加權(quán)函數(shù)f(L,P)定義成若L=1,f(L,P)=P;若L>1 f(L,P)=CP,C為一常數(shù),最好是5以上的正整數(shù)。因此,只要確定適當(dāng)?shù)脑~頻加權(quán)函數(shù)f(L1,P1)、f(L2,P2)、f(L3,P3)……或f(Lk,Pk)等,即可計(jì)算出每個(gè)切分詞語(yǔ)的詞頻加權(quán)數(shù)值,再將每個(gè)詞語(yǔ)的詞頻加權(quán)數(shù)值相加,就可以對(duì)各種可能切分結(jié)果進(jìn)行可能性的排序,據(jù)此選擇最短分詞路徑中可能性最高的。因此,步驟25根據(jù)詞語(yǔ)詞頻選擇最短路徑中最佳的一個(gè),根據(jù)本發(fā)明的較佳實(shí)施例,就是選擇將每個(gè)詞語(yǔ)的詞頻加權(quán)數(shù)值相加后得到的詞頻加權(quán)函數(shù)g(S,A)為最大的一個(gè)。
      若以上述語(yǔ)句“乒乓球拍賣完了”為例,經(jīng)步驟23處理后,有兩種切分情況,分別為“乒乓球//拍賣//完//了//”或“乒乓球拍//賣//完//了//”。若詞語(yǔ)“乒乓球”、“拍賣”、“完”、“了”相對(duì)應(yīng)的詞頻分別為0.00080、0.00019、0.03425、1.81942等,常數(shù)C等于7,則切分“乒乓球//拍賣//完//了”的詞頻加權(quán)數(shù)值即為g1=0.00080×7+0.00019×7+0.03425+1.81942=1.8606;若詞語(yǔ)“乒乓球拍”、“賣”、“完”、“了”相對(duì)應(yīng)之詞頻分別辦0.00012、0.01127、0.03425、1.81942等,常數(shù)C等于7,則切分“乒乓球拍//賣//完//了//”之詞頻加權(quán)數(shù)值即為g2=0.00012×7+0.01127+0.03425+1.81942=1.86578。
      由于g2>g1,故選擇切分結(jié)果“乒乓球拍//賣//完//了//”輸出。
      當(dāng)然,以詞頻加權(quán)數(shù)值做為選擇最佳最短分詞路徑的依據(jù),其精確度要依賴詞語(yǔ)詞頻庫(kù)內(nèi)各詞語(yǔ)的詞頻資料。詞頻資料來(lái)自于實(shí)際上對(duì)語(yǔ)言使用的統(tǒng)計(jì),和本發(fā)明方法無(wú)關(guān),故對(duì)于如何建立詞語(yǔ)詞頻庫(kù)在此不再贅述。
      綜合上述,本發(fā)明的漢語(yǔ)語(yǔ)句切分的方法,采用分詞與需經(jīng)切分語(yǔ)句的語(yǔ)義無(wú)關(guān)原則、以及最少分詞優(yōu)先原則,按照切分所需運(yùn)行時(shí)間的長(zhǎng)短來(lái)排序,優(yōu)先選擇運(yùn)行時(shí)間最短者,尋求最短分詞路徑。若所獲得的最短分詞路徑不唯一,則以詞語(yǔ)的可能性量化原則,采用詞頻和詞長(zhǎng)做為可能性量度的參數(shù),計(jì)算各個(gè)最短分詞路徑的詞頻加權(quán)數(shù)值,換句話說(shuō),就是按照可能性大小排序,選擇出最佳的最短分詞路徑。因此,本發(fā)明的漢語(yǔ)語(yǔ)句切分的方法,同時(shí)兼具運(yùn)行時(shí)間短、切分詞語(yǔ)精確度高等優(yōu)點(diǎn)。
      雖然本發(fā)明以一個(gè)較佳實(shí)施例的方式進(jìn)行了說(shuō)明,然而其目的并非限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下,可進(jìn)行各種修改和變形,因此本發(fā)明的保護(hù)范圍應(yīng)以所附的權(quán)利要求書為準(zhǔn)。
      權(quán)利要求
      1.一種漢語(yǔ)語(yǔ)句切分方法,包括下列步驟(a)輸入一漢語(yǔ)語(yǔ)句,該漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一文字字串;(b)根據(jù)一詞語(yǔ)庫(kù),對(duì)該文字字串進(jìn)行詞語(yǔ)匹配;(c)判斷經(jīng)匹配后的分詞路徑是否唯一;若是,則完成該漢語(yǔ)語(yǔ)句切分過(guò)程;否則,(d)選擇該分詞路徑中最短者;(e)判斷該最短分詞路徑是否唯一,若是,則完成該漢語(yǔ)語(yǔ)句切分過(guò)程;否則(f)根據(jù)一詞語(yǔ)詞頻庫(kù),選擇該最短分詞路徑可能性最高者;以及(g)輸出該可能性最高的最短分詞路徑。
      2.如權(quán)利要求1的方法,其中,步驟(b)是采用詞語(yǔ)與該語(yǔ)句的語(yǔ)義無(wú)關(guān)原則。
      3.如權(quán)利要求1的方法,其中,步驟(d)是采用最少分詞優(yōu)先原則。
      4.如權(quán)利要求1的方法,其中,步驟(f)是以詞頻加權(quán)數(shù)值來(lái)決定。
      5.如權(quán)利要求4的方法,其中,該詞頻加權(quán)數(shù)值是根據(jù)該最短分詞路徑中,所匹配而得到的該詞語(yǔ)的詞長(zhǎng)與詞頻而定。
      6.如權(quán)利要求5的方法,其中,若該詞語(yǔ)為單字詞,該詞頻加權(quán)數(shù)值僅包含相對(duì)應(yīng)的該詞頻;若該詞語(yǔ)為非單字詞,則該詞頻加權(quán)數(shù)值為相對(duì)應(yīng)的該詞頻與一加權(quán)常數(shù)的乘積。
      7.如權(quán)利要求6的方法,其中,該加權(quán)常數(shù)為大于5的正整數(shù)。
      8.一種漢語(yǔ)語(yǔ)句切分系統(tǒng),包括一詞語(yǔ)庫(kù)和一詞語(yǔ)詞頻庫(kù),它們分別提供在切分處理時(shí)匹配所需的詞語(yǔ)及詞頻資料;一輸入裝置,用于輸入一漢語(yǔ)語(yǔ)句;一切分處理器,接收該漢語(yǔ)語(yǔ)句,根據(jù)該詞語(yǔ)庫(kù)中該詞語(yǔ)的資料,依序進(jìn)行詞語(yǔ)匹配、選擇最短路徑、以及詞頻加權(quán)數(shù)值計(jì)算;若在進(jìn)行該詞語(yǔ)匹配、選擇最短路徑、以及詞頻加權(quán)數(shù)值計(jì)算中,所得到的分詞路徑為唯一,即屬一分詞結(jié)果;以及一輸出裝置,用以輸出該分詞結(jié)果。
      9.如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng),其中,在該詞語(yǔ)匹配的步驟中采用詞語(yǔ)與該語(yǔ)句的語(yǔ)義無(wú)關(guān)原則。
      10.如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng),其中,在該選擇最短路徑的步驟中采用最少分詞優(yōu)先原則。
      11.如權(quán)利要求8的漢語(yǔ)語(yǔ)句切分系統(tǒng),其中,該詞頻加權(quán)值是根據(jù)該最短分詞路徑中,所匹配而得到的該詞語(yǔ)的詞長(zhǎng)與詞頻而定。
      12.如權(quán)利要求11的漢語(yǔ)語(yǔ)句切分系統(tǒng),其中,若該詞語(yǔ)為單字詞,該詞頻加權(quán)數(shù)值僅包含相對(duì)應(yīng)的該詞頻;若該詞頻為非單字詞,則該詞頻加權(quán)數(shù)值為相對(duì)應(yīng)的該詞頻與一加權(quán)常數(shù)的乘積。
      13.如權(quán)利要求12的漢語(yǔ)語(yǔ)句切分系統(tǒng),其中,該加權(quán)常數(shù)為大于5的正整數(shù)。
      全文摘要
      一種漢語(yǔ)語(yǔ)句切分的方法及系統(tǒng)。其先提供一漢語(yǔ)語(yǔ)句的輸入,此漢語(yǔ)語(yǔ)句是由多個(gè)字符所組成的一文字字串。再根據(jù)一詞語(yǔ)庫(kù),對(duì)此文字字串進(jìn)行詞語(yǔ)匹配。接著,判斷經(jīng)匹配后的分詞路徑是否唯一;若是,則完成該漢語(yǔ)語(yǔ)句切分的方法;若否,則選擇該多個(gè)分詞路徑中的最短者。然后,判斷該最短分詞路徑是否唯一;若是,則完成該漢語(yǔ)語(yǔ)句切分的方法;若否,則根據(jù)一詞語(yǔ)詞頻庫(kù),計(jì)算該最短分詞路徑相對(duì)應(yīng)的詞語(yǔ)數(shù)量,確定該最短分詞路徑之中的最佳者。最后,將最佳最短分詞路徑輸出。
      文檔編號(hào)G06F17/20GK1204811SQ9811841
      公開日1999年1月13日 申請(qǐng)日期1998年8月13日 優(yōu)先權(quán)日1998年8月13日
      發(fā)明者張景嵩, 張金玉, 鄭奕 申請(qǐng)人:英業(yè)達(dá)股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1