專利名稱::一種基于類型論的漢語分詞方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基于類型論的漢語分詞方法,屬于計算機應(yīng)用
技術(shù)領(lǐng)域:
。
背景技術(shù):
:所謂分詞,就是把一個句子按照其中詞的含義進行切分。與英文不同,漢語中最小的單位不是詞而是字,但具有一定語義的最小單位卻是詞。而中文文本在書面表達或在計算機內(nèi)部表示時,字與字之間、詞與詞之間并沒有明顯的切分標(biāo)志,即漢語句子中詞與詞之間的邊界標(biāo)志是隱含的,而中文信息處理的諸多重要領(lǐng)域如篇章理解、機器翻譯、文本校對等都要求在詞這-'層面上進行處理。因此,就具有了漢語分詞這-任務(wù)。漢語分詞技術(shù)已成為中文信息處理技術(shù)中的最為基礎(chǔ)的課題。H前國內(nèi)諸多科研機構(gòu)和公司都針對漢語分詞的特點提出過各種各樣的模型、方法。總的來說,這些方法可以分為三類基于規(guī)則的方法;基于統(tǒng)計的方法;規(guī)則、統(tǒng)計相結(jié)合的方法。每一類方法中,又包含各種各樣的模型。例如基于規(guī)則的方法中有最大匹配分詞、基于錯誤驅(qū)動的詞性標(biāo)注、基于規(guī)則的命名實體識別等方法;基于統(tǒng)計的方法包括,n-gram模型分詞、隱馬爾科夫(HMM)詞性標(biāo)注與最大熵(ME)模型等;統(tǒng)計與規(guī)則相結(jié)合的混合方法,則主要是綜合利用語言統(tǒng)計信息與語言本身的知識,往往具有更好的性能,如釆用層次隱馬爾科夫模型、采用基于類的語言模型等。雖然諸多學(xué)者對漢語分詞都提出了自己的處理方法,但是根據(jù)目前的各種方法設(shè)計的漢語分詞系統(tǒng)對丁-交叉歧義、組合歧義的消解和未登錄詞的識別這兩大分詞難點仍然沒有完全解決。交叉歧義和組合歧義,這兩種歧義屬于句法層面的歧義,其定義如下定義若漢字字串ABC能被分割為AB/C或A/BC兩種形式,其中AB和BC都詞典L中的詞,則稱字串ABC具有交叉歧義。若漢字字串AB能分割為AB或A/B兩種形式,其中AB,A和B都是詞典L中的詞,則稱字串AB是組合歧義。未登錄詞則主耍是指根據(jù)詞典不能正確識別出的詞。10現(xiàn)有分詞技術(shù)中語義理解的成分都不是很多,因此,在開放測試下對未登錄詞(人名、地名、商標(biāo)名等詞典中沒有的詞)的正確識別程度遠不能令人滿意,沒有一種技術(shù)手段在識別的過程中可以自動檢測識別出的未登錄詞是否正確,對于組合歧義和交叉歧義消解的各種方案在開放測試下也不能得到令人滿意的準(zhǔn)確度和召回率。而且現(xiàn)有的分詞方法,往往是針對漢語分詞中兩大瓶頸問題(未登錄詞和消歧)的一個而設(shè)計,甚至解決的只是一個瓶頸問題的局部(如針對人名識別提出的模型,針對交叉歧義提出的模型等),很少方法是在個統(tǒng)一的理論框架下解決漢語分詞的兩大難題。類型論是上世紀初英國邏輯學(xué)家羅素(B.Russell)為排除集合論悖論而提出的一種關(guān)于類的邏輯理論。以蒙太格語義學(xué)為代表的邏輯語義學(xué)把語句的句法分析和語義解釋看成是同構(gòu)的。即認為詞的組合成句及其語義的模型論解釋有著一一對應(yīng)的關(guān)系,也就是說,語義解釋是從句法代數(shù)到語義代數(shù)的同構(gòu)映像。類型論使得這種同構(gòu)映像成為可能。類型論方法是分析自然語言形容詞,副詞,命題態(tài)度同和限定詞的量化語義特征的有力工具。基本類型論中,類型的定義如下定義類型的集合S是最小集,使得(1)e,teS;(2)如果a,beS,那么〈a,b〉eS;此外,S中不包含其他元素;其中,e,t為基本類型,e代表個體,t代表真值。此定義說明的是e,t是類型,e和t復(fù)合所生成的是類型;兩個類型進行復(fù)合得到的也是類型。例如,et是類型;et和et進行復(fù)合得到的仍然是類型(et(et))。在簡單類型論中,類型所對應(yīng)的表達種類和解釋如下表l.簡單類型論中的類型設(shè)計<table>tableseeoriginaldocumentpage11</column></row><table>表l中各種類型在自然語言中所對應(yīng)的詞類如下e代表專名;et代表不及物動詞,不及物動詞是et類型,在直觀上可以理解為在不及物動詞前面加上-個個體名詞則成為一個句子;tt通常是否定詞,如并非。tt類型在直觀上可以理解為具有tt類型的詞在其右邊加上一個句子則還是一個句子;et(et)通常代表副詞,表達的是,其右邊如果是類型為et的不及物動詞,則副詞和不及物動詞一起形成一個類型為et的動詞短語。目前不少邏輯學(xué)家和語言學(xué)家都在對類型論進行研究。邏輯學(xué)家的研究集中在構(gòu)造類型系統(tǒng),語言學(xué)家對類型論的研究主要集中在用類型論對一些語言句法結(jié)構(gòu)進行解釋。但是總的來說目前類型論的研究主要在理論層面。將類型論引入到漢語分詞領(lǐng)域,在本發(fā)明之前,仍屬空白。
發(fā)明內(nèi)容本發(fā)明的目的在于吸收類型論思想提出一種全新的基于類型論的漢語分詞方法。本發(fā)明吸收邏輯學(xué)中類型論的思想,并在此理論框架下,以類型函數(shù)貼合為主要算法,融合了全切分、統(tǒng)計、前后綴識別信息等多種技術(shù)手段,漢語類型系統(tǒng)以及合并算法等技術(shù)模型來實現(xiàn)歧義消解(既包括交叉歧義和組合歧義也包括真歧義)和未登錄詞識別。本發(fā)明在分類上屬于規(guī)則、統(tǒng)計相結(jié)合的方法。本發(fā)明的-種基于類型論的漢語分詞方法整體框架設(shè)計流程如圖1所示。具體實現(xiàn)歩驟如下步驟一、給出相關(guān)概念的定義定義l:漢語類型的集合S是最小集,使得(1)e和t為基本類型;f為輔助類型;(2)如果a,b為輔助類型之外的類型,則(ab)為類型。(3)如果a,b之中存在輔助類型,若a,b之間存在匹配規(guī)則,則(ab)為類型。其中f={fl,G,fi,f4,n,q,p,s,x}。其中,fl,f2,fi主要指函數(shù)類型;x類型主耍包括助動詞,嘆詞,擬聲詞,助詞,語氣詞等,n指數(shù)詞;q指量詞;p,s分別指前、后綴。定義2(函數(shù)貼合)令g是類型為ab的表達式,如果a是類型為a的表達式,那么g(a),g(b)分別是類型為b和a的表達式。定義3:—個句子是真歧義的當(dāng)且僅當(dāng)有兩種不同的切分方式使得每一種類型函數(shù)貼合后的結(jié)果都是t。在本發(fā)明中,要解決的歧義消解問題不僅包括交叉歧義和組合歧義,還包括真歧義。真歧義是語義層面的歧義。定義4:一個切分是正確的,當(dāng)且僅當(dāng)存在一種類型貼合方式使得類型函數(shù)貼合的最后結(jié)果是t。一個切分是可接受的,當(dāng)且僅當(dāng)它存在一種類型貼合方式可以得到一個類型函數(shù)貼合結(jié)果。步驟二、進行漢語全類型設(shè)計在步驟一相關(guān)概念定義的基礎(chǔ)上,根據(jù)漢語的語言學(xué)知識、句法特點及分詞系統(tǒng)的實際需要,進行漢語全類型設(shè)計。漢語全類型具體設(shè)計如表2。表2.本發(fā)明中的漢語全類型設(shè)計表<table>tableseeoriginaldocumentpage13</column></row><table>肯,好,甭,(不)該,(不)愿意,(不)情愿,(不)樂意,(不)想,(不)準(zhǔn),(不)許形容詞At,fl,e,t(eit)美麗,高,干干凈凈......副詞eit(e,t),f2非常,很,極其,已經(jīng)......否定詞tt并非,不(且要位于句首.否則是副詞)......限定詞t(e,t)fe),t(e,t)e2至少,多數(shù),不超過,幾乎......數(shù)詞n1,2'—,—-......比例數(shù)詞n,cio%,rr分之十......量詞q個,只,頭......數(shù)量詞nq={et,et(et),e2}二只,兩頭......代詞已2人稱代詞你,我.他,t^M,別人,人家,人家......疑問代詞什么,準(zhǔn),哪兒......指示代詞Si,s3這,那,這個,那個......連詞eee,t(tt),ejt(e,'t)(e,t)和,(并)且,伊(是),而,可是......介詞類型ece,f3自,從,以,當(dāng),為,按照,由于,對于'為了,到,跟,把,比,在,關(guān)于,除了,對,向,往,朝......助詞x,f4的、地、得.著,了.也,過,似的.一樣,一般,給,連,所,們,況目-,再說,......擬盧詞X狎、嘩嘩、叮半嘆詞X啊,哎,喂,噢......語氣詞X了,吧,嗎,呢......每一種類型設(shè)計都是語言學(xué)知識的體現(xiàn)。例如趨向動詞(分為簡單趨向動詞(上,下,來,去)和復(fù)雜趨向動詞(起來,出去)),它們既可以單獨做謂語,也可以在別的動詞或形容詞后作趨向補語。因為其可以在動詞后作補語,故將其類型設(shè)計為ejt(eit)。形容詞后作補語的情況不用另外加類型,因為形容14詞的類型有e;t(eit),可以和eit匹配。其可以單獨作謂語,故其也具有ejt類型。步驟三、構(gòu)造詞典在步驟二漢語全類型設(shè)計完成的基礎(chǔ)上,構(gòu)造詞典。本發(fā)明的詞典中,每個詞具有的要素是類型而不再是詞性。詞典中每一詞條的結(jié)構(gòu)為<詞,類型>;詞典在內(nèi)容上與其他漢語分詞詞典的差別為本發(fā)明中的詞典中沒有只具有名詞類型的單字詞,且只有很少的單字形容詞(這是由于在現(xiàn)實語料中,單字名詞和部分形容詞作為一個獨立詞正確出現(xiàn)的幾率非常小,但它們給未登錄詞識別帶來的困難卻非常大)。當(dāng)詞典中沒有的單字名詞或單字形容詞出現(xiàn)時,將它視為未登錄詞。通過歩驟六中的合并算法處理。步驟四、對輸入的句子進行全切分在步驟三詞典構(gòu)造完成的基礎(chǔ)上,對輸入的句子進行全切分。具體操作為第(l)歩根據(jù)歩驟三中構(gòu)造的詞典,對輸入的句子進行全切分。本發(fā)明中使用己有的全切分算法對輸入的句子進行全切分。第(2)歩根據(jù)最短路徑優(yōu)先原則和無未登錄詞切分優(yōu)先原則將全切分的結(jié)果進行排序。步驟五、識別前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段根據(jù)歩驟四中全切分的排序結(jié)果,依次進行前后綴類型、未登錄詞和交叉歧義字段、組合歧義字段識別。判斷可以有以下情況情況l:如果切分序列既沒有前后綴類型,又沒有未登錄詞,也沒有交叉歧義、組合歧義字段,則直接將排序在第一的切分序列輸出;情況2:如果有前后綴類型或未登錄詞則進入步驟六,執(zhí)行合并算法;情況3:如果只具有交叉歧義或組合歧義字段,不具有前后綴類型,不具有未登錄詞,則進入步驟七,執(zhí)行類型函數(shù)貼合算法。前后綴類型詞和未登錄詞通過和本發(fā)明構(gòu)造的詞典進行匹配而識別出。詞典中沒有的詞則是未登錄詞,詞典中詞的類型是p類型,則是前綴類型,詞典中詞的類型為S則是后綴類型。交叉歧義、組合歧義識別則通過已有方法進行判斷(1)令S:dC2…Cn是需要切分的字符串,檢測是否至少存在兩種不同的切分路徑Sl-W!W廣'Wn和S2=W,,W2,...Wm,,其中W,,Wj,eLexiCon。(2)如果存在至少兩種不同的切分路徑,且wjnw,'是兩種切分下第一個不同的詞,若W,的長度大于W/的長度,且Wi,+Wi+1'的長度大于W,的長度,則稱字串w,'wi+1'是s中第一個具有交叉歧義的字串。(3)如果W/+W1+l,的長度等于Wi的長度,則稱字串W,'Wi+1,是S中第一個具有組合歧義的字段。步驟六、執(zhí)行合并算法在步驟五前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別的基礎(chǔ)上,對"有前后綴類型或未登錄詞"的情況執(zhí)行合并算法。未登錄詞主要包括a.人名、地名、商標(biāo)名等;b.重疊詞,如高高興興、研究研究;C.派生詞,如"一次性用品";d.與領(lǐng)域相關(guān)的術(shù)語,如"互聯(lián)網(wǎng)";e.外來詞的翻譯,以及縮寫詞等等。未登陸詞的識別對于各種漢語處理系統(tǒng)不僅有直接的實用意義,而且起到基礎(chǔ)性的作用。眾所周知,由于未登錄詞的標(biāo)志不明顯,組成限制方面很弱,且經(jīng)常與毗鄰的詞之間具有交叉歧義或組合歧義,因此未登錄詞的識別一向是漢語分詞研究屮的難點。本發(fā)明巾,在處理未登錄詞時,對于人名,地名,商標(biāo)名,像其它分詞系統(tǒng)一樣,也充分利用了其具有的前后綴參照,例如,我們通過前綴輔助類型來作為人名的初始識別判斷條件之一;用后綴輔助類型作為地名和商標(biāo)名的初始判斷條件之一。在未登錄詞合并算法中,主要處理了下面三種情況Casel.type(C,)^p;其中C,是預(yù)合并單詞的詞頭;Case2:type(C,)=s;其中d是預(yù)合并單詞的詞尾;Case3:type(Ci)-',;此處"p,s,?"只是一種表示方法,也可以選擇其他的符號體系來表達。每一種情況又包含數(shù)種子情況(對于預(yù)合并單詞的詞頭是p類型,預(yù)合并單詞的詞尾是s類型的情況,我們在算法編寫過程中歸入到了第一種情況進行處理)??紤]到越界問題,本發(fā)明將Casel又分為以下三種情況來處理-Casel.l:d后只有Cw;Casel.2:Ci后只有Cw,Ci+2;Casel.3:d后多于Cw,Ci+2;Case2:也同樣分為Case2.1:d前只有Q.!且不是p類型Case2.2:d前只有Cw,Ci_2;Case2.3:Q前只有C",d—2,d.3;在每種情況下又將Cj(j=i-1,i-2,i+2,i+3……)分為未登錄詞,單字詞,多字詞幾種情況來處理。是單字詞時,又細分為是否具有連詞類型,介詞類型,判定動詞類型幾種子情況。為了平衡算法的復(fù)雜度和實際中需要解決的程度,本發(fā)明著重處理了四字以下的人名、地名、商標(biāo)名。僅以"如果C,只有s類型(即后綴類型),G前只有Cw,Ci—2,Q.3"這種情況為例,給出我們處理的子情況(1)如果C,只有s類型,Cw不具有p類型且為多字詞,Q.t為未登錄詞,或單字詞,或多字詞,則將CwC,合并為e;(2)如果C'只有s類型,Cm,C,-2均為未登錄詞,C,—3為多字詞則2CwC,合并為e;(3)如果d只有s類型,Cw,d.2均為未登錄詞,Q.3為單字詞且不是介詞、動詞,則C,—3C,.2CwCi合并為e;(4)如果d只有s類型,Cw,Q.2均為未登錄詞,d.3為單字詞且為介詞,則C,2Q—iCi合并為e;(5)如果d只有s類型,C卜,為未登錄詞,C,-2為單字詞且不是介詞,不是"是,的,在,把,從",則C,.2Cwd合并為e;(6)如果C,只有s類型,C卜i為未登錄詞,Ca為單字詞且是介詞或是"是,的,在,把,從",則C,.iC,合并為e;(7)如果G只有s類型,d是未登錄詞,C.2不具有p類型且為多字詞,則將Cwd合并為e;(8)如果C,只有s類型,Cw為單字詞,d.2為單字詞且是介詞或是"是,的,在,把,從",則C,—id合并為e;⑨如果C,只有s類型,Cw為單字詞,Ci.2為單字詞且不是介詞不是"是,的,在,把,從",則dd合并為e,進行類型函數(shù)貼合,有結(jié)果則輸出;無17結(jié)果則將C,—2Cwd合并為e;(10)如果d只有s類型,Cw為單字詞,C,-2為多字詞,則C"d合并為e;(11)如果d只有s類型,Cw為多字詞,則CwC,合并為e;(12)如果C,只有s類型,C,前只有Ci-,,Q-2,Cw,;C,-,,C,-2,Cj-3都是未登錄詞,則d-3C^Cwd合并為e。步驟七、執(zhí)行類型函數(shù)貼合算法首先制定類型函數(shù)貼合算法的類型貼合規(guī)則,然后在步驟五前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別的基礎(chǔ)上,對"只有歧義(這里指交叉歧義或組合歧義)"的情況和歩驟六中執(zhí)行合并算法后的結(jié)果,執(zhí)行類型函數(shù)貼合算法。類型函數(shù)貼合算法中的類型貼合規(guī)則,主要是根據(jù)語言學(xué)知識所進行的設(shè)計。規(guī)則設(shè)計的合理度和全面度直接影響著分詞系統(tǒng)的準(zhǔn)確度。本發(fā)明的類型貼合規(guī)則如下ap(3^>a;aaP3卩;axa;xaoc;xx=i>fla^>a;f2f1。f1;^q。e;nce£3^>fl;etf4^f2;etef4^>f2;f2£2^f2;e2e,其中有a出現(xiàn)的為規(guī)則模式,即a可以替換為任意類型,其他為具體規(guī)則。如果切分序列類型函數(shù)貼合的結(jié)果是t,則說明是正確的切分。如果切分序列類型函數(shù)貼合存在最后的類型則是可以接受的切分。具體算法如下第(l)步讀取類型序列;第(2)步對類型序列中相鄰類型(從第一個類型開始),運用上述類型貼合規(guī)則逐步進行貼合,直到不再有可以貼合的相鄰類型為止。第(3)步對貼合結(jié)果進行判斷,如果只有一種切分是正確切分則直接輸出;如果兩種切分都是正確切分,則進行步驟八統(tǒng)計校正;如果不存在正確切分,存在可以接受的切分,則輸出可以接受的切分;如果既不存在正確切分也不存在可以接受的切分,則輸出步驟四中全切分后排在第一個的序列作為切分結(jié)果。一個合法的句子總是可以匹配成t的,本發(fā)明中設(shè)計出"可以接受的切分",是考慮到漢語中經(jīng)常使用逗號將一個完整的句子分為幾部分,而對于逗號切分出的部分,匹配結(jié)果應(yīng)該是一個類型(對應(yīng)漢語中的一個成份),這樣可以減少匹配次數(shù),提高分詞效率。步驟八、統(tǒng)計校正在歩驟七執(zhí)行類型函數(shù)貼合算法,判斷出是真歧義時進行統(tǒng)計校正。本發(fā)明采用已有技術(shù)中的詞頻統(tǒng)計方法進行校正。步驟九、輸出結(jié)果對以下三種情況進行輸出(1)在步驟五判斷出既無前后綴類型、又無未登錄詞和歧義字段(交叉歧義、組合歧義)時,直接輸出步驟四中全切分后排在第一個的切分序列;(2)在步驟五判斷出有未登陸詞、或有前(后)綴類型時,執(zhí)行合并算法和函數(shù)貼合算法后判斷出不是真歧義時,直接輸出;(3)在步驟七執(zhí)行類型函數(shù)貼合算法后,判斷出是真歧義時進行統(tǒng)計校正,然后輸出。有益效果1.將類型論引入到漢語分詞領(lǐng)域,在本發(fā)明之前,仍屬空白;2.本發(fā)明使未登陸詞識別和交叉歧義、組合歧義消解這兩大漢語分詞的瓶頸問題在同一理論框架下得到一定解決;將句法層面的交叉歧義和組合歧義以及語義層面的真歧義在同一理論框架下得到一定解決。193.由于本發(fā)明中的詞典和其他漢語分詞詞典相比,一個很大的特點是刪除了大量的單字詞,因此無未登錄詞切分優(yōu)先原則在處理交叉歧義時可以大大提高效率,同時,在對于其他情況的切分中,也可以大量減少切分路徑;4.在未登陸詞識別的過程中可以自動檢測識別出的未登錄詞是否正確;5.本發(fā)明大大提高了未登陸詞識別和歧義字段識別的準(zhǔn)確率。圖1為本發(fā)明的一種基于類型論的漢語分詞方法整體框架設(shè)計流程圖。具體實施例方式根據(jù)上述技術(shù)方案,下面結(jié)合實例對本發(fā)明進行詳細說明。例句張如果真來了。對于此例句,雖然字數(shù)不多,但是對漢語分詞任務(wù)來說卻是一個復(fù)雜的例子。因為,張是p類型,因此涉及到前綴類型的處理,人名"張如果(或張如)"涉及到未登錄詞合并問題,"如果真"又是一個連續(xù)交叉歧義字段;通過類型函數(shù)貼合我們又可以發(fā)現(xiàn),這個句子也是一個真歧義句子。我們下面來分析,如何通過本發(fā)明中的方法來對其進行正確切分。步驟一、給出相關(guān)概念的定義步驟二、漢語類型設(shè)計我們的漢語類型系統(tǒng)中,"張"的類型為p,"如果"的類型是eee,t(tt),eit(eit)(eit),"果真"的類型是eee,t(tt),eit(eit)(eit),e,t(ejt),f2(因為"果真"既是連詞又是副詞),"如"的類型是eee,t(tt),e^(ejt)(eit),"真"的類型是e;t,fl,e妖eit),eit(eit),f2(因為"真"既是形容詞又是副詞),"來"的類型是沐eit(eit)("來"是趨向動詞),"了"的類型是x,f4。步驟三、詞典構(gòu)造"張"、"如"、"如果"、"果真"、"來"、"了"都是我們詞典中的詞,"果"不是詞典中的詞(因為"果"是只具有e類型的單字詞,因此我們的詞典中沒有它)。步驟四、對輸入的句子進行全切分在這一步中,對"張如果真來了"進行全切分,得到(1)張/如果/真/來/了p(eee,t(tt),eit(e;t)(eit"{e;t,f\,e;t(eit),eit(eit),f2}(e;t,eit(e;t"{x,f4}(2)張/如/果真/來/了p{eee,t(tt),ejt(eit)(eit"(eee,t(tt),eit(e(t)(eit),eit(e;t),f2}{eit,eit(eit"(x,f4}步驟五、前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別在這一步中根據(jù)步驟四的結(jié)果,對其進行是否具有未登錄詞、歧義(交叉歧義、組合歧義)的識別。通過詞典的匹配發(fā)現(xiàn)沒有詞典中沒有的詞,但是通過交叉歧義識別算法可以識別出,"如果真"字段是此例中的第一個具有交叉歧義的字段。在這個例子中"張"具有p類型,因此也需要調(diào)用合并算法。步驟六、合并算法根據(jù)我們的合并算法,這屬于p類型單字同為句子首字(不妨將其稱為Cl),即需合并的詞首字,而其后的字段是具有交叉歧義的字段,根據(jù)我們的合并算法,在這種情況下,對兩種情況都要進行類型合并,然后再通過類型函數(shù)貼合進行判斷哪一種是正確的切分。步驟七、類型函數(shù)貼合算法在步驟六中,首先對第一種切分根據(jù)合并算法,將"張"和"如果"合并為e,然后進行類型函數(shù)貼合運算。過程如下張如果真來了p{eee,t(tt),eit(eit)(ejt》{ejt,fheit(e;t),ejt(ejt),f2}{ejt,eit(e!t)){x,f4}c_{eit,eit(eit)}eitt對第二種切分,根據(jù)合并算法,將"張"和"如"合并為e,然后進行類型函數(shù)貼合運算。過程如下張如果真來了p{eee,t(tt),eitfatXejt)}{eee,t(tt),e,t(ejt)(eit),eit(e;t),f2}化t,ejt(e州{x,f4}c_化t,eit(eit)}___e,tt通過類型函數(shù)貼合可以看出,兩種切分都可以匹配出類型t,也就是說在兩種切分下都是合法的句子。因此,"張如果真來了"是真歧義句子。因此要進行統(tǒng)計校正。21步驟八、統(tǒng)計校正在這一步中,我們通過統(tǒng)計同一篇文檔中"張如"和"張如果"出現(xiàn)的頻率來完成校正。如果"張如"比"張如果"出現(xiàn)的頻率大,則判斷此處應(yīng)該為"張如",反之亦然,如果頻率相同,則輸出時兩種切分都反饋給用戶。步驟九、輸出根據(jù)統(tǒng)計校正的結(jié)果,輸出切分序列。對于其他較復(fù)雜的例子,如既有未登錄詞識別又有組合歧義又是真歧義的句子"只有張三才能完成這個任務(wù)";具有連續(xù)交叉歧義的句子"與此前人們對人口紅利消失的擔(dān)心不同,只有當(dāng)中國發(fā)展到剩余勞動人口得到充分吸收,應(yīng)該看到人口紅利的消失對我國經(jīng)濟社會發(fā)展的積極意義。"(其中"此前人們"和"人口紅利"都是連續(xù)交叉歧義,"當(dāng)中國"為三字交叉歧義)等等,識別正確切分的方法也是一樣的。權(quán)利要求1.一種基于類型論的漢語分詞方法,其特征在于其具體實現(xiàn)步驟如下步驟一、給出相關(guān)概念的定義步驟二、進行漢語全類型設(shè)計在步驟一相關(guān)概念定義的基礎(chǔ)上,根據(jù)漢語的語言學(xué)知識、句法特點及分詞系統(tǒng)的實際需要,進行漢語全類型設(shè)計;步驟三、構(gòu)造詞典在步驟二漢語全類型設(shè)計完成的基礎(chǔ)上,構(gòu)造詞典;步驟四、對輸入的句子進行全切分在步驟三詞典構(gòu)造完成的基礎(chǔ)上,對輸入的句子進行全切分;步驟五、識別前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段根據(jù)步驟四中全切分的排序結(jié)果,依次進行前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別;步驟六、執(zhí)行合并算法在步驟五前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別的基礎(chǔ)上,對“有前后綴類型或未登錄詞”的情況執(zhí)行合并算法;步驟七、執(zhí)行類型函數(shù)貼合算法首先制定類型函數(shù)貼合算法的類型貼合規(guī)則,然后在步驟五前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段識別的基礎(chǔ)上,對“只有歧義(這里指交叉歧義或組合歧義)”的情況和步驟六中執(zhí)行合并算法后的結(jié)果,執(zhí)行類型函數(shù)貼合算法;步驟八、統(tǒng)計校正在步驟七執(zhí)行類型函數(shù)貼合算法,判斷出是真歧義時進行統(tǒng)計校正;本發(fā)明采用已有技術(shù)中的詞頻統(tǒng)計方法進行校正;步驟九、輸出結(jié)果。2.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟一中相關(guān)概念的定義為定義l:漢語類型的集合S是最小集,使得(1)e和t為基本類型;f為輔助類型;(2)如果a,b為輔助類型之外的類型,則(ab)為類型;(3)如果a,b之中存在輔助類型,若a,b之間存在匹配規(guī)則,則(ab)為類型;其中f={fl,f2,f3,f4,n,q,p,s,x};其中,fl,f2,f3主要指函數(shù)類型;x類型主要包括助動詞,嘆i司,擬聲詞,助詞,語氣詞等,n指數(shù)詞;q指量詞;p,s分別指前、后綴;定義2(函數(shù)貼合)令g是類型為ab的表達式,如果a是類型為a的表達式,那么g(a),g(b)分別是類型為b和a的表達式;定義3:—個句子是真歧義的當(dāng)且僅當(dāng)有兩種不同的切分方式使得每一種類型函數(shù)貼合后的結(jié)果都是t;定義4:一個切分是正確的,當(dāng)且僅當(dāng)存在一種貼合方式使得類型函數(shù)貼合的最后結(jié)果是t;一個切分是可接受的,當(dāng)且僅當(dāng)它存在一種貼合方式可以得到一個類型函數(shù)貼合結(jié)果。3.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟二中的設(shè)計漢語全類型,如下表所示漢語全類型設(shè)計表<table>tableseeoriginaldocumentpage3</column></row><table><table>tableseeoriginaldocumentpage4</column></row><table>似的,一樣,一般,給,連,所,們,況且,再說,......擬聲詞X砰、嘩嘩、叮當(dāng)嘆詞X啊,哎,喂,噢......語氣詞X了,吧,嗎,呢......4.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟三中的詞典的構(gòu)造方法為每個詞具有的要素是類型,詞典中每一詞條的結(jié)構(gòu)為<詞,類型>。5.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟四中的對輸入的句子進行全切分的具體操作為第(l)步根據(jù)步驟三中構(gòu)造的詞典,使用已有的全切分算法對輸入的句子進行全切分;第(2)步根據(jù)最短路徑優(yōu)先原則和無未登錄詞切分優(yōu)先原則將全切分的結(jié)果進行排序。6.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于歩驟五中的前后綴類型、未登錄詞、交叉歧義或組合歧義字段識別分為三種情況情況l:如果切分序列既沒有前后綴類型,又沒有未登錄詞,也沒有交叉歧義、組合歧義字段,則直接將排序在第一的切分序列輸出;情況2:如果有前后綴類型或未登錄詞則進入步驟六,執(zhí)行合并算法;情況3:如果只具有交叉歧義或組合歧義字段,不具有前后綴類型,不具有未登錄詞,則進入步驟七,執(zhí)行類型函數(shù)貼合算法。前后綴類型詞和未登錄詞通過和步驟三中構(gòu)造的詞典進行匹配7.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟六中的執(zhí)行合并算法的具體操作方法為在處理未登錄詞時,對于人名,地名,商標(biāo)名,充分利用了其具有的前后綴參照,通過前綴輔助類型來作為人名的初始識別判斷條件之一;用后綴輔助類型作為地名和商標(biāo)名的初始判斷條件之一;在未登錄詞合并算法中,主要處理了下面三種情況Casel.type(Ci)=p;其中C,是預(yù)合并單詞的詞頭;Case2:type(Ci)^s;其中G是預(yù)合并單詞的詞尾;Case3:type(Ci)=',;此處"p,s,"只是一種表示方法,也可以選擇其他的符號體系來表達;每一種情況又包含數(shù)種子情況(對于預(yù)合并單詞的詞頭是p類型,預(yù)合并單詞的詞尾是s類型的情況,我們在算法編寫過程中歸入到了第一種情況進行處理);考慮到越界問題,本發(fā)明將Casel又分為以下三種情況來處理Casel.l:d后只有Cw;Casel.2:Q后只有d+t,C1+2;Casel.3:C,后多于C,+,,C1+2;Case2:也同樣分為Case2.1:Q前只有C"且不是p類型Case2.2:d前只有Cj.pCw;Case2.3:G前只有Cw,Cw,在每種情況下又將Cj(j=i-l,i-2,i+l,i+2,i+3……)分為未登錄詞,單字詞,多字詞幾種情況來處理;是單字詞時,又細分為是否具有連詞類型,介詞類型,判定動詞類型幾種子情況;為了平衡算法的復(fù)雜度和實際中需要解決的程度,本發(fā)明著重處理了四字以下的人名、地名、商標(biāo)名;僅以"如果Q只有s類型(即后綴類型),Q前只有Cw,d-2,Cw"這種情況為例,給出我們處理的子情況(1)如果d只有S類型,d—2不具有p類型且為多字詞,C"為未登錄詞,或單字詞,或多字詞,則將CwC,合并為e;(2)如果d只有s類型,Cw,d.2均為未登錄詞,Q—3為多字詞則Ci-2C"1Ci合并為e;(3)如果Q只有s類型,Cw,d—2均為未登錄詞,&3為單字詞且不是介詞、動詞,則CL3d-2Cwd合并為e;(4)如果d只有S類型,d.pG.2均為未登錄詞,d.3為單字詞且為介詞,則C卜2Q.iCi合并為e;(5)如果d只有s類型,Cw為未登錄詞,C,-2為單字詞且不是介詞,不是"是,的,在,把,從",則Ci—2CwCi合并為e;(6)如果d只有s類型,Cw為未登錄詞,C,.2為單字詞且是介詞或是"是,的,在,把,從",則CwQ合并為e;(7)如果C,只有s類型,Cw是未登錄詞,Q.2不具有p類型且為多字詞,則將C卜iQ合并為e;(8)如果d只有s類型,Cw為單字詞,C卜2為單字詞且是介詞或是"是,的,在,把,從",則CwQ合并為e;(9)如果C,只有s類型,Cw為單字詞,Cw為單字詞且不是介詞不是"是,的,在,把,從",則CwCi合并為e,進行類型函數(shù)貼合,有結(jié)果則輸出;無結(jié)果則將CV2CwC,合并為e;(10)如果d只有s類型,Cw為單字詞,d.2為多字詞,貝iJC"d合并為e;(11)如果C,只有s類型,C,-,為多字詞,則C,.A合并為e;(12)如果Ci只有s類型,d前只有Cw,Q-2,d-3,;C卜pd-2,Q.3都是未登錄詞,則d—3CwCwd合并為e。8.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟七中的執(zhí)行類型函數(shù)貼合算法的類型貼合規(guī)則設(shè)計如下a(3p=>a;<formula>formulaseeoriginaldocumentpage8</formula>其中有a出現(xiàn)的為規(guī)則模式,即a可以替換為任意類型,其他為具體規(guī)則;如果切分序列類型函數(shù)貼合的結(jié)果是t,則說明是正確的切分;如果切分序列類型函數(shù)貼合存在最后的類型則是可以接受的切分。9.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于歩驟七中的執(zhí)行類型函數(shù)貼合算法的具體算法如下第(l)步讀取類型序列;第(2)步對類型序列中相鄰類型(從第一個類型開始),運用上述貼合規(guī)則逐步進行貼合,直到不再有可以貼合的相鄰類型為止;第(3)歩對貼合結(jié)果進行判斷,如果只有一種切分是正確切分則直接輸出;如果兩種切分都是正確切分,則進行步驟八統(tǒng)計校正;如果不存在正確切分,存在可以接受的切分,則輸出可以接受的切分;如果既不存在正確切分也不存在可以接受的切分,則輸出默認結(jié)果。10.根據(jù)權(quán)利要求1所述的一種基于類型論的漢語分詞方法,其特征在于步驟九中的輸出結(jié)果分為以下三種情況-(1)在步驟五判斷出既無前后綴類型、又無未登錄詞和歧義字段(交叉歧義、組合歧義)時,直接輸出步驟四中全切分后排在第一個的切分序列;(2)在步驟五判斷出有未登陸詞、或有前(后)綴類型時,執(zhí)行合并算法和函數(shù)貼合算法后判斷出不是真歧義時,直接輸出;(3)在步驟七執(zhí)行類型函數(shù)貼合算法后,判斷出是真歧義時進行統(tǒng)計校正,然后輸出。全文摘要本發(fā)明涉及一種基于類型論的漢語分詞方法,屬于計算機應(yīng)用
技術(shù)領(lǐng)域:
。本發(fā)明吸收邏輯學(xué)中類型論的思想,并在此理論框架下,通過給出相關(guān)概念的定義、進行漢語全類型設(shè)計、構(gòu)造詞典、對輸入的句子進行全切分、識別前后綴類型、未登錄詞、交叉歧義字段、組合歧義字段、執(zhí)行合并算法、執(zhí)行類型函數(shù)貼合算法、統(tǒng)計校正并輸出結(jié)果這樣的一個過程實現(xiàn)了基于類型論的漢語分詞。本發(fā)明使未登陸詞識別和交叉歧義、組合歧義消解這兩大漢語分詞的瓶頸問題在同一理論框架下得到一定解決,同時使句法層面的交叉歧義、組合歧義和語義層面的真歧義也在同一理論框架下得到一定解決,并大大提高了未登陸詞識別和歧義字段識別的準(zhǔn)確率。文檔編號G06F17/27GK101499058SQ200910078879公開日2009年8月5日申請日期2009年3月5日優(yōu)先權(quán)日2009年3月5日發(fā)明者呂樂寧,鵬江,牛振東,郭佳宏,高東平申請人:北京理工大學(xué)