国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種多動詞漢語概念復(fù)合塊的動詞層次分類的方法

      文檔序號:9765938閱讀:579來源:國知局
      一種多動詞漢語概念復(fù)合塊的動詞層次分類的方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域,具體設(shè)及一種多動詞漢語概念復(fù)合塊的動詞 層次分類的方法。
      【背景技術(shù)】
      [0002] 句法分析是自然語言深層次處理的關(guān)鍵問題,目前漢語句子的完全句法分析仍處 于初級階段,作為完全句法分析的中間步驟而提出的組塊分析成為了現(xiàn)階段的研究重點(diǎn)。
      [0003] 漢語塊的研究經(jīng)歷了一個逐步發(fā)展的過程,起初側(cè)重于對基本名詞、介詞短語等 的研究。隨著語料庫的發(fā)展,研究者們提出了各自不同的塊描述體系?,F(xiàn)階段的分析與研究 只關(guān)注句子中相對較簡單、功能相對重要的成分,作為詞法分析與完全句法分析的一個中 間步驟,對于漢語句子中的多動詞句子,并列句式W及定語從句,同樣需要加 W考慮。漢語 句子由充當(dāng)主語、謂語、賓語、狀語、補(bǔ)語等成分的內(nèi)容構(gòu)成。多動詞句子是指在一個漢語描 述句子中,包含的動詞個數(shù)不少于兩個,對于結(jié)構(gòu)和句式簡單的句子,現(xiàn)有的組塊分析器的 功能已經(jīng)可W相對準(zhǔn)確的分析出不同成分的詞與詞之間的關(guān)系。但是句子較長,句式結(jié)構(gòu) 復(fù)雜,包含內(nèi)容豐富的漢語句子,現(xiàn)階段的塊分析器對其處理效果并不理想。而在漢語句子 中,包含兩個及兩個W上動詞的句子占了較大比重,對其進(jìn)行更深層次的分析與處理已成 為句法分析處理的關(guān)鍵。
      [0004] 概念復(fù)合塊是眾多組塊描述體系中的一種,在對其研究與分析的基礎(chǔ)上發(fā)現(xiàn),現(xiàn) 階段的針對概念復(fù)合塊的組塊分析器在對包含多個動詞的句子進(jìn)行分析處理時,其錯誤主 要存在于各個成分間的邊界識別不準(zhǔn)確,如原屬于主語部分的詞語被劃分到謂語或狀語成 分中,原屬于賓語的內(nèi)容被劃分到謂語部分等,由于運(yùn)類情況的存在導(dǎo)致了層次分析錯誤。

      【發(fā)明內(nèi)容】

      [0005] 針對上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技 術(shù)缺陷的多動詞漢語概念復(fù)合塊的動詞層次分類的方法。
      [0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下:
      [0007] -種多動詞漢語概念復(fù)合塊的動詞層次分類的方法,包括W下步驟:
      [0008] 步驟1)對漢語句子進(jìn)行詞語切分和詞性標(biāo)記;
      [0009] 步驟2) W標(biāo)點(diǎn)為分割,將所述句子分割為小句;
      [0010] 步驟3) W所述小句為單位,根據(jù)動詞及詞類間的特征,將所述小句中的多個動詞 進(jìn)行層次劃分;
      [0011] 步驟4)確定所述小句中的動詞是處于同一層次還是不同層次,從而將動詞分為處 于同一層次和處于不同層次的兩類動詞;
      [0012] 步驟5)利用改進(jìn)的CCC分析器對動詞進(jìn)行分析;
      [0013] 步驟6)針對多動詞的小句進(jìn)行分析直到隊(duì)列元素為空為止。
      [0014] 進(jìn)一步地,所述步驟2)中的標(biāo)點(diǎn)為句號、問號和感嘆號。
      [0015] 進(jìn)一步地,所述小句的定義為:在一個包含句號、問號、感嘆號等結(jié)點(diǎn)符號的漢語 句子中,由其內(nèi)部的各個非結(jié)點(diǎn)標(biāo)點(diǎn)符號隔開的句子。
      [0016] 進(jìn)一步地,所述同一層次的定義為:一個包含多動詞的句子中,若動詞出現(xiàn)在同一 個成分塊中,則認(rèn)為運(yùn)些動詞處于同一層次。
      [0017] 進(jìn)一步地,所述不同層次的定義為:一個包含多動詞的句子中,若各個動詞處于不 同的成分塊中,則認(rèn)為各個動詞屬于不同層次。
      [0018] 進(jìn)一步地,所述改進(jìn)的CCC分析器W基本的"移進(jìn)-歸約"模型為實(shí)現(xiàn)概念復(fù)合塊的 分析器的基礎(chǔ),并將針對于多動詞的分析處理模塊結(jié)合起來形成的。
      [0019] 本發(fā)明提供的多動詞漢語概念復(fù)合塊的動詞層次分類的方法,可W減少因動詞的 層次分析錯誤而導(dǎo)致的句子整體層次錯誤,從而提高組塊分析的準(zhǔn)確性,為后續(xù)進(jìn)行復(fù)雜 句的句法語義分析打下了很好的基礎(chǔ),可W很好地滿足實(shí)際應(yīng)用的需要。
      【附圖說明】
      [0020] 圖1為本發(fā)明的流程圖;
      [0021 ]圖2為例句的拓?fù)浣Y(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0022] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖和具體實(shí)施 例對本發(fā)明做進(jìn)一步說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用W解釋本發(fā)明,并不用 于限定本發(fā)明。
      [0023] 如圖1所示,一種多動詞漢語概念復(fù)合塊的動詞層次分類的方法,包括W下步驟:
      [0024] 步驟1)對漢語句子進(jìn)行詞語切分和詞性標(biāo)記;
      [0025] 步驟2) W標(biāo)點(diǎn)為分割,將所述句子分割為小句;
      [0026] 步驟3) W所述小句為單位,根據(jù)動詞及詞類間的特征,將所述小句中的多個動詞 進(jìn)行層次劃分;
      [0027] 步驟4)確定所述小句中的動詞是處于同一層次還是不同層次,從而將動詞分為處 于同一層次和處于不同層次的兩類動詞;
      [00%]步驟5)利用改進(jìn)的CCC分析器對動詞進(jìn)行分析;
      [0029] 步驟6)針對多動詞的小句進(jìn)行分析直到隊(duì)列元素為空為止。
      [0030] 具體地:
      [0031 ] 概念復(fù)合塊(Conc邱t Compound Qiunk,CCC)是由2個或兩個W上的詞語按照一定 的關(guān)聯(lián)關(guān)系組合形成的信息描述單位。CCC的自動分析過程為,輸入已經(jīng)過詞語切分和詞性 標(biāo)注的句子,目標(biāo)是自動分析出其中的不同實(shí)義詞和功能詞組合形成的概念復(fù)合塊。CCC的 定義與已有的組塊分析有較大的區(qū)別,每個CCC由成分和關(guān)系標(biāo)記描述其外部句法功能和 內(nèi)部組合關(guān)系,將句子切分成可W充當(dāng)主、謂、賓語等成分,同時對塊的內(nèi)部給出完整的組 織結(jié)構(gòu),并W二叉樹的形式表示。針對W下的原始句子:中國是多民族國家,中華民族是50 多個民族的總稱。
      [0032] 按照CCC描述體系,該句子被標(biāo)注為:
      [0033] ?中國/nS 是/v[叩-AH[np-AH 多/a 民族/n]國家/n],/wP[np-AH 中華/nR 民 族/n]是/v[叩-AH[np-CO[叩-AH[mp-AH[mba;r-XX 50/m 多/m]個/qN]民族/n]的/uJDE]總 稱/n]a/wE
      [0034] 每個CCC由成分和關(guān)系類型標(biāo)記描述其外部句法功能和內(nèi)部組合關(guān)系,為簡化描 述,采用二叉結(jié)構(gòu)樹標(biāo)注。CCC的最外層的邊界劃分將句子分割成可W充當(dāng)主、謂、賓語成 分,同時對塊內(nèi)部的結(jié)構(gòu)進(jìn)行了完整表示,上述例句的拓?fù)浣Y(jié)構(gòu)如圖2所示。
      [0035] 多動詞漢語概念復(fù)合塊是指句子中包含的動詞個數(shù)大于1個,其構(gòu)成規(guī)則與一般 的句子也有所不同。例如原始句子:從而遭到來自多方面的砰擊。
      [0036] 按照CCC描述體系,該句子應(yīng)標(biāo)注為:
      [0037] ?從而/c遭到/v[噸-A叫噸-C0[vp-肥來自/v[噸-AH多/m方面/n]]的/uJDE]砰 擊/vN]o/VE
      [0038] 按照CCC描述體系,動詞間的組合關(guān)系可分為如下幾類:
      [0039] 類別1:動詞+賓語:典型的謂賓結(jié)構(gòu)句式,如"我/rNP是/v[np-AH中國/nS人/ n]d/wE"
      [0040] 類別2:名詞+動詞:構(gòu)成意思表達(dá)完整的句子或小句內(nèi)容,如"全面/aD貫徹/v[np-AH-EC22[噸-C0[dj-CH 會議/n 提出/v]的AiJDE][噸-AH 各項(xiàng)/rN 任務(wù)/n]]"
      [0041] 類別3:動詞+動詞/形容詞:構(gòu)成典型的述結(jié)式,述趨式,表達(dá)一個動作的結(jié)果或者 一個動作的趨向性,如"不/dN是/v因?yàn)?c[np-AH[np-C0我/rNP的AiJDE]屯、/n][vp-DJ 變/v 軟/a] 了/ye/wE"、"[vp-HA設(shè)及/v 到/v][np-AH 許多/m 方面/n]"
      [0042] 類別4:動詞+賓語+動詞+賓語:構(gòu)成動賓動賓式連續(xù)結(jié)構(gòu),如兼語動詞或者連謂表 達(dá)形式,由兩個動詞共同形成動作或者動作發(fā)生的順序。如"[vp-LW[ vp-HC動用/V [噸-AH [np-AH 省長/n 基金/n][mp-AH 200萬/m 元/qN]]][vp-FH W/c[vp-HC 解決/v[叩-AH [np-CO[np-AH該/;r項(xiàng)目/n]的/uJDE]急需/vN]]]]。/wE"、"[vp-HC使/v[噸-AH壯麗/a青 春/n][vp-AH得W/vM延續(xù)/v]]"W上四個類別涵蓋了單個或多個動詞的構(gòu)成規(guī)則。
      [0043] 在漢語句子中,標(biāo)點(diǎn)符號對句子的表述起著附加說明W及間隔的作用,同樣,在 CCC組塊分析中,W標(biāo)點(diǎn)為分割,將句子分割為小句進(jìn)行具體分析。
      [0044] CCC的分析工作包括CCC邊界界定和CCC的成分和關(guān)系標(biāo)記類型識別。與通常的組 塊分析方法不同,概念復(fù)合塊側(cè)重于句子內(nèi)部的詳細(xì)信息,需給出塊內(nèi)部的完整結(jié)構(gòu),常見 的其他類型的組塊分析器不能滿足對概念復(fù)合塊的分析需求。與完全句法分析相比,概念 復(fù)合塊的分析更關(guān)注于局部語境,描述性更強(qiáng),確定性更好,因而本發(fā)明W基本的"移進(jìn)--歸約(SMff-Reduce,SRr模型為實(shí)現(xiàn)概念復(fù)合塊的分析器(SR CCC Parser)的基礎(chǔ),并將 針對于多動詞的分析處理模塊結(jié)合起來,形成改進(jìn)的CCC分析器(ISR CCC化rser),稱為 Improve-Shift-Reduce,本發(fā)明簡稱ISR,該模型不但能適應(yīng)概念復(fù)合塊的局部語境組合分 析特點(diǎn),容易訓(xùn)練,且其包含了對復(fù)雜句中的多動詞類型句子的分析處理模塊,適應(yīng)性更 強(qiáng),與全局尋優(yōu)的算法相比,該組合方法分析速度快,更能適應(yīng)漢語句子復(fù)雜應(yīng)用中的分析 需求。
      [0045] SR CCC化rser在對包含多個動詞的句子進(jìn)行分析處理時,其錯誤主要存在于各 個成分間的邊界識別不準(zhǔn)確,如原屬于主語部分的詞語被劃分到謂語或狀語成分中,原屬 于賓語的內(nèi)容被劃分到謂語部分等,并因此導(dǎo)致層次分析錯誤。在句子成分識別過程中,一 個重要的特征就是小句的動詞所處位置的確定,在包含多個動詞的小句中,動詞所處成分 的位置確定成為了關(guān)鍵所在。如本發(fā)明第2節(jié)提到的原始句子:從而遭到來自多方面的砰 山O
      [0046] SR CCC化rser分析結(jié)果為:
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1