国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      區(qū)分亞洲語言寫入系統(tǒng)中組織名稱的系統(tǒng)的制作方法

      文檔序號(hào):6349505閱讀:239來源:國知局
      專利名稱:區(qū)分亞洲語言寫入系統(tǒng)中組織名稱的系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及用于從其它字中區(qū)分文本中的名字的系統(tǒng),特別是涉及在亞洲語言寫入系統(tǒng)中從其它字中區(qū)分文本中組織名稱的系統(tǒng)。
      相反,在漢語寫入系統(tǒng)中,字符一般不代表口語字中的單個(gè)發(fā)音。而是用字符代表一種思想或概念。結(jié)果,在漢語寫入系統(tǒng)中,對(duì)應(yīng)于數(shù)千種不同的概念開發(fā)出數(shù)千不同的字符。由于大得多的數(shù)量的字符形成了漢語寫入系統(tǒng),所以漢語寫入系統(tǒng)一般似乎要比大多數(shù)西方國家中使用的寫入系統(tǒng)復(fù)雜得多。
      進(jìn)一步使?jié)h語寫入系統(tǒng)復(fù)雜化的問題在于,是以基本上不變的字符間的間隔將字符組合成句子的。盡管一個(gè)單一的漢語字符可以對(duì)應(yīng)于一個(gè)完整的詞,但是經(jīng)常是兩個(gè)或更多的字符對(duì)應(yīng)于一個(gè)詞。因此,在漢字寫成的句子中單個(gè)詞的相互區(qū)分可能是困難的,因?yàn)閹缀醪荒茏R(shí)別一個(gè)詞在哪里結(jié)束而另一個(gè)詞從哪里開始,也就是說,詞語之間沒有間隔。可以把標(biāo)點(diǎn)符號(hào)作為詞語之間的定界符,例如,句號(hào)或逗號(hào),以及通常用英文書寫的并且出現(xiàn)在由漢字形成的句子中的詞。盡管如此,漢語書寫的句子中一個(gè)詞與下一個(gè)詞之間通常是沒有定界符的。
      在這方面,漢語可能比日語存在更多的問題。初看起來,日語似乎比漢語更復(fù)雜,因?yàn)槿照Z寫入系統(tǒng)使用三個(gè)字符集(1)日本漢字;(2)平假名;和(3)片假名。此外,日語中一些字通常是用英語寫出的。
      在日語中,日本漢字字符相當(dāng)大的部分是基于漢語寫入系統(tǒng)。特別是,日語寫入系統(tǒng)中使用的許多日本漢字字符實(shí)質(zhì)上與代表對(duì)應(yīng)概念的漢語字符相同,盡管發(fā)音通常是完全不同的。因此,在日語中,如同漢語一樣,這種字符一般并不代表口語字中的單個(gè)的發(fā)音。因此,日語書寫系統(tǒng)的復(fù)雜性在于它是由數(shù)千個(gè)不同字符形成的。
      在書寫出的日語中,如同漢語一樣,句子在構(gòu)成句子的字符之間的間隔上基本上沒有變化,即,詞之間沒有間隔。盡管如此,在寫出的日語句子中通常是很容易從其它詞語中區(qū)分出一個(gè)詞的,因?yàn)榇嬖谥硗鈨煞N日語字符集,平假名和片假名。
      平假名和片假名都是語音字母。具體地講,二者都使用了代表口語字中發(fā)音的一組字符。片假名一般在日語書寫系統(tǒng)中用于拼寫日語中使用的外來語詞。除了其它用途之外,平假名一般用作沒有日本漢字的起源于日語的詞,作為主語或賓語的標(biāo)記,顯示“在...”,“在...中”,“在...旁”之類的位置,用于表示所有狀態(tài),和指示時(shí)態(tài)。在寫出的日語句子中,平假名和/或片假名字符通常將日本漢字字符的字彼此分離,從而使比在類似的漢語句子中更容易從其它詞語中區(qū)分出一個(gè)詞。
      例如,為了用日語寫出“孩子的狗”,一個(gè)指示所有的平假名將出現(xiàn)在“孩子”和“狗”的日本漢字字符之間。因此,由于在日語書寫系統(tǒng)中來自日語語音字符集的字符出現(xiàn)在句子中,所以相對(duì)于漢語,日語更容易使詞相互區(qū)分。
      在開發(fā)能夠準(zhǔn)確地處理諸如漢語、日語、韓國語之類的亞洲語書寫系統(tǒng)的文章或文本的信息系統(tǒng)中,遇到了困難。盡管對(duì)于像日語這樣的某些亞洲語言寫入系統(tǒng),這些困難可能不成問題,但是,對(duì)于這些亞洲語言寫入系統(tǒng)一般都存在著困難。
      特別是開發(fā)能夠準(zhǔn)確地從周圍文字材料中區(qū)分出中文人名或組織名稱的信息處理系統(tǒng)一直是一個(gè)難題。這種處理在諸如搜索文章中的關(guān)鍵字或相關(guān)短語以定位有關(guān)一個(gè)特定主題的文章和/或標(biāo)引文章以便于將來文獻(xiàn)檢索的情形中是十分有用的。例如,有人可能希望定位和/或索引有關(guān)一個(gè)特定中國組織的文章。此外,對(duì)于將亞洲語言文本更準(zhǔn)確地計(jì)算機(jī)翻譯成英語之類的另一種語言,這種處理也是十分有用的。
      系統(tǒng)包括可以被處理器存取的數(shù)據(jù)。數(shù)據(jù)至少包括一個(gè)包括經(jīng)常形成組織名稱的第一個(gè)詞的詞的組,和包括經(jīng)常用于形成漢語組織名稱的最后詞的詞的另一個(gè)組。
      系統(tǒng)進(jìn)一步包括安裝在計(jì)算機(jī)上的軟件。當(dāng)計(jì)算機(jī)執(zhí)行軟件時(shí),致使處理器執(zhí)行處理,處理包括識(shí)別已經(jīng)輸入到計(jì)算機(jī)中的漢語文本中的對(duì)應(yīng)于數(shù)據(jù)中的組中的那些詞的詞。處理進(jìn)一步包括比較來自另一個(gè)組的識(shí)別的每個(gè)詞與來自一個(gè)組的識(shí)別的詞的漢語文本中的位置,并且,如果滿足預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與來自一個(gè)組的識(shí)別的詞形成了一個(gè)組織的名稱。此外,處理包括輸出結(jié)果。
      在又一個(gè)方面,在上述比較中,一個(gè)預(yù)定的條件是,對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞必須出現(xiàn)在文本中的對(duì)應(yīng)于一個(gè)組的識(shí)別的詞的后面。在再一個(gè)方面中,在這種比較中,只有當(dāng)兩個(gè)識(shí)別的詞都出現(xiàn)在同一短語中時(shí),才將每個(gè)識(shí)別詞與一個(gè)不同識(shí)別詞的位置比較。在再一個(gè)方面中,在比較中,預(yù)定條件包括對(duì)應(yīng)于另一個(gè)組的兩個(gè)詞不能一同形成一個(gè)組織的名稱。在再一個(gè)方面,預(yù)定的條件包括按順序使用的多個(gè)規(guī)則。
      在另一方面,包括在一個(gè)組中的詞是專有名詞。此外,處理包括識(shí)別出現(xiàn)在漢語文本中的任何英語文本。在這方面,處理比較對(duì)應(yīng)于另一個(gè)組的每個(gè)識(shí)別詞與識(shí)別的英語文本的位置,如果滿足了預(yù)定條件,那么確定對(duì)應(yīng)于另一個(gè)組的識(shí)別詞形成了一個(gè)包括英語文本的組織名稱。
      在一個(gè)附加方面,處理包括根據(jù)數(shù)據(jù)識(shí)別文本中的指示符。指示符用于指出緊跟在文本中一個(gè)識(shí)別出的指示符之后的詞是一個(gè)組織名稱的開始的第一詞,并且以對(duì)應(yīng)于另一個(gè)組的識(shí)別詞結(jié)束。
      在有關(guān)方法或處理過程的方面,本發(fā)明提供了一種用于區(qū)分出現(xiàn)在漢語短語或句子中的組織名稱的處理過程。處理過程包括建立數(shù)據(jù),數(shù)據(jù)至少包括一個(gè)包括用于指示緊接著一個(gè)指示符之后的一個(gè)詞是組織名稱的第一個(gè)詞的指示符的詞的組,和包括經(jīng)常用于形成漢語組織名稱的最后詞的詞的另一個(gè)組。處理過程附加地包括識(shí)別漢字短語或句子中的對(duì)應(yīng)于數(shù)據(jù)的詞。此外,處理包括比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組的識(shí)別的詞在漢語文本中的位置,并且,如果滿足預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與緊接著識(shí)別的詞之前的并且直到,但不包括,來自一個(gè)組的識(shí)別的詞的文本一同形成了一個(gè)組織的名稱。在另一方面,指示符包括逗號(hào),或漢語的所有或時(shí)態(tài)指示符。
      在有關(guān)方法或處理過程的另一方面,處理過程進(jìn)一步包括識(shí)別出現(xiàn)在漢語短語或句子中的任何英語文本,和比較對(duì)應(yīng)于另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的英語文本的位置。如果比較中滿足預(yù)定的條件,那么處理過程確定對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞形成一個(gè)包括英語文本的組織名稱。
      在有關(guān)處理過程的又一個(gè)方面,一個(gè)預(yù)定的條件是對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞必須出現(xiàn)在文本中的對(duì)應(yīng)于一個(gè)組的一個(gè)識(shí)別的詞的后面。在再一個(gè)方面中,預(yù)定條件包括對(duì)應(yīng)于另一個(gè)組的兩個(gè)詞不能一同形成一個(gè)組織的名稱。
      在其它方面,處理過程進(jìn)一步包括識(shí)別文本中專有名詞,并且比較來自另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的專有名詞在文本中的位置。如果在這種比較中滿足預(yù)定的條件,那么處理過程確定來自另一個(gè)組的識(shí)別的詞與一個(gè)識(shí)別的專有名詞形成一個(gè)組織的名稱。在再一個(gè)方面,專有名詞的識(shí)別和比較來自另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的專有名詞在文本中的位置是先于比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組的識(shí)別的詞在漢語文本中的位置之前進(jìn)行的。
      在有關(guān)一種產(chǎn)品方面,本發(fā)明提供了一種用于區(qū)分輸入到計(jì)算機(jī)中的漢語短語或句子中的組織名稱的產(chǎn)品。產(chǎn)品包括一個(gè)具有計(jì)算機(jī)可讀數(shù)據(jù)和記錄在其上的程序邏輯的記錄介質(zhì)。計(jì)算機(jī)數(shù)據(jù)至少包括一包括專有名詞的詞的組,和包括經(jīng)常用于形成漢語組織名稱的最后的詞的詞的另一組。當(dāng)計(jì)算機(jī)執(zhí)行程序邏輯時(shí),致使計(jì)算機(jī)執(zhí)行處理。
      上述處理包括識(shí)別已經(jīng)輸入到計(jì)算機(jī)中的漢語短語或句子中的對(duì)應(yīng)于數(shù)據(jù)中的組中的那些詞的詞。處理進(jìn)一步包括比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組的識(shí)別的詞的在漢語短語或句子中的位置,如果滿足預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與來自一個(gè)組的識(shí)別的詞一同形成了一個(gè)組織的名稱。處理也包括輸出結(jié)果。
      圖8A和8B示出了一個(gè)顯示漢語名詞和名詞短語的例子的表;和圖9示出了一個(gè)顯示一個(gè)漢語短語的例子的表。
      處理器16可以是一個(gè)中央處理單元(CPU),或可以是一個(gè)具有多個(gè)處理器裝置的計(jì)算機(jī)中的多個(gè)處理器。存儲(chǔ)和寄存裝置18包括以下各種器件例如,RAM,ROM,諸如硬盤和/或軟盤之類的盤驅(qū)動(dòng)器,諸如CD和/或DVD驅(qū)動(dòng)器之類的光電驅(qū)動(dòng)器,和閃存卡之類的用于數(shù)據(jù)寄存的其它介質(zhì),例如,COMPACT FLASH、SD(SECURE DIGITAL),MMC(MULTIMEDIA CARD),SMART MEDIA,等等。計(jì)算機(jī)程序邏輯,即,軟件,安裝在計(jì)算機(jī)12上,并且存儲(chǔ)在存儲(chǔ)和寄存裝置18中,以便通過處理器16執(zhí)行。
      將信息輸入到計(jì)算機(jī)12中包括輸入通過存儲(chǔ)和寄存裝置18輸入到系統(tǒng)10中的電子格式的文本。例如,以計(jì)算機(jī)可讀格式寄存在軟盤或其它介質(zhì)上,并且經(jīng)過一個(gè)盤驅(qū)動(dòng)器讀入到系統(tǒng)10中的文本。作為選擇,文本可以通過一個(gè)經(jīng)過調(diào)制解調(diào)器的因特網(wǎng)連接或網(wǎng)絡(luò)連接下載到系統(tǒng)10中。此外,如果計(jì)算機(jī)操作系統(tǒng)適用于漢語文本的鍵盤輸入,那么可以利用鍵盤經(jīng)過計(jì)算機(jī)的輸入端14或其它手工輸入裝置將文本鍵入系統(tǒng)。此外,文本也可以是印刷形式,并且掃描成輸入計(jì)算機(jī)12的電子格式。也可以使用語音識(shí)別軟件將口語或聲頻漢語轉(zhuǎn)換成文本格式。通過任何一種上述技術(shù)和/或其它當(dāng)前可用的技術(shù),將電子格式的漢語文本輸入到計(jì)算機(jī)12中,以便根據(jù)系統(tǒng)10處理。
      系統(tǒng)10最好是使用當(dāng)前可用的分詞和詞性標(biāo)注軟件工作。特別是,在處理漢語文本之前,通過分詞軟件將文本分割成分離的詞。此外,分詞軟件最好也根據(jù)一個(gè)有關(guān)詞語所對(duì)應(yīng)的語言成分的詞典標(biāo)注或標(biāo)記詞語,例如,標(biāo)記出名詞、動(dòng)詞、形容詞、副詞、介詞、連詞等。在分割了文本之后,利用系統(tǒng)10識(shí)別文本中的組織名稱。
      在處理文本中,系統(tǒng)10依賴于大多數(shù)漢語組織名稱所遵照的一些特有特征。這些特有特征之一是,形成大多數(shù)組織名稱的最后的詞是僅從幾百個(gè)不同詞中選擇的。圖2A至2G示出了一個(gè)顯示來自這幾百個(gè)詞的例子的表。例如,許多組織的名稱是以詞“研究所(institute)”或“公司(company)”結(jié)尾的。
      在系統(tǒng)10的開發(fā)中,進(jìn)行了研究,以建立用于區(qū)分出現(xiàn)在漢語文本中的組織名稱的數(shù)據(jù)22。為了容易和快速的搜索和檢索,最好將數(shù)據(jù)安排在一個(gè)數(shù)據(jù)庫22中。最好是將數(shù)據(jù)或數(shù)據(jù)庫22存儲(chǔ)在存儲(chǔ)和寄存裝置18中的硬盤上。但是,數(shù)據(jù)庫22也可以存儲(chǔ)在CD和其它介質(zhì)上,或可以通過網(wǎng)絡(luò)連接在另外的計(jì)算機(jī)上存取。
      數(shù)據(jù)庫22包括經(jīng)常形成大多數(shù)漢語組織名稱最后的詞的詞語。在這里為了便于討論,將組織名稱的最后詞稱為后綴。在區(qū)分組織名稱中,系統(tǒng)10識(shí)別出現(xiàn)在文本中的對(duì)應(yīng)于數(shù)據(jù)庫22中的一個(gè)組織后綴的詞。然后,系統(tǒng)10試圖從一個(gè)識(shí)別的組織后綴找出形成可能出現(xiàn)在文本中的一個(gè)組織名稱的第一個(gè)詞或詞組。
      可能使用該詞是因?yàn)楫?dāng)把一個(gè)組織的后綴識(shí)別為出現(xiàn)在一個(gè)句子中時(shí),并不一定意味著存在一個(gè)組織的名稱。更具體地講,當(dāng)沒有將組織后綴用作一個(gè)特定組織的名稱時(shí),它一般具有一定的含義。因此,識(shí)別的組織后綴可能在句子中作為一個(gè)普通詞使用。例如,詞“公司”可以用于一般地表示一個(gè)公司,而不是在一個(gè)特定商業(yè)組織的名稱中使用。
      在試圖確定對(duì)應(yīng)于一個(gè)組織后綴的形成一個(gè)組織名稱的第一個(gè)詞的位置時(shí),系統(tǒng)10應(yīng)用一系列的嘗試或規(guī)則。如果對(duì)于一個(gè)識(shí)別的組織后綴滿足了一個(gè)規(guī)則的所有條件或要求,那么系統(tǒng)10確定已經(jīng)識(shí)別出有關(guān)該識(shí)別組織后綴的一個(gè)組織名稱。如果不存在一個(gè)滿足了其所有要求的規(guī)則,那么系統(tǒng)確定這個(gè)識(shí)別的組織后綴在這種場合下不是作為一個(gè)名稱使用的,也就是說,該后綴是作為一個(gè)普通詞使用的。
      在一個(gè)優(yōu)選實(shí)施例中,使用了以后將說明的七個(gè)規(guī)則。在替代實(shí)施例中,可以使用更多或更少的規(guī)則。為了便于說明,在這里將這些規(guī)則稱為規(guī)則1-7。最好是按照這里說明的順序使用規(guī)則,根據(jù)這種順序?qū)⒛芨鼫?zhǔn)確地區(qū)分組織名稱。但是,在替代實(shí)施例中,可以使用其它順序。
      在這方面,系統(tǒng)10首先使用規(guī)則1。規(guī)則1要求文本中識(shí)別的組織后綴之前有一個(gè)經(jīng)常形成組織名稱的第一個(gè)詞的詞。這些詞的一個(gè)組是專有名詞,也經(jīng)常將它們稱為專有名稱。作為一個(gè)專有名詞的替代,如果在識(shí)別的組織后綴之前有英語文本,也將滿足規(guī)則1的條件。這里的目的是要確定可能形成一個(gè)組織名稱的開始的一個(gè)字或詞的位置。數(shù)據(jù)庫22進(jìn)一步包括形成許多組織名稱的開始部分的字或詞,即,專有名詞。圖3示出了一個(gè)顯示系統(tǒng)10根據(jù)數(shù)據(jù)庫22識(shí)別的作為專有名詞的一些字的例子的表。
      在識(shí)別專有名詞時(shí),系統(tǒng)10最好是使用一個(gè)電子格式的字典或詞典,字典中的字或詞是以諸如專有名詞、動(dòng)詞、形容詞之類的類型標(biāo)注或標(biāo)記的。因此,系統(tǒng)10可以搜索漢語文本中對(duì)應(yīng)于詞典中標(biāo)記的特種特定類型的字或詞的專有名詞。詞典最好包括在數(shù)據(jù)庫22中。在替代實(shí)施例中,可以為專有名詞建立一個(gè)獨(dú)立數(shù)據(jù)庫,而不是使用一個(gè)其中用類型標(biāo)記字或詞的字典。
      對(duì)于英語文本,漢語文本中的西方組織的名稱的一部分經(jīng)常是用英文寫出的,特別是在組織名稱的開始部分。因此,系統(tǒng)10也尋找一個(gè)識(shí)別的組織后綴前面的英語文本。例如,“IBM公司”在漢語文本中經(jīng)常是用英語和漢語寫出的。如果漢語文本中一個(gè)識(shí)別的組織后綴前面存在任何英語文本,那么滿足了規(guī)則1的上述條件。
      如果在可能的第一詞和組織后綴之間出現(xiàn)文本,并且其中可能的第一詞是一個(gè)專有名詞或英語文本時(shí),規(guī)則1對(duì)這部分文本有額外的要求。具體地講,插在后綴與可能的第一詞之間的文本不可以是不符合組織名稱的類型的。具體地講,一個(gè)組織具有一個(gè)以上的后綴是不適當(dāng)?shù)?。因此,?guī)則1要求在可能的詞和另一個(gè)組織后綴前面不出現(xiàn)其它組織后綴。
      此外,在漢語組織名稱中一般不出現(xiàn)名詞和動(dòng)詞的所有指示符。圖4A示出了列出規(guī)則1要求不出現(xiàn)在后綴與可能的第一詞之間的所有指示符的例子的表的一部分。
      此外,有關(guān)時(shí)間的詞一般不出現(xiàn)在組織名稱中。圖4A所示的表的一部分也示出了這種時(shí)間詞的例子。因此,規(guī)則1要求時(shí)間詞不出現(xiàn)在后綴和可能的第一詞之間。
      另外,一般在組織名稱中不會(huì)出現(xiàn)量詞。英語中量詞的例子是諸如“塊”或“張”之類的詞,例如,一塊蛋糕或一張紙?!皦K”和“張”是量詞,在漢語和日語中有大量的各種量詞。圖4A也示出了漢語中使用的量詞的例子。因此,規(guī)則1要求量詞不出現(xiàn)在插在可能的第一詞與后綴之間的文本中。
      此外,大多數(shù)組織名稱中不出現(xiàn)代詞。代詞的例子對(duì)應(yīng)于英語中的I(我)、they(他們)、this(這)、where(哪)、what(什么)和this(該)之類的詞。圖4A中所示的表的一部分也列出了對(duì)應(yīng)于代詞的漢字的例子。
      同樣,在大多數(shù)組織名稱中不存在助動(dòng)詞。英語中助動(dòng)詞相當(dāng)于諸如should(應(yīng)該)、can(能)和may(可以)之類的詞。圖4A中所示的表的一部分也列出了漢語中對(duì)應(yīng)于助動(dòng)詞的詞的例子。
      此外,漢語文本中的組織名稱中一般不會(huì)出現(xiàn)像逗號(hào)、頓號(hào)、和引號(hào)之類的標(biāo)點(diǎn)符號(hào)。因此,規(guī)則1要求可能的第一詞與后綴之間不出現(xiàn)這種類型的標(biāo)點(diǎn)符號(hào)。
      另外,還有一些其它的不屬于上述范疇的可能被識(shí)別為不適于形成漢語組織名稱部分的詞。圖5中列出了在系統(tǒng)10的開發(fā)過程中發(fā)現(xiàn)的這類詞的例子。規(guī)則1也要求一個(gè)組織名稱的可能的第一詞與后綴之間不插入這類詞或詞組。
      如上所述,系統(tǒng)10最好利用一個(gè)包括一個(gè)電子格式的字典或詞典的數(shù)據(jù)庫22來實(shí)現(xiàn),字典或詞典規(guī)定了其中列出的每個(gè)詞的類型,例如,助動(dòng)詞、專有名詞、代詞、量詞、時(shí)間短語、等等。因此,系統(tǒng)10的軟件可以指令計(jì)算機(jī)12搜索出現(xiàn)在漢語文本中的對(duì)應(yīng)于詞典或數(shù)據(jù)庫22中的特定類型的詞的詞。詞典可以不必列出一些作為專有名詞或在某些情況下用作專有名稱的類型的詞。因此,規(guī)則1也對(duì)這類情況作出了規(guī)定,數(shù)據(jù)庫也包括不應(yīng)當(dāng)插在一個(gè)組織的可能的第一詞與后綴之間的詞的詞。
      圖6示出了一個(gè)具有一個(gè)作為規(guī)則1的應(yīng)用示例的句子的表。示例顯示了漢語句子,以及漢語句子下面一行中的英語翻譯。此外,英語翻譯下面的各列顯示了從漢語到英語的逐字翻譯。翻譯成英語的示例句子是“OnOctober 9th,Hua Run Chuang Ye announced that they had set up a joint-venturecompany with Sichuan Blue Sword Beer Group”。
      對(duì)于這個(gè)句子,系統(tǒng)10使用規(guī)則1,并且注意到出現(xiàn)了用作組織名稱的兩個(gè)后綴,“公司”和“集團(tuán)”。規(guī)則1的條件之一是,專有名詞或英語文本必須出現(xiàn)在句子中的后綴前面。句子中沒有出現(xiàn)英語文本,但是存在兩個(gè)專有名詞,“華”和“四川”。
      規(guī)則1的一個(gè)附加要求是,一個(gè)組織名稱的可能的第一詞與后綴之間不能插入用作時(shí)間的詞。在這個(gè)示例中,存在兩個(gè)時(shí)間詞,October和ninth。這兩個(gè)詞的漢字字面翻譯分別是“10月”和“9日”。根據(jù)數(shù)據(jù)庫22,系統(tǒng)10注意到“月”和“日”是時(shí)間詞。此外,這兩個(gè)詞都插入在專有名詞“華”與兩個(gè)提到的后綴之間。因此,根據(jù)規(guī)則1,系統(tǒng)10將取消“華”作為兩個(gè)識(shí)別出的后綴中的任何一個(gè)的可能的第一詞的可能性。
      盡管另一個(gè)專有名詞“四川”出現(xiàn)在兩個(gè)時(shí)間詞之后,和兩個(gè)提到的后綴之前。但是,規(guī)則1進(jìn)一步的要求是,在一個(gè)組織名稱的可能的第一詞與后綴之間不能出現(xiàn)另一個(gè)后綴。因此,系統(tǒng)10不會(huì)將專有名詞“四川”作為對(duì)應(yīng)于后綴“公司”的可能的第一詞。
      根據(jù)規(guī)則1,專有名詞“四川”在句子中只可能是與組織名稱的后綴“集團(tuán),,有關(guān)的一個(gè)組織的名稱的第一詞。此外,在這個(gè)專有名詞與后綴之間沒有插入的不滿足規(guī)則1的要求的其它詞。因此,使用規(guī)則1,系統(tǒng)10能夠區(qū)分出“四川藍(lán)劍啤酒集團(tuán)”是句子中的一個(gè)組織的名稱。
      除了一些差別之外,規(guī)則2與規(guī)則1相同。規(guī)則2用于通過確定文本中緊挨著組織名稱的第一詞之前的一個(gè)字或短語的位置,確定一個(gè)組織名稱的第一詞的位置。由于這個(gè)原因,規(guī)則2不需要后綴之前的專有名詞或英語文本。規(guī)則2替代地需要一種在后綴之前的不是通常形成漢語組織名稱的類型的文本。
      具體地講,規(guī)則2需要在一個(gè)后綴或組織名稱之前,有一個(gè)逗號(hào),或一個(gè)所有或時(shí)態(tài)指示符。時(shí)態(tài)指示符是指示過去時(shí)態(tài)的漢語字符。圖4B的表的一部分示出了時(shí)態(tài)指示符的一些例子。
      上述任何一種都不可能形成漢語組織名稱。因此,如果它們出現(xiàn)在一個(gè)識(shí)別的后綴前面,那么它們的出現(xiàn)被用作指示緊接其后的詞是一個(gè)組織名稱的開始的指示符。規(guī)則2的其余條件與規(guī)則1相同,并且在此后應(yīng)用到后綴前面的任何文本。
      圖7示出了一個(gè)具有一個(gè)作為規(guī)則2的使用示例的句子的表。示例顯示了漢語的句子,以及緊靠漢語句子下方的一個(gè)英語翻譯。此外,英語翻譯下面的各列示出了從漢語到英語的逐字翻譯,即,字面翻譯。英語的示例句子是“Weng Fuliang is a research engineer at the Speech Technology and ResearchLaboratory of Stanford International Institute”。
      對(duì)于這個(gè)示例句子,系統(tǒng)10會(huì)識(shí)別出兩個(gè)對(duì)應(yīng)于數(shù)據(jù)庫22的后綴,“研究所”和“實(shí)驗(yàn)室”。系統(tǒng)將首先使用規(guī)則1,注意到句子中兩個(gè)后綴前面的專有名詞“斯坦?!?。但是,規(guī)則1要求在作為一個(gè)組織的名稱的可能的第一詞的專有名詞與后綴之間不插入其它后綴。因此,根據(jù)規(guī)則1,“斯坦?!笨赡苣軌蛐纬梢粋€(gè)具有后綴“研究所”的組織的名稱的第一詞。此外,詞“國際”滿足規(guī)則1的其余條件。因此,根據(jù)規(guī)則1,系統(tǒng)10將區(qū)分出“斯坦福國際研究所”是一個(gè)組織的名稱。(作為替代,可以把“斯坦福國際研究所”列在數(shù)據(jù)庫22中,作為系統(tǒng)10無需使用規(guī)則1就能區(qū)分出的一個(gè)組織名稱)。
      對(duì)于剩下的一個(gè)后綴“實(shí)驗(yàn)室”,根據(jù)規(guī)則1,句子中沒有能夠形成以后綴“試驗(yàn)室”結(jié)束的一個(gè)組織名稱的第一詞的專有名詞或英語文本。因此,系統(tǒng)10接下來使用規(guī)則2。
      規(guī)則2是要確定文本中一個(gè)緊挨著組織名稱的第一詞的前面,但不是形成組織名稱的字或字符的位置。在目前場合下,一個(gè)滿足規(guī)則2要求的類型的字是提到的后綴前面的一個(gè)后綴。在圖7的示例中,在句子中后綴“研究所”在后綴“實(shí)驗(yàn)室”前面。根據(jù)規(guī)則2,緊跟在“研究所”之后的字可能是以后綴“實(shí)驗(yàn)室”結(jié)束的一個(gè)組織名稱的第一個(gè)詞。此外,插在“語音”和“實(shí)驗(yàn)室”之間的字滿足規(guī)則2的所有其它要求。因此,系統(tǒng)將利用規(guī)則2區(qū)分出“語音技術(shù)和研究實(shí)驗(yàn)室”是一個(gè)組織的名稱。
      與規(guī)則2相同,使用規(guī)則3通過確定文本中緊挨著名稱的第一個(gè)詞的前面的一個(gè)字或短語的位置,確定一個(gè)組織名稱的第一個(gè)詞的位置。因此,規(guī)則3要求在一個(gè)提到的后綴前面的文本是一種不是通常形成一個(gè)漢語組織名稱的類型的。
      具體地講,規(guī)則3要求在一個(gè)后綴或組織名稱之前,有另一個(gè)后綴、一個(gè)組織名稱、或一個(gè)使用在名詞之間的連詞。不可能從兩個(gè)后綴形成一個(gè)組織的名稱。因此,提到的后綴前面的另一個(gè)后綴是一個(gè)用于指示文本中緊隨其后的詞是提到的后綴的組織名稱的開始的指示符。
      同樣地,一個(gè)提到的后綴前面的組織名稱也可以指示提到的后綴的組織名稱的開始位置。在這點(diǎn),可能已經(jīng)通過使用前面的規(guī)定識(shí)別出了一個(gè)或更多的組織名稱。此外,數(shù)據(jù)庫22包括少量的系統(tǒng)不用使用任何規(guī)則就能夠識(shí)別的組織名稱。
      用于漢語名詞的連詞相當(dāng)于英語的“and”或“with”之類的詞。圖4B中的表的一部分示出了一些漢語名詞的連詞的例子。這種類型的在名詞之間使用的連詞,可以指示提到的后綴的組織名稱的開始位置。
      對(duì)于緊跟在另一個(gè)后綴、組織名稱、或一個(gè)名詞的連詞之后的文本,規(guī)則3除了規(guī)定了與規(guī)則1中對(duì)一個(gè)專有名詞或英語之后的文本規(guī)定的的相同條件之外,還附加了五個(gè)額外條件。具體地講,這額外的條件是文本不能是(1)一個(gè)名詞的連詞,(2)一個(gè)時(shí)態(tài)指示符,(3)一個(gè)介詞,(4)一個(gè)與數(shù)字或名詞組合的量詞,或(5)一個(gè)組織名稱。這些條件是要取消不符合形成帶有提到的后綴的組織名稱的第一部分的文本。
      漢語中的介詞相當(dāng)于英語中的in,of,by,near,with,at,from之類的詞。圖4B中的表的一部分進(jìn)一步示出了對(duì)應(yīng)于介詞的漢字。量詞在前面已經(jīng)說明過。規(guī)則3進(jìn)一步要求不出現(xiàn)與名詞或數(shù)字組合的量詞,例如,一個(gè)商店,兩個(gè)報(bào)告,數(shù)十個(gè)報(bào)告,第一屆,等等。圖4B中所示的表的一部分示出了與名詞和/或數(shù)字組合的量詞的一些例子。
      此后,規(guī)則3允許在提到的后綴前面有深一層的文本,或沒有深一層的文本。但是,深一層的文本除了必須滿足與前面文本相同的要求之外,還必須滿足一個(gè)額外的條件。具體地講,深一層的文本必須不是對(duì)應(yīng)于通常用于人的頭銜的文本,因?yàn)槿说念^銜通常并不形成組織名稱的一部分。人的頭銜相當(dāng)于英語中的Mr.,Ms.,vice-principal,manager,director之類的詞。圖4B中所示的表的一部分示出了對(duì)應(yīng)于人頭銜的漢語詞的例子。
      規(guī)則4與規(guī)則2和3同樣用于通過確定文本中緊挨著名稱的第一詞前面的一個(gè)字或短語的位置,而確定一個(gè)組織名稱的的第一詞的位置。在這方面,規(guī)則4需要在一個(gè)后綴或組織名稱之前有一個(gè)介詞或動(dòng)詞。通常既不用介詞也不用動(dòng)詞形成組織名稱。因此,一個(gè)介詞或一個(gè)動(dòng)詞可以指示下一個(gè)字或字符是一個(gè)組織名稱的開始。
      除了四個(gè)例外,規(guī)則4對(duì)于在一個(gè)動(dòng)詞或介詞后面的文本具有與規(guī)則2相同的要求。除了與規(guī)則2相同的要求之外,規(guī)則4額外地要求這個(gè)文本不是一個(gè)名詞的連詞,另一個(gè)組織的名稱,一個(gè)介詞,或一個(gè)人的頭銜。
      規(guī)則5需要文本中一個(gè)后綴或組織名稱前面的一個(gè)專有名詞。利用規(guī)則5,系統(tǒng)10試圖識(shí)別一個(gè)可以形成一個(gè)組織的名稱的第一個(gè)詞的專有名詞。除了兩個(gè)額外要求之外,對(duì)于專有名詞之后和后綴或組織名稱之前的任何一個(gè)字或多個(gè)字,規(guī)則5具有與規(guī)則4對(duì)動(dòng)詞或介詞之后的文本規(guī)定的相同的要求。即,這個(gè)文本不能是一個(gè)時(shí)態(tài)指示符或一個(gè)括號(hào)。括號(hào)不能是以下中的任何一種,無論是敞開的,還是閉合的[,(,{,],),或}。如果滿足了這些條件,那么系統(tǒng)10得出該專有名詞是一個(gè)以識(shí)別的后綴或組織名稱結(jié)束的一個(gè)組織的名稱的第一個(gè)詞的結(jié)論。此外,如果有的話,名稱包括插在專有名詞和后綴或組織名稱之間的一個(gè)詞或多個(gè)詞。
      規(guī)則6用于通過確定文本中緊挨著名稱的第一個(gè)詞的前面的一個(gè)詞或短語的位置,確定一個(gè)組織的名稱的第一詞的位置。具體地講,規(guī)則6要求在一個(gè)后綴或組織名的前面,一個(gè)動(dòng)詞的后面緊跟著一個(gè)不是連詞的文本,然后是另一個(gè)動(dòng)詞。對(duì)于其后的文本,除了了兩個(gè)額外的條件之外,規(guī)則6具有與規(guī)則5相同的要求。具體地講,這個(gè)文本不能包括與名詞或數(shù)字組合的量詞。圖4B中所示的表的一部分顯示了與名詞和/或數(shù)字組合的量詞的一些例子。此外,文本不能包括使用在漢語非名詞之間的連詞,圖4B中所示的表中的一部分顯示了漢語非名詞連詞的一些例子。
      為了滿足規(guī)則7的要求,必須有一個(gè)組織的名稱或一個(gè)名詞或名詞的某種組合的短語。圖8A和8B示出了一個(gè)顯示名詞或名詞短語的一些例子的表。但是,規(guī)則7對(duì)名詞短語規(guī)定了幾個(gè)要求。具體地講,形成名詞短語的文本必須滿足規(guī)則6對(duì)在第二動(dòng)詞之后的文本的要求的相同條件。在名詞短語之后,規(guī)則7需要一個(gè)括號(hào)或無括號(hào),然后是一個(gè)后綴或一個(gè)組織的名稱。括號(hào)不能是以下中的任何一種,無論是敞開的還是閉合的[,(,{,],),或}。
      圖9示出了一個(gè)用作使用包括規(guī)則7在內(nèi)的上述規(guī)則的例子的,具有一個(gè)短語的表。例子示出了一個(gè)漢語短語,以及表的下一行中的英語翻譯。英語翻譯下面的各列示出了從漢語到英語的逐字翻譯,即,字面翻譯。譯成英語的例句是“At that time,Board Chairman and Administrational President ofNescafe(China)Co.Ltd.,Mu Li,said that...”。
      利用這個(gè)短語,系統(tǒng)10將首先使用規(guī)則1。規(guī)則1要求在短語中的一個(gè)組織名稱的后綴之前(或一個(gè)組織名稱之前)有一個(gè)專有名詞或英語文本。短語中有一個(gè)后綴,“有限公司”。短語中再?zèng)]有任何系統(tǒng)最初會(huì)識(shí)別為一個(gè)后綴或一個(gè)組織名稱的部分。
      規(guī)則1額外地要求句子中的識(shí)別的后綴或名稱前存在一個(gè)專有名詞。根據(jù)數(shù)據(jù)庫22,句子中僅有一個(gè)系統(tǒng)10會(huì)識(shí)別為一個(gè)專有名詞的詞,即,詞“中國”??梢园选叭赋病笨紤]為是一個(gè)專有名詞,但是,在數(shù)據(jù)庫22將“雀巢”識(shí)別為一個(gè)名詞短語。因此,系統(tǒng)10不會(huì)把“雀巢”識(shí)別為一個(gè)專有名詞。
      至于專有名詞“中國”,它出現(xiàn)在短語中的后綴“有限公司”的前面。在漢語短語中,一個(gè)封閉的圓括號(hào)插在專有名詞“中國”和后綴“有限公司”之間。但是,括號(hào)并不違反規(guī)則1對(duì)插在后綴與一個(gè)專有名詞之間的文本規(guī)定的任何條件。因此,根據(jù)規(guī)則1,系統(tǒng)10確定“中國)有限公司”是示例短語中的一個(gè)組織的名稱。
      接下來,系統(tǒng)10使用規(guī)則2。規(guī)則2要求在一個(gè)后綴或組織名稱之前有一個(gè)逗號(hào)或所有或時(shí)態(tài)指示符。在示例短語中,圖9中的示例短語中不存在這些。因此,系統(tǒng)10不根據(jù)規(guī)則2進(jìn)行進(jìn)一步的確定。
      規(guī)則3要求在一個(gè)后綴或組織名稱之前有另一個(gè)后綴,一個(gè)組織的名稱,或一個(gè)使用在名詞之間的連詞。短語中不存在滿足這些要求的任何東西。因此,系統(tǒng)10不根據(jù)規(guī)則3進(jìn)行任何進(jìn)一步的確定。
      規(guī)則4要求在一個(gè)后綴或組織名稱之前有一個(gè)介詞或動(dòng)詞。短語中有一對(duì)動(dòng)詞。但是,示例短語中沒有任何一個(gè)動(dòng)詞出現(xiàn)在后綴或組織名稱之前。因此,系統(tǒng)10不根據(jù)規(guī)則4進(jìn)行任何進(jìn)一步的確定。
      規(guī)則5要求文本中一個(gè)后綴或組織名稱之前有一個(gè)專有名詞。在本例中,后綴前面有一個(gè)專有名詞。具體地講,專有名詞“中國”出現(xiàn)在后綴“有限公司”之前。但是,根據(jù)規(guī)則1,系統(tǒng)10前面已經(jīng)確定這個(gè)后綴應(yīng)當(dāng)與“中國”和插在中間的括號(hào)組合成名稱“中國)有限公司”。因此,在使用規(guī)則5中,系統(tǒng)10不再認(rèn)為“有限公司”是一個(gè)后綴。而是系統(tǒng)10現(xiàn)在僅認(rèn)為組合“中國)有限公司”是一個(gè)組織的名稱。因此,由于沒有滿足規(guī)則5的條件,系統(tǒng)10將將不根據(jù)規(guī)則5進(jìn)行任何進(jìn)一步的確定。
      規(guī)則6要求在一個(gè)后綴或組織名稱前面,有一個(gè)后面跟隨著一個(gè)不是連詞的文本的動(dòng)詞,然后是另一個(gè)動(dòng)詞。在示例短語中有一對(duì)動(dòng)詞,但是兩個(gè)動(dòng)詞中沒有一個(gè)出現(xiàn)在一個(gè)后綴或組織名稱之前。結(jié)果,系統(tǒng)10沒有根據(jù)規(guī)則6作出任何進(jìn)一步的確定。
      系統(tǒng)10最后使用規(guī)則7,規(guī)則7要求出現(xiàn)在一個(gè)后綴或組織名稱之前的一個(gè)組織的名稱,或一個(gè)是一個(gè)名詞或名詞的某種組合的短語。在圖9的示例短語中,系統(tǒng)10根據(jù)數(shù)據(jù)庫22將“雀巢”識(shí)別為一個(gè)名詞或名詞的組合。此外,“雀巢”出現(xiàn)在一個(gè)組織名稱的前面。具體地講,系統(tǒng)10根據(jù)規(guī)則1確定“中國)有限公司”是一個(gè)組織的名稱。
      規(guī)則7對(duì)名詞短語規(guī)定了額外的條件,例如,名詞短語不得包括括號(hào)。在示例中,名詞短語“雀巢”不包括括號(hào)或圓括號(hào),盡管它后面跟隨著一個(gè)打開的圓括號(hào)。但是,規(guī)則7允許名詞短語后面有括號(hào)或圓括號(hào)。因此,滿足了規(guī)則7的要求。根據(jù)規(guī)則7,系統(tǒng)10確定“雀巢(中國)有限公司,,是一個(gè)名稱,而不是“中國)有限公司”。
      這里說明的數(shù)據(jù)庫22被設(shè)計(jì)為包括一個(gè)帶有語言成分標(biāo)記軟件的字典或詞典。具體地講,系統(tǒng)10最好盡可能地依靠根據(jù)當(dāng)前可用的語言成分標(biāo)記軟件執(zhí)行的標(biāo)記。因此,系統(tǒng)10的軟件可以依靠這些標(biāo)記,識(shí)別通常的語言成分,例如,介詞和連詞,所有指示符,時(shí)態(tài)標(biāo)志,代詞,量詞,等等。
      對(duì)于像名詞短語、經(jīng)常構(gòu)成漢語組織名稱的最后詞的后綴、某些漢語組織名稱之類的語言成分標(biāo)記軟件沒有識(shí)別出或沒有準(zhǔn)確識(shí)別出的其它語言成分,數(shù)據(jù)庫22包括前面說明過的附加信息??梢酝ㄟ^在其中標(biāo)記這類詞將附加信息添加到用于語言成分標(biāo)記軟件的字典或詞典中,或用字典形成和組合成另一個(gè)數(shù)據(jù)庫,從而使數(shù)據(jù)庫22包括多個(gè)子數(shù)據(jù)庫,或集成形成一個(gè)大的數(shù)據(jù)庫。
      可以進(jìn)行修改、替換或其它替代。例如,根據(jù)規(guī)則7,系統(tǒng)能夠區(qū)分包括在括號(hào)或圓括號(hào)之間的一部分名稱的名稱。因此,規(guī)則1可以被修改為額外地要求在后綴和可能的第一詞之間不出現(xiàn)括號(hào)或圓括號(hào),并且系統(tǒng)10應(yīng)當(dāng)仍然提供相同的結(jié)果。此外,通過組合或分割規(guī)則,可以使用更多或更少的規(guī)則。例如,可以用兩個(gè)規(guī)則替代規(guī)則1,即,一個(gè)搜索專有名稱的規(guī)則,和另一個(gè)搜索英語文本的規(guī)則,而不是在規(guī)則1中進(jìn)行二者??紤]到熟悉本領(lǐng)域的普通技術(shù)人員可以進(jìn)行替代、替換和修改,將來授權(quán)專利的文件范圍將僅受附屬的權(quán)利要求的定義的限制。
      權(quán)利要求
      1.一種用于區(qū)分漢語文本中組織名稱的系統(tǒng),包括(a)一個(gè)用于接收電子格式的漢語文本的計(jì)算機(jī),計(jì)算機(jī)至少包括一個(gè)輸入端,一個(gè)輸出結(jié)果的輸出端,一個(gè)處理指令和數(shù)據(jù)的處理器,和一個(gè)存儲(chǔ)指令和數(shù)據(jù)的存儲(chǔ)和寄存裝置;(b)處理器可存取的數(shù)據(jù),數(shù)據(jù)至少包括一個(gè)包括經(jīng)常形成組織名稱的第一詞的詞的組,和另一個(gè)包括經(jīng)常用于形成漢語組織名稱的最后詞的詞的組;和(c)安裝在計(jì)算機(jī)上的軟件,當(dāng)計(jì)算機(jī)執(zhí)行軟件時(shí),致使處理器執(zhí)行處理,執(zhí)行的處理包括(i)識(shí)別已經(jīng)輸入到計(jì)算機(jī)中的漢語文本中的對(duì)應(yīng)于數(shù)據(jù)中的組中的那些詞的詞;和(ii)比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組中的識(shí)別詞的在漢語文本中的位置,如果滿足預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與來自一個(gè)組的識(shí)別的詞形成了一個(gè)組織的名稱;和(iii)輸出結(jié)果。
      2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中構(gòu)成所述一個(gè)組的詞是專有名詞,并且處理包括識(shí)別出現(xiàn)在漢語文本中的任何英語文本,和比較對(duì)應(yīng)于另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的英語文本的位置,如果滿足預(yù)定的條件,那么確定對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞形成了一個(gè)包括英語文本的組織名稱。
      3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中在所述比較中,預(yù)定的條件之一是識(shí)別的對(duì)應(yīng)于另一個(gè)組的詞在文本中必須出現(xiàn)在對(duì)應(yīng)于一個(gè)組的識(shí)別的詞的后面。
      4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中在所述比較中,只有當(dāng)兩個(gè)識(shí)別的詞出現(xiàn)在同一短語中時(shí),才把每個(gè)識(shí)別的詞與一個(gè)不同的識(shí)別的詞的位置比較。
      5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中在所述比較中,預(yù)定條件包括對(duì)應(yīng)于另一個(gè)組的兩個(gè)詞不能一同形成一個(gè)組織的名稱。
      6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中預(yù)定條件包括按順序使用的多個(gè)規(guī)則。
      7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中處理進(jìn)一步包括根據(jù)數(shù)據(jù)識(shí)別文本中的指示符,指示符用于指示緊跟在文本中一個(gè)識(shí)別的指示符之后的詞是一個(gè)組織名稱的開始的第一詞并且以對(duì)應(yīng)于另一個(gè)組的一個(gè)識(shí)別的詞結(jié)束。
      8.一種用于區(qū)分出現(xiàn)在一個(gè)漢語短語或句子中的組織名稱的處理過程,包括(a)建立包括至少一個(gè)包括用于指示緊跟在一個(gè)指示符之后的一個(gè)詞是一個(gè)組織的名稱的第一詞的指示符的詞的組,和另一個(gè)包括經(jīng)常用于形成漢語組織名稱的最后詞的詞的組的數(shù)據(jù);(b)識(shí)別漢語短語或句子中對(duì)應(yīng)于數(shù)據(jù)的詞;和(c)比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組的識(shí)別的詞在漢語文本中的位置,如果滿足預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與緊挨著該識(shí)別的詞的前面直到,但不包括,來自一個(gè)組的識(shí)別詞的文本一同形成了一個(gè)組織的名稱。
      9.根據(jù)權(quán)利要求8所述的處理過程,進(jìn)一步包括識(shí)別出現(xiàn)在漢語短語或句子中的任何英語文本,和包括比較對(duì)應(yīng)于另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的英語文本的位置,如果滿足了預(yù)定條件,那么確定對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞形成了一個(gè)包括英語文本的組織名稱。
      10.根據(jù)權(quán)利要求8所述的處理過程,其中在所述比較中,預(yù)定條件之一是對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞必須在文本中出現(xiàn)在對(duì)應(yīng)于一個(gè)組的一個(gè)識(shí)別的詞的后面。
      11.根據(jù)權(quán)利要求8所述的處理過程,其中在所述比較中,預(yù)定的條件包括對(duì)應(yīng)于另一個(gè)組的兩個(gè)詞不能一同形成一個(gè)組織的名稱。
      12.根據(jù)權(quán)利要求8所述的處理過程,進(jìn)一步包括識(shí)別文本中的專有名詞,和比較來自另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的專有名詞在文本中的位置,如果滿足了預(yù)定的條件,那么確定來自另一個(gè)組的識(shí)別的詞與一個(gè)識(shí)別的專有名詞一同形成了一個(gè)組織的名稱。
      13.根據(jù)權(quán)利要求12所述的處理過程,其中所述識(shí)別文本中專有名詞和比較來自另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的專有名詞在文本中的位置是在所述比較來自另一個(gè)組的每個(gè)識(shí)別的詞與來自一個(gè)組的識(shí)別的詞在漢語文本中的位置之前進(jìn)行的。
      14.根據(jù)權(quán)利要求8所述的處理過程,其中指示符包括一個(gè)逗號(hào)或一個(gè)漢語的所有或時(shí)態(tài)指示符。
      15.一種用于區(qū)分輸入到計(jì)算機(jī)的漢語短語或句子中的組織名稱的產(chǎn)品,包括一個(gè)具有記錄在其上的計(jì)算機(jī)可讀數(shù)據(jù)和程序邏輯的記錄介質(zhì),計(jì)算機(jī)數(shù)據(jù)至少包括一個(gè)包括專有名詞的詞的組,和另一個(gè)包括經(jīng)常用于形成漢語組織名稱的最后詞的詞的組,當(dāng)計(jì)算機(jī)執(zhí)行程序時(shí)導(dǎo)致計(jì)算機(jī)進(jìn)行處理,處理包括(a)識(shí)別已經(jīng)輸入到計(jì)算機(jī)中的漢語短語或句子中的對(duì)應(yīng)于數(shù)據(jù)中的組中那些詞的詞;和(b)比較來自另一個(gè)組的每個(gè)識(shí)別詞與來自一個(gè)組的識(shí)別的詞在漢語短語或句子中的位置,如果滿足了預(yù)定條件,那么確定來自另一個(gè)組的識(shí)別的詞與來自一個(gè)組的識(shí)別的詞一同形成了一個(gè)組織的名稱;和(c)輸出結(jié)果。
      16.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中處理包括識(shí)別漢語短語或句子中的任何英語文本,和比較對(duì)應(yīng)于另一個(gè)組的每個(gè)識(shí)別的詞與識(shí)別的英語文本的位置,如果滿足了預(yù)定條件,那么確定對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞形成了一個(gè)包括英語文本的組織名稱。
      17.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中在所述比較中,預(yù)定條件之一是對(duì)應(yīng)于另一個(gè)組的識(shí)別的詞必須出現(xiàn)在文本中的對(duì)應(yīng)于一個(gè)組的一個(gè)識(shí)別的詞的后面。
      18.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中在所述比較中,預(yù)定條件包括對(duì)應(yīng)于另一個(gè)組的兩個(gè)詞不能一同形成一個(gè)組織的名稱。
      19.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中數(shù)據(jù)進(jìn)一步包括用于指示緊跟在漢語短語或句子中的一個(gè)識(shí)別的指示符之后的詞是一個(gè)組織名稱的開始的第一詞的指示符,和所述處理過程進(jìn)一步包括至少部分地根據(jù)數(shù)據(jù)識(shí)別短語或句子中的指示符。
      20.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中所述識(shí)別指示符是在所述比較之后進(jìn)行的,并且所述指示符包括在所述比較中確定的并且出現(xiàn)在短語或句子中的一個(gè)對(duì)應(yīng)于所述另一個(gè)組的、已經(jīng)在所述比較中確定為不形成一個(gè)組織的名稱的識(shí)別的詞前面的任何一個(gè)組織名稱。
      全文摘要
      一種用于區(qū)分漢語組織名稱的系統(tǒng),系統(tǒng)包括一個(gè)計(jì)算機(jī)。計(jì)算機(jī)至少具有一個(gè)輸入端,一個(gè)輸出端,一個(gè)處理器,和一個(gè)存儲(chǔ)和寄存裝置。數(shù)據(jù)可以由處理器存取,數(shù)據(jù)包括至少兩個(gè)經(jīng)常分別形成漢語組織名稱的第一和最后詞的詞的組。系統(tǒng)包括軟件,當(dāng)計(jì)算機(jī)運(yùn)行軟件時(shí),致使計(jì)算機(jī)執(zhí)行處理,處理包括識(shí)別已經(jīng)輸入到計(jì)算機(jī)中的漢語文本中的對(duì)應(yīng)于數(shù)據(jù)中的兩個(gè)組中的那些詞的詞;比較來自兩個(gè)組中的一個(gè)組的每個(gè)識(shí)別的詞與來自另一個(gè)組的識(shí)別的詞的漢語文本中的位置,如果滿足了預(yù)定條件,那么確定來自一個(gè)組的識(shí)別的詞與來自另一個(gè)組的識(shí)別的詞一同形成了一個(gè)組織的名稱。
      文檔編號(hào)G06F17/28GK1464430SQ0212235
      公開日2003年12月31日 申請(qǐng)日期2002年6月14日 優(yōu)先權(quán)日2002年6月11日
      發(fā)明者王新凱 申請(qǐng)人:富士施樂株式會(huì)社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1