国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種供機器運用語言規(guī)律識別語言信息的方法

      文檔序號:6368412閱讀:203來源:國知局
      專利名稱:一種供機器運用語言規(guī)律識別語言信息的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種機器語言信息處理技術(shù),尤其是用于機器模擬人的思維分析方式,通過分析、判斷識別語言信息。
      背景技術(shù)
      目前的機器語言信息處理技術(shù),僅能依靠文字的形狀進行文字交換處理,對文字所攜帶語音、語義信息根本沒有涉及。由于機器本身沒有識別語義的功能,所以當輸入“公差(g6ngch0i) ”或“公差(g6ngch0) ”、“倒((Ιδο)”或“倒(ddio) ”時,其識別結(jié)果是一樣的?,F(xiàn)在的機器無論是以語音識別還是以鍵盤錄入進行文字輸入,其處理文字的過程都只是依
      靠“字形”。
      另外,我們提供給機器的詞庫存在一詞多義、多詞一義的現(xiàn)象,而機器本身沒有分析、判斷等語法功能,所以對于由多個詞匯組成的語言信息,機器根本無法理解成完整的語義,只能分別對單一詞匯做出判斷并連接,用這樣的結(jié)果發(fā)出指令、處理任何事物,其結(jié)果錯誤率至少在百分之五十以上,而且詞組句子越長錯誤概率越高。這不僅是中文面臨的問題,在其他語種也都普遍存在,這也是目前信息化發(fā)展最大的瓶頸,只有從根本上徹底解決上述問題,才能真正實現(xiàn)機器自動互換互譯、實現(xiàn)各種語言信息交流無障礙的可能。

      發(fā)明內(nèi)容
      針對上述情況,本發(fā)明提供了一種機器模擬人的語言邏輯思維方法,對語言信息進行處理,實現(xiàn)機器對語言信息識別和理解的目的。本發(fā)明的一個方面,提供了用于機器運用詞態(tài)組成的規(guī)律,其中所述的“詞態(tài)”與“詞性”不一樣,它側(cè)重分析構(gòu)成詞與詞之間的關(guān)系所形成的規(guī)律。例如處所、方向、物稱范圍詞從詞性分析都是名詞,但是與其它詞鏈接時卻各有差異。以鏈接動詞為例,處所名詞可以接帶有方向或趨向類動詞,像“飛到沈陽、來到沈陽等”,而物稱范圍詞像“書、電視、礦石”則不能這樣使用,名詞的不同詞態(tài)對鏈接的動詞有不同的要求;動態(tài)詞中的“動作動詞”及物類可以直接帶多項名詞鏈接,而不及物類則不行,像“休息、畢業(yè)、送行”需要借助其他的虛詞;又如,形態(tài)詞大部分可以受“程度副詞”修飾,卻很少鏈接“頻率副詞”,動詞卻恰恰相反等等,總之各種詞態(tài)之間的組合都有必然規(guī)律,把這種規(guī)律編譯成機器可識別的代碼,供機器對語言信息進行綜合處理,其結(jié)果就是機器模擬人的思維識別語言信息。本發(fā)明的另一個方面,提供了用于機器對各類詞態(tài)之間固有的特性、所形成的結(jié)構(gòu)規(guī)律,作為機器對語言信息分析判斷的第一步。例如構(gòu)成語言的句義組成成分、從語法角度分析語義的方法,任何入學習一門新的語言,都要同步學習詞與語法,要想使機器能夠模擬人的思維方式,同樣需要它同時具備詞與語法的判斷功能。通過詞代碼與詞態(tài)鏈接碼組合句子成分,例如以動詞判斷賓語,以副詞判斷謂語,利用這樣的規(guī)則構(gòu)成序碼,讓機器從語義角度分析句子類型,如陳述句、祈使句、疑問句等句子特征,從句子成分分析詞性特征,如名詞、代詞、數(shù)詞、量詞可以充當主語,動詞和形容詞充當謂語以及其他構(gòu)成賓語、定語、狀語、補語的詞性組成,它們之間所形成的必然規(guī)律是判斷、理解語言信息、句型結(jié)構(gòu)的關(guān)鍵,所以只有把它設(shè)置成為機器可識別、可運算的,才能達到讓機器理解語義的目的。另外,每一種語言都有語法規(guī)則,各語種間的語法規(guī)則既有相同也有不同,例如中國人習慣說“他吃飯了嗎? ”,而韓、日則習慣說“他飯吃了嗎? ”。當機器掌握了這種語法功能,就可以從語序方面進行調(diào)整,通過“賓語提前”完成語序交換。本發(fā)明的另一個方面,提供了用于機器對語言信息從句型結(jié)構(gòu)組成方面來分析詞性、詞義。如果從語義角度分析,絕大多數(shù)詞匯都具有多個詞性、語義。例如“跳水”一詞同時具備名詞、動詞及形容詞詞性,并且在動詞詞性下也代表不同語義。而當它們進入句型結(jié)構(gòu)后,可以根據(jù)前后詞匯的詞性,依據(jù)特性組成的句型結(jié)構(gòu)規(guī)律,確定這個詞匯的詞性和語義。也就是說機器可以根據(jù)句子信息判斷出所含詞性,在句子中確認詞匯的詞性,并自動顯示出來,同時依據(jù)句型代碼形成公式供機器識別、運算的語言,用于確定語義依據(jù)的另一個 方面。本發(fā)明的另一個方面,提供了用于機器對語言信息從語言環(huán)境方面分析詞性、語義。同一詞在不同環(huán)境下表達的詞性、詞義不同,很多專業(yè)范疇如軍事、考古、醫(yī)療等都有很多的專業(yè)術(shù)語、行業(yè)專用語,例如“人參”這個詞匯,從詞性判斷是名詞,但是并不能確定是植物還是藥物,這樣的盲點機器是無法判斷的。為了解除這一盲點,數(shù)據(jù)庫模擬各種行業(yè)設(shè)置一種虛擬環(huán)境,把相關(guān)行業(yè)用語與專用關(guān)聯(lián)詞語歸納到同一虛擬行業(yè)內(nèi),命令機器利用行業(yè)用語、相關(guān)連接語言判斷語義。例如顆、培植、根莖、葉片、開花、結(jié)果等語言可判斷為植物相關(guān),克、切片、研磨、包裝、藥與藥房等可判斷為藥物相關(guān)。這種關(guān)聯(lián)具有普遍性,機器利用鏈接語義判斷選擇詞性、詞義,這是機器利用虛擬環(huán)境內(nèi)的行業(yè)用語、相關(guān)連接語言判斷語義的另一個方面。本發(fā)明的另一個方面,提供了用于機器對語言信息從語音角度識別同型異聲文字,例如中文里的倒(ddio)、倒(d00),看(k0n)、看(kdin),落(lu6)、落(la), H (ch0)、差(ch0i)、差(Cl)等,目前所有的文字輸入、語音輸入,都不能使機器準確識別上述類型的語義,所以造成許多語言信息具有兩種以上含義。例如“王大媽看小孩。”、“他正在倒車?!?,前者的“看”有“瞧”和“監(jiān)視”兩層語義,后者的“倒”有“換乘”和“把車向后退”兩層語義。這種情況不僅中文存在,其他語言也有類似現(xiàn)象。例如英語里,單詞“desert”讀/di'z:t/時,為動詞,意為“離開;放棄;背棄”;當讀/'dezt/時,為名詞,意為“沙漠”。而單詞minute,當讀/'minit/時,為名詞,意為“分,分鐘;一會兒,片刻”;讀/mai'nju:t/時,為形容詞,意為“微細的,微小的;詳細的”。日語單詞“旅人”發(fā)音為“亡& 時,意為“游俠,走江湖的人”,當發(fā)音為“亡^ ”,意為“游客,行路的客人”。詞匯“損+石”的發(fā)音為‘Hf3 ”時,為名詞,意為“損失,虧損”,而發(fā)音為“Hf 3 ”時,為動詞,意為“損傷。損壞,傷害”。為了使機器能夠準確識別上述類型語義,必須徹底解決同型異聲字問題,而解決辦法只有一個,就是把所有同型異聲字進行標記。例如看①、看④(可以用任何符號標記),當語音或者文字輸入后,機器會分別提示出來,以目前文字輸入法輸入的文字,四聲字無法確認,只有靠機器從詞態(tài)關(guān)系分析、句子類型分析、句型結(jié)構(gòu)分析、詞性詞義分析、行業(yè)用語分析,它可以對每一條信息,從語法規(guī)律分析提示,遇到上述情況機器會自動提示兩種情況以供選擇,用于判斷、確定語義的另一個方面。本發(fā)明的另一個方面,提供了用于機器對語言信息、對自定義語言的語義識別方法。因為很多的固有詞匯都可以被人為的用作名稱,例如“張?zhí)?、李蹦蹦”這些綽號,按照現(xiàn)有的機器切分方法只能切成姓與動詞,又如“桃花、銀杏”是植物名詞,但它們也可能是某個人的姓名,企業(yè)名、地名、商標名等都有類似的情況。對這樣的自定義名詞,機器是無法判斷的,必須設(shè)置一種方法,每當機器檢索到姓、企事業(yè)名稱、物稱、處所等關(guān)鍵詞時,就會自動提示人稱、企事業(yè)名稱、物稱、處所等相關(guān)用語范圍,實現(xiàn)人機對話通知機器確定語義的另一個方面。本發(fā)明的另一個方面,提供了用于機器分析、判斷識別語言信息的方法,特別是機器運用詞態(tài)組合、正向分析句型、語言環(huán)境、詞性確定、詞義確定,語言信息確定、句子類型確定等,這是因為我們的數(shù)據(jù)庫是專門為適應(yīng)機器判斷識別而設(shè)置的。人與機器的思維不同,現(xiàn)代漢語語法把所有詞匯劃分為十二種就可以完全滿足語法功能的需要 ,因為詞匯間可自由組合,不同的詞性也可組成短語,例如動詞和名詞、副詞和動詞都可以組成短語,人對這些語言現(xiàn)象可以理解和判斷,但如果是機器單一運用這一規(guī)則,它就會判斷“吃黃金,穿蘋果,非常學習,太勞動”是正確的,這充分說明現(xiàn)代語法規(guī)則對機器來講,是完全不適用的。為了使機器也能運用語法規(guī)則準確掌握和應(yīng)用語言文字關(guān)系,所以本發(fā)明設(shè)置的詞必須細劃到符合詞態(tài)要求,如上述例子,只要把動詞劃分若干種動詞詞態(tài),使它們定向鏈接,就會自動排除歧義,后兩個例子只需設(shè)置程度副詞不能修飾動作動詞就可以排除這種搭配。詞的劃分越細、設(shè)置的機器編碼越多,機器程序就越多,但是識別準確率也就越高,以名詞為例,如果劃分到200種,機器運算方式就會超過萬億條,但其識別準確性可以大大提升。如果機器設(shè)置逆向選擇分析句型、句義,當輸入語言信息不符合上述詞態(tài)鏈接要求時,機器會自動提示糾正并提供標準的相關(guān)詞義以供選擇,例如動詞前后出現(xiàn)程度副詞,如果出現(xiàn)“非常學習、太勞動”時,機器就會顯示錯誤并提供“經(jīng)常、偶爾、有時”等相關(guān)詞供選擇。機器虛擬專業(yè)用語數(shù)據(jù)庫的工作原理如下表1(姓)
      序號序碼詞態(tài)鏈接碼詞代碼詞 同義詞近義詞測試詞……
      ·· Maaaaa MChao
      · · Maaaaa 錢Chien
      · · Maaaaa #Sun
      *· Maaaaa ^Lee表2(親稱)
      權(quán)利要求
      1.一種供機器運用語言規(guī)律識別語言信息的方法,其特征是利用語言固有的詞態(tài)組合的自然規(guī)律,對語言的結(jié)構(gòu)組成規(guī)律,語言信息詞性組成的規(guī)律,由語言環(huán)境確定的語義,由語音聲調(diào)確定的語義,由人機對話自定義確定的語義,使機器利用上述規(guī)律,分析、判斷、識別語目Ih息。
      2.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述利用語言固有的詞態(tài)組合的自然規(guī)律,是指以語義分類所形成的動態(tài)詞、形態(tài)詞、時態(tài)詞、狀態(tài)詞、情態(tài)詞、行業(yè)態(tài)詞、輔助態(tài)詞之間固定的搭配關(guān)系,把這種關(guān)系歸納組成編碼標識供機器識別的方法。
      3.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述對語言的結(jié)構(gòu)組成規(guī)律,是指構(gòu)成語言的句義結(jié)構(gòu)成分,從句子類型陳述句、疑問句、祈使句到組成句子結(jié)構(gòu)成分主語、謂語、賓語、定語、狀語、補語的規(guī)律分析判斷并識別語目彳目息。
      4.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述語言信息的詞性組成,是指構(gòu)成語言信息詞組的成分的詞性組成,確定名詞、動詞、形容詞、代詞、數(shù)詞、量詞以及副詞的詞性成分及語義。
      5.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述的由語言環(huán)境確定的語義,是指依靠語言環(huán)境確定語義的專用語言,由體育、金融、商業(yè)、外貿(mào)以及各種行業(yè)的專業(yè)語言組成行業(yè)語言數(shù)據(jù)庫,機器通過詞態(tài)規(guī)律、句子類型、結(jié)構(gòu)成分、詞性成分,在各專業(yè)數(shù)據(jù)之間分析、比對并確定語義。
      6.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述的由語音聲調(diào)確定的語義,是指同型異聲字存在讀音不同而代表語義不同,尤其中文的四聲,不同聲調(diào)代表不同語義,人在文字信息中可以依靠從上下文判斷,但是機器沒有辦法識別,解決辦法是把所有同型異聲字進行標記,通過機器檢測一旦發(fā)現(xiàn)歧義會自動提示,人機確認后確定語義。
      7.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述人機對話自定義方法,是指非理論性確定的詞性,如人名、企事業(yè)單位名、商標物品名、處所名,與理論詞性不一致,所選詞無論原屬何種詞性、語義,在這里只能是名稱,必須通過特定方法實現(xiàn)人機對話與機器溝通,確定語義。
      8.根據(jù)權(quán)利要求I所述的一種供機器運用語言規(guī)律識別語言信息的方法,其特征是其中所述分析、判斷識別語言信息,是指機器運用上述規(guī)律,可自動把語言信息從語義上分析理解,同時還可以在信息處理過程中進行提示,可以對行業(yè)態(tài)詞、動態(tài)詞、形態(tài)詞前后的修飾語提示恰當?shù)倪x擇性詞語。
      全文摘要
      本發(fā)明涉及一種機器語言信息處理技術(shù),為了使機器模擬人的邏輯思維方法理解語言,掌握語法功能,即從主語、謂語、賓語、定語、狀語、補語的句子結(jié)構(gòu)到名詞、動詞、形容詞、數(shù)量詞及副詞、虛詞的理論及其運用,并且可以把每一部分的功能分析過程都演示出來,做為語言教學示范,提供語言學習的基礎(chǔ)練習。各語種都有分析、判斷、理解語言信息的語法功能,建立在一個通用和交流的平臺上,使機器不僅能識別語言信息,而且可以運用語言信息,在各語種之間進行互譯互換。
      文檔編號G06F17/30GK102708205SQ20121015675
      公開日2012年10月3日 申請日期2012年5月21日 優(yōu)先權(quán)日2012年5月21日
      發(fā)明者徐文和 申請人:徐文和
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1