国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      以語音為基礎(chǔ)的中文信息檢索方法

      文檔序號(hào):6445346閱讀:206來源:國知局
      專利名稱:以語音為基礎(chǔ)的中文信息檢索方法
      技術(shù)領(lǐng)域
      本發(fā)明提供一種信息檢索方法,尤指一種以語音為基礎(chǔ)的中文信息檢索方法。
      背景技術(shù)
      由于因特網(wǎng)的普及,大量的信息迅速累積并廣泛地被使用。因此,時(shí)空距離遠(yuǎn)近不再是人們存取與使用信息的最大障礙,取而代之的問題是缺乏有效率的方式在浩瀚的因特網(wǎng)中尋找想要的信息。信息檢索技術(shù)(information retrieval technologies)因?yàn)槟軌蛱峁┦褂谜弑憬莸姆绞饺ゴ嫒∨c使用想要的信息,因此在近幾年來格外地受到重視。直到現(xiàn)在為止,大部分信息檢索的研究以文字型式的查詢指令(text queries)去檢索文字型式的信息為主,也就是做文字與文字間的比對(duì),目前在這方面的研究與系統(tǒng)發(fā)展已有許多相當(dāng)不錯(cuò)的成果。近年來更因?yàn)檎Z音辨識(shí)技術(shù)的進(jìn)展,開始有一些以整合信息檢索和語音辨識(shí)技術(shù)的研究在進(jìn)行。主要包括了三種不同的應(yīng)用模式,亦即以語音型式的查詢指令(speech queries)去檢索文字型式的信息(textinformation)、以文字型式的查詢指令(text queries)去檢索語音型式的信息(speech information)和以語音型式的查詢指令(speech queries)去檢索語音型式的信息(speech information),上述這三種應(yīng)用模式我們統(tǒng)稱之為以語音為基礎(chǔ)的信息檢索(speech-based informationretrieval)。值得注意的是,傳統(tǒng)文字型式以外的影音多媒體信息如廣播、電視節(jié)目、數(shù)字博物館等,逐漸大量地出現(xiàn)在因特網(wǎng)上,顯然已成為文字信息以外非常重要的信息來源。在絕大部分的情況下,語音是這些多媒體信息最主要的組成成分。另一方面,由于輕薄短小的手持式設(shè)備(hand-held devices)像大哥大、PDA等盛行,原本在傳統(tǒng)個(gè)人計(jì)算機(jī)上常使用的輸入裝置如鼠標(biāo)、鍵盤等在這些新設(shè)備上不是已不復(fù)存在,就是不如以往那樣地可以被方便使用,使得語音查詢的功能變得更為受到重視。這些都是為什么以語音為基礎(chǔ)的信息檢索變得越來越重要的原因??梢韵胂笤谖磥磉@種環(huán)境之下,人們可使用手持式設(shè)備以語音查詢指令去檢索多媒體信息(利用多媒體信息中的語音組成成分),將不再是一個(gè)可望而不可及的夢(mèng)想了。當(dāng)然,有時(shí)候使用者的查詢指令或是要被檢索的信息也可以是文字的形式。對(duì)于中文而言,由于中文不是用字母拼成的拼音語言,常用的中文字非常的多,使得中文的計(jì)算機(jī)輸入即使在今天也一直是一個(gè)非常困難而且尚未完全解決的問題。因此,對(duì)于中文來說,發(fā)展以語音為基礎(chǔ)的信息檢索技術(shù)將會(huì)比其它語言來得重要而且更具吸引力。
      與傳統(tǒng)文字型式的信息檢索不同的是,以語音為基礎(chǔ)的信息檢索并不能直接地拿輸入的查詢指令(queries)來與數(shù)據(jù)庫中很多條信息記錄(information records)一一來作比對(duì)。有很多條信息記錄和輸入的查詢指令在題旨上可能是相關(guān)的,但是由于輸入的查詢指令(queries)與每一條信息記錄(information records)彼此的用字遣詞可能不同,或者是聲學(xué)環(huán)境(acoustic conditions)、語者(speakers)、講話的模式(speaking modes)和背景噪聲(background noises)等的不同,使得處理上變得更加的困難。因此對(duì)于查詢指令與信息記錄而言,不管它們是以文字或是語音的形式存在,都必須先適當(dāng)?shù)剞D(zhuǎn)換成某種代表信息內(nèi)涵的索引特征(indexing terms)以用來判斷查詢指令與信息記錄之間的相關(guān)程度。因此,如何在詞匯、主題與聲學(xué)環(huán)境都充滿不確定變異性的情況下能正確辨識(shí)中文語音進(jìn)而從事語音信息檢索,就是首要問題之所在。這些變異因素使得完全正確的語音辨識(shí)不可能達(dá)成,反而不可避免地產(chǎn)生一定程度的錯(cuò)誤辨識(shí)結(jié)果。而為了克服這些錯(cuò)誤的辨識(shí)結(jié)果所造成的影響,當(dāng)然會(huì)使得本發(fā)明所提出的以語音為基礎(chǔ)的信息檢索技術(shù)與傳統(tǒng)的文字型式的信息檢索(所有文字都是正確的)截然不同,而必須要具備了相當(dāng)程度的強(qiáng)健性(robustness)才可以。
      中文的以語音為基礎(chǔ)的信息檢索第二個(gè)主要問題,便是要選擇適當(dāng)?shù)乃饕卣?indexing terms)來同時(shí)描述使用者查詢指令及所要查詢的每一條信息記錄,使得它們彼此間的相關(guān)性在檢索過程中可以很容易地被評(píng)估出來。索引特征的選擇主要有兩種作法一種是僅以關(guān)鍵詞(Keyword)作為索引基礎(chǔ)(keyword-based approach),另一種則是以所有的詞匯作為索引基礎(chǔ)(word-based approach)。對(duì)于前者僅以關(guān)鍵詞作為索引基礎(chǔ)的方法,必須事先為要被檢索的每一條信息記錄定義好一組關(guān)鍵詞(keywords),再從使用者輸入的查詢指令中擷取出可能的關(guān)鍵詞,這樣一來,含有與查詢指令相同或相關(guān)的關(guān)鍵詞之信息記錄就可以檢索出來。這種方法非常簡易,尤其是對(duì)于檢索相對(duì)靜態(tài)(static)的信息記錄,因?yàn)橹饕晒┧褜さ年P(guān)鍵詞并不會(huì)經(jīng)常改變。然而就算事前已經(jīng)知道了要被檢索的信息記錄的內(nèi)容,如何為它們定義一組完善的關(guān)鍵詞組卻并不是一件非常容易的事。尤其在因特網(wǎng)的環(huán)境下,信息記錄是每天持續(xù)不斷在累積改變并非全然靜態(tài)的,使用先前定義好的關(guān)鍵詞組幾乎不可能滿足這樣的檢索需求,不管定義的關(guān)鍵詞組多大,遺漏關(guān)鍵詞的情況總是一定會(huì)發(fā)生。有了這一考慮后,很自然地會(huì)想到以所有的詞匯當(dāng)為索引的作法。當(dāng)使用者查詢指令與所有的信息記錄都被完整的以文字表示后(可能以中文的字或詞的方式呈現(xiàn),查詢指令與信息記錄兩者都可以是經(jīng)由語音辨識(shí)技術(shù)產(chǎn)生的),許多已發(fā)展很好的文字型式的信息檢索技術(shù)就可以直接地使用。然而,即使是采用這種以所有的詞匯當(dāng)作索引特征的作法,詞典外詞匯(Out-of-vocabulary,亦即用了不少語音辨識(shí)器的詞典中所沒有的詞,語音辨識(shí)器一定辨識(shí)不出來)的發(fā)生仍會(huì)是一個(gè)問題。因?yàn)榇笤~匯語音辨識(shí)器中通常需要一個(gè)事先定義好的詞典,但有些對(duì)于信息檢索而言是特別重要的關(guān)鍵詞,可能因?yàn)闆]有被包括在這個(gè)詞典里而沒有辦法被辨識(shí)出,這對(duì)中文來說是確實(shí)存在的問題,將在下一節(jié)詳細(xì)說明這個(gè)問題。這個(gè)問題因而引出直接在比“詞”更小的層次上比對(duì)查詢指令及信息記錄的相關(guān)性的概念。因?yàn)椋谶@種情況下,并不一定需要有“詞”這一層次,語音信息檢索也就不會(huì)受限于語音辨識(shí)辭典大小的影響。

      發(fā)明內(nèi)容
      在本發(fā)明中,考慮中文單音節(jié)結(jié)構(gòu)(monosyllabic structure)特性,發(fā)展出一系列以音節(jié)(syllable)的統(tǒng)計(jì)特性為基礎(chǔ)的索引特征(indexing terms)來從事中文的以語音為基礎(chǔ)的信息檢索,并驗(yàn)證了這一系列以音節(jié)為基礎(chǔ)的索引特征在檢索表現(xiàn)上的確具有極強(qiáng)的鑒別能力。同時(shí),也進(jìn)一步融合了以中文的字與詞為基礎(chǔ)的索引特征并發(fā)展出若干特別的處理方法來增強(qiáng)上述這些索引特征在檢索上的表現(xiàn)。
      本發(fā)明提供一種中文信息檢索方法,包含輸入描述所欲查詢信息之語音或文字查詢指令;決定一種索引特征;及利用該索引特征檢索所欲查詢之以語音或文字型式呈現(xiàn)的信息記錄,其中該索引特征為具有一特定長度的重疊音節(jié)片段,且該特定長度可任意指定且至少為一。
      本發(fā)明還提供一種以語音為基礎(chǔ)的中文信息檢索方法,包含輸入描述所欲查詢信息之語音或文字查詢指令;決定一種索引特征;及利用該索引特征檢索所欲查詢之以語音或文字型式呈現(xiàn)的信息記錄,其中該索引特征為一間隔至少一音節(jié)的雙音節(jié)。
      以下結(jié)合附圖進(jìn)一步說明本發(fā)明的實(shí)施例。


      圖1為以音節(jié)序列S1S2S3......S10為例的各種音節(jié)層次的索引特征示意圖;圖2為本發(fā)明一實(shí)施例的流程圖。
      本發(fā)明的具體實(shí)施方式
      I.使用音節(jié)層次統(tǒng)計(jì)特性的理由在中文里是一字一音,每個(gè)字(至少有一萬個(gè)以上的常用字)都是發(fā)一個(gè)單音節(jié)(monosyllable)的音。中文有一大特色,即是每天都很容易有新詞產(chǎn)生,新詞通常是由一到數(shù)個(gè)字或者音節(jié)結(jié)合而成。例如,由“電”與“腦”這兩個(gè)字的結(jié)合形成了一個(gè)新詞“計(jì)算機(jī)”,由“股”、“市”、“長”和“紅”這四個(gè)字結(jié)合可形成了一個(gè)金融交易上的新詞“股市長紅”。在大部分的情況下,這些新詞的語意多少都跟構(gòu)成它們的字有關(guān)。另外許多專有名詞像人名、組織名、地名及特定領(lǐng)域的術(shù)語等也都是會(huì)隨時(shí)產(chǎn)生的新詞,就如同上面所舉的例子一樣。因?yàn)檫@些新詞都帶有特定的關(guān)鍵的語意,足以描述或分辨不同的主題對(duì)象,所以在信息檢索功能上往往都是常會(huì)被用來查詢的重要詞匯。但是在絕大多數(shù)的情況下,這些對(duì)于檢索而言非常重要的詞匯卻常常完全沒有包含在語音辨識(shí)器的詞典里。因此在從事以語音為基礎(chǔ)的中文信息檢索時(shí),詞典外詞匯(out-of-vocabulary)發(fā)生的情況特別的嚴(yán)重,這也就是為什么本發(fā)明以音節(jié)層次的統(tǒng)計(jì)特性(syllable-level statistical characteristics)的索引特征來解決這些在信息檢索常發(fā)生的問題是有道理的。換句話來說,在中文里適當(dāng)?shù)囊艄?jié)組合可以代表發(fā)相同音之對(duì)應(yīng)字組合的語意,而這些音節(jié)組合來當(dāng)作索引特征,就可避免信息檢索時(shí)需以詞當(dāng)作索引特征時(shí)會(huì)遭遇的詞典外詞匯問題。
      事實(shí)上,中文具有獨(dú)特的一字一音節(jié)的發(fā)音結(jié)構(gòu),使得以音節(jié)層次信息(syllable-level information)來從事以語音為基礎(chǔ)的中文信息檢索,的確有其非常重要的意義。雖說中文的常用字至少有一萬個(gè)以上,但由于中文獨(dú)特的一字一音節(jié)結(jié)構(gòu)特性,以及許多截然不同語意的字可對(duì)應(yīng)到同一個(gè)音節(jié),使得中文的音節(jié)數(shù)目僅有1,345個(gè)。由于每個(gè)詞是由一到數(shù)個(gè)字(或音節(jié))所組合而成,于是這1,345個(gè)音節(jié)就可以組合成無限多個(gè)中文的詞。也就是說,雖說每個(gè)音節(jié)是對(duì)應(yīng)到許多含不同語意的字,然而由數(shù)個(gè)特定的音節(jié)組合在一起卻常僅產(chǎn)生唯一的多音節(jié)詞(polysyllabic words),或偶而有極少的同音多音節(jié)詞(如程式、城市)。因此,若在從事信息檢索時(shí)以數(shù)個(gè)音節(jié)組合成的片段為特征來比較輸入的查詢指令與被檢索的信息記錄,將可以提供非常好的檢索評(píng)估依據(jù)。
      另一方面,采用音節(jié)層次信息(syllable-level information)來從事信息檢索其實(shí)還存在有許多的重要原因。在中文里,幾乎每個(gè)字都是一個(gè)本身具有語意的詞素(morpheme),在語言上可以有相當(dāng)獨(dú)立的角色。所以,由數(shù)個(gè)字構(gòu)成詞時(shí),構(gòu)詞往往非常有彈性。舉例來說,在多數(shù)的情況下,描述相同或相似概念的詞可能僅有其中的一兩個(gè)字是不同的,其余的字都是相同的。譬如“中華文化”和“中國文化”是描述相同的語意,但是它們的第二個(gè)字是不同的。另一個(gè)可以觀察到的現(xiàn)象是在中文里,一個(gè)長詞可以隨意地縮寫成較短的詞,譬如保留“國家科學(xué)委員會(huì)”的第一個(gè)、第三個(gè)以及最后一個(gè)字就可以縮寫成“國科會(huì)”。再者,時(shí)常一個(gè)由外國語言引入的詞(exotic word)根據(jù)它的發(fā)音可以翻譯成不同的詞,例如“Kosovo”可以翻譯成“科索沃/ke1-suo3-wo4/”、“柯索佛/ke1-suo3-fo2/”、“克索夫/ke1-suo3-fu1/”、“科索伏/ke1-suo3-fu2/”、“科索佛/ke1-suo3-fo2/”等等,但這些經(jīng)翻譯過的詞通常都含有一些音節(jié)是或者全部的音節(jié)都是相同的。為此,一個(gè)智能型的檢索系統(tǒng)必須要能夠處理中文彈性的構(gòu)詞現(xiàn)象,當(dāng)查詢指令與被檢索的信息記錄有不同的詞卻描述近似的語意時(shí),相關(guān)的信息記錄還是可以被成功地檢索出來。直接在音節(jié)層次比對(duì)語音查詢指令與語音信息紀(jì)錄的相關(guān)性的確可以在某種程度上解決上述中文彈性構(gòu)詞問題,因?yàn)樵跈z索的過程中“詞”并不一定需要被辨識(shí)出來,而且不同形式的詞若是描述相同或相關(guān)概念,常都含有一些相同的音節(jié)。
      II.核心技術(shù)A.音節(jié)層次索引特征(Syllable-level Indexing Terms)本發(fā)明提供了一系列以音節(jié)(syllable)為基礎(chǔ)的索引特征,包括了以不同長度的重疊音節(jié)片段(overlapping syllable segments withlength N,S(N),N=1,2,3,4,5,...)及間隔若干音節(jié)的雙音節(jié)(syllablepairs separated by a few syllables,PS(n),n=1,2,3,4,...)為索引特征的技術(shù)。以一個(gè)長度為10的音節(jié)序列(a syllable sequence of 10 syllables S1S2S3....S10)為例,前者(不同長度的重疊音節(jié)片段)列在圖1的上半部,后者(間隔若干音節(jié)之雙音節(jié))則列于圖1的下半部。例如長度為3的重疊音節(jié)片段(S(N),N=3)包括了音節(jié)片段(S1S2S3)、(S2S3S4)、(S3S4S5)等等,間隔一個(gè)音節(jié)之雙音節(jié)(PS(n),n=1)有(S1S3),(S2S4),(S3S5)等等??紤]中文語言的結(jié)構(gòu)性特征,上述這些音節(jié)層次的索引特征的確是在檢索過程中是有意義的。如同上面所提及的,每一個(gè)音節(jié)其實(shí)代表(對(duì)應(yīng))許多不同語意的字,而且若兩個(gè)詞代表相似或相關(guān)的概念,經(jīng)常它們的組成音節(jié)中有一些是相同的,即使當(dāng)中有的詞是屬于詞典外詞匯,語音辨識(shí)器無法辨識(shí)出來。因此以長度為1的音節(jié)片段(S(N),N=1)來作為索引單位,在檢索上是有其道理的。然而,由于每一個(gè)音節(jié)同時(shí)對(duì)應(yīng)到許多代表不同語意的同音字,如果僅用長度為1的音節(jié)片段(S(N),N=1)來作索引,在檢索時(shí)必定會(huì)發(fā)生嚴(yán)重的混淆問題,因此必須要再結(jié)合其它的索引特征才行。事實(shí)上,在中文5,000個(gè)最常用的多音節(jié)詞里(polysyllabic words)約百分之九十以上的詞是雙音節(jié)詞,也就是說它們是發(fā)兩個(gè)音節(jié)的音。所以,以長度為2的音節(jié)片段(S(N),N=2)來作為索引特征絕對(duì)所以,以長度為2的音節(jié)片段(S(N),N=2)來作為索引特征絕對(duì)會(huì)保有大多數(shù)語言上的信息,在檢索上成為重要索引特征是有其道理的。同樣地,如果長度較長的音節(jié)片段如長度為3的音節(jié)片段(S(N),N=3)在檢索比對(duì)時(shí)同時(shí)出現(xiàn)在查詢指令與被檢索的信息記錄中時(shí),與查詢指令有關(guān)的重要信息便可以更精確地被擷取出。另一方面,就上述中文構(gòu)詞之彈性而言,以間隔若干音節(jié)之雙音節(jié)來當(dāng)作索引特征在檢索上是會(huì)有幫助的。就以前述所舉的例子來說,“國家科學(xué)委員會(huì)”這個(gè)詞可以被縮寫或念成“國科會(huì)”,僅包括了原來的第一個(gè)、第三個(gè)以及最后一個(gè)音節(jié),因此本發(fā)明所提出的以間隔若干音節(jié)的雙音節(jié)(syllable pairs separated by n syllables)為索引的方法就明顯地可以解決這個(gè)問題。再者,由于在中文語音辨識(shí)過程中常有音節(jié)的取代(substitution,亦即一個(gè)音節(jié)被辨識(shí)成另一個(gè)音節(jié))、插入(insertion,亦即在兩個(gè)相連的音節(jié)中間,辨識(shí)的結(jié)果會(huì)多出一個(gè)不存在的音節(jié))以及刪除(deletion,亦即一個(gè)明明存在的音節(jié)在辨識(shí)時(shí)被丟掉)等錯(cuò)誤的發(fā)生,本發(fā)明所提出的以間隔若干音節(jié)之雙音節(jié)為索引(syllable pairs separated by n syllables)的方法也同樣地可以降低這些語音辨識(shí)錯(cuò)誤在檢索上的影響??偠灾?,單音節(jié)(monosyllables)所形成的索引特征其實(shí)代表著某些具有語意的字,也可以或多或少地解決中文的詞典外詞匯的問題。而不同語意的同音字對(duì)應(yīng)到相同音節(jié)所產(chǎn)生的混淆問題,也可以由長度大于1的重疊音節(jié)片段(overlapping syllable segments with length N,N>1)以及間隔若干音節(jié)之雙音節(jié)(syllable pairs separated by n syllables)所形成的索引特征來區(qū)分出不同的語意信息。重疊音節(jié)片段為索引特征可以代表多音節(jié)詞或詞組(polysyllabic words or phrases)的信息,對(duì)于檢索來說是非常重要的;間隔若干音節(jié)的雙音節(jié)為索引單位可以在某種程度上解決中文彈性構(gòu)詞問題如縮寫等,以及降低語音辨識(shí)產(chǎn)生的取代、插入以及刪除等錯(cuò)誤所造成的影響。
      當(dāng)定義好上述一系列以音節(jié)(syllable)為基礎(chǔ)的索引特征后,對(duì)于每一項(xiàng)語音查詢指令與每一條語音記錄都經(jīng)語音辨識(shí)產(chǎn)生對(duì)應(yīng)的音節(jié)格狀組(syllable-lattice)。在這音節(jié)格狀組中,每個(gè)一個(gè)音節(jié)的語音段落,都儲(chǔ)存著許多的候選音節(jié)(syllable candidates),這是為了克服語音辨識(shí)的不確定性,多保留一些候選音節(jié)可以確保正確音節(jié)沒有流失。同時(shí),每個(gè)一個(gè)候選音節(jié)都存有經(jīng)語音辨識(shí)過程產(chǎn)生的聲學(xué)辨識(shí)分?jǐn)?shù),而對(duì)于上述的每一音節(jié)組合所形成的索引特征,索引特征的分?jǐn)?shù)就是由它們個(gè)別的組成音節(jié)的聲學(xué)辨識(shí)分?jǐn)?shù)平均而得。若查詢指令或信息記錄中的任一個(gè)是文字型式,則該索引特征的分?jǐn)?shù)就由其在文字型式的查詢指令或文字型式的信息記錄中出現(xiàn)的次數(shù)來替代。
      有了本發(fā)明的一系列以音節(jié)為基礎(chǔ)的索引特征用來描述語音查詢指令與每一條語音記錄,則目前許多常在文字型式的信息檢索(text-based information retrieval)系統(tǒng)使用的信息檢索模型(informationretrieval models)也都同樣地可以拿來用在以語音為基礎(chǔ)的信息檢索中使用。就以最常用在文字型式的信息檢索的向量空間模型(vectorspace model,這是所有做文字型式的信息檢索的人都熟知的技術(shù))來說,在這個(gè)模型下,不論信息紀(jì)錄與查詢指令是文字型式或是語音型式,都可以設(shè)計(jì)一組特征向量來描述它們,其中的每一個(gè)向量分量(component)代表某一類以音節(jié)為基礎(chǔ)的索引特征在檢索時(shí)對(duì)應(yīng)的信息。舉例來說,若使用本發(fā)明所提出的各類音節(jié)層次的索引特征中的9類加以組合(S(N),N=1~5,和Ps(n),n=1~4),就一共可以用9個(gè)特征向量來代表每一條信息紀(jì)錄與每一項(xiàng)查詢指令。而信息紀(jì)錄與查詢指令間的相關(guān)性就以查詢指令及每一條信息記錄的這9個(gè)特征向量的個(gè)別比對(duì)結(jié)果的加權(quán)和來評(píng)估,就似傳統(tǒng)文字型式的信息檢索的處理過程是完全一樣的。
      B.音節(jié)、字與詞三個(gè)層次的信息的融合(Fusion of Syllable-,Character-And Word-Level Information)雖然上述以音節(jié)組合為基礎(chǔ)的索引特征已經(jīng)可以在以語音為基礎(chǔ)的中文信息檢索(speech-based information retrieval for MandarinChinese)中提供非常強(qiáng)的鑒別能力,字與詞層次上的信息卻也可以帶來不少音節(jié)所沒有的額外知識(shí)。例如,同音字對(duì)應(yīng)到相同音節(jié)所衍生的混淆問題可由字層次上的信息來解決,詞則具有較音節(jié)更為完整的語意信息。但另一方面,以字或詞組合為索引特征在以語音為基礎(chǔ)的信息檢索中會(huì)帶有較多的語音辨識(shí)錯(cuò)誤,尤其是因詞典外詞匯引起的辨識(shí)錯(cuò)誤。因此適當(dāng)?shù)厝诤弦艄?jié)、字與詞這三種不同層次的信息,自然就會(huì)對(duì)于以語音為基礎(chǔ)的中文信息檢索會(huì)有所幫助。就如同前述的音節(jié)層次的索引特征,字與詞層次的索引特征也可以經(jīng)由同樣的方式產(chǎn)生,譬如不同長度的重疊字片段或重疊詞片段(C(N),N=1,2,3,4,5,...,和W(N),N=1,2,3,4,5,...)和間隔若干字或詞之雙字或雙詞(PC(N),N=1,2,3,4,...,和PW(N),N=1,2,3,4,...)。如此一來,查詢指令與信息記錄間的相關(guān)程度就可以用上述音節(jié)、字與詞這三種層次的索引特征個(gè)別的特征向量相關(guān)性比對(duì)結(jié)果的加權(quán)和來評(píng)估。
      C.由數(shù)據(jù)庫導(dǎo)引的索引特征(Data-Driven Indexing Terms)上述以不同長度的重疊音節(jié)片段(overlapping syllable segmentswith length N,S(N),N=1,2,3,4,5,...),字片段或詞片段為索引特征的方式,效果雖好,但因這些索引特征的總數(shù)龐大,對(duì)計(jì)算量及內(nèi)存容量的需求極大,實(shí)際制作時(shí)之軟硬件代價(jià)較高。改進(jìn)的方法,可以進(jìn)一步利用統(tǒng)計(jì)的方法,用計(jì)算機(jī)程序自動(dòng)地從數(shù)據(jù)庫(例如所有被檢索的信息記錄所形成之集合等)中尋找結(jié)合性強(qiáng)且語意完整的音節(jié)片段(或字片段、詞片段)為真正使用的索引特征,而把語意不完整的音節(jié)片段(或字片段、詞片段)全部刪除。例如音節(jié)片段或字片段“柬埔寨/jian3-pu3-zhai4/”(S(N)或C(N),N=3)會(huì)被選為真正使用的索引特征,而音節(jié)片段或字片段“柬埔/jian3-pu3/”及“埔寨特征,而音節(jié)片段或字片段“柬埔/jian3-pu3/”及“埔寨/pu3-zhai4/”(S(N)或C(N),N=2)等則會(huì)因語意不完整,自動(dòng)地被刪除。這種由數(shù)據(jù)庫導(dǎo)引(data-driven)概念下所挑選出來的索引特征,不僅可以達(dá)到非常精簡的索引特征總數(shù),而且其檢索的效能也會(huì)大幅地提高。此概念相同適用于音節(jié)、字及詞三個(gè)層次的索引特征。以詞片段舉例,“布什總統(tǒng)”是“布什”及“總統(tǒng)”二個(gè)詞所構(gòu)成的語意完整的雙詞片段,是很好的索引特征,但“總統(tǒng)前往”是“總統(tǒng)”和“前往”兩個(gè)詞,但連起來其語意并不完整,不是一個(gè)很有意義的雙詞片段,在檢索時(shí)實(shí)際意義不大,則可刪除。這種由數(shù)據(jù)庫導(dǎo)引的索引特征(data-driven indexing terms)之產(chǎn)生方法,以音節(jié)層次的索引特征為例,可由全體長度為1的音節(jié)片段(S(N),N=1)開始,以由下而上(bottom-up)的方式,選定結(jié)合性強(qiáng),適于結(jié)合的相連音節(jié)片段,一一予以兩兩相連形成長度較大的(N=2,3等)新的音節(jié)片段,結(jié)合的依據(jù)取決于任意兩個(gè)在數(shù)據(jù)庫(例如所有被檢索的信息記錄所構(gòu)成的集合等)中相連的音節(jié)片段在整個(gè)數(shù)據(jù)庫中的某些統(tǒng)計(jì)數(shù)值,例如他們彼此間的相互信息量(mutual information)及語言模型參數(shù)(languagemodel parameter)等相當(dāng)程度代表其結(jié)合性的統(tǒng)計(jì)數(shù)值,或其它類似的統(tǒng)計(jì)數(shù)值,再對(duì)不同長度的索引特征給予不同的閥值d0設(shè)定。當(dāng)兩個(gè)相連的音節(jié)片段的某些統(tǒng)計(jì)數(shù)值大于閥值d0時(shí),便可把他們結(jié)合在一起以形成新的音節(jié)片段。此一產(chǎn)生步驟可用計(jì)算機(jī)程序反復(fù)進(jìn)行若干次,直到?jīng)]有任何相連的音節(jié)片段的這些統(tǒng)計(jì)數(shù)值超過閥值為止。同樣的方法也適用于產(chǎn)生由數(shù)據(jù)庫導(dǎo)引的結(jié)合性強(qiáng)且語意完整的字片段或詞片段等等。
      D.音節(jié)層次的聲音確認(rèn)(Syllable-level Utterance Verification)當(dāng)在音節(jié)格狀組(syllable-lattice)中,每個(gè)一個(gè)音節(jié)的語音段落所儲(chǔ)存的候選音節(jié)數(shù)目由1增加到m時(shí),則重疊音節(jié)片段(overlappingsyllable segments with length N,S(N),N=1,2,3,4,5,...)及間隔若干音節(jié)的雙音節(jié)(syllable pairs separated by a few syllables,PS(n),n=1,2,3,4,...)的索引特征數(shù)目就會(huì)分別增加到mN與m2倍之多。雖說它們之中可能會(huì)有一個(gè)重疊音節(jié)片段或者間隔若干音節(jié)之雙音節(jié)會(huì)是完全正確并因此可以提供適當(dāng)?shù)臋z索信息,但其余的mN-1或m2-1個(gè)索引特征都包含有一個(gè)以上的錯(cuò)誤音節(jié),因此不可避免地產(chǎn)生錯(cuò)誤的索引特征,造成檢索過程中的干擾。音節(jié)層次的聲音確認(rèn)技術(shù)于是可以在這里使用,以降低錯(cuò)誤索引組合的數(shù)目?;镜淖鞣ㄊ侨魏魏蜻x音節(jié)若其聲學(xué)辨識(shí)分?jǐn)?shù)低于某個(gè)事先設(shè)定的閥值(pre-assignedthreshold)時(shí),其產(chǎn)生的索引特征就可以被刪除??梢栽诮⑺饕卣鲿r(shí),對(duì)每一類索引特征給不同的閥值的設(shè)定。
      E.低頻索引特征的刪除(Deletion of Low Frequency IndexingTerms)可以假設(shè)語音辨識(shí)結(jié)果中含有出現(xiàn)頻率較低的音節(jié)組合之處經(jīng)常較有可能含有辨識(shí)錯(cuò)誤,所以在索引特征產(chǎn)生過程中,某一索引特征若含有極低頻率的音節(jié)組合成分時(shí),便可予以刪除。因此在本發(fā)明中,索引特征的統(tǒng)計(jì)分布可以用來作為另一種索引特征刪減的依據(jù)。上述的重疊音節(jié)片段(overlapping syllable segments with lengthN,(S(N),N=1,2,3,4,5,...)及間隔若干音節(jié)的雙音節(jié)(syllable pairsseparated by a few syllables,PS(n),n=1,2,3,4,...)等每一索引特征的統(tǒng)計(jì)分布,便可以用來作為索引特征刪減的依據(jù)。就舉長度為2的重疊音節(jié)片段(S(N),N=2)為例,若一個(gè)由兩個(gè)音節(jié)組合成的音節(jié)片段(sk,sj)其出現(xiàn)次數(shù)小于一個(gè)事先決定的閥值r0時(shí),便可刪除它以增進(jìn)檢索的效能。同樣地,對(duì)每一類索引特征可以給不同的閥值的設(shè)定。
      F.極高頻索引特征的刪除(Deletion of Stop Terms)當(dāng)產(chǎn)生音節(jié)、字與詞的索引特征時(shí),可針對(duì)個(gè)別索引特征的文件倒數(shù)頻率(Inverse Document Frequency,IDF,這是一般文字型式的信息檢索常用的參數(shù))或其它類似的參數(shù)為基礎(chǔ),建立極高頻索引特征列表(stop term list)。這些是最不具鑒別能力的索引特征。例如“的”“是”這兩個(gè)單字或單音節(jié)大量出現(xiàn)在每一條信息記錄中,故完全沒有索引功能。因此對(duì)于每一類音節(jié)索引特征,例如重疊音節(jié)片段(overlapping syllable segments with length N,S(N),N=1~5)及間隔若干音節(jié)之雙音節(jié)(syllable pairs separated by a few syllables,S(N),N=1~5)等,都可建立一個(gè)極高頻索引列表,并在產(chǎn)生索引特征時(shí)把每一類索引特征里出現(xiàn)在極高頻索引列表中的前M個(gè)最常出現(xiàn)的索引特征(亦即IDF值較低者等等)從特征向量中刪除。這里M的值亦可以依每一類索引特征而設(shè)定。
      G.自動(dòng)相關(guān)回授(Automatic Relevance Feedback)在檢索的過程中使用者往往未必能一句話就說出最正確的查詢指令,有時(shí)某些對(duì)檢索目的而言是極重要的檢索的線索的索引特征并沒有出現(xiàn)在使用者的查詢指令中,導(dǎo)致在第一次檢索時(shí)并不一定能完全檢索到想要的信息紀(jì)錄。此時(shí),在第一次檢索時(shí)找到的相關(guān)或不相關(guān)信息記錄(relevant or irrelevant information records)可以用來自動(dòng)進(jìn)行第二次檢索,進(jìn)一步確認(rèn)使用者實(shí)際上真正想要尋找的信息為何。自動(dòng)化相關(guān)回授就是把第一次檢索到的,可能是使用者想要的相關(guān)信息記錄中常出現(xiàn)的索引特征加入使用者的初始查詢指令的特征向量中,或?qū)⒃诘谝淮螜z索中認(rèn)為不相關(guān)的信息記錄中常出現(xiàn)的索引特征從使用者的初始查詢指令的特征向量中刪除,再以所產(chǎn)生的新的查詢指令特征向量來從事第二次的檢索,通常均可增進(jìn)檢索的準(zhǔn)確性。
      H.索引特征關(guān)連矩陣(Term Association Matrix)如果兩個(gè)索引特征常常同時(shí)出現(xiàn)(co-occurring)在相同的信息紀(jì)錄或段落(information records or passages)中,往往可能是共同用來描述某個(gè)特定的事件、領(lǐng)域或主題的,因此彼此之間可能存在某種程度上的同義關(guān)連性(synonymity association)?;谶@樣的假設(shè),可以從要被檢索的信息記錄所形成的集合中,為每一類的索引特征建立起一個(gè)索引特征關(guān)連矩陣,在此關(guān)連矩陣中每一個(gè)元素a(m,n)代表著任兩個(gè)索引特征tm和tn同時(shí)出現(xiàn)在相同信息紀(jì)錄或段落的頻率統(tǒng)計(jì)特性,因此也代表著這兩個(gè)索引特征之間的某種關(guān)連性。例如,若關(guān)連矩陣中某一個(gè)元素a(m,n)的值為1,可能代表著索引特征tm和tn總是同時(shí)出現(xiàn)在相同的信息紀(jì)錄或段落中,因此一定有非常高的同義關(guān)連性;若關(guān)連矩陣中某一個(gè)元素a(m,n)的值為0,可能代表著索引特征tm和tn從來沒有同時(shí)出現(xiàn)在相同的信息紀(jì)錄或段落中,故可能是毫無關(guān)系的。于是,我們便可以把與使用者的初始查詢指令中的索引特征的同義關(guān)連性最大的L個(gè)索引特征加入查詢指令的特征向量中,以形成新的使用者查詢指令特征向量。L值的大小可因不同類的索引特征而異。
      請(qǐng)參照?qǐng)D2,圖2為本發(fā)明一實(shí)施例的流程圖。其中結(jié)合了上述以不同長度的重疊音節(jié)/字/詞片段或相隔若干音節(jié)/字/詞之雙音節(jié)/字/詞的方法進(jìn)行檢索、由數(shù)據(jù)庫導(dǎo)引的索引特征抽取方法、經(jīng)由音節(jié)層次的聲音確認(rèn)、索引特征關(guān)連矩陣、低頻索引刪除與極高頻索引刪除、同時(shí)融合音節(jié)/字/詞索引特征及自動(dòng)相關(guān)回授,完成本發(fā)明之以語音為基礎(chǔ)的中文信息檢索。
      以上所述僅為本發(fā)明的較佳實(shí)施例,凡對(duì)本發(fā)明的權(quán)利要求的技術(shù)方案所做的等效變化與修飾,皆應(yīng)屬本發(fā)明之涵蓋范圍。
      權(quán)利要求
      1.一種中文信息檢索方法,包含輸入描述所欲查詢信息之語音或文字查詢指令;決定一種索引特征;及利用該索引特征檢索所欲查詢之以語音或文字型式呈現(xiàn)的信息記錄,其中該索引特征為具有一特定長度的重疊音節(jié)片段,且該特定長度可任意指定且至少為一。
      2.如權(quán)利要求1所述的中文信息檢索方法,其中該特定長度為二。
      3.如權(quán)利要求1所述的中文信息檢索方法,其中該特定長度為三。
      4.一種以語音為基礎(chǔ)的中文信息檢索方法,包含輸入描述所欲查詢信息之語音或文字查詢指令;決定一種索引特征;及利用該索引特征檢索所欲查詢之以語音或文字型式呈現(xiàn)的信息記錄,其中該索引特征為一間隔至少一音節(jié)的雙音節(jié)。
      5.如權(quán)利要求1所述的中文信息檢索方法,其中該索引特征為具有一特定長度的重疊字片段,且該特定長度可任意指定且至少為一。
      6.如權(quán)利要求1所述的中文信息檢索方法,其中該索引特征為具有一特定長度的重疊詞片段,且該特定長度可任意指定且至少為一。
      7.如權(quán)利要求4所述的中文信息檢索方法,其中該索引特征為一間隔若干字的雙字。
      8.如權(quán)利要求4所述的中文信息檢索方法,其中該索引特征為一間隔若干詞的雙詞。
      9.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,其中該索引特征可經(jīng)選定為不只一種。
      10.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,其中該索引特征可由重疊音節(jié)片段、雙音節(jié)、重疊字片段、重疊詞片段、雙字及雙詞所組成之群組中選定一種或多種。
      11.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,其中該索引特征決定后,該中文信息檢索方法另包含辨識(shí)語音查詢指令中每一音節(jié)、字或詞之語音段落產(chǎn)生不止一個(gè)候選音節(jié)、字或詞,以建立對(duì)應(yīng)之音節(jié)、字或詞格狀組;及辨識(shí)語音信息記錄中每一音節(jié)、字或詞之語音段落產(chǎn)生不止一個(gè)候選音節(jié)、字或詞,以產(chǎn)生對(duì)應(yīng)之音節(jié)、字或詞格狀組;其中該音節(jié)、字或詞格狀組中之各候選音節(jié)、字或詞包含有經(jīng)語音辨識(shí)產(chǎn)生的一聲學(xué)辨識(shí)分?jǐn)?shù)。
      12.如權(quán)利要求11所述的中文信息檢索方法,其中該索引特征另包含有一分?jǐn)?shù),且該分?jǐn)?shù)系由該索引特征所包含的所有候選音節(jié)、字或詞之聲學(xué)辨識(shí)分?jǐn)?shù)平均而得。
      13.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,其中以語音為基礎(chǔ)之中文信息檢索系包含有以語音型式的查詢指令檢索文字形式的信息記錄、以文字型式的查詢指令檢索語音形式的信息記錄、及以語音形式的查詢指令檢索語音形式的信息記錄。
      14.如權(quán)利要求13所述的中文信息檢索方法,其中查詢指令或信息記錄凡以文字型式呈現(xiàn)的,其索引特征的分?jǐn)?shù)為該索引特征在該文字形式的查詢指令或信息記錄中出現(xiàn)的次數(shù)。
      15.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,另包含為每一查詢指令及每一信息記錄設(shè)計(jì)一組特征向量,其中每一特征向量包含有若干個(gè)向量分量,每一向量分量用以代表前述中文信息檢索中每一索引特征在查詢指令與信息記錄中由聲學(xué)辨識(shí)分?jǐn)?shù)求得的分?jǐn)?shù)(若為語音型式呈現(xiàn))或出現(xiàn)的次數(shù)(若為文字型式呈現(xiàn))。
      16.如權(quán)利要求15所述的中文信息檢索方法,其中該查詢指令與每一信息記錄之關(guān)連性由代表該查詢指令與代表每一信息記錄之各特征向量之個(gè)別比對(duì)結(jié)果的加權(quán)和決定。
      17.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,另包含有產(chǎn)生一組由數(shù)據(jù)庫導(dǎo)引之索引特征,該組索引特征可由長度為1的音節(jié)、字或詞片段開始,以由下往上的方式,將相鄰的音節(jié)、字或詞片段兩兩相連以形成另一長度較長的音節(jié)、字或詞片段,并以該長度較長之音節(jié)、字或詞片段在一數(shù)據(jù)庫中之一統(tǒng)計(jì)數(shù)值,來決定是否應(yīng)將該兩音節(jié)、字或詞片段加以結(jié)合以形成新的索引特征。
      18.如權(quán)利要求17所述的中文信息檢索方法,其中該另一長度較長的音節(jié)、字或詞片段之長度為2。
      19.如權(quán)利要求17所述的中文信息檢索方法,其中該另一長度較長的音節(jié)、字或詞之長度為3。
      20.如權(quán)利要求17所述的中文信息檢索方法,其中該統(tǒng)計(jì)數(shù)值可為該可以相連形成另一長度較長的音節(jié)、字或詞片段的兩個(gè)較小音節(jié)、字或詞片段彼此間的相互信息量。
      21.如權(quán)利要求17所述的中文信息檢索方法,其中該統(tǒng)計(jì)數(shù)值可為該可以相連形成另一長度較長的音節(jié)、字或詞片段的兩個(gè)較小音節(jié)、字或詞片段彼此間的語言模型參數(shù)。
      22.如權(quán)利要求17所述的中文信息檢索方法,其中該產(chǎn)生由數(shù)據(jù)庫導(dǎo)引之索引特征之步驟中,決定是否結(jié)合兩個(gè)相連的較小音節(jié)、字或詞片段以形成另一長度較長的音節(jié)、字或詞片段以作為新的索引特征時(shí),對(duì)不同長度的音節(jié)、字或詞片段索引特征給予不同的閥值,當(dāng)該統(tǒng)計(jì)數(shù)值大于該閥值時(shí),便將該兩較小音節(jié)、字或詞片段結(jié)合以形成新的索引特征。
      23.如權(quán)利要求22所述的中文信息檢索方法,其中該產(chǎn)生由數(shù)據(jù)庫導(dǎo)引之索引特征的步驟可反復(fù)執(zhí)行,直到?jīng)]有任何相連的音節(jié)、字或詞片段的統(tǒng)計(jì)數(shù)值超過該閥值為止。
      24.如權(quán)利要求11所述的中文信息檢索方法,其中各候選音節(jié)、字或詞之聲學(xué)辨識(shí)分?jǐn)?shù)若低于一預(yù)先設(shè)定的值時(shí),該候選音節(jié)、字或詞便會(huì)被刪除。
      25.如權(quán)利要求12所述的中文信息檢索方法,其中該索引特征在一數(shù)據(jù)庫中出現(xiàn)之次數(shù)若低于一預(yù)先設(shè)定的值時(shí),該索引特征便會(huì)被刪除。
      26.如權(quán)利要求25所述的中文信息檢索方法,其中該預(yù)先設(shè)定的值可于決定該索引特征時(shí)便加以設(shè)定,且不同的索引特征可設(shè)定不同的值。
      27.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,另包含有根據(jù)各索引特征之文件倒數(shù)頻率建立一極高頻索引特征列表。
      28.如權(quán)利要求27所述的中文信息檢索方法,另包含有從特征向量中刪除出現(xiàn)在該極高頻索引特征列表中的前若干個(gè)最常出現(xiàn)的索引特征。
      29.如權(quán)利要求1、4、5、6、7或8之任一項(xiàng)所述的中文信息檢索方法,另包含有為該組索引特征建立一索引特征關(guān)連矩陣,該矩陣包含若干個(gè)矩陣元素,每一矩陣元素代表任兩個(gè)索引特征同時(shí)出現(xiàn)在相同的信息記錄中的頻率統(tǒng)計(jì)特性。
      30.如權(quán)利要求29所述的中文信息檢索方法,其中該元素為介于0與1之間的任何數(shù)值。
      31.如權(quán)利要求30所述的中文信息檢索方法,其中該元素為0可代表兩個(gè)索引特征從未同時(shí)出現(xiàn)在相同的信息記錄中或無關(guān)連性。
      32.如權(quán)利要求30所述的中文信息檢索方法,其中該元素為1可代表兩個(gè)索引特征總是同時(shí)出現(xiàn)在相同信息記錄中或有非常高的關(guān)連性。
      33.如權(quán)利要求32所述的中文信息檢索方法,另包含將最具有關(guān)連性的若干個(gè)索引特征加入查詢指令的特征向量中,以形成另一新的查詢指令特征向量。
      34.如權(quán)利要求1、4、5、6、7、8、12或14之任一項(xiàng)所述的中文信息檢索方法,另包含有在利用該索引特征檢索欲查詢之以語音或文字型式呈現(xiàn)之信息記錄的步驟后,進(jìn)行第二次檢索。
      35.如權(quán)利要求34所述的中文信息檢索方法,其中該第二次檢索可由增加索引特征或刪除索引特征,以產(chǎn)生另一新的查詢指令特征向量加以執(zhí)行。
      36.如權(quán)利要求35所述的中文信息檢索方法,其中該索引特征之增加或刪除可由該索引特征常出現(xiàn)于之前檢索所獲得之相關(guān)信息記錄或不相關(guān)信息記錄中加以判斷。
      37.如權(quán)利要求36所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得之相關(guān)信息記錄中,則增加該索引特征或其分?jǐn)?shù)。
      38.如權(quán)利要求36所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得之不相關(guān)信息記錄中,則刪除該索引特征或降低其分?jǐn)?shù)。
      39.如權(quán)利要求11所述的中文信息檢索方法,另包含有在利用該索引特征檢索欲查詢之以語音或文字型式呈現(xiàn)之信息記錄的步驟后,進(jìn)行第二次檢索。
      40.如權(quán)利要求39所述的中文信息檢索方法,其中該第二次檢索可由增加索引特征或刪除索引特征,以產(chǎn)生另一新的查詢指令特征向量加以執(zhí)行。
      41.如權(quán)利要求40所述的中文信息檢索方法,其中該索引特征之增加或刪除可由該索引特征常出現(xiàn)于之前檢索所獲得的相關(guān)信息記錄或不相關(guān)信息記錄中加以判斷。
      42.如權(quán)利要求41所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得的相關(guān)信息記錄中,則增加該索引特征或其分?jǐn)?shù)。
      43.如權(quán)利要求41所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得的不相關(guān)信息記錄中,則刪除該索引特征或降低其分?jǐn)?shù)。
      44.如權(quán)利要求15所述的中文信息檢索方法,另包含有在利用該索引特征檢索欲查詢之以語音或文字型式呈現(xiàn)之信息記錄的步驟后,進(jìn)行第二次檢索。
      45.如權(quán)利要求44所述的中文信息檢索方法,其中該第二次檢索可由增加索引特征或刪除索引特征,以產(chǎn)生另一新的查詢指令特征向量加以執(zhí)行。
      46.如權(quán)利要求45所述的中文信息檢索方法,其中該索引特征之增加或刪除可由該索引特征常出現(xiàn)于之前檢索所獲得的相關(guān)信息記錄或不相關(guān)信息記錄中加以判斷。
      47.如權(quán)利要求46所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得的相關(guān)信息記錄中,則增加該索引特征或其分?jǐn)?shù)。
      48.如權(quán)利要求46所述的中文信息檢索方法,其中若該索引特征常出現(xiàn)于之前檢索所獲得的不相關(guān)信息記錄中,則刪除該索引特征或降低其分?jǐn)?shù)。
      全文摘要
      本發(fā)明涉及一種以語音為基礎(chǔ)的中文信息檢索方法。在本發(fā)明中,考慮中文的單音節(jié)結(jié)構(gòu)特性,發(fā)展出來一系列以音節(jié)為基礎(chǔ)的索引特征,包括了重疊音節(jié)片段及可間隔若干音節(jié)之雙音節(jié),同時(shí)也驗(yàn)證了這一系列以音節(jié)為基礎(chǔ)的索引特征的確具有極強(qiáng)的鑒別能力。此外,在本發(fā)明里也發(fā)展出進(jìn)一步融合以中文的字與詞為基礎(chǔ)的索引特征的方法,以及若干特別的處理方法,來增強(qiáng)上述這些音節(jié)索引特征的檢索鑒別能力。
      文檔編號(hào)G06F17/30GK1538325SQ0311018
      公開日2004年10月20日 申請(qǐng)日期2003年4月15日 優(yōu)先權(quán)日2003年4月15日
      發(fā)明者李琳山, 簡立峰, 陳柏琳, 王新民 申請(qǐng)人:李琳山
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1