国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用片段對大列表進(jìn)行語音識別的制作方法

      文檔序號:2831948閱讀:225來源:國知局
      專利名稱:利用片段對大列表進(jìn)行語音識別的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種語音識別方法,其經(jīng)由語音輸入從條目列表中選取一個 條目,本發(fā)明還涉及一種語音識別系統(tǒng)。
      背景技術(shù)
      在許多應(yīng)用中,諸如導(dǎo)航、名稱撥號或者音頻/視頻播放器控制中,需要 從諸如城市名、街道名、固有名稱、地址或音樂題目等大量條目的列表中選 取一個條目。為了可以在具有中等容量存儲器的處理器資源中進(jìn)行語音識 別,常常使用一種具有兩個步驟的語音識別方法。在第一步中,由語音識別
      ;漠塊識別音素序列(phoneme sequence )或音素串。然而,音素識別的識別 準(zhǔn)確率通常是不可接受的,其中會出現(xiàn)很多音素被替換、插入以及刪除的情 況。然后,將諸如音素串等已識別的語音輸入與可能會很長的按照發(fā)音轉(zhuǎn)錄 的條目列表進(jìn)行比較,以確定較短的最佳匹配條目的候選列表。然后,將候 選列表作為新的詞匯表提供給語音識別器,以供第二次識別途徑使用。由于 對第一步中進(jìn)行的識別要求不高,而在進(jìn)行計(jì)算繁重的第二步時僅使用了大 條目列表的一個小子集,這個方法節(jié)省了計(jì)算資源。從WO 2004/077405 A1 中可以了解以上討論的具有兩個步驟的語音識別方法。
      然而,在列表非常大的情況下,計(jì)算負(fù)擔(dān)仍然非常大。在導(dǎo)航系統(tǒng)具有 語音驅(qū)動控件的情況下,會出現(xiàn)驅(qū)動器/揚(yáng)聲器說出諸如城市和目的城市的街 道相結(jié)合的目的地組合的情況。例如,德國大約存在三百萬個城市-街道的 組合。當(dāng)對這樣大的列表執(zhí)行識別步驟時,上述匹配步驟將需要過多的存儲 器和匹配運(yùn)行時間,從而不能集成在車輛的嵌入式系統(tǒng)中。在其它應(yīng)用領(lǐng)域 也可能存在這些大列表,例如,當(dāng)在產(chǎn)品中集成了歌曲的聲控選擇時選擇藝 術(shù)家姓名、藝術(shù)家的歌曲。

      發(fā)明內(nèi)容
      于是,存在對從條目列表中選取條目的語音識別方法進(jìn)行改進(jìn)的需要,
      6從而,進(jìn)一步最小化計(jì)算負(fù)擔(dān)。
      獨(dú)立權(quán)利要求的特征滿足了此需求。在從屬權(quán)利要求中,描述了本發(fā)明 的優(yōu)選實(shí)施例。
      根據(jù)本發(fā)明的第一個方面,提供了一種經(jīng)由語音輸入從條目列表選取條 目的語音識別方法。此方法包括檢測和識別語音輸入的步驟。進(jìn)一步,提供 了列表?xiàng)l目的片段。然后,已識別的語音輸入被用來與條目列表進(jìn)行比較, 以便基于比較結(jié)果生成最佳匹配條目的候選列表。根據(jù)本發(fā)明的一個方面, 通過將已識別的語音輸入與列表?xiàng)l目的所述片段進(jìn)行比較,生成候選列表。 通過將列表?xiàng)l目片段而不是完整的列表?xiàng)l目用于比較步驟,相比將已識別的 語音輸入與完整的列表?xiàng)l目進(jìn)行匹配的匹配過程,計(jì)算負(fù)擔(dān)可被降低到最小 程度。在大列表的情況下,在列表?xiàng)l目中可以重復(fù)使用各個片段,例如,在
      目的地的情況中,在很多列表?xiàng)l目中可能存在片段+street (英語"街道")或 承strasse(德語"街道")。進(jìn)一步,在列表?xiàng)l目為城市街道組合的情況下,對 于所述城市的每個街道都可能存在城市名。因此,片段列表將比初始列表短 得多。進(jìn)一步,片段本身也比對應(yīng)的列表?xiàng)l目更短。這些方面共同使得運(yùn)行 時性能得到顯著提高。
      根據(jù)一種優(yōu)選實(shí)施例,至少為每個列表?xiàng)l目提供一個片段。進(jìn)一步,可 以為每個片段加入至少一個通配符。由于分割的原因,片段僅表示列表?xiàng)l目
      分。優(yōu)選地,通配符能夠一律匹配任何其它部分。這意味著片段本身將準(zhǔn)確 匹配與之相關(guān)聯(lián)的語音輸入部分,而(語音輸入的)其它任何部分則匹配通 配符。即使在匹配步驟中不能完全避免通配符的影響,也能夠最小化其影響。 可以通過計(jì)算或者實(shí)驗(yàn)測試確定通配符的權(quán)重。
      當(dāng)執(zhí)行列表?xiàng)l目分割時,優(yōu)選地,片段的列表基本上包含所有不同的列 表?xiàng)l目片段。為了生成最佳匹配條目的候選列表,將已識別的語音輸入與包 含所有不同片段的片段列表進(jìn)行比較。這個完整的片段列表比完整的條目列 表短。當(dāng)在匹配步驟中使用所述完整的片段列表時,由于許多片段出現(xiàn)在許 多不同的列表?xiàng)l目中,已識別的語音輸入是和更短的列表進(jìn)行比較,所以, 可以最小化計(jì)算負(fù)擔(dān)。
      在匹配過程的附加步驟中,則可以為每個片段計(jì)算分?jǐn)?shù),在將已識別的 語音輸入與所述片段進(jìn)行比較時,此分?jǐn)?shù)度量已識別的語音輸入與片段的適配程度?;诖朔?jǐn)?shù),可以選擇列表中的最佳匹配條目。為此,對片段列表 中的每個片段計(jì)算出分?jǐn)?shù),并且,可以通過對組成列表?xiàng)l目的片段的分?jǐn)?shù)進(jìn) 行加總,為列表?xiàng)l目計(jì)算列表?xiàng)l目分?jǐn)?shù)。即使需要計(jì)算兩個不同的分?jǐn)?shù)時, 從計(jì)算的角度來看,為了得到列表?xiàng)l目分?jǐn)?shù)而將各分?jǐn)?shù)簡單加總也比將已識 別的語音輸入與完整列表?xiàng)l目進(jìn)行匹配要更不費(fèi)力。
      片段可以伴隨著一個或幾個通配符,可以在一側(cè)、兩側(cè)提供一個或幾個 通配符,當(dāng)然,也可以不提供通配符。當(dāng)沒有通配符時,意味著列表?xiàng)l目非 常短,不能被進(jìn)一步分割。還可以在片段的不同側(cè)使用不同的通配符,例如, 片段的第 一側(cè)是具有第 一權(quán)重的第 一通配符,第二側(cè)則是具有第二權(quán)重的第 二通配符。進(jìn)一步,有可能不可以在片段的兩側(cè)同時提供通配符,而僅可以 在片段的一側(cè)提供通配符。這有助于更好地模擬片段在語音輸入中出現(xiàn)的位 置。如果確定了僅在一側(cè)提供了通配符,則沒有提供通配符的 一側(cè)也得到了 確定。然后,可以確定已識別語音輸入的對應(yīng)一側(cè),并基于在已識別的語音 輸入的所述側(cè)提供的已識別語音輸入的一部分執(zhí)行已識別語音輸入與片段
      的匹配。例如,A_a*strasse,在城市街道列表?xiàng)l目的情況下,*表示的通配 符通常匹配話語的最右邊的部分。僅具有一個通配符的片段的另一個優(yōu)點(diǎn)在 于,片段與話語的匹配實(shí)際上不需要識別完整的話語,而僅需識別適當(dāng)?shù)囊?側(cè)。當(dāng)考慮僅對已識別語音輸入/話語的一側(cè)進(jìn)行匹配時,也可以進(jìn)一步加速 匹配過程。這樣僅具有一個通配符的邊界片段也有助于更準(zhǔn)確地模擬列表?xiàng)l 目,這將顯著提高識別率。
      另外,條目列表中的條目也可以包含通配符。這些通配符有助于模擬以 下這種情況,即用戶不僅說出列表?xiàng)l目的名稱,同時列表?xiàng)l目被嵌在完整的 句子中的情況(例如,請引導(dǎo)到慕尼黑的Linden大街)。
      也可以通過從一側(cè)進(jìn)行匹配組合以適當(dāng)?shù)募糁C(jī)制來實(shí)現(xiàn)僅對已識別 語音輸入的右側(cè)或左側(cè)進(jìn)行匹配的特征。在一種語音識別方法中,將已識別 的語音輸入與列表?xiàng)l目的語音表示進(jìn)行比較。這樣的匹配算法的一種例子是 Levenshtein算法,其計(jì)算為了包含另一個串而修改一個串所需要的編輯操作 的最少的次數(shù)。在這樣的操作期間,可以檢測出,相比不需要繼續(xù)進(jìn)行計(jì)算 的其它片段,對于預(yù)先確定的片段,修改或編輯操作的次數(shù)已經(jīng)非常高了。 在語音識別中,用"剪枝"這個表述來稱呼此機(jī)制。這樣的剪枝機(jī)制可以應(yīng) 用于已識別語音輸入的其它側(cè),其中,在片段中存在通配符。
      8與在其中片段的 一側(cè)僅匹配已識別語音輸出的 一部分的匹配算法相關(guān) 的剪枝機(jī)制的優(yōu)點(diǎn)在于,不需要對話語中的切分點(diǎn)進(jìn)行預(yù)先猜測。而不利之 處則在于,使用從左到右以及從右到左匹配的組合來提高性能即使不是不可 能,至少也是很難的。在某種意義上,由于片段的正確順序的串聯(lián)不必給出 初始的列表?xiàng)l目,片段也就不必是一對一的??梢砸阅沉斜?xiàng)l目的片段相交 迭的方式選取列表?xiàng)l目的片段。進(jìn)一步,可以以各片段僅覆蓋列表?xiàng)l目的一 部分的方式(所謂欠重疊)選取列表?xiàng)l目的片段。進(jìn)一步,可以是這兩種方 式的組合,這意味著一些片段可以與其它片段交迭,然而,同一列表?xiàng)l目的 其它片段不覆蓋整個列表?xiàng)l目。進(jìn)一步,可以完全交迭,這樣,列表?xiàng)l目的 所有部分恰好由兩個片段覆蓋,然而,也可以使用不完全交迭,此時,對于
      一個或兩個名字或子單元, 一些片段相交迭。
      當(dāng)為了計(jì)算列表?xiàng)l目的結(jié)果分?jǐn)?shù)而編輯不同片段的分?jǐn)?shù)時,可以計(jì)算歸 一化的分?jǐn)?shù),歸一化分?jǐn)?shù)被加上,以便計(jì)算列表?xiàng)l目的分?jǐn)?shù)。為了能夠?qū)Σ?同的分?jǐn)?shù)進(jìn)行相互比較,此歸一化是必需的。 一種執(zhí)行歸一化的可能情況是 計(jì)算中性分?jǐn)?shù),可通過將單個的通配符符號與識別結(jié)果進(jìn)行匹配來確定此中 性分?jǐn)?shù)。然后,可以從為不同的片段計(jì)算得到的所有分?jǐn)?shù)中減去此中性分?jǐn)?shù)。 進(jìn)一步,可以以將零作為中性分?jǐn)?shù)的方式歸一化此片段分?jǐn)?shù),然后,加上屬 于整個列表?xiàng)l目的片段的分?jǐn)?shù)。這樣,可以通過加上所述列表?xiàng)l目的片段的 歸一化分?jǐn)?shù)來獲得每個列表?xiàng)l目的分?jǐn)?shù)。對于列表?xiàng)l目分?jǐn)?shù)的計(jì)算,也可以 明確考慮片段的個數(shù)和大小。歸一化的另一種可能情況是為每個片段確定片 段的具體中性分?jǐn)?shù)。當(dāng)對不同的語音輸入執(zhí)行了大量的語音識別步驟時,并 且當(dāng)基于片段的不同語音輸入的識別結(jié)果時,這是可能的,可以計(jì)算不同語 音輸入的平均分?jǐn)?shù)作為片段的具體分?jǐn)?shù)。片段的具體分?jǐn)?shù)或者期望分?jǐn)?shù)是具 體片段的分?jǐn)?shù)的隨機(jī)期望值,能夠用于模擬期望分?jǐn)?shù)和觀察分?jǐn)?shù)之間的差 異。
      在本發(fā)明的一種實(shí)施例中,分?jǐn)?shù)不取決于片段在列表?xiàng)l目中的位置。然 而,也可以取代每個片段的單個分?jǐn)?shù),使用片段的基于位置的分?jǐn)?shù)。在使用
      這樣的基于位置的分?jǐn)?shù)時,"linden-furt"的分?jǐn)?shù)不同于"furt-linden"的分?jǐn)?shù), 或者,"linden-strasse"的分?jǐn)?shù)不同于"strasse-linden"的分?jǐn)?shù)。
      對于片段和各個分?jǐn)?shù)的優(yōu)化處理,可以樹狀結(jié)構(gòu)提供片段。此樹狀結(jié)構(gòu) 可以用于對不同片段的分?jǐn)?shù)進(jìn)行相加,從而計(jì)算列表?xiàng)l目的分?jǐn)?shù)。這可以從如下例子看出。當(dāng)列表包含條目LindenfUrt和Lindendorf時,LindenfUrt的分 數(shù)對應(yīng)于片段Lin的分?jǐn)?shù)加上片段den的分?jǐn)?shù)加上片段flirt的分?jǐn)?shù),也對應(yīng) 于Linden的分?jǐn)?shù)和furt的分?jǐn)?shù)。對于Lindenfurt和Lindendorf的分?jǐn)?shù)的計(jì)算, 已經(jīng)計(jì)算出了 Linden的分?jǐn)?shù),從而當(dāng)使用樹狀結(jié)構(gòu)時,可以避免一個相加 的步驟。
      此基于片段的匹配可以結(jié)合在本申請的引言部分所提到的兩步識別步 驟一起使用。這意味著基于列表?xiàng)l目的片段確定的最佳匹配條目的候選列表 可以作為額外的識別步驟的基礎(chǔ)。在此第二步中,可以通過將候選列表中列
      出的條目的語音或聲學(xué)表示與聲學(xué)輸入進(jìn)行匹配來確定列表中的最可能的 條目??梢酝ㄟ^根據(jù)計(jì)算得到的分?jǐn)?shù)對列表?xiàng)l目進(jìn)行分類來生成候選列表, 具有n個最佳分?jǐn)?shù)的n個最佳列表?xiàng)l目構(gòu)建了所述候選列表。
      除了此基于片段的匹配,為了生成候選列表,還可以將已識別語音輸入 與完整的列表?xiàng)l目中的一些條目進(jìn)行匹配。例如,當(dāng)對某個片段計(jì)算出好的 分?jǐn)?shù)時,在生成最佳匹配條目的候選列表之前,也將包含所述片段的列表?xiàng)l 目與已識別的語音輸入進(jìn)行匹配將是有利的。這種情況下,僅對列表中的一 些條目而不是對列表中的所有條目執(zhí)行完全匹配,從而,相比將已識別語音 輸入與列表的全部條目進(jìn)行比較的情況,計(jì)算負(fù)擔(dān)更小。
      以下是兩步驟匹配的一種可能的實(shí)施例在第一步中,利用開放音素環(huán) 執(zhí)行語音輸入的識別步驟。然后,利用片段列表將已識別語音輸入與列表?xiàng)l 目進(jìn)行匹配。作為第三步驟,執(zhí)行完全匹配步驟,其中,將已識別語音輸入 與整個列表?xiàng)l目進(jìn)行比較。此步驟可以進(jìn)一步縮短可能的匹配結(jié)果的列表。 在第四步中,可執(zhí)行實(shí)際的語音識別。
      在本發(fā)明一種實(shí)施例中,可以基于子單元級別,例如,音素級別,將列 表?xiàng)l目分割成片段。當(dāng)列表?xiàng)l目包括城市名和街道名的組合時,至少在城市 和街道之間進(jìn)行分割將是有利的。然而,可以理解,可以進(jìn)一步分割城市名 和街道名。此分割也有助于降低存儲數(shù)據(jù)時的存儲器需求。
      本發(fā)明進(jìn)一步涉及一種語音識別系統(tǒng),其用于經(jīng)由語音輸入從包含數(shù)據(jù) 庫的條目列表中選取條目,其中,所述數(shù)據(jù)庫包括條目列表和片段列表,如 以上所解釋,每個片段至少表示列表?xiàng)l目的一部分。語音識別模塊識別語音 輸入,并將已識別語音輸入與條目列表進(jìn)行比較,從而基于比較結(jié)果生成最 佳匹配條目的候選列表。根據(jù)本發(fā)明一個方面,為了生成候選列表,語音識別模塊將已識別語音與片段列表進(jìn)行比較。此語音識別系統(tǒng)按照以上詳細(xì)解 釋的方式進(jìn)行工作。
      本發(fā)明進(jìn)一步涉及一種計(jì)算機(jī)程序產(chǎn)品,其包括指令,當(dāng)計(jì)算機(jī)系統(tǒng)的 處理器執(zhí)行此指令時,該計(jì)算機(jī)程序產(chǎn)品執(zhí)行以上詳細(xì)解釋的方法。


      本發(fā)明的這些和其它潛在的目標(biāo)、特征以及有益效果將從本發(fā)明實(shí)施例 的如下描述和例子中更加充分地表現(xiàn)出來。然而,可以理解,本發(fā)明的范圍 不限于附圖中所示的任何實(shí)施例,附圖中,
      圖1示意性示出一種語音識別系統(tǒng),該系統(tǒng)使用基于片段的方法; 圖2示出流程圖,其為基于片段的識別方法的主要步驟; 圖3闡明另一個流程圖,其包括基于片段的語音識別方法的一些步驟的 詳細(xì)一見圖;以及
      圖4示出片段的樹狀結(jié)構(gòu)的例子。
      具體實(shí)施例方式
      在圖1中,示出了一種語音識別系統(tǒng),其使用基于片段的方法從大的條 目列表中選取條目。圖1所示的系統(tǒng)能夠用于車輛目標(biāo)位置的語音驅(qū)動選擇, 用于選擇媒體文件庫的媒體文件,以及用于選擇地址簿中的個人姓名等。此 系統(tǒng)可用于車輛環(huán)境中,然而,所示的系統(tǒng)也可在非車輛環(huán)境中作為獨(dú)立單 元進(jìn)行使用。該語音識別系統(tǒng)包括語音識別才莫塊10,該語音識別模塊10接 收來自用戶11的語音輸入。語音識別模塊10結(jié)合著數(shù)據(jù)庫12 —起使用, 數(shù)據(jù)庫12包括條目列表13。條目列表可包括諸如一個國家甚至或幾個國家 等預(yù)定地理區(qū)域的城市街道組合。在所示實(shí)施例中,列表13包括不同的條 目14。在所示實(shí)施例中,列表?xiàng)l目14是城市A和諸如雄f道B的地址的組合。 例^口,歹寸表?xiàng)l目可為^口下這才羊FrankfUrt Lindenstrasse或者Ulm Olgastrasse M U nchen Wetterstei叩latz等。除了初始的列表?xiàng)l目以外,可以提供第二列表 15,列表15包括來自列表13的列表?xiàng)l目14的不同片段。優(yōu)選地,在列表 15中為所有列表?xiàng)l目提供片段。分割列表?xiàng)l目,因?yàn)?,對于足夠大的列表?就運(yùn)行時間而言,匹配片段比匹配全部列表?xiàng)l目要明顯省時??梢栽谝羲丶?別或一些其它子單詞級別執(zhí)行分割。關(guān)于在哪里分割哪些列表?xiàng)l目的分割決定可基于預(yù)期的識別率、存儲需求以及運(yùn)行時性能。在所示實(shí)施例中,在城 市街道組合的情況下,在大多數(shù)情況下至少在城市和街道之間進(jìn)行分割是有
      利的,可以減少存儲數(shù)據(jù)時對存儲器的需求。對于上例,分割可如下所示
      FrankfUrt Lindenstrasse => Frank|furt|Linden|strasse Ulm Olgastrasse => Ulm|01ga|strasse Miinchen Wettersteinplatz => Mtin|chen|"Wetter|stein|platz Hamburg Steinstrasse =〉 Ham|burg|Stein|strasse
      在此列表中,為了將條目與語音輸入ll的已識別音素串進(jìn)行比較,通 常以按發(fā)音轉(zhuǎn)錄的條目的形式存儲這些條目。為便于闡述,示出了這些列表 條目的正確拼法。從以上提到的例子可以看出,之前不相連的列表?xiàng)l目現(xiàn)在 具有共同的片段"stmsse"和"stein"。列表越大,效果越顯著。結(jié)果,獨(dú)特 的或者不同的片段的列表變得比初始列表更短。進(jìn)一步地,片段本身也比完 整的列表?xiàng)l目更短。這兩個方面有助于優(yōu)化和加速選取大列表中的條目時的 語音識別。從圖中可看出,列表15中的片段伴隨著用標(biāo)記*表示的通配符。 在此列表中,片段a的左側(cè)有通配符,而另一個片段b的通配符在右側(cè)。進(jìn) 一步地,可以在兩側(cè)同時提供通配符。對于非常短的列表?xiàng)l目,可得知片段
      對應(yīng)于列表?xiàng)l目,從而不提供通配符。在上述例子中,可提供類似*3&3336或
      者*olga*等片段。所使用的通配符不必具有相同的屬性。例如,可以在左 側(cè)和右側(cè)使用不同的通配符,類似^lgaS,表示兩個通配符的權(quán)重不同。
      當(dāng)語音識別模塊10已經(jīng)執(zhí)行了用于識別語音輸入的第一識別步驟時, 例如,使用開放音素環(huán)或者一些其它子單詞單元,為了確定最佳匹配片段, 將已識別語音輸入與片段15的列表進(jìn)行比較。然后,基于片段匹配來計(jì)算 最佳匹配列表?xiàng)l目的候選列表。此最佳匹配列表?xiàng)l目的列表對應(yīng)于候選列表 20。在此較短的候選列表中,可將最佳的M個匹配條目顯示給用戶,以進(jìn) 行進(jìn)一步選取。然而,此候選列表也可以與具有兩個步驟的語音識別方法結(jié) 合使用,其中,另一個識別步驟是對短列表進(jìn)行的。在另外的識別步驟中, 通過將候選列表中列出的條目的語音聲學(xué)表示與聲學(xué)輸入進(jìn)行匹配并確定 最佳匹配條目,來確定在列表中對于同一語音輸入的最可能的條目。相比第 一步,第二步需要更多的計(jì)算能力。為了減少計(jì)算時間,列表20中的列表
      12條目的數(shù)目比列表13中列表?xiàng)l目的數(shù)目顯著減少。例如,列表?xiàng)l目的大列
      表13可包括幾十萬或幾百萬個列表?xiàng)l目。最佳匹配條目的第二候選列表20 要短得多,例如,其具有幾百個或幾千個條目。然后,可以對這樣的短候選 列表20執(zhí)行第二識別步驟??梢栽陲@示器30上顯示此第二步驟的最佳匹配 結(jié)果。可以理解,第二匹配步驟不是必需的。也可以僅執(zhí)行一個匹配步驟。 圖2所示的流程圖示出了語音識別方法的主要步驟。此方法從步驟41 開始。在步驟42中,識別語音輸入ll。此處,語音識別^t塊識別音素序列 或音素串。 一旦生成此語音輸入的音素序列,則必須提供片段15的列表(步 驟43)。此片段列表也可以是已經(jīng)存儲在系統(tǒng)中的預(yù)先確定的列表。在列表 條目變化的情況下,也可以在執(zhí)行匹配步驟之前生成片段列表。在步驟44 中執(zhí)行已識別音素串與片段列表的匹配。為了確定已識別音素串與已匹配片 段的對應(yīng)情況如何,可以為列表15的每個片段確定分?jǐn)?shù)(步驟45)。當(dāng)知道 不同片段的分?jǐn)?shù)時,就可以在步驟46中確定列表?xiàng)l目的分?jǐn)?shù)??梢灾勒?個列表?xiàng)l目通過哪些片段進(jìn)行連接。于是,為了確定此列表?xiàng)l目的分?jǐn)?shù),可 以將形成此列表?xiàng)l目的不同片段的分?jǐn)?shù)簡單相加。根據(jù)此分?jǐn)?shù),在列表47 中確定最佳匹配條目的候選列表。然后,可以將候選列表用于附加匹配步驟, 或者,將最佳匹配條目示于用戶,以便進(jìn)一步選擇或確認(rèn)。然而,此第二步 驟可從現(xiàn)有技術(shù)得知,此處不再進(jìn)一步詳細(xì)解釋。此實(shí)施例中,方法在步驟 48處結(jié)束。
      圖3中,進(jìn)一步詳細(xì)示出了此方法。結(jié)合圖2解釋在步驟43中提供了 這些片段之后,在步驟51中詢問片段是否伴隨著通配符。如果伴隨著通配 符,則在步驟52中確定通配符在哪一側(cè)。在片段是邊界片段的情況下,為 了更好地模擬片段位置以及模擬其在話語中能夠出現(xiàn)的位置,不在各個片段 的兩側(cè)同時提供通配符是更有利的。例如,在列表?xiàng)l目包含城市-街道對的 情況下,片段"*strasse"通常能夠匹配話語的最右部分。相應(yīng)地,在步驟 53中,確定初始語音輸入中的對應(yīng)側(cè)。結(jié)果,當(dāng)提供*片段的組合時,將較 少考慮到或者完全不會考慮到相應(yīng)的已識別語音輸入的左側(cè)部分,然而,當(dāng) 此組合是片段*時,僅第一部分,即表示已識別語音輸入的左側(cè)部分將用于 匹酉己。jt匕夕卜,例i口, i口果有類4以于strassenhausen和olgastrasse的列表?xiàng)l目 時,可以對類似+strasse和strasse+的同一個片賴 使用不同的變量。這可以得 到更好的打分。當(dāng)僅考慮已識別語音輸入的一側(cè)時,匹配過程更加迅速。這種僅對話語的右側(cè)和左側(cè)部分進(jìn)行的匹配,可通過結(jié)合適當(dāng)?shù)募糁C(jī)制從右 側(cè)開始的匹配來完成。這樣做的優(yōu)點(diǎn)在于不需要預(yù)先猜測話語中的切分點(diǎn)。 而不利之處則在于使用從左到右以及從右到左匹配的組合即使不是不可能, 至少也是很難的。如果沒有在片段中檢測到通配符,則此方法直接將已識別的語音輸入與此片段進(jìn)行比較(步驟54)。根據(jù)本發(fā)明的一個方面,執(zhí)行分割時不需要使以正確順序連接的片段一 定能產(chǎn)生初始列表?xiàng)l目。片段可以交迭,或者它們可以僅覆蓋列表?xiàng)l目的一 部分。然而,可以利用交迭的片段執(zhí)行匹配步驟。這種交迭甚至能提高匹配的準(zhǔn)確率。對于步驟54中的比較步驟,可以使用上下文敏感的Levenshtein 距離或者一些其它適合的匹配算法。如本領(lǐng)域技術(shù)人員已知的那樣, Levenshtein算法計(jì)算將一個字串修改為另 一個字串所需要的編輯操作的最 少次數(shù)。對此進(jìn)行計(jì)算的最常見的方法是通過使用矩陣的動態(tài)規(guī)劃(programming)方法。在此矩陣中,可以看到將第一字串改變?yōu)榈诙执?所需要的編輯操作。在加權(quán)算法的情況下,將一個字符改變?yōu)榱硪粋€字符的 代價不是固定的。在當(dāng)前的例子中,此代價取決于上下文。然而,可以理解, 也可以使用任何其它匹配算法。當(dāng)已識別語音輸入與片段匹配時,對每個片 段得到一個分?jǐn)?shù)。為了更好的比較不同的分?jǐn)?shù),可以對分?jǐn)?shù)進(jìn)行歸一化(normalise),例如,可以將零作為中性分?jǐn)?shù)。然后可以加上屬于整個列表 條目的所有片段的分?jǐn)?shù)。為了計(jì)算列表?xiàng)l目的分?jǐn)?shù),也可以明確考慮片段的 個數(shù)和大小。在一種實(shí)施例中,可通過將單個的通配符符號與識別結(jié)果進(jìn)行 匹配來計(jì)算中性分?jǐn)?shù)。然后從所有片段的分?jǐn)?shù)中減去此中性分?jǐn)?shù),從而獲得 歸一化分?jǐn)?shù)。進(jìn)一步,可以使用具體片段的中性分?jǐn)?shù),此具體片段的分?jǐn)?shù)取 決于各個片段。這種情況下,例如,希望使用片段的期望分?jǐn)?shù),并希望能模 擬期望分?jǐn)?shù)和觀察分?jǐn)?shù)之間的差異。對于通過將片段與各種各樣不同的語音 輸入進(jìn)行匹配所獲得的分?jǐn)?shù)而言,此期望分?jǐn)?shù)可以是隨機(jī)期望值。對于每個 語音輸入,此片段具有具體的分?jǐn)?shù)。 一個片段的所有具體分?jǐn)?shù)的平均值則是 具體片段的分?jǐn)?shù)。相應(yīng)地,在步驟55中計(jì)算了各個片段的分?jǐn)?shù),并且在步 驟56中對分?jǐn)?shù)進(jìn)行了歸一化之后,可以在步驟57中最終計(jì)算不同列表?xiàng)l目 的分?jǐn)?shù),但并不限于在步驟57中計(jì)算該分?jǐn)?shù)。在圖4中示出了怎樣獲取片段的有效組織的實(shí)施例。在圖4所示的實(shí)施 例中,示出了 Lindenweg、 Lindenstrasse、 Lindenfurt、 Lindendorf這四個不同的列表?xiàng)l目。在存儲和計(jì)算分?jǐn)?shù)時,可以使用樹狀結(jié)構(gòu),以便于高效存儲整個列表。列表?xiàng)l目具有如下片段Lin|den|fUrt、 Lin|den|dorf、 Lin|den|strasse、 Lin|den|weg。那么,LindenfUrt的分?jǐn)?shù)可以是片段Lin的分?jǐn)?shù)加上片段den 的分?jǐn)?shù)加上片段flirt的分?jǐn)?shù),對應(yīng)于片段Linden的分?jǐn)?shù)加上片段fbrt的分?jǐn)?shù)。 如圖4所示,片段61 "Lin"具有第一分?jǐn)?shù)sl,片段"den"具有第二分?jǐn)?shù) s2,等等。為了計(jì)算四個不同條目的分?jǐn)?shù),lin和den的分?jǐn)?shù)僅需要相加一次, 從而在確定四個不同的列表?xiàng)l目的分?jǐn)?shù)時,僅需執(zhí)行五次加法操作。也可以 取代每個片段的單個分?jǐn)?shù)s,使用片段的基于位置的分?jǐn)?shù)。這意味著片段A 加上片段B的分?jǐn)?shù)并不等同于片段B加上片段A的分?jǐn)?shù)。當(dāng)基于片段的分?jǐn)?shù)已知時,整個列表?xiàng)l目的分?jǐn)?shù)也就已知了,并且可以 基于這些分?jǐn)?shù)對列表分類,來計(jì)算最佳匹配條目的列表??偠灾?,從以上描述可見,使用基于片段而不是基于整個列表?xiàng)l目的 語音識別方法,有助于優(yōu)化計(jì)算能力,以及優(yōu)化發(fā)現(xiàn)正確選擇的列表?xiàng)l目所 需要的時間。
      權(quán)利要求
      1.一種經(jīng)由語音輸入從條目列表中選取條目的語音識別方法,所述方法包括如下步驟檢測語音輸入,識別語音輸入,提供列表?xiàng)l目的片段,將已識別語音輸入與條目列表進(jìn)行比較,以基于比較結(jié)果生成最佳匹配條目的候選列表,其中,為了生成所述候選列表,將已識別語音輸入與所述條目的所述片段進(jìn)行比較。
      2. 根據(jù)權(quán)利要求1所述的方法,其中為列表中的每個條目提供至少一個 片段。
      3. 根據(jù)權(quán)利要求1所述的方法,其中所述片段至少伴隨著一個通配符, 該通配符表示在列表?xiàng)l目的片段中沒有考慮的列表?xiàng)l目部分。
      4. 根據(jù)權(quán)利要求1所述的方法,其中提供了基本上包含列表?xiàng)l目的所有 不同片段的片段列表,其中,為了生成候選列表,將已識別語音輸入與片段 列表進(jìn)行比較。
      5. 根據(jù)權(quán)利要求1所述的方法,其中,當(dāng)將已識別語音輸入與片段進(jìn)行 比較時,計(jì)算片段的分?jǐn)?shù),該分?jǐn)?shù)衡量已識別語音輸入與一個片段的適配程 度如何。
      6. 根據(jù)權(quán)利要求4或5所述的方法,其中,為片段列表中的每個片段計(jì) 算分?jǐn)?shù)。
      7. 根據(jù)權(quán)利要求5所述的方法,其中,通過將構(gòu)建所述列表?xiàng)l目的片段 的分?jǐn)?shù)相加,計(jì)算出一個列表?xiàng)l目的分?jǐn)?shù)。
      8. 根據(jù)權(quán)利要求3所述的方法,其中,將通配符添加到片段的一側(cè),添 加到片段的另一側(cè),或者,添加到片段的兩側(cè)。
      9. 根據(jù)權(quán)利要求3所述的方法,其中,選取通配符時使得此通配符基本 上一律匹配任何已識別的語音輸入。
      10. 根據(jù)權(quán)利要求3所述的方法,其中,片段伴隨著不同的通配符,當(dāng) 將已識別語音輸入與片段進(jìn)行比較時,每個通配符具有不同的權(quán)重。
      11. 根據(jù)權(quán)利要求3所述的方法,其中,當(dāng)僅在片段的一側(cè)提供通配符 時,則確定出沒有提供通配符的一側(cè),其中,確定已識別語音輸入的對應(yīng)一 側(cè),其中,基于在已識別的語音輸入的所述對應(yīng)側(cè)提供的已識別語音輸入的 一部分,來執(zhí)行已識別語音輸入與片段的匹配。
      12. 根據(jù)權(quán)利要求3所述的方法,其中,當(dāng)僅在片段的一側(cè)提供通配符 時,則確定出識別語音輸入的對應(yīng)側(cè),其中,將剪枝機(jī)制作用于已識別語音 輸入的另一側(cè)。
      13. 根據(jù)權(quán)利要求5所述的方法,其中,對將已識別語音輸入與片段列 表進(jìn)行匹配時計(jì)算出的分?jǐn)?shù)進(jìn)行歸一化,為計(jì)算每個列表?xiàng)l目的分?jǐn)?shù)而加上 經(jīng)歸一化的分?jǐn)?shù)。
      14. 根據(jù)權(quán)利要求5所述的方法,其中,通過將所述至少一個通配符與 已識別語音輸入進(jìn)行匹配來計(jì)算中性分?jǐn)?shù),從為不同的片段計(jì)算出的所有分 數(shù)中減去該中性分?jǐn)?shù)。
      15. 根據(jù)權(quán)利要求1所述的方法,其中,以樹狀結(jié)構(gòu)提供這些片段。
      16. 根據(jù)權(quán)利要求15所述的方法,其中,基于片段的樹狀結(jié)構(gòu)對構(gòu)建列 表?xiàng)l目的不同片段的分?jǐn)?shù)進(jìn)行相加。
      17. 根據(jù)權(quán)利要求5所述的方法,其中,為片段計(jì)算基于位置的分?jǐn)?shù), 其中,片段的分?jǐn)?shù)取決于片段在列表?xiàng)l目中的位置。
      18. 根據(jù)權(quán)利要求1所述的方法,其中,基于列表?xiàng)l目的片段確定的最 佳匹配條目的候選列表被作為識別步驟的基礎(chǔ)。
      19. 根據(jù)權(quán)利要求1所述的方法,其中,列表?xiàng)l目包括如下信息中的至 少一種個人姓名、地址、城市名稱、街道名稱、興趣點(diǎn)、歌曲名。
      20. 根據(jù)權(quán)利要求1所述的方法,其中,通過根據(jù)計(jì)算出的分?jǐn)?shù)對列表 條目進(jìn)行分類,來生成最佳匹配條目的列表,用具有最佳分?jǐn)?shù)的n個列表?xiàng)l 目構(gòu)建候選列表。
      21. 根據(jù)權(quán)利要求1所述的方法,其中,為了將已識別語音輸入與列表 條目的片段進(jìn)行匹配,使用了上下文敏感Levenshtein算法。
      22. 根據(jù)權(quán)利要求14所述的方法,其中,為了計(jì)算中性分?jǐn)?shù),則計(jì)算具 體片段的中性分?jǐn)?shù),基于所述具體片段的分?jǐn)?shù)計(jì)算列表?xiàng)l目的分?jǐn)?shù)。
      23. 根據(jù)權(quán)利要求1所述的方法,其中,進(jìn)一步將已識別語音輸入與全 部列表?xiàng)l目中的至少一些條目進(jìn)行比較,以生成候選列表。
      24. 根據(jù)權(quán)利要求1所述的方法,其中,將列表?xiàng)l目分割成片段的操作 是在子單詞單元級上執(zhí)行的。
      25. 根據(jù)權(quán)利要求1所述的方法,其中,列表?xiàng)l目包括城市名稱和街道 名稱的組合,并且至少在城市名稱和街道名稱之間執(zhí)行片段分割。
      26. 根據(jù)權(quán)利要求1所述的方法,其中,選取列表?xiàng)l目的片段,以使得 一個列表?xiàng)l目的各片段相交迭。
      27. 根據(jù)權(quán)利要求1所述的方法,其中選取列表?xiàng)l目的片段,以使得這 些片段僅覆蓋列表?xiàng)l目的一部分。
      28. 根據(jù)權(quán)利要求1所述的方法,其中,將列表?xiàng)l目與通配符存儲在一 起,通配符考慮了這樣的事實(shí),即,用戶從所述條目列表中選取一個條目時 所說的話語中包含的不止列表?xiàng)l目本身。
      29. —種語音識別系統(tǒng),其用于經(jīng)由語音輸入從條目列表中選取條目, 該語音識別系統(tǒng)包括數(shù)據(jù)庫,其包括條目列表和片段列表,每個片段表示一個列表?xiàng)l目的一部分,語音識別模塊,其識別語音輸入,并將已識別語音輸入與條目列表進(jìn)行 比較,從而基于比較結(jié)果生成最佳匹配條目的候選列表,其中,為了生成所 述候選列表,語音識別模塊將已識別語音輸入與所述片段列表進(jìn)行比較。
      30. 根據(jù)權(quán)利要求29所述的語音識別系統(tǒng),其中,所述語音識別系統(tǒng)根 據(jù)權(quán)利要求1到28的任何一個中所述的方法進(jìn)行工作。
      31. —種包含指令的計(jì)算機(jī)程序產(chǎn)品,該指令在被計(jì)算機(jī)系統(tǒng)的處理器 執(zhí)行時,使得該計(jì)算機(jī)程序產(chǎn)品執(zhí)行權(quán)利要求1到28的任何一個中所述的 方法。
      全文摘要
      一種經(jīng)由語音輸入從條目列表中選取條目的語音識別方法,該方法包括如下步驟檢測語音輸入,識別語音輸入,提供列表?xiàng)l目的片段,將已識別語音輸入與條目列表進(jìn)行比較,以基于比較結(jié)果生成最佳匹配條目的候選列表,其中,為了生成所述候選列表,將已識別語音輸入與所述條目的所述片段進(jìn)行比較。
      文檔編號G10L15/18GK101515457SQ200910002539
      公開日2009年8月26日 申請日期2009年1月16日 優(yōu)先權(quán)日2008年1月16日
      發(fā)明者馬庫斯·施瓦茨 申請人:哈曼貝克自動系統(tǒng)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1