將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù)的過(guò)程中,可以借助深度神經(jīng)網(wǎng)絡(luò)、自適應(yīng)訓(xùn)練以及大規(guī)模網(wǎng)絡(luò)動(dòng)態(tài)解碼等技術(shù)和大規(guī)模語(yǔ)料支持,將用戶發(fā)出的語(yǔ)音數(shù)據(jù)準(zhǔn)確轉(zhuǎn)換為文本數(shù)據(jù),通過(guò)選擇合適的語(yǔ)音云開(kāi)發(fā)平臺(tái)能夠使中文連續(xù)語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到96%以上,實(shí)時(shí)率達(dá)到0.15倍實(shí)時(shí)。
[0035]該方法中在對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別時(shí),優(yōu)選可以采用預(yù)先訓(xùn)練好的條件隨機(jī)場(chǎng)模型對(duì)文本數(shù)據(jù)進(jìn)行分詞及標(biāo)注。
[0036]其中,實(shí)體是命名實(shí)體的簡(jiǎn)稱,命名實(shí)體識(shí)別的任務(wù)被定義為識(shí)別出文本數(shù)據(jù)中出現(xiàn)的專有名稱和有意義的數(shù)量短語(yǔ)并對(duì)其進(jìn)行歸類。
[0037]得到上述條件隨機(jī)場(chǎng)模型的方法為:對(duì)待訓(xùn)練的文本數(shù)據(jù)按照電臺(tái)、頻道和/或頻率進(jìn)行分詞及標(biāo)注,得到標(biāo)注語(yǔ)料;利用條件隨機(jī)場(chǎng)對(duì)標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練,得到條件隨機(jī)場(chǎng)模型,需要強(qiáng)調(diào)的是標(biāo)注語(yǔ)料中包含噪音和asr識(shí)別錯(cuò)誤的句子,如“收聽(tīng)普通廣播頻道”,正確的是“浦東廣播頻道”,因?yàn)樵胍艋蛘哒f(shuō)話者不標(biāo)準(zhǔn)導(dǎo)致的語(yǔ)音識(shí)別錯(cuò)誤。也即,該模型抗噪、兼容語(yǔ)音識(shí)別錯(cuò)誤。
[0038]例如,待訓(xùn)練的文本數(shù)據(jù)為“我想聽(tīng)中央人民廣播電臺(tái)”,首先對(duì)該文本數(shù)據(jù)進(jìn)行分詞及標(biāo)注為“我想聽(tīng)中央人民廣播電臺(tái)/org”,利用條件隨機(jī)場(chǎng)對(duì)該標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練,得到條件隨機(jī)場(chǎng)模型。當(dāng)接收到與用戶操控對(duì)應(yīng)的文本數(shù)據(jù)后,如“我想聽(tīng)中央人民廣播電臺(tái)第三套節(jié)目音樂(lè)之聲”,利用條件隨機(jī)場(chǎng)模型對(duì)新接收到的文本進(jìn)行分詞標(biāo)注為“我想聽(tīng)中央人民廣播電臺(tái)/stat1n第三套節(jié)目音樂(lè)之聲/channel。
[0039]在語(yǔ)音解析過(guò)程中,對(duì)實(shí)體進(jìn)行識(shí)別有利于規(guī)則的抽象,縮小了匹配的規(guī)則空間,提高了匹配的效率。
[0040]對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別后,對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)義解析,得到結(jié)構(gòu)化字段,其中需要解析出來(lái)的結(jié)構(gòu)化字段包括:stat1n(電臺(tái))、channel (頻道)、frequency (頻率)、type (AM或FM)及unit (單位,如兆赫茲、赫茲)。
[0041]對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)義解析的方法包括:將實(shí)體識(shí)別后的文本數(shù)據(jù)與預(yù)設(shè)的規(guī)則模板進(jìn)行匹配,得到結(jié)構(gòu)化字段;其中規(guī)則模板包括:完全字面模板、包含變量模板及包含通配符模板。
[0042]如:“收聽(tīng)中華之聲”,解析結(jié)果為:
[0043]l^rc^:O,"service":"cn.yunzhisheng.broadcast", "semantic":{"intent":{"stat1n〃:〃中央人民廣播電臺(tái)〃,〃channelList〃: [ {"channel": 〃中央人民廣播電臺(tái)第五套節(jié)目中華之聲",^frequencyList^: [ {"frequency": "765","type": "AM", "unit": "KHz"},{"f requency":"837", "type":"AM", "unit":"KHz"}]}]}}}。
[0044]本方法中語(yǔ)義解析的結(jié)果是通過(guò)匹配規(guī)則來(lái)獲取。依據(jù)實(shí)體識(shí)別來(lái)索引候選待匹配的規(guī)則,規(guī)則分三類:完全字面模版(如,【打開(kāi)】【收音機(jī)】$”)、包含變量模版(如,
【打開(kāi)】?【一下】? % stat1n%【電臺(tái)】? $”)、包含通配符模版(如,“【打開(kāi)】(.* ?)【數(shù)字】【FM】”),不同類型的模版匹配優(yōu)先級(jí)是:字面模版 > 變量模版 > 通配符模版;每個(gè)模版都有對(duì)應(yīng)的語(yǔ)義解析結(jié)構(gòu)。如果規(guī)則精確匹配不上,觸發(fā)規(guī)則相似度計(jì)算進(jìn)行匹配。最終解析出如stat1n (電臺(tái))、channel (頻道)、category (頻道類別)等字段。其中帶有標(biāo)記的【打開(kāi)】是同義詞、近義詞變量。
[0045]在將實(shí)體識(shí)別后的文本數(shù)據(jù)與預(yù)設(shè)的規(guī)則模板進(jìn)行匹配之前,需要對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和冗余消除,其中包括對(duì)文本數(shù)據(jù)中的局部文字進(jìn)行置信度高的局部替換以及去除文本數(shù)據(jù)中的噪音字符。
[0046]本方法中,根據(jù)結(jié)構(gòu)化字段及用戶數(shù)據(jù),從數(shù)據(jù)庫(kù)中獲取相應(yīng)的動(dòng)作數(shù)據(jù)進(jìn)行收音機(jī)動(dòng)作響應(yīng),包括:當(dāng)文本數(shù)據(jù)中包含頻率字段時(shí),通過(guò)索引從數(shù)據(jù)庫(kù)中獲取所有滿足頻率字段的第一候選數(shù)據(jù);根據(jù)用戶的位置信息對(duì)第一候選數(shù)據(jù)進(jìn)行排序;依據(jù)排序的結(jié)果選取相應(yīng)的廣播數(shù)據(jù)進(jìn)行播放;
[0047]當(dāng)文本數(shù)據(jù)中僅包含電臺(tái)和/或頻道字段時(shí),通過(guò)索引從數(shù)據(jù)庫(kù)中獲取所有滿足電臺(tái)或頻道字段的第二候選數(shù)據(jù);根據(jù)用戶的位置信息對(duì)第二候選數(shù)據(jù)進(jìn)行排序,依據(jù)排序的結(jié)果選取相應(yīng)的廣播數(shù)據(jù)進(jìn)行播放。
[0048]其中上述的用戶的位置信息為包含于用戶數(shù)據(jù)中的信息,當(dāng)所述用戶數(shù)據(jù)中僅包含所述位置信息時(shí),所述數(shù)據(jù)庫(kù)為通用數(shù)據(jù)庫(kù);當(dāng)所述用戶數(shù)據(jù)包含所述位置信息及電臺(tái)數(shù)據(jù)時(shí),所述數(shù)據(jù)庫(kù)為包含所述電臺(tái)數(shù)據(jù)的用戶數(shù)據(jù)庫(kù)。
[0049]本發(fā)明實(shí)施例還提供了一種收音機(jī)語(yǔ)音操控指令解析系統(tǒng),如圖2所示,包括:
[0050]語(yǔ)音識(shí)別模塊21,用于將用戶發(fā)送的用于操控收音機(jī)動(dòng)作的語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);
[0051]實(shí)體識(shí)別模塊22,用于對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別;
[0052]語(yǔ)義解析模塊23,用于對(duì)實(shí)體識(shí)別后的文本數(shù)據(jù)進(jìn)行語(yǔ)義解析,得到結(jié)構(gòu)化字段;
[0053]數(shù)據(jù)獲取模塊24,用于根據(jù)結(jié)構(gòu)化字段,從數(shù)據(jù)庫(kù)中獲取相應(yīng)的動(dòng)作數(shù)據(jù)進(jìn)行收音機(jī)動(dòng)作響應(yīng)。
[0054]該系統(tǒng)還包括:冗余消除模塊,用于將實(shí)體識(shí)別后的文本數(shù)據(jù)與預(yù)設(shè)的規(guī)則模板進(jìn)行匹配之前,對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和冗余消除,其中包括對(duì)文本數(shù)據(jù)中的局部文字進(jìn)行置信度高的局部替換以及去除文本數(shù)據(jù)中的噪音字符。
[0055]本發(fā)明還提供了一種收音機(jī)語(yǔ)音操控指令解析方法及系統(tǒng)的優(yōu)選實(shí)施方式,以下將結(jié)合圖3-圖5進(jìn)行詳細(xì)說(shuō)明。
[0056]如圖3所示,收音機(jī)語(yǔ)音操控指令解析系統(tǒng)中包括語(yǔ)音識(shí)別模塊21、實(shí)體識(shí)別模塊22、語(yǔ)義解析模塊23及數(shù)據(jù)獲取模塊24,語(yǔ)音識(shí)別模塊21將用戶發(fā)送的用于操控收音機(jī)動(dòng)作的語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);實(shí)體識(shí)別模塊22從模型庫(kù)中調(diào)取條件隨機(jī)場(chǎng)模型對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別;語(yǔ)義解析模塊23從規(guī)則庫(kù)中調(diào)取預(yù)先設(shè)定的規(guī)則模板對(duì)實(shí)體識(shí)別后的文本數(shù)據(jù)進(jìn)行語(yǔ)義解析,得到結(jié)構(gòu)化字段;數(shù)據(jù)獲取模塊24根據(jù)結(jié)構(gòu)化字段及用戶數(shù)據(jù)從數(shù)據(jù)庫(kù)中獲取輸出相應(yīng)的廣播數(shù)據(jù)。
[0057]其中在用戶數(shù)據(jù)可以僅包含用戶的位置信息,也可以同時(shí)包含用戶的位置信息及電臺(tái)數(shù)據(jù),以下將對(duì)該兩種情況進(jìn)行分別說(shuō)明。
[0058]1、用戶數(shù)據(jù)僅有位置信息(用戶GPS數(shù)據(jù))的情況,如圖4所示:
[0059]a)解析出來(lái)的結(jié)構(gòu)化字段中包含頻率字段:頻率字段如果沒(méi)有單位和類型,根據(jù)其所屬范圍來(lái)確定它的單位和類型。接著通過(guò)索引從設(shè)備可接收頻道數(shù)據(jù)中獲取所有滿足頻率的候選數(shù)據(jù),依據(jù)用戶GPS和可能包含的電臺(tái)或頻道字段對(duì)候選數(shù)據(jù)進(jìn)行排序。具體排序原則是,如果有電臺(tái)或頻道字段,則用其對(duì)候選數(shù)據(jù)進(jìn)行過(guò)濾,在過(guò)濾結(jié)果中城市距離較近的優(yōu)先選取。其中首都、直轄市、省會(huì)、重要城市與其他城市計(jì)算距離是相應(yīng)減去一段距離。如果最后結(jié)果獲取的城市與用戶GPS數(shù)據(jù)不一致,則提示用戶選取的是其他城市的頻道。
[0060]b)解析出來(lái)的結(jié)構(gòu)化字段中沒(méi)有頻率字段,但包含電臺(tái)或頻道字段;首先根據(jù)編輯距離判斷該字段是屬于電臺(tái)還是頻道,編輯距離不僅是字面的,還包括拼音的,該步驟是針對(duì)實(shí)體可能識(shí)別錯(cuò)誤和語(yǔ)音識(shí)別錯(cuò)誤情況進(jìn)行的處理,當(dāng)電臺(tái)stat1n或頻道channel能夠完全匹配時(shí),則無(wú)需進(jìn)一步區(qū)分電臺(tái)s