本發(fā)明涉及車技語音播報,具體涉及一種車機端語音播報的處理方法、裝置和汽車。
背景技術(shù):
1、由大模型技術(shù)生成的語音包因為情感更加飽滿、音色和自然度更加接近真人而被越發(fā)廣泛的應用在生活中,各種ai語音包、ai陪聊軟件已深受用戶喜歡,逐漸形成一條具備巨大潛在市場價值的新賽道。但是由于大模型生成語音包并實時播報消耗的資源較高,特別是在高并發(fā)使用場景,投入較高的成本讓車企不敢冒險;而且大模型需要在云端生成,會有1s-2s的延遲,這也會給用戶體驗帶來一定的影響。因此大模型生成語音包未在車載領(lǐng)域正式量產(chǎn)使用,使得車機端無法高效提供更高質(zhì)量的語音播報。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種車機端語音播報的處理方法、裝置和汽車,以解決車機端無法高效提供高質(zhì)量語音播報的問題。
2、第一方面,本發(fā)明提供了一種車機端語音播報的處理方法,方法包括:
3、獲取用戶的語音指令,并根據(jù)語音指令確定用戶指令意圖;
4、根據(jù)用戶指令意圖判斷語音指令所屬功能域的落域類型,并根據(jù)功能域標簽約束規(guī)則確定落域類型的預設(shè)標簽;
5、基于預設(shè)標簽判斷是否調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)用戶指令意圖進行語音播報。
6、本發(fā)明實施例提供的車機端語音播報的處理方法,通過根據(jù)用戶的語音指令確定用戶指令意圖,根據(jù)用戶指令意圖判斷語音指令所屬功能域的落域類型,并根據(jù)功能域標簽約束規(guī)則確定對應的預設(shè)標簽,基于預設(shè)標簽判斷是否調(diào)用云端預先構(gòu)建的語言生成模型以根據(jù)用戶指令意圖進行語音播報。本發(fā)明通過對功能域進行標簽約束,能夠根據(jù)用戶指令意圖確定是否需要調(diào)用語言生成模型進行語音播報,在無需調(diào)用時實現(xiàn)高效語音播報,在需要調(diào)用時提供高質(zhì)量語音播報,從而在車機端為用戶提供高效、高質(zhì)量語音播報,提高用戶體驗感和滿意度。
7、在一種可選的實施方式中,根據(jù)語音指令確定用戶指令意圖,包括:對語音指令進行語音識別,得到語音文本信息;基于預設(shè)文本匹配規(guī)則對語音文本信息進行解析,確定用戶指令意圖。
8、本發(fā)明通過對用戶語音進行意圖判斷,能夠準確掌握用戶需求,從而為用戶提供精準服務(wù),提高用戶滿意度。
9、在一種可選的實施方式中,根據(jù)用戶指令意圖判斷語音指令所屬功能域的落域類型,并根據(jù)功能域標簽約束規(guī)則確定落域類型的預設(shè)標簽,包括:基于用戶指令意圖在車機端搭載的車機功能應用中篩選與語音指令對應的預設(shè)應用;根據(jù)預設(shè)應用確定語音指令所屬功能域的落域類型;獲取預先設(shè)定的功能域標簽約束規(guī)則,并根據(jù)功能域標簽約束規(guī)則確定落域類型的預設(shè)標簽,預設(shè)標簽包括:固定回復標簽和實時回復標簽。
10、本發(fā)明通過對不同功能域進行標簽約束,能夠從使用場景出發(fā),對回復內(nèi)容進行區(qū)分,實現(xiàn)部分高頻、重復場景為固定回復,其余場景為實時回復,同時滿足語音播報的高效和高質(zhì)量,降低資源消耗以及高延遲帶來的體驗問題。
11、在一種可選的實施方式中,基于預設(shè)標簽判斷是否需要調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)用戶指令意圖進行語音播報,包括:若預設(shè)標簽為固定回復標簽,則根據(jù)用戶指令意圖和本地語音資源判斷本地語音資源中是否包含對應的第一語音包,若包含,則對第一語音包進行播報;若不包含,則向云端發(fā)送資源調(diào)用指令,以使云端根據(jù)用戶指令意圖和云端語音資源判斷云端語音資源中是否包含對應的第二語音包,若包含,則對云端發(fā)送的第二語音包進行播報,并將第二語音包存儲至本地語音資源;若不包含,則向云端發(fā)送模型調(diào)用指令,以使云端基于用戶指令意圖和語言生成模型生成對應的第三語音包,并對云端發(fā)送的第三語音包進行播報,將第三語音包存儲至本地語音資源。
12、本發(fā)明基于語言生成模型對部分高頻固定回復進行先緩存再播報,能夠直接調(diào)用本地語音資源進行高效語音播報,同時基于云端語言生成模型不斷豐富本地語音資源,為家用提供高質(zhì)量語音播報,既能夠降低車機端的資源消耗,也能夠改善語音生成時延帶來的體驗問題。
13、在一種可選的實施方式中,基于預設(shè)標簽判斷是否需要調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)用戶指令意圖進行語音播報,還包括:若預設(shè)標簽為實時回復標簽,則向云端發(fā)送模型調(diào)用指令,以使云端基于用戶指令意圖和語言生成模型生成對應的第四語音包,并對云端發(fā)送的第四語音包進行播報。
14、本發(fā)明通過在實時回復場景下進行語音生成播報,能夠滿足用戶的使用需求,在車機端有限資源條件下為用戶提供高質(zhì)量語音播報,提高用戶語音交互體驗感。
15、第二方面,本發(fā)明提供了一種車機端語音播報的處理裝置,裝置包括:意圖確定模塊,用于獲取用戶的語音指令,并根據(jù)語音指令確定用戶指令意圖;標簽判斷模塊,用于根據(jù)用戶指令意圖判斷語音指令所屬功能域的落域類型,并根據(jù)功能域標簽約束規(guī)則確定落域類型的預設(shè)標簽;語音播報模塊,用于基于預設(shè)標簽判斷是否需要調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)用戶指令意圖進行語音播報。
16、第三方面,本發(fā)明提供了一種計算機設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應的任一實施方式的車機端語音播報的處理方法。
17、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的車機端語音播報的處理方法。
18、第五方面,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的車機端語音播報的處理方法。
19、第六方面,本發(fā)明提供了一種汽車,包括:存儲單元,用于存儲本地語音資源;控制器,與存儲單元進行連接,用于執(zhí)行上述第一方面或其對應的任一實施方式的車機端語音播報的處理方法。
20、本發(fā)明的有益效果:
21、(1)本發(fā)明通過在云端部署語音生成模型,能夠根據(jù)用戶的語音指令生成情感更加飽滿、音色和自然度更加接近真人的回復語,滿足與用戶的高質(zhì)量語音交互;
22、(2)本發(fā)明通過將語音指令所屬功能域進行標簽約束,能夠從使用場景出發(fā),對回復語內(nèi)容進行區(qū)分,部分高頻、重復、常用的固定回復語采用先緩存再播報,提高語音回復的播報速度,同時降低語音播報對車機端的資源消耗。
1.一種車機端語音播報的處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述語音指令確定用戶指令意圖,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶指令意圖判斷所述語音指令所屬功能域的落域類型,并根據(jù)功能域標簽約束規(guī)則確定所述落域類型的預設(shè)標簽,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述預設(shè)標簽判斷是否需要調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)所述用戶指令意圖進行語音播報,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述預設(shè)標簽判斷是否需要調(diào)用云端預先構(gòu)建的語言生成模型,以根據(jù)所述用戶指令意圖進行語音播報,還包括:
6.一種車機端語音播報的處理裝置,其特征在于,所述裝置包括:
7.一種計算機設(shè)備,其特征在于,包括:
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至5中任一項所述的車機端語音播報的處理方法。
9.一種計算機程序產(chǎn)品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至5中任一項所述的車機端語音播報的處理方法。
10.一種汽車,其特征在于,包括: