本公開涉及計算機,特別涉及一種音頻交互的處理方法、系統(tǒng)、服務(wù)端、客戶端和電子設(shè)備。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人機語音交互技術(shù)在越來越多的場景中應(yīng)用。例如,智能家居、智能客服、智能助手等等。
2、在一些人機語音交互的場景中,用戶輸入語音,不僅會得到機器人回復(fù)的語音,還會基于用戶輸入的語音生成相應(yīng)的文本,并且機器人回復(fù)的文本也會進行相應(yīng)顯示,使得用戶可以通過文本和語音可以同步接收回復(fù),更好的理解回復(fù)的內(nèi)容提升用戶體驗。
技術(shù)實現(xiàn)思路
1、提供該
技術(shù)實現(xiàn)要素:
部分以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。
2、根據(jù)本公開的一些實施例,提供了一種音頻交互的處理方法,由音頻處理服務(wù)端執(zhí)行,包括:將客戶端發(fā)送的輸入音頻,轉(zhuǎn)換為待回復(fù)文本;將待回復(fù)文本發(fā)送至文本處理服務(wù)端,生成回復(fù)文本流;接收客戶端對回復(fù)文本流對應(yīng)的回復(fù)音頻流的請求,其中,請求包括回復(fù)文本流對應(yīng)的消息標(biāo)識,消息標(biāo)識由文本處理服務(wù)端發(fā)送至客戶端;根據(jù)消息標(biāo)識,從文本處理服務(wù)端獲取回復(fù)文本流;根據(jù)回復(fù)文本流,生成回復(fù)音頻流;將回復(fù)音頻流發(fā)送至客戶端,進行播放。
3、根據(jù)本公開的另一些實施例,提供了一種音頻交互的處理方法,由客戶端執(zhí)行,包括:將輸入音頻發(fā)送至音頻處理服務(wù)端,轉(zhuǎn)換為待回復(fù)文本,其中,待回復(fù)文本被發(fā)送至文本處理服務(wù)端生成回復(fù)文本流;接收文本處理服務(wù)端發(fā)送的回復(fù)文本流對應(yīng)的消息標(biāo)識;向音頻處理服務(wù)端發(fā)送對回復(fù)文本流對應(yīng)的回復(fù)音頻流的請求,其中,請求包括消息標(biāo)識;接收音頻處理服務(wù)端發(fā)送的回復(fù)音頻流;對回復(fù)音頻流進行播放。
4、根據(jù)本公開的又一些實施例,提供了一種音頻處理服務(wù)端,包括:轉(zhuǎn)換模塊,被配置為將客戶端發(fā)送的輸入音頻,轉(zhuǎn)換為待回復(fù)文本;第一發(fā)送模塊,被配置為將待回復(fù)文本發(fā)送至文本處理服務(wù)端,生成回復(fù)文本流;接收模塊,被配置為客戶端對回復(fù)文本流對應(yīng)的回復(fù)音頻流的請求,其中,請求包括回復(fù)文本流對應(yīng)的消息標(biāo)識,消息標(biāo)識由文本處理服務(wù)端發(fā)送至客戶端;獲取模塊,被配置為根據(jù)消息標(biāo)識,從文本處理服務(wù)端獲取回復(fù)文本流;生成模塊,被配置為根據(jù)回復(fù)文本流,生成回復(fù)音頻流;第二發(fā)送模塊,被配置為將回復(fù)音頻流發(fā)送至客戶端,進行播放。
5、根據(jù)本公開的再一些實施例,提供一種客戶端,包括:第一發(fā)送模塊,被配置為將輸入音頻發(fā)送至音頻處理服務(wù)端,轉(zhuǎn)換為待回復(fù)文本,其中,待回復(fù)文本被發(fā)送至文本處理服務(wù)端生成回復(fù)文本流;第一接收模塊,被配置為接收文本處理服務(wù)端發(fā)送的回復(fù)文本流對應(yīng)的消息標(biāo)識;第二發(fā)送模塊,被配置為向音頻處理服務(wù)端發(fā)送對回復(fù)文本流對應(yīng)的回復(fù)音頻流的請求,其中,請求包括消息標(biāo)識;第二接收模塊,被配置為接收音頻處理服務(wù)端發(fā)送的回復(fù)音頻流;播放模塊,被配置為對回復(fù)音頻流進行播放。
6、根據(jù)本公開的又一些實施例,提供一種音頻交互的處理系統(tǒng),包括:本公開中的任一實施例的音頻處理服務(wù)端以及本公開中的任一實施例的客戶端。
7、根據(jù)本公開的再一些實施例,提供一種電子設(shè)備,包括:處理器;以及耦接至處理器的存儲器,用于存儲指令,指令被處理器執(zhí)行時,使處理器執(zhí)行本公開中的任一實施例的音頻交互的處理方法。
8、根據(jù)本公開的又一些實施例,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時執(zhí)行本公開中的任一實施例的音頻交互的處理方法。
9、根據(jù)本公開的再一些實施例,提供一種計算機程序產(chǎn)品,包括:指令,指令被處理器執(zhí)行時實現(xiàn)本公開中的任一實施例的音頻交互的處理方法。
10、根據(jù)本公開的又一些實施例,提供一種計算機程序,包括:指令,指令被處理器執(zhí)行時實現(xiàn)本公開中的任一實施例的音頻交互的處理方法。
11、通過以下參照附圖對本公開的示例性實施例的詳細(xì)描述,本公開的其它特征、方面及其優(yōu)點將會變得清楚。
1.一種音頻交互的處理方法,由音頻處理服務(wù)端執(zhí)行,包括:
2.根據(jù)權(quán)利要求1所述的處理方法,其中,所述回復(fù)音頻流包括多個音頻數(shù)據(jù)包,所述多個音頻數(shù)據(jù)包中每個音頻數(shù)據(jù)包包括該音頻數(shù)據(jù)包的序號標(biāo)識,所述處理方法還包括:
3.根據(jù)權(quán)利要求1或2所述的處理方法,其中,所述回復(fù)文本流包括多個文本數(shù)據(jù)包,所述根據(jù)所述消息標(biāo)識,從所述文本處理服務(wù)端獲取所述回復(fù)文本流包括:
4.根據(jù)權(quán)利要求3所述的處理方法,還包括:
5.根據(jù)權(quán)利要求4所述的處理方法,其中,所述根據(jù)所述當(dāng)前文本數(shù)據(jù)包中的文本片段、所述當(dāng)前文本數(shù)據(jù)包之前的文本數(shù)據(jù)包中的文本片段、以及所述第一預(yù)設(shè)數(shù)量的文本,生成所述當(dāng)前文本數(shù)據(jù)包對應(yīng)的當(dāng)前音頻片段包括:
6.根據(jù)權(quán)利要求1-5任一項所述的處理方法,其中:
7.根據(jù)權(quán)利要求6所述的處理方法,還包括:
8.根據(jù)權(quán)利要求1-7任一項所述的處理方法,其中,所述音頻處理服務(wù)端與所述文本處理服務(wù)端通過遠(yuǎn)程過程調(diào)用方式進行數(shù)據(jù)傳輸。
9.根據(jù)權(quán)利要求1-8任一項所述的處理方法,其中,所述音頻處理器通過音頻服務(wù)網(wǎng)關(guān)與所述客戶端進行數(shù)據(jù)傳輸,響應(yīng)于音頻交互應(yīng)用的啟動,所述音頻服務(wù)網(wǎng)關(guān)與所述客戶端之間建立長連接。
10.一種音頻交互的處理方法,由客戶端執(zhí)行,包括:
11.根據(jù)權(quán)利要求10所述的處理方法,其中,所述將輸入音頻發(fā)送至音頻處理服務(wù)端包括:
12.根據(jù)權(quán)利要求11所述的處理方法,其中,所述將輸入音頻發(fā)送至音頻處理服務(wù)端還包括:
13.根據(jù)權(quán)利要求11或12所述的處理方法,其中,所述回復(fù)音頻流包括多個音頻數(shù)據(jù)包,所述多個音頻數(shù)據(jù)包中每個音頻數(shù)據(jù)包包括該音頻數(shù)據(jù)包的序號標(biāo)識,所述對所述回復(fù)音頻流進行播放包括:
14.根據(jù)權(quán)利要求13所述的處理方法,其中,所述根據(jù)接收的當(dāng)前音頻數(shù)據(jù)包的序號標(biāo)識,將所述當(dāng)前音頻數(shù)據(jù)包存入第二隊列包括:
15.根據(jù)權(quán)利要求10-14任一項所述的處理方法,還包括:
16.根據(jù)權(quán)利要求10-15任一項所述的處理方法,還包括:
17.根據(jù)權(quán)利要求10-16任一項所述的處理方法,還包括:
18.一種音頻處理服務(wù)端,包括:
19.一種客戶端,包括:
20.一種音頻交互的處理系統(tǒng),包括:權(quán)利要求18所述的音頻處理服務(wù)端以及權(quán)利要求19所述的客戶端。
21.根據(jù)權(quán)利要求20所述的處理系統(tǒng),還包括:
22.根據(jù)權(quán)利要求21所述的處理系統(tǒng),其中,
23.一種電子設(shè)備,包括:
24.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-9任一項所述的音頻交互的處理方法,或者權(quán)利要求10-17任一項所述的音頻交互的處理方法。
25.一種計算機程序產(chǎn)品,包括:指令,該指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-9任一項所述的音頻交互的處理方法,或者權(quán)利要求10-17任一項所述的音頻交互的處理方法。
26.一種計算機程序,包括:指令,該指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-9任一項所述的音頻交互的處理方法,或者權(quán)利要求10-17任一項所述的音頻交互的處理方法。