本技術(shù)涉及大語言模型交互,具體是涉及一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,語音交互已經(jīng)成為人機(jī)交互的重要方式之一。智能眼鏡作為新興的可穿戴設(shè)備,結(jié)合了?ar/vr?技術(shù),為用戶提供豐富的視覺信息展示能力。
2、然而,現(xiàn)有的智能眼鏡在語音交互方面多存在識(shí)別率低、響應(yīng)速度慢、對(duì)話不自然等問題,雖然部分智能眼鏡在語言交互方面進(jìn)行模型的優(yōu)化,但仍然難以滿足用戶對(duì)于高效、準(zhǔn)確、流暢交互的需求。因此,開發(fā)一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng),實(shí)現(xiàn)高效、準(zhǔn)確、流暢的語音交互體驗(yàn)具有重要意義。
技術(shù)實(shí)現(xiàn)思路
1、為了解決用戶與智能眼鏡語言交互過程中存在的識(shí)別率低、響應(yīng)速度慢、對(duì)話不自然等問題,本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法。
2、第一方面,本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng),包括:
3、數(shù)據(jù)采集模塊,用于采集用戶與智能眼鏡語音對(duì)話的交互信息、用戶與智能眼鏡語音對(duì)話交互過程中智能眼鏡資源狀況信息;所述交互信息包括用戶語音信息、智能眼鏡播放語音信息、用戶視覺信息以及智能眼鏡展示視覺信息;
4、數(shù)據(jù)轉(zhuǎn)換模塊,用于采用實(shí)時(shí)流式處理技術(shù)對(duì)采集的交互信息進(jìn)行處理,按照處理后的交互信息的類型自適應(yīng)選擇對(duì)應(yīng)類型的交互信息識(shí)別模型,將識(shí)別到的內(nèi)容轉(zhuǎn)化為文本信息;
5、數(shù)據(jù)處理模塊,用于接收文本信息并利用深度學(xué)習(xí)算法獲取交互信息的對(duì)話內(nèi)容類型,所述對(duì)話內(nèi)容類型包括:常見知識(shí)交互型、專業(yè)知識(shí)交互型及復(fù)雜推理交互型,按照預(yù)設(shè)評(píng)分規(guī)則計(jì)算當(dāng)前資源狀況充裕程度和當(dāng)前文本信息中對(duì)話內(nèi)容復(fù)雜程度對(duì)應(yīng)匹配評(píng)分的加權(quán)綜合評(píng)分;所述預(yù)設(shè)評(píng)分規(guī)則包括:基于資源狀況信息所處預(yù)設(shè)資源狀況充裕程度范圍匹配對(duì)應(yīng)評(píng)分、基于識(shí)別的對(duì)話內(nèi)容類型所屬預(yù)設(shè)對(duì)話內(nèi)容復(fù)雜程度匹配對(duì)應(yīng)評(píng)分;根據(jù)獲得的綜合評(píng)分所在預(yù)設(shè)閾值范圍對(duì)應(yīng)匹配加載不同模型配置的內(nèi)置于智能眼鏡的大語言模型;所述不同模型配置的大語言模型為根據(jù)模型規(guī)模、參數(shù)數(shù)量及計(jì)算能力劃分的不同量級(jí)配置的大語言模型;利用匹配的大語言模型對(duì)文本信息進(jìn)行意圖識(shí)別,并結(jié)合上下文生成回復(fù)文本;
6、數(shù)據(jù)交互模塊,將生成的回復(fù)文本轉(zhuǎn)化為語音輸出;
7、數(shù)據(jù)反饋模塊,用于接收反饋的用戶交互滿意度,判斷用戶交互滿意度是否達(dá)到預(yù)設(shè)滿意度的結(jié)果,當(dāng)未達(dá)到用戶滿意度時(shí),通過增量訓(xùn)練完成對(duì)交互信息識(shí)別模型或大語言模型的模型優(yōu)化直至用戶交互滿意度達(dá)到預(yù)設(shè)滿意度。
8、通過采用上述方案,采用實(shí)時(shí)流式處理技術(shù)與自適應(yīng)交互信息識(shí)別技術(shù),對(duì)用戶的連續(xù)語音進(jìn)行分段適應(yīng)性的交互信息的識(shí)別,減少延遲并提高識(shí)別效率;結(jié)合實(shí)際交互的資源狀況與用戶需求,適應(yīng)性的匹配加載相應(yīng)模型配置的大語言模型,準(zhǔn)確的進(jìn)行意圖解析,實(shí)現(xiàn)更為及時(shí)的響應(yīng);采集多模態(tài)交互信息,并利用大語言模型的記憶能力,結(jié)合上下文實(shí)現(xiàn)跨輪次的上下文理解,以生成自然的回復(fù)文本;利用用戶反饋不斷優(yōu)化模型,提升對(duì)話的自然度,為用戶提供更加豐富、直觀的交互體驗(yàn);
9、優(yōu)選的,所述數(shù)據(jù)處理模塊,還用于接收文本信息計(jì)算文本信息的數(shù)據(jù)量是否大于預(yù)設(shè)數(shù)據(jù)量,若大于預(yù)設(shè)數(shù)據(jù)量,則將部分文本內(nèi)容傳輸至邊緣設(shè)備,利用邊緣設(shè)備的大語言模型生成回復(fù)文本并回傳至智能眼鏡。
10、通過采用上述方案,考慮到部分語音分段的數(shù)據(jù)量較大,單純的應(yīng)用內(nèi)置的大模型響應(yīng)的時(shí)間會(huì)過久,將部分交互信息傳送至邊緣設(shè)備,利用邊緣計(jì)算輔助快速響應(yīng)。
11、優(yōu)選的,所述數(shù)據(jù)處理模塊,還用于接收文本信息并計(jì)算文本信息的數(shù)據(jù)量大于預(yù)設(shè)數(shù)據(jù)量后,對(duì)接收的文本信息進(jìn)行自然語言處理提取關(guān)鍵詞,判斷提取的關(guān)鍵詞是否為敏感信息,根據(jù)判斷結(jié)果將不涉及敏感信息的部分文本信息傳輸至邊緣設(shè)備。
12、通過采用上述方案,考慮到傳送至邊緣計(jì)算可能會(huì)存在數(shù)據(jù)的安全隱患,進(jìn)而對(duì)于文本信息進(jìn)行敏感信息的判斷,選擇不涉及敏感信息的部分文本信息傳輸至邊緣設(shè)備,保障用戶數(shù)據(jù)安全。
13、優(yōu)選的,所述數(shù)據(jù)處理模塊,還用于統(tǒng)計(jì)自接收文本信息起至生成回復(fù)文本的時(shí)長,當(dāng)統(tǒng)計(jì)的時(shí)長超出預(yù)設(shè)時(shí)長時(shí),則切換量級(jí)配置更高的大語言模型,利用切換后的大語言模型生成回復(fù)文本。
14、通過采用上述方案,實(shí)時(shí)監(jiān)測(cè)回復(fù)文本生成超時(shí)的情況,及時(shí)的切換配置更好的大語言模型以更好的生成回復(fù)文本,避免遲遲無法生成回復(fù)文本,提升用戶交互體驗(yàn)。
15、優(yōu)選的,所述數(shù)據(jù)交互模塊,還用于獲取用戶習(xí)慣或用戶需求的交互語調(diào)與語速并將其作為目標(biāo)交互的語調(diào)與語速;利用語音合成技術(shù)按照目標(biāo)交互的語調(diào)與語速將生成的回復(fù)文本轉(zhuǎn)化為自然語音輸出。
16、通過采用上述方案,考慮用戶畫像或用戶需求,生成符合用戶個(gè)性化需求的回復(fù)內(nèi)容,提升用戶交互體驗(yàn)。
17、優(yōu)選的,所述數(shù)據(jù)交互模塊,還用于將生成的回復(fù)文本轉(zhuǎn)化為語音輸出的同時(shí),通過智能眼鏡展示回復(fù)文本預(yù)先關(guān)聯(lián)的視覺信息。
18、通過采用上述方案,除語音回復(fù)外,在智能眼鏡的顯示屏上展示相關(guān)文本或
19、視覺內(nèi)容,進(jìn)一步增強(qiáng)用戶的多感官交互體驗(yàn)。
20、優(yōu)選的,還包括:
21、數(shù)據(jù)預(yù)測(cè)與預(yù)加載塊,還用于利用深度學(xué)習(xí)算法根據(jù)歷史用戶與智能眼鏡流式語音對(duì)話的交互信息預(yù)測(cè)下一時(shí)段的交互信息;確定下一時(shí)段智能眼鏡資源狀況信息;結(jié)合預(yù)測(cè)的下一時(shí)段的交互信息與下一時(shí)段的智能眼鏡資源狀況信息預(yù)先匹配對(duì)應(yīng)的大語言模型,于獲取下一時(shí)段的交互信息且接收到的交互信息與預(yù)測(cè)的下一時(shí)段的交互信息相似度大于預(yù)設(shè)相似度時(shí),提前加載預(yù)先匹配的大語言模型。
22、通過采用上述方案,利用歷史數(shù)據(jù)和機(jī)器學(xué)習(xí)算法預(yù)測(cè)未來的資源狀況和用戶需求并根據(jù)預(yù)測(cè)結(jié)果,提前加載或切換到適合的模型配置,以減少等待時(shí)間和提高響應(yīng)速度。
23、第二方面,本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互方法,包括:
24、采集用戶與智能眼鏡語音對(duì)話的交互信息、用戶與智能眼鏡語音對(duì)話交互過程中智能眼鏡資源狀況信息;所述交互信息包括用戶語音信息、智能眼鏡播放語音信息、用戶視覺信息及智能眼鏡展示視覺信息;
25、采用實(shí)時(shí)流式處理技術(shù)對(duì)采集的交互信息進(jìn)行處理,按照處理后的交互信息的類型自適應(yīng)選擇對(duì)應(yīng)類型的交互信息識(shí)別模型,將識(shí)別到的內(nèi)容轉(zhuǎn)化為文本信息;
26、接收文本信息并利用深度學(xué)習(xí)算法獲取交互信息的對(duì)話內(nèi)容類型,所述對(duì)話內(nèi)容類型包括:常見知識(shí)交互型、專業(yè)知識(shí)交互型及復(fù)雜推理交互型,按照預(yù)設(shè)評(píng)分規(guī)則計(jì)算當(dāng)前資源狀況充裕程度和當(dāng)前文本信息中對(duì)話內(nèi)容復(fù)雜程度對(duì)應(yīng)匹配評(píng)分的加權(quán)綜合評(píng)分;所述預(yù)設(shè)評(píng)分規(guī)則包括:基于資源狀況信息所處預(yù)設(shè)資源狀況充裕程度范圍匹配對(duì)應(yīng)評(píng)分、基于識(shí)別的對(duì)話內(nèi)容類型所屬預(yù)設(shè)對(duì)話內(nèi)容復(fù)雜程度匹配對(duì)應(yīng)評(píng)分;根據(jù)獲得的綜合評(píng)分所在預(yù)設(shè)閾值范圍對(duì)應(yīng)匹配加載不同模型配置的內(nèi)置于智能眼鏡的大語言模型;所述不同模型配置的大語言模型為根據(jù)模型規(guī)模、參數(shù)數(shù)量及計(jì)算能力劃分的不同量級(jí)配置的大語言模型;利用匹配的大語言模型對(duì)文本信息進(jìn)行意圖識(shí)別,并結(jié)合上下文生成回復(fù)文本;
27、將生成的回復(fù)文本轉(zhuǎn)化為語音輸出;
28、接收反饋的用戶交互滿意度,判斷用戶交互滿意度是否達(dá)到預(yù)設(shè)滿意度的結(jié)果,當(dāng)未達(dá)到用戶滿意度時(shí),通過增量訓(xùn)練完成對(duì)交互信息識(shí)別模型或大語言模型的模型優(yōu)化直至用戶交互滿意度達(dá)到預(yù)設(shè)滿意度。
29、通過采用上述方案,集成高效的語音識(shí)別、自然語言處理、反饋機(jī)制與模型動(dòng)態(tài)機(jī)制,實(shí)現(xiàn)高效、準(zhǔn)確、流暢的用戶與智能眼鏡的語音交互。
30、第三方面,本技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如上述的方法。
31、第四方面,本技術(shù)提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器、處理器及在所述存儲(chǔ)器上存儲(chǔ)并可運(yùn)行的程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述方法的步驟。
32、綜上,本技術(shù)具有以下有益效果為:
33、1、采用實(shí)時(shí)流式處理技術(shù)與自適應(yīng)交互信息識(shí)別技術(shù),對(duì)用戶的連續(xù)語音進(jìn)行分段適應(yīng)性的交互信息的識(shí)別,減少延遲并提高識(shí)別效率;
34、2、結(jié)合實(shí)際交互的資源狀況與用戶需求,適應(yīng)性的匹配加載相應(yīng)模型配置的大語言模型,準(zhǔn)確的進(jìn)行意圖解析,實(shí)現(xiàn)更為及時(shí)的響應(yīng);
35、3、采集多模態(tài)交互信息以提升用戶意圖識(shí)別準(zhǔn)確度,利用大語言模型的記憶能力,結(jié)合上下文理解,生成更為自然的回復(fù)文本;
36、4、采集用戶反饋并以此優(yōu)化語音識(shí)別、自然語言處理以及語音生成模塊的表現(xiàn),提升對(duì)話的自然度,為用戶提供更加豐富、直觀的交互體驗(yàn)。