基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法與流程

文檔序號(hào)：40280961發(fā)布日期：2024-12-11 13:20閱讀：48來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及大語言模型交互，具體是涉及一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法。

背景技術(shù)：

1、隨著人工智能技術(shù)的快速發(fā)展，語音交互已經(jīng)成為人機(jī)交互的重要方式之一。智能眼鏡作為新興的可穿戴設(shè)備，結(jié)合了?ar/vr?技術(shù)，為用戶提供豐富的視覺信息展示能力。

2、然而，現(xiàn)有的智能眼鏡在語音交互方面多存在識(shí)別率低、響應(yīng)速度慢、對(duì)話不自然等問題，雖然部分智能眼鏡在語言交互方面進(jìn)行模型的優(yōu)化，但仍然難以滿足用戶對(duì)于高效、準(zhǔn)確、流暢交互的需求。因此，開發(fā)一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)，實(shí)現(xiàn)高效、準(zhǔn)確、流暢的語音交互體驗(yàn)具有重要意義。

技術(shù)實(shí)現(xiàn)思路

1、為了解決用戶與智能眼鏡語言交互過程中存在的識(shí)別率低、響應(yīng)速度慢、對(duì)話不自然等問題，本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法。

2、第一方面，本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)，包括：

3、數(shù)據(jù)采集模塊，用于采集用戶與智能眼鏡語音對(duì)話的交互信息、用戶與智能眼鏡語音對(duì)話交互過程中智能眼鏡資源狀況信息；所述交互信息包括用戶語音信息、智能眼鏡播放語音信息、用戶視覺信息以及智能眼鏡展示視覺信息；

4、數(shù)據(jù)轉(zhuǎn)換模塊，用于采用實(shí)時(shí)流式處理技術(shù)對(duì)采集的交互信息進(jìn)行處理，按照處理后的交互信息的類型自適應(yīng)選擇對(duì)應(yīng)類型的交互信息識(shí)別模型，將識(shí)別到的內(nèi)容轉(zhuǎn)化為文本信息；

5、數(shù)據(jù)處理模塊，用于接收文本信息并利用深度學(xué)習(xí)算法獲取交互信息的對(duì)話內(nèi)容類型，所述對(duì)話內(nèi)容類型包括：常見知識(shí)交互型、專業(yè)知識(shí)交互型及復(fù)雜推理交互型,按照預(yù)設(shè)評(píng)分規(guī)則計(jì)算當(dāng)前資源狀況充裕程度和當(dāng)前文本信息中對(duì)話內(nèi)容復(fù)雜程度對(duì)應(yīng)匹配評(píng)分的加權(quán)綜合評(píng)分；所述預(yù)設(shè)評(píng)分規(guī)則包括：基于資源狀況信息所處預(yù)設(shè)資源狀況充裕程度范圍匹配對(duì)應(yīng)評(píng)分、基于識(shí)別的對(duì)話內(nèi)容類型所屬預(yù)設(shè)對(duì)話內(nèi)容復(fù)雜程度匹配對(duì)應(yīng)評(píng)分；根據(jù)獲得的綜合評(píng)分所在預(yù)設(shè)閾值范圍對(duì)應(yīng)匹配加載不同模型配置的內(nèi)置于智能眼鏡的大語言模型；所述不同模型配置的大語言模型為根據(jù)模型規(guī)模、參數(shù)數(shù)量及計(jì)算能力劃分的不同量級(jí)配置的大語言模型；利用匹配的大語言模型對(duì)文本信息進(jìn)行意圖識(shí)別，并結(jié)合上下文生成回復(fù)文本；

6、數(shù)據(jù)交互模塊，將生成的回復(fù)文本轉(zhuǎn)化為語音輸出；

7、數(shù)據(jù)反饋模塊，用于接收反饋的用戶交互滿意度，判斷用戶交互滿意度是否達(dá)到預(yù)設(shè)滿意度的結(jié)果，當(dāng)未達(dá)到用戶滿意度時(shí)，通過增量訓(xùn)練完成對(duì)交互信息識(shí)別模型或大語言模型的模型優(yōu)化直至用戶交互滿意度達(dá)到預(yù)設(shè)滿意度。

8、通過采用上述方案，采用實(shí)時(shí)流式處理技術(shù)與自適應(yīng)交互信息識(shí)別技術(shù)，對(duì)用戶的連續(xù)語音進(jìn)行分段適應(yīng)性的交互信息的識(shí)別，減少延遲并提高識(shí)別效率；結(jié)合實(shí)際交互的資源狀況與用戶需求，適應(yīng)性的匹配加載相應(yīng)模型配置的大語言模型，準(zhǔn)確的進(jìn)行意圖解析，實(shí)現(xiàn)更為及時(shí)的響應(yīng)；采集多模態(tài)交互信息，并利用大語言模型的記憶能力，結(jié)合上下文實(shí)現(xiàn)跨輪次的上下文理解，以生成自然的回復(fù)文本；利用用戶反饋不斷優(yōu)化模型，提升對(duì)話的自然度，為用戶提供更加豐富、直觀的交互體驗(yàn)；

9、優(yōu)選的，所述數(shù)據(jù)處理模塊，還用于接收文本信息計(jì)算文本信息的數(shù)據(jù)量是否大于預(yù)設(shè)數(shù)據(jù)量，若大于預(yù)設(shè)數(shù)據(jù)量，則將部分文本內(nèi)容傳輸至邊緣設(shè)備，利用邊緣設(shè)備的大語言模型生成回復(fù)文本并回傳至智能眼鏡。

10、通過采用上述方案，考慮到部分語音分段的數(shù)據(jù)量較大，單純的應(yīng)用內(nèi)置的大模型響應(yīng)的時(shí)間會(huì)過久，將部分交互信息傳送至邊緣設(shè)備，利用邊緣計(jì)算輔助快速響應(yīng)。

11、優(yōu)選的，所述數(shù)據(jù)處理模塊，還用于接收文本信息并計(jì)算文本信息的數(shù)據(jù)量大于預(yù)設(shè)數(shù)據(jù)量后，對(duì)接收的文本信息進(jìn)行自然語言處理提取關(guān)鍵詞，判斷提取的關(guān)鍵詞是否為敏感信息，根據(jù)判斷結(jié)果將不涉及敏感信息的部分文本信息傳輸至邊緣設(shè)備。

12、通過采用上述方案，考慮到傳送至邊緣計(jì)算可能會(huì)存在數(shù)據(jù)的安全隱患，進(jìn)而對(duì)于文本信息進(jìn)行敏感信息的判斷，選擇不涉及敏感信息的部分文本信息傳輸至邊緣設(shè)備，保障用戶數(shù)據(jù)安全。

13、優(yōu)選的，所述數(shù)據(jù)處理模塊，還用于統(tǒng)計(jì)自接收文本信息起至生成回復(fù)文本的時(shí)長，當(dāng)統(tǒng)計(jì)的時(shí)長超出預(yù)設(shè)時(shí)長時(shí)，則切換量級(jí)配置更高的大語言模型，利用切換后的大語言模型生成回復(fù)文本。

14、通過采用上述方案，實(shí)時(shí)監(jiān)測(cè)回復(fù)文本生成超時(shí)的情況，及時(shí)的切換配置更好的大語言模型以更好的生成回復(fù)文本，避免遲遲無法生成回復(fù)文本，提升用戶交互體驗(yàn)。

15、優(yōu)選的，所述數(shù)據(jù)交互模塊，還用于獲取用戶習(xí)慣或用戶需求的交互語調(diào)與語速并將其作為目標(biāo)交互的語調(diào)與語速；利用語音合成技術(shù)按照目標(biāo)交互的語調(diào)與語速將生成的回復(fù)文本轉(zhuǎn)化為自然語音輸出。

16、通過采用上述方案，考慮用戶畫像或用戶需求，生成符合用戶個(gè)性化需求的回復(fù)內(nèi)容，提升用戶交互體驗(yàn)。

17、優(yōu)選的，所述數(shù)據(jù)交互模塊，還用于將生成的回復(fù)文本轉(zhuǎn)化為語音輸出的同時(shí)，通過智能眼鏡展示回復(fù)文本預(yù)先關(guān)聯(lián)的視覺信息。

18、通過采用上述方案，除語音回復(fù)外，在智能眼鏡的顯示屏上展示相關(guān)文本或

19、視覺內(nèi)容，進(jìn)一步增強(qiáng)用戶的多感官交互體驗(yàn)。

20、優(yōu)選的，還包括：

21、數(shù)據(jù)預(yù)測(cè)與預(yù)加載塊，還用于利用深度學(xué)習(xí)算法根據(jù)歷史用戶與智能眼鏡流式語音對(duì)話的交互信息預(yù)測(cè)下一時(shí)段的交互信息；確定下一時(shí)段智能眼鏡資源狀況信息；結(jié)合預(yù)測(cè)的下一時(shí)段的交互信息與下一時(shí)段的智能眼鏡資源狀況信息預(yù)先匹配對(duì)應(yīng)的大語言模型，于獲取下一時(shí)段的交互信息且接收到的交互信息與預(yù)測(cè)的下一時(shí)段的交互信息相似度大于預(yù)設(shè)相似度時(shí)，提前加載預(yù)先匹配的大語言模型。

22、通過采用上述方案，利用歷史數(shù)據(jù)和機(jī)器學(xué)習(xí)算法預(yù)測(cè)未來的資源狀況和用戶需求并根據(jù)預(yù)測(cè)結(jié)果，提前加載或切換到適合的模型配置，以減少等待時(shí)間和提高響應(yīng)速度。

23、第二方面，本技術(shù)提供一種基于大語言模型的智能眼鏡流式語音對(duì)話交互方法，包括：

24、采集用戶與智能眼鏡語音對(duì)話的交互信息、用戶與智能眼鏡語音對(duì)話交互過程中智能眼鏡資源狀況信息；所述交互信息包括用戶語音信息、智能眼鏡播放語音信息、用戶視覺信息及智能眼鏡展示視覺信息；

25、采用實(shí)時(shí)流式處理技術(shù)對(duì)采集的交互信息進(jìn)行處理，按照處理后的交互信息的類型自適應(yīng)選擇對(duì)應(yīng)類型的交互信息識(shí)別模型，將識(shí)別到的內(nèi)容轉(zhuǎn)化為文本信息；

26、接收文本信息并利用深度學(xué)習(xí)算法獲取交互信息的對(duì)話內(nèi)容類型，所述對(duì)話內(nèi)容類型包括：常見知識(shí)交互型、專業(yè)知識(shí)交互型及復(fù)雜推理交互型,按照預(yù)設(shè)評(píng)分規(guī)則計(jì)算當(dāng)前資源狀況充裕程度和當(dāng)前文本信息中對(duì)話內(nèi)容復(fù)雜程度對(duì)應(yīng)匹配評(píng)分的加權(quán)綜合評(píng)分；所述預(yù)設(shè)評(píng)分規(guī)則包括：基于資源狀況信息所處預(yù)設(shè)資源狀況充裕程度范圍匹配對(duì)應(yīng)評(píng)分、基于識(shí)別的對(duì)話內(nèi)容類型所屬預(yù)設(shè)對(duì)話內(nèi)容復(fù)雜程度匹配對(duì)應(yīng)評(píng)分；根據(jù)獲得的綜合評(píng)分所在預(yù)設(shè)閾值范圍對(duì)應(yīng)匹配加載不同模型配置的內(nèi)置于智能眼鏡的大語言模型；所述不同模型配置的大語言模型為根據(jù)模型規(guī)模、參數(shù)數(shù)量及計(jì)算能力劃分的不同量級(jí)配置的大語言模型；利用匹配的大語言模型對(duì)文本信息進(jìn)行意圖識(shí)別，并結(jié)合上下文生成回復(fù)文本；

27、將生成的回復(fù)文本轉(zhuǎn)化為語音輸出；

28、接收反饋的用戶交互滿意度，判斷用戶交互滿意度是否達(dá)到預(yù)設(shè)滿意度的結(jié)果，當(dāng)未達(dá)到用戶滿意度時(shí)，通過增量訓(xùn)練完成對(duì)交互信息識(shí)別模型或大語言模型的模型優(yōu)化直至用戶交互滿意度達(dá)到預(yù)設(shè)滿意度。

29、通過采用上述方案，集成高效的語音識(shí)別、自然語言處理、反饋機(jī)制與模型動(dòng)態(tài)機(jī)制，實(shí)現(xiàn)高效、準(zhǔn)確、流暢的用戶與智能眼鏡的語音交互。

30、第三方面，本技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序，其中，在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如上述的方法。

31、第四方面，本技術(shù)提供一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器、處理器及在所述存儲(chǔ)器上存儲(chǔ)并可運(yùn)行的程序，所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述方法的步驟。

32、綜上，本技術(shù)具有以下有益效果為：

33、1、采用實(shí)時(shí)流式處理技術(shù)與自適應(yīng)交互信息識(shí)別技術(shù)，對(duì)用戶的連續(xù)語音進(jìn)行分段適應(yīng)性的交互信息的識(shí)別，減少延遲并提高識(shí)別效率；

34、2、結(jié)合實(shí)際交互的資源狀況與用戶需求，適應(yīng)性的匹配加載相應(yīng)模型配置的大語言模型，準(zhǔn)確的進(jìn)行意圖解析，實(shí)現(xiàn)更為及時(shí)的響應(yīng)；

35、3、采集多模態(tài)交互信息以提升用戶意圖識(shí)別準(zhǔn)確度，利用大語言模型的記憶能力，結(jié)合上下文理解，生成更為自然的回復(fù)文本；

36、4、采集用戶反饋并以此優(yōu)化語音識(shí)別、自然語言處理以及語音生成模塊的表現(xiàn)，提升對(duì)話的自然度，為用戶提供更加豐富、直觀的交互體驗(yàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王勇,唐錢進(jìn),張羅
技術(shù)所有人：南京魔數(shù)團(tuán)信息科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于大語言模型的智能眼鏡流式語音對(duì)話交互系統(tǒng)及方法與流程