一種基于大模型的教學(xué)視頻理解的方法與流程

文檔序號(hào)：40282270發(fā)布日期：2024-12-11 13:23閱讀：44來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于智慧教育和人工智能，具體一種涉及基于大模型的教學(xué)視頻理解的方法。

背景技術(shù)：

1、目前有基于3d卷積的視頻理解方法，通過(guò)使用多個(gè)3d卷積層，逐層提取并組合更復(fù)雜的時(shí)空特征，最后整合卷積層產(chǎn)生的特征，映射到視頻內(nèi)容的語(yǔ)義空間。另外有基于動(dòng)態(tài)時(shí)空?qǐng)D的視頻理解方法，將視頻數(shù)據(jù)輸送到已訓(xùn)練好的網(wǎng)絡(luò)模型中，以輸出視頻理解結(jié)果等。這些方法對(duì)于視頻中的場(chǎng)景、時(shí)序等有較好的識(shí)別效果，但針對(duì)教學(xué)視頻無(wú)法理解詳細(xì)的語(yǔ)言或文字內(nèi)容。

2、同時(shí)，現(xiàn)階段不存在將視頻作為直接輸入的多模態(tài)大模型，均需要經(jīng)過(guò)人為提取視頻幀圖像后進(jìn)行輸入問(wèn)答，但此方法丟失視頻中的語(yǔ)音和時(shí)序信息，且理解程度無(wú)法達(dá)到語(yǔ)言或文字內(nèi)容的級(jí)別，無(wú)法在教學(xué)視頻理解中應(yīng)用。并且，近年來(lái)隨著教育的數(shù)字化轉(zhuǎn)型，課堂內(nèi)容的視頻化已成為常態(tài)。為了確保有效的學(xué)習(xí)和教學(xué)管理，對(duì)這些教學(xué)視頻的深入理解和分析變得尤為重要。然而，現(xiàn)有的課堂視頻分析方法往往需要大量的手動(dòng)操作，效率低下，并且難以實(shí)時(shí)響應(yīng)。

3、為此，設(shè)計(jì)一種基于大模型的教學(xué)視頻理解的方法，從而克服上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的不足，而提供一種基于大模型的教學(xué)視頻理解的方法。本發(fā)明的這種方法能夠在復(fù)雜的真實(shí)教學(xué)場(chǎng)景中穩(wěn)定工作，通過(guò)自動(dòng)化的方式提升課堂視頻的使用價(jià)值，增強(qiáng)教學(xué)質(zhì)量的監(jiān)控，并為教學(xué)和學(xué)習(xí)提供精準(zhǔn)的輔助。

2、本發(fā)明是通過(guò)如下的技術(shù)方案予以實(shí)現(xiàn)的：一種基于大模型的教學(xué)視頻理解的方法，所述方法包括如下步驟：

3、1）建立大模型，給大模型進(jìn)行訓(xùn)練和微調(diào)；

4、2）采集視頻中的信息，該信息包括圖片信息和語(yǔ)音信息；

5、3）將語(yǔ)音信息和圖片信息單獨(dú)處理，語(yǔ)音和圖片信息均轉(zhuǎn)換成文字信息；

6、4）分段理解生成；

7、5）摘要生成；

8、6）應(yīng)用輸出結(jié)果。

9、作為優(yōu)選：所述步驟1）中建立大模型，該大模型利用開(kāi)源大模型或基于開(kāi)源模型進(jìn)一步微調(diào)，也可以根據(jù)具體教學(xué)環(huán)境的需要和數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)定制的大模型，該大模型均為常規(guī)模型。

10、作為優(yōu)選：所述步驟3）語(yǔ)音信息處理方法為：

11、a.語(yǔ)音分離與預(yù)處理：利用現(xiàn)有的標(biāo)準(zhǔn)庫(kù)將視頻中的語(yǔ)言進(jìn)行分離，采樣頻率統(tǒng)一轉(zhuǎn)換為16khz，通過(guò)算法模型將語(yǔ)音中存在的噪聲和空白部分進(jìn)行過(guò)濾；

12、b．語(yǔ)音轉(zhuǎn)錄模型：利用開(kāi)源的語(yǔ)音轉(zhuǎn)錄算法模型進(jìn)行轉(zhuǎn)錄，或采用開(kāi)源算法，自行采集的課堂語(yǔ)音數(shù)據(jù)，標(biāo)注完成后訓(xùn)練自己的模型；

13、c．轉(zhuǎn)錄文字處理：轉(zhuǎn)錄的文字以時(shí)間戳的排序保存，并將轉(zhuǎn)錄的文字進(jìn)行清洗，如重復(fù)文字、錯(cuò)別字、口頭禪等進(jìn)行去除和優(yōu)化。

14、作為優(yōu)選：所述步驟3）文字信息處理方法為：

15、a.文字信息的提取

16、b.?轉(zhuǎn)錄文字處理：轉(zhuǎn)錄的文字以時(shí)間戳的排序保存，并將轉(zhuǎn)錄的文字進(jìn)行清洗，如重復(fù)文字、錯(cuò)別字、口頭禪等進(jìn)行去除和優(yōu)化。

17、作為優(yōu)選：所述步驟4）中分段理解生成的具體方法為：將清洗后的文字按照時(shí)間戳的方式依次輸入大模型，同時(shí)設(shè)置可以手動(dòng)更換且多種語(yǔ)言的大模型提示詞，大模型將根據(jù)定制化的提示詞進(jìn)行深度內(nèi)容分析，并產(chǎn)出對(duì)應(yīng)于視頻內(nèi)容的理解結(jié)果，將大模型輸出的結(jié)果與時(shí)間戳相結(jié)合，確保理解的結(jié)果能夠精準(zhǔn)對(duì)應(yīng)到視頻的具體內(nèi)容和時(shí)間節(jié)點(diǎn)。

18、作為優(yōu)選：所述步驟5）中摘要生成具體方法為：在分段理解執(zhí)行到大于2段后，將2段的理解結(jié)果輸入給大模型，設(shè)置特定提示詞，總結(jié)生成2段結(jié)果的簡(jiǎn)要理解；再將該理解內(nèi)容與第3段內(nèi)容共同輸入大模型理解，以此類(lèi)推，即可得到整體課堂視頻內(nèi)容的摘要。

19、作為優(yōu)選：所述步驟6）中應(yīng)用輸出結(jié)果具體方法為：完成對(duì)課堂視頻內(nèi)容理解的所有步驟后，將大模型得到的理解結(jié)果以及其相關(guān)時(shí)間戳對(duì)課堂視頻進(jìn)行標(biāo)注，支持教師和學(xué)生直觀理解和復(fù)習(xí)課堂內(nèi)容。

20、本發(fā)明所提供的基于大模型的教學(xué)視頻理解的方法，與現(xiàn)有的視頻理解技術(shù)相比，其有益效果如下：

21、1.結(jié)合定制的大模型進(jìn)行教學(xué)內(nèi)容的深度分析，能夠準(zhǔn)確抽象出教學(xué)視頻中的關(guān)鍵知識(shí)點(diǎn)和內(nèi)容。在對(duì)多樣化教材和教學(xué)風(fēng)格的實(shí)際視頻測(cè)試中，系統(tǒng)理解全局內(nèi)容和概括重點(diǎn)信息的準(zhǔn)確度達(dá)到了90%及以上。

22、2.通過(guò)系統(tǒng)分析出的重點(diǎn)時(shí)刻標(biāo)記，學(xué)生可以直接回放關(guān)鍵部分進(jìn)行復(fù)習(xí)，極大提高了復(fù)習(xí)的針對(duì)性和效率。實(shí)際應(yīng)用中，學(xué)生的課后復(fù)習(xí)效率提高了約50%。

23、3.憑借高準(zhǔn)確率的內(nèi)容理解和個(gè)性化反饋，本系統(tǒng)非常適合用于遠(yuǎn)程教育和自適應(yīng)學(xué)習(xí)平臺(tái)，它能夠給在線學(xué)習(xí)帶來(lái)更加互動(dòng)和定制化的體驗(yàn)；同時(shí)滿足聽(tīng)力障礙人士的快速匹配學(xué)習(xí)重點(diǎn)，有著廣泛的推廣和應(yīng)用前景。

技術(shù)特征：

1.一種基于大模型的教學(xué)視頻理解的方法，其特征在于：所述方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟1）中建立大模型，該大模型利用開(kāi)源大模型或基于開(kāi)源模型進(jìn)一步微調(diào)，也可以根據(jù)具體教學(xué)環(huán)境的需要和數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)定制的大模型，該大模型均為常規(guī)模型。

3.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟3）語(yǔ)音信息處理方法為：

4.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟3）文字信息處理方法為：

5.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟4）中分段理解生成的具體方法為：將清洗后的文字按照時(shí)間戳的方式依次輸入大模型，同時(shí)設(shè)置可以手動(dòng)更換且多種語(yǔ)言的大模型提示詞，大模型將根據(jù)定制化的提示詞進(jìn)行深度內(nèi)容分析，并產(chǎn)出對(duì)應(yīng)于視頻內(nèi)容的理解結(jié)果，將大模型輸出的結(jié)果與時(shí)間戳相結(jié)合，確保理解的結(jié)果能夠精準(zhǔn)對(duì)應(yīng)到視頻的具體內(nèi)容和時(shí)間節(jié)點(diǎn)。

6.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟5）中摘要生成具體方法為：在分段理解執(zhí)行到大于2段后，將2段的理解結(jié)果輸入給大模型，設(shè)置特定提示詞，總結(jié)生成2段結(jié)果的簡(jiǎn)要理解；再將該理解內(nèi)容與第3段內(nèi)容共同輸入大模型理解，以此類(lèi)推，即可得到整體課堂視頻內(nèi)容的摘要。

7.根據(jù)權(quán)利要求1所述的基于大模型的教學(xué)視頻理解的方法，其特征在于：所述步驟6）中應(yīng)用輸出結(jié)果具體方法為：完成對(duì)課堂視頻內(nèi)容理解的所有步驟后，將大模型得到的理解結(jié)果以及其相關(guān)時(shí)間戳對(duì)課堂視頻進(jìn)行標(biāo)注，支持教師和學(xué)生直觀理解和復(fù)習(xí)課堂內(nèi)容。

技術(shù)總結(jié)
本發(fā)明為一種基于大模型的教學(xué)視頻理解的方法，所述方法包括如下步驟：1）建立大模型，給大模型進(jìn)行訓(xùn)練和微調(diào)；2）采集視頻中的信息，該信息包括圖片信息和語(yǔ)音信息；3）將語(yǔ)音信息和圖片信息單獨(dú)處理，語(yǔ)音和圖片信息均轉(zhuǎn)換成文字信息；4）分段理解生成；5）摘要生成；6）應(yīng)用輸出結(jié)果。本發(fā)明能夠在復(fù)雜的真實(shí)教學(xué)場(chǎng)景中穩(wěn)定工作，通過(guò)自動(dòng)化的方式提升課堂視頻的使用價(jià)值，增強(qiáng)教學(xué)質(zhì)量的監(jiān)控，并為教學(xué)和學(xué)習(xí)提供精準(zhǔn)的輔助。

技術(shù)研發(fā)人員：李瑋,李強(qiáng),馬亮,李向陽(yáng),沈華飛
受保護(hù)的技術(shù)使用者：德清阿爾法創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李瑋,李強(qiáng),馬亮,李向陽(yáng),沈華飛
技術(shù)所有人：德清阿爾法創(chuàng)新研究院
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于大模型的教學(xué)視頻理解的方法與流程