基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置

文檔序號(hào)：40174506發(fā)布日期：2024-12-03 11:21閱讀：10來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，尤其涉及一種基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置。

背景技術(shù)：

1、在當(dāng)今醫(yī)療領(lǐng)域，隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，手術(shù)視頻的解析和理解已成為提高手術(shù)精度和患者安全的關(guān)鍵技術(shù)。

2、然而，盡管現(xiàn)有的手術(shù)視頻理解算法已在一定程度上輔助了手術(shù)過程，這些算法主要針對(duì)單一任務(wù)，如階段識(shí)別或工具檢測(cè)，并且往往僅能提供有限的輸出，缺乏與醫(yī)生的互動(dòng)性。

3、由此可見，相關(guān)技術(shù)中的手術(shù)視頻理解方法，存在互動(dòng)性較差、實(shí)用性較低的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置，用以解決現(xiàn)有技術(shù)中手術(shù)視頻理解方法存在互動(dòng)性較差、實(shí)用性較低的缺陷，以實(shí)現(xiàn)能夠在解析手術(shù)視頻的同時(shí)，支持基于自然語言的多任務(wù)問答。

2、本發(fā)明提供一種基于多模態(tài)大模型的手術(shù)視頻處理方法，包括如下步驟。確定手術(shù)視頻以及與所述手術(shù)視頻相關(guān)的原始問題；對(duì)所述手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落；通過預(yù)訓(xùn)練的視頻編碼器對(duì)所述多個(gè)視頻段落中的每個(gè)視頻段落進(jìn)行編碼處理，得到抽象特征；通過預(yù)設(shè)的多模態(tài)轉(zhuǎn)換器將所述抽象特征的空間維度轉(zhuǎn)換至與預(yù)設(shè)的多模態(tài)大模型的空間維度一致，得到處理后的抽象特征；基于所述處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征；將所述混合抽象特征與所述原始問題輸入至所述預(yù)設(shè)的多模態(tài)大模型，得到所述預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容。

3、根據(jù)本發(fā)明提供的一種基于多模態(tài)大模型的手術(shù)視頻處理方法，在所述確定手術(shù)視頻以及與所述手術(shù)視頻相關(guān)的原始問題之前，所述方法還包括：對(duì)預(yù)設(shè)的視頻編碼器進(jìn)行訓(xùn)練，得到預(yù)訓(xùn)練的視頻編碼器，其中，所述預(yù)訓(xùn)練的視頻編碼器用于對(duì)齊手術(shù)器械視頻特征與手術(shù)器械文字特征。

4、根據(jù)本發(fā)明提供的一種基于多模態(tài)大模型的手術(shù)視頻處理方法，所述對(duì)預(yù)設(shè)的視頻編碼器進(jìn)行訓(xùn)練，得到預(yù)訓(xùn)練的視頻編碼器，包括：獲取手術(shù)視頻訓(xùn)練樣本，其中，所述手術(shù)視頻訓(xùn)練樣本包括至少一個(gè)手術(shù)器械標(biāo)記以及與所述手術(shù)器械標(biāo)記對(duì)應(yīng)的手術(shù)器械文字特征；通過預(yù)設(shè)的視頻編碼器對(duì)所述手術(shù)視頻訓(xùn)練樣本進(jìn)行器械掩碼，得到掩碼視頻訓(xùn)練樣本；通過所述預(yù)設(shè)的視頻編碼器的編碼器對(duì)所述掩碼視頻訓(xùn)練樣本進(jìn)行編碼，得到編碼視頻訓(xùn)練樣本；通過所述預(yù)設(shè)的視頻編碼器的解碼器對(duì)所述編碼視頻訓(xùn)練樣本進(jìn)行掩碼重塑，得到手術(shù)器械視頻特征；基于所述手術(shù)器械視頻特征與所述手術(shù)器械文字特征之間的預(yù)設(shè)損失函數(shù)，對(duì)所述預(yù)設(shè)的視頻編碼器進(jìn)行更新，得到預(yù)訓(xùn)練的視頻編碼器。

5、根據(jù)本發(fā)明提供的一種基于多模態(tài)大模型的手術(shù)視頻處理方法，所述對(duì)所述手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落，包括：將所述手術(shù)視頻轉(zhuǎn)換為連續(xù)的圖像幀；根據(jù)預(yù)設(shè)的目標(biāo)幀數(shù)，將所述連續(xù)的圖像幀轉(zhuǎn)換為多個(gè)視頻段落，其中，所述視頻段落的幀數(shù)為所述預(yù)設(shè)的目標(biāo)幀數(shù)。

6、根據(jù)本發(fā)明提供的一種基于多模態(tài)大模型的手術(shù)視頻處理方法，所述基于所述處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征，包括：確定與所述處理后的抽象特征對(duì)應(yīng)的所述視頻段落的時(shí)間軸段落；基于所述時(shí)間軸段落根據(jù)預(yù)設(shè)的文字描述模版生成文字輔助描述；通過預(yù)設(shè)的文字令牌處理器對(duì)所述文字輔助描述進(jìn)行轉(zhuǎn)換，得到文字抽象特征；基于所述處理后的抽象特征與所述文字抽象特征進(jìn)行交叉嵌入，得到混合抽象特征。

7、根據(jù)本發(fā)明提供的一種基于多模態(tài)大模型的手術(shù)視頻處理方法，所述將所述混合抽象特征與所述原始問題輸入至所述預(yù)設(shè)的多模態(tài)大模型，得到所述預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容，包括：確定所述原始問題的問題類型；調(diào)用所述預(yù)設(shè)的多模態(tài)大模型基于所述問題類型，確定目標(biāo)預(yù)訓(xùn)練低秩適應(yīng)模塊；基于所述目標(biāo)預(yù)訓(xùn)練低秩適應(yīng)模塊根據(jù)所述混合抽象特征與所述原始問題，輸出文字回答內(nèi)容。

8、本發(fā)明還提供一種基于多模態(tài)大模型的手術(shù)視頻處理裝置，包括如下模塊：確定模塊，用于確定手術(shù)視頻以及與所述手術(shù)視頻相關(guān)的原始問題；拆分模塊，用于對(duì)所述手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落；編碼模塊，用于通過預(yù)訓(xùn)練的視頻編碼器對(duì)所述多個(gè)視頻段落中的每個(gè)視頻段落進(jìn)行編碼處理，得到抽象特征；轉(zhuǎn)換模塊，用于通過預(yù)設(shè)的多模態(tài)轉(zhuǎn)換器將所述抽象特征的空間維度轉(zhuǎn)換至與預(yù)設(shè)的多模態(tài)大模型的空間維度一致，得到處理后的抽象特征；嵌入模塊，用于基于所述處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征；輸出模塊，用于將所述混合抽象特征與所述原始問題輸入至所述預(yù)設(shè)的多模態(tài)大模型，得到所述預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容。

9、本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

10、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

11、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

12、本發(fā)明提供的基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置，通過確定手術(shù)視頻以及與手術(shù)視頻相關(guān)的原始問題，以便于后續(xù)根據(jù)原始問題關(guān)聯(lián)對(duì)應(yīng)的視頻段落；對(duì)手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落；通過預(yù)訓(xùn)練的視頻編碼器對(duì)多個(gè)視頻段落中的每個(gè)視頻段落進(jìn)行編碼處理，得到抽象特征，通過預(yù)設(shè)的多模態(tài)轉(zhuǎn)換器將抽象特征的空間維度轉(zhuǎn)換至與預(yù)設(shè)的多模態(tài)大模型的空間維度一致，得到處理后的抽象特征；基于處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征；將混合抽象特征與原始問題輸入至預(yù)設(shè)的多模態(tài)大模型，得到預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容，由此，結(jié)合了視頻編碼器與多模態(tài)大模型，能夠在解析手術(shù)視頻的同時(shí)，支持基于自然語言的多任務(wù)問答；通過此種方式，可以直接用自然語言查詢模型，從而獲取關(guān)于手術(shù)進(jìn)展的實(shí)時(shí)反饋和詳細(xì)解析，大大增強(qiáng)了模型的交互性和多功能性。

技術(shù)特征：

1.一種基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，在所述確定手術(shù)視頻以及與所述手術(shù)視頻相關(guān)的原始問題之前，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，所述對(duì)預(yù)設(shè)的視頻編碼器進(jìn)行訓(xùn)練，得到預(yù)訓(xùn)練的視頻編碼器，包括：

4.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，所述對(duì)所述手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落，包括：

5.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，所述基于所述處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征，包括：

6.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的手術(shù)視頻處理方法，其特征在于，所述將所述混合抽象特征與所述原始問題輸入至所述預(yù)設(shè)的多模態(tài)大模型，得到所述預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容，包括：

7.一種基于多模態(tài)大模型的手術(shù)視頻處理裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于多模態(tài)大模型的手術(shù)視頻處理方法。

技術(shù)總結(jié)
本發(fā)明提供一種基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置，其中，上述方法包括：確定手術(shù)視頻以及與手術(shù)視頻相關(guān)的原始問題；對(duì)手術(shù)視頻進(jìn)行拆分，得到固定幀數(shù)的多個(gè)視頻段落；通過預(yù)訓(xùn)練的視頻編碼器對(duì)多個(gè)視頻段落中的每個(gè)視頻段落進(jìn)行編碼處理，得到抽象特征；通過預(yù)設(shè)的多模態(tài)轉(zhuǎn)換器將抽象特征的空間維度轉(zhuǎn)換至與預(yù)設(shè)的多模態(tài)大模型的空間維度一致，得到處理后的抽象特征；基于處理后的抽象特征與文字輔助描述進(jìn)行交叉嵌入，得到混合抽象特征；將混合抽象特征與原始問題輸入至預(yù)設(shè)的多模態(tài)大模型，得到預(yù)設(shè)的多模態(tài)大模型輸出的文字回答內(nèi)容。通過本發(fā)明能夠增強(qiáng)模型的交互性和靈活性。

技術(shù)研發(fā)人員：陳陣,吳錦林,駱行健,劉宏斌,王金橋,雷震
受保護(hù)的技術(shù)使用者：中國(guó)科學(xué)院香港創(chuàng)新研究院人工智能與機(jī)器人創(chuàng)新中心
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳陣,吳錦林,駱行健,劉宏斌,王金橋,雷震
技術(shù)所有人：中國(guó)科學(xué)院香港創(chuàng)新研究院人工智能與機(jī)器人創(chuàng)新中心
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于多模態(tài)大模型的手術(shù)視頻處理方法及裝置