一種人機交互的學(xué)習(xí)方法及裝置、用戶終端與流程

文檔序號：12362304閱讀：222來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人機交互技術(shù)領(lǐng)域，具體涉及一種人機交互的學(xué)習(xí)方法及裝置、用戶終端。

背景技術(shù)：

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，市場上出現(xiàn)了大量的學(xué)習(xí)類用戶終端，如點讀機等，這類用戶終端能夠通過動漫點讀的方式支持視頻動畫的播放，進而使用戶進行語言學(xué)習(xí)，例如，用戶可以手動點擊用戶終端上的播放圖標(biāo)來控制用戶終端播放相應(yīng)的視頻動畫。在實踐中發(fā)現(xiàn)，當(dāng)前的用戶終端只能夠使用戶通過手與用戶終端的屏幕進行交互，學(xué)習(xí)方式比較單一，降低了用戶的學(xué)習(xí)效果以及學(xué)習(xí)積極性，進而降低了用戶的粘稠度。

技術(shù)實現(xiàn)要素：

本發(fā)明實施例公開了一種人機交互的學(xué)習(xí)方法及裝置、用戶終端，能夠提高用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高用戶的粘稠度。

本發(fā)明實施例第一方面公開了一種人機交互的學(xué)習(xí)方法，所述方法包括：

檢測用戶輸入的配音指令，并根據(jù)所述配音指令輸出配音操作界面，所述配音操作界面輸出有待配音視頻；

當(dāng)檢測到針對所述待配音視頻的播放指令時，根據(jù)所述播放指令播放預(yù)先確定出的所述待配音視頻的第一視頻片段；

當(dāng)檢測到針對所述第一視頻片段的錄音指令時，根據(jù)所述錄音指令獲取用戶輸入的語音信息，將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段，并播放所述第二視頻片段。

作為一種可選的實施方式，在本發(fā)明實施例第一方面中，所述當(dāng)檢測到針對所述第一視頻片段的錄音指令時，根據(jù)所述錄音指令獲取用戶輸入的語音信息，包括：

當(dāng)檢測到針對所述第一視頻片段的錄音指令時，根據(jù)所述錄音指令播放所述第一視頻片段；

在播放所述第一視頻片段的過程中且需要用戶輸入語音信息時，對所述第一視頻片段執(zhí)行語音消音操作，輸出語音輸入提示消息，并獲取用戶輸入的語音信息。

作為一種可選的實施方式，在本發(fā)明實施例第一方面中，所述根據(jù)所述錄音指令獲取用戶輸入的語音信息之后，所述將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段之前，所述方法還包括：

提取所述第一視頻片段中語音信息的第一特征參數(shù)以及所述用戶輸入的語音信息的第二特征參數(shù)；

判斷所述第二特征參數(shù)是否與所述第一特征參數(shù)相匹配，當(dāng)所述第二特征參數(shù)與所述第一特征參數(shù)相匹配時，觸發(fā)執(zhí)行所述將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段的操作。

作為一種可選的實施方式，在本發(fā)明實施例第一方面中，所述當(dāng)檢測到針對所述待配音視頻的播放指令時，根據(jù)所述播放指令播放預(yù)先確定出的所述待配音視頻的第一視頻片段之前，所述方法還包括：

根據(jù)所述待配音視頻的音軌確定所述待配音視頻中的語音信息段，并根據(jù)所述語音信息段將所述待配音視頻劃分成多個視頻片段；

將用戶從所述多個視頻片段中選擇的其中一個視頻片段確定為第一視頻片段。

確定所述待配音視頻中能夠輸出語音信息的多個虛擬角色；

輸出所述多個虛擬角色供用戶選擇，并將用戶從輸出的所述多個虛擬角色中選擇的其中一個虛擬角色確定為用戶需要配音的虛擬角色；

從所述待配音視頻中確定出所述其中一個虛擬角色輸出語音信息的多個視頻片段，并將所述多個視頻片段中最早出現(xiàn)在所述待配音視頻中的視頻片段確定為第一視頻片段。

本發(fā)明實施例第二方面公開了一種人機交互的學(xué)習(xí)裝置，所述裝置包括檢測單元、輸出單元、播放單元、獲取單元以及加載單元，其中：

所述檢測單元，用于檢測用戶輸入的配音指令；

所述輸出單元，用于根據(jù)所述配音指令輸出配音操作界面，所述配音操作界面輸出有待配音視頻；

所述播放單元，用于當(dāng)檢測到針對所述待配音視頻的播放指令時，根據(jù)所述播放指令播放預(yù)先確定出的所述待配音視頻的第一視頻片段；

所述獲取單元，用于當(dāng)檢測到針對所述第一視頻片段的錄音指令時，根據(jù)所述錄音指令獲取用戶輸入的語音信息；

所述加載單元，用于將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段；

所述播放單元，還用于播放所述第二視頻片段。

作為一種可選的實施方式，在本發(fā)明實施例第二方面中，所述獲取單元包括播放子單元、消音子單元、輸出子單元以及獲取子單元，其中：

所述播放子單元，用于當(dāng)檢測到針對所述第一視頻片段的錄音指令時，根據(jù)所述錄音指令播放所述第一視頻片段；

所述消音子單元，用于在播放所述第一視頻片段的過程中且需要用戶輸入語音信息時，對所述第一視頻片段執(zhí)行語音消音操作；

所述輸出子單元，用于輸出語音輸入提示消息；

所述獲取子單元，用于獲取用戶輸入的語音信息。

作為一種可選的實施方式，在本發(fā)明實施例第二方面中，所述裝置還包括提取單元以及判斷單元，其中：

所述提取單元，用于在所述獲取單元根據(jù)所述錄音指令獲取用戶輸入的語音信息之后以及在所述加載單元將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段之前，提取所述第一視頻片段中語音信息的第一特征參數(shù)以及所述用戶輸入的語音信息的第二特征參數(shù)；

所述判斷單元，用于判斷所述第二特征參數(shù)是否與所述第一特征參數(shù)相匹配，當(dāng)所述第二特征參數(shù)與所述第一特征參數(shù)相匹配時，觸發(fā)所述加載單元執(zhí)行所述將所述用戶輸入的語音信息加載到所述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段的操作。

作為一種可選的實施方式，在本發(fā)明實施例第二方面中，所述裝置還包括第一確定單元以及劃分單元，其中：

所述第一確定單元，用于在所述播放單元根據(jù)所述播放指令播放預(yù)先確定出的所述待配音視頻的第一視頻片段之前，根據(jù)所述待配音視頻的音軌確定所述待配音視頻中的語音信息段；

所述劃分單元，用于根據(jù)所述語音信息段將所述待配音視頻劃分成多個視頻片段；

所述第一確定單元，還用于將用戶從所述多個視頻片段中選擇的其中一個視頻片段確定為所述第一視頻片段。

作為一種可選的實施方式，在本發(fā)明實施例第二方面中，所述裝置還包括第二確定單元，其中：

所述第二確定單元，用于在所述播放單元根據(jù)所述播放指令播放預(yù)先確定出的所述待配音視頻的第一視頻片段之前，確定所述待配音視頻中能夠輸出語音信息的多個虛擬角色；

所述輸出單元，還用于輸出所述多個虛擬角色供用戶選擇；

所述第二確定單元，還用于將用戶從輸出的所述多個虛擬角色中選擇的其中一個虛擬角色確定為用戶需要配音的虛擬角色，從所述待配音視頻中確定出所述其中一個虛擬角色輸出語音信息的多個視頻片段，并將所述多個視頻片段中最早出現(xiàn)在所述待配音視頻中的視頻片段確定為所述第一視頻片段。

本發(fā)明實施例第三方面公開了一種用戶終端，所述用戶終端包括本發(fā)明實施例第二方面公開的人機交互的學(xué)習(xí)裝置。

與現(xiàn)有技術(shù)相比，本發(fā)明實施例具有以下有益效果：

本發(fā)明實施例中，檢測用戶輸入的配音指令，并根據(jù)該配音指令，輸出配音操作界面，該配音操作界面輸出有待配音視頻，當(dāng)檢測到針對該待配音視頻的播放指令時，根據(jù)該播放指令播放預(yù)先確定出的該待配音視頻的第一視頻片段，當(dāng)檢測到針對該第一視頻片段的錄音指令時，根據(jù)該錄音指令獲取用戶輸入的語音信息，將獲取到的語音信息加載到該第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段，并播放該第二視頻片段?？梢姡瑢嵤┍景l(fā)明實施例能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實施例公開的一種人機交互的學(xué)習(xí)方法的流程示意圖；

圖2是本發(fā)明實施例公開的另一種人機交互的學(xué)習(xí)方法的流程示意圖；

圖3是本發(fā)明實施例公開的一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖；

圖4是本發(fā)明實施例公開的另一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖；

圖5是本發(fā)明實施例公開的又一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖；

圖6是本發(fā)明實施例公開的又一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖；

圖7是本發(fā)明實施例公開的一種用戶終端的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅是本發(fā)明一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

本發(fā)明實施例公開了一種人機交互的學(xué)習(xí)方法及裝置、用戶終端，能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。以下分別進行詳細(xì)說明。

實施例一

請參閱圖1，圖1是本發(fā)明實施例公開的一種人機交互的學(xué)習(xí)方法的流程示意圖。其中，圖1所示的人機交互的學(xué)習(xí)方法可以應(yīng)用于智能手機(Android手機、iOS手機等)、平板電腦、學(xué)習(xí)機、掌上電腦以及移動互聯(lián)網(wǎng)設(shè)備(Mobile Internet Devices，MID)等用戶終端中，本發(fā)明實施例不做限定。如圖1所示，該人機交互的學(xué)習(xí)方法可以包括以下操作：

101、用戶終端檢測用戶輸入的配音指令，并根據(jù)該配音指令輸出配音操作界面，該配音操作界面輸出有待配音視頻。

本發(fā)明實施例中，當(dāng)用戶終端根據(jù)用戶的學(xué)習(xí)需求播放視頻時，用戶終端在視頻播放界面播放視頻的同時輸出配音操作圖標(biāo)，用戶終端可以通過檢測用戶針對該配音操作圖標(biāo)的觸摸操作或點擊操作來檢測用戶輸入的配音指令，且當(dāng)檢測到用戶輸入的配音指令時，用戶終端當(dāng)前播放的視頻即為待配音視頻。

102、當(dāng)檢測到針對上述待配音視頻的播放指令時，用戶終端根據(jù)該播放指令播放預(yù)先確定出的上述待配音視頻的第一視頻片段。

本發(fā)明實施例中，該第一視頻片段可以是根據(jù)用戶選擇的待配音視頻中的虛擬角色確定的，也可以是根據(jù)上述待配音視頻中的語音信息段決定的，還可以是由用戶設(shè)置的配音時長決定的，本發(fā)明實施例不做限定。

本發(fā)明實施例中，可選的，在播放上述待配音視頻的第一視頻片段的同時，用戶終端可以輸出該第一視頻片段中語音信息的文本信息供用戶參考。

103、當(dāng)檢測到針對上述第一視頻片段的錄音指令時，用戶終端根據(jù)該錄音指令獲取用戶輸入的語音信息。

本發(fā)明實施例中，針對上述第一視頻片段的錄音指令可以是在用戶終端播放完上述第一視頻片段之后檢測到的，也可以是在用戶終端播放上述第一視頻片段的過程中檢測到的，本發(fā)明實施例不做限定。

104、用戶終端將上述用戶輸入的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段，并播放該第二視頻片段。

本發(fā)明實施例中，該第二視頻片段又可以稱為第一視頻片段的配音視頻片段。

在一個可選的實施例中，當(dāng)檢測到針對上述第一視頻片段的錄音指令時，用戶終端根據(jù)該錄音指令獲取用戶輸入的語音信息可以包括：

當(dāng)檢測到針對上述第一視頻片段的錄音指令時，根據(jù)該錄音指令播放該第一視頻片段；

在播放該第一視頻片段的過程中且需要用戶輸入語音信息時，對上述第一視頻片段執(zhí)行語音消音操作，輸出語音輸入提示消息，并獲取用戶輸入的語音信息。

在該可選的實施例中，該語音輸入提示消息用于提示用戶輸入相應(yīng)的語音信息，可選的，該語音輸入提示消息可以包括用戶需要輸入的語音信息的文本信息，其中，該文本信息為上述第一視頻片段中語音信息的文本信息，即用戶終端允許用戶邊觀看上述第一視頻片段邊錄音，這樣更能夠吸引用戶的注意力并達(dá)到很好的配音效果。當(dāng)上述第一視頻片段播放至有語音信息輸出的位置時，用戶終端對即將輸出的上述第一視頻片段中的語音信息執(zhí)行消音操作，提示用戶進行錄音并獲取用戶輸入的語音信息，以完成針對上述第一視頻片段的配音操作，當(dāng)上述第一視頻片段中需要配音的視頻片段播放完畢時，用戶終端恢復(fù)針對上述第一視頻片段的語音信息的輸出。

舉例來說，假設(shè)上述待配音視頻是時長為一分鐘的對話練習(xí)視頻，且第一視頻片段的時長為15秒，以及該第一視頻片段在第5-9秒時會輸出語音信息，當(dāng)檢測到針對該第一視頻片段的錄音指令時，用戶終端從該第一視頻片段的起始播放位置開始正常播放該第一視頻片段，當(dāng)播放至該第一視頻片段的第5秒時，用戶終端對該第一視頻片段在第5秒至第9秒需要輸出的語音信息執(zhí)行消音操作，并在播放至該第一視頻片段的第5秒時或第5秒之前輸出語音輸入提示消息，以便用戶做好錄音準(zhǔn)備，且用戶終端在消音播放該第一視頻片段的第5秒至第9秒的視頻內(nèi)容的同時獲取用戶輸入的語音信息，并將該語音信息加載到第一視頻片段的音軌的第5秒至第9秒的時間軸處，以完成對該第一視頻片段的配音。

需要說明的是，用戶終端在檢測到針對上述第一視頻片段的錄音指令時，也可以直接輸出語音輸入提示消息，該語音輸入提示消息用于提示用戶輸入語音信息，且該語音輸入提示消息包括用戶需要輸入的語音信息的文本信息，以便用戶直接根據(jù)文本信息里的文本內(nèi)容輸入語音信息，當(dāng)獲取到用戶輸入的語音信息之后，用戶終端直接將獲取到的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處，以完成針對上述第一視頻片段的配音。

需要說明的是，用戶終端在獲取用戶輸入的語音信息的同時會對獲取到的語音信息執(zhí)行降噪處理，以減少其它聲音帶來的噪聲干擾，提高了配音的效果。

本發(fā)明實施例中，以上述待配音視頻為動漫視頻為例，當(dāng)用戶終端在播放該動漫視頻時檢測到用戶針對“去配音”操作圖標(biāo)或“配音”操作圖標(biāo)的觸摸操作或點擊操作時，用戶終端跳轉(zhuǎn)至配音操作界面，當(dāng)檢測到用戶點擊播放按鈕時，用戶終端以單句播放的方式播放動漫視頻，同時在配音操作界面輸出與單句語音對應(yīng)的文本，當(dāng)單句播放完畢后且檢測到用戶點擊錄音按鈕時，用戶終端獲取用戶輸入的語音信息，并將獲取到的語音信息加載到音軌的相應(yīng)時間軸處，以完成對該單句語音的配音，在配音完成后，用戶終端可以根據(jù)用戶的需求對配音后的動漫視頻進行播放、重新輸入語音信息或者存儲配音后的動漫視頻等操作，當(dāng)整個動漫視頻配音完畢后，用戶終端可以根據(jù)用戶的需求整體播放配音后的動漫視頻，以供用戶整體觀看自身的配音效果。

可見，實施圖1所描述的人機交互的學(xué)習(xí)方法能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

實施例二

請參閱圖2，圖2是本發(fā)明實施例公開的另一種人機交互的學(xué)習(xí)方法的流程示意圖。其中，圖2所示的人機交互的學(xué)習(xí)方法可以應(yīng)用于智能手機(Android手機、iOS手機等)、平板電腦、學(xué)習(xí)機、掌上電腦以及移動互聯(lián)網(wǎng)設(shè)備(Mobile Internet Devices，MID)等用戶終端中，本發(fā)明實施例不做限定。如圖2所示，該人機交互的學(xué)習(xí)方法可以包括以下操作：

201、檢測用戶輸入的配音指令，并根據(jù)該配音指令輸出配音操作界面，該配音操作界面輸出有待配音視頻。

202、確定上述待配音視頻中的第一視頻片段。

作為一種可選的實施方式，確定上述待配音視頻中的第一視頻片段可以包括：

根據(jù)上述待配音視頻的音軌確定上述待配音視頻中的語音信息段，并根據(jù)確定出的語音信息段將上述待配音視頻劃分成多個視頻片段并輸出供用戶選擇，即一個語音信息段對應(yīng)一個視頻片段；

將用戶從多個視頻片段中選擇的其中一個視頻片段確定為第一視頻片段。

作為另一種可選的實施方式，確定上述待配音視頻中的第一視頻片段也可以包括：

確定上述待配音視頻中能夠輸出語音信息的多個虛擬角色；

輸出該多個虛擬角色供用戶選擇，并將用戶從輸出的該多個虛擬角色中選擇的其中一個虛擬角色確定為用戶需要配音的虛擬角色；

從上述待配音視頻中確定出該其中一個虛擬角色輸出語音信息的多個視頻片段，并將多個視頻片段中最早出現(xiàn)在上述待配音視頻中的視頻片段確定為第一視頻片段，或者將用戶從該多個視頻片段中選擇出的其中一個視頻片段確定為第一視頻片段。

203、當(dāng)檢測到針對上述待配音視頻的播放指令時，根據(jù)該播放指令播放上述第一視頻片段。

204、當(dāng)檢測到針對上述第一視頻片段的錄音指令時，根據(jù)該錄音指令獲取用戶輸入的語音信息。

205、提取上述第一視頻片段中語音信息的第一特征參數(shù)以及上述用戶輸入的語音信息的第二特征參數(shù)。

本發(fā)明實施例中，語音信息的特征參數(shù)(第一特征參數(shù)及第二特征參數(shù))可以包括該語音信息的時長、該語音信息對應(yīng)的文本信息、該語音信息的音調(diào)序列以及該語音信息的語速中的至少一種。

206、判斷上述第二特征參數(shù)是否與上述第一特征參數(shù)相匹配。

本發(fā)明實施例中，當(dāng)步驟206的判斷結(jié)果為是時，確定用戶輸入的語音信息正確并觸發(fā)執(zhí)行步驟207；當(dāng)步驟206的判斷結(jié)果為否時，確定用戶輸入的語音信息錯誤并觸發(fā)執(zhí)行步驟208。

可選的，當(dāng)語音信息的特征參數(shù)包括該語音信息的時長、該語音信息對應(yīng)的文本信息、該語音信息的音調(diào)序列以及該語音信息的語速時，判斷上述第二特征參數(shù)是否與上述第一特征參數(shù)相匹配可以包括：

判斷用戶輸入的語音信息的文本信息是否與第一視頻片段中語音信息的文本信息完全相同，當(dāng)判斷結(jié)果為是時，判斷用戶輸入的語音信息的時長與上述第一視頻片段中語音信息的時長差是否在預(yù)設(shè)時長內(nèi)，當(dāng)時長差在預(yù)設(shè)時長內(nèi)時，判斷用戶輸入的語音信息的音調(diào)序列與上述第一視頻片段中語音信息的音調(diào)序列的匹配率是否大于等于預(yù)設(shè)匹配率，當(dāng)大于等于預(yù)設(shè)匹配率時，判斷用戶輸入的語音信息的語速是否與上述第一視頻片段中語音信息的語速處于相同的語速范圍內(nèi)，當(dāng)處于相同的語速范圍內(nèi)時，確定上述第二特征參數(shù)與上述第一特征參數(shù)相匹配。

207、將上述用戶輸入的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段，并播放該第二視頻片段。

208、提示用戶輸入的語音信息與上述第一視頻片段中的語音信息不匹配，并提示用戶重新輸入語音信息。

本發(fā)明實施例中，在執(zhí)行完畢步驟208之后，可以重新觸發(fā)執(zhí)行步驟204。

可見，實施圖2所描述的人機交互的學(xué)習(xí)方法能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，且能夠保證用戶輸入的語音信息與視頻中的語音信息相匹配，提高了用戶語言學(xué)習(xí)的準(zhǔn)確性，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

實施例三

請參閱圖3，圖3是本發(fā)明實施例公開的一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。其中，圖3所示的人機交互的學(xué)習(xí)裝置300可以安裝在智能手機(Android手機、iOS手機等)、平板電腦、學(xué)習(xí)機、掌上電腦以及移動互聯(lián)網(wǎng)設(shè)備(Mobile Internet Devices，MID)等用戶終端中，本發(fā)明實施例不做限定。如圖3所示，該人機交互的學(xué)習(xí)裝置300可以包括檢測單元301、輸出單元302、播放單元303、獲取單元304以及加載單元305，其中：

檢測單元301用于檢測用戶輸入的配音指令。

輸出單元302用于根據(jù)檢測單元301檢測到的配音指令輸出配音操作界面，該配音操作界面輸出有待配音視頻。

播放單元303用于當(dāng)檢測單元301檢測到針對上述待配音視頻的播放指令時，根據(jù)該播放指令播放預(yù)先確定出的上述待配音視頻的第一視頻片段。

獲取單元304用于當(dāng)檢測單元301檢測到針對上述第一視頻片段的錄音指令時，根據(jù)該錄音指令獲取用戶輸入的語音信息。

加載單元305用于將獲取單元304獲取到的用戶輸入的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段。

播放單元303還用于播放加載單元305得到的上述第二視頻片段。

可見，實施圖3所描述的人機交互的學(xué)習(xí)裝置300能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

在一個可選的實施例中，獲取單元304可以包括播放子單元3041、消音子單元3042、輸出子單元3043以及獲取子單元3044，進一步可選的，該人機交互的學(xué)習(xí)裝置300還可以包括提取單元306以及判斷單元307，此時，該人機交互的學(xué)習(xí)裝置300的結(jié)構(gòu)可以如圖4所示，圖4是本發(fā)明實施例公開的另一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。其中：

播放子單元3041用于當(dāng)檢測單元301檢測到針對上述第一視頻片段的錄音指令時，根據(jù)該錄音指令播放上述第一視頻片段。

消音子單元3042用于在播放子單元3041播放上述第一視頻片段的過程中且需要用戶輸入語音信息時，對上述第一視頻片段執(zhí)行語音消音操作。

本發(fā)明實施例中，消音子單元3042對上述第一視頻片段執(zhí)行語音消音操作的同時觸發(fā)輸出子單元3043以及獲取子單元3044執(zhí)行相應(yīng)的操作。

輸出子單元3043用于輸出語音輸入提示消息，該語音輸入提示消息用于提示用戶輸入相應(yīng)的語音信息，可選的，該語音輸入提示消息可以包括用戶需要輸入的語音信息的文本信息，其中，該文本信息為上述第一視頻片段中語音信息的文本信息。

獲取子單元3044用于在需要用戶輸入語音信息的時間段內(nèi)，獲取用戶輸入的語音信息。

提取單元306用于在獲取單元304根據(jù)上述錄音指令獲取用戶輸入的語音信息之后以及在加載單元305將獲取單元304獲取到的用戶輸入的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段之前，提取上述第一視頻片段中語音信息的第一特征參數(shù)以及上述用戶輸入的語音信息的第二特征參數(shù)。

判斷單元307用于判斷提取單元306提取到的第二特征參數(shù)是否與第一特征參數(shù)相匹配，當(dāng)?shù)诙卣鲄?shù)與第一特征參數(shù)相匹配時，觸發(fā)加載單元305執(zhí)行上述將獲取單元304獲取到的用戶輸入的語音信息加載到上述第一視頻片段的音軌的相應(yīng)時間軸處得到第二視頻片段的操作。

可見，實施圖4所描述的人機交互的學(xué)習(xí)裝置300能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，且能夠保證用戶輸入的語音信息與視頻中的語音信息相匹配，提高了用戶語言學(xué)習(xí)的準(zhǔn)確性，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

在另一個可選的實施例中，該人機交互的學(xué)習(xí)裝置300還可以包括第一確定單元308以及劃分單元309，此時，該人機交互的學(xué)習(xí)裝置300的結(jié)構(gòu)可以如圖5所示，圖5是本發(fā)明實施例公開的又一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。其中：

第一確定單元308用于在播放單元303根據(jù)播放指令播放預(yù)先確定出的上述待配音視頻的第一視頻片段之前，根據(jù)上述待配音視頻的音軌確定待配音視頻中的語音信息段。

劃分單元309用于根據(jù)第一確定單元308確定出的語音信息段將上述待配音視頻劃分成多個視頻片段。

輸出單元302還可以用于輸出劃分單元309劃分得到的多個視頻片段。

第一確定單元308還可以用于將用戶從輸出單元302輸出的上述多個視頻片段中選擇的其中一個視頻片段確定為第一視頻片段。

在又一個可選的實施例中，該人機交互的學(xué)習(xí)裝置300還可以包括第二確定單元310，此時，該人機交互的學(xué)習(xí)裝置300的結(jié)構(gòu)可以如圖6所示，圖6是本發(fā)明實施例公開的又一種人機交互的學(xué)習(xí)裝置的結(jié)構(gòu)示意圖。其中：

第二確定單元310用于在播放單元303根據(jù)播放指令播放預(yù)先確定出的上述待配音視頻的第一視頻片段之前，確定上述待配音視頻中能夠輸出語音信息的多個虛擬角色。

輸出單元302還可以用戶輸出上述多個虛擬角色供用戶選擇。

第二確定單元310還用于將用戶從輸出的上述多個虛擬角色中選擇的其中一個虛擬角色確定為用戶需要配音的虛擬角色，從上述待配音視頻中確定出該其中一個虛擬角色輸出語音信息的多個視頻片段，并將該多個視頻片段中最早出現(xiàn)在上述待配音視頻中的視頻片段確定為第一視頻片段。

可見，實施圖6所描述的人機交互的學(xué)習(xí)裝置300能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，且能夠提供視頻中的虛擬角色供用戶選擇配音，個性化強且趣味性高，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

實施例四

請參閱圖7，圖7是本發(fā)明實施例公開的一種用戶終端的結(jié)構(gòu)示意圖。如圖7所示，該用戶終端可以包括圖3至圖6所描述的任意一個人機交互的學(xué)習(xí)裝置。其中，實施圖7所描述的用戶終端能夠通過在播放視頻時允許用戶模擬視頻對話的方式進行趣味性的觀看學(xué)習(xí)，且能夠保證用戶輸入的語音信息與視頻中的語音信息相匹配以及能夠提供視頻中的虛擬角色供用戶選擇配音，個性化強且趣味性高，提高了用戶語言學(xué)習(xí)的準(zhǔn)確性，增加了用戶與用戶終端間的交互學(xué)習(xí)方式，提高了用戶的學(xué)習(xí)效果及學(xué)習(xí)積極性，進而提高了用戶的粘稠度。

本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，該程序可以存儲于一計算機可讀存儲介質(zhì)中，存儲介質(zhì)包括只讀存儲器(Read-Only Memory，ROM)、隨機存儲器(Random Access Memory，RAM)、可編程只讀存儲器(Programmable Read-only Memory，PROM)、可擦除可編程只讀存儲器(Erasable Programmable Read Only Memory，EPROM)、一次可編程只讀存儲器(One-time Programmable Read-Only Memory，OTPROM)、電子抹除式可復(fù)寫只讀存儲器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只讀光盤(Compact Disc Read-Only Memory，CD-ROM)或其他光盤存儲器、磁盤存儲器、磁帶存儲器、或者能夠用于攜帶或存儲數(shù)據(jù)的計算機可讀的任何其他介質(zhì)。

以上對本發(fā)明實施例公開的一種人機交互的學(xué)習(xí)方法及裝置、用戶終端進行了詳細(xì)介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅小芳;
技術(shù)所有人：廣東小天才科技有限公司;
我是此專利的發(fā)明人

上一篇：一種數(shù)控輪胎模排氣孔加工機床的制作方法與工藝
上一篇：一種虛擬現(xiàn)實視景的切換方法及終端與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種人機交互的學(xué)習(xí)方法及裝置、用戶終端與流程

一種人機交互的學(xué)習(xí)方法及裝置、用戶終端與流程