一種多媒體交互教學(xué)系統(tǒng)及方法

文檔序號：10688392閱讀：867來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

一種多媒體交互教學(xué)系統(tǒng)及方法
【專利摘要】一種多媒體交互教學(xué)系統(tǒng)及方法，所述系統(tǒng)包括教學(xué)控制器、學(xué)習(xí)終端、錄制設(shè)備、語音采集設(shè)備和存儲設(shè)備，所述錄制設(shè)備，用于獲取實時圖像和動作數(shù)據(jù)；所述語音采集設(shè)備，用于采集課堂實時語音信息；所述教學(xué)控制器，用于將所述錄制設(shè)備和所述語音采集設(shè)備采集的教學(xué)信息發(fā)送給所述學(xué)習(xí)終端；所述存儲設(shè)備，用于將所述錄制設(shè)備和所述語音采集設(shè)備采集的教學(xué)信息存儲起來，用戶可以通過網(wǎng)絡(luò)點播回顧課堂教學(xué)過程。本發(fā)明圍繞無線遙控裝置、高拍儀以及采用語音識別聚類技術(shù)對說話人分割并且單獨存儲等幾個方面及其延伸方面的改進(jìn)，降低了教學(xué)成本、提高了靈活性、交互性以及教學(xué)效果。
【專利說明】
_種多媒體交互教學(xué)系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及多媒體教學(xué)領(lǐng)域，尤其涉及一種多媒體交互教學(xué)系統(tǒng)及方法。
【背景技術(shù)】
[0002] 傳統(tǒng)的多媒體教室大都采用投影機(jī)、視頻展示臺、計算機(jī)、電動屏幕、功放、音箱和電動窗簾等較現(xiàn)代化的教學(xué)設(shè)備，實現(xiàn)教學(xué)、學(xué)術(shù)交流和講座的目的，能夠基本滿足現(xiàn)有的多媒體教學(xué)的需求。但是傳統(tǒng)的多媒體教室、投影教室在使用過程中存在著一些突出問題，主要表現(xiàn)在：
[0003] 首先，傳統(tǒng)的多媒體教室設(shè)備由投影機(jī)、計算機(jī)、電子白板、音響等組成，繁雜的線路使得設(shè)備經(jīng)常出故障，為后期的維護(hù)增加了巨大成本。
[0004] 其次，在傳統(tǒng)的多媒體教室中，眾多設(shè)備都安裝在教室講臺附近，而此處也是學(xué)生經(jīng)?；顒拥膮^(qū)域，設(shè)備損壞的概率很高，還容易對好動的學(xué)生造成人身傷害。
[0005] 再次，傳統(tǒng)的多媒體教室一般都是由老師一個人講解為主，多數(shù)時間內(nèi)學(xué)生都處于被動接受狀態(tài)，無法實現(xiàn)相互交流式學(xué)習(xí)，尤其是物理、化學(xué)等情景教學(xué)，不能替代真實參與過程，教師只能按既定的備課方案進(jìn)行，課堂上靈活性差，教師的發(fā)揮余地較小，因而降低了教學(xué)效果。
[0006] 為了解決上述問題，現(xiàn)有技術(shù)中已經(jīng)公開了一些基于無線網(wǎng)絡(luò)的教學(xué)平臺系統(tǒng)，這些系統(tǒng)一定程度上解決了設(shè)備多連接復(fù)雜和缺少交互的多媒體教室存在的問題，比如：
[0007] CN101154320A(【公開日】2008年4月2日）公開了一種基于局域網(wǎng)絡(luò)電子課堂互動教學(xué)平臺系統(tǒng)，該系統(tǒng)包括課堂教學(xué)資源庫、課堂教學(xué)平臺、課堂教學(xué)界面、課堂教學(xué)功能模塊、教師備課系統(tǒng)、資源共享組成，由課堂教學(xué)資源庫向課堂教學(xué)平臺提供教學(xué)資源，教師和學(xué)生通過登陸課堂教學(xué)平臺進(jìn)入各自的課堂教學(xué)界面，課堂教學(xué)界面分為:教師界面、學(xué) 生界面和演示界面;教師通過教師教學(xué)界面中的教學(xué)模塊、學(xué)生管理、輔助功能三個模塊進(jìn) 行教學(xué)管理。教師通過教師備課系統(tǒng)新增或編輯教學(xué)資源并確定教學(xué)方案。課堂教學(xué)資源庫通過互聯(lián)網(wǎng)可與網(wǎng)絡(luò)資源進(jìn)行資源共享，家長通過資源共享獲得學(xué)生學(xué)習(xí)記錄和教師教學(xué)記錄。
[0008] CN103927909A(【公開日】2014年7月16日）公開了一種觸摸式移動終端的交互式教學(xué) 系統(tǒng)，包括教師終端、教室電腦、多個學(xué)習(xí)終端，所述教師終端、教室電腦、多個學(xué)習(xí)終端通過局域網(wǎng)絡(luò)互聯(lián)組成交互式教學(xué)系統(tǒng)，其中教師終端、多個學(xué)習(xí)終端通過無線方式接入局域網(wǎng)絡(luò)，所述教室電腦通過有線或無線方式接入局域網(wǎng)絡(luò)，所述教室電腦為交互式教學(xué)系統(tǒng)的服務(wù)器，所述教室電腦與教師終端之間通過私有socket通信協(xié)議、公有RFB協(xié)議、視頻流互聯(lián);所述多個學(xué)習(xí)終端與教室電腦之間通過私有socket通信協(xié)議互聯(lián)。
[0009] 上述交互式教學(xué)系統(tǒng)還存在這樣的問題，就是在所述無線網(wǎng)絡(luò)平臺中的教師和學(xué) 生之間的交互還不能達(dá)到無障礙的程度，系統(tǒng)還不能自動識別和記錄教師與學(xué)生的語音交互信息，事后也不能復(fù)習(xí)自己在課堂上的語音記錄?，F(xiàn)有的教學(xué)系統(tǒng)首先要配備專屬于個人的教學(xué)終端，其次如果學(xué)生要通過學(xué)習(xí)終端進(jìn)行說話，還要可以的對準(zhǔn)麥克風(fēng)，或者啟動麥克風(fēng)，才能進(jìn)行語音交流，不能暢快與老師交流?，F(xiàn)有技術(shù)中比如CN105306861A公開了一種網(wǎng)絡(luò)教學(xué)錄播方法，其中采用三種數(shù)據(jù)流分別存儲的方式，但是其中語音存儲方面還是存在這樣的問題，即這樣的語音錄制功能完全按照實際發(fā)生的情況錄制，沒有對說話者的身份進(jìn)行識別，沒有重構(gòu)說話者的語音，致使如果錄制環(huán)境噪雜，那么錄制的信息同樣嘈雜，幾乎不能有效的再現(xiàn)場景。這樣不能提供個性化的服務(wù)，比如學(xué)生只想聽自己說了什么或者老師說了什么，不想聽別人說了什么，但是在回放時，卻無法進(jìn)行選擇。
[0010]此外，現(xiàn)有教學(xué)平臺還存在一個問題，就是教師終端通常是固定的，教師需要固定在講臺或者教師終端的設(shè)置地進(jìn)行交流，缺少與學(xué)生的深入互動，不能像傳統(tǒng)的教學(xué)那樣，教師可以到學(xué)生身邊，更加活潑的互動。對此，現(xiàn)有技術(shù)公開了無線控制裝置，比如：
[0011] CN105185176A(【公開日】2015年12月23日）一種基于信息化教學(xué)的無線手持設(shè)備，無線手持設(shè)備通過藍(lán)牙技術(shù)或2.4G技術(shù)與教學(xué)設(shè)備無線連接，所述教學(xué)設(shè)備為計算機(jī)、電子白板或液晶觸摸屏終端，其特征在于，所述無線手持設(shè)備包括手持設(shè)備本體，所述手持設(shè)備本體的上部設(shè)置有麥克風(fēng)，手持設(shè)備本體的前面板設(shè)置有支持多點觸控操作的觸摸屏，觸摸屏的下方是左、右兩個物理按鍵，手持設(shè)備本體的下部設(shè)置有容納USB無線接收器的容納槽，手持設(shè)備可以無線傳輸多點觸摸信號、鼠標(biāo)操作信號、模擬鍵盤觸發(fā)信號，從而無線遙控教學(xué)設(shè)備中的電子黑板、電子教桿、電子粉筆、直線工具、圖形工具、黑板擦、放大鏡、工具欄、上翻頁、下翻頁、保存課件、退出課堂和插入圖片或視頻、插入文字、插入導(dǎo)學(xué)功能，實現(xiàn) 教學(xué)動作，并可以將教師的課堂講解及學(xué)生的語音進(jìn)行采集和傳輸，進(jìn)行課堂中語音的錄制。
[0012] 現(xiàn)有的藍(lán)牙無線遙控裝置不能實現(xiàn)語音的靈活控制，主要還是集成鍵盤鼠標(biāo)等基本操作裝置以無線控制的方式實現(xiàn)，其功能還有改進(jìn)的空間。

【發(fā)明內(nèi)容】

[0013] 針對現(xiàn)有技術(shù)的不足，本發(fā)明要解決的技術(shù)問題在于，提供一種多媒體交互教學(xué) 系統(tǒng)及方法，主要改進(jìn)了無線遙控裝置及其操作方法、高拍儀機(jī)構(gòu)及其操作方法、以及利用語音識別聚類技術(shù)，對獲得的教學(xué)語音信息進(jìn)行分割聚類識別出相應(yīng)的說話人并且單獨存儲這些語音信息，由此解決了現(xiàn)有技術(shù)中存在的一些問題，通過本發(fā)明無線多媒體信息化交互教學(xué)的方式來降低教學(xué)成本、提高教學(xué)靈活性、交互性以及提高教學(xué)效果。
[0014] 本發(fā)明提供一種多媒體交互教學(xué)系統(tǒng)，包括教學(xué)控制器100、學(xué)習(xí)終端103、錄制設(shè) 備、語音采集設(shè)備106和存儲設(shè)備107;
[0015] 所述錄制設(shè)備，用于獲取實時圖像和動作數(shù)據(jù)；
[0016] 所述語音采集設(shè)備106,用于采集課堂實時語音信息；
[0017] 所述教學(xué)控制器100,用于將所述錄制設(shè)備和所述語音采集設(shè)備106采集的教學(xué)信息發(fā)送給所述學(xué)習(xí)終端103和/或額外設(shè)置的用于集中展示的顯示屏102;
[0018] 所述存儲設(shè)備107,用于將所述錄制設(shè)備和所述語音采集設(shè)備采集的教學(xué)信息存儲起來，用戶可以通過網(wǎng)絡(luò)點播回顧課堂教學(xué)過程。
[0019] 所述教學(xué)控制器100包括說話人分割模塊、說話人聚類模塊、聲紋識別模塊，分別用于對采集的所述語音信息進(jìn)行說話人分割、說話人聚類和聲紋識別處理，從而提取每個說話人的語音信息，并且根據(jù)訓(xùn)練得到的聲紋模板識別出說話人的身份。
[0020] 所述提取的語音信息添加說話人身份標(biāo)識和系統(tǒng)統(tǒng)一生成的時間戳標(biāo)識，形成以說話人身份為標(biāo)識并且具有時間戳的一系列獨立的語音信息，并且被保存起來。
[0021] 用戶在通過網(wǎng)絡(luò)點播回顧課堂時，先通過對說話人的選擇來選擇自己想要聽到的語音，再進(jìn)行播放。
[0022] 所述說話人分割用于找到說話人切換的轉(zhuǎn)折點，包括單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn) 折點的檢測；
[0023] 所述單一轉(zhuǎn)折點檢測包括基于距離的順序檢測、交叉檢測和轉(zhuǎn)折點確認(rèn)；
[0024] 所述多個轉(zhuǎn)折點檢測用于找到整段語音中的多個說話人轉(zhuǎn)折點，在所述單一轉(zhuǎn)折點檢測的基礎(chǔ)上完成，步驟如下：
[0025] 步驟1):首先設(shè)定一較大的時間窗，長度為5-15秒，在窗內(nèi)作單轉(zhuǎn)折點檢測；
[0026] 步驟2):若在上一步驟沒找到說話人轉(zhuǎn)折點，則將窗向右移動1-3秒，重復(fù)步驟1，直到找到說話人轉(zhuǎn)折點，或者語音段結(jié)束；
[0027] 步驟3):若找到說話人轉(zhuǎn)折點，則記錄此轉(zhuǎn)折點，并將窗口起始點設(shè)到此轉(zhuǎn)折點上，重復(fù)步驟1)-步驟2)。
[0028]所述轉(zhuǎn)折點的確認(rèn)公式：
[0029]
[0030] sign( ·)為符號函數(shù)，Clcrciss為兩條距離曲線交叉處的距離值;所述距離曲線是指，取語音最開始時的語音段1-3秒作為模板Template窗口，之后將此模板和每個滑動片段(長度和模板的相同）作距離計算，本發(fā)明采用"廣義似然比"作為度量的距離，可獲得距離曲線；
[0031] 其中，通過利用說話人的距離曲線起始到交叉點的這段區(qū)域，公式中的（di)就是這一端區(qū)域內(nèi)計算出來的距離，若最后結(jié)果為正，則接受此點為說話人轉(zhuǎn)折點；若為負(fù)，則拒絕此點為說話人轉(zhuǎn)折點。
[0032] 所述錄制設(shè)備包括教學(xué)高拍儀104和電子白板105，
[0033] 所述教學(xué)高拍儀104用于獲取實時圖像并輸出至所述教學(xué)控制器100，
[0034] 所述電子白板105用于獲取動作數(shù)據(jù)并輸出至所述教學(xué)控制器100。
[0035]所述教學(xué)高拍儀104包括工作臺1040和無線傳輸模塊1045，
[0036]所述工作臺1040兩側(cè)分別設(shè)有臂燈1041，
[0037]所述無線傳輸模塊1045的發(fā)射天線設(shè)置在至少一個所述臂燈1041的非發(fā)光的側(cè) 部上。
[0038] 還包括無線遙控器101，用于實現(xiàn)對所述教學(xué)控制器100的無線控制，
[0039]所述無線遙控器101包括觸摸屏1012、麥克風(fēng)1010、外置話筒插孔1011和無線發(fā)射模塊1013。
[0040] 所述無線遙控器101還包括語音識別模塊1014、指令存儲模塊1015、和指令匹配模塊 1016，
[0041] 所述語音識別模塊1014用于識別用戶輸入的語音信息，如果檢測到設(shè)定的動作字符，提取所述動作字符之后的語音中包含的操作信息而不把這段語音傳輸?shù)剿鼋虒W(xué)控制器100,如果沒有檢測到設(shè)定的動作字符，那么將語音信息同步傳輸?shù)剿鼋虒W(xué)控制器100;
[0042] 所述指令存儲模塊1015用于存儲可以控制所述教學(xué)控制器100的指令信息；
[0043] 所述指令匹配模塊1016用于將所述操作信息與所述指令存儲模塊1015存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的指令操作。
[0044]所述觸摸屏1012用于，
[0045] 模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；
[0046] 模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作；
[0047] 獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形。
[0048] 所述無線遙控器101記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏1012上進(jìn)行顯示，將常用的指令顯示在觸摸屏1012上的固定位置，用戶點擊操作重復(fù) 這樣的指令動作。
[0049] 所述無線遙控器101還包括外置話筒插孔1011，設(shè)置在所述無線遙控器101的底部，用于通過外部專用麥克風(fēng)獲取語音信息
[0050] 所述教學(xué)控制器100對所述無線遙控器101中的存儲指令定期更新。
[0051] 通過所述無線遙控器101傳輸?shù)剿鼋虒W(xué)控制器100的語音信息同樣保存到所述存儲設(shè)備107;
[0052]所述教學(xué)控制器100還包括說話人去重模塊，用于根據(jù)聲紋模型去除來自所述無線遙控器101和所述語音采集設(shè)備106的重復(fù)語音。
[0053]本發(fā)明還提供一種多媒體交互教學(xué)方法，包括以下步驟：
[0054]步驟Sl，開啟教學(xué)控制器100,所述錄制設(shè)備、學(xué)習(xí)終端103、語音采集設(shè)備106和存儲設(shè)備107分別與教學(xué)控制器100建立連接；
[0055]步驟S2,所述錄制設(shè)備獲取實時圖像和動作數(shù)據(jù)并傳輸至教學(xué)控制器100,所述語音采集設(shè)備106獲取課堂語音信息并傳輸至教學(xué)控制器100;
[0056]步驟S3,教學(xué)控制器100將收到的實時圖像、動作數(shù)據(jù)和語音信息進(jìn)行處理之后，存儲到存儲設(shè)備107上，所述存儲設(shè)備107為本地存儲器或網(wǎng)絡(luò)云端存儲器以及他們的任意組合；
[0057]步驟S4,教學(xué)控制器100將收到的實時圖像、動作數(shù)據(jù)和語音信息之一或任意組合的教學(xué)數(shù)據(jù)發(fā)送至學(xué)習(xí)終端103和/或額外設(shè)置的用于集中展示的顯示屏102;
[0058]步驟S5,學(xué)習(xí)終端103接收和播放由教學(xué)控制器100發(fā)送的教學(xué)數(shù)據(jù)；
[0059 ]步驟S6，通過網(wǎng)絡(luò)訪問教學(xué)控制器100，并獲得存儲設(shè)備107上存儲的實時圖像、動作數(shù)據(jù)、語音信息的至少一種，由此實現(xiàn)課堂教學(xué)過程回放。
[0060]在所述步驟S3中，教學(xué)控制器100對收到的教學(xué)數(shù)據(jù)進(jìn)行處理的過程包括：
[0061]說話人分割、說話人聚類、聲紋識別，分別用于對采集的所述語音信息進(jìn)行說話人分割、說話人聚類和聲紋識別處理，從而提取每個說話人的語音信息，并且根據(jù)訓(xùn)練得到的聲紋模板識別出說話人的身份。
[0062] 所述提取的語音信息添加說話人身份標(biāo)識和系統(tǒng)統(tǒng)一生成的時間戳標(biāo)識，形成以說話人身份為標(biāo)識并且具有時間戳的一系列獨立的語音信息，并且被保存起來。
[0063] 在步驟S6中，
[0064] 用戶在通過網(wǎng)絡(luò)點播回顧課堂時，先通過對說話人的選擇來選擇自己想要聽到的語音，再進(jìn)行播放。
[0065] 所述說話人分割用于找到說話人切換的轉(zhuǎn)折點，包括單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn) 折點的檢測；
[0066]所述單一轉(zhuǎn)折點檢測包括基于距離的順序檢測、交叉檢測和轉(zhuǎn)折點確認(rèn)；
[0067] 所述多個轉(zhuǎn)折點檢測用于找到整段語音中的多個說話人轉(zhuǎn)折點，在所述單一轉(zhuǎn)折點檢測的基礎(chǔ)上完成，步驟如下：
[0068] 步驟1):首先設(shè)定一較大的時間窗，長度為5-15秒，在窗內(nèi)作單轉(zhuǎn)折點檢測；
[0069] 步驟2):若在上一步驟沒找到說話人轉(zhuǎn)折點，則將窗向右移動1-3秒，重復(fù)步驟1，直到找到說話人轉(zhuǎn)折點，或者語音段結(jié)束；
[0070]步驟3):若找到說話人轉(zhuǎn)折點，則記錄此轉(zhuǎn)折點，并將窗口起始點設(shè)到此轉(zhuǎn)折點上，重復(fù)步驟1)-步驟2)。
[0071 ]所述轉(zhuǎn)折點的確認(rèn)公式：
[0072]
[0073]為符號函數(shù)，dcrQSS為兩條距離曲線交叉處的距離值;所述距離曲線是指，取語音最開始時的語音段（1-3秒)作為模板Template)窗口，之后將此模板和每個滑動片段(長度和模板的相同）
[0074]作距離計算，本發(fā)明采用"廣義似然比"作為度量的距離，可獲得距離曲線；
[0075] 其中，通過利用說話人的距離曲線起始到交叉點的這段區(qū)域，公式中的d(i)就是這一端區(qū)域內(nèi)計算出來的距離，若最后結(jié)果為正，則接受此點為說話人轉(zhuǎn)折點；若為負(fù)，則拒絕此點為說話人轉(zhuǎn)折點。
[0076] 所述錄制設(shè)備包括教學(xué)高拍儀104和電子白板105，
[0077] 所述教學(xué)高拍儀104用于獲取實時圖像并輸出至所述教學(xué)控制器100，
[0078] 所述電子白板105用于獲取動作數(shù)據(jù)并輸出至所述教學(xué)控制器100。
[0079]所述教學(xué)高拍儀104包括工作臺1040和無線傳輸模塊1045，
[0080]所述工作臺1040兩側(cè)分別設(shè)有臂燈1041，
[0081]所述無線傳輸模塊1045的發(fā)射天線設(shè)置在至少一個所述臂燈1041的非發(fā)光的側(cè) 部上。
[0082] 還包括無線遙控器101，用于實現(xiàn)對所述教學(xué)控制器100的無線控制，
[0083]所述無線遙控器101包括觸摸屏1012、麥克風(fēng)1010、外置話筒插孔1011和無線發(fā)射模塊1013。
[0084] 所述無線遙控器101還包括語音識別模塊1014、指令存儲模塊1015、和指令匹配模塊 1016，
[0085] 所述語音識別模塊1014用于識別用戶輸入的語音信息，如果檢測到設(shè)定的動作字符，提取所述動作字符之后的語音中包含的操作信息而不把這段語音傳輸?shù)剿鼋虒W(xué)控制器100,如果沒有檢測到設(shè)定的動作字符，那么將語音信息同步傳輸?shù)剿鼋虒W(xué)控制器100;
[0086] 所述指令存儲模塊1015用于存儲可以控制所述教學(xué)控制器100的指令信息；
[0087] 所述指令匹配模塊1016用于將所述操作信息與所述指令存儲模塊1015存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的指令操作。
[0088]所述觸摸屏1012用于，
[0089] 模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；
[0090] 模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作;和/或
[0091] 獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形。
[0092] 所述無線遙控器101記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏1012上進(jìn)行顯示，將常用的指令顯示在觸摸屏1012上的固定位置，用戶點擊操作重復(fù) 這樣的指令動作。
[0093] 所述無線遙控器101還包括外置話筒插孔1011，設(shè)置在所述無線遙控器101的底部，用于通過外部專用麥克風(fēng)獲取語音信息
[0094] 所述教學(xué)控制器100對所述無線遙控器101中的存儲指令定期更新。
[0095] 通過所述無線遙控器101傳輸?shù)剿鼋虒W(xué)控制器100的語音信息同樣保存到所述存儲設(shè)備107;
[0096] 所述教學(xué)控制器100還包括說話人去重模塊，用于根據(jù)聲紋模型去除來自所述無線遙控器101和所述語音采集設(shè)備106的重復(fù)語音。
[0097]在步驟S5中，所述學(xué)習(xí)終端103接收和播放教學(xué)數(shù)據(jù)過程，包括：
[0098] 步驟S41，用戶通過身份驗證后登陸學(xué)習(xí)終端103;
[0099]步驟S42,學(xué)習(xí)終端103接收教學(xué)控制器100發(fā)送的教學(xué)數(shù)據(jù)；
[0100]步驟S43,學(xué)習(xí)終端103對教學(xué)數(shù)據(jù)解析而獲得實時圖像、動作數(shù)據(jù)和語音信息，并在學(xué)習(xí)終端103上進(jìn)行顯示，比如基于DirectX方式對接收到的實時圖像解析并顯示；
[0101] 步驟S44,教學(xué)數(shù)據(jù)是否接收完成，若是，則結(jié)束接收過程，若否，則返回至步驟 S42〇
[0102] 所述學(xué)習(xí)終端103設(shè)有用于容置預(yù)設(shè)數(shù)量實時圖像的緩沖區(qū)，學(xué)習(xí)終端103接收實時圖像時，首先判斷該實時圖像是否可以裝入緩沖區(qū)，并將接收到的圖像編號與學(xué)習(xí)終端 103顯示的圖像編號進(jìn)行比對，若編號之差小于緩沖區(qū)可容納實時圖像的數(shù)量，則將接收的圖像寫入緩沖區(qū)，若編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量，則丟棄該實時圖像并繼續(xù)比對，重新接收教學(xué)終端發(fā)送的實時圖像，直至能夠?qū)崟r圖像存入緩沖區(qū)。
[0103] 當(dāng)編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量時，先判斷接收到的圖像幀是不是同步頓，如果是同步幀，則檢查緩沖隊列尾的圖像幀是不是同步幀，若是，則將其丟棄并將接收到的新的圖像幀放入隊尾位置，若不是，則繼續(xù)在緩沖隊列中查詢同步幀，找到同步幀并將該同步幀和接收到的圖像丟棄；如果隊列中沒有同步幀，則將接收到的圖像幀放入隊尾而覆蓋原有數(shù)據(jù)，通過重復(fù)接收，等待同步幀接收完畢并在學(xué)習(xí)終端103顯示。
[0104] 在所述步驟S6中，所述點播回放過程如下：
[0105] 步驟S51，用戶學(xué)習(xí)終端103通過網(wǎng)絡(luò)向教學(xué)控制器100發(fā)送點播回放請求；
[0106] 步驟S52，教學(xué)控制器100響應(yīng)點播回放請求，根據(jù)請求內(nèi)容，獲取相應(yīng)教學(xué)信息列表，并將教學(xué)信息列表發(fā)送給學(xué)習(xí)終端103;
[0107] 步驟S53,用戶在學(xué)習(xí)終端103上從教學(xué)信息列表上選擇想要的信息，這些信息包括圖像信息、動作信息以及按照說話人區(qū)分的語音信息；
[0108]步驟S54,教學(xué)控制器100根據(jù)用戶的選擇，將相應(yīng)的教學(xué)信息發(fā)送給學(xué)習(xí)終端 103；
[0109]步驟S55,學(xué)習(xí)終端103將接收的教學(xué)信息按照時間戳重構(gòu)并且在本地進(jìn)行顯示。
【附圖說明】
[0110]圖1為根據(jù)本發(fā)明的多媒體交互教學(xué)系統(tǒng)示意圖；
[0111] 圖2為根據(jù)本發(fā)明的多媒體交互教學(xué)系統(tǒng)的高拍儀；
[0112] 圖3為根據(jù)本發(fā)明的無線遙控器的正視圖；
[0113] 圖4為根據(jù)本發(fā)明的無線遙控器的側(cè)視圖；
[0114] 圖5為根據(jù)本發(fā)明的無線遙控器的功能框架圖；
[0115] 圖6為根據(jù)本發(fā)明的多媒體交互教學(xué)方法的流程圖；
[0116] 圖7為根據(jù)本發(fā)明的說話人分段聚類流程示意圖；
[0117] 圖8為根據(jù)本發(fā)明的單一轉(zhuǎn)折點檢測流程圖；
[0118]圖9為根據(jù)本發(fā)明的基于距離的順序檢測示意圖；
[0119] 圖10為根據(jù)本發(fā)明的順序檢測距離曲線圖；
[0120] 圖11為根據(jù)本發(fā)明的尋找第二說話人語音模板示意圖；
[0121] 圖12為根據(jù)本發(fā)明的交叉檢測說話人轉(zhuǎn)折點示意圖；
[0122] 圖13為根據(jù)本發(fā)明的錯誤的轉(zhuǎn)折點檢測示意圖；
[0123]圖14為根據(jù)本發(fā)明的轉(zhuǎn)折點確認(rèn)不意圖；
[0124] 圖15為根據(jù)本發(fā)明的IHC算法框圖；
[0125] 圖16為根據(jù)本發(fā)明的學(xué)習(xí)終端實時接收和播放教學(xué)數(shù)據(jù)的流程圖；
[0126] 圖17為根據(jù)本發(fā)明的學(xué)習(xí)終端圖像緩存處理流程示意圖；和
[0127] 圖18為根據(jù)本發(fā)明的學(xué)習(xí)終端通過網(wǎng)絡(luò)點播回顧課堂教學(xué)過程示意圖。
【具體實施方式】
[0128] 以下將結(jié)合附圖，對本發(fā)明的【具體實施方式】進(jìn)行進(jìn)一步詳細(xì)描述。
[0129] 如圖1所示，根據(jù)本發(fā)明的多媒體交互教學(xué)系統(tǒng)，包括:教學(xué)控制器100、無線遙控器101、顯示屏102、學(xué)習(xí)終端103、錄制設(shè)備、語音采集設(shè)備106、和存儲設(shè)備107,其中：
[0130] 所述錄制設(shè)備包括教學(xué)高拍儀104和電子白板105,分別用于獲取實時圖像和動作數(shù)據(jù)，傳輸至教學(xué)控制器1〇〇,在教學(xué)控制器100的控制之下，以在顯示屏102上顯示實時圖像或者根據(jù)動作數(shù)據(jù)重現(xiàn)操作情況。
[0131]所述無線遙控器101用于輸入控制指令、文字信息和語音信息，通過無線方式比如藍(lán)牙、局域網(wǎng)絡(luò)、WIFI等將這些信息傳輸至教學(xué)控制器100。
[0132] 優(yōu)選的，用戶可以使用語音與無線遙控器101進(jìn)行交互，遙控器101可以解析語音中包含的控制指令，然后向教學(xué)控制器100發(fā)出相應(yīng)的控制指令，而無需通過具體動作操作發(fā)出這樣的指令。
[0133] 所述語音采集設(shè)備106,可以以至少一個環(huán)形麥克風(fēng)陣列的方式設(shè)置于教室的天花板上，或者其他合適的位置，而無需在每個座位上都設(shè)置語音采集設(shè)備。所述語音采集設(shè) 備106主要用于采集教室內(nèi)學(xué)生討論或者回答問題時的語音信息，并且將采集到的語音信息傳輸給教學(xué)控制器100。
[0134] 所述教學(xué)控制器100設(shè)置于教師端，所述教學(xué)控制器100安裝有教學(xué)APP或者PC軟件客戶端，所述教學(xué)控制器100通過所述教學(xué)APP或者PC軟件客戶端根據(jù)接收到的無線遙控器101的控制指令，可以將所述錄制設(shè)備采集的實時圖像和/或動作數(shù)據(jù)加載于顯示屏102 上，或者將實時圖像、動作數(shù)據(jù)、語音信息之一或三者間任意組合的教學(xué)數(shù)據(jù)發(fā)送至學(xué)習(xí)終端103,以及將所述三種數(shù)據(jù)按照類型不同分別存儲至存儲設(shè)備107,供學(xué)生事后通過網(wǎng)絡(luò) 點播回顧課堂教學(xué)過程。所述存儲設(shè)備107可以是本地存儲器，也可以是網(wǎng)絡(luò)云端存儲器，以及他們的組合。所述動作數(shù)據(jù)包括教師在電子白板上操作文檔的數(shù)據(jù)、繪制圖形的數(shù)據(jù) 等等。
[0135] 優(yōu)選的，本發(fā)明的教學(xué)控制器100包括說話人分割模塊、說話人聚類模塊和聲紋識別模塊，對采集的所述語音信息進(jìn)行說話人分割、說話人聚類和聲紋識別等處理，提取出每個說話人的語音信息，并且根據(jù)已有的訓(xùn)練的聲紋模板識別出說話人的身份。進(jìn)而，對于提取的語音添加說話人標(biāo)識以及系統(tǒng)生成的統(tǒng)一時間戳，這樣用戶在通過網(wǎng)絡(luò)點播回放復(fù)習(xí) 時，可以選擇自己想要聽的語音進(jìn)行播放，比如只想聽老師講什么，那么就把老師的那么語音播放出來，其他的語音可以屏蔽不放，或者想聽老師和自己怎么說的，也可以選擇自己和老師的語音進(jìn)行回放。這樣可以解決多堆人說話現(xiàn)場比較嘈雜時，實況錄音無法聽清的問題，而且對于事后回顧來講，增加多重的選擇，改進(jìn)了用戶體驗，可以節(jié)約時間。
[0136] 所述顯示屏102為LED顯示屏或者電視屏幕等。
[0137] 所述學(xué)習(xí)終端103設(shè)置于學(xué)生端，所述學(xué)習(xí)終端103安裝有與所述教學(xué)APP或者PC 軟件客戶端相關(guān)聯(lián)的學(xué)習(xí)APP或者PC軟件客戶端，以接收和播放由教學(xué)控制器100發(fā)送的實時圖像、動作數(shù)據(jù)、語音信息之一或三者間任意組合的教學(xué)數(shù)據(jù)。
[0138] 根據(jù)本發(fā)明的教學(xué)系統(tǒng)，所述教學(xué)控制器100內(nèi)置教學(xué)APP或者PC軟件客戶端，教學(xué)APP或者PC軟件客戶端同時接入用于電子白板的演示操作、輸入視頻與圖片的錄制設(shè)備，無線遙控器101用于實現(xiàn)控制、操作及錄入語音，通過無線遙控器101輸出的藍(lán)牙信號對教學(xué)控制器100進(jìn)行操作，無線遙控器101可提供虛擬鍵盤、鼠標(biāo)、手寫等，對教學(xué)APP或者PC軟件客戶端進(jìn)行無線操作，同時無線遙控器101錄入的語音信息可以傳輸給每個學(xué)習(xí)終端 103,并在顯示屏102上展示動作數(shù)據(jù)，以方便于情景教學(xué)，教師可通過高拍儀獲取當(dāng)前實時實驗、課本、試題等近景，實時同步到顯示屏或每個學(xué)習(xí)終端上，使得任何角落的學(xué)生均可清晰獲取教師的講解內(nèi)容，同時通過教學(xué)APP或者PC軟件客戶端可以化被動學(xué)習(xí)為主動學(xué) 習(xí)，提高學(xué)生的學(xué)習(xí)主動性。
[0139] 所述錄制設(shè)備包括：
[0140] 教學(xué)高拍儀104,用于獲取實時圖像而輸出至教學(xué)控制器100;
[0141] 電子白板105,用于獲取動作數(shù)據(jù)而輸出至教學(xué)控制器100。
[0142] 如圖2所示，所述教學(xué)高拍儀104包括:工作臺1040,所述工作臺1040兩側(cè)分別設(shè)有臂燈1041，所述工作臺1040上設(shè)有下支臂1042,所述下支臂1042上設(shè)有上支臂1043,所述上支臂1043上設(shè)有攝像頭1044,所述攝像頭1044朝向工作臺1040,所述下支臂1042與上支臂 1043通過阻尼軸而轉(zhuǎn)動連接。
[0143] 優(yōu)選的，所述教學(xué)高拍儀104還包括無線傳輸模塊1045比如藍(lán)牙、無線網(wǎng)絡(luò)、WIFI 等，從而實現(xiàn)與所述教學(xué)控制器100的無線連接，實時傳輸數(shù)據(jù)，可以省去專用連接電纜，方便移動設(shè)備，便于使用。
[0144] 優(yōu)選的，所述無線傳輸模塊1045的發(fā)射天線1046設(shè)置在至少一個所述臂燈1041的非發(fā)光側(cè)部上，這樣的設(shè)置方式可以提高無線傳輸?shù)木嚯x又不會占用額外的空間，也不需要專門設(shè)置其他裝置。
[0145] 如圖3-5所示，所述無線遙控器101包括觸摸屏1012、降噪麥克風(fēng)1010、外置話筒插孔1011、無線發(fā)射模塊1013。
[0146] 優(yōu)選的，所述無線遙控器101還包括語音識別模塊1014、指令存儲模塊1015、指令匹配模塊1016等。
[0147] 所述觸摸屏1012,可以用于：
[0148] 模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；
[0149] 模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作；
[0150] 獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形。
[0151] 所述降噪麥克風(fēng)1010,用于獲取語音信息。外置話筒插孔1011設(shè)置在所述無線遙控器101的底部，用于通過外部專用麥克風(fēng)獲取語音信息，比如教師隨身攜帶的微型麥克風(fēng)。所述無線發(fā)射模塊1013用于與所述教學(xué)控制器100進(jìn)行無線數(shù)據(jù)傳輸。
[0152] 優(yōu)選的，還可以通過語音識別模塊1014可以識別用戶輸入的語音信息，提取其中的操作信息，而不必非要手動進(jìn)行一些操作，所述指令匹配模塊1016將所述操作信息與指令存儲模塊1015存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的操作，如果匹配不成功就進(jìn) 行提示。比如，教師說，指令，自動翻頁。語音識別模塊1014首先識別出"指令"，從而不再將這段話傳輸?shù)剿鼋虒W(xué)控制器100,而是進(jìn)一步解析出"自動翻頁"，與存儲的指令進(jìn)行匹配，然后發(fā)出自動翻頁的指令。如果不是指令語音，那么會將語音信息同步傳輸?shù)剿鼋虒W(xué) 控制器100。
[0153] 優(yōu)選的，所述無線遙控器101記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏1012上進(jìn)行顯示。更優(yōu)選的，將最常用的指令顯示在觸摸屏1012上的固定位置，用戶也可以點擊操作重復(fù)這樣的指令動作。
[0154] 優(yōu)選的，通過所述教學(xué)控制器100的教學(xué)APP或者PC軟件客戶端可以以無線的方式對所述無線遙控器101的存儲指令進(jìn)行更新和同步，實現(xiàn)裝置的指令更新和匹配，便于控制。
[0155] 對于無線遙控器101傳輸?shù)姆侵噶钚哉Z音信息，所述教學(xué)控制器100將這些信息單獨進(jìn)行保存，根據(jù)教師語音模型，剔除其他的雜音，純凈的語音信息。
[0156] 所述無線遙控器101的語音采樣速率為44. lKHz/16bit，無線傳輸距離多10m。具體地，所述無線遙控器1 〇 1的規(guī)格參數(shù)可以為：
[0157] 1、基于2.4G無線傳輸，藍(lán)牙1對1形式配對，實時控制指令、語音信息和鍵盤/控制信號發(fā)送；
[0158] 2、觸摸式鍵盤，手指或筆均可操作虛擬鍵盤；
[0159] 3、觸摸式畫筆手繪，支持輸出絕對坐標(biāo)與教學(xué)APP或者PC軟件客戶端，兼容支持繪畫、書寫；
[0160] 4、觸摸式鼠標(biāo)，實現(xiàn)左右鍵、移動、拖動等；
[0161] 5、指令、畫筆、鍵盤、鼠標(biāo)的數(shù)據(jù)均以透傳SPP模式傳輸，采用RF4CE標(biāo)準(zhǔn)；
[0162] 6、語音采樣速率為44.1KHz/16bit，無線傳輸距離彡10M，話筒模式支持自動干凈頻道搜索；
[0163] 7、語音實時傳輸，內(nèi)置話筒，IOcm距離拾音、外置話筒插座、ENC噪音消除；
[0164] 8、機(jī)頂盒控制，具有Home、back、上下左右切換鍵等；
[0165] 9、尺寸：119*60*9mm，觸摸屏尺寸：121*60mm，分辨率：1024*560;
[0166] 10、電池為3.7V/800mA 5V/lA(micro USB插頭）。
[0167] 本發(fā)明的教學(xué)控制器安裝有Android 4.4系統(tǒng)。所述教學(xué)控制器的具體規(guī)格參數(shù) 為：
[0168] l、Android 4.4，LPDDR3EMMC，1.8GHz八核處理器；
[0169] 2、RAM:2GB DDR3，R0M Flash:8GB，SD card最大支持64GB;
[0170] 3、網(wǎng)絡(luò)連接:WIFI內(nèi)置、Built-in藍(lán)牙內(nèi)置、Ethernet RJ 45;
[0171] 4、顯示接口為HDMI接口。
[0172] 所述學(xué)習(xí)終端103可以包括本地學(xué)習(xí)終端，也可以包括遠(yuǎn)程學(xué)習(xí)終端，所述本地學(xué) 習(xí)終端與教學(xué)控制器100基于無線局域網(wǎng)而進(jìn)行數(shù)據(jù)交互，所述遠(yuǎn)程學(xué)習(xí)終端與教學(xué)控制器100基于互聯(lián)網(wǎng)云平臺而進(jìn)行數(shù)據(jù)交互。
[0173] 教師和學(xué)生可以通過多媒體教學(xué)系統(tǒng)來組織教學(xué)，在多媒體教學(xué)系統(tǒng)中，教師可以發(fā)布視頻，學(xué)生遠(yuǎn)程觀看視頻可以進(jìn)行相關(guān)知識的學(xué)習(xí)。教學(xué)控制器將教學(xué)信息發(fā)送給學(xué)習(xí)終端，學(xué)生通過學(xué)習(xí)終端的屏幕能看到教師的相關(guān)文檔信息及教師對文檔的操作。
[0174] 如圖6所示，根據(jù)本發(fā)明的多媒體交互教學(xué)方法，包括如下步驟：
[0175] 步驟Sl，開啟教學(xué)控制器100,所述錄制設(shè)備、學(xué)習(xí)終端103、語音采集設(shè)備106和存儲設(shè)備107分別與教學(xué)控制器100建立連接；
[0176] 步驟S2,所述錄制設(shè)備獲取實時圖像和動作數(shù)據(jù)并傳輸至教學(xué)控制器100,所述語音采集設(shè)備106獲取課堂語音信息并傳輸至教學(xué)控制器100;
[0177] 還可以，通過無線遙控器101輸入的控制指令、文字信息和/或語音信息通過無線方式例如藍(lán)牙、無線網(wǎng)絡(luò)、WIFI等傳輸至教學(xué)控制器100;
[0178] 步驟S3,教學(xué)控制器100將收到的實時圖像、動作數(shù)據(jù)和語音信息進(jìn)行處理之后，存儲到存儲設(shè)備107上，所述存儲設(shè)備107為本地存儲器或網(wǎng)絡(luò)云端存儲器以及他們的任意組合；
[0179] 步驟S4,教學(xué)控制器100將收到的實時圖像、動作數(shù)據(jù)和語音信息之一或任意組合的教學(xué)數(shù)據(jù)發(fā)送至學(xué)習(xí)終端103和/或額外設(shè)置的用于集中展示的顯示屏102;
[0180]步驟S5,學(xué)習(xí)終端103接收和播放由教學(xué)控制器100發(fā)送的教學(xué)數(shù)據(jù)；
[0181] 步驟S6,通過網(wǎng)絡(luò)訪問教學(xué)控制器100,并獲得存儲設(shè)備107上存儲的實時圖像、動作數(shù)據(jù)、語音信息的至少一種，由此實現(xiàn)課堂教學(xué)過程回放。
[0182] 所述語音信息包括所述語音采集106設(shè)備采集的信息，還可以包括無線遙控器101 采集的語音信息。
[0183] 優(yōu)選的，為了錄入操控指令和文字信息，在所述步驟S2中：
[0184] 所述無線遙控器101輸入的控制指令包括在觸摸屏1012上模擬鼠標(biāo)按鍵而實現(xiàn)的鼠標(biāo)點擊操作指令；
[0185] 所述無線遙控器101輸入的文字信息包括在觸摸屏1012上模擬虛擬鍵盤并利用虛擬鍵盤鍵入的字符。
[0186] 優(yōu)選的，在所述步驟S2中：
[0187] 用戶可以使用語音與無線遙控器101進(jìn)行交互，遙控器101可以解析語音中包含的控制指令，然后向教學(xué)控制器100發(fā)出相應(yīng)的控制指令，而無需通過具體動作操作發(fā)出這樣的指令。
[0188] 優(yōu)選的，所述無線遙控器101還包括語音識別模塊1014、指令存儲模塊1015、指令匹配模塊1016。
[0189] 所述觸摸屏1012,可以用于：
[0190] 模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；
[0191 ]模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作；
[0192] 獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形，利用該滑動軌跡所生成的動作數(shù) 據(jù)替代所述錄制設(shè)備所獲取的動作數(shù)據(jù)。
[0193] 所述降噪麥克風(fēng)1010,用于獲取語音信息。外置話筒插孔1011設(shè)置在所述無線遙控器101的底部，用于通過外部專用麥克風(fēng)獲取語音信息，比如教師隨身攜帶的微型麥克風(fēng)。所述無線發(fā)射模塊1013用于與所述教學(xué)控制器100進(jìn)行無線數(shù)據(jù)傳輸。
[0194] 優(yōu)選的，還可以通過語音識別模塊1014可以識別用戶輸入的語音信息，提取其中的操作信息，而不必非要手動進(jìn)行一些操作，所述指令匹配模塊1016將所述操作信息與指令存儲模塊1015存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的操作，如果匹配不成功就進(jìn) 行提示。比如，教師說，指令，自動翻頁。語音識別模塊1014首先識別出"指令"，從而不再將這段話傳輸?shù)剿鼋虒W(xué)控制器100,而是進(jìn)一步解析出"自動翻頁"，與存儲的指令進(jìn)行匹配，然后發(fā)出自動翻頁的指令。如果不是指令語音，那么會將語音信息同步傳輸?shù)剿鼋虒W(xué) 控制器100。
[0195] 優(yōu)選的，所述無線遙控器101記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏1012上進(jìn)行顯示。
[0196] 更優(yōu)選的，將最常用的指令顯示在觸摸屏1012上的固定位置，用戶也可以點擊操作重復(fù)這樣的指令動作。
[0197] 優(yōu)選的，通過所述教學(xué)控制器100的教學(xué)APP或者PC軟件客戶端可以以無線的方式對所述無線遙控器101的存儲指令進(jìn)行更新和同步，實現(xiàn)裝置的指令更新和匹配，便于控制。
[0198] 對于無線遙控器101傳輸?shù)姆侵噶钚哉Z音信息，所述教學(xué)控制器100將這些信息單獨進(jìn)行保存，根據(jù)教師語音模型，剔除其他的雜音，純凈的語音信息。
[0199] 優(yōu)選的，在所述步驟S5中：
[0200] 學(xué)習(xí)終端103包括本地學(xué)習(xí)終端和/或遠(yuǎn)程學(xué)習(xí)終端，所述本地學(xué)習(xí)終端與教學(xué)控制器100基于局域網(wǎng)而進(jìn)行數(shù)據(jù)交互，所述遠(yuǎn)程學(xué)習(xí)終端與教學(xué)控制器100基于云平臺而進(jìn) 行數(shù)據(jù)交互。在遠(yuǎn)程教學(xué)的基礎(chǔ)上，所述云平臺包括資源列表，并且當(dāng)所述教學(xué)控制器100 處有新的授課信息時，將該授課信息更新至資源列表。
[0201] 優(yōu)選的，在所述步驟S4中：
[0202] 當(dāng)遠(yuǎn)程學(xué)習(xí)終端與教學(xué)控制器100建立連接后，所述云平臺啟動資源推送程序:先獲取資源列表，判斷資源列表是否有更新，若有更新，則云平臺將所述教學(xué)控制器100輸出的教學(xué)數(shù)據(jù)推送至遠(yuǎn)程學(xué)習(xí)終端103。云計算的虛擬化技術(shù)可以將物理層的資源看作一個 "資源池"，通過云環(huán)境下的中間件進(jìn)行管理由于用戶所需要計算的任務(wù)是不盡相同，不同用戶的資源調(diào)度也會根據(jù)需求情況和有關(guān)規(guī)則運行在一個特定的環(huán)境中，操作任務(wù)在系統(tǒng) 中都有一個或多個進(jìn)程。
[0203]有兩種方法可以實現(xiàn)資源調(diào)度的任務(wù):一是根據(jù)資源使用的計算任務(wù)的不同安排不同的機(jī)器;二是把計算任務(wù)往別的機(jī)器進(jìn)行轉(zhuǎn)移處理。例如，資源管理、安全管理、用戶管理以及任務(wù)管理等方面的工作在內(nèi)的用戶任務(wù)調(diào)度、資源狀況監(jiān)測、節(jié)點故障的屏蔽、用戶身份管理等多重功能都可以在云計算的資源管理環(huán)境中得到具體的實現(xiàn)。
[0204] 優(yōu)選的，在步驟S3中：
[0205]對于說話人分段聚類，所述教學(xué)控制器100對接收到的語音信息進(jìn)行分析處理，提取出每個說話人的語音信息，具體方式如下：
[0206] 所述教學(xué)控制器100包括:說話人分割模塊、說話人聚類模塊和聲紋識別模塊，對采集的所述語音信息進(jìn)行說話人分割、說話人聚類和聲紋識別等處理，提取出每個說話人的語音信息，并且根據(jù)已有的訓(xùn)練的聲紋模板識別出說話人的身份。進(jìn)而，對于提取的語音添加說話人標(biāo)識以及系統(tǒng)生成的統(tǒng)一時間戳，這樣用戶在通過網(wǎng)絡(luò)點播回放復(fù)習(xí)時，可以選擇自己想要聽的語音進(jìn)行播放，比如只想聽老師講什么，那么就把老師的那么語音播放出來，其他的語音可以屏蔽不放，或者想聽老師和自己怎么說的，也可以選擇自己和老師的語音進(jìn)行回放。
[0207] 如圖7所示，根據(jù)本發(fā)明的說話人分段聚類流程示意圖。
[0208] 所述教學(xué)控制器100首先對獲得的語音信息進(jìn)行端點檢測處理，只提取有語音的部分，去掉靜音部分，對提取的有語音的部分進(jìn)行說話人分段聚類和聲紋識別處理。說話人分割的目的是找到說話人改變時的轉(zhuǎn)折點，使得輸入語音按說話人被分割成語音段:分段 1，分段2,分段3···，分段N(舉個例子:分段1，分段3可能是同一個人的語音，但是因為中間有另一個人的語音，所以按說話人轉(zhuǎn)折點切開），而每個語音段中僅包含單一說話人的語音信息;說話人聚類的目的是將相同說話人的語音段聚集，使得每一類只包含一個說話人的數(shù) 據(jù)，并使每個人的數(shù)據(jù)盡可能的在一類數(shù)據(jù)中（上面的例子，分段1和分段上就可以合在一起)。
[0209] 本發(fā)明說話人聚類采用LSP特征來進(jìn)行，即通過原始語音提取出LSP(Line SpectrumPair)特征數(shù)據(jù)，進(jìn)行后面的計算。
[0210]( - )說話人分割
[0211]說話人分割的重點就是找到說話人切換的轉(zhuǎn)折點，其中包括單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn)折點的檢測：
[0212] (1)單一轉(zhuǎn)折點檢測：
[0213] 如圖8所示，單一轉(zhuǎn)折點檢測包括以下步驟:語音特征段提取、基于距離的順序檢測、交叉檢測、和轉(zhuǎn)折點確認(rèn)。所述的語音特征段提取與前述相應(yīng)的方式相同，或者可以直接使用前述提取的語音特征，在此不再贅述。
[0214] 1)基于距離的順序檢測：
[0215]如圖9所示，為基于距離的單轉(zhuǎn)折點順序檢測示意圖。該檢測方法假設(shè):在語音段最初的一小段時間間隔內(nèi)，不存在轉(zhuǎn)折點。首先取語音最開始時的語音段(1-3秒)作為模板 (Template)窗口，之后將此模板和每個滑動片段(長度和模板的相同）作距離計算，本發(fā)明采用"廣義似然比"作為度量的距離，可獲得距離曲線，其中d(t)表示t時刻的滑動窗口與說話人1的模板窗口之間的距離值。
[0216]如圖10所示，順序檢測后的距離曲線，當(dāng)滑動窗口在第一個說話人的范圍內(nèi)時，模板段和移動窗口均為第一個說話人的語音，所以距離值較小。當(dāng)移動窗口到達(dá)第二個說話人的范圍內(nèi)時，滑動窗口變?yōu)榈诙€說話人的語音，因此距離值逐漸增大。因此可假設(shè)在距離值最大時，其附近有第二個說話人的語音的可能性最大。
[0217] 2)交叉檢測：
[0218] 如圖11所示，在順序檢測完成后，通過尋找距離曲線的最大值點來確定第二個說話人的模板窗口。
[0219] 在找出第二個說話人的模板后，采用前述同樣的方法即可得到第二條距離曲線。如圖12所示，兩條曲線交叉處即為說話人轉(zhuǎn)折點。
[0220] 3)轉(zhuǎn)折點確認(rèn)：
[0221] 如圖13所示，在交叉檢測時，如果錯誤的將第一個說話人的語音作為第二個說話人的語音模板，則可能產(chǎn)生虛警錯誤。為了減少虛警錯誤，需要對每個轉(zhuǎn)折點進(jìn)行優(yōu)選的確認(rèn)。轉(zhuǎn)折點的確認(rèn)如公式1所示：
[0222] )
[0223] 上述公式中，sign( ·)為符號函數(shù)，dCMSS為兩條距離曲線交叉處的距離值。
[0224]其中，通過利用說話人2的距離曲線起始到交叉點的這段區(qū)域(如圖14中方框部分所示），公式(1)中的d(i)就是這一端區(qū)域內(nèi)計算出來的距離。若最后結(jié)果為正，則接受此點為說話人轉(zhuǎn)折點;若為負(fù)，則拒絕此點為說話人轉(zhuǎn)折點。
[0225] (2)多個轉(zhuǎn)折點檢測：
[0226] 找到整段語音中的多個說話人轉(zhuǎn)折點，可在單一轉(zhuǎn)折點檢測的基礎(chǔ)上完成，步驟如下：
[0227] 步驟1):首先設(shè)定一較大的時間窗(長度為5-15秒），在窗內(nèi)作單轉(zhuǎn)折點檢測。
[0228] 步驟2):若在上一步驟沒找到說話人轉(zhuǎn)折點，則將窗口向右移動（1-3秒），重復(fù)步驟1，直到找到說話人轉(zhuǎn)折點，或者語音段結(jié)束。
[0229] 步驟3):若找到說話人轉(zhuǎn)折點，則記錄此轉(zhuǎn)折點，并將窗口起始點設(shè)到此轉(zhuǎn)折點上，重復(fù)步驟1)-步驟2)。
[0230] 通過上述步驟，可以找到多個說話人的所有轉(zhuǎn)折點，并據(jù)此分段為:分段1到分段 N0
[0231]由此，通過上述單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn)折點的檢測完成說話人的分割。
[0232](二)說話人聚類
[0233]在完成說話人分割后，接下來，說話人聚類將這些分段聚類，相同說話人的分段合在一起:說話人聚類是聚類技術(shù)在語音信號處理方面的一個具體應(yīng)用，其目的是通過對語音段進(jìn)行分類，使得每一類只包含同一說話人數(shù)據(jù)，并且同一說話人的數(shù)據(jù)都被歸并到同一類中。
[0234] 對于所述的分段聚類，本發(fā)明提出一種改進(jìn)的層次聚類方法（Improved Hierarchical Clustering，IHC)，該方法通過最小化類內(nèi)誤差平方和進(jìn)行合并和確定類別數(shù)目，具體步驟如圖15所示：
[0235] 考慮一個語音段的集合乂={^^2，一，別}，其中&表示一個語音段對應(yīng)的特征序列。XN表示那個集合的最后一個特征，而Xn泛指。"其中^表示一個語音段對應(yīng)的特征序列。"意思就是集合里面的每一個X都是一個特征序列。說話人聚類意味著要找到集合X的一個劃分C= {C1，C2，…，cd，而Ck中只包含一個說話人的語音信息，并且來自同一個說話人的語音段僅被劃分到C k中。
[0236] (D計算距離
[0237] 與確定說話人轉(zhuǎn)折點的計算距離方法一樣，采用"廣義似然比"作為度量的距離。
[0238] (2)改進(jìn)的誤差平方和準(zhǔn)則
[0239] 誤差平方和準(zhǔn)則即為類內(nèi)誤差平方和最小為準(zhǔn)則。在說話人聚類應(yīng)用中，同一說話人的數(shù)據(jù)間的距離比較小，而不同說話人數(shù)據(jù)間的距離比較大，因此誤差平方和準(zhǔn)則能取得較好的效果。
[0240] 綜上所述，IHC算法的第一步是以距離度量為相似度，以改進(jìn)的誤差平方和準(zhǔn)則為準(zhǔn)則函數(shù)，逐步地兩兩合并，最終形成一個聚類樹。
[0241] (3)類別確定
[0242]在說話人聚類中，一個重要的環(huán)節(jié)就是自動確定數(shù)據(jù)中客觀存在的類別數(shù)目，即確定有多少個說話人。本發(fā)明采用了一種基于假設(shè)檢驗的類別確定方法，該方法利用假設(shè) 檢驗的原理，對聚類樹上的每一個合并操作進(jìn)行檢驗，檢查其合并的合理性，從而確定最終的類別數(shù)目。一旦發(fā)現(xiàn)有不合理的合并，就認(rèn)為合并前的類別數(shù)目為最終的說話人類別數(shù) 目。
[0243]對于（1)(2)采用了不同的距離計算方法和不同的聚類準(zhǔn)則，可以提升聚類的正確性與效果；（3)采用基于假設(shè)檢驗方法，使得聚類的時候不需要認(rèn)為指定類別個數(shù)，因為往往無法事先確定說話的有多少人，但是采用這種方法，就可以根據(jù)實際情況，聚成相應(yīng)的幾個類。
[0244] 優(yōu)選的，根據(jù)已有的聲紋模型，進(jìn)行說話人匹配，所述的聲紋模型，可以通過事先的訓(xùn)練得到，由于上課的班級人數(shù)基本是固定，這樣生成的聲紋模型相對比較容易。對于具體上課的班級，每次可以只需要調(diào)取這個班級學(xué)生的聲紋模型進(jìn)行快速比對，從而提高聲紋識別的效率。聲紋模型的訓(xùn)練和識別屬于比較公知的內(nèi)容，不是本發(fā)明的重點，在此不再贅述。
[0245] 如圖16所示，所述學(xué)習(xí)終端103實時接收和播放教學(xué)數(shù)據(jù)的流程圖，包括：
[0246] 步驟S41，用戶通過身份驗證后登陸學(xué)習(xí)終端103;
[0247] 步驟S42,學(xué)習(xí)終端103接收教學(xué)控制器100發(fā)送的教學(xué)數(shù)據(jù)；
[0248]步驟S43,學(xué)習(xí)終端103對教學(xué)數(shù)據(jù)解析而獲得實時圖像、動作數(shù)據(jù)和語音信息，并在學(xué)習(xí)終端103上進(jìn)行顯示，比如基于DirectX方式對接收到的實時圖像解析并顯示；
[0249]步驟S44,教學(xué)數(shù)據(jù)是否接收完成，若是，則結(jié)束接收過程，若否，則返回至步驟 S42〇
[0250] 如圖17所示，所述學(xué)習(xí)終端103設(shè)有用于容置預(yù)設(shè)數(shù)量實時圖像的緩沖區(qū)，學(xué)習(xí)終端103接收實時圖像時，首先判斷該實時圖像是否可以裝入緩沖區(qū)，并將接收到的圖像編號與學(xué)習(xí)終端103顯示的圖像編號進(jìn)行比對，若編號之差小于緩沖區(qū)可容納實時圖像的數(shù)量，則將接收的圖像寫入緩沖區(qū)，若編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量，則丟棄該實時圖像并繼續(xù)比對，重新接收教學(xué)終端發(fā)送的實時圖像，直至能夠?qū)崟r圖像存入緩沖區(qū)。
[0251] 其中，當(dāng)編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量時，先判斷接收到的圖像幀是不是同步頓，如果是同步幀，則檢查緩沖隊列尾的圖像幀是不是同步幀，若是，則將其丟棄并將接收到的新的圖像幀放入隊尾位置，若不是，則繼續(xù)在緩沖隊列中查詢同步幀，找到同步幀并將該同步幀和接收到的圖像丟棄；如果隊列中沒有同步幀，則將接收到的圖像幀放入隊尾而覆蓋原有數(shù)據(jù)，通過重復(fù)接收，等待同步幀接收完畢并在學(xué)習(xí)終端103顯示。
[0252] 圖像編號可以是順序編號，編號之差就是數(shù)學(xué)上的減，如果差大于緩沖區(qū)大小，說明緩沖區(qū)已滿，這時無法將收到的圖像加入緩沖區(qū)了，直到緩沖區(qū)非滿時(差小于緩沖區(qū)大 ?。趴梢詫⑿率盏降臄?shù)據(jù)加入緩沖區(qū)。播放的圖像都是從緩沖區(qū)中順序取出的。沒有存入緩沖區(qū)的圖像視為丟棄。緩沖區(qū)中圖像數(shù)量是變化的(播放，使得其中的圖像減少;接受，使得圖像數(shù)量增加。但是最大不會超過預(yù)設(shè)的緩沖區(qū)大小。）
[0253] 為了達(dá)到實時的效果，需要一些同步幀(可以向圖像一樣傳輸，但并不代表具體的圖像數(shù)據(jù)）。在當(dāng)前接受到的是同步幀的情況下如果：（1)隊尾是同步幀，那么說明沒有同步完畢，將新的同步幀替換隊尾的那個，繼續(xù)接受；（2)隊尾不是同步幀，在隊列中查詢同步幀，將查詢到的同步幀到隊尾接受的圖像幀全部丟棄，因為這些圖像幀不是同步的，或者說這些圖像是在同步完成前收到的，播放這些圖像將達(dá)不到實時(直播)的效果；（3)隊列中沒有同步幀，說明隊列中都是圖像幀，而這些圖像幀同樣也是在同步完成前收到的，應(yīng)當(dāng)丟棄。
[0254] 等到同步幀全部接受完畢之后，證明同步過程結(jié)束，再之后的接收到的圖像都是與網(wǎng)絡(luò)實時的，可以達(dá)到一種實時的"直播"效果。為非同步接受到的圖像數(shù)據(jù)多是延遲的。
[0255] 如圖18所示，本發(fā)明的多媒體交互教學(xué)方法的點播回放流程圖，具體如下：
[0256] 步驟S51，用戶學(xué)習(xí)終端103通過網(wǎng)絡(luò)向教學(xué)控制器100發(fā)送點播回放請求；
[0257] 步驟S52，教學(xué)控制器100響應(yīng)點播回放請求，根據(jù)請求的內(nèi)容，獲取所述存儲設(shè)備 107上的相應(yīng)教學(xué)信息列表，并將教學(xué)信息列表發(fā)送給學(xué)習(xí)終端103;
[0258] 步驟S53,用戶在學(xué)習(xí)終端103上從教學(xué)信息列表上選擇想要的信息，這些信息包括圖像信息、動作信息以及按照說話人區(qū)分的語音信息，用戶可以選擇其中一個信息，比如語音信息，用戶可以只選擇教師語音和本人語音；
[0259] 步驟S54,教學(xué)控制器100根據(jù)學(xué)生用戶的選擇，將相應(yīng)的教學(xué)信息發(fā)送給學(xué)習(xí)終端 103;
[0260]步驟S55,學(xué)習(xí)終端103將接收到的教學(xué)信息按照時間戳重構(gòu)并且在本地進(jìn)行顯不。
[0261]本發(fā)明的教學(xué)系統(tǒng)及教學(xué)方法，其相比現(xiàn)有技術(shù)而言有如下技術(shù)效果：
[0262] 1、結(jié)合教學(xué)控制器、教學(xué)APP或者PC軟件客戶端、高拍儀、電子白板、無線遙控器、 LED顯示屏等技術(shù)，將傳統(tǒng)的被動聽課轉(zhuǎn)變?yōu)橹鲃勇犝n，教師無需站在講臺講課，可以在教室內(nèi)隨時遙控來輔助講課，與電子白板結(jié)合后讓整個課堂更加有趣，有助于學(xué)生提高學(xué)習(xí) 效率。
[0263] 2、有效結(jié)合了高拍儀，特別是在物理/化學(xué)等實驗課程，讓學(xué)生更加真實、清晰地看到教師的每一步操作，透徹了解實驗?zāi)康暮蛯嶒炦^程。特別是，改進(jìn)的高拍儀，可以實現(xiàn) 無線數(shù)據(jù)傳輸功能，而結(jié)構(gòu)上緊湊，數(shù)據(jù)傳輸距離上可以得到保障。
[0264] 3、通過教室內(nèi)安裝的語音采集裝置，采集了學(xué)生上課時參與討論時的語音，并且通過所述教學(xué)控制器的語音聚類分析，使得在每個階段討論每個問題時，參與討論的學(xué)生的語音被記錄并且被單獨保存成文件，使得學(xué)生事后可以回顧自己上課參與討論的情況，激發(fā)學(xué)生參與課上討論的積極性，并且有助于學(xué)生事后分析自己回答問題的語音邏輯性，有助于改進(jìn)自己回答問題的方式。
[0265] 4、所述無線遙控器具備了基礎(chǔ)的語音分析、操作信息提取和指令匹配等功能，由此可以實現(xiàn)了語音控制，此外還能支持模擬鼠標(biāo)、虛擬鍵盤、模擬畫板等功能，實現(xiàn)了更加靈活多樣的無線控制。
[0266] 5、整套教學(xué)系統(tǒng)方便部署，操作靈活，通過教學(xué)控制器可以與更多的多媒體設(shè)備關(guān)聯(lián)，可通過電子白板進(jìn)行講課、講題，整個教學(xué)過程都能夠同步至學(xué)習(xí)終端。
[0267] 以上介紹了本發(fā)明的較佳實施方式，旨在使得本發(fā)明的精神更加清楚和便于理解，并不是為了限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的修改、替換、改進(jìn)，均應(yīng) 包含在本發(fā)明所附的權(quán)利要求概括的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種多媒體交互教學(xué)系統(tǒng)，包括教學(xué)控制器（100)、學(xué)習(xí)終端（103)、錄制設(shè)備、語音采集設(shè)備（106)和存儲設(shè)備（107)，其特征在于：所述錄制設(shè)備，用于獲取實時圖像和動作數(shù)據(jù)；所述語音采集設(shè)備（106)，用于采集課堂實時語音信息；所述教學(xué)控制器（100)，用于將所述錄制設(shè)備和所述語音采集設(shè)備（106)采集的教學(xué)信息發(fā)送給所述學(xué)習(xí)終端（103)和/或額外設(shè)置的用于集中展示的顯示屏（102); 所述存儲設(shè)備（107)，用于將所述錄制設(shè)備和所述語音采集設(shè)備采集的教學(xué)信息存儲起來，用戶可以通過網(wǎng)絡(luò)點播回顧課堂教學(xué)過程。2. 根據(jù)權(quán)利要求1的系統(tǒng)，其特征在于，所述教學(xué)控制器（100)包括說話人分割模塊、說話人聚類模塊、聲紋識別模塊，分別用于對采集的所述語音信息進(jìn)行說話人分割、說話人聚類和聲紋識別處理，從而提取每個說話人的語音信息，并且根據(jù)訓(xùn)練得到的聲紋模板識別出說話人的身份。3. 根據(jù)權(quán)利要求2的系統(tǒng)，其特征在于，所述提取的語音信息添加說話人身份標(biāo)識和系統(tǒng)統(tǒng)一生成的時間戳標(biāo)識，形成以說話人身份為標(biāo)識并且具有時間戳的一系列獨立的語音信息，并且被保存起來。4. 根據(jù)權(quán)利要求3的系統(tǒng)，其特征在于，用戶在通過網(wǎng)絡(luò)點播回顧課堂教學(xué)過程時，先通過對說話人的選擇來選擇自己想要聽到的語音，再進(jìn)行播放。5. 根據(jù)權(quán)利要求2的系統(tǒng)，其特征在于，所述說話人分割用于找到說話人切換的轉(zhuǎn)折點，包括單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn)折點的檢測；所述單一轉(zhuǎn)折點檢測包括基于距離的順序檢測、交叉檢測和轉(zhuǎn)折點確認(rèn)；所述多個轉(zhuǎn)折點檢測用于找到整段語音中的多個說話人轉(zhuǎn)折點，在所述單一轉(zhuǎn)折點檢測的基礎(chǔ)上完成，步驟如下：步驟1):首先設(shè)定一較大的時間窗，長度為5-15秒，在窗內(nèi)作單轉(zhuǎn)折點檢測；步驟2):若在上一步驟沒找到說話人轉(zhuǎn)折點，則將窗向右移動1-3秒，重復(fù)步驟1，直到找到說話人轉(zhuǎn)折點，或者語音段結(jié)束；步驟3):若找到說話人轉(zhuǎn)折點，則記錄此轉(zhuǎn)折點，并將窗□起始點設(shè)到此轉(zhuǎn)折點上，重復(fù)步驟1)-步驟2)。6. 根據(jù)權(quán)利要求5的系統(tǒng)，其特征在于，所述轉(zhuǎn)折點的確認(rèn)公式：sign( ·)為符號函數(shù)，d_ss為兩條距離曲線交叉處的距離值；其中，通過利用說話人的距離曲線起始到交叉點的這段區(qū)域，公式中的d(i)就是這一端區(qū)域內(nèi)計算出來的距離，若最后結(jié)果為正，則接受此點為說話人轉(zhuǎn)折點;若為負(fù)，則拒絕此點為說話人轉(zhuǎn)折點。7. 根據(jù)權(quán)利要求1-6之一的系統(tǒng)，其特征在于，所述錄制設(shè)備包括教學(xué)高拍儀（104)和電子白板（105)，所述教學(xué)高拍儀(104)用于獲取實時圖像并輸出至所述教學(xué)控制器(100)，所述電子白板(105)用于獲取動作數(shù)據(jù)并輸出至所述教學(xué)控制器(100)。8. 根據(jù)權(quán)利要求7的系統(tǒng)，其特征在于，所述教學(xué)高拍儀（104)包括工作臺（1040)和無線傳輸模塊（1045)，所述工作臺（1040)兩側(cè)分別設(shè)有臂燈（1041)，所述無線傳輸模塊（1045)的發(fā)射天線設(shè)置在至少一個所述臂燈（1041)的非發(fā)光的側(cè) 部上。9. 根據(jù)權(quán)利要求1-6之一的系統(tǒng)，其特征在于，還包括無線遙控器(101)，用于實現(xiàn)對所述教學(xué)控制器(100)的無線控制，所述無線遙控器（101)包括觸摸屏（1012)、麥克風(fēng)（1010)、外置話筒插孔（1011)和無線發(fā)射模塊(1013)。10. 根據(jù)權(quán)利要求9的系統(tǒng)，其特征在于，所述無線遙控器（101)還包括語音識別模塊（1014)、指令存儲模塊（1015)、和指令匹配模塊（1016)，所述語音識別模塊（1014)用于識別用戶輸入的語音信息，如果檢測到設(shè)定的動作字符，提取所述動作字符之后的語音中包含的操作信息而不把這段語音傳輸?shù)剿鼋虒W(xué)控制器（100)，如果沒有檢測到設(shè)定的動作字符，那么將語音信息同步傳輸?shù)剿鼋虒W(xué)控制器 (100)；所述指令存儲模塊(1015)用于存儲可以控制所述教學(xué)控制器(100)的指令信息；所述指令匹配模塊（1016)用于將所述操作信息與所述指令存儲模塊（1015)存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的指令操作。11. 根據(jù)權(quán)利要求10的系統(tǒng)，其特征在于，所述觸摸屏（1012)用于，模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作；獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形。12. 根據(jù)權(quán)利要求10的系統(tǒng)，其特征在于，所述無線遙控器（101)記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏（1012)上進(jìn)行顯示，將常用的指令顯示在觸摸屏（1012)上的固定位置，用戶點擊操作重復(fù)這樣的指令動作。13. 根據(jù)權(quán)利要求10的系統(tǒng)，其特征在于，所述無線遙控器（101)還包括外置話筒插孔 (1011 )，設(shè)置在所述無線遙控器(101)的底部，用于通過外部專用麥克風(fēng)獲取語音信息。14. 根據(jù)權(quán)利要求10的系統(tǒng)，其特征在于，所述教學(xué)控制器(100)對所述無線遙控器(101)中的存儲指令定期更新。15. 根據(jù)權(quán)利要求10的系統(tǒng)，其特征在于，通過所述無線遙控器（101)傳輸?shù)剿鼋虒W(xué)控制器（100)的語音信息同樣保存到所述存儲設(shè)備（107); 所述教學(xué)控制器（100)還包括說話人去重模塊，用于根據(jù)聲紋模型去除來自所述無線遙控器(101)和所述語音采集設(shè)備（106)的重復(fù)語音。16. -種多媒體交互教學(xué)方法，包括以下步驟：步驟S1，開啟教學(xué)控制器（100)，所述錄制設(shè)備、學(xué)習(xí)終端（103)、語音采集設(shè)備（106)和存儲設(shè)備(107)分別與教學(xué)控制器(100)建立連接；步驟S2,所述錄制設(shè)備獲取實時圖像和動作數(shù)據(jù)并傳輸至教學(xué)控制器(100)，所述語音采集設(shè)備(106)獲取課堂語音信息并傳輸至教學(xué)控制器(100;) 步驟S3,教學(xué)控制器（100)將收到的實時圖像、動作數(shù)據(jù)和語音信息進(jìn)行處理之后，存儲到存儲設(shè)備（107)上，所述存儲設(shè)備（107)為本地存儲器或網(wǎng)絡(luò)云端存儲器以及他們的任意組合；步驟S4,教學(xué)控制器（100)將收到的實時圖像、動作數(shù)據(jù)和語音信息之一或任意組合的教學(xué)數(shù)據(jù)發(fā)送至學(xué)習(xí)終端（103)和/或額外設(shè)置的用于集中展示的顯示屏（102); 步驟S5,學(xué)習(xí)終端（103)接收和播放由教學(xué)控制器（100)發(fā)送的教學(xué)數(shù)據(jù)；步驟S6，通過網(wǎng)絡(luò)訪問教學(xué)控制器（100 )，并獲得存儲設(shè)備（107)上存儲的實時圖像、動作數(shù)據(jù)、語音信息的至少一種，由此實現(xiàn)課堂教學(xué)過程回放。17. 根據(jù)權(quán)利要求16的方法，其特征在于，在所述步驟S3中，教學(xué)控制器（100)對收到的教學(xué)數(shù)據(jù)進(jìn)行處理的過程包括：說話人分割、說話人聚類、聲紋識別，分別用于對采集的所述語音信息進(jìn)行說話人分害J、說話人聚類和聲紋識別處理，從而提取每個說話人的語音信息，并且根據(jù)訓(xùn)練得到的聲紋模板識別出說話人的身份。18. 根據(jù)權(quán)利要求17的方法，其特征在于，所述提取的語音信息添加說話人身份標(biāo)識和系統(tǒng)統(tǒng)一生成的時間戳標(biāo)識，形成以說話人身份為標(biāo)識并且具有時間戳的一系列獨立的語音信息，并且被保存起來。19. 根據(jù)權(quán)利要求18的方法，其特征在于，在步驟S6中，用戶在通過網(wǎng)絡(luò)點播回顧課堂時，先通過對說話人的選擇來選擇自己想要聽到的語音，再進(jìn)行播放。20. 根據(jù)權(quán)利要求19的方法，其特征在于，所述說話人分割用于找到說話人切換的轉(zhuǎn)折點，包括單一轉(zhuǎn)折點的檢測和多個轉(zhuǎn)折點的檢測；所述單一轉(zhuǎn)折點檢測包括基于距離的順序檢測、交叉檢測和轉(zhuǎn)折點確認(rèn)；所述多個轉(zhuǎn)折點檢測用于找到整段語音中的多個說話人轉(zhuǎn)折點，在所述單一轉(zhuǎn)折點檢測的基礎(chǔ)上完成，步驟如下：步驟1):首先設(shè)定一較大的時間窗，長度為5-15秒，在窗內(nèi)作單轉(zhuǎn)折點檢測；步驟2):若在上一步驟沒找到說話人轉(zhuǎn)折點，則將窗向右移動1-3秒，重復(fù)步驟1，直到找到說話人轉(zhuǎn)折點，或者語音段結(jié)束；步驟3):若找到說話人轉(zhuǎn)折點，則記錄此轉(zhuǎn)折點，并將窗□起始點設(shè)到此轉(zhuǎn)折點上，重復(fù)步驟1)-步驟2)。21. 根據(jù)權(quán)利要求20的方法，其特征在于，所述轉(zhuǎn)折點的確認(rèn)公式：sign( ·)為符號函數(shù)，d_ss為兩條距離曲線交叉處的距離值；其中，通過利用說話人的距離曲線起始到交叉點的這段區(qū)域，公式中的d(i)就是這一端區(qū)域內(nèi)計算出來的距離，若最后結(jié)果為正，則接受此點為說話人轉(zhuǎn)折點；若為負(fù)，則拒絕此點為說話人轉(zhuǎn)折點。22. 根據(jù)權(quán)利要求16-21之一的方法，其特征在于，所述錄制設(shè)備包括教學(xué)高拍儀（104)和電子白板（105)，所述教學(xué)高拍儀(104)用于獲取實時圖像并輸出至所述教學(xué)控制器(100)，所述電子白板(105)用于獲取動作數(shù)據(jù)并輸出至所述教學(xué)控制器(100)。23. 根據(jù)權(quán)利要求22的方法，其特征在于，所述教學(xué)高拍儀（104)包括工作臺（1040)和無線傳輸模塊（1045)，所述工作臺（1040)兩側(cè)分別設(shè)有臂燈（1041)，所述無線傳輸模塊（1045)的發(fā)射天線設(shè)置在至少一個所述臂燈（1041)的非發(fā)光的側(cè) 部上。24. 根據(jù)權(quán)利要求16-21之一的方法，其特征在于，還包括無線遙控器(101)，用于實現(xiàn)對所述教學(xué)控制器(100)的無線控制，所述無線遙控器（101)包括觸摸屏（1012)、麥克風(fēng)（1010)、外置話筒插孔（1011)和無線發(fā)射模塊(1013)。25. 根據(jù)權(quán)利要求24的方法，其特征在于，所述無線遙控器（101)還包括語音識別模塊（1014)、指令存儲模塊（1015)、和指令匹配模塊（1016)，所述語音識別模塊（1014)用于識別用戶輸入的語音信息，如果檢測到設(shè)定的動作字符，提取所述動作字符之后的語音中包含的操作信息而不把這段語音傳輸?shù)剿鼋虒W(xué)控制器（100)，如果沒有檢測到設(shè)定的動作字符，那么將語音信息同步傳輸?shù)剿鼋虒W(xué)控制器 (100)；所述指令存儲模塊(1015)用于存儲可以控制所述教學(xué)控制器(100)的指令信息；所述指令匹配模塊（1016)用于將所述操作信息與所述指令存儲模塊（1015)存儲的指令進(jìn)行匹配，匹配成功后實現(xiàn)相應(yīng)的指令操作。26. 根據(jù)權(quán)利要求24的方法，其特征在于，所述觸摸屏（1012)用于，模擬虛擬鍵盤，并利用虛擬鍵盤鍵入字符；模擬鼠標(biāo)按鍵，實現(xiàn)鼠標(biāo)點擊操作;和/或獲取滑動軌跡，并根據(jù)滑動軌跡生成手繪圖形。27. 根據(jù)權(quán)利要求24的方法，其特征在于，所述無線遙控器（101)記錄所述提取的操作信息及其匹配的指令，并且可以在其觸摸屏（1012)上進(jìn)行顯示，將常用的指令顯示在觸摸屏（1012)上的固定位置，用戶點擊操作重復(fù)這樣的指令動作。28. 根據(jù)權(quán)利要求24的方法，其特征在于，所述無線遙控器（101)還包括外置話筒插孔 (1011 )，設(shè)置在所述無線遙控器(101)的底部，用于通過外部專用麥克風(fēng)獲取語音信息。29. 根據(jù)權(quán)利要求24的方法，其特征在于，所述教學(xué)控制器(100)對所述無線遙控器(101)中的存儲指令定期更新。30. 根據(jù)權(quán)利要求24的方法，其特征在于，通過所述無線遙控器（101)傳輸?shù)剿鼋虒W(xué)控制器（100)的語音信息同樣保存到所述存儲設(shè)備（107); 所述教學(xué)控制器（100)還包括說話人去重模塊，用于根據(jù)聲紋模型去除來自所述無線遙控器(101)和所述語音采集設(shè)備（106)的重復(fù)語音。31. 根據(jù)權(quán)利要求16-21之一的方法，其特征在于，在步驟S5中，所述學(xué)習(xí)終端（103)接收和播放教學(xué)數(shù)據(jù)過程，包括：步驟S41，用戶通過身份驗證后登陸學(xué)習(xí)終端103; 步驟S42,學(xué)習(xí)終端103接收教學(xué)控制器100發(fā)送的教學(xué)數(shù)據(jù)；步驟S43,學(xué)習(xí)終端103對教學(xué)數(shù)據(jù)解析而獲得實時圖像、動作數(shù)據(jù)和語音信息，并在學(xué) 習(xí)終端103上進(jìn)行顯示，包括基于DirectX方式對接收到的實時圖像解析并顯示；步驟S44，教學(xué)數(shù)據(jù)是否接收完成，若是，則結(jié)束接收過程，若否，則返回至步驟S42。32. 根據(jù)權(quán)利要求31的方法，其特征在于，所述學(xué)習(xí)終端（103)設(shè)有用于容置預(yù)設(shè)數(shù)量實時圖像的緩沖區(qū)，學(xué)習(xí)終端（103)接收實時圖像時，首先判斷該實時圖像是否可以裝入緩沖區(qū)，并將接收到的圖像編號與學(xué)習(xí)終端 (103)顯示的圖像編號進(jìn)行比對，若編號之差小于緩沖區(qū)可容納實時圖像的數(shù)量，則將接收的圖像寫入緩沖區(qū)，若編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量，則丟棄該實時圖像并繼續(xù)比對，重新接收教學(xué)終端發(fā)送的實時圖像，直至能夠?qū)崟r圖像存入緩沖區(qū)。33. 根據(jù)權(quán)利要求32的方法，其特征在于，當(dāng)編號之差大于緩沖區(qū)可容納實時圖像的數(shù)量時，先判斷接收到的圖像幀是不是同步頓，如果是同步幀，則檢查緩沖隊列尾的圖像幀是不是同步幀，若是，則將其丟棄并將接收到的新的圖像幀放入隊尾位置，若不是，則繼續(xù)在緩沖隊列中查詢同步幀，找到同步幀并將該同步幀和接收到的圖像丟棄；如果隊列中沒有同步幀，則將接收到的圖像幀放入隊尾而覆蓋原有數(shù)據(jù)，通過重復(fù)接收，等待同步幀接收完畢并在學(xué)習(xí)終端(103)顯示。34. 根據(jù)權(quán)利要求16-21之一的方法，其特征在于，在所述步驟S6中，所述點播回放過程如下：步驟S51，用戶學(xué)習(xí)終端（103)通過網(wǎng)絡(luò)向教學(xué)控制器（100)發(fā)送點播回放請求；步驟S52,教學(xué)控制器（100)響應(yīng)點播回放請求，根據(jù)請求內(nèi)容，獲取相應(yīng)教學(xué)信息列表，并將教學(xué)信息列表發(fā)送給學(xué)習(xí)終端(103); 步驟S53,用戶在學(xué)習(xí)終端（103)上從教學(xué)信息列表上選擇想要的信息，這些信息包括圖像信息、動作信息以及按照說話人區(qū)分的語音信息；步驟S54,教學(xué)控制器（100)根據(jù)用戶的選擇，將相應(yīng)的教學(xué)信息發(fā)送給學(xué)習(xí)終端 (103)；步驟S55,學(xué)習(xí)終端（103)將接收的教學(xué)信息按照時間戳重構(gòu)并且在本地進(jìn)行顯示。
【文檔編號】G09B5/08GK106056996SQ201610705328
【公開日】2016年10月26日
【申請日】2016年8月23日
【發(fā)明人】劉佳, 盧啟偉
【申請人】深圳市時尚德源文化傳播有限公司

完整全部詳細(xì)技術(shù)資料下載