本發(fā)明屬于遠程會議,具體是一種音視頻系統(tǒng)集成會議系統(tǒng)。
背景技術(shù):
1、音視頻系統(tǒng)集成會議是通過各種先進的設(shè)備和技術(shù),實現(xiàn)音頻的清晰傳輸、視頻的高質(zhì)量顯示以及會議的互動功能的會議系統(tǒng),音視頻系統(tǒng)集成會議廣泛應(yīng)用于企業(yè)、政府、教育等領(lǐng)域,用于遠程會議、培訓(xùn)、研討會等場合,節(jié)省時間和成本,提高工作效率。
2、現(xiàn)有的音視頻系統(tǒng)集成會議系統(tǒng),在使用時由于會議參與人員眾多,會議的主講人無法把握每一位與會人員在會議過程中的專注度,并且無法在會議過程中根據(jù)與會人員的專注度獲得當前會議的參與效果,無法根據(jù)現(xiàn)場的實時情況及時做出調(diào)整,存在實用低下的問題,且無法在會議過程中對于專注度低的參與者進行適當提醒,無法對于主講人的會議內(nèi)容進行實時總結(jié),存在功能性低下的問題。
3、針對上述,本案提出一種音視頻系統(tǒng)集成會議系統(tǒng),以解決上述技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。為此,本發(fā)明提出一種音視頻系統(tǒng)集成會議系統(tǒng),通過改善檢測方式和處理方式以解決上述技術(shù)問題。
2、為了實現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、一種音視頻系統(tǒng)集成會議系統(tǒng),包括信息認證模塊、音頻傳輸模塊、視頻傳輸模塊、會議效果檢測模塊、綜合總結(jié)模塊;
4、所述信息認證模塊,基于參與人員的個人信息注冊登錄賬號,并設(shè)置權(quán)限授予功能;
5、所述音頻傳輸模塊,包括音頻采集設(shè)備,負責在會議中進行音頻信號的捕捉、傳輸和處理,確保與會人員能夠清晰地聽到彼此的聲音;
6、所述視頻傳輸模塊,包括高清攝像頭,負責視頻信號的捕捉、傳輸和顯示,確保與會人員能夠清晰地看到彼此的視頻圖像,并傳輸數(shù)據(jù)進入后續(xù)模塊中;
7、所述會議效果檢測模塊,基于音頻傳輸模塊與視頻傳輸模塊的相關(guān)信息,對于參與者的會議效果進行檢測,通過提取參與者的視線,對于參與者的專注度進行評價;
8、所述綜合總結(jié)模塊,通過收集主講人的會議內(nèi)容,結(jié)合音頻傳輸模塊與視頻傳輸模塊的信息,對于會議內(nèi)容進行重點總結(jié)與歸納,并在會議結(jié)束后傳輸總結(jié)內(nèi)容進入?yún)⑴c者的賬號中。
9、進一步的,所述會議效果檢測模塊,基于音頻傳輸模塊與視頻傳輸模塊的相關(guān)信息,對于參與者的會議效果進行檢測,通過提取參與者的視線,對于參與者的專注度進行評價,包括以下步驟:
10、通過參與者設(shè)備的高清攝像頭實時捕捉圖像,基于面部檢測算法識別參與者的面部區(qū)域,并在面部圖像中定位眼睛區(qū)域,提取瞳孔中心,基于眼睛位置和瞳孔中心計算視線方向,同時在會議界面上確定主講人的畫面區(qū)域,建立二維坐標系統(tǒng),將參與者的視線方向映射到主講人畫面上的相應(yīng)位置;
11、基于注視時長與會議進行時間,對于相關(guān)參與人的專注度進行判定與等級劃分,同時收集所有參與人的專注度,計算專注度占比并傳輸至主講人界面處,對于會議效果進行評分。
12、進一步的,通過參與者設(shè)備的高清攝像頭實時捕捉圖像,基于面部檢測算法識別參與者的面部區(qū)域,并在面部圖像中定位眼睛區(qū)域,提取瞳孔中心,基于眼睛位置和瞳孔中心計算視線方向,其具體的步驟為:
13、通過高清攝像頭實時捕捉參與者的圖像if,基于harr級聯(lián)分類器提取圖像中參與者的面部區(qū)域rf,其算法公式為:
14、
15、其中,λ代表harr特征值,是矩形區(qū)域a的像素強度總和,是矩形區(qū)域b的像素強度總和,通過對比不同區(qū)域的像素值來提取面部的特征信息,通過adaboost算法訓(xùn)練級聯(lián)分類器,使用滑動窗口在圖像中移動,并在每個窗口內(nèi)應(yīng)用分類器,每個窗口區(qū)域的特征值會傳遞給級聯(lián)分類器進行面部檢測,識別圖像中的面部區(qū)域rf;
16、通過harr級聯(lián)分類器對rf內(nèi)的圖像進行眼睛區(qū)域re檢測,其中眼睛區(qū)域re為一個矩形框,表示眼睛在面部區(qū)域內(nèi)的位置;
17、通過canny邊緣檢測算法提取眼睛區(qū)域re的邊緣特征,并在邊緣檢測結(jié)果中,找到瞳孔的邊緣,對邊緣檢測結(jié)果應(yīng)用霍夫變換,檢測圓形邊緣,確定瞳孔的中心位置,其具體的算法公式為:
18、
19、其中,e0(x0,y0)代表瞳孔中心坐標,x、y為霍夫圓變換中的圓心坐標,r代表霍夫圓變換中的圓的半徑,v(x,y,r)則是霍夫圓變換中某個圓心坐標(x,y)與半徑r積累的投票數(shù),用于檢測圓心位置;
20、通過計算眼睛中心位置結(jié)合瞳孔中心位置,對于視線方向進行獲取,通過計算眼睛區(qū)域re的幾何中心,獲得眼睛中心位置坐標e1(x1,y1),其算法公式為:
21、
22、其中,xleft、xright分別代表眼睛區(qū)域左邊界的x坐標與眼睛區(qū)域右邊界的x坐標,ytop、ybottom分別代表眼睛區(qū)域上邊界的y坐標與眼睛區(qū)域下邊界的y坐標,視線方向則為瞳孔中心位置與眼睛中心位置之間的矢量:
23、θ=(x0-x1,y0-y1);
24、其中,θ為視線方向,x0代表瞳孔中心的x坐標,x1代表眼睛區(qū)域的幾何中心的x坐標,y0代表瞳孔中心的y坐標,y1代表眼睛區(qū)域的幾何中心的y坐標。
25、進一步的,在會議界面上確定主講人的畫面區(qū)域,建立二維坐標系統(tǒng),將參與者的視線方向映射到主講人畫面上的相應(yīng)位置,包括以下步驟:
26、從會議畫面識別出主講人畫面區(qū)域rs,其中:
27、rs=(xl,yt,xr,yb);
28、其中,xl,yt,xr,yb分別代表主講人區(qū)域的左邊界x坐標、主講人區(qū)域的上邊界y坐標、主講人區(qū)域的右邊界x坐標、主講人區(qū)域的下邊界y坐標,并建立坐標系;
29、基于視線方向θ,將參與者的視線方向映射到主講人畫面上的位置,其算法公式為:
30、y=(x原+k·(x0-x1),y原+k·(y0-y1));
31、其中,y代表映射點,x原、y原代表主講人畫面區(qū)域的坐標系原點,k為縮放因子,用以調(diào)整視線方向的大小以匹配主講人畫面的尺寸;
32、對于映射點坐標進行邊界判定,當:
33、xl≤x原+k·(x0-x1)≤xr且yt≤y原+k·(y0-y1)≤yb時,代表參與人視線在主講人畫面區(qū)域內(nèi),當上述任一不滿足時,則代表參與人視線不在主講人畫面區(qū)域內(nèi)。
34、進一步的,基于注視時長與會議進行時間,對于相關(guān)參與人的專注度進行判定與等級劃分,同時收集所有參與人的專注度,計算專注度占比并傳輸至主講人界面處,對于會議效果進行評分,其具體的步驟為:
35、當映射點坐標滿足:
36、xl≤x原+k·(x0-x1)≤xr且yt≤y原+k·(y0-y1)≤yb時,記錄參與人的注視開始時間和結(jié)束時間,獲得當次注視持續(xù)時間δt:
37、δt=t結(jié)束-t開始;
38、累計當前參與人所有注視事件的時長,其算法公式為:
39、
40、其中,t代表相關(guān)參與人的總注視時長,δti代表第i個注視事件的時長,n是注視事件的總數(shù),記錄當前會議時長δt會議=t會議開始-t當前時間,計算相關(guān)參與人當前專注度:
41、
42、其中,f為相關(guān)參與人當前專注度,基于f的數(shù)值判定相關(guān)參與人的專注度情況:
43、當80<f≤100時,代表相關(guān)參與人專注度高;
44、當60<f≤80時,代表相關(guān)參與人專注度中等;
45、當f≤60時,代表相關(guān)參與人專注度低;
46、記錄獲得專注度高人群數(shù)量a與專注度中等人群數(shù)量b,結(jié)合當前參與會議總?cè)藬?shù)p,計算占比l對于當前會議效果進行評分,并傳輸至主講人界面處,其算法公式為:
47、
48、當70<l≤100時,代表當前會議效果優(yōu)秀;
49、當50<l≤70時,代表當前會議效果一般;
50、當l≤50時,代表當前會議效果很差。
51、進一步的,會議效果檢測模塊中還設(shè)置有提醒系統(tǒng),在會議過程中收集會議內(nèi)容,同時生成簡單判斷題,發(fā)送至參與度低的參與者界面上,進行互動提醒,其具體的步驟為:
52、在會議過程中實時收集會議內(nèi)容,并通過錄音轉(zhuǎn)文本技術(shù)和自然語言處理技術(shù)進行內(nèi)容轉(zhuǎn)化,通過txtrank算法識別會議內(nèi)容中的關(guān)鍵點和重要信息,提取出重要陳述句或信息;
53、通過預(yù)定義模板,并根據(jù)提取出的文本中的信息或陳述句填入模板來生成判斷題,對于f≤60的相關(guān)參與人,按照5分鐘間隔進行題目發(fā)送,同時對于相關(guān)參與人賬號進行標記,其具體的步驟為:
54、對于參與人每次問題獲得時間進行記錄,同時對于每次問題進行標號,對于任三次問題接收時間進行判定:
55、
56、當δt=10時,則代表相關(guān)參與人連續(xù)三次接收到問題提醒,傳輸異常信號進入信息認證模塊中,對于相關(guān)參與人進行紅色標記,其中代表當前收到問題的時間,代表以往后推移兩次獲得問題的時間;
57、記錄相關(guān)參與人當次會議總獲得問題數(shù)量k總,其中:
58、k總=k1+...+ki;
59、其中,ki代表獲得的問題,當k總>6時,傳輸異常信號進入信息認證模塊中,對于相關(guān)參與人進行紅色標記。
60、進一步的,所述綜合總結(jié)模塊,通過收集主講人的會議內(nèi)容,結(jié)合音頻傳輸模塊與視頻傳輸模塊的信息,對于會議內(nèi)容進行重點總結(jié)與歸納,并在會議結(jié)束后傳輸總結(jié)內(nèi)容進入?yún)⑴c者的賬號中,具體的步驟為:
61、通過音頻傳輸模塊收集會議中的主講人的音頻數(shù)據(jù),對于音頻中的音調(diào)進行特征提取,基于音調(diào)的變化分析情感的強度,使用自然語言處理模型提取關(guān)鍵詞,并與音調(diào)變化的時間點進行關(guān)聯(lián),結(jié)合從音調(diào)和文本中提取的信息,使用自然語言生成模型生成會議重點總結(jié)文本;
62、根據(jù)信息認證模塊的信息,獲得會議參與人的郵箱地址,在會議結(jié)束后通過郵件發(fā)送會議重點總結(jié)文本至?xí)h參與人郵箱中。
63、進一步的,所述通過音頻傳輸模塊收集會議中的主講人的音頻數(shù)據(jù),對于音頻中的音調(diào)進行特征提取,基于音調(diào)的變化分析情感的強度,使用自然語言處理模型提取關(guān)鍵詞,并與音調(diào)變化的時間點進行關(guān)聯(lián),結(jié)合從音調(diào)和文本中提取的信息,使用自然語言生成模型生成會議重點總結(jié)文本,其具體的步驟為:
64、通過音頻傳輸模塊收集會議中的主講人的音頻數(shù)據(jù),對于音頻數(shù)據(jù)進行音調(diào)提取,包括以下步驟:
65、將音頻信號分成短時間窗,對每個窗應(yīng)用傅里葉變換,得到頻譜信息,涉及以下公式為:
66、
67、其中,x(t,f)代表在時間t和頻率f下的頻譜信息,x(n)代表音頻信號在時間點n的值,ω(n-t)代表窗函數(shù),e-2jπfn為復(fù)指數(shù)函數(shù),n代表離散時間索引;
68、通過對頻譜進行分析得到基頻,即音調(diào):
69、
70、其中,r(τ)代表自相關(guān)函數(shù),x(t)為音頻信號在時間點t的值,x(t+τ)代表音頻信號在時間點t+τ的值,τ為時間延遲,n代表信號的總樣本數(shù);
71、找到自相關(guān)函數(shù)r(τ)的第一個主要峰值,即最大值對應(yīng)的延遲τmax,計算獲得基頻f0:
72、
73、基于獲得的基頻數(shù)據(jù),檢測音調(diào)的波動與突變:
74、δf0(t)=|f0(t)-f0(t-δt)|;
75、其中,δf0(t)代表時間t時刻的音調(diào)變化量,f0(t)代表時間t時刻的基頻,f0(t-δt)為時間t-δt時刻的基頻,δt代表時間間隔,用于計算音調(diào)變化;
76、通過自然語言處理模型nlp中的自動語音識別系統(tǒng)asr將會議音頻轉(zhuǎn)換為文本,通過tf-idf從轉(zhuǎn)錄文本中提取關(guān)鍵詞,將音調(diào)變化的時間點與關(guān)鍵詞提取的文本時間點進行對齊,結(jié)合音調(diào)變化和關(guān)鍵詞提取結(jié)果識別重點內(nèi)容:
77、s(i)=α·δf0(i)+β·t(i);
78、其中,s(i)代表第i個時間段的重點內(nèi)容評分,δf0(i)代表第i個時間段的音調(diào)變化量,t(i)代表第i個時間段的關(guān)鍵詞tf-idf分數(shù),α、β代表權(quán)重系數(shù),根據(jù)重點內(nèi)容評分提取會議的主要內(nèi)容,通過自然語言生成模型nlg來生成連貫的總結(jié),即會議重點總結(jié)文本。
79、進一步的,所述信息認證模塊,基于參與人員的個人信息注冊登錄賬號,包括手機號、郵箱,通過管理員賬號對于特殊賬號發(fā)放權(quán)限,包括主講人、特邀嘉賓,并設(shè)置權(quán)限授予功能,包括發(fā)言權(quán)限、屏幕共享權(quán)限;
80、所述音頻傳輸模塊,包括音頻采集設(shè)備、麥克風(fēng)陣列,負責在會議中進行音頻信號的捕捉、傳輸和處理,同時集成噪音消除和回聲抑制技術(shù),使用過程中根據(jù)網(wǎng)絡(luò)狀況自動調(diào)整音頻傳輸參數(shù),避免延遲和丟包,確保與會人員能夠清晰地聽到彼此的聲音;
81、所述視頻傳輸模塊,包括高清攝像頭,通過對高清攝像頭的管理和控制,負責高清視頻的捕捉和傳輸,確保與會人員能夠清晰地看到彼此的視頻圖像,并傳輸視頻數(shù)據(jù)進入會議效果檢測模塊中。
82、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
83、1、在本發(fā)明中,通過設(shè)置會議效果檢測模塊,通過對于會議過程中參與人的視線方向進行獲取,結(jié)合主講人的畫面分析參與人的視線位置,對于參與人在會議過程中的專注度進行評價,從而客觀評價與會人員在會議過程中的專注度,通過實時監(jiān)測調(diào)動與會人員的主觀能動性;
84、2、在本發(fā)明中,通過對于所有與會人員的專注度進行收集,在會議過程中對于當前會議效果進行評分,實時獲取整個會議的效果情況,并傳輸至主講人界面處,便于主講人根據(jù)會議的實際情況掌握會議節(jié)奏,調(diào)整會議內(nèi)容的深度和節(jié)奏;
85、3、在本發(fā)明中,通過及時獲取專注度數(shù)據(jù),主講人可以有效控制和維持參與者的專注狀態(tài),減少會議中的分心現(xiàn)象,進一步提升會議質(zhì)量,增強了該系統(tǒng)的功能性與實用性。
86、4、在本發(fā)明中,通過對于參與人會議過程中的專注度進行等級劃分,基于固定的時間間隔對于低參與度的參與人,生成會議相關(guān)簡單判斷題并發(fā)送至參與人界面處,能夠在參與者的注意力下降時引起他們的關(guān)注,幫助他們重新集中注意力,從而提高會議參與度;
87、5、在本發(fā)明中,針對多次注意力不集中的參與人,對于相關(guān)參與人的賬號檔案進行標記,便于主講人與這些參與者的進一步溝通,幫助會議組織者和主講人更好地管理和調(diào)整會議;
88、6、在本發(fā)明中,通過設(shè)置綜合總結(jié)模塊,基于主講人的音調(diào)以及會議內(nèi)容,生成會議重點內(nèi)容總結(jié)文本并傳輸至每一位與會人員的郵箱中,為與會人員提供清晰、簡潔的會議總結(jié),有助于他們快速回顧和理解會議的核心內(nèi)容;
89、整個音視頻系統(tǒng)集成會議系統(tǒng),能夠?qū)崿F(xiàn)音視頻傳輸、專注度檢測、會議內(nèi)容總結(jié),有效提高了會議的互動性和效果,有助于提高音視頻會議的效果,提高與會人員在會議過程中的參與度。