本發(fā)明涉及的圖像通信,尤其涉及一種基于虛擬現(xiàn)實的音樂協(xié)同播放系統(tǒng)及方法。
背景技術:
1、近年來,隨著人工智能技術的迅猛崛起,手機、電腦逐漸成為人們必不可缺的生活用品,在使用手機、電腦進行工作或者休閑娛樂時,播放音樂已經(jīng)成為了大多數(shù)人的習慣。
2、目前,申請?zhí)枮?01110460491.4的中國發(fā)明專利,提供了一種基于場景的音樂播放處理方法和音樂播放設備,可以預先在音樂播放設備上存儲特征信息與音樂列表的映射關系,通過獲取應用場景的特征信息,若能夠根據(jù)特征信息與音樂列表的映射關系確定與應用場景對應的音樂列表,則播放音樂列表中的音樂內容,從而使音樂播放設備所播放的音樂內容能夠實現(xiàn)基于應用場景的自動切換,提高用戶的體驗度,但是對于相同的場景容易出現(xiàn)音樂播放重復率過高,并且沒有根據(jù)播放結果對音樂列表和特征信息的映射關系進行調整,不能保證音樂播放的準確性,同時進行音頻播放調整時,還需要用戶進行手動切換,降低了用戶的使用體驗。
技術實現(xiàn)思路
1、本發(fā)明解決的技術問題是:現(xiàn)有技術對于相同的場景容易出現(xiàn)音樂播放重復率過高,并且沒有根據(jù)播放結果對音樂列表和特征信息的映射關系進行調整,不能保證音樂播放的準確性,同時進行音頻播放調整時,還需要用戶進行手動切換,降低了用戶的使用體驗。
2、為解決上述技術問題,第一方面,本發(fā)明提供了一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法,包括以下步驟:
3、步驟s1,實時采集現(xiàn)場全景視頻和現(xiàn)場音頻;
4、步驟s2,捕捉現(xiàn)場全景視頻中的人物活動、識別視頻背景并獲取現(xiàn)場音頻頻率,利用機器學習模型分析獲取活動關鍵詞、背景關鍵詞和情緒關鍵詞,將活動關鍵詞、背景關鍵詞和活動關鍵詞構建關鍵詞組;
5、步驟s3,根據(jù)關鍵詞組從數(shù)據(jù)庫匹配獲取適配音頻,通過適配音頻的重播率判斷是否更換適配音頻,利用協(xié)同過濾推薦算法通過對相似用戶分析,重新獲取適配音頻,并根據(jù)現(xiàn)場音頻音量調節(jié)適配音頻頻率;
6、步驟s4,播放適配音頻,及時捕捉現(xiàn)場全景視頻中的人物情緒,根據(jù)人物情緒波動獲取播放滿意度,并根據(jù)播放滿意度調整音頻關鍵詞組中的關鍵詞權重;
7、步驟s5,實時監(jiān)測現(xiàn)場全景視頻中的人物動作,當識別到特定動作自動調整適配音頻播放;
8、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
9、所述步驟s2具體包括以下步驟:
10、步驟s201,利用人像分割技術對現(xiàn)場全景視頻進行人物和背景的分離,獲取人物頻段和背景頻段;
11、步驟s202,利用目標檢測算法分別抓取人物頻段中的各個人物目標,通過動作識別技術識別目標人物的動作,并獲取動作對應的活動關鍵詞;
12、步驟s203,通過人臉識別模型獲取目標人物的人臉區(qū)域的圖像矩陣,作為表情識別的輸入圖像,獲取目標人物的情緒關鍵詞;
13、步驟s204,利用背景識別模型獲取背景頻段的背景關鍵詞;
14、步驟s205,將活動關鍵詞、情緒關鍵詞和背景關鍵詞按照一定權重配比構建關鍵詞組;
15、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
16、所述步驟s3具體包括以下步驟:
17、步驟s301,根據(jù)關鍵詞組匹配音頻,獲取適配音頻;
18、步驟s302,獲取適配音頻在本地的重播率,若重播率大于預期閾值,則根據(jù)用戶畫像的靜態(tài)屬性和動態(tài)屬性獲取該用戶的相似用戶,所述靜態(tài)屬性包括,所述動態(tài)屬性包括性別、年齡、地理位置和喜歡的歌手,所述動態(tài)屬性包括用戶歷史操作記錄;
19、步驟s303,從相似用戶的歷史播放記錄中根據(jù)關鍵詞組重新獲取適配音頻;
20、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
21、所述步驟s4具體包括:
22、步驟s401,播放適配音頻;
23、步驟s402,通過現(xiàn)場音頻獲取現(xiàn)場聲音頻率,并根據(jù)現(xiàn)場聲音頻率調節(jié)適配音頻播放頻率;
24、步驟s403,截取適配音頻播放后單位時間內的現(xiàn)場全景視頻;
25、步驟s404,獲取現(xiàn)場全景視頻的關鍵幀;
26、步驟s405,利用人臉識別模型獲取關鍵幀中目標人物的人臉區(qū)域的圖像矩陣;
27、步驟s406,將圖像矩陣輸入表情識別模型,獲取各個關鍵幀的目標人物的情緒關鍵詞,通過將情緒關鍵詞進行對比得到目標人物的情緒波動情況,并根據(jù)目標人物的情緒波動情況獲取適配音頻的播放滿意度;
28、步驟s407,根據(jù)播放滿意度的值調整適配音頻的關鍵詞組中的關鍵詞權重,若播放滿意度的值大于等于某一預期閾值,則根據(jù)播放滿意度的值增大適配音頻的關鍵詞組的關鍵詞權重,若播放滿意度的值小于等于預期閾值,則根據(jù)播放滿意度的值減小適配音頻的關鍵詞組的關鍵詞權重;
29、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
30、所述步驟s5具體包括以下步驟:
31、步驟s501,實時監(jiān)測現(xiàn)場全景視頻中的人物動作;
32、步驟s502,將人物動作與設定的播放調整動作進行對比,獲取動作相似度,若動作相似度大于等于預期閾值,則根據(jù)播放調整動作對應的播放調整指令調整適配音頻播放;
33、所述播放調整指令包括切歌指令、頻率調節(jié)指令和倍速調節(jié)指令;
34、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
35、所述步驟s202具體包括以下步驟:
36、步驟s2021,將人體動作數(shù)據(jù)集進行預處理和數(shù)據(jù)集標注后,輸入機器學習模型進行訓練,獲取動作識別模型;
37、步驟s2022,利用圖像識別技術對人物頻段進行關鍵點識別,獲得識別出的動作關鍵點對應的動作組架節(jié)點;
38、步驟s2023,將動作組架節(jié)點輸入動作識別模型,獲取對應的活動關鍵詞;
39、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
40、所述步驟s203具體包括以下步驟:
41、步驟s2031,獲取人臉數(shù)據(jù)集和非人臉數(shù)據(jù)集,將人臉數(shù)據(jù)集和非人臉數(shù)據(jù)集經(jīng)過數(shù)據(jù)處理后輸入機器學習模型,經(jīng)過訓練獲取人臉識別模型;
42、步驟s2032,將人物頻段輸入人臉識別模型,獲取目標人物的人臉區(qū)域的圖像矩陣;
43、步驟s2033,獲取人臉區(qū)域數(shù)據(jù)集,將人臉區(qū)域數(shù)據(jù)集經(jīng)過標注后輸入機器學習模型進行訓練,獲取表情識別模型;
44、步驟s2034,將目標人物的人臉區(qū)域的圖像矩陣輸入表情識別模型,獲取目標人物的情緒關鍵詞;
45、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放方法的一種優(yōu)選方案,其中:
46、所述步驟s301包括:
47、步驟s3011,獲取音頻數(shù)據(jù)包,針對音頻數(shù)據(jù)包進行數(shù)據(jù)預處理和關鍵詞標注,將關鍵詞標注后的音頻數(shù)據(jù)包輸入機器學習模型進行訓練,獲取音頻特征提取模型,對數(shù)據(jù)庫中的音頻進行關鍵詞提??;
48、步驟s3012,將關鍵詞組與數(shù)據(jù)庫音頻進行匹配;
49、步驟s3013,若關鍵詞組與數(shù)據(jù)庫音頻的關鍵詞的匹配度大于預期閾值,則將匹配音頻按照匹配度從高到低組成音頻播放單,按照音頻播放單的順序播放適配音頻。
50、第二方面,一種基于虛擬現(xiàn)實的音樂協(xié)同播放系統(tǒng),包括采集模塊、音樂推薦模塊和音樂播放模塊;
51、所述采集模塊用于實時采集現(xiàn)場全景視頻和現(xiàn)場音頻;
52、所述音樂推薦模塊用于根據(jù)現(xiàn)場全景視頻獲取現(xiàn)場關鍵詞組,并根據(jù)關鍵詞組獲取適配音頻;
53、所述音樂播放模塊用于播放適配音頻并根據(jù)現(xiàn)場音頻頻率調節(jié)音頻頻率和根據(jù)人物動作調整音頻播放;
54、作為本發(fā)明所述的一種基于虛擬現(xiàn)實的音樂協(xié)同播放系統(tǒng)及方法的一種優(yōu)選方案,其中:
55、所述音樂推薦模塊包括現(xiàn)場推薦單元和相似用戶推薦單元;
56、所述現(xiàn)場推薦單元用于對現(xiàn)場全景視頻進行分析獲取活動關鍵詞、情緒關鍵詞和背景關鍵詞,并根據(jù)活動關鍵詞、情緒關鍵詞和背景關鍵詞按照一定權重構建關鍵詞組,根據(jù)關鍵詞組匹配適配音頻;
57、所述用戶推薦單元用于在適配音頻的重播率大于某一預期閾值時,獲取用戶的相似用戶中關鍵詞組對應的適配音頻;
58、所述音樂播放模塊包括播放單元和反饋單元;
59、所述播放單元用于根據(jù)音頻播放單播放適配音頻,根據(jù)現(xiàn)場音頻頻率調節(jié)適配音頻頻率,并通過實時監(jiān)測人物動作調整音頻播放;
60、所述反饋單元用于通過適配音頻播放后人物情緒波動情況獲取適配音頻的播放滿意度,并根據(jù)適配音頻的播放滿意度調節(jié)適配音頻對應的關鍵詞組中的相應關鍵詞的權重。
61、本發(fā)明的有益效果:本發(fā)明通過實時采集現(xiàn)場全景視頻和現(xiàn)場音頻獲取場景信息,并根據(jù)場景推薦適配音樂,提高了場景和音樂的匹配度,節(jié)省了用戶挑選音樂的時間,提高了用戶的體驗度;
62、通過對適配音樂播放后現(xiàn)場全景視頻中的目標人物進行情緒分析,獲取適配音樂的播放滿意度,并根據(jù)播放滿意度調整適配音樂的關鍵詞組的關鍵詞權重;
63、當適配音樂的重播率大于預期閾值,則搜索用戶的相似用戶,根據(jù)關鍵詞組從相似用戶的歷史播放音頻中獲取適配音頻,解決了播放音頻傾向于單一的問題;通過對現(xiàn)場全景視頻中的人物動作的實時監(jiān)測,完成通過人體動作調整音頻播放,提高了音樂播放的便利性和互動性。