智能音視頻采集分析裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本實(shí)用新型涉及一種音視頻采集裝置,特別是涉及一種智能音視頻采集分析裝置。
【背景技術(shù)】
[0002]電影越來越受大眾的喜愛,電影播放數(shù)理的激增,電影內(nèi)容的監(jiān)管,票房的統(tǒng)計(jì),都存在很多問題,目前的管理主要依靠人力,人工的管理方法受到了很大的制約,統(tǒng)計(jì)過程由于各種原因會(huì)有誤差,所以使用人工智能、機(jī)器識(shí)別的方法在觀影場(chǎng)景中急需解決。
【實(shí)用新型內(nèi)容】
[0003]本實(shí)用新型目的在于克服現(xiàn)有技術(shù)的上述缺陷,提供一種能夠自動(dòng)采集分析放映時(shí)音視頻的智能音視頻采集分析裝置。
[0004]為實(shí)現(xiàn)上述目的,本實(shí)用新型智能音視頻采集分析裝置包括配接電源管理器的中央處理單元,所述中央處理單元連接用于采集觀影現(xiàn)場(chǎng)聲音的音頻采集模塊、用于采集屏幕圖像的視頻圖像采集模塊、數(shù)據(jù)存儲(chǔ)模塊、網(wǎng)絡(luò)控制器。具有能夠自動(dòng)采集分析放映時(shí)音視頻,顯著提高影片播放內(nèi)容管理和票房統(tǒng)計(jì)效率及精度的優(yōu)點(diǎn)。
[0005]作為優(yōu)化,所述網(wǎng)絡(luò)控制器通過通訊網(wǎng)絡(luò)連接數(shù)據(jù)庫服務(wù)器。
[0006]作為優(yōu)化,所述中央處理單元連接用于捕捉觀眾運(yùn)動(dòng)情況的運(yùn)動(dòng)檢測(cè)模塊。
[0007]作為優(yōu)化,所述運(yùn)動(dòng)檢測(cè)模塊配用觀眾區(qū)圖像運(yùn)動(dòng)檢測(cè)器。
[0008]作為優(yōu)化,所述中央處理單元配接有用于工作環(huán)境空氣質(zhì)量檢測(cè)的空氣質(zhì)量檢測(cè)豐旲塊。
[0009]作為優(yōu)化,所述空氣質(zhì)量檢測(cè)模塊配置有空氣溫度傳感器、空氣濕度傳感器。
[0010]作為優(yōu)化,所述空氣質(zhì)量檢測(cè)模塊配置有空氣中二氧化碳濃度檢測(cè)傳感器。
[0011 ] 作為優(yōu)化,所述電源管理器配置有鋰電池蓄電電源。
[0012]作為優(yōu)化,所述音頻采集模塊配置有音頻傳感器。
[0013]作為優(yōu)化,所述視頻圖像采集模塊配置有屏幕圖像攝像機(jī)。
[0014]該裝置是為了代替人工工作而進(jìn)行的一次創(chuàng)新。基于音頻分析的原理和數(shù)字信號(hào)處理的理論,使用頻譜分析的方法對(duì)聲音進(jìn)行處理;而圖像的分析是在機(jī)器視覺識(shí)別的基礎(chǔ)上,把圖像的對(duì)比相似度做為視頻內(nèi)容的核心分析方法;將圖像圖形音頻分析功能實(shí)現(xiàn)嵌入式設(shè)備上,對(duì)電影放映過程中的放映內(nèi)容的跟蹤分析。實(shí)現(xiàn)人工智能在電影行業(yè)的應(yīng)用。
[0015]功能組成的補(bǔ)充說明:
[0016]音頻和視頻采集做為系統(tǒng)的主要功能,輔助功能包括運(yùn)動(dòng)檢測(cè),裝置工作環(huán)境的空氣質(zhì)量檢測(cè),以及系統(tǒng)電源管理功能,采集數(shù)據(jù)的本地存儲(chǔ)及網(wǎng)絡(luò)傳輸
[0017]設(shè)備具有以下的智能分析能力,根據(jù)采集到的聲音信息通過智能的分析方法,確定該聲音所具有的某些屬性,這些屬性包括聲音傳達(dá)出的語意,附加的情緒,以及其他一些特征。另一個(gè)重要的分析能力是確定環(huán)境所發(fā)出的聲音有聲音樣本的相似程度,即確定兩個(gè)聲音的物理屬性的相似特征。
[0018]圖像的特征智能分析,圖像的分析主要是對(duì)采集到的圖像進(jìn)行信息篩選,模式識(shí)另O,關(guān)鍵信息的提取,信息篩選是在拍攝場(chǎng)景中提取物體的特征,包括輪廓,二維信息。模式是在場(chǎng)景下整幅圖所呈現(xiàn)的一種屬性,
[0019]音視頻采集轉(zhuǎn)置包括以下部分,音頻傳感器,圖像傳感器,運(yùn)動(dòng)檢測(cè)器,空氣質(zhì)量傳感器,處理器,數(shù)據(jù)存儲(chǔ),鋰電池及電源管理,網(wǎng)絡(luò)控制器。
[0020]其使用一種嵌入式系統(tǒng),設(shè)備具有聲音采集,視頻采集能力,收集到的聲音、圖像以壓縮的文件格式保存于設(shè)備中,設(shè)備并具有網(wǎng)絡(luò)通信能力,連接到數(shù)據(jù)庫服務(wù)器,在必要情況下可以將源聲音,源圖像保存到服務(wù)器,視頻采集的主要對(duì)象是投射屏幕上顯示的內(nèi)容,這樣的圖像采集方式使得到的圖像與原始視頻圖像存在信息的失真,圖像采集過程,采集裝置安裝于屏幕上邊緣外,屏幕的成像出現(xiàn)梯形形變,由此帶來的失真,使用軟件的圖形修正算法實(shí)現(xiàn)圖像還原。
[0021]解決的技術(shù)問題還有:
[0022]I)圖像的二次采集造成的失真:在實(shí)際的電影放映中,影像的場(chǎng)景切換頻繁,屏幕的光線變換比較劇烈,由此對(duì)攝像頭的要求較高,理論用于圖像分析的圖像,分辨率越高越好,但是高分辨率的圖片采集過程會(huì)對(duì)系統(tǒng)造成沉重的負(fù)擔(dān),實(shí)際上測(cè)試1280x1080分辨率的圖片,可以很好的還原圖像細(xì)節(jié)信息,在滿足系統(tǒng)的對(duì)圖像分辨率的要求情況,選用200萬像素的COMS圖像傳感器。
[0023]2)圖像米樣速率:數(shù)字影院放映的影片只能有兩種幀率,24fps和48fps。在觀影效果上,幀率越高,看到的畫面越細(xì)致,但對(duì)于機(jī)器識(shí)別來說,同場(chǎng)景下相鄰兩幀的所呈現(xiàn)的有效信息差別不大。高幀率采樣意義不大。所以在采樣速率上采用了可變的采樣速率,以適應(yīng)圖像分析的需求,同時(shí)降低系統(tǒng)的資源開銷。
[0024]3)圖像相似度比對(duì)算法和音頻比對(duì)相結(jié)合解決翻拍圖像識(shí)別困難的問題:用到了圖像匹配技術(shù)和圖像數(shù)字提取技術(shù)。在實(shí)現(xiàn)圖像匹配時(shí),使用了 SIFT特征匹配算法。SIFT特征匹配算法主要有以下四步,(I)首先建立圖像的DOG金字塔,在DOG尺度空間的26個(gè)鄰域中本層檢測(cè)極值,一個(gè)點(diǎn)如果在DOG尺度空間本層以及上下兩層的26個(gè)鄰域中是最大或最小值時(shí),就認(rèn)為該點(diǎn)是圖像在該尺度下的一個(gè)特征點(diǎn)。(2)利用特征點(diǎn)鄰域像素的梯度方向分布特性,為每個(gè)關(guān)鍵點(diǎn)指定方向參數(shù),使算子具備旋轉(zhuǎn)不變性。(3)生成SIFT特征向量,將坐標(biāo)軸旋轉(zhuǎn)到特征點(diǎn)方向,以保證旋轉(zhuǎn)不變性。(4)圖像匹配,當(dāng)兩幅圖的SIFT特征向量生成后,就采用歐式距離作為兩幅圖中關(guān)鍵點(diǎn)的相似性度量,當(dāng)次距離小于某個(gè)閾值時(shí)就認(rèn)為兩個(gè)點(diǎn)已經(jīng)匹配上。
[0025]單一的圖像匹配存在誤差,所以系統(tǒng)輔助采用語音匹配技術(shù),用二階Haar小波變換壓縮原始音頻,以音頻幀的方式提取出能代表音頻主要信息特征的質(zhì)心、均方根和前12個(gè)Mel倒譜系數(shù),并分別計(jì)算這3類參數(shù)的歐式距離,比較歐式距離的值與閾值ε之間的關(guān)系完成首頻間的比對(duì)任務(wù)。
[0026]通過實(shí)際環(huán)境的測(cè)試,圖像和音頻結(jié)合的判識(shí)方法有效的解決了現(xiàn)實(shí)的問題。
[0027]采用上述技術(shù)方案后,本實(shí)用新型智能音視頻采集分析裝置具有能夠自動(dòng)采集分析放映時(shí)音視頻,顯著提高影片播放內(nèi)容管理和票房統(tǒng)計(jì)效率及精度的優(yōu)點(diǎn)。
【附圖說明】
[0028]圖1是本實(shí)用新型智能音視頻采集分析裝置的電路原理圖。
【具體實(shí)施方式】
[0029]如圖所示,本實(shí)用新型智能音視頻采集分析裝置包括配接電源管理器8的中央處理單元1,所述中央處理單元1