本發(fā)明屬于物聯(lián)網(wǎng),具體為基于圖像與聲音識(shí)別的校園安全防范系統(tǒng)。
背景技術(shù):
1、隨著社會(huì)的發(fā)展,校園危害事件屢見不鮮,給受害者帶來身心傷害,也給學(xué)校和社會(huì)帶來負(fù)面影響。現(xiàn)有的校園安防措施主要是通過人工巡查和監(jiān)控?cái)z像頭,但這種方式存在識(shí)別率低、反應(yīng)遲鈍等問題,難以有效預(yù)防和及時(shí)制止校園危害行為。
2、現(xiàn)有技術(shù)中,校園安防措施依賴人工巡查和監(jiān)控?cái)z像頭,但這種方法受限于人類視覺和聽覺的敏感度和準(zhǔn)確性,很難及時(shí)發(fā)現(xiàn)并準(zhǔn)確判斷校園危害行為,由于需要人工干預(yù),一旦發(fā)生校園危害事件,相關(guān)部門的反應(yīng)速度往往不夠迅速,難以及時(shí)制止事件的發(fā)生;人工巡查存在盲區(qū),一些私密或不易察覺的區(qū)域可能成為校園危害的高發(fā)地帶。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于圖像與聲音識(shí)別的校園安全防范系統(tǒng),以解決背景技術(shù)中提出的現(xiàn)有技術(shù)中,通過人工巡查和監(jiān)控?cái)z像頭來巡查校園危害的方式存在識(shí)別率低、反應(yīng)遲鈍以及難以覆蓋所有區(qū)域的問題。
2、為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:
3、基于圖像與聲音識(shí)別的校園安全防范系統(tǒng),包括以下模塊:
4、視頻采集模塊:用于公共區(qū)域的視頻信息采集;
5、聲音采集模塊:用于隱私區(qū)域的聲音信息采集;
6、圖像識(shí)別模塊:用于對(duì)視頻采集模塊的視頻數(shù)據(jù)進(jìn)行圖像識(shí)別,識(shí)別校園危害行為;
7、聲音識(shí)別模塊:用于對(duì)聲音采集模塊采集的聲音數(shù)據(jù)進(jìn)行識(shí)別,包括識(shí)別呼救、尖叫以及特殊求救詞;
8、數(shù)據(jù)處理模塊:用于對(duì)圖像識(shí)別模塊和聲音識(shí)別模塊的結(jié)果進(jìn)行處理,判斷是否發(fā)生校園危害;
9、防范措施執(zhí)行模塊:根據(jù)數(shù)據(jù)處理單元的判斷結(jié)果,執(zhí)行相應(yīng)的防范措施。
10、根據(jù)上述技術(shù)方案,圖像識(shí)別模塊對(duì)采集的視頻數(shù)據(jù)以及聲音數(shù)據(jù)進(jìn)行處理;
11、視頻數(shù)據(jù)處理具體為:
12、步驟s1,首先,將采集到的視頻數(shù)據(jù)進(jìn)行分解,將視頻數(shù)據(jù)分解成單獨(dú)的圖像幀;
13、步驟s2,將分解得到的圖像幀進(jìn)行預(yù)處理;預(yù)處理具體包括:
14、步驟s201,攝像頭捕獲視頻流;首先,使用攝像頭捕獲視頻流;
15、步驟s202,幀提取,從視頻流中提取出單個(gè)幀作為圖像進(jìn)行處理;
16、步驟s203,圖像預(yù)處理,以提高圖像識(shí)別的效果和效率;
17、步驟s3,對(duì)處理完成的圖像幀,通過卷積神經(jīng)網(wǎng)絡(luò)提取特征具體為:
18、特征包括顏色、形狀、紋理及更復(fù)雜的特征映射;提取的特征用于圖片幀的分類、目標(biāo)檢測(cè)、目標(biāo)識(shí)別及視頻中的目標(biāo)跟蹤;
19、步驟s4,使用yolo識(shí)別模型對(duì)圖像幀中的動(dòng)作進(jìn)行識(shí)別,yolo通過將整個(gè)圖像分成網(wǎng)格并在每個(gè)網(wǎng)格中預(yù)測(cè)邊界框和類別來實(shí)現(xiàn)目標(biāo)檢測(cè);使用yolo進(jìn)行目標(biāo)檢測(cè)時(shí),將其應(yīng)用于視頻數(shù)據(jù)中的每一幀,并在連續(xù)幀之間進(jìn)行跟蹤,以實(shí)現(xiàn)目標(biāo)的持續(xù)追蹤;
20、聲音數(shù)據(jù)進(jìn)行處理具體為:對(duì)聲音數(shù)據(jù)進(jìn)行濾波、降噪以及特征提取,以減少噪音;從聲音數(shù)據(jù)中提取聲音特征;包括聲音頻率、聲音傅里葉變換、梅爾頻譜特征以及聲音強(qiáng)度。
21、根據(jù)上述技術(shù)方案,步驟s203中,圖像預(yù)處理具體為:
22、步驟s2031,縮放圖像目標(biāo)尺寸:使用yolov5模型,設(shè)定一個(gè)目標(biāo)尺寸;使用雙線性插值或其他插值方法對(duì)圖像進(jìn)行縮放,以保持圖像的清晰度;
23、步驟s2032,填充圖像,計(jì)算填充量;為了使縮放后的圖像符合模型輸入尺寸,通常在圖像的短邊進(jìn)行填充;填充量取決于縮放后的圖像尺寸和模型輸入尺寸的差異;
24、步驟s2033,顏色空間轉(zhuǎn)換bgr到rgb;
25、步驟s2034,歸一化數(shù)值范圍:將圖像的像素值從0-255的整數(shù)范圍轉(zhuǎn)換為0-1的浮點(diǎn)數(shù)范圍;歸一化公式:img_normalized=img/255.0。
26、根據(jù)上述技術(shù)方案,步驟s3中,通過卷積神經(jīng)網(wǎng)絡(luò)提取特征具體為:
27、步驟s301,輸入層將原始圖像數(shù)據(jù)作為輸入;這些圖像數(shù)據(jù)通常被歸一化到[0,1]或[-1,1]的范圍;
28、步驟s302,卷積層卷積操作:使用多個(gè)可學(xué)習(xí)的卷積核(在輸入圖像上滑動(dòng),進(jìn)行點(diǎn)積運(yùn)算;將卷積操作的結(jié)果通過非線性激活函數(shù)進(jìn)行非線性變換;
29、步驟s303,在卷積層之后,添加池化層來減少數(shù)據(jù)的空間大小,從而減少計(jì)算量和參數(shù)數(shù)量,同時(shí)保留重要特征;
30、步驟s304,多個(gè)卷積層和池化層的堆疊會(huì)堆疊多個(gè)卷積層和池化層,以提取更高級(jí)別的特征,隨著層數(shù)的增加,網(wǎng)絡(luò)能夠捕獲更復(fù)雜的模式和結(jié)構(gòu);
31、步驟s305,在卷積和池化層之后,添加一或多個(gè)全連接層,用于對(duì)特征進(jìn)行進(jìn)一步處理;
32、步驟s306,輸出層,輸出層用于產(chǎn)生最終的預(yù)測(cè)結(jié)果;
33、步驟s307,訓(xùn)練過程;在訓(xùn)練過程中,網(wǎng)絡(luò)會(huì)通過反向傳播算法(backpropagation)和梯度下降(gradient?descent)優(yōu)化算法來更新權(quán)重和偏置項(xiàng),以最小化損失函數(shù)(loss?function);
34、步驟s308,特征提取在訓(xùn)練完成后,使用訓(xùn)練好的cnn模型來提取特征。
35、根據(jù)上述技術(shù)方案,步驟s4中,使用yolo識(shí)別模型對(duì)圖像幀中的動(dòng)作進(jìn)行識(shí)別具體為:
36、步驟s401,將輸入圖像分割成s×s個(gè)網(wǎng)格;每個(gè)網(wǎng)格預(yù)測(cè)b個(gè)邊界框(boundingbox)以及每個(gè)邊界框的置信度和類別概率;通過非極大值抑制(nms)算法去除重疊的邊界框,得到最終的檢測(cè)結(jié)果;
37、步驟s402,目標(biāo)檢測(cè);首先,使用yolo模型對(duì)輸入圖像進(jìn)行目標(biāo)檢測(cè),得到目標(biāo)的位置和類別;
38、特征提取,從檢測(cè)到的目標(biāo)中提取出有意義的特征,特征包括目標(biāo)的形狀、大小、位置、運(yùn)動(dòng)軌跡等;
39、動(dòng)作分類,將提取出的特征輸入到一個(gè)動(dòng)作分類器中,進(jìn)行分類訓(xùn)練或預(yù)測(cè)。
40、時(shí)序分析,對(duì)于視頻中的動(dòng)作識(shí)別,還需要考慮目標(biāo)在時(shí)序上的變化,通過分析連續(xù)幀中目標(biāo)的位置和特征變化來識(shí)別動(dòng)作。
41、根據(jù)上述技術(shù)方案,完成對(duì)視頻數(shù)據(jù)以及聲音數(shù)據(jù)處理后,進(jìn)行特征融合;特征融合具體為:將從圖像和聲音數(shù)據(jù)中提取的特征進(jìn)行融合,形成一個(gè)綜合的特征向量或表示,用于捕捉圖像和聲音之間的相關(guān)性和互補(bǔ)性。
42、根據(jù)上述技術(shù)方案,使用融合后的特征向量訓(xùn)練機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型,具體為:
43、首先,需要從圖像和聲音數(shù)據(jù)中分別提取特征,并將這些特征融合成一個(gè)綜合的特征向量;這個(gè)過程通過拼接(concatenation)、加權(quán)平均、或者更復(fù)雜的特征融合來實(shí)現(xiàn)。
44、數(shù)據(jù)準(zhǔn)備標(biāo)簽化:確保數(shù)據(jù)集已經(jīng)被正確地標(biāo)簽化,即每個(gè)樣本都有與之對(duì)應(yīng)的類別標(biāo)簽或連續(xù)值;
45、數(shù)據(jù)預(yù)處理:對(duì)特征向量進(jìn)行必要的預(yù)處理,如歸一化、標(biāo)準(zhǔn)化或特征縮放,以確保不同的特征在數(shù)值上具有可比性;
46、劃分?jǐn)?shù)據(jù)集:將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于調(diào)整超參數(shù)和進(jìn)行早停(early?stopping),測(cè)試集用于評(píng)估模型的性能;
47、訓(xùn)練模型設(shè)置損失函數(shù):選擇損失函數(shù);
48、優(yōu)化算法:使用隨機(jī)梯度下降來更新模型的參數(shù);
49、訓(xùn)練過程:使用訓(xùn)練數(shù)據(jù)迭代地更新模型的參數(shù),直到模型在驗(yàn)證集上的性能達(dá)到最佳或滿足其他停止條件。
50、評(píng)估模型使用測(cè)試集來評(píng)估模型的性能;部署模型。
51、根據(jù)上述技術(shù)方案,危害行為判斷:當(dāng)模型識(shí)別出事件同時(shí)出現(xiàn)在圖像和聲音數(shù)據(jù)中,那么數(shù)據(jù)處理單元判斷危害行為存在,需要制止。
52、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
53、在本發(fā)明中,采用了圖像與聲音識(shí)別技術(shù),提高了校園危害行為的識(shí)別的準(zhǔn)確率,實(shí)時(shí)監(jiān)控校園公共區(qū)域和隱私區(qū)域,全面防范校園危害行為。通過圖像與聲音的識(shí)別,自動(dòng)觸發(fā)防范措施,迅速制止校園危害行為,降低受害者傷害,同時(shí)也能減少人工巡查和監(jiān)控成本,提高校園安防工作效率。