国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種輔助解說(shuō)的方法、裝置及其系統(tǒng)的制作方法

      文檔序號(hào):6355167閱讀:169來(lái)源:國(guó)知局
      專利名稱:一種輔助解說(shuō)的方法、裝置及其系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及視頻和語(yǔ)音處理技術(shù)領(lǐng)域,特別是涉及一種輔助解說(shuō)的方法、裝置及 其系統(tǒng)。
      背景技術(shù)
      為了能夠給觀眾或聽眾提供更全面、更豐富的信息內(nèi)容,在有些節(jié)目中,通常會(huì)由 解說(shuō)員對(duì)節(jié)目場(chǎng)景進(jìn)行解說(shuō)。對(duì)于某些節(jié)目,通常是事先將解說(shuō)詞編輯出來(lái),在節(jié)目播放過(guò) 程中,依據(jù)節(jié)目的進(jìn)程,由解說(shuō)人員按照提前編輯好的解說(shuō)詞進(jìn)行現(xiàn)場(chǎng)解說(shuō)播報(bào)。在一些具有突發(fā)性或者實(shí)時(shí)性的現(xiàn)場(chǎng)直播類的節(jié)目中,如體育比賽、頒獎(jiǎng)晚會(huì)等 節(jié)目,解說(shuō)員可以是場(chǎng)地旁邊的記者,也可以是只看到現(xiàn)場(chǎng)視頻圖像的節(jié)目主持人,一般 的,解說(shuō)員需要對(duì)場(chǎng)景中的情況進(jìn)行解說(shuō),尤其是需要進(jìn)行人物身份的介紹。對(duì)于此類的節(jié) 目,人們通常對(duì)節(jié)目的進(jìn)程不可預(yù)知,即無(wú)法知道哪一時(shí)刻需要播放哪些人的鏡頭,則依據(jù) 提前編輯好的解說(shuō)詞進(jìn)行解說(shuō)也就不能適用。在這種情況下,如果解說(shuō)員不熟悉場(chǎng)景中的 人物,就會(huì)造成解說(shuō)錯(cuò)誤或無(wú)話可說(shuō)的冷場(chǎng)現(xiàn)象。特別是對(duì)于一些實(shí)時(shí)性較強(qiáng)的直播類的 節(jié)目,解說(shuō)員通常不可能有時(shí)間和機(jī)會(huì)向其他人詢問(wèn)、或者通過(guò)查閱資料獲知節(jié)目場(chǎng)景中 的人物的情況。此時(shí)的解說(shuō)就變得較為困難,給解說(shuō)員帶來(lái)了很多不便??傊枰绢I(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問(wèn)題就是如何能夠提供一種輔 助解說(shuō)的技術(shù)方案,能夠提供及時(shí)的、匹配的解說(shuō)信息。

      發(fā)明內(nèi)容
      本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種輔助解說(shuō)的方法、裝置及其系統(tǒng),能夠提 供及時(shí)的、匹配的解說(shuō)信息。為了解決上述問(wèn)題,本發(fā)明公開了一種輔助解說(shuō)的方法,包括對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配的預(yù)置人 臉圖;其中,所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;從所述預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解 說(shuō)文字信息。優(yōu)選的,每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的人臉圖像;其中,η為大 于1的正整數(shù)。優(yōu)選的,所述方法還包括對(duì)所述人臉圖像進(jìn)行人臉跟蹤,當(dāng)判斷前一幀中的人臉 圖像出現(xiàn)在當(dāng)前幀圖像中時(shí),則針對(duì)所述人臉圖像跳過(guò)人臉識(shí)別步驟,不再生成解說(shuō)文字 信息;其中,如果連續(xù)m幀未跟蹤到所述人臉圖像,則結(jié)束對(duì)所述人臉圖像的跟蹤。優(yōu)選的,所述方法還包括從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置信 息;則依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字信息。優(yōu)選的,當(dāng)從預(yù)置人物信息數(shù)據(jù)庫(kù)沒有獲取到匹配的預(yù)置人臉圖時(shí),所述方法還包括將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取相匹配的檢 索圖像及其對(duì)應(yīng)的檢索信息;則依據(jù)所述檢索信息生成解說(shuō)文字信息。優(yōu)選的,所述方法還包括從當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān)鍵詞;根據(jù)所述關(guān)鍵詞在獲取的檢索信息中進(jìn)行二次檢索,獲得二次檢索信息;則依據(jù)所述二次檢索信息生成解說(shuō)文字信息。優(yōu)選的,所述方法還包括將生成的解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。優(yōu)選的,所述方法還包括采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方。相應(yīng)的,本發(fā)明還提供了一種輔助解說(shuō)的裝置,包括人臉檢測(cè)模塊,用于對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;預(yù)置人物信息數(shù)據(jù)庫(kù),用于存儲(chǔ)預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;人臉識(shí)別模塊,用于通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù) 中獲取匹配的預(yù)置人臉圖;解說(shuō)生成模塊,用于提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字信 肩、ο優(yōu)選的,所述人臉檢測(cè)模塊每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的人 臉圖像;其中,η為大于1的正整數(shù)。優(yōu)選的,所述裝置還包括人臉跟蹤模塊,用于對(duì)所述人臉圖像進(jìn)行人臉跟蹤,當(dāng)判斷前一幀中的人臉圖像 出現(xiàn)在當(dāng)前幀圖像中時(shí),則針對(duì)所述人臉圖像跳過(guò)人臉識(shí)別步驟,不再生成解說(shuō)文字信 息;其中,如果連續(xù)m幀未跟蹤到所述人臉圖像,則結(jié)束對(duì)所述人臉圖像的跟蹤。優(yōu)選的,所述裝置還包括位置信息獲取模塊,用于從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置信 息;則所述解說(shuō)生成模塊依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字信 肩、ο優(yōu)選的,所述裝置還包括網(wǎng)絡(luò)檢索模塊,用于人臉識(shí)別模塊從預(yù)置人物信息數(shù)據(jù)庫(kù)沒有獲取到匹配的預(yù)置 人臉圖時(shí),將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取相匹配 的檢索圖像及其對(duì)應(yīng)的檢索信息;則所述解說(shuō)生成模塊依據(jù)所述檢索信息生成解說(shuō)文字信息。優(yōu)選的,所述裝置還包括關(guān)鍵詞提取模塊,用于從當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān)鍵 詞;二次檢索模塊,用于根據(jù)所述關(guān)鍵詞在獲取的檢索信息中進(jìn)行二次檢索,獲得二 次檢索信息;
      則所述解說(shuō)生成模塊依據(jù)所述二次檢索信息生成解說(shuō)文字信息。優(yōu)選的,所述裝置還包括語(yǔ)音轉(zhuǎn)換模塊,用于將生成的解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。優(yōu)選的,所述裝置還包括無(wú)線發(fā)送模塊,用于采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方。此外,本發(fā)明還公開了一種輔助解說(shuō)的系統(tǒng),包括具有上述的輔助解說(shuō)的裝置;所 述輔助解說(shuō)的裝置包括無(wú)線發(fā)送模塊,用于采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方;所述輔助解說(shuō)的系統(tǒng)還包括無(wú)線接收裝置,用于采用無(wú)線的方式接收無(wú)線發(fā)送模塊發(fā)送的所述解說(shuō)文字信 肩、ο與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明通過(guò)人臉檢測(cè)和人臉識(shí)別從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配的預(yù)置人臉 圖,然后提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字信息。由于通過(guò)人臉識(shí)別 在預(yù)置人物信息數(shù)據(jù)庫(kù)中對(duì)檢測(cè)得到的人臉圖像進(jìn)行匹配,因此,獲取的身份信息與圖像 中的人物能夠相互對(duì)應(yīng),相互匹配。并且,直接從預(yù)置人物信息數(shù)據(jù)庫(kù)提取身份信息,保證 了信息獲取的及時(shí)性和準(zhǔn)確性。進(jìn)一步,本發(fā)明可以對(duì)連續(xù)多幀圖像進(jìn)行人臉跟蹤,避免對(duì)每一幀中的人臉圖像 都進(jìn)行人臉識(shí)別,避免重復(fù)獲取身份信息。同時(shí),可以在解說(shuō)的文字信息中增加了位置信 息,利用人物的位置關(guān)系將每個(gè)人物的身份信息與實(shí)際的人物對(duì)應(yīng)起來(lái),防止發(fā)生解說(shuō)錯(cuò) 誤;同時(shí),使得輔助解說(shuō)的內(nèi)容更加全面、更加豐富。此外,在預(yù)置人物信息數(shù)據(jù)庫(kù)中沒有與人臉圖像相匹配的人臉圖時(shí),可以利用網(wǎng) 絡(luò)檢索系統(tǒng)獲取相匹配的檢索圖像及其對(duì)應(yīng)的檢索信息,由檢索信息生成解說(shuō)文字信息, 輔助解說(shuō)的方式更加靈活、多樣。


      圖1是本發(fā)明一種輔助解說(shuō)的方法實(shí)施例一的流程圖;圖2是本發(fā)明一種輔助解說(shuō)的方法實(shí)施例二的流程圖;圖3是本發(fā)明一種輔助解說(shuō)的方法實(shí)施例三的流程圖;圖4是本發(fā)明一種輔助解說(shuō)的裝置實(shí)施例一的結(jié)構(gòu)圖;圖5是本發(fā)明一種輔助解說(shuō)的裝置實(shí)施例二的結(jié)構(gòu)圖;圖6是本發(fā)明一種輔助解說(shuō)的系統(tǒng)實(shí)施例的結(jié)構(gòu)圖。
      具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí) 施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。參照?qǐng)D1,示出了本發(fā)明一種輔助解說(shuō)的方法實(shí)施例一的流程圖,包括步驟101,對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;本發(fā)明可應(yīng)用于攝像頭或者攝像機(jī)拍攝場(chǎng)面的視頻圖像,對(duì)于視頻中的各個(gè)幀,首先通過(guò)人臉檢測(cè)獲取每一幀圖像中的人臉。人臉檢測(cè)可以采用基于Adaboost的方法, Adaboost算法是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器,然 后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器。通過(guò)大量人臉和非人臉圖像訓(xùn) 練人臉的分類器,進(jìn)一步,通過(guò)人臉的分類器即可從圖像中識(shí)別出人臉。通過(guò)人臉檢測(cè)的目 的就是判斷圖像中是否有人臉,并獲取人臉區(qū)域(即人臉圖像)、人臉個(gè)數(shù)。此外,還可以采 用其它的人臉檢測(cè)算法獲取人臉圖像,本發(fā)明在此不做限定。步驟102,通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配 的預(yù)置人臉圖;其中,所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;通過(guò)人臉檢測(cè)得到了圖像場(chǎng)景中的人臉個(gè)數(shù)和人臉圖像(區(qū)域),進(jìn)一步,分別對(duì) 每個(gè)人臉圖像進(jìn)行身份識(shí)別并獲取相關(guān)的信息。在本發(fā)明實(shí)施例中,通過(guò)利用事先建立的 預(yù)置人物信息數(shù)據(jù)庫(kù),獲取人臉圖像對(duì)應(yīng)的人物信息。在所述預(yù)置人物信息數(shù)據(jù)庫(kù)中,存儲(chǔ) 有大量的預(yù)置人臉圖,每一幅預(yù)置人臉圖對(duì)應(yīng)有一份該人物的身份信息。也就是說(shuō),在預(yù)置人物信息數(shù)據(jù)庫(kù)的建立過(guò)程中,要為每個(gè)人物存儲(chǔ)其人臉圖像、 身份信息,所述身份信息可以包括姓名、性別、年齡、行業(yè)信息或者其它相關(guān)信息,用戶可隨 意配置。預(yù)置人物信息數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息是確定的,數(shù)據(jù)庫(kù)建立后,為了防止信息過(guò)時(shí), 提高查找的準(zhǔn)確性,可以不斷進(jìn)行數(shù)據(jù)信息補(bǔ)充和更新,以便得到最新最有效的識(shí)別結(jié)果。人臉識(shí)別技術(shù)特指利用分析比較人臉視覺特征信息進(jìn)行身份鑒別的計(jì)算機(jī)技術(shù), 它屬于生物特征識(shí)別技術(shù)?,F(xiàn)有技術(shù)中存在有多種人臉識(shí)別的基本方法,包括幾何特征的 人臉識(shí)別方法,所述幾何特征可以是眼、鼻、嘴等的形狀和它們之間的幾何關(guān)系(如相互之 間的距離);線段Hausdorff距離(LHD)的人臉識(shí)別方法,該方法基于從人臉灰度圖像中提 取出來(lái)的線段圖進(jìn)行識(shí)別;此外,還有彈性圖匹配的人臉識(shí)別方法等等。人臉識(shí)別屬于現(xiàn)有 技術(shù)的范疇,本發(fā)明在此不再贅述,任何一種人臉識(shí)別技術(shù)均可應(yīng)用到本發(fā)明。則通過(guò)人臉 識(shí)別技術(shù),即可在預(yù)置人物信息數(shù)據(jù)庫(kù)查找到與通過(guò)人臉檢測(cè)所獲取的人臉圖像相匹配的 預(yù)置人臉圖??梢岳斫獾氖牵瑥念A(yù)置人物信息數(shù)據(jù)庫(kù)一般會(huì)獲取多個(gè)相匹配的預(yù)置人臉圖, 將匹配度最高的預(yù)置人臉圖作為識(shí)別結(jié)果。步驟103,從所述預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信 息,生成解說(shuō)文字信息。由于在預(yù)置人物信息數(shù)據(jù)庫(kù)中,每一幅預(yù)置人臉圖對(duì)應(yīng)有一份該人物的身份信 息,通過(guò)查找數(shù)據(jù)庫(kù)信息,提取與步驟102所得到預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō) 文字信息,以提供給解說(shuō)員,解說(shuō)員可以依據(jù)所述解說(shuō)文字信息對(duì)圖像中出現(xiàn)的人物進(jìn)行 身份介紹,從而實(shí)現(xiàn)了輔助解說(shuō)。由于通過(guò)人臉識(shí)別在預(yù)置人物信息數(shù)據(jù)庫(kù)中對(duì)檢測(cè)得到 的人臉圖像進(jìn)行匹配,因此,獲取的身份信息與圖像中的人物能夠相互對(duì)應(yīng),相互匹配。并 且,直接從預(yù)置人物信息數(shù)據(jù)庫(kù)提取身份信息,保證了信息獲取的及時(shí)性。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的 人臉圖像;其中,η為大于1的正整數(shù)。進(jìn)一步,在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,所述方法還包括對(duì)所述人臉圖像進(jìn)行 人臉跟蹤,當(dāng)判斷前一幀中的人臉圖像出現(xiàn)在當(dāng)前幀圖像中時(shí),則針對(duì)所述人臉圖像跳過(guò) 人臉識(shí)別步驟,不再生成解說(shuō)文字信息;其中,如果連續(xù)m幀未跟蹤到所述人臉圖像,則結(jié) 束對(duì)所述人臉圖像的跟蹤。
      人臉跟蹤用于視頻中跟蹤同一人臉。如果跟蹤算法的性能良好,那么某一幀圖像 中檢測(cè)到的人臉在下一幀不消失,則所述人臉就會(huì)被跟蹤上;如果前后幾幀的人臉沒有跟 蹤上,可以認(rèn)為視頻中的人臉不再是同一個(gè)人臉。人臉跟蹤是針對(duì)連續(xù)多幀圖像的,對(duì)于跟蹤上的人臉,即所獲取的人臉圖像在前 一幀圖像中出現(xiàn),則停止獲取預(yù)置人臉圖,沿用前一幀的識(shí)別結(jié)果,也就是說(shuō)針對(duì)當(dāng)前幀不 再重新獲取身份信息,而在下一幀到來(lái)時(shí),繼續(xù)進(jìn)行人臉跟蹤,并依次執(zhí)行各個(gè)步驟。如果 沒有跟蹤上人臉,即前一幀所獲取的人臉圖像在當(dāng)前幀圖像中沒有出現(xiàn),說(shuō)明前一幀所獲 取的人臉圖像在當(dāng)前幀消失,則記錄相關(guān)信息,若連續(xù)m幀未跟蹤到此人臉,則認(rèn)為此人臉 消失,清除此人臉的相關(guān)信息。具體的,人臉跟蹤可以有多種方法實(shí)現(xiàn)。例如,采用基于Mean Shift算法、基于統(tǒng) 計(jì)模型的方法等。Mean Shift算法一般是指一個(gè)迭代的步驟,即先算出當(dāng)前點(diǎn)的偏移均值, 移動(dòng)該點(diǎn)到其偏移均值,然后以此為新的起始點(diǎn),繼續(xù)移動(dòng),直到滿足一定的條件結(jié)束。人 臉跟蹤屬于現(xiàn)有技術(shù)的范疇,本發(fā)明在此不再贅述,任何一種人臉跟蹤技術(shù)均可應(yīng)用到本 發(fā)明。在本發(fā)明優(yōu)選實(shí)施例中,增加了連續(xù)多幀圖像的人臉跟蹤,避免對(duì)每一幀中的人 臉圖像都進(jìn)行人臉識(shí)別,避免重復(fù)獲取身份信息。參照?qǐng)D2,示出了本發(fā)明一種輔助解說(shuō)的方法實(shí)施例二的流程圖,包括步驟201,對(duì)視頻流圖像進(jìn)行人臉檢測(cè)和人臉跟蹤,獲取人臉圖像;步驟202,通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配 的預(yù)置人臉圖;所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息。步驟203,從所述預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信 息;步驟204,從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置信息;當(dāng)場(chǎng)景中存在不只一個(gè)人物時(shí),需要在解說(shuō)詞中加入不同人的特征信息,以更清 楚的對(duì)人物進(jìn)行區(qū)分。通常的,可以通過(guò)性別、服飾等對(duì)場(chǎng)景中不同的人物進(jìn)行區(qū)分,但是 場(chǎng)景中的人物可能是性別相同、服飾相同、甚至發(fā)型相同等等,此時(shí),利用上述特征無(wú)法進(jìn)
      一步區(qū)分。本發(fā)明創(chuàng)造性的提出,利用場(chǎng)景中人物的位置信息在解說(shuō)時(shí)加以區(qū)分。其中,人物 左右的位置關(guān)系可以很容易的直接在圖像中提取出來(lái),人物前后的位置關(guān)系可以采用兩種 方法獲取。一種是采用深度分析的方法確定人物的前后位置信息,所謂深度就是指目標(biāo)距 離攝像機(jī)的距離。通常解說(shuō)的視頻是利用記者手中或者肩上的攝像裝置獲得的,因此拍攝 的角度多為平拍或近似平拍,拍攝的距離通常不會(huì)很近,在這種角度下,假設(shè)人物身高差不 多,通常離攝像裝置越近的人臉圖像越位于圖像的下方。也就是說(shuō),當(dāng)前幀圖像中越靠下的 人臉在場(chǎng)景中的位置離拍攝位置越近,即位于圖像下方的人臉對(duì)應(yīng)的人物位置在前,位于 圖像上方的人臉對(duì)應(yīng)的人物位置在后。另一種方法還可以利用人物的相互遮擋確定人物的 前后位置信息。即,分析人臉和人體的完整性,根據(jù)邊緣等的連續(xù)性確定人物之間的遮擋關(guān) 系,被遮擋的人物位置在后,沒有被遮擋的人物位置在前。此外,還可以通過(guò)對(duì)場(chǎng)景進(jìn)行分析,進(jìn)一步限定的位置信息??梢苑治霏h(huán)境的位置關(guān)系,例如,獲取位置信息為舞臺(tái)的左邊或右邊等;還可以分析人物的行進(jìn)方向,例如,紅地 毯的前面或后面等等。步驟205,依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字信息。結(jié)合人物的身份信息,可以生成有關(guān)位置關(guān)系的解說(shuō)文字信息,如“走在最前邊的 **”、“站在左邊的**”等。此外,還可以生成一個(gè)人物位置關(guān)系圖像,在圖中描繪人物的位 置關(guān)系在俯視圖中的情況,這都有助于為解說(shuō)員提供更詳盡的輔助解說(shuō)信息。需要說(shuō)明的是,本發(fā)明對(duì)步驟205的執(zhí)行順序不做具體限定,可以在步驟203人臉 識(shí)別或步驟204身份信息的提取之前,也可以與步驟203或步驟204并行執(zhí)行。在本發(fā)明實(shí)施例二中,相比于實(shí)施例一,在解說(shuō)的文字信息中增加了位置信息,利 用人物的位置關(guān)系將每個(gè)人物的身份信息與實(shí)際的人物對(duì)應(yīng)起來(lái),防止發(fā)生解說(shuō)錯(cuò)誤;同 時(shí),使得輔助解說(shuō)的內(nèi)容更加全面、更加豐富。參照?qǐng)D3,示出了本發(fā)明一種輔助解說(shuō)的方法實(shí)施例三的流程圖,包括步驟301,對(duì)視頻流圖像進(jìn)行人臉檢測(cè)和人臉跟蹤,獲取人臉圖像;步驟302,通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,判斷是否從預(yù)置人物信息數(shù)據(jù)庫(kù)中 獲取匹配的預(yù)置人臉圖;若是,則執(zhí)行步驟303 ;若否,則執(zhí)行步驟304 ;其中,所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;步驟303,從預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生 成解說(shuō)文字信息;步驟304,將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取 相匹配的檢索圖像及其對(duì)應(yīng)的檢索信息;步驟305,依據(jù)所述檢索信息生成解說(shuō)文字信息。在本發(fā)明實(shí)施例三中,如果預(yù)置人物信息數(shù)據(jù)庫(kù)中沒有與人臉圖像相匹配的人臉 圖,則可以利用網(wǎng)絡(luò)搜索得到此人物的相關(guān)信息。具體的,將人臉圖像輸入到網(wǎng)絡(luò)檢索系統(tǒng) 中,通過(guò)網(wǎng)絡(luò)檢索系統(tǒng)的圖像匹配方法,從網(wǎng)絡(luò)上找出與當(dāng)前人臉圖像匹配度較高的檢索 圖像和相關(guān)的檢索信息。由于網(wǎng)絡(luò)上面的信息量非常大,通常檢索到的信息會(huì)非常多,會(huì)獲取多份相似度 較高的檢索圖像及其檢索信息。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,在步驟304之后還包括從 當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān)鍵詞;根據(jù)所述關(guān)鍵詞在獲取的檢索 信息中進(jìn)行二次檢索,獲得二次檢索信息;則在步驟305中,依據(jù)所述二次檢索信息生成解 說(shuō)文字信息。在二次檢索時(shí),需要獲取圖像中的場(chǎng)景信息,從場(chǎng)景信息中提取關(guān)鍵詞。例如,通 過(guò)分析圖像獲取的場(chǎng)景信息為舞臺(tái),則提取的關(guān)鍵詞可以是“歌手”“演員”等關(guān)鍵詞;猶如, 獲取的場(chǎng)景信息為足球場(chǎng)地,則提取的關(guān)鍵詞可以是“運(yùn)動(dòng)員” “足球”等關(guān)鍵詞。依據(jù)上 述關(guān)鍵詞進(jìn)行二次篩選,找出最相關(guān)的檢索信息。進(jìn)一步,還可以在二次檢索的基礎(chǔ)上根據(jù)點(diǎn)擊率排名對(duì)搜索出來(lái)的信息進(jìn)行排 序,將點(diǎn)擊率最高的信息作為最終的檢索信息。可以理解的是,通過(guò)網(wǎng)絡(luò)獲取檢索信息的過(guò) 程由連到網(wǎng)上的計(jì)算機(jī)自動(dòng)完成。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述方法還包括采用無(wú)線的方式將所述解說(shuō)文 字信息發(fā)送至解說(shuō)接收方。通過(guò)無(wú)線發(fā)射裝置將獲取的解說(shuō)文字信息發(fā)射出去,可以根據(jù)接收距離和現(xiàn)場(chǎng)狀況確定采用紅外、衛(wèi)星等無(wú)線方式??梢詫⒔庹f(shuō)文字信息接收到一個(gè)比 較小的手持設(shè)備上,解說(shuō)員可以通過(guò)觀看手持設(shè)備獲取需要的解說(shuō)信息。采用無(wú)線的發(fā)送 和接收方法,具有隱蔽、有效的特點(diǎn),不會(huì)對(duì)其他人造成干擾,不會(huì)影響解說(shuō)的效果。如果解 說(shuō)員是面對(duì)電腦進(jìn)行解說(shuō)的,可以直接將解說(shuō)文字信息輸出到電腦的顯示屏幕上??梢岳?解的是,如果人物圖像在預(yù)置人物信息數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)檢索系統(tǒng)中均無(wú)法獲取到相匹配的圖 像和信息,則可以將匹配失敗消息發(fā)送至解說(shuō)接收方,通知解說(shuō)員無(wú)法獲得該人臉圖像所 對(duì)應(yīng)的人物的相關(guān)信息。在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,所述方法還包括將生成的解說(shuō)文字信息轉(zhuǎn)換 為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。具體的,可以通過(guò)TTSCText tospeech,由文本生生成語(yǔ) 言)技術(shù)實(shí)現(xiàn)自動(dòng)語(yǔ)音播報(bào)。TTS技術(shù)就是根據(jù)文本自動(dòng)生成語(yǔ)音,目前屬于比較成熟的技術(shù),可以理解成由計(jì) 算機(jī)讀文本。TTS技術(shù)主要包括以下幾部分1、文本分析。對(duì)輸入文本進(jìn)行語(yǔ)言學(xué)分析,逐 句進(jìn)行詞匯的、語(yǔ)法的和語(yǔ)義的分析,以確定句子的低層結(jié)構(gòu)和每個(gè)字的音素的組成,包括 文本的斷句、字詞切分、多音字的處理、數(shù)字的處理、縮略語(yǔ)的處理等。2、語(yǔ)音合成。把處理 好的文本所對(duì)應(yīng)的單字或短語(yǔ)從語(yǔ)音合成庫(kù)中提取,把語(yǔ)言學(xué)描述轉(zhuǎn)化成言語(yǔ)波形。3、韻 律處理。合成音質(zhì)(Qualityof Synthetic Speech)是指語(yǔ)音合成系統(tǒng)所輸出的語(yǔ)音的質(zhì) 量,一般從清晰度(或可懂度)、自然度和連貫性等方面進(jìn)行主觀評(píng)價(jià)。文本轉(zhuǎn)語(yǔ)音的技術(shù)屬于現(xiàn)有技術(shù)的范疇,本發(fā)明在此不再贅述。則通過(guò)將生成的 解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,在沒有解說(shuō)員的情況下,進(jìn)行自動(dòng)語(yǔ)音播報(bào),可以實(shí)現(xiàn)視頻 的無(wú)人解說(shuō)。參照?qǐng)D4,示出了本發(fā)明一種輔助解說(shuō)的裝置實(shí)施例一的結(jié)構(gòu)圖,包括人臉檢測(cè)模塊401,用于對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;預(yù)置人物信息數(shù)據(jù)庫(kù)402,用于存儲(chǔ)預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;人臉識(shí)別模塊403,用于通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù) 庫(kù)中獲取匹配的預(yù)置人臉圖;解說(shuō)生成模塊404,用于提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字 fn息ο優(yōu)選的,所述人臉檢測(cè)模塊每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的人 臉圖像;其中,η為大于1的正整數(shù)。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述裝置還包括人臉跟蹤模塊405,用于對(duì)所述 人臉圖像進(jìn)行人臉跟蹤,當(dāng)判斷前一幀中的人臉圖像出現(xiàn)在當(dāng)前幀圖像中時(shí),則針對(duì)所述 人臉圖像跳過(guò)人臉識(shí)別步驟,不再生成解說(shuō)文字信息;其中,如果連續(xù)m幀未跟蹤到所述人 臉圖像,則結(jié)束對(duì)所述人臉圖像的跟蹤。在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,所述裝置還包括位置信息獲取模塊406,用于從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置 fn息;則所述解說(shuō)生成模塊404依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字
      fn息ο參照?qǐng)D5,示出了本發(fā)明一種輔助解說(shuō)的裝置實(shí)施例二的結(jié)構(gòu)圖,包括人臉檢測(cè)模塊501、預(yù)置人物信息數(shù)據(jù)庫(kù)502、人臉識(shí)別模塊503、解說(shuō)生成模塊504、人臉跟蹤模塊 505。此外,還包括網(wǎng)絡(luò)檢索模塊506,用于人臉識(shí)別模塊從預(yù)置人物信息數(shù)據(jù)庫(kù)沒有獲取到匹配的 預(yù)置人臉圖時(shí),將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取相 匹配的檢索圖像及其對(duì)應(yīng)的檢索信息;則所述解說(shuō)生成模塊504依據(jù)所述檢索信息生成解 說(shuō)文字信息。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述裝置還包括關(guān)鍵詞提取模塊507,用于從當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān) 鍵詞;二次檢索模塊508,用于根據(jù)所述關(guān)鍵詞在獲取的檢索信息中進(jìn)行二次檢索,獲得 二次檢索信息;則所述解說(shuō)生成模塊504依據(jù)所述二次檢索信息生成解說(shuō)文字信息。在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,所述裝置還包括語(yǔ)音轉(zhuǎn)換模塊,用于將生成的 解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。在本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中,所述裝置還包括無(wú)線發(fā)送模塊,用于采用無(wú)線 的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方。參照?qǐng)D6,示出了本發(fā)明一種輔助解說(shuō)的系統(tǒng)實(shí)施例的結(jié)構(gòu)圖,包括如上述裝置實(shí) 施例一、實(shí)施例二所述的輔助解說(shuō)的裝置60 ;所述輔助解說(shuō)的裝置60包括人臉檢測(cè)模塊 601,用于對(duì)當(dāng)前幀圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;預(yù)置人物信息數(shù)據(jù)庫(kù)602,用于存儲(chǔ)預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;人臉識(shí)別模塊603,用于通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù) 庫(kù)中獲取匹配的預(yù)置人臉圖;解說(shuō)生成模塊604,用于提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字 fn息;無(wú)線發(fā)送模塊605,用于采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收 方;所述輔助解說(shuō)的系統(tǒng)還包括無(wú)線接收裝置61,用于采用無(wú)線的方式接收無(wú)線發(fā)送模塊發(fā)送的所述解說(shuō)文字信 肩、ο本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置和系統(tǒng) 實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施 例的部分說(shuō)明即可。以上對(duì)本發(fā)明所提供的一種輔助解說(shuō)的方法、裝置及其系統(tǒng),進(jìn)行了詳細(xì)介紹,本 文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于 幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思 想,在具體實(shí)施方式
      及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì) 本發(fā)明的限制。
      權(quán)利要求
      1.一種輔助解說(shuō)的方法,其特征在于,包括 對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配的預(yù)置人臉 圖;其中,所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;從所述預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文子fe息。
      2.如權(quán)利要求1所述的方法,其特征在于,每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的人臉圖像;其中,η為大于1的正整數(shù)。
      3.如權(quán)利要求2所述的方法,其特征在于,所述方法還包括對(duì)所述人臉圖像進(jìn)行人臉跟蹤,當(dāng)判斷前一幀中的人臉圖像出現(xiàn)在當(dāng)前幀圖像中時(shí), 則針對(duì)所述人臉圖像跳過(guò)人臉識(shí)別步驟,不再生成解說(shuō)文字信息;其中,如果連續(xù)m幀未跟蹤到所述人臉圖像,則結(jié)束對(duì)所述人臉圖像的跟蹤。
      4.如權(quán)利要求2所述的方法,其特征在于,還包括從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置信息; 則依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字信息。
      5.如權(quán)利要求2所述的方法,其特征在于,當(dāng)從預(yù)置人物信息數(shù)據(jù)庫(kù)沒有獲取到匹配 的預(yù)置人臉圖時(shí),還包括將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取相匹配的檢索 圖像及其對(duì)應(yīng)的檢索信息;則依據(jù)所述檢索信息生成解說(shuō)文字信息。
      6.如權(quán)利要求5所述的方法,其特征在于,還包括從當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān)鍵詞; 根據(jù)所述關(guān)鍵詞在獲取的檢索信息中進(jìn)行二次檢索,獲得二次檢索信息; 則依據(jù)所述二次檢索信息生成解說(shuō)文字信息。
      7.如權(quán)利要求1至6任一權(quán)利要求所述的方法,其特征在于,還包括 將生成的解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。
      8.如權(quán)利要求1至6任一權(quán)利要求所述的方法,其特征在于,還包括 采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方。
      9.一種輔助解說(shuō)的裝置,其特征在于,包括人臉檢測(cè)模塊,用于對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像; 預(yù)置人物信息數(shù)據(jù)庫(kù),用于存儲(chǔ)預(yù)置人臉圖及其對(duì)應(yīng)的身份信息; 人臉識(shí)別模塊,用于通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲 取匹配的預(yù)置人臉圖;解說(shuō)生成模塊,用于提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字信息。
      10.如權(quán)利要求9所述的裝置,其特征在于,所述人臉檢測(cè)模塊每隔η幀進(jìn)行一次人臉檢測(cè),獲取當(dāng)前幀圖像中的人臉圖像;其中, η為大于1的正整數(shù)。
      11.如權(quán)利要求10所述的裝置,其特征在于,還包括人臉跟蹤模塊,用于對(duì)所述人臉圖像進(jìn)行人臉跟蹤,當(dāng)判斷前一幀中的人臉圖像出現(xiàn) 在當(dāng)前幀圖像中時(shí),則針對(duì)所述人臉圖像跳過(guò)人臉識(shí)別步驟,不再生成解說(shuō)文字信息; 其中,如果連續(xù)m幀未跟蹤到所述人臉圖像,則結(jié)束對(duì)所述人臉圖像的跟蹤。
      12.如權(quán)利要求10所述的裝置,其特征在于,還包括位置信息獲取模塊,用于從當(dāng)前幀圖像中獲取人臉圖像所對(duì)應(yīng)的人物的位置信息; 則所述解說(shuō)生成模塊依據(jù)提取的身份信息和相應(yīng)的位置信息,生成解說(shuō)文字信息。
      13.如權(quán)利要求10所述的裝置,其特征在于,還包括網(wǎng)絡(luò)檢索模塊,用于人臉識(shí)別模塊從預(yù)置人物信息數(shù)據(jù)庫(kù)沒有獲取到匹配的預(yù)置人臉 圖時(shí),將獲取的人臉圖像輸入網(wǎng)絡(luò)檢索系統(tǒng)中,從網(wǎng)絡(luò)檢索系統(tǒng)中檢索并獲取相匹配的檢 索圖像及其對(duì)應(yīng)的檢索信息;則所述解說(shuō)生成模塊依據(jù)所述檢索信息生成解說(shuō)文字信息。
      14.如權(quán)利要求13所述的裝置,其特征在于,還包括關(guān)鍵詞提取模塊,用于從當(dāng)前幀圖像中獲取場(chǎng)景信息,并依據(jù)場(chǎng)景信息提取關(guān)鍵詞; 二次檢索模塊,用于根據(jù)所述關(guān)鍵詞在獲取的檢索信息中進(jìn)行二次檢索,獲得二次檢 索信息;則所述解說(shuō)生成模塊依據(jù)所述二次檢索信息生成解說(shuō)文字信息。
      15.如權(quán)利要求9所述的裝置,其特征在于,還包括語(yǔ)音轉(zhuǎn)換模塊,用于將生成的解說(shuō)文字信息轉(zhuǎn)換為語(yǔ)音信息,進(jìn)行自動(dòng)語(yǔ)音播報(bào)。
      16.如權(quán)利要求9所述的裝置,其特征在于,還包括無(wú)線發(fā)送模塊,用于采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方。
      17.一種輔助解說(shuō)的系統(tǒng),其特征在于,包括具有上述權(quán)利要求9-15任一權(quán)利要求所 述的輔助解說(shuō)的裝置;所述輔助解說(shuō)的裝置包括無(wú)線發(fā)送模塊,用于采用無(wú)線的方式將所述解說(shuō)文字信息發(fā)送至解說(shuō)接收方; 所述輔助解說(shuō)的系統(tǒng)還包括無(wú)線接收裝置,用于采用無(wú)線的方式接收無(wú)線發(fā)送模塊發(fā)送的所述解說(shuō)文字信息。
      全文摘要
      本發(fā)明提供了一種輔助解說(shuō)的方法、裝置及其系統(tǒng),所述方法包括對(duì)視頻流圖像進(jìn)行人臉檢測(cè),獲取人臉圖像;通過(guò)對(duì)所述人臉圖像進(jìn)行人臉識(shí)別,從預(yù)置人物信息數(shù)據(jù)庫(kù)中獲取匹配的預(yù)置人臉圖;其中,所述預(yù)置人物信息數(shù)據(jù)庫(kù)存儲(chǔ)有預(yù)置人臉圖及其對(duì)應(yīng)的身份信息;從所述預(yù)置人物信息數(shù)據(jù)庫(kù)中提取與所述預(yù)置人臉圖相對(duì)應(yīng)的身份信息,生成解說(shuō)文字信息。通過(guò)本發(fā)明,可以提供及時(shí)、匹配的解說(shuō)信息。
      文檔編號(hào)G06F17/30GK102110399SQ20111004764
      公開日2011年6月29日 申請(qǐng)日期2011年2月28日 優(yōu)先權(quán)日2011年2月28日
      發(fā)明者王俊艷, 黃英 申請(qǐng)人:北京中星微電子有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1