專利名稱:一種基于語義理解的音頻資源管理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于音頻資源管理技術(shù)領(lǐng)域,更為具體地講,在音頻資源進(jìn)行語義理解的 基礎(chǔ)上,建立一種高效的統(tǒng)一的音頻資源管理機(jī)制,該管理機(jī)制具有可管、可控、可信并充 分滿足用戶需求的特點(diǎn)。
背景技術(shù):
隨著因特網(wǎng)的日益普及和音頻壓縮技術(shù)的飛速發(fā)展,以音樂為主的音頻資源在互 聯(lián)網(wǎng)上的交流達(dá)到了前所未有的深度和廣度,其發(fā)布形式也愈加豐富。音頻資源承載著豐富的信息內(nèi)容,但現(xiàn)有技術(shù)的音頻資源除了含有采樣頻率、量 化精度、編碼方法等有限的注冊信息外,其本身僅僅是一種非語義符號表示和非結(jié)構(gòu)化的 二進(jìn)制流,缺乏資源的語義描述。雖然已經(jīng)有很多組織和機(jī)構(gòu)投入到了此方面的研究,但目 前為止還有沒有一個統(tǒng)一的標(biāo)準(zhǔn),因而對音頻資源進(jìn)行準(zhǔn)確有效的管理和訪問變得十分艱 難。隨著音頻資源和用戶數(shù)量的日益增多,現(xiàn)有的音頻資源在源端標(biāo)引、網(wǎng)絡(luò)傳輸和終端解 析均存在內(nèi)容管理混亂、分級管理不完善和用戶需求無法滿足等諸多問題。究其原因是忽 略了音頻資源的語義,沒有建立簡單有效的語義標(biāo)引及語義解析、理解機(jī)制而導(dǎo)致音頻資 源管理機(jī)制的不理想。音頻資源的語義標(biāo)引及基于語義理解的音頻資源管理近年來逐漸成為研究熱點(diǎn), 語義標(biāo)引是指對所收集到的信息單元,如音頻資源給出規(guī)范化標(biāo)識的過程,這些標(biāo)識可以 為標(biāo)題、作者名、主題詞等。通過語義標(biāo)引,音頻資源被整理為特征明顯、便于檢索和利用的 數(shù)據(jù)記錄。活動圖像專家組(Moving Picture Group,簡稱MPEG)制定了 MPEG-7標(biāo)準(zhǔn),它是第 一個體現(xiàn)音視頻資源信息內(nèi)容,即語義標(biāo)引技術(shù)的標(biāo)準(zhǔn),可以對音頻資源的多種特征進(jìn)行 標(biāo)識,但是它并沒有將音頻流的分段技術(shù)以及對音頻資源的特征提取作為自己的一部分, 沒有對音頻資源進(jìn)行語義解釋。美國的Muscle Fish公司對帶標(biāo)識的數(shù)據(jù)進(jìn)行加窗處理, 對每幀數(shù)據(jù)提取音調(diào)、響度、帶寬、能量等13個特征,則此13維特征即為音頻資源的特征矢 量,檢索時采用馬氏距離,比較樣本特征矢量與庫中數(shù)據(jù)的特征矢量,從而輸出檢索結(jié)果。 大多數(shù)研究者通過分析音頻資源底層頻譜特征(如MFCC等),將這些特征映射為高層語義 標(biāo)引,這種方法所需計(jì)算量大,過程復(fù)雜,沒有很好的實(shí)際應(yīng)用效果。相比之下,國內(nèi)對這方面的研究起步較晚,但已引起廣泛的關(guān)注和重視。浙江大學(xué) 人工智能研究所對基于內(nèi)容的音頻檢索、廣播新聞分割等領(lǐng)域進(jìn)行了深入的研究,在國內(nèi) 處于領(lǐng)先地位。中科院中科信利語音實(shí)驗(yàn)室推出了基于分布式群架構(gòu)的語音處理平臺TSE, 主要功能模塊包括語音識別、歌詞檢索、旋律識別及特定網(wǎng)站語音搜索等。清華大學(xué)對新 聞的分段、音樂分類和音樂檢索分類方法進(jìn)行了研究,還有很多國內(nèi)外的機(jī)構(gòu)都致力于此 項(xiàng)技術(shù)的開發(fā)研究,但都不同程度的存在著諸如算法處理速度慢、漏檢誤檢率高、檢索效果 無評價(jià)標(biāo)準(zhǔn)、缺少支持多種檢索手段等問題。而且沒有從用戶的角度定義其語義字段,分析 語義元素,因而對用戶也就缺少普通實(shí)用價(jià)值。
為了解決語義標(biāo)引在網(wǎng)絡(luò)中傳輸?shù)膯栴},目前國內(nèi)外普遍采用的都是將語義標(biāo)引 作為一個單獨(dú)的頭部文件實(shí)現(xiàn)在網(wǎng)絡(luò)中的傳輸,這種方法容易丟失語義標(biāo)引,而且一旦丟 失,不易恢復(fù)。綜上,盡管音頻資源的語義標(biāo)引和基于語義理解的音頻資源管理機(jī)制在不斷的演 進(jìn),但仍然缺乏簡單有效的、系統(tǒng)的整體設(shè)計(jì),不管是實(shí)現(xiàn)的復(fù)雜性還是研究的可行性都存 在明顯的不足。因此,需要尋求行之有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于語義理解的音頻資源管理 方法,以解決網(wǎng)絡(luò)中音頻資源無法有效、可行地進(jìn)行管理的難題,為實(shí)現(xiàn)上述目的,本發(fā)明基于語義理解的音頻資源管理方法,其特征在于,包括以 下步驟(1)、在網(wǎng)絡(luò)源端對音頻資源進(jìn)行資源整合在對音頻資源進(jìn)行語義理解的基礎(chǔ)上實(shí)現(xiàn)語義標(biāo)引,從而生成該音頻資源的語義 標(biāo)引信息;所述的語義標(biāo)引是指對音頻資源的語義進(jìn)行多維度的標(biāo)引,使形成的語義標(biāo)引 信息能夠全方位地具體地反應(yīng)一個特定的音頻資源;將音頻資源的語義標(biāo)引信息作為語義水印嵌入到音頻資源中,得到帶有語義標(biāo)引 信息的音頻資源;O)、網(wǎng)絡(luò)源端發(fā)送帶有語義標(biāo)引信息的音頻資源給用戶終端;(3)、用戶終端對接收到的帶有語義標(biāo)引信息的音頻資源進(jìn)行語義解析,并對解析 出的語義標(biāo)引信息進(jìn)行一個初步的過濾,以此判斷是否將接收到的音頻資源在本地儲存;所述的語義解析是指提取嵌入到音頻資源中的語義水印,恢復(fù)成對音頻資源進(jìn)行 多維度標(biāo)引的語義標(biāo)引信息;所述的初步過濾是檢查解析出的語義標(biāo)引信息是否同用戶終 端已經(jīng)存儲有的音頻資源的語義標(biāo)引信息相同,如果相同,則放棄接收到音頻資源,如果不 同,則將接收到的音頻資源在本地儲存;0)、用戶終端將接收到各個音頻資源的語義標(biāo)引信息分別用三階張量表示,然 后計(jì)算它們之間的語義關(guān)聯(lián)度,即張量語義離散度(Tensor Semantic Dispersion,簡稱 TSD),最后,根據(jù)張量語義離散度對接收到音頻資源進(jìn)行分類管理。與現(xiàn)有技術(shù)相比,本發(fā)明有以下優(yōu)點(diǎn)本發(fā)明基于語義理解的音頻資源管理方法借助于語義標(biāo)引信息對音頻資源從源 端到終端整個過程進(jìn)行管理,具有簡單易行、方便可靠等優(yōu)點(diǎn);本發(fā)明在網(wǎng)絡(luò)源端將語義標(biāo)引信息作為語義水印嵌入到音頻資源中,使音頻資源 與其語義標(biāo)引信息融合為一體,在網(wǎng)絡(luò)中進(jìn)行傳輸,有效地防止了語義標(biāo)引信息的丟失,并 能完整的恢復(fù)出音頻語義信息。本發(fā)明在用戶終端通過音頻資源的語義解析,恢復(fù)出語義標(biāo)引信息,根據(jù)語義標(biāo) 引信息初步過濾,然后對接收到的音頻資源用三階張量表示,然后計(jì)算它們之間的張量語 義離散度,根據(jù)張量語義離散度對接收到音頻資源進(jìn)行分類管理,有效的克服了向量模型 維度災(zāi)難,語義丟失等問題,能更加精確的對音頻資源進(jìn)行分類,給用戶提供質(zhì)量更高的服 務(wù)。
圖1是本發(fā)明基于語義理解的音頻資源管理方法一種具體實(shí)施方式
流程圖;圖2是圖1所示的語義標(biāo)引信息嵌入過程示意圖;圖3是圖1所示的語義標(biāo)引信息的解析和音頻資源的初步過濾流程圖;圖4是圖1所示的張量語義離散度的計(jì)算流程和音頻資源的分類流程圖; 圖5是兩種自動分類算法對四組不同語義的ROC曲線對比圖。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式
進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地 理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許 會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。實(shí)施例如圖1所示,在本實(shí)施例中,基于語義理解的音頻資源管理方法包括以下步驟步驟STlOl 語義標(biāo)引信息的生成在網(wǎng)絡(luò)源端,在對音頻資源進(jìn)行語義理解的基礎(chǔ)上,對音頻資源的語義進(jìn)行多維 度的標(biāo)引,生成該音頻資源的語義標(biāo)引信息,生成的語義標(biāo)引信息能夠全方位地具體地反 應(yīng)一個特定的音頻資源。傳統(tǒng)的標(biāo)引是基于關(guān)鍵字對內(nèi)容標(biāo)題進(jìn)行標(biāo)引,而不是對其內(nèi)容本身,忽略了概 念層面或語義層面的含義,很難全面的對其內(nèi)容進(jìn)行揭示。在本實(shí)施例中,語義標(biāo)引從內(nèi)容屬性上對音頻資源進(jìn)行語義理解和特征提取過 程,它的目的是揭示音頻資源的內(nèi)容特征,便于集中同類的內(nèi)容,區(qū)分不同的內(nèi)容,為相關(guān) 內(nèi)容建立聯(lián)系,提高音頻資源的管理和利用率。表1是語義標(biāo)引信息的一個實(shí)例
權(quán)利要求
1.一種基于語義理解的音頻資源管理方法,其特征在于,包括以下步驟 (1)、在網(wǎng)絡(luò)源端對音頻資源進(jìn)行資源整合在對音頻資源進(jìn)行語義理解的基礎(chǔ)上實(shí)現(xiàn)語義標(biāo)引,從而生成該音頻資源的語義標(biāo)引 信息;所述的語義標(biāo)引是指對音頻資源的語義進(jìn)行多維度的標(biāo)引,使形成的語義標(biāo)引信息 能夠全方位地具體地反應(yīng)一個特定的音頻資源;將音頻資源的語義標(biāo)引信息作為語義水印嵌入到音頻資源中,得到帶有語義標(biāo)引信息 的音頻資源;O)、網(wǎng)絡(luò)源端發(fā)送帶有語義標(biāo)引信息的音頻資源給用戶終端; (3)、用戶終端對接收到的帶有語義標(biāo)引信息的音頻資源進(jìn)行語義解析,并對解析出的 語義標(biāo)引信息進(jìn)行一個初步的過濾,以此判斷是否將接收到的音頻資源在本地儲存;所述的語義解析是指提取嵌入到音頻資源中的語義水印,恢復(fù)成對音頻資源進(jìn)行多維 度標(biāo)引的語義標(biāo)引信息;所述的初步過濾是檢查解析出的語義標(biāo)引信息是否同用戶終端已 經(jīng)存儲有的音頻資源的語義標(biāo)引信息相同,如果相同,則放棄接收到音頻資源,如果不同, 則將接收到的音頻資源在本地儲存;G)、用戶終端將接收到各個音頻資源的語義標(biāo)引信息分別用三階張量表示,然后計(jì)算 它們之間的張量語義離散度,最后,根據(jù)張量語義離散度對接收到音頻資源進(jìn)行分類管理。
2.根據(jù)權(quán)利要求1所述的基于語義理解的音頻資源管理方法,其特征在于,所述的語 義標(biāo)引信息有17個語義,分為三大類由資源類型、分級、標(biāo)準(zhǔn)、文件長度、文件大小以及語言等6個元素組成的外部屬性信息;由藝術(shù)家、出版者、日期、標(biāo)題以及專輯等5個元素組成的版權(quán)管理信息; 由音色、旋律、流派、情感、樂器以及描述等6個元素組成的本征語義信息。
3.根據(jù)權(quán)利要求1所述的基于語義理解的音頻資源管理方法,其特征在于,所述的步 驟(1)中,還將音頻資源的傳輸優(yōu)先級信息構(gòu)成的傳輸優(yōu)先級水印嵌入到音頻資源中;用戶對不同音頻資源的不同需求程度,將音頻資源的傳輸優(yōu)先級分為高,中,低三個級 別,在步驟O)的網(wǎng)絡(luò)傳輸時,將解析出音頻資源的傳輸優(yōu)先級,傳輸優(yōu)先級越高的音頻資 源將優(yōu)先傳輸。
4.根據(jù)權(quán)利要求1所述的基于語義理解的音頻資源管理方法,其特征在于,所述的步 驟(1)的嵌入為步驟ST1021 對音頻資源的每一幀音頻信號進(jìn)行子帶濾波; 步驟ST1022 對子帶濾波后的音頻信號進(jìn)行MDCT變換; 步驟ST1023 量化MDCT系數(shù);步驟STlOM 選取合適的MDCT系數(shù)分別作為語義水印以及傳輸優(yōu)先級水印嵌入的最 優(yōu)位置;MDCT系數(shù)的選擇應(yīng)最大程度的保證語義水印以及傳輸優(yōu)先級水印的不可聽性和魯棒性;步驟ST1025 將語義標(biāo)引信息進(jìn)行預(yù)處理,得到含有語義標(biāo)引信息的隨機(jī)序列; 步驟ST1(^6 將音頻資源的傳輸優(yōu)先級信息進(jìn)行預(yù)處理,得到含有對音頻資源不同的 傳輸優(yōu)先級的隨機(jī)序列。步驟ST1027 將步驟ST1025、步驟ST1(^6得到的包含有語義標(biāo)引信息、傳輸優(yōu)先級的 兩個序列分別嵌入到步驟STlOM選出的最優(yōu)位置,得到帶有語義標(biāo)引信息和傳輸優(yōu)先級 的音頻資源。
5.根據(jù)權(quán)利要求4所述的基于語義理解的音頻資源管理方法,其特征在于,所述的步 驟⑶具體為步驟ST301 根據(jù)選則最優(yōu)嵌入位置的方法的逆運(yùn)算,在接收到的帶有語義標(biāo)引信息 的音頻資源中,找到語義水印的嵌入位置,提取出包含語義標(biāo)引信息的隨機(jī)序列;步驟ST302 根據(jù)產(chǎn)生隨機(jī)序列采取的偽隨機(jī)處理方法,對包含語義標(biāo)引信息的隨機(jī) 序列進(jìn)行逆變換,將提取的隨機(jī)序列恢復(fù)成語義標(biāo)引信息;步驟ST303 檢查解析出的語義標(biāo)引信息是否同用戶終端已經(jīng)存儲有的音頻資源的語 義標(biāo)引信息相同,如果相同,則放棄接收到音頻資源,如果不同,則將接收到的音頻資源在 本地儲存。若本地文件中沒有該語義標(biāo)引信息或者不完全,則將該信息儲存到本地文件中, 刷新本地存儲,實(shí)現(xiàn)對音頻資源的初步過濾,對音頻文件進(jìn)行管理。
6.根據(jù)權(quán)利要求1所述的基于語義理解的音頻資源管理方法,其特征在于,所述的步 驟⑷具體為步驟ST401 將接收到各個音頻資源的語義標(biāo)引信息用三階張量式^爐一爿3表示,其中 I1^ 12、I3分別是進(jìn)行語義標(biāo)引信息的外部屬性信息的特征向量、版權(quán)管理信息的特征向量 及本征語義信息的特征向量的維數(shù),則所有的接收到音頻數(shù)據(jù)集合X= {X”)(2,...,Xn}都 在此張量空間內(nèi);步驟ST402 對所有的音頻資源類別,在張量語義離散度計(jì)算中,定義音頻資源屬于同 一類別的類內(nèi)語義離散度為α,屬于不同類別的類間語義離散度為β ;步驟ST403:滿足類內(nèi)語義離散度α最小,類間語義離散度β最大時的類別信息作為 TSD,即張量語義離散度經(jīng)驗(yàn)知識;步驟ST404 將所得到的TSD經(jīng)驗(yàn)知識初始化RBF張量神經(jīng)網(wǎng)絡(luò)模型,并確定網(wǎng)絡(luò)拓?fù)?結(jié)構(gòu)中權(quán)值和隱層神經(jīng)元的個數(shù);步驟ST405 利用RBFTNN算法將得到張量語義離散度經(jīng)驗(yàn)知識作為樣本數(shù)據(jù)進(jìn)行迭代 訓(xùn)練,完成RBFTNN分類模型建立,并存入RBFTNN模型庫,以用于對資源信息的自動分類;步驟ST406 針對任一需找出目標(biāo)類別的音頻語義資源,用模型庫中的RBFTNN模型尋 找資源目標(biāo)輸出,若能找出分類目標(biāo),返回目標(biāo)類別,若不能,則對該類新音頻資源重新執(zhí) 行離散度分類及RBFTNN模型建立的過程,并最終更新模型庫。
全文摘要
本發(fā)明公開了一種語義理解的音頻資源管理方法,借助于語義標(biāo)引信息對音頻資源從源端到終端整個過程進(jìn)行管理,具有簡單易行、方便可靠等優(yōu)點(diǎn);在網(wǎng)絡(luò)源端將語義標(biāo)引信息作為語義水印嵌入到音頻資源中,使音頻資源與其語義標(biāo)引信息融合為一體,在網(wǎng)絡(luò)中進(jìn)行傳輸,有效地防止了語義標(biāo)引信息的丟失,并能完整的恢復(fù)出音頻語義信息。在用戶終端通過音頻資源的語義解析,恢復(fù)出語義標(biāo)引信息,根據(jù)語義標(biāo)引信息初步過濾,然后對接收到的音頻資源用三階張量表示,然后計(jì)算它們之間的張量語義離散度,根據(jù)張量語義離散度對接收到音頻資源進(jìn)行分類管理,有效的克服了向量模型維度災(zāi)難,語義丟失等問題,能更加精確的對音頻資源進(jìn)行分類,給用戶提供質(zhì)量更高的服務(wù)。
文檔編號G10L19/00GK102143001SQ20111008313
公開日2011年8月3日 申請日期2011年4月2日 優(yōu)先權(quán)日2011年4月2日
發(fā)明者朱敏, 邢玲, 馬建國 申請人:西南科技大學(xué)