信息處理方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種信息處理方法和裝置。所述方法包括:獲得多媒體數(shù)據(jù);從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息;將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及如果所述第一相似度小于第一閾值,則生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。因此,在本發(fā)明中,可以對多媒體數(shù)據(jù)進(jìn)行自動整理和標(biāo)識,從而避免了用戶的任何手工操作,節(jié)約了多媒體數(shù)據(jù)的歸檔時間,充分提高了用戶體驗。
【專利說明】信息處理方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】,更具體地,本發(fā)明涉及一種信息處理方法和裝置。
【背景技術(shù)】
[0002]近年來,諸如筆記本計算機(jī)、臺式計算機(jī)、平板電腦(PAD)、移動電話、多媒體播放器、個人數(shù)字助理(PDA)之類的電子設(shè)備越發(fā)普及。并且,隨著電子技術(shù)的不斷進(jìn)步,這些電子設(shè)備的功能也日益提升,存儲容量也不斷增加。于是,在人們的工作和生活中,往往需要在這些電子設(shè)備中存儲并處理大量的多媒體數(shù)據(jù)和文檔,并且需要在各種電子設(shè)備相互之間對它們不斷進(jìn)行分享。因而,如何高效地對這些多媒體數(shù)據(jù)和文檔進(jìn)行歸檔和搜索愈發(fā)成為一個亟待解決的問題。
[0003]在現(xiàn)有技術(shù)中,為了能夠搜索多媒體數(shù)據(jù),人們只能簡單地逐個地對各個多媒體數(shù)據(jù)和文檔進(jìn)行人工歸檔和整理,并且向它們添加用戶自己可識別的標(biāo)簽,以便隨后該用戶能夠通過將標(biāo)簽作為關(guān)鍵字進(jìn)行手工搜索,從而定位自己所需的信息。
[0004]然而,顯然,由于在這種方式中需要人為地整理并添加標(biāo)簽,這就使得當(dāng)在電子設(shè)備中存儲有海量的多媒體數(shù)據(jù)和文檔時,用戶將耗費大量的精力進(jìn)行這些手動操作,這無疑是費時費力的。
[0005]因此,需要一種新型的信息處理方法和裝置來解決上述問題。
【發(fā)明內(nèi)容】
[0006]為了解決上述技術(shù)問題,根據(jù)本發(fā)明的一個方面,提供了一種信息處理方法,所述方法包括:獲得多媒體數(shù)據(jù);從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息;將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及如果所述第一相似度小于第一閾值,則生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。
[0007]此外,根據(jù)本發(fā)明的另一方面,提供了一種信息處理裝置,所述裝置包括:數(shù)據(jù)獲得單元,用于獲得多媒體數(shù)據(jù);特征提取單元,用于從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息;相似度確定單元,用于將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及標(biāo)識生成單元,用于如果所述第一相似度小于第一閾值,則生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。
[0008]與現(xiàn)有技術(shù)相比,采用根據(jù)本發(fā)明的信息處理方法和裝置,可以獲得多媒體數(shù)據(jù),在所述多媒體數(shù)據(jù)的不同時間提取用于表征用戶身份的特征信息,并且確定不同時間的特征信息之間的相似度,當(dāng)該相似度小于預(yù)設(shè)閾值時,生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于將所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。因此,在本發(fā)明中,可以對多媒體數(shù)據(jù)進(jìn)行自動整理和標(biāo)識,從而避免了用戶的任何手工操作,節(jié)約了多媒體數(shù)據(jù)的歸檔時間,充分提高了用戶體驗。
[0009]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
【專利附圖】
【附圖說明】
[0010]附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0011]圖1圖示了根據(jù)本發(fā)明的信息處理方法。
[0012]圖2圖示了根據(jù)本發(fā)明的信息處理裝置。
[0013]圖3圖示了根據(jù)本發(fā)明第一實施例的信息處理方法。
[0014]圖4圖示了根據(jù)本發(fā)明第一實施例的信息處理裝置。
[0015]圖5圖示了根據(jù)本發(fā)明第二實施例的信息處理方法。
[0016]圖6圖示了根據(jù)本發(fā)明第二實施例的信息處理裝置。
[0017]圖7圖示了根據(jù)本發(fā)明第三實施例的信息處理方法。
[0018]圖8圖示了根據(jù)本發(fā)明第三實施例的信息處理裝置。
【具體實施方式】
[0019]將參照附圖詳細(xì)描述根據(jù)本發(fā)明的各個實施例。這里,需要注意的是,在附圖中,將相同的附圖標(biāo)記賦予基本上具有相同或類似結(jié)構(gòu)和功能的組成部分,并且將省略關(guān)于它們的重復(fù)描述。
[0020]在下文中,將參考圖1和圖2來描述根據(jù)本發(fā)明的信息處理方法和裝置。
[0021]圖1圖示了根據(jù)本發(fā)明的信息處理方法,而圖2圖示了根據(jù)本發(fā)明的信息處理裝置。
[0022]圖1所圖示的信息處理方法應(yīng)用于電子設(shè)備,并且所述方法通過圖2所圖示的信息處理裝置來實現(xiàn)。具體地,所述信息處理裝置100包括:數(shù)據(jù)獲得單元110、特征提取單元120、相似度確定單元130、和標(biāo)識生成單元140。
[0023]如圖1所圖示的,所述信息處理方法包括:
[0024]在步驟SllO中,數(shù)據(jù)獲得單元110獲得多媒體數(shù)據(jù);
[0025]在步驟S120中,特征提取單元120從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息;
[0026]在步驟S130中,相似度確定單元130將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及
[0027]在步驟S140中,如果所述第一相似度小于第一閾值,則標(biāo)識生成單元140生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。
[0028]由此可見,采用根據(jù)本發(fā)明的信息處理方法和裝置,可以獲得多媒體數(shù)據(jù),在所述多媒體數(shù)據(jù)的不同時間提取用于表征用戶身份的特征信息,并且確定不同時間的特征信息之間的相似度,當(dāng)該相似度小于預(yù)設(shè)閾值時,生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于將所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。因此,在本發(fā)明中,可以對多媒體數(shù)據(jù)進(jìn)行自動整理和標(biāo)識,從而避免了用戶的任何手工操作,節(jié)約了多媒體數(shù)據(jù)的歸檔時間,充分提高了用戶體驗。
[0029]例如,根據(jù)本發(fā)明的信息處理裝置100可以用于對一個或多個電子設(shè)備進(jìn)行信息處理。為此,該信息處理裝置100可以通過任何方式與該電子設(shè)備進(jìn)行通信。
[0030]在一個示例中,該信息處理裝置100可以作為一個軟件模塊和/或硬件模塊而集成到該電子設(shè)備中,換言之,該電子設(shè)備可以包括該信息處理裝置100。例如,當(dāng)電子設(shè)備是移動電話時,該信息處理裝置100可以是該移動電話的操作系統(tǒng)中的一個軟件模塊,或者可以是針對于該移動電話所開發(fā)的一個應(yīng)用程序;當(dāng)然,該信息處理裝置100同樣可以是該移動電話的眾多硬件模塊之一。
[0031]替換地,在另一示例中,該信息處理裝置100與該電子設(shè)備也可以是分離的設(shè)備,并且該信息處理裝置100可以通過有線和/或無線網(wǎng)絡(luò)連接到該電子設(shè)備,并且按照約定的數(shù)據(jù)格式來傳輸交互信息。
[0032]在下文中,將參考圖3和圖4在以下場景中具體地描述根據(jù)本發(fā)明第一實施例的信息處理方法和裝置,在該場景中僅僅包括一個電子設(shè)備,并且將移動電話作為電子設(shè)備的示例,該電子設(shè)備用于接收多媒體信息,此時,該信息處理裝置100用于對電子設(shè)備接收到的多媒體信息進(jìn)行自動識別和標(biāo)簽添加,以便在電子設(shè)備中對該多媒體信息進(jìn)行歸檔。
[0033]然而,需要說明的是,該電子設(shè)備可以是任何類型的電子設(shè)備,其包括但不限于:臺式計算機(jī)、筆記本計算機(jī)、平板電腦、電子閱讀器、多媒體播放器、和個人數(shù)字助理等。此夕卜,還可以將本發(fā)明應(yīng)用于信息處理裝置與電子設(shè)備之間的其他交互過程。
[0034]圖3圖示了根據(jù)本發(fā)明第一實施例的信息處理方法,而圖4圖示了根據(jù)本發(fā)明第一實施例的信息處理裝置100。
[0035]圖3所圖示的根據(jù)本發(fā)明第一實施例的信息處理方法可以通過圖4所圖示的信息處理裝置100來實現(xiàn)。如圖4所圖示的,與圖2中相似地,該信息處理裝置100可以包括:數(shù)據(jù)獲得單元110、特征提取單元120、相似度確定單元130、和標(biāo)識生成單元140。此外,優(yōu)選地,該信息處理裝置100還可以包括:標(biāo)識添加單元150和/或身份確定單元160。
[0036]如圖3所圖示的,根據(jù)本發(fā)明第一實施例的信息處理方法包括:
[0037]在步驟S310中,從電子設(shè)備獲得多媒體信息。
[0038]在第一實施例中,電子設(shè)備(例如,移動電話)可以接收多媒體信息,所述多媒體信息例如是當(dāng)前電子設(shè)備從一個或多個對端電子設(shè)備接收到的多媒體短消息、語音信箱留言、經(jīng)由即時通信工具(例如,QQ、MSN、微信等)接收的多媒體消息、通過有線和/或無線通信方式接收的諸如音視頻文件的多媒體文檔,甚至是混合文檔包等,該混合文檔包是封裝有普通文件(即非多媒體文件)以及該普通文件的分享者/創(chuàng)作者生成的、關(guān)于該文件內(nèi)容的一段語音說明的文檔包。
[0039]為了利用用戶身份來對接收到的多媒體信息進(jìn)行自動識別和添加標(biāo)簽,移動電話將該多媒體信息發(fā)送到信息處理裝置100,其中,數(shù)據(jù)獲得單元110獲得該多媒體信息。
[0040]在步驟S320中,從多媒體信息中提取用于表征用戶身份的特征信息。
[0041]在數(shù)據(jù)獲得單元110獲得該多媒體信息之后,特征提取單元120從所述多媒體信息中提取用于表征用戶身份的特征信息。
[0042]例如,在多媒體信息是多媒體文件(例如,語音留言)的情況下,該特征提取單元120可以對所述多媒體信息直接進(jìn)行聲紋識別;而在多媒體信息是混合文檔包的情況下,該特征提取單元120可以首先從該混合文檔包中提取其分享者/創(chuàng)作者生成的一段語音說明,然后對該語音說明進(jìn)行聲提取紋識別。
[0043]具體地,該特征提取單元120可以從多媒體信息中提取聲音軌道,并且在時間軸上根據(jù)聲音的存在與否來將該聲音軌道劃分為與不同時間對應(yīng)的多個片段,對于每個片段,根據(jù)各種聲音特性(例如,聲調(diào)、能量、頻譜等),使用各種語音信號分析和聲紋識別算法(例如,線性預(yù)測算法、Mel尺度倒譜算法、動態(tài)時間規(guī)整算法、模式分類算法等)來進(jìn)行語音特征和聲紋信息提取,從而獲得與多個時間對應(yīng)的多個聲紋信息。
[0044]在步驟S330中,對特征信息進(jìn)行比較,以確定它們之間的相似度。
[0045]相似度確定單元130從特征提取單元120接收與多媒體信息多個片段分別對應(yīng)的多個聲紋信息,并且對它們進(jìn)行比較。
[0046]為了便于說明,假設(shè)該多媒體信息被劃分為包括第一時間和第二時間的兩個片段,則相似度確定單元130將第一時間的第一聲紋信息與第二時間的第二聲紋信息進(jìn)行比較,以確定所述第一聲紋信息與所述第二聲紋信息之間的相似度,并且將該相似度與一個預(yù)設(shè)的閾值進(jìn)行比較,以判斷整個多媒體信息是只包括一個用戶的聲紋信息,還是包括與多個用戶對應(yīng)的多個聲紋信息。
[0047]在步驟S340中,如果相似度大于或等于閾值,則為整個多媒體信息生成唯一的用戶標(biāo)識信息。
[0048]如果相似度確定單元130確定出第一聲紋信息與所述第二聲紋信息之間的相似度大于或等于預(yù)設(shè)的閾值,則這說明整個多媒體信息是只包括一個用戶的聲紋信息,即整個多媒體信息是由同一個用戶生成的。
[0049]這時,標(biāo)識生成單元140可以為整個多媒體信息生成唯一的用戶標(biāo)識信息。
[0050]例如,該標(biāo)識生成單元140可以僅僅生成一個抽象的用戶標(biāo)識信息,其用于表明所述多媒體信息與一個用戶相關(guān)聯(lián),以在電子設(shè)備中簡單地區(qū)分于被標(biāo)識為與不同于上述用戶的另一用戶相關(guān)聯(lián)的多媒體信息。
[0051]替換地,該標(biāo)識生成單元140還可以生成一個具體的用戶標(biāo)識信息,其用于在電子設(shè)備中表明所述多媒體信息與具體的哪一個用戶(例如,第一用戶AAA還是第二用戶BBB)相關(guān)聯(lián)。
[0052]為此,信息處理裝置100可以優(yōu)選地包括身份確定單元160,用于確定與某一聲紋信息對應(yīng)的用戶標(biāo)識信息(例如,用戶名稱)。
[0053]具體地,該身份確定單元160可以接收特征提取單元120所提取的聲紋信息,并且根據(jù)該聲紋信息來判斷當(dāng)前在數(shù)據(jù)庫中是否存在已有的樣本聲紋信息。
[0054]如果存在這樣的一個或多個樣本聲紋信息,則該身份確定單兀160可以對多媒體信息的聲紋信息與所述多個樣本聲紋信息進(jìn)行比較,并且執(zhí)行打分判斷操作。
[0055]例如,該身份確定單元160從數(shù)據(jù)庫中獲得所述樣本聲紋信息,其中,每一個樣本聲紋信息已經(jīng)被預(yù)先地標(biāo)識為與唯一的用戶身份相關(guān)聯(lián)。然后,該身份確定單元160分別將多媒體信息的聲紋信息與所述多個樣本聲紋信息進(jìn)行比較,以確定它們之間的多個相似度,并且根據(jù)與相似度為最大值的樣本聲紋信息相關(guān)聯(lián)的用戶身份來確定與多媒體信息相關(guān)聯(lián)的具體用戶身份。
[0056]如果該聲音缺乏對應(yīng)的樣本聲紋信息(例如當(dāng)剛開始使用聲紋識別系統(tǒng)的初期),則該身份確定單元160可以尋找并使用在所述電子設(shè)備中可用的各種身份信息來確定與多媒體信息相關(guān)聯(lián)的具體用戶身份。
[0057]例如,當(dāng)所述多媒體信息是從對端電子設(shè)備接收到的多媒體短消息、語音信箱留言時,該身份確定單元160可以使用該對端電子設(shè)備的電話號碼、聯(lián)系人信息來確定該用戶身份。又如,當(dāng)所述多媒體信息是經(jīng)由即時通信工具(例如,QQ、MSN、微信等)接收的多媒體消息時,該身份確定單元160可以使用對方用戶的即時通信賬號來確定該用戶身份。另夕卜,當(dāng)所述多媒體信息是通過有線和/或無線通信方式接收的諸如音視頻文件的多媒體文檔,甚至是混合文檔包時,該身份確定單元160可以使用相應(yīng)文檔或文檔包屬性信息中的作者或所有者信息來確定該用戶身份。
[0058]然后,優(yōu)選地,該身份確定單元160可以通過在數(shù)據(jù)庫中建立新的模型,來將該多媒體信息的聲紋信息作為新的樣本聲紋信息,添加到數(shù)據(jù)庫中,以便對聲紋識別系統(tǒng)進(jìn)行擴(kuò)充。
[0059]另外,如果通過上述幾種方式仍然無法自動地確定與該多媒體信息相關(guān)聯(lián)的具體用戶身份,則身份確定單元160還可以向用戶顯示當(dāng)前聲紋識別系統(tǒng)中存在的樣本不足,并且提示用戶執(zhí)行輔助標(biāo)記。這時,用戶可以根據(jù)提示,通過各種輸入方式(例如,音頻、手寫、鍵盤等)手動地輸入相關(guān)信息。
[0060]同樣地,然后,優(yōu)選地,該身份確定單元160可以根據(jù)用戶的輔助標(biāo)記來將該多媒體信息的聲紋信息作為新的樣本聲紋信息,添加到數(shù)據(jù)庫中。
[0061]顯然,該身份確定單元160同樣也可以在自動確定與該多媒體信息相關(guān)聯(lián)的具體用戶身份之后,提示用戶進(jìn)行確認(rèn)和修改,以保證自動識別的正確率,從而,可以實現(xiàn)聲紋識別系統(tǒng)的自動學(xué)習(xí)過程,使得隨著用戶的語音標(biāo)記數(shù)據(jù)越來越多,自動標(biāo)記變得越來越準(zhǔn)確。
[0062]在步驟S350中,向多媒體信息添加用戶標(biāo)識信息。
[0063]在標(biāo)識生成單元140生成用戶標(biāo)識信息之后,標(biāo)識添加單元150向所述多媒體信息添加該用戶標(biāo)識信息。
[0064]例如,該標(biāo)識添加單元150可以將標(biāo)識生成單元140生成的用戶標(biāo)識信息添加到多媒體信息的已有屬性項目中,或者為其新建一個屬性項目。
[0065]或者,該標(biāo)識添加單元150還可以對多媒體信息的原始文件名進(jìn)行修改,向其中添加標(biāo)識生成單元140生成的用戶標(biāo)識信息。例如,當(dāng)該多媒體信息的原始文件名稱是“123”時,可以將其修改為“第一用戶AAA的123”。
[0066]甚至,在該標(biāo)識添加單元150還可以對多媒體信息的圖標(biāo)進(jìn)行修改,例如,添加角標(biāo),以體現(xiàn)出該多媒體信息與哪一個用戶相關(guān)聯(lián)。
[0067]這樣,根據(jù)信息處理裝置100所添加的用戶標(biāo)識信息,可以容易地對在電子設(shè)備中存儲的海量多媒體數(shù)據(jù)和文檔進(jìn)行歸檔,構(gòu)建索引,并生成供檢索的數(shù)據(jù)庫,以便在稍后進(jìn)行的檢索操作中,用戶能夠快速、準(zhǔn)確且高效地定位到自己所需的數(shù)據(jù)和文檔。
[0068]由此可見,采用根據(jù)本發(fā)明第一實施例的信息處理方法和裝置,可以在單機(jī)電子設(shè)備接收多媒體信息的場景中,獲得多媒體數(shù)據(jù),從其中提取用于表征用戶身份的唯一特征信息,根據(jù)該特征信息來為整個多媒體數(shù)據(jù)生成唯一的用戶標(biāo)識信息,并且向該多媒體數(shù)據(jù)添加該用戶標(biāo)識信息。
[0069]需要說明的是,盡管在上文中舉例說明了對多媒體信息進(jìn)行分段、提取多個特征信息、以及對它們進(jìn)行比較和閾值判斷的過程,但是,本發(fā)明不限于此??紤]到單純的多媒體信息往往是由單個用戶生成(即,它往往僅僅包含一個用戶的聲紋信息)的普遍特性,在實現(xiàn)本發(fā)明的第一實施例時,也可以省略上述各個分段、提取、比較和閾值判斷的操作,而在判斷出當(dāng)前多媒體數(shù)據(jù)屬于多媒體信息時,簡單地對該多媒體信息提取一個特征信息,并且根據(jù)該特征信息來對整個多媒體信息添加唯一的用戶標(biāo)識信息。
[0070]在下文中,將參考圖5和圖6在以下場景中具體地描述根據(jù)本發(fā)明第二實施例的信息處理方法和裝置,在該場景包括第一電子設(shè)備和第二電子設(shè)備兩個電子設(shè)備,并且將移動電話作為第一電子設(shè)備的示例,所述第一電子設(shè)備與第二電子設(shè)備進(jìn)行雙方音頻通話,并且自動地錄制該音頻通話,以生成并存儲該音頻通話的音頻流數(shù)據(jù),此時,該信息處理裝置100用于對移動電話錄制的音頻流數(shù)據(jù)進(jìn)行自動識別和標(biāo)簽添加,以便在移動電話中對該音頻流數(shù)據(jù)進(jìn)行歸檔。
[0071]圖5圖示了根據(jù)本發(fā)明第二實施例的信息處理方法,而圖6圖示了根據(jù)本發(fā)明第二實施例的信息處理裝置100。
[0072]圖5所圖示的根據(jù)本發(fā)明第二實施例的信息處理方法可以通過圖6所圖示的信息處理裝置100來實現(xiàn)。如圖6所圖示的,與圖2中相似地,該信息處理裝置100可以包括:數(shù)據(jù)獲得單元110、特征提取單元120、相似度確定單元130、和標(biāo)識生成單元140。此外,優(yōu)選地,該信息處理裝置100還可以包括:標(biāo)識添加單元150、身份確定單元160、和/或數(shù)據(jù)搜索單元170。
[0073]如圖5所圖示的,根據(jù)本發(fā)明第二實施例的信息處理方法包括:
[0074]在步驟S510中,從第一電子設(shè)備獲得音頻流數(shù)據(jù)。
[0075]在第二實施例中,第一用戶可以通過第一電子設(shè)備(例如,移動電話)來與第二電子設(shè)備(例如,固定電話)的第二用戶進(jìn)行多媒體通信,例如音頻通話。第一電子設(shè)備可以通過本地的麥克風(fēng)來接收第一用戶的聲音,并且將它作為通信信號通過通信信道傳送到第二電子設(shè)備;同時通過通信信道從第二電子設(shè)備接收通信信號,通過本地的音頻處理電路將該通信信號還原為第二用戶的聲音,并且通過耳機(jī)或揚聲器向第一用戶輸出。
[0076]此外,為了便于第一用戶對這段通話進(jìn)行歸檔和整理,該第一電子設(shè)備還可以自動地錄制、生成并存儲該音頻通話的音頻流數(shù)據(jù),以便信息處理裝置100對它進(jìn)行特征分析(例如,聲紋識別),并且向該音頻流數(shù)據(jù)添加用戶可以識別的標(biāo)識信息。
[0077]顯然,替換地,該信息處理裝置100也可以先對音頻流數(shù)據(jù)進(jìn)行標(biāo)識添加,然后再由第一電子設(shè)備直接存儲帶有標(biāo)識的音頻流數(shù)據(jù)。
[0078]在上述任一情況下,為了利用用戶身份來對所錄制的音頻流數(shù)據(jù)進(jìn)行自動識別和添加標(biāo)簽,移動電話將該音頻流數(shù)據(jù)發(fā)送到信息處理裝置100,其中,數(shù)據(jù)獲得單元110獲得該音頻流數(shù)據(jù)。
[0079]在步驟S520中,從音頻流數(shù)據(jù)中提取用于表征用戶身份的特征信息。
[0080]由于該音頻流數(shù)據(jù)中包括第一用戶和第二用戶兩個用戶的聲紋信息,所以在對該音頻流數(shù)據(jù)進(jìn)行標(biāo)識之前,優(yōu)選地,特征提取單元120可以將該音頻流數(shù)據(jù)劃分為多個片段。
[0081]如第一實施例中一樣地,該特征提取單元120可以在時間軸上根據(jù)聲音的存在與否來將該聲音軌道劃分為與不同時間對應(yīng)的多個片段。然而,這種處理方式只能簡單地將音頻流數(shù)據(jù)劃分為多個存在音頻的部分,而無法區(qū)分出哪個部分中存在單一用戶的聲音,而哪個部分同時存在兩個用戶的聲音交疊(例如,由于兩個用戶同時說話時產(chǎn)生)。
[0082]優(yōu)選地,特征提取單元120可以與第一電子設(shè)備進(jìn)行通信,獲取音頻流數(shù)據(jù)的來源信道,并且依次對該音頻流數(shù)據(jù)進(jìn)行精細(xì)劃分。例如,當(dāng)判斷出該音頻流數(shù)據(jù)中的一部分聲音數(shù)據(jù)源自于第一電子設(shè)備麥克風(fēng)的采集操作時,該特征提取單元120可以將其劃分為屬于第一用戶的片段;而在其他情況下,例如當(dāng)判斷出該音頻流數(shù)據(jù)中的一部分聲音數(shù)據(jù)源自于第一電子設(shè)備音頻處理電路的還原操作時,該特征提取單元120可以將其劃分為屬于第二用戶的片段。這樣,就實現(xiàn)了更加準(zhǔn)確可靠的音頻流數(shù)據(jù)的分段操作。
[0083]然后,該特征提取單元120可以對于每個片段進(jìn)行聲紋信息提取,從而獲得與多個時間對應(yīng)的多個聲紋信息。
[0084]在步驟S530中,對特征信息進(jìn)行比較,以確定它們之間的相似度。
[0085]相似度確定單元130對從特征提取單元120接收的多個聲紋信息進(jìn)行比較,以確定在整個音頻流數(shù)據(jù)中哪些片段屬于一個用戶,而哪些片段屬于另一個用戶。
[0086]在一個簡單示例中,假設(shè)該音頻流數(shù)據(jù)被劃分為包括第一時間、第二時間、第三時間的三個片段,則相似度確定單元130將第一時間的第一聲紋信息與第二時間的第二聲紋信息和第三時間的第三聲紋信息進(jìn)行比較,以確定三個聲紋信息之間的相似度,并且將該相似度與一個預(yù)設(shè)的閾值進(jìn)行比較,以區(qū)分哪些時間片段屬于一個用戶,而哪些時間片段屬于另一個用戶。
[0087]在步驟S540中,如果相似度小于閾值,則為整個音頻流數(shù)據(jù)生成與第二電子設(shè)備相關(guān)聯(lián)的用戶標(biāo)識信息。
[0088]例如,如果相似度確定單元130確定出第一聲紋信息與所述第二聲紋信息之間的相似度小于預(yù)設(shè)的閾值,則這說明第一時間的音頻流數(shù)據(jù)屬于一個用戶,而第二時間的音頻流數(shù)據(jù)屬于另一個用戶。如果相似度確定單元130確定出第一聲紋信息與所述第二聲紋信息之間的相似度大于或等于預(yù)設(shè)的閾值,則這說明第一時間的音頻流數(shù)據(jù)和第二時間的音頻數(shù)據(jù)屬于同一個用戶。以此類推,可以標(biāo)識出整個音頻流數(shù)據(jù)中的每一個時間片段屬于兩個用戶中的哪一個。
[0089]在生成用戶標(biāo)識信息時,優(yōu)選地,考慮到第一電子設(shè)備中的多媒體數(shù)據(jù)和文檔通常都會與第一用戶相關(guān)聯(lián),所以第一用戶在進(jìn)行整理歸檔時,往往僅僅期望了解這些文件還與其他哪些用戶相關(guān)聯(lián)。為此,標(biāo)識生成單元140可以利用非本機(jī)機(jī)主(B卩,除了第一用戶之外的第二用戶)的標(biāo)識信息來對整個音頻流數(shù)據(jù)添加標(biāo)識。
[0090]為此,該標(biāo)識生成單元140首先獲得一個參考特征信息,該參考特征信息例如是本機(jī)機(jī)主的聲紋信息,然后將特征提取單元120提取出的兩個聲紋信息之一與機(jī)主聲紋信息進(jìn)行比較,以確定它們之間的相似度。
[0091]如果該相似度大于或等于預(yù)設(shè)的閾值,則說明當(dāng)前比較的聲紋信息屬于機(jī)主(gp,第一用戶),這時,該標(biāo)識生成單元140使用另一個聲紋信息(第二用戶的聲紋信息)來對整個音頻流數(shù)據(jù)進(jìn)行標(biāo)識添加。如果該相似度小于預(yù)設(shè)的閾值,則說明當(dāng)前比較的聲紋信息屬于非機(jī)主(即,第二用戶),這時,該標(biāo)識生成單元140直接使用當(dāng)前的聲紋信息來生成為整個音頻流數(shù)據(jù)生成用戶標(biāo)識信息。
[0092]如第一實施例中一樣地,例如,該標(biāo)識生成單元140可以僅僅生成一個抽象的用戶標(biāo)識信息,其用于表明所述音頻流數(shù)據(jù)與一個非機(jī)主用戶相關(guān)聯(lián),或者還可以生成一個具體的用戶標(biāo)識信息(例如,第二用戶的姓名BBB),其用于在電子設(shè)備中表明所述音頻流數(shù)據(jù)與具體的哪一個非機(jī)主用戶相關(guān)聯(lián)。
[0093]為此,信息處理裝置100可以優(yōu)選地包括身份確定單元160,用于通過在數(shù)據(jù)庫中檢索與非機(jī)主用戶聲紋匹配的聲紋信息,使用在第一電子設(shè)備中存儲的、與第二電子設(shè)備相關(guān)聯(lián)的用戶身份(例如,電話本中的聯(lián)系人信息),或者提示用戶輔助指定,來確定與某一聲紋信息對應(yīng)的用戶標(biāo)識信息(例如,用戶名稱)。然后,該信息處理裝置100還可以通過最終確定的用戶標(biāo)識信息來更新聲紋識別系統(tǒng)的數(shù)據(jù)庫,以便協(xié)助該聲紋識別系統(tǒng)進(jìn)行自動學(xué)習(xí)。
[0094]在步驟S550中,向音頻流數(shù)據(jù)添加用戶標(biāo)識信息。
[0095]在標(biāo)識生成單元140生成用戶標(biāo)識信息之后,標(biāo)識添加單元150向所述音頻流數(shù)據(jù)添加該用戶標(biāo)識信息。
[0096]在步驟S560中,根據(jù)用戶標(biāo)識信息來對音頻流數(shù)據(jù)進(jìn)行檢索。
[0097]通過上述操作,在第一電子設(shè)備中可以根據(jù)信息處理裝置100所添加的用戶標(biāo)識信息,對所存儲的海量多媒體數(shù)據(jù)和文檔進(jìn)行歸檔,構(gòu)建索引,并生成供檢索的數(shù)據(jù)庫。
[0098]當(dāng)需要在第一電子設(shè)備中的數(shù)據(jù)庫中搜索在與第二用戶通話時所存儲的音頻流數(shù)據(jù)時,第一用戶可以向第一電子設(shè)備輸入要搜索的關(guān)鍵字。這時,在信息處理裝置100中,數(shù)據(jù)搜索單元170獲得用于該關(guān)鍵字,搜索包括所述關(guān)鍵字作為用戶標(biāo)識信息的多媒體數(shù)據(jù),并且返回所述多媒體數(shù)據(jù)。
[0099]具體地,該數(shù)據(jù)搜索單元170可以接收用戶通過各種方式輸入的輸入信息,例如該輸入信息可以是通過麥克風(fēng)接收的語音輸入、通過觸摸屏接收的手寫輸入、或通過鍵盤接收的文字輸入等。然后,該數(shù)據(jù)搜索單元170對輸入信息進(jìn)行文字識別(例如,語義識別),并且根據(jù)所識別的結(jié)果來從所述輸入信息中提取所述關(guān)鍵字,例如第二用戶的姓名。接下來,該數(shù)據(jù)搜索單元170可以在數(shù)據(jù)庫中查找具有第二用戶姓名作為用戶標(biāo)識信息的音頻流數(shù)據(jù),并且向第一用戶進(jìn)行呈現(xiàn),例如對它進(jìn)行播放。
[0100]替換地或者除此之外,該數(shù)據(jù)搜索單元170還可以在音頻流數(shù)據(jù)被打開的同時,向用戶呈現(xiàn)該音頻流數(shù)據(jù)的用戶標(biāo)識信息,以便用戶可以得知該音頻流數(shù)據(jù)是由誰提供的或者是誰在講話。
[0101]另外,還可能存在以下情況,即第二用戶希望在第一終端中檢索跟自己相關(guān)的音頻流數(shù)據(jù),但他/她并不知道第一用戶是通過什么信息來對它們進(jìn)行標(biāo)識的。這時,優(yōu)選地,可以通過聲紋識別來實現(xiàn)這個檢索過程。
[0102]具體地,該數(shù)據(jù)搜索單元170可以接收第二用戶通過麥克風(fēng)輸入的輸入信息,從該輸入信息中提取第二用戶的聲紋信息,從聲紋識別系統(tǒng)的數(shù)據(jù)庫中查找是否存在匹配的聲紋。例如,該數(shù)據(jù)搜索單元170獲得多個樣本聲紋信息,所述多個樣本聲紋信息中的每一個已經(jīng)在預(yù)先的身份標(biāo)識過程中與唯一的用戶身份相關(guān)聯(lián)。然后,該數(shù)據(jù)搜索單元170分別將在輸入信息中提取的第二用戶的聲紋信息與所述多個樣本聲紋信息進(jìn)行比較,以確定所述輸入信息與所述多個樣本聲紋信息之間的多個相似度,并且根據(jù)與相似度為最大值的樣本聲紋信息相關(guān)聯(lián)的用戶身份來確定在搜索時使用的關(guān)鍵字。例如,該關(guān)鍵字可能是第二用戶的姓名、第一用戶為第二用戶指定的昵稱、甚至是抽象的用戶標(biāo)識信息等。接下來,該數(shù)據(jù)搜索單元170可以在數(shù)據(jù)庫中查找具有該關(guān)鍵字作為用戶標(biāo)識信息的音頻流數(shù)據(jù),并且向第二用戶呈現(xiàn)。
[0103]由此可見,采用根據(jù)本發(fā)明第二實施例的信息處理方法和裝置,可以在兩個電子設(shè)備進(jìn)行雙方多媒體通信的場景中,獲得多媒體數(shù)據(jù),從其中提取用于表征用戶身份的多個特征信息,利用屬于非本機(jī)機(jī)主的特征信息來為整個多媒體數(shù)據(jù)生成唯一的用戶標(biāo)識信息,向該多媒體數(shù)據(jù)添加該用戶標(biāo)識信息,并且隨后根據(jù)用戶期望的關(guān)鍵字進(jìn)行準(zhǔn)確且高效的數(shù)據(jù)檢索。
[0104]需要說明的是,盡管在上文中舉例說明了使用非本機(jī)機(jī)主的特征信息來對音頻流數(shù)據(jù)添加標(biāo)識的過程,但是,本發(fā)明不限于此??紤]到具體的用戶需求,在實現(xiàn)本發(fā)明的第二實施例時,也可以分別使用機(jī)主的特征信息和非本機(jī)機(jī)主的特征信息來對在整個音頻流數(shù)據(jù)中屬于不同用戶的不同時間部分添加標(biāo)識,以便該音頻流數(shù)據(jù)的標(biāo)識信息更加豐富且標(biāo)識更加準(zhǔn)確。
[0105]在下文中,將參考圖7和圖8在以下場景中具體地描述根據(jù)本發(fā)明第三實施例的信息處理方法和裝置,在該場景至少包括第一電子設(shè)備和第二電子設(shè)備兩個電子設(shè)備,其中將移動電話作為第一電子設(shè)備的示例,所述第一電子設(shè)備與第二電子設(shè)備進(jìn)行多方視頻電話會議,并且自動地錄制該視頻通話,以生成并存儲該視頻通話的音視頻流數(shù)據(jù),此時,該信息處理裝置100用于對移動電話錄制的音視頻流數(shù)據(jù)進(jìn)行自動識別和標(biāo)簽添加,以便在移動電話中對該音視頻流數(shù)據(jù)進(jìn)行歸檔。
[0106]圖7圖示了根據(jù)本發(fā)明第三實施例的信息處理方法,而圖8圖示了根據(jù)本發(fā)明第三實施例的信息處理裝置100。
[0107]圖7所圖示的根據(jù)本發(fā)明第三實施例的信息處理方法可以通過圖8所圖示的信息處理裝置100來實現(xiàn)。如圖6所圖示的,與圖2中相似地,該信息處理裝置100可以包括:數(shù)據(jù)獲得單元110、特征提取單元120、相似度確定單元130、和標(biāo)識生成單元140。此外,優(yōu)選地,該信息處理裝置100還可以包括:標(biāo)識添加單元150、身份確定單元160、數(shù)據(jù)搜索單元170、命令生成單元180、命令接收單元190、和/或文本生成單元200。
[0108]如圖7所圖示的,根據(jù)本發(fā)明第三實施例的信息處理方法包括:
[0109]在步驟S710中,從第一電子設(shè)備獲得音視頻流數(shù)據(jù)。
[0110]在第三實施例中,一個或多個用戶(例如,第一用戶)可以通過第一電子設(shè)備(例如,移動電話)來與第二電子設(shè)備(例如,固定電話)的一個或多個用戶(例如,第二用戶和第三用戶)進(jìn)行多媒體通信,例如音視頻通話。
[0111]需要說明的是,盡管這里以兩個電子設(shè)備為例來描述該多方視頻電話會議的進(jìn)行,但是,本發(fā)明不限于此。顯然,還可以包括第三電子設(shè)備,使得更多的用戶利用第三電子設(shè)備加入此音視頻通話,或者也可以使得第三用戶獨自使用第三電子設(shè)備來與第一用戶和第二用戶進(jìn)行音視頻通話,而不是與第二用戶共享該第二電子設(shè)備。
[0112]此外,為了便于第一用戶對這段通話進(jìn)行歸檔和整理,該第一電子設(shè)備還可以自動地錄制、生成并存儲該音視頻通話的音視頻流數(shù)據(jù),并且將該音視頻流數(shù)據(jù)發(fā)送到信息處理裝置100,以便信息處理裝置100對它進(jìn)行特征分析(例如,聲紋識別、面部識別、手勢識別、身體特征識別、姿態(tài)識別等),并且向該音視頻流數(shù)據(jù)添加用戶可以識別的標(biāo)識信息。
[0113]具體地,在信息處理裝置100中,數(shù)據(jù)獲得單元110從第一電子設(shè)備獲得該音視頻流數(shù)據(jù)。
[0114]在步驟S720中,根據(jù)標(biāo)識觸發(fā)命令來啟動對音視頻流數(shù)據(jù)的標(biāo)識操作。
[0115]考慮到第一用戶可能由于各種原因(例如,用戶可能不期望錄下會議開始前的準(zhǔn)備工作、或者用戶僅僅關(guān)注于會議中的一小部分內(nèi)容等)而無需對整個音視頻通話過程進(jìn)行標(biāo)識,優(yōu)選地,在第三實施例中,特征提取單元120只有在命令接收單元190接收到標(biāo)識觸發(fā)命令之后,才開始執(zhí)行特征信息提取操作,也就是說,信息處理裝置100可以僅僅對音視頻流數(shù)據(jù)中的至少一部分添加標(biāo)識,甚至是,該信息處理裝置100可以在獲得標(biāo)識觸發(fā)命令之后才通知第一電子設(shè)備開始記錄該音視頻通話。
[0116]為此,在信息處理裝置100中包括一個命令生成單元180,以用于當(dāng)用戶期望對音視頻流數(shù)據(jù)中的一部分進(jìn)行標(biāo)識時,根據(jù)用戶的輸入來生成一個標(biāo)識觸發(fā)命令。
[0117]具體地,用戶可以預(yù)先設(shè)置一個命令樣本數(shù)據(jù),該命令樣本數(shù)據(jù)可以是某一個或多個用戶的聲紋信息、面部特征信息、手勢信息、身體特征信息、姿態(tài)信息等、或者是它們的各種組合。然后,該命令生成單元180可以獲得該命令樣本數(shù)據(jù),將音視頻流數(shù)據(jù)與所述命令樣本數(shù)據(jù)進(jìn)行比較,并且當(dāng)所述音視頻流數(shù)據(jù)與所述命令樣本數(shù)據(jù)匹配時,生成所述標(biāo)識觸發(fā)命令。
[0118]在一個示例中,用戶可能期望當(dāng)音視頻流數(shù)據(jù)中出現(xiàn)會議組織者時,才開始標(biāo)識操作。為此,該用戶可以將會議組織者的面部圖像設(shè)置為該命令樣本數(shù)據(jù)。這時,該命令生成單元180首先獲取該預(yù)設(shè)的面部圖像,并且將它與數(shù)據(jù)獲得單元110獲得的音視頻流數(shù)據(jù)進(jìn)行實時比對,以確定該音視頻流數(shù)據(jù)中的視頻圖像中是否出現(xiàn)會議組織者的面部。當(dāng)出現(xiàn)時,該命令生成單元180生成用于啟動標(biāo)識操作的所述標(biāo)識觸發(fā)命令。
[0119]在另一示例中,用戶可能期望當(dāng)音視頻流數(shù)據(jù)中出現(xiàn)特定聲音信號時,才開始標(biāo)識操作。為此,該用戶可以將任一參會用戶發(fā)出的聲音信息“現(xiàn)在會議開始”設(shè)置為該命令樣本數(shù)據(jù)。這時,該命令生成單元180首先獲取該預(yù)設(shè)的聲音信息,并且對數(shù)據(jù)獲得單元110獲得的音視頻流數(shù)據(jù)進(jìn)行實時語義分析,以確定該音視頻流數(shù)據(jù)中的音頻內(nèi)容中是否出現(xiàn)這樣的話語當(dāng)出現(xiàn)時,該命令生成單元180生成用于啟動標(biāo)識操作的所述標(biāo)識觸發(fā)命令。
[0120]更進(jìn)一步地,在又一示例中,用戶還可以將由會議組織者發(fā)出聲音信息“現(xiàn)在會議開始”同時做出某一手勢動作(例如,請大家安靜的手勢)設(shè)置為該命令樣本數(shù)據(jù)。這時,該命令生成單元180不但要對音視頻流數(shù)據(jù)中的音頻內(nèi)容進(jìn)行實時語義分析,而且還需要對該音頻內(nèi)容進(jìn)行實時聲紋分析,并且同時對于該音視頻流數(shù)據(jù)中的視頻圖像進(jìn)行手勢識別。
[0121]接下來,命令接收單元190檢測當(dāng)前是否接收到命令生成單元180生成的標(biāo)識觸發(fā)命令,并且在接收到該命令之后,通知特征提取單元120開始執(zhí)行特征信息提取操作。
[0122]在步驟S730中,從音視頻流數(shù)據(jù)中提取用于表征用戶身份的特征信息。
[0123]該特征提取單元120可以從音視頻流數(shù)據(jù)中提取聲音軌道和視頻圖像,根據(jù)各種可能的特征信息來在時間軸上將音視頻流數(shù)據(jù)劃分為與不同時間對應(yīng)的多個片段。然后,該特征提取單元120可以對于每個片段進(jìn)行特征信息提取,從而獲得與多個時間對應(yīng)的多個特征信息。
[0124]如第一和第二實施例中一樣地,該特征信息可以是各個用戶的聲紋信息。此外,該特征信息也可以是各個用戶的面部特征信息、身體特征信息、和手勢信息等。
[0125]在步驟S740中,對特征信息進(jìn)行比較,以確定它們之間的相似度。
[0126]相似度確定單元130從特征提取單元120接收與音視頻流數(shù)據(jù)中多個片段分別對應(yīng)的多個聲紋信息,并且對它們進(jìn)行比較。
[0127]為了便于說明,假設(shè)該音視頻流數(shù)據(jù)被劃分為包括三個片段,其中第一時間與第一用戶的發(fā)言過程對應(yīng),第二時間與第二用戶的發(fā)言過程對應(yīng),并且第三時間與第三用戶的發(fā)言過程對應(yīng)。
[0128]在步驟S750中,如果相似度小于閾值,則為音視頻流數(shù)據(jù)生成多個用戶標(biāo)識信肩、O
[0129]基于上述假設(shè),當(dāng)執(zhí)行比較操作時,相似度確定單元130可以確定出第一時間的第一特征信息與接下來的第二時間的第二特征信息之間的相似度小于預(yù)設(shè)的閾值,則這說明第一時間的音視頻流數(shù)據(jù)屬于一個用戶,而第二時間的音視頻流數(shù)據(jù)屬于另一個用戶。繼續(xù)地,相似度確定單元130還可以確定出第二時間的第二特征信息與接下來的第三時間的第三特征信息之間的相似度小于預(yù)設(shè)的閾值、并且第三時間的第三特征信息與之前的第一時間的第一特征信息之間的相似度也小于預(yù)設(shè)的閾值,則這說明第三時間的音視頻流數(shù)據(jù)屬于除了之前兩個用戶的又一個用戶。
[0130]以此類推,可以標(biāo)識出整個音視頻流數(shù)據(jù)中的每一個時間片段屬于三個用戶中的哪一個。接下來,該標(biāo)識生成單元140可以為屬于不同用戶的時間片段,添加不同的用戶標(biāo)識信息,由此可以清楚地標(biāo)識出電話會議中正在發(fā)言用戶的切換。
[0131]例如,與第一實施例和第二實施例中一樣地,在生成用戶標(biāo)識信息時,該標(biāo)識生成單元140可以抽象地對各個時間片段標(biāo)識為分別與三個不同的用戶相關(guān)聯(lián),或者也可以通過身份確定單元160來具體地對這三個不同用戶的身份進(jìn)行確定。
[0132]在后者情況下,該身份確定單元160可以首先確定當(dāng)前采用的特征信息的格式,并且根據(jù)該特征信息的格式來在數(shù)據(jù)庫中尋找對應(yīng)的樣本特征信息,以便比較并確定每個時間片段的具體用戶身份。例如,身份確定單元160可以根據(jù)當(dāng)前采樣的特征信息來選擇與唯一用戶身份相關(guān)聯(lián)的聲紋信息、面部特征信息、身體特征信息、和手勢信息等來完成上述操作。
[0133]在步驟S760中,向音視頻流數(shù)據(jù)添加用戶標(biāo)識信息。
[0134]在標(biāo)識生成單元140生成用戶標(biāo)識信息之后,標(biāo)識添加單元150向所述音視頻流數(shù)據(jù)添加該用戶標(biāo)識信息,從而使得數(shù)據(jù)搜索單元170可以根據(jù)標(biāo)識添加單元150所添加的用戶標(biāo)識信息,定位到用戶所需的數(shù)據(jù)和文檔。
[0135]在第三實施例中,優(yōu)選地,在第一用戶使用第二用戶的姓名來搜索與第二用戶相關(guān)聯(lián)的多媒體數(shù)據(jù)的情況下,當(dāng)在數(shù)據(jù)搜索單元170搜索到包括第二用戶姓名作為用戶標(biāo)識信息的多媒體數(shù)據(jù)之后、返回所述多媒體數(shù)據(jù)時,該數(shù)據(jù)搜索單元170進(jìn)一步將多媒體數(shù)據(jù)跳轉(zhuǎn)到以下多媒體部分,所述多媒體部分是在所述多媒體數(shù)據(jù)中、與作為用戶標(biāo)識信息的第二用戶姓名對應(yīng)時間的多媒體數(shù)據(jù),并且呈現(xiàn)所述多媒體數(shù)據(jù)中的所述多媒體部分。
[0136]例如,該數(shù)據(jù)搜索單元170可以在向用戶呈現(xiàn)上述音視頻流數(shù)據(jù)時,進(jìn)一步在時間軸上將該音視頻流數(shù)據(jù)定位在第二用戶出現(xiàn)和/或發(fā)言的部分,以便用戶可以直接跳轉(zhuǎn)到自己所關(guān)注的音視頻部分,從而顯著地提高了用戶的檢索體驗。
[0137]在步驟S770中,將音視頻流數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),并且為文本數(shù)據(jù)生成多個用戶標(biāo)識信息。
[0138]除了能夠?qū)σ粢曨l流數(shù)據(jù)進(jìn)行自動識別和標(biāo)簽添加之外,該信息處理裝置100還可以對該音視頻流數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換,并且對轉(zhuǎn)換后的文本進(jìn)行自動識別和標(biāo)簽添加。
[0139]為此,該信息處理裝置100還可以包括文本生成單元200,用于對多媒體數(shù)據(jù)進(jìn)行文本識別,并且生成與所述多媒體數(shù)據(jù)對應(yīng)的文本數(shù)據(jù)。這時,標(biāo)識添加單元150在所述文本數(shù)據(jù)中確定與所述第一時間、第二時間和第三時間的多媒體數(shù)據(jù)分別對應(yīng)的第一文本部分、第二文本部分和第三文本部分,并且分別使用在步驟S750中生成的多個來標(biāo)識第一文本部分到第三文本部分。
[0140]在一個簡單示例中,該文本生成單元200可以對音視頻流數(shù)據(jù)中的聲音軌道執(zhí)行語義識別,以便將各個用戶的發(fā)言轉(zhuǎn)換為文本腳本,便于用戶進(jìn)行歸檔和查看。
[0141]優(yōu)選地,在另一示例中,該文本生成單元200還可以首先對該音視頻流數(shù)據(jù)中進(jìn)行格式識別,根據(jù)不同的格式來對該音視頻流數(shù)據(jù)執(zhí)行不同處理。例如,該文本生成單元200可以對音視頻流數(shù)據(jù)中的聲音軌道執(zhí)行語義識別,同時對視頻圖像執(zhí)行圖像識別,以便在將各個用戶的發(fā)言轉(zhuǎn)換為會議紀(jì)要的同時,還可以將視頻圖像中出現(xiàn)的文字部分(例如,當(dāng)圖像中出現(xiàn)演示文稿時)填入到會議紀(jì)要的相應(yīng)位置,或者簡單地將當(dāng)前顯示的演示文稿,以圖像形式添加到會議紀(jì)要的相應(yīng)位置,以便充實會議紀(jì)要的內(nèi)容,真實再現(xiàn)會議中出現(xiàn)的場景。
[0142]然后,該標(biāo)識添加單元150可以與音視頻流數(shù)據(jù)的標(biāo)記添加對應(yīng)地,向所述文本數(shù)據(jù)(即,會議紀(jì)要腳本)添加用戶標(biāo)識信息,從而使得數(shù)據(jù)搜索單元170可以根據(jù)標(biāo)識添加單元150所添加的用戶標(biāo)識信息,不但定位到該視頻通話的音視頻流數(shù)據(jù),而且還可以定位到會議紀(jì)要的文本數(shù)據(jù)。
[0143]在步驟S780中,根據(jù)用戶標(biāo)識信息來對文本數(shù)據(jù)進(jìn)行檢索。
[0144]當(dāng)用戶期望對歸檔的各個文檔和數(shù)據(jù)執(zhí)行檢索操作時,除了該視頻會議的音視頻流數(shù)據(jù)之外,數(shù)據(jù)搜索單元170可以根據(jù)標(biāo)識添加單元150所添加的用戶標(biāo)識信息,定位到該視頻會議的文本數(shù)據(jù),并且根據(jù)用戶的選擇來返回該文本數(shù)據(jù)。
[0145]此外,與在步驟S760中一樣地,在第三實施例中,優(yōu)選地,在第一用戶使用第二用戶的姓名來搜索與第二用戶相關(guān)聯(lián)的各類數(shù)據(jù)的情況下,當(dāng)在數(shù)據(jù)搜索單元170搜索到包括第二用戶姓名作為用戶標(biāo)識信息的文本數(shù)據(jù)之后、返回所述文本數(shù)據(jù)時,該數(shù)據(jù)搜索單元170進(jìn)一步將文本數(shù)據(jù)跳轉(zhuǎn)到以下文本部分,所述文本部分是在所述文本數(shù)據(jù)中、與作為用戶標(biāo)識信息的第二用戶姓名對應(yīng)位置的文本數(shù)據(jù),并且呈現(xiàn)所述文本數(shù)據(jù)中的所述文本部分。
[0146]例如,該數(shù)據(jù)搜索單元170可以在向用戶呈現(xiàn)歸檔后的上述會議紀(jì)要文本數(shù)據(jù)時,進(jìn)一步將該文本數(shù)據(jù)定位在與第二用戶發(fā)言對應(yīng)的文字部分,以便用戶可以直接觀看到自己所關(guān)注的文本部分,從而顯著地提高了用戶的檢索體驗。
[0147]由此可見,采用根據(jù)本發(fā)明第三實施例的信息處理方法和裝置,可以在兩個或更多電子設(shè)備進(jìn)行多方多媒體通信的場景中,獲得多媒體數(shù)據(jù),從其中提取用于表征用戶身份的多個特征信息,利用與每個用戶對應(yīng)的特征信息來為多媒體數(shù)據(jù)生成多個用戶標(biāo)識信息,向該多媒體數(shù)據(jù)添加該用戶標(biāo)識信息,此外,還可以將該多媒體數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),利用與每個用戶對應(yīng)的特征信息來為文本數(shù)據(jù)中各個用戶發(fā)言的文字部分生成多個用戶標(biāo)識信息,向該文本數(shù)據(jù)添加該用戶標(biāo)識信息,以便隨后根據(jù)用戶期望的關(guān)鍵字進(jìn)行準(zhǔn)確、高效且類型更為豐富的數(shù)據(jù)檢索。
[0148]需要說明的是,盡管在上文中舉例說明了對多方視頻通話進(jìn)行實時錄制和添加標(biāo)識,但是,本發(fā)明不限于此。顯然,信息處理方法和裝置同樣可以用于對已錄制好的音視頻流數(shù)據(jù)進(jìn)行自動整理和標(biāo)識處理。
[0149]在上文中,在三個單獨的實施例中對根據(jù)本發(fā)明的信息處理方法和裝置進(jìn)行描述,然而,顯然的是,這些實施例以及其中的步驟不但可以單獨實施,也可以相互組合地進(jìn)行實施。
[0150]此外,盡管此處將上述的各個單元作為各個步驟的執(zhí)行主體來說明本發(fā)明的各個實施例,但是,各個步驟的執(zhí)行主體可以由其他的一個或多個設(shè)備、裝置、單元、甚至模塊來擔(dān)任。例如,上述的數(shù)據(jù)獲得單元110、特征提取單元120、相似度確定單元130、標(biāo)識生成單元140、標(biāo)識添加單元150、身份確定單元160、數(shù)據(jù)搜索單元170、命令生成單元180、命令接收單元190、和/或文本生成單元200中一個或多個所執(zhí)行的各個步驟可以統(tǒng)一地由電子設(shè)備中的中央處理單元(CPU)來實現(xiàn)。
[0151]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助于軟件加必需的硬件平臺的方式來實現(xiàn),當(dāng)然也可以全部通過軟件、或硬件來實施?;谶@樣的理解,本發(fā)明的技術(shù)方案對【背景技術(shù)】做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁盤、光盤等,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0152]在上面詳細(xì)描述了本發(fā)明的各個實施例。然而,本領(lǐng)域技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的原理和精神的情況下,可對這些實施例進(jìn)行各種修改,組合或子組合,并且這樣的修改應(yīng)落入本發(fā)明的范圍內(nèi)。
【權(quán)利要求】
1.一種信息處理方法,其特征在于,所述方法包括: 獲得多媒體數(shù)據(jù); 從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息; 將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及 如果所述第一相似度小于第一閾值,則生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法還包括: 向所述多媒體數(shù)據(jù)添加所述第一用戶標(biāo)識信息。
3.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法還包括: 生成第二用戶標(biāo)識信息,所述第二用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)在所述第二時間與第二用戶相關(guān)聯(lián),并且 其中,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)在所述第一時間與第一用戶相關(guān)聯(lián)。
4.根據(jù)權(quán)利要求3的方法,其特征在于,所述方法還包括: 對所述多媒體數(shù)據(jù)進(jìn)行文本識別;以及 生成與所述多媒體數(shù)據(jù)對應(yīng)的文本數(shù)據(jù)。
5.根據(jù)權(quán)利要求4的方法,其特征在于,所述方法還包括: 在所述文本數(shù)據(jù)中確定與所述第一時間的多媒體數(shù)據(jù)和所述第二時間的多媒體數(shù)據(jù)分別對應(yīng)的第一文本部分和第二文本部分;以及 分別使用所述第一用戶標(biāo)識信息和所述第二用戶標(biāo)記信息來標(biāo)識所述第一文本部分和所述第二文本部分。
6.根據(jù)權(quán)利要求1的方法,其特征在于,在所述生成第一用戶標(biāo)識信息的步驟之前,所述方法還包括: 獲得多個樣本特征信息,所述多個樣本特征信息中的每一個與唯一的用戶身份相關(guān)聯(lián); 分別將所述第一特征信息與所述多個樣本特征信息進(jìn)行比較,以確定所述第一特征信息與所述多個樣本特征信息之間的多個相似度;以及 根據(jù)與相似度為最大值的樣本特征信息相關(guān)聯(lián)的用戶身份來確定所述第一用戶的身份。
7.根據(jù)權(quán)利要求6的方法,其特征在于,所述第一特征信息和所述多個樣本特征信息包括以下各項中的至少一個:聲紋信息、面部特征信息、身體特征信息、和手勢信息。
8.根據(jù)權(quán)利要求1的方法,其特征在于,在所述從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息的步驟之前,所述方法還包括: 接收標(biāo)識觸發(fā)命令,所述標(biāo)識觸發(fā)命令用于觸發(fā)對所述多媒體數(shù)據(jù)中至少第一時間的標(biāo)識操作。
9.根據(jù)權(quán)利要求8的方法,其特征在于,在所述接收標(biāo)識觸發(fā)命令的步驟之前,所述方法還包括: 獲得命令樣本數(shù)據(jù); 將所述多媒體數(shù)據(jù)與所述命令樣本數(shù)據(jù)進(jìn)行比較;以及 當(dāng)所述多媒體數(shù)據(jù)與所述命令樣本數(shù)據(jù)匹配時,生成所述標(biāo)識觸發(fā)命令。
10.根據(jù)權(quán)利要求1的方法,其特征在于,所述生成第一用戶標(biāo)識信息的步驟包括: 獲得參考特征信息; 將所述第一特征信息與所述參考特征信息進(jìn)行比較,以確定所述第一特征信息與所述參考特征信息之間的第二相似度;以及 如果所述第二相似度小于第二閾值,則生成所述第一用戶標(biāo)識信息, 其中,所述第一用戶標(biāo)識信息用于表明整個所述多媒體數(shù)據(jù)與第一用戶相關(guān)聯(lián)。
11.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法應(yīng)用于第一電子設(shè)備,所述第一電子設(shè)備與第二電子設(shè)備進(jìn)行多媒體通信,并且 在所述生成第一用戶標(biāo)識信息的步驟之前,所述方法還包括: 使用在所述第一電子設(shè)備中存儲的、與所述第二電子設(shè)備相關(guān)聯(lián)的用戶身份來確定所述第一用戶的身份。
12.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法還包括: 如果所述第一相似度大于或等于所述第一閾值,則生成第三用戶標(biāo)識信息,所述第三用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)與所述第一用戶相關(guān)聯(lián)。
13.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法還包括: 獲得用于進(jìn)行搜索的關(guān)鍵字; 搜索包括所述關(guān)鍵字作為用戶標(biāo)識信息的多媒體數(shù)據(jù);以及 返回所述多媒體數(shù)據(jù)。
14.根據(jù)權(quán)利要求13的方法,其特征在于,所述返回所述多媒體數(shù)據(jù)的步驟包括: 將所述多媒體數(shù)據(jù)跳轉(zhuǎn)到多媒體部分,所述多媒體部分是在所述多媒體數(shù)據(jù)中、與作為用戶標(biāo)識信息的所述關(guān)鍵字對應(yīng)時間的多媒體數(shù)據(jù);以及呈現(xiàn)所述多媒體數(shù)據(jù)中的所述多媒體部分。
15.根據(jù)權(quán)利要求13的方法,其特征在于,所述獲得用于進(jìn)行搜索的關(guān)鍵字的步驟包括: 接收輸入信息; 對所述輸入信息進(jìn)行文本識別;以及 根據(jù)所識別的結(jié)果來從所述輸入信息中提取所述關(guān)鍵字。
16.根據(jù)權(quán)利要求13的方法,其特征在于,所述獲得用于進(jìn)行搜索的關(guān)鍵字的步驟包括: 接收輸入信息; 獲得多個樣本特征信息,所述多個樣本特征信息中的每一個與唯一的用戶身份相關(guān)聯(lián); 分別將所述輸入信息與所述多個樣本特征信息進(jìn)行比較,以確定所述輸入信息與所述多個樣本特征信息之間的多個相似度;以及 根據(jù)與相似度為最大值的樣本特征信息相關(guān)聯(lián)的用戶身份來確定所述關(guān)鍵字。
17.一種信息處理裝置,其特征在于,所述裝置包括: 數(shù)據(jù)獲得單元,用于獲得多媒體數(shù)據(jù); 特征提取單元,用于從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息; 相似度確定單元,用于將第一時間的第一特征信息與第二時間的第二特征信息進(jìn)行比較,以確定所述第一特征信息與所述第二特征信息之間的第一相似度;以及 標(biāo)識生成單元,用于如果所述第一相似度小于第一閾值,則生成第一用戶標(biāo)識信息,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)至少在所述第一時間與第一用戶相關(guān)聯(lián)。
18.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置還包括: 標(biāo)識添加單元,用于向所述多媒體數(shù)據(jù)添加所述第一用戶標(biāo)識信息。
19.根據(jù)權(quán)利要求17的裝置,其特征在于,所述標(biāo)識生成單元還用于生成第二用戶標(biāo)識信息,所述第二用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)在所述第二時間與第二用戶相關(guān)聯(lián),并且 其中,所述第一用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)在所述第一時間與第一用戶相關(guān)聯(lián)。
20.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置還包括:文本生成單元,用于對所述多媒體數(shù)據(jù)進(jìn)行文本識別,并且生成與所述多媒體數(shù)據(jù)對應(yīng)的文本數(shù)據(jù)。
21.根據(jù)權(quán)利要求20的裝置,其特征在于,所述裝置還包括:標(biāo)識添加單元,用于在所述文本數(shù)據(jù)中確定與所述第一時間的多媒體數(shù)據(jù)和所述第二時間的多媒體數(shù)據(jù)分別對應(yīng)的第一文本部分和第二文本部分,并且分別使用所述第一用戶標(biāo)識信息和所述第二用戶標(biāo)記信息來標(biāo)識所述第一文本部分和所述第二文本部分。
22.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置還包括:身份確定單元,用于在所述標(biāo)識生成單元生成第一用戶標(biāo)識信息之前,獲得多個樣本特征信息,所述多個樣本特征信息中的每一個與唯一的用戶身份相關(guān)聯(lián),分別將所述第一特征信息與所述多個樣本特征信息進(jìn)行比較,以確定所述第一特征信息與所述多個樣本特征信息之間的多個相似度,并且根據(jù)與相似度為最大值的樣本特征信息相關(guān)聯(lián)的用戶身份來確定所述第一用戶的身份。
23.根據(jù)權(quán)利要求22的裝置,其特征在于,所述第一特征信息和所述多個樣本特征信息包括以下各項中的至少一個:聲紋信息、面部特征信息、身體特征信息、和手勢信息。
24.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置還包括:命令接收單元,用于在所述特征提取單元從所述多媒體數(shù)據(jù)中提取用于表征用戶身份的特征信息之前,接收標(biāo)識觸發(fā)命令,所述標(biāo)識觸發(fā)命令用于觸發(fā)對所述多媒體數(shù)據(jù)中至少第一時間的標(biāo)識操作。
25.根據(jù)權(quán)利要求24的裝置,其特征在于,所述裝置還包括:命令生成單元,用于在所述命令接收單元接收標(biāo)識觸發(fā)命令之前,獲得命令樣本數(shù)據(jù),將所述多媒體數(shù)據(jù)與所述命令樣本數(shù)據(jù)進(jìn)行比較,并且當(dāng)所述多媒體數(shù)據(jù)與所述命令樣本數(shù)據(jù)匹配時,生成所述標(biāo)識觸發(fā)命令。
26.根據(jù)權(quán)利要求17的裝置,其特征在于,所述標(biāo)識生成單元獲得參考特征信息,將所述第一特征信息與所述參考特征信息進(jìn)行比較,以確定所述第一特征信息與所述參考特征信息之間的第二相似度,并且如果所述第二相似度小于第二閾值,則生成所述第一用戶標(biāo)識息, 其中,所述第一用戶標(biāo)識信息用于表明整個所述多媒體數(shù)據(jù)與第一用戶相關(guān)聯(lián)。
27.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置應(yīng)用于第一電子設(shè)備,所述第一電子設(shè)備與第二電子設(shè)備進(jìn)行多媒體通信,并且 所述裝置還包括:身份確定單元,用于在所述標(biāo)識生成單元生成第一用戶標(biāo)識信息之前,使用在所述第一電子設(shè)備中存儲的、與所述第二電子設(shè)備相關(guān)聯(lián)的用戶身份來確定所述第一用戶的身份。
28.根據(jù)權(quán)利要求17的裝置,其特征在于,所述標(biāo)識生成單元還用于如果所述第一相似度大于或等于所述第一閾值,則生成第三用戶標(biāo)識信息,所述第三用戶標(biāo)識信息用于表明所述多媒體數(shù)據(jù)與所述第一用戶相關(guān)聯(lián)。
29.根據(jù)權(quán)利要求17的裝置,其特征在于,所述裝置還包括:數(shù)據(jù)搜索單元,用于獲得用于進(jìn)行搜索的關(guān)鍵字,搜索包括所述關(guān)鍵字作為用戶標(biāo)識信息的多媒體數(shù)據(jù),并且返回所述多媒體數(shù)據(jù)。
30.根據(jù)權(quán)利要求29的裝置,其特征在于,所述數(shù)據(jù)搜索單元將所述多媒體數(shù)據(jù)跳轉(zhuǎn)到多媒體部分,所述多媒體部分是在所述多媒體數(shù)據(jù)中、與作為用戶標(biāo)識信息的所述關(guān)鍵字對應(yīng)時間的多媒體數(shù)據(jù),并且呈現(xiàn)所述多媒體數(shù)據(jù)中的所述多媒體部分。
31.根據(jù)權(quán)利要求29的裝置,其特征在于,所述數(shù)據(jù)搜索單元接收輸入信息,對所述輸入信息進(jìn)行文本識別,并且根據(jù)所識別的結(jié)果來從所述輸入信息中提取所述關(guān)鍵字。
32.根據(jù)權(quán)利要求29的裝置,其特征在于,所述數(shù)據(jù)搜索單元接收輸入信息,獲得多個樣本特征信息,所述多個樣本特征信息中的每一個與唯一的用戶身份相關(guān)聯(lián),分別將所述輸入信息與所述多個樣本特征信息進(jìn)行比較,以確定所述輸入信息與所述多個樣本特征信息之間的多個相似度,并且根據(jù)與相似度為最大值的樣本特征信息相關(guān)聯(lián)的用戶身份來確定所述關(guān)鍵字。
【文檔編號】G06F17/30GK104252464SQ201310258480
【公開日】2014年12月31日 申請日期:2013年6月26日 優(yōu)先權(quán)日:2013年6月26日
【發(fā)明者】楊元慶, 孫艷慶 申請人:聯(lián)想(北京)有限公司