多媒體處理方法及多媒體處理裝置制造方法

文檔序號：7799244閱讀：342來源：國知局

多媒體處理方法及多媒體處理裝置制造方法
【專利摘要】本申請實施例公開了一種多媒體處理方法及多媒體處理裝置，所述方法包括：根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息；獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；獲取所述顯示屏的顯示參數(shù)；根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。本申請實施例的多媒體處理技術使得對應于不同的多媒體呈現(xiàn)裝置以及不同的用戶位置，都能在多媒體呈現(xiàn)過程中獲得統(tǒng)一的對象的感覺聲源位置和視覺感覺位置。
【專利說明】多媒體處理方法及多媒體處理裝置
【技術領域】
[0001]本申請涉及多媒體【技術領域】，尤其涉及一種多媒體處理方法及多媒體處理裝置?！颈尘凹夹g】
[0002]目前的多媒體裝置通常包含圖像顯示和聲音播放兩部分，由于圖像顯示與聲音播放通常由不同器件完成，因此，這兩部分一般只有時間上的關聯(lián)，沒有空間上的關聯(lián)。常見的多媒體裝置的尺寸從幾吋(如手機設備、平板電腦)到幾十吋(如筆記本、臺式機、電視屏幕)再到上百吋(戶外廣告屏幕)，差異較大，一般對應的聲音播放器件的尺寸和分布也會有較大差異。本申請的發(fā)明人發(fā)現(xiàn)，由于目前的視頻文件格式大多沒有考慮聲音的空間信息，會導致客戶端難以準確的恢復聲音效果，帶來用戶對一發(fā)聲對象的視覺呈現(xiàn)和聽覺呈現(xiàn)上的不統(tǒng)一。

【發(fā)明內(nèi)容】

[0003]本申請要解決的技術問題是:提供一種多媒體處理技術，使得對應3不同的多媒體呈現(xiàn)裝置以及不同的用戶位置，都能在多媒體呈現(xiàn)過程中獲得統(tǒng)一的對象的感覺聲源位置和視覺感覺位置。
[0004]第一方面，本申請?zhí)峁┝艘环N多媒體處理方法，包括:
[0005]根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0006]分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息；
[0007]獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；
[0008]獲取所述顯示屏的顯示參數(shù)；
[0009]根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0010]第二方面，本申請?zhí)峁┝艘环N多媒體處理方法，包括:
[0011]根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0012]分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；
[0013]根據(jù)至少一參考顯示屏的顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差，得到所述發(fā)聲對象與所述至少一參考顯示屏的呈現(xiàn)對應的至少一參考真實視差。
[0014]第三方面，本申請?zhí)峁┝艘环N多媒體處理方法，包括:
[0015]獲取一多媒體數(shù)據(jù)，所述多媒體數(shù)據(jù)包括相互關聯(lián)的聲音數(shù)據(jù)、三維圖像數(shù)據(jù)以及對象信息數(shù)據(jù)，所述對象信息數(shù)據(jù)包括:所述聲音數(shù)據(jù)對應的至少一發(fā)聲對象中的每個發(fā)聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應于至少一顯示參數(shù)的至少一參考顯示屏的呈現(xiàn)對應；[0016]獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置；
[0017]獲取所述顯示屏的顯示參數(shù)；
[0018]根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述對象信息數(shù)據(jù)確定所述至少一發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0019]第四方面，本申請?zhí)峁┝艘环N多媒體處理裝置，包括:
[0020]發(fā)聲對象確定模塊，用于根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0021]圖像內(nèi)容獲取模塊，用于分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息；
[0022]用戶位置獲取模塊，用于獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；
[0023]顯示參數(shù)獲取模塊，用于獲取所述顯示屏的顯示參數(shù)；
[0024]聲源位置確定模塊，用于根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0025]第五方面，本申請?zhí)峁┝艘环N多媒體處理裝置，包括:
[0026]發(fā)聲對象確定模塊，用于根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0027]圖像內(nèi)容獲取模塊，用于分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；
[0028]參考真實視差獲取模塊，用于根據(jù)至少一參考顯示屏的顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差，得到所述發(fā)聲對象與所述至少一參考顯示屏的呈現(xiàn)對應的至少一參考真實視差。
[0029]第六方面，本申請?zhí)峁┝艘环N多媒體處理裝置，包括:
[0030]多媒體數(shù)據(jù)獲取模塊，用于獲取一多媒體數(shù)據(jù)，所述多媒體數(shù)據(jù)包括相互關聯(lián)的聲音數(shù)據(jù)、三維圖像數(shù)據(jù)以及對象信息數(shù)據(jù)，所述對象信息數(shù)據(jù)包括:所述聲音數(shù)據(jù)對應的至少一發(fā)聲對象中的每個發(fā)聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應于至少一顯示參數(shù)的至少一參考顯示屏的呈現(xiàn)對應；
[0031]用戶位置獲取模塊，用于獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置；
[0032]顯示參數(shù)獲取模塊，用于獲取所述顯示屏的顯示參數(shù)；
[0033]聲源位置確定模塊，用于根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述對象信息數(shù)據(jù)確定所述至少一發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0034]本申請實施例的至少一個實施方案根據(jù)用戶相對于多媒體呈現(xiàn)的位置以及對象的視覺呈現(xiàn)確定發(fā)聲對象的感覺聲源位置，使得對發(fā)聲對象的呈現(xiàn)可以達到視覺和聽覺的統(tǒng)一。此外，本發(fā)明實施例的至少一個實施方案根據(jù)所述感覺聲音位置對相關的聲音數(shù)據(jù)進行處理，使得處理后的聲音數(shù)據(jù)與當前的聲音播放模塊、顯示模塊以及用戶位置相適應，從而對應于各種大小、分布的多媒體裝置以及用戶相對于多媒體裝置的不同位置，都可以準確的恢復聲音數(shù)據(jù)與所述圖像數(shù)據(jù)對應的聲音信息的聲音效果，提高用戶體驗?！緦＠綀D】

【附圖說明】
[0035]圖1為本申請實施例的一種多媒體處理方法的流程圖；
[0036]圖2和圖3分別為本申請實施例的一種多媒體處理方法的二維和三維圖像呈現(xiàn)的應用場景示意圖；
[0037]圖4為本申請實施例一種多媒體處理方法的流程圖；
[0038]圖5為本申請實施例一種多媒體處理方法的流程圖；
[0039]圖6為本申請實施例一種多媒體處理方法的流程圖；
[0040]圖7為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0041]圖7a_7c為本申請實施例三種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0042]圖8為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0043]圖8a為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0044]圖9為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0045]圖9a為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖；
[0046]圖10為本申請實施例一種多媒體處理裝置的結(jié)構(gòu)示意框圖。
【具體實施方式】
[0047]下面結(jié)合附圖(若干附圖中相同的標號表示相同的元素)和實施例，對本申請的【具體實施方式】作進一步詳細說明。以下實施例用于說明本申請，但不用來限制本申請的范圍。
[0048]本領域技術人員可以理解，本申請中的“第一”、“第二”等術語僅用于區(qū)別不同步驟、設備或模塊等，既不代表任何特定技術含義，也不表示它們之間的必然邏輯順序。
[0049]在本申請的下述描述中，所述“感覺聲音位置”為用戶聽到一聲音之后在大腦中形成的該聲音對應的聲源位置，例如:在立體聲呈現(xiàn)中，可以通過用戶左右耳聲音的相差來確定所述感覺聲源位置；所述“視覺感覺位置”為用戶看到一對象的圖像之后在大腦中形成的該對象對應的空間位置，其中，例如:在三維顯示中，可以通過用戶的兩眼視差來確定該空間位置。
[0050]由于種種原因，多媒體數(shù)據(jù)進行視覺呈現(xiàn)以及對應的聽覺呈現(xiàn)時，對于一發(fā)聲對象，用戶對對象視覺感覺和聽覺感覺的位置有可能會不統(tǒng)一，例如感覺看到的對象在一個位置，而聽到的對象在另外一個位置，這樣會給用戶帶來空間上的錯亂感。特別是當用戶有可能在相對于呈現(xiàn)設備的不同的位置體驗所述多媒體數(shù)據(jù)的呈現(xiàn)時，在不同的位置可能會有不同的不統(tǒng)一感覺。
[0051]為此，如圖1所示，本申請實施例提供了一種多媒體處理方法，包括:
[0052]SllO根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0053]S120分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)
容信息；
[0054]S130獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；
[0055]S140獲取所述顯示屏的顯示參數(shù)；
[0056]S150根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0057]這里所述聲音數(shù)據(jù)以及與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)例如可以為一音視頻多媒體數(shù)據(jù)中包含的聲音數(shù)據(jù)和圖像數(shù)據(jù)。
[0058]本申請實施例根據(jù)用戶相對于多媒體呈現(xiàn)的位置以及對象的視覺呈現(xiàn)確定發(fā)聲對象的感覺聲源位置，使得對發(fā)聲對象的呈現(xiàn)可以達到視覺和聽覺的統(tǒng)一。
[0059]下面對本申請實施例所述多媒體處理方法的各步驟進行進一步說明。
[0060]SllO根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象。
[0061]在本申請實施方式中，所述步驟SllO根據(jù)聲音數(shù)據(jù)確定一發(fā)聲對象的方式可以包括多種:
[0062]I)根據(jù)聲音數(shù)據(jù)得到一聲音具有的特定特征，再根據(jù)該特定特征確定所述發(fā)聲對象。
[0063]在本實施方式中，所述特定特征包括以下的至少一種:頻率、周期、變化規(guī)律以及與一特征值提取算法對應的特征值。這里，當所述特定特征為與一特征值提取算法對應的特征值時，所述具有特定特征的聲音為具有所述特征值的聲音，即通過所述特征值提取算法對所述聲音對應的聲音數(shù)據(jù)進行處理，能夠得到所述特征值。
[0064]在一個可能的實施方式中:
[0065]可以通過模式匹配算法，例如神經(jīng)網(wǎng)絡(Neural Network)、高斯混合模型(Gaussian Mixture Model)等,識別所述聲音數(shù)據(jù)中的聲音的所述特定特征,再通過模式匹配得到該特定特征對應的發(fā)聲對象。
[0066]例如:通過所述模式匹配算法對所述聲音數(shù)據(jù)進行模式匹配，發(fā)現(xiàn)所述聲音數(shù)據(jù)中包含與語音對應的數(shù)據(jù)，則此時，所述具有特定特征的聲音即為語音，所述發(fā)聲對象為語音發(fā)聲對象，例如:所述發(fā)聲對象為人。這里，例如，所述語音的特定特征包括:特定的周期、頻譜、短時能量等等，當通過所述模式匹配算法確認所述聲音數(shù)據(jù)中包含上述具有特定的周期、頻譜、短時能量等等的聲音分量時，則認為聲音數(shù)據(jù)中包含語音相關數(shù)據(jù)。
[0067]或者，例如當識別出聲音為狗叫聲時，則該聲音的發(fā)聲對象為狗。
[0068]當然，在一些可能的實施方式中，所述聲音信息可能為所述聲音的一些特定特征值，例如上述的周期、頻率或者為算法對應的特征值等。在之后的步驟中直接通過所述特定特征值來與所述圖像數(shù)據(jù)中對應的圖像的特征值進行特征值之間的匹配，而不需要再進行語義識別。
[0069]2)根據(jù)與聲音數(shù)據(jù)對應的元數(shù)據(jù)中記載的信息確定所述發(fā)聲對象。
[0070]在本實施方式中，例如，所述元數(shù)據(jù)記載:聲音數(shù)據(jù)的某一時間段對應于一女人發(fā)出的語音，則可以根據(jù)所述元數(shù)據(jù)確定該時間段對應的發(fā)聲對象為一女人。
[0071]當然，本領域的技術人員可以知道，除了上述列出的兩種方法外，其它合適的聲音數(shù)據(jù)分析方法也可以用于本申請實施例的步驟Slio中來確定所述發(fā)聲對象。
[0072]S120分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
[0073]在本申請實施例中，所述發(fā)聲對象對應的圖像內(nèi)容信息包括所述發(fā)聲對象對應的像素集合的信息，例如該像素集合包含的哪些像素以及各像素的位置信息等。
[0074]在本申請中，獲取所述圖像內(nèi)容信息的方式有多種，包括:
[0075]I)通過圖像識別分區(qū)方法(所述圖像識別分區(qū)方法為已有技術，這里不再贅述)對圖像數(shù)據(jù)進行分區(qū)得到與所述發(fā)聲對象相對應的像素集合，進而得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
[0076]當然，在本發(fā)明實施例的另外一種實施方式中，也可以根據(jù)步驟SllO中所述的，通過聲音信息中對應的特定特征值與圖像區(qū)域?qū)膱D像特征值直接進行匹配，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
[0077]在一些情況下，例如，圖像數(shù)據(jù)對應的圖像中有多個人時，當檢測到聲音數(shù)據(jù)中對應有語音對應的聲音時，有可能會出現(xiàn)難以確認所述語音對應于圖像中哪個人的情況。因此，在本發(fā)明實施例中，所述方法還包括:
[0078]根據(jù)所述聲音數(shù)據(jù)得到所述發(fā)聲對象對應的原始感覺聲源位置。
[0079]所述分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息包括:
[0080]根據(jù)所述發(fā)聲對象對應的原始感覺聲源位置分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
[0081]其中，當所述聲音數(shù)據(jù)為多軌聲音數(shù)據(jù)時，可以根據(jù)所述多軌聲音數(shù)據(jù)得到所述聲音對應的原始聲源位置。例如通過TDOA (Time Difference of Arrival,到達時間差)等方法，利用不同軌道聲音數(shù)據(jù)中與所述聲音對應的聲音數(shù)據(jù)分量之間的相差來計算出該聲音的原始感覺聲源位置。
[0082]然后，根據(jù)所述原始感覺聲源位置以及圖像中各對象所在的位置，可以更加準確地確定所述聲音信息對應的發(fā)聲對象與圖像內(nèi)容信息之間的對應關系。
[0083]2)根據(jù)與圖像數(shù)據(jù)對應的圖像元數(shù)據(jù)得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
[0084]在該實施方式中，所述圖像數(shù)據(jù)中有可能包括圖像元數(shù)據(jù)，所述圖像元數(shù)據(jù)中包含所述圖像數(shù)據(jù)對應的某一幀或多幀圖像中的對象對應的圖像內(nèi)容信息。例如，所述圖像數(shù)據(jù)對應某一幀圖像中包含一個人、一條狗、一面墻以及一張椅子，則所述圖像元數(shù)據(jù)中包含:
[0085]對象1:人；對象I對應的像素集合的位置:(01x1，Olyl ；01x2, 01y2)；
[0086]對象2:狗；對象2對應的像素集合的位置:(02x1，02yl ；02x2, 02y2)；
[0087]對象3:墻；對象3對應的像素集合的位置(03x1，03yl ；03x2, 03y2)；
[0088]對象4:椅子；對象4對應的像素集合的位置:(04x1，04yl ；04x2, 04y2)。
[0089]當然，在其它實施方式中，所述圖像元數(shù)據(jù)中可能包括更加詳細的信息，例如人的各部分(頭、手臂、軀干、腿等)及對應的像素集合；此外，還可能還包括對象的一些特征信息，例如人的特征還包括:小孩、男性等，狗的特征還包括:黑色、拉布拉多等。
[0090]在本實施方式中，可以直接根據(jù)所述聲音信息對應的發(fā)聲對象,例如發(fā)聲對象為狗，去所述圖像數(shù)據(jù)的圖像元數(shù)據(jù)中尋找與所述發(fā)聲對象對應的對象的圖像內(nèi)容信息，而不需要再對圖像數(shù)據(jù)進行圖像識別分區(qū)等處理。
[0091]在一種可能的實施方式中，所述聲音數(shù)據(jù)相關的元數(shù)據(jù)與所述圖像元數(shù)據(jù)可以為同一元數(shù)據(jù)，其中記載有發(fā)聲對象與圖像內(nèi)容信息之間的對應關系，即用戶可以直接由所述元數(shù)據(jù)得到聲音信息對應的發(fā)聲對象對應的圖像內(nèi)容信息。
[0092]S130獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置。
[0093]在本申請實施例中，所述顯示屏可以為電視、電腦顯示器等直接顯示的裝置，也可以為投射儀的投射顯示面，此外，在一種可能的實施方式中，所述顯示屏的顯示面還有可能并非一個二維顯示面(如平面和曲面)，其還有可能是一個立體顯示區(qū)域，例如體像素顯示的區(qū)域。
[0094]在本實施方式中，所述用于呈現(xiàn)所述圖像數(shù)據(jù)為根據(jù)所述圖像數(shù)據(jù)進行對應的顯示，例如，所述圖像數(shù)據(jù)為視頻數(shù)據(jù)，則這里的呈現(xiàn)即為播放所述視頻數(shù)據(jù)；所述圖像數(shù)據(jù)為圖片數(shù)據(jù)，則這里的呈現(xiàn)為顯示所述圖片數(shù)據(jù)對應的圖片。
[0095]在本申請實施例中，所述用戶相對于所述顯示屏的位置包括:用戶相對于所述顯示屏的方向和距離。這里，可以在所述顯示屏上或者與所述顯示屏對應的一位置設置一個參考點，例如以顯示屏的顯示中心為所述參考點，獲取所述用戶相對于所述參考點的方向和距離。
[0096]在一些實施方式中，可以通過一圖像傳感器來獲取所述相對位置；在另一些實施方式中，還可以通過深度傳感器來獲取所述相對位置；此外，還可以通過一些定位裝置來獲取所述相對位置。當然，本領域技術人員還可以通過其它合適的方式來獲取該相對位置。
[0097]S140獲取所述顯示屏的顯示參數(shù)。
[0098]S150根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0099]在本實施方式中，所述顯示屏的顯示參數(shù)包括:所述顯示屏整體顯示區(qū)域的尺寸(例如大小、形狀)和分辨率信息。本領域的技術人員可以知道，所述顯示參數(shù)還有可能包括其它信息，這里不贅述。
[0100]在本申請實施例中，所述步驟S150包括:
[0101]根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置；
[0102]根據(jù)所述視覺感覺位置確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0103]在一種可能的實施方式中，所述圖像數(shù)據(jù)為二維圖像數(shù)據(jù)。在該實施方式中，根據(jù)所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息可以得到所述發(fā)聲對象在所述顯示屏上對應的顯示區(qū)域，再根據(jù)所述用戶相對于顯示屏的位置可以得到所述用戶相對于所述顯示區(qū)域的方向和距離。此時所述發(fā)聲對象對應于所述用戶的視覺感覺位置位于所述用戶與所述顯示區(qū)域的連線方向上。例如，如2圖所示，對應于第一用戶位置202，所述發(fā)聲對象對應的所述視覺感覺位置203在所述第一用戶位置202與所述發(fā)聲對象在所述顯示屏205上的顯示區(qū)域201的第一連線204上；對應于第二用戶位置202’，所述發(fā)聲對象對應的所述視覺感覺位置203’在所述第二用戶位置202’與所述顯示區(qū)域201的第二連線204’上。
[0104]其中，在一些可能的實施方式中，可以根據(jù)所述發(fā)聲對象對應的顯示區(qū)域的大小，來決定視覺感覺位置的深度信息等，例如，根據(jù)近大遠小的原則，相同的發(fā)聲對象在整體顯示區(qū)域上對應的顯示區(qū)域越大，則對應的視覺感覺位置越靠近用戶，否則越遠離用戶。
[0105]在另一種可能的實施方式中，所述圖像數(shù)據(jù)為三維圖像數(shù)據(jù)，所述圖像內(nèi)容信息包括左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息。用戶通過看到的對象的左右眼視差來得到發(fā)聲對象的視覺感覺位置。
[0106]在本實施方式中，所述得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置包括:
[0107]根據(jù)所述顯示屏的顯示參數(shù)，將所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差轉(zhuǎn)換為與所述顯示屏的呈現(xiàn)對應的真實視差；[0108]根據(jù)所述用戶相對于所述顯示屏的位置以及所述真實視差得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置。
[0109]在本實施方式中，根據(jù)顯示屏的尺寸以及分辨率信息等顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息包含的像素信息將所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差轉(zhuǎn)換成真實視差，例如，所述左眼圖像內(nèi)容信息對應的像素集合與所述右眼圖像內(nèi)容信息對應的像素集合之間水平相差10個像素，根據(jù)所述顯示屏的顯示參數(shù)，每個像素的水平顯示寬度為0.5毫米，則該水平相差的10個像素視差在所述顯示屏上會對應水平方向上5毫米的真實視差。
[0110]根據(jù)上面所述的真實視差和所述用戶相對于所述顯示屏的位置，通過計算可以得到對應發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0111]如圖3所示，在一個實施方式中，發(fā)聲對象的左眼圖像內(nèi)容信息與右眼圖像內(nèi)容信息分別對應于顯示屏301上顯示的左眼圖像302和右眼圖像303，在用戶相對于所述顯示屏位置分別為第一位置304和第二位置304’時，所述發(fā)聲對象對應于所述用戶的視覺感覺位置分別在305和305’(所述用戶的視覺感覺位置即為用戶的左眼306和右眼307分別看到的左眼圖像302和右眼圖像303的會聚位置)。
[0112]在本實施方式中，所述根據(jù)所述視覺感覺位置確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置為，將所述視覺感覺位置確定為所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0113]由圖3也可以看出，當發(fā)聲對象對應于一個原始感覺聲源位置時，如果不根據(jù)用戶的所述相對位置對感覺聲源位置進行修正，在一些位置，會使得用戶的視覺感覺位置與感覺聲源位置之間出現(xiàn)不一致的問題。
[0114]因此，在本申請實施例的一種可能的實施方式中，根據(jù)所述視覺感覺位置修正所述原始感覺聲音位置，得到所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
[0115]在一種可能的實施方式中，所述方法還可能包括:
[0116]存儲所述用戶對應于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述發(fā)聲對象對應的圖像內(nèi)容信息以及所述發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系。
[0117]通過把上述過程中的數(shù)據(jù)進行存儲，可以使得同樣的多媒體數(shù)據(jù)(包括所述聲音數(shù)據(jù)及所述相關的圖像數(shù)據(jù))再在相同或相似的多媒體裝置上播放時，可以減少一些數(shù)據(jù)處理的步驟，提高效率。
[0118]除了上面通過計算得到所述感覺聲源位置外，在一種可能的實施方式中，所述方法還包括:
[0119]獲取用戶對應于所述顯示屏的位置、顯示屏的顯示參數(shù)、發(fā)聲對象對應的圖像內(nèi)容信息以及發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系。
[0120]該對應關系可以是從本地獲取的，例如上面所述的之前的處理過程中存儲的；或者還可以是從外部獲取的，例如服務器獲取。
[0121]所述步驟S150中可以根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述圖像內(nèi)容信息以及所述對應關系確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。這樣，在本地不需要進行比較費時的計算，本地的實現(xiàn)更加方便、快速。
[0122]如圖4所示，在一種可能的實施方式中，所述方法還包括:[0123]S160根據(jù)所述發(fā)聲對象對應于所述用戶的所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理，得到所述發(fā)聲對象對應于所述用戶的感覺聲源位置對應的聲音數(shù)據(jù)。
[0124]在本實施方式中，所述當前聲音播放參數(shù)包括當前聲音播放模塊的參數(shù)信息，例如:聲音播放模塊的分布、大小、性能等參數(shù)。
[0125]在一種可能的實施方式中，所述聲音播放模塊包括多個聲音播放單兀；
[0126]所述當前聲音播放參數(shù)包括:當前多個聲音播放單元的參數(shù)信息。
[0127]這里,所述聲音播放單元的參數(shù)信息例如包括:所述聲音播放單元的分布、大小、性能、對應的聲音數(shù)據(jù)軌道等參數(shù)。
[0128]在本實施方式中，所述發(fā)聲對象對應于所述用戶的感覺聲源位置對應的聲音數(shù)據(jù)為，當通過與所述聲音播放參數(shù)對應的聲音播放模塊來對所述處理后的聲音數(shù)據(jù)進行聲音播放時，用戶聽到的所述發(fā)聲對象對應的聲音后，感覺到該聲音的聲源位置為所述感覺聲源位置。
[0129]下面分別以所述聲音數(shù)據(jù)為單軌聲音數(shù)據(jù)和多軌聲音數(shù)據(jù)為例進一步說明本實施方式的步驟S160。
[0130]在一種可能的實施方式中，當所述聲音數(shù)據(jù)為單軌聲音數(shù)據(jù)，并且所述聲音播放模塊包括位置分開分布的多個聲音播放單元時，所述根據(jù)所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理可以為:
[0131]根據(jù)所述感覺聲源位置以及當前的聲音播放參數(shù)確定與所述感覺聲音位置對應的聲音播放單兀，并處理所述聲音數(shù)據(jù)使得所述發(fā)聲對象對應的聲音僅從所述確定的聲音播放單元播出。
[0132]以所述聲音播放模塊為設置在顯示屏顯示區(qū)域表面的透明薄膜聲音播放模塊為例，其被劃分成沿著所述顯示屏顯示區(qū)域表面分布的多個聲音播放單元，當所述聲音數(shù)據(jù)對應一狗叫聲時，則對所述聲音數(shù)據(jù)進行處理，使得與顯示屏上顯示的狗頭部的位置對應的聲音播放單元播放狗叫聲。
[0133]在另一種可能的實施方式中，當所述聲音數(shù)據(jù)為多軌聲音數(shù)據(jù)，并且所述聲音播放模塊包括位置分開分布的多個聲音播放單元時，所述根據(jù)所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理可以為:
[0134]根據(jù)所述感覺聲源位置以及當前的聲音播放參數(shù)調(diào)整各軌道的聲音數(shù)據(jù)中所述發(fā)聲對象對應的聲音數(shù)據(jù)分量的相位和/或幅度，使得調(diào)整后的多軌聲音數(shù)據(jù)在所述聲音播放模塊播放出的所述聲音給受眾的感覺是從所述感覺聲源位置發(fā)出的。
[0135]在一種實施方式中，例如可以通過WFS(Wave Field Synthesis,波場合成)算法根據(jù)感覺聲音位置以及聲音播放單元的參數(shù)等，合成與所述聲音對應的新的聲音數(shù)據(jù)分量，再根據(jù)所述聲音數(shù)據(jù)分量對所述聲音數(shù)據(jù)進行調(diào)整，得到處理后的聲音數(shù)據(jù)。當然，除了上述的WFS算法外，本發(fā)明實施例還可以通過其它合適的聲音合成算法來得到所述處理后的聲音數(shù)據(jù)。
[0136]本領域的技術人員可以知道，當聲音數(shù)據(jù)中包含多個發(fā)聲對象時，通過上面的方法可以得到所述多個發(fā)聲對象分別對應于用戶的感覺聲源位置。此外，當有多個用戶在關注所述多媒體呈現(xiàn)時，通過上面的方法也可以得到同一發(fā)聲對象分別對應于每個用戶的感覺聲源位置。
[0137]如圖5所不,一種多媒體處理方法，包括:
[0138]S510根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；
[0139]S520分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；
[0140]S530根據(jù)至少一參考顯示屏的顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差，得到所述發(fā)聲對象與所述至少一參考顯示屏的呈現(xiàn)對應的至少一參考真實視差。
[0141]這里所述至少一參考顯示屏的顯示參數(shù)可以為一基準顯示屏的顯示參數(shù),或者為常見的顯示參數(shù)不同的一些顯示屏的顯示參數(shù)。這里所述的顯示參數(shù)包括顯示屏的尺寸和分辨率信息。例如，常見的顯示屏的顯示參數(shù)參見下表:
[0142]表一:顯示屏的顯示參數(shù)表
[0143]
【權(quán)利要求】
1.一種多媒體處理方法,其特征在于,包括: 根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息；獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；獲取所述顯示屏的顯示參數(shù)；根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
2.如權(quán)利要求1所述的方法，其特征在于，所述確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置包括: 根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置；根據(jù)所述視覺感覺位置確定所述感覺聲源位置。
3.如權(quán)利要求2所述的方法，其特征在于，所述圖像數(shù)據(jù)為三維圖像數(shù)據(jù)，所述圖像內(nèi)容信息包括左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；所述得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置包括: 根據(jù)所述顯示屏的顯示參數(shù)，將所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差轉(zhuǎn)換為與所述顯示屏的呈現(xiàn)對應的真實視差；根據(jù)所述用戶相對于所述顯示屏的位置以及所述真實視差得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置。
4.如權(quán)利要求2所述的方法，其特征在于，所述方法包括: 根據(jù)所述聲音數(shù)據(jù)得到所述發(fā)聲對象對應的原始感覺聲源位置。
5.如權(quán)利要求4所述的方法，其特征在于，所述分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息包括: 根據(jù)所述發(fā)聲對象對應的原始感覺聲源位置分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
6.如權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述視覺感覺位置確定所述感覺聲源位置包括: 根據(jù)所述視覺感覺位置修正所述原始感覺聲音位置，得到所述感覺聲源位置。
7.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括: 根據(jù)所述發(fā)聲對象對應于所述用戶的所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理，得到與所述感覺聲源位置對應的聲音數(shù)據(jù)。
8.如權(quán)利要求7所述的方法，其特征在于，所述當前聲音播放參數(shù)包括:當前聲音播放模塊的參數(shù)信息。
9.如權(quán)利要求8所述的方法,其特征在于,所述聲音播放模塊包括多個透明聲音播放單元，所述多個透明聲音播放單元至少部分覆蓋所述顯示屏的顯示區(qū)域。
10.如權(quán)利要求1所述的方法，其特征在于，所述顯示屏的顯示參數(shù)包括:所述顯示屏整體顯示區(qū)域的尺寸和分辨率信息。
11.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括: 存儲所述用戶對應于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述發(fā)聲對象對應的圖像內(nèi)容信息以及所述發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系。
12.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置包括: 獲取用戶對應于所述顯示屏的位置、顯示屏的顯示參數(shù)、發(fā)聲對象對應的圖像內(nèi)容信息以及發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系；根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述圖像內(nèi)容信息以及所述對應關系確定所述感覺聲源位置。
13.—種多媒體處理方法,其特征在于,包括: 根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；根據(jù)至少一參考顯示屏的顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差，得到所述發(fā)聲對象與所述至少一參考顯示屏的呈現(xiàn)對應的至少一參考真實視差。
14.如權(quán)利要求13所述的方法，其特征在于，所述方法包括: 根據(jù)所述聲音數(shù)據(jù)得到所述發(fā)聲對象對應的原始感覺聲源位置。
15.如權(quán)利要求14所述的方法，其特征在于，所述分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息包括: 根據(jù)所述發(fā)聲對象對應的原始感覺聲源位置分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息。
16.—種多媒體處理方法,其特征在于,包括: 獲取一多媒體數(shù)據(jù)，所述多媒體數(shù)據(jù)包括相互關聯(lián)的聲音數(shù)據(jù)、三維圖像數(shù)據(jù)以及對象信息數(shù)據(jù)，所述對象信息數(shù)據(jù)包括:所述聲音數(shù)據(jù)對應的至少一發(fā)聲對象中的每個發(fā)聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應于至少一顯示參數(shù)的至少一參考顯示屏的呈現(xiàn)對應；獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置；獲取所述顯示屏的顯示參數(shù)；根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述對象信息數(shù)據(jù)確定所述至少一發(fā)聲對象對應于所述用戶的感覺聲源位置。
17.如權(quán)利要求16所述的方法，其特征在于，所述方法還包括: 根據(jù)所述發(fā)聲對象對應于所述用戶的所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理，得到與所述感覺聲源位置對應的聲音數(shù)據(jù)。
18.如權(quán)利要求16所述的方法，其特征在于，所述方法還包括: 獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)、所述對象信息數(shù)據(jù)以及發(fā)聲對象對應于所述用戶的感覺聲源位置之間的對應關系；所述確定所述感覺聲源位置包括: 根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)、所述對象信息數(shù)據(jù)以及所述對應關系確定所述感覺聲源位置。
19.一種多媒體處理裝置，其特征在于，包括: 發(fā)聲對象確定模塊，用于根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；圖像內(nèi)容獲取模塊，用于分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息；用戶位置獲取模塊，用于獲取用戶相對于用于呈現(xiàn)所述圖像數(shù)據(jù)的一顯示屏的位置；顯示參數(shù)獲取模塊，用于獲取所述顯示屏的顯示參數(shù)；聲源位置確定模塊，用于根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
20.如權(quán)利要求19所述的裝置，其特征在于，所述聲源位置確定模塊包括: 視覺位置確定單元，用于根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述圖像內(nèi)容信息得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置；聲源位置確定單元，用于根據(jù)所述視覺感覺位置確定所述感覺聲源位置。
21.如權(quán)利要求20所述的裝置，其特征在于，所述圖像數(shù)據(jù)為三維圖像數(shù)據(jù)，所述圖像內(nèi)容信息包括左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；所述視覺位置確定單元包括: 真實視差獲取子單元，用于根據(jù)所述顯示屏的顯示參數(shù)，將所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差轉(zhuǎn)換為與所述顯示屏的呈現(xiàn)對應的真實視差；視覺位置確定子單元，用于根據(jù)所述用戶相對于所述顯示屏的位置以及所述真實視差得到所述發(fā)聲對象對應于所述用戶的視覺感覺位置。
22.如權(quán)利要求20所述的裝置，其特征在于，所述裝置包括: 原始聲源位置確定模塊，用于根據(jù)所述聲音數(shù)據(jù)得到所述發(fā)聲對象對應的原始感覺聲源位置。
23.如權(quán)利要求22所述的裝置，其特征在于，所述圖像內(nèi)容獲取模塊進一步用于: 根據(jù)所述發(fā)聲對象對應的原始感覺聲源位置分析與所述聲音數(shù)據(jù)相關聯(lián)的圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的圖像內(nèi)容信息。
24.如權(quán)利要求22所述的裝置，其特征在于，所述聲源位置確定單元進一步用于: 根據(jù)所述視覺感覺位置修正所述原始感覺聲音位置，得到所述感覺聲源位置。
25.如權(quán)利要求19所述的裝置，其特征在于，所述裝置還包括: 聲音數(shù)據(jù)處理模塊，用于根據(jù)所述發(fā)聲對象對應于所述用戶的所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理，得到與所述感覺聲源位置對應的聲音數(shù)據(jù)。
26.如權(quán)利要求25所述的裝置，其特征在于，所述當前聲音播放參數(shù)包括:當前聲音播放模塊的參數(shù)信息。
27.如權(quán)利要求26所述的裝置，其特征在于，所述聲音播放模塊包括多個透明聲音播放單元，所述多個透明聲音播放單元至少部分覆蓋所述顯示屏的顯示區(qū)域。
28.如權(quán)利要求19所述的裝置，其特征在于，所述顯示屏的顯示參數(shù)包括:所述顯示屏整體顯示區(qū)域的尺寸和分辨率信息。
29.如權(quán)利要求19所述的裝置，其特征在于，所述裝置還包括: 存儲模塊，用于存儲所述用戶對應于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述發(fā)聲對象對應的圖像內(nèi)容信息以及所述發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系。
30.如權(quán)利要求19所述的裝置，其特征在于，所述裝置還包括: 對應關系獲取模塊，用于獲取用戶對應于所述顯示屏的位置、顯示屏的顯示參數(shù)、發(fā)聲對象對應的圖像內(nèi)容信息以及發(fā)聲對象對應于所述用戶的感覺聲音位置之間的對應關系; 所述聲源位置確定模塊進一步用于，根據(jù)所述用戶相對于所述顯示屏的位置、所述顯示屏的顯示參數(shù)、所述圖像內(nèi)容信息以及所述對應關系確定所述發(fā)聲對象對應于所述用戶的感覺聲源位置。
31.一種多媒體處理裝置，其特征在于，包括: 發(fā)聲對象確定模塊，用于根據(jù)一聲音數(shù)據(jù)確定一發(fā)聲對象；圖像內(nèi)容獲取模塊，用于分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息；參考真實視差獲取模塊，用于根據(jù)至少一參考顯示屏的顯示參數(shù)以及所述左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息之間的像素視差，得到所述發(fā)聲對象與所述至少一參考顯示屏的呈現(xiàn)對應的至少一參考真實視差。
32.如權(quán)利要求31所述的裝置，其特征在于，所述裝置包括: 原始聲源位置確定模塊，用于根據(jù)所述聲音數(shù)據(jù)得到所述發(fā)聲對象對應的原始感覺聲源位置。
33.如權(quán)利要求32所述的裝置，其特征在于，所述圖像內(nèi)容獲取模塊進一步用于: 根據(jù)所述發(fā)聲對象對應的原始感覺聲源位置分析與所述聲音數(shù)據(jù)相關聯(lián)的三維圖像數(shù)據(jù)，得到與所述發(fā)聲對象對應的左眼圖像內(nèi)容信息和右眼圖像內(nèi)容信息。
34.一種多媒體處理裝置，其特征在于，包括: 多媒體數(shù)據(jù)獲取模塊，用于獲取一多媒體數(shù)據(jù)，所述多媒體數(shù)據(jù)包括相互關聯(lián)的聲音數(shù)據(jù)、三維圖像數(shù)據(jù)以及對象信息數(shù)據(jù)，所述對象信息數(shù)據(jù)包括:所述聲音數(shù)據(jù)對應的至少一發(fā)聲對象中的每個發(fā)聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應于至少一顯示參數(shù)的至少一參考顯示屏的呈現(xiàn)對應；用戶位置獲取模塊，用于獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置；顯示參數(shù)獲取模塊，用于獲取所述顯示屏的顯示參數(shù)；聲源位置確定模塊，用于根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)以及所述對象信息數(shù)據(jù)確定所述至少一發(fā)聲對象對應于所述用戶的感覺聲源位置。
35.如權(quán)利要求34所述的裝置，其特征在于，所述裝置還包括: 聲音數(shù)據(jù)處理模塊，用于根據(jù)所述發(fā)聲對象對應于所述用戶的所述感覺聲源位置以及當前聲音播放參數(shù)對所述聲音數(shù)據(jù)進行處理，得到與所述感覺聲源位置對應的聲音數(shù)據(jù)。
36.如權(quán)利要求34所述的裝置，其特征在于，所述裝置還包括: 對應關系獲取模塊，用于獲取用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)、所述對象信息數(shù)據(jù)以及發(fā)聲對象對應于所述用戶的感覺聲源位置之間的對應關系；所述聲源位置確定模塊進一步用于: 根據(jù)所述用戶相對于用于呈現(xiàn)所述三維圖像數(shù)據(jù)的一顯示屏的位置、所述顯示屏的顯示參數(shù)、所述對象信息數(shù)據(jù)以及所述對應關系確定所述感覺聲源位置。
【文檔編號】H04N13/00GK103905810SQ201410099115
【公開日】2014年7月2日申請日期:2014年3月17日優(yōu)先權(quán)日:2014年3月17日
【發(fā)明者】杜琳, 施偉申請人:北京智谷睿拓技術服務有限公司

完整全部詳細技術資料下載