本公開涉及信息處理裝置和信息處理方法,且尤其涉及使得能夠容易再現多個種類的音頻數據中的預定種類的音頻數據的信息處理裝置和信息處理方法。
背景技術:
近年來,互聯網上的流服務的主流已經超過熱門視頻(OTT-V)。作為基本技術而日益流行的技術是運動圖像專家組-基于HTTP的動態(tài)自適應流(MPEG-DASH)(例如,參見非專利文獻1)。
在MPEG-DASH中,分配服務器針對一條運動圖像內容準備具有不同屏幕尺寸和編碼速度的運動圖像數據組,且再現終端根據發(fā)送路徑的狀況,要求具有最佳屏幕尺寸和最佳編碼速度的運動圖像數據組,使得實現自適應流分配。
引用列表
非專利文獻
非專利文獻1:MPEG-DASH(基于HTTP的動態(tài)自適應流)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
技術實現要素:
本發(fā)明待解決的問題
然而,還未考慮到多組的音頻數據中的預定組的音頻數據的容易再現(再生,reproduction)。
鑒于上述問題而作出本公開,且本公開支持多組的音頻數據中的所期望組的音頻數據的容易再現。
問題的解決方案
本公開的第一方面的信息處理裝置為包括文件生成單元的信息處理裝置,該文件生成單元生成以下文件,其中多個種類的音頻數據針對種類中的每一種或多種而被分割到軌道中并被布置,且布置有與所述多個種類相關的信息。
本公開的第一方面的信息處理方法對應于本公開的第一方面的信息處理裝置。
在本公開的第一方面中,生成了一種文件,在該文件中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置,且布置有與多個種類相關的信息。
本公開的第二方面的信息處理裝置為包括再現單元的信息處理裝置,該再現單元從文件中再現預定軌道的音頻數據,在該文件中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置,且與多個種類相關的信息被布置。
本公開的第二方面的信息處理方法對應于本公開的第二方面的信息處理裝置。
在本公開的第二方面中,預定軌道的音頻數據從文件中再現,在該文件中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置且與多個種類相關的信息被布置。
需注意,可以通過使計算機執(zhí)行程序來實現第一方面的信息處理裝置和第二方面的信息處理裝置。
另外,為了實現第一方面和第二方面的信息處理裝置,可以通過傳輸介質傳輸由計算機執(zhí)行的程序或可將其記錄在記錄介質上提供由計算機執(zhí)行的程序。
本發(fā)明的效果
根據本公開的第一方面,可以生成文件。另外,根據本公開的第一方面,可以生成使得可容易再現多個種類的頻數據中的預定種類的音頻數據的文件。
根據本公開的第二方面,可以再現音頻數據。另外,根據本公開的第二方面,可以容易地再現多個種類的音頻數據中的預定種類的音頻數據。
附圖說明
圖1為示出MPD文件的結構的示圖。
圖2為示出“Period(時期)”、“Representation(表示)”和“Segment(片段)”之間的關系的示圖。
圖3為示出MPD文件的層級結構的示圖。
圖4為示出MPD文件的結構與時間軸之間的關系的示圖。
圖5為用于說明MP4的3D音頻文件格式的軌道(track)的概要的示圖。
圖6為示出moov box(moov盒子)的結構的示圖。
圖7為示出3D音頻的層級結構的示圖。
圖8為用于說明本公開應用于的第一實施例中的信息處理系統的概要的示圖。
圖9為用于說明本公開應用于的第一實施例中的軌道的第一示例的概要的示圖。
圖10為示出基本軌道的樣本條目的語法的示例的示圖。
圖11為示出形成switch Group的組的軌道的樣本條目的語法的示例的示圖。
圖12為示出片段結構的第一示例的示圖。
圖13為示出片段結構的第二示例的示圖。
圖14為示出level assignment(級別分配)盒子的描述示例的示圖。
圖15為示出本公開應用于的在第一實施例中的MPD文件的第一描述示例的示圖。
圖16為示出圖8的文件生成設備的配置示例的框圖。
圖17為流程圖,其用于描述圖16的文件生成設備的文件生成處理。
圖18為框圖,其示出利用圖8的運動圖像再現終端實現的流再現單元的配置示例。
圖19為流程圖,其用于描述圖18的流再現單元的再現處理。
圖20為用于描述本公開應用于的第一實施例中的軌道的第二示例的概要的示圖。
圖21為示出switch Group的組的軌道的示例組條目的語法的示例的示圖。
圖22為示出各個組的軌道的樣本條目(sample entry,樣本條目)的語法的示例的示圖。
圖23為用于說明音頻文件的軌道的第三示例的概要的示圖。
圖24為示出MPD文件的第二描述示例的示圖。
圖25為示出MPD文件的第二描述示例的另一個示例的示圖。
圖26為用于描述音頻文件的軌道的第四示例的概要的示圖。
圖27為示出MPD文件的第三描述示例的示圖。
圖28為用于描述音頻文件的軌道的第五示例的概要的示圖。
圖29為示出其中4cc為“mha3”的樣本條目的語法的示例的示圖。
圖30為示出其中4cc為“mha3”的樣本條目的語法的另一個示例的示圖。
圖31為示出MPD文件的第四描述示例的示圖。
圖32為用于描述音頻文件的軌道的第三示例的另一個示例的概要的示圖。
圖33為用于描述音頻文件的軌道的第四示例的另一個示例的概要的示圖。
圖34為用于描述音頻文件的軌道的第五示例的另一個示例的概要的示圖。
圖35為用于描述音頻文件的軌道的第六示例的概要的示圖。
圖36為示出圖35的基本軌道和組軌道的樣本條目的語法的示例的示圖。
圖37為示出其中4cc為“mha3”的樣本條目的語法的又一個示例的示圖。
圖38為用于說明本公開應用至的第二實施例中的軌道的概要的示圖。
圖39為描述本公開應用至的第二實施例中的MPD文件的第一描述示例的示圖。
圖40為用于描述本公開應用至的第三實施例中的信息處理系統的概要的示圖。
圖41為示出圖40的文件生成設備的配置示例的框圖。
圖42為流程圖,其用于描述圖41的文件生成設備的文件生成處理。
圖43為框圖,其示出由圖40的運動圖像再現終端實現的流再現單元的配置示例。
圖44為流程圖,其用于描述圖43的流再現單元的再現處理的示例。
圖45為描述本公開應用至的第二實施例中的MPD文件的第二描述示例的示圖。
圖46為描述本公開應用至的第二實施例中的MPD文件的第三描述示例的示圖。
圖47為描述本公開應用至的第二實施例中的MPD文件的第四描述示例的示圖。
圖48為描述本公開應用至的第二實施例中的MPD文件的第五描述示例的示圖。
圖49為描述本公開應用至的第二實施例中的MPD文件的第六描述示例的示圖。
圖50為描述本公開應用至的第二實施例中的MPD文件的第七描述示例的示圖。
圖51為示出包括多個基本軌道的音頻文件的軌道結構的示例的示圖。
圖52為示出包括多個基本軌道的音頻文件的軌道結構的另一個示例的示圖。
圖53為示出計算機的硬件的配置示例的框圖。
具體實施方式
在下文中,將描述本公開的預設和用于實施本公開的實施例(以下稱為實施例)。需注意,描述將按以下順序給出。
0.本公開的預設(圖1至圖7)
1.第一實施例(圖8至圖37)
2.第二實施例(圖38至圖50)
3.基本軌道的其他示例(圖51和圖52)
4.第三實施例(圖53)
<本公開的預設>
(MPD文件的結構的說明)
圖1是示出MPEG-DASH的媒體表示描述(MPD)文件的結構的示圖。
在MPD文件的分析(解析)中,從在MPD文件的“Period”中包括的“Representation”屬性(圖1的媒體表示)中選出最佳的一個。
然后,通過參考在所選中的“Representation”的排頭的“Initialization Segment(初始化片段)”的統一資源定位符(URL)等來獲取并處理文件。接著,通過參考后續(xù)的“媒體片段”的URL等來獲取和再現文件。
需注意,在圖2示出了MPD文件中的“Period”、“Representation”和“片段”之間的關系。也就是說,一條運動圖像內容可以通過“Period”以比片段更長的時間單位管理,并且可以在各個“Period”中通過“Segment”以片段為單位來管理。另外,在各個“Period”中,可以通過“Representation”以流的屬性為單位來管理運動圖像內容。
因此,MPD文件具有在“Period”中和以下的圖3所示的層級結構。另外,在圖4的示例中示出MPD文件的結構關于時間軸的布置。從圖4可以清楚地看出,關于相同片段存在多個“Representation”。通過自適應地選擇這些“Representation”中的任一個,可以獲取和再現用戶的所期望的屬性的流。
(3D音頻文件格式的概要)
圖5為用于說明MP4的3D音頻文件格式的軌道的概要的示圖。
在MP4文件中,可以針對各軌道來管理運動圖像內容的編解碼信息和表示在文件中的位置的位置信息。在MP4的3D音頻文件格式中,3D音頻(Channel audio/Object audio/SAOC Object audio/HOA audio/metadata)的所有音頻流(elementary stream(基本流,ES)以樣本(幀)為單位被記錄為一個軌道。另外,3D音頻的編解碼信息(Pro file/level/audio configuration)被存儲為樣本條目。
構成3D音頻的Channel audio(聲道音頻)為以聲道為單位的音頻數據,而Object audio(對象音頻)為以對象為單位的音頻數據。需注意,對象為聲源,且利用附接到對象的麥克風等來獲取以對象為單位的音頻數據。對象可為物體(諸如固定式麥克風架)或運動體(諸如人)。
另外,SAOC Object audio(SAOC對象音頻)為空間音頻對象編碼(SAOC)的音頻數據,而HOA audio(HOA音頻)為高階環(huán)境立體混合聲(HOA)的音頻數據,而metadata(元數據)為Channel audio、Object audio、SAOC Object audio和HOA audio的元數據。
(moov盒子的結構)
圖6為示出MP4文件的moov盒子結構的示圖。
如圖6所示,在MP4文件中,圖像數據和音頻數據記錄為不同軌道。在圖6中,雖然未描述細節(jié),但音頻數據的軌道相似于圖像數據的軌道。樣本條目被包括在moov盒子中的stsd盒子中排列的sample description(樣本描述)中。
通過該方式,在MP4文件的廣播或本地存儲再現中,一般地,服務器側發(fā)送所有3D音頻的音頻流。然后,客戶端側在解析所有的3D音頻的音頻流時,僅解碼和輸出必要的3D音頻的音頻流。然而,在比特率高或存在對本地存儲器的讀取速率限制的情況下,期望的是,通過僅獲取必要的3D音頻的音頻流來減少解碼處理的負荷。
另外,在符合MPEG-DASH的MP4文件的流再現中,服務器側準備多個編碼速度的音頻流。因此,客戶端側通過僅獲取必要的3D音頻的音頻流,可以選擇和獲取對再現環(huán)境具有最佳的編碼速度的音頻流。
如上所述,在本公開中,通過在音頻文件中根據種類將3D音頻的音頻流分割成軌道并且布置音頻流,可以有效地僅獲取3D音頻的預定種類的音頻流。因此,在廣播或本地存儲器再現中,可以減少解碼處理的負荷。另外,在流再現中,可以根據頻帶再現必要的3D音頻的音頻流中的具有最高質量的音頻流。
(3D音頻層級結構的描述)
圖7為示出3D音頻層級結構的示圖。
如圖7所示,3D音頻的音頻數據為在各個音頻數據中不同的音頻元素(Element)。音頻元素的類型包括單聲道元素(SCE)和聲道對元素(CPE)。一個聲道的音頻數據的音頻元素的類型為SCE,而對應于兩個聲道的音頻數據的音頻元素的類型為CPE。
同一音頻的種類(Channel/Object/SAOC Object/HOA)的音頻元素形成組。因此,組類型(GroupType)的實例包括Channels、Objects、SAOC Objects和HOA。兩個以上的組可以根據需要形成switch Group(開關組)或group Preset(組預置)。
switch Group為其中包括的組的音頻流被排他地再現的組(排他再現組)。即,如圖7所示,在存在用于英語(EN)的Object audio的組和用于法語(FR)的Object audio的組的情況下,應當僅再現這些組中的一個。因此,switch Group由用于英語的Object audio的組(組ID為2)和用于法語的Object audio的組(組ID為3)形成。因此,用于英語的Object audio或者用于法語的Object audio被排他地再現。
同時,group Preset定義由內容創(chuàng)作者意欲的組的組合。
另外,3D音頻的元數據為各個元數據中不同的Ext元素(Ext Element)。Ext元素的類型包括Object Metadata(對象元數據)、SAOC 3D Metadata(SAOC 3D元數據)、HOA Metadata(HOA元數據)、DRC Metadata(DRC元數據)、SpatialFrame(空間幀)、SaocFrame(Saoc幀)等。Object Metadata的Ext元素是所有Object audio的元數據,以及SAOC 3D Metadata的Ext元素是所有SAOC audio的元數據。另外,HOAMetadata的Ext元素為所有HOAaudio的元數據,且DRC(動態(tài)范圍控制)Metadata的Ext元素為所有Object audio、SAOC audio和HOAaudio的元數據。
如上所述,3D音頻的音頻數據的分割單位包括音頻元素、組類型、組、switch Group和group Preset。因此,3D音頻中的音頻數據的音頻流可以按各種類被分割到不同軌道,其中種類是音頻元素、組類型、組、switch Group或group Preset。
此外,3D音頻中的元數據的分割單位包括Ext元素的類型和對應于元數據的音頻元素。因此,3D音頻的元數據的音頻流可以按各種類被分割到不同軌道,其中種類為Ext元素或對應于元數據的音頻元素。
在下面的實施例中,音頻數據的音頻流以一個或多個組被分割到軌道,并且元數據的音頻流按Ext元素的各個類型被分割到軌道。
<第一實施例>
(信息處理系統的概要)
圖8為用于描述本公開應用至的第一實施例中的信息處理系統的概要的示圖。
圖8的信息處理系統140被配置成使得與文件生成設備141連接的網絡服務器142與運動圖像再現終端144通過互聯網13連接。
在信息處理系統140中,網絡服務器142通過符合MPEG-DASH的方法將待再現的成組的軌道的音頻流分配到運動圖像再現終端144。
具體地,文件生成設備141以多種編碼速度對運動圖像內容的3D音頻的音頻數據和元數據進行編碼以生成音頻流。文件生成設備141以各編碼速度并且以稱為片段的從幾秒到十秒的各時間單位對所有音頻流制作文件以生成音頻文件。此時,文件生成設備141針對各個組和Ext元素的各個類型來分割音頻流,并且將音頻流在音頻文件中排列為不同軌道中的音頻流。文件生成設備141將生成的音頻文件上傳(上載)到網絡服務器142。
此外,文件生成設備141生成管理音頻文件等的MPD文件(管理文件)。文件生成設備141將MPD文件上傳到網絡服務器142上。
網絡服務器142存儲由文件生成設備141上傳的各個編碼速度和片段的音頻文件,以及MPD文件。響應于來自運動圖像再現終端144的請求,網絡服務器142將存儲的音頻文件、MPD文件等發(fā)送到運動圖像再現終端144。
運動圖像再現終端144運行流數據的控制軟件(以下稱為控制軟件)161、運動圖像再現軟件162、用于超文本傳輸協議(HTTP)訪問的客戶端軟件(以下稱為訪問軟件)163等。
控制軟件161是控制從網絡服務器142串流傳輸的數據的軟件。具體地,控制軟件161使運動圖像再現終端144從網絡服務器142獲取MPD文件。
另外,基于MPD文件,控制軟件161命令訪問軟件163發(fā)送由運動圖像再現軟件162指定的待再現的組的傳輸請求以及對應于該組的Ext元素的類型的軌道的音頻流。
運動圖像再現軟件162是再現從網絡服務器142獲取的音頻流的軟件。具體地說,運動圖像再現軟件162將待再現的組和對應于該組的Ext元素的類型指定給控制軟件161。另外,當從訪問軟件163接收到接收開始的通知時,運動圖像再現軟件162解碼從運動圖像再現終端144接收的音頻流。運動圖像再現軟件162根據需要合成并輸出作為解碼結果獲得的音頻數據。
訪問軟件163是使用HTTP控制通過互聯網13在運動圖像再現終端144和網絡服務器142之間的通信的軟件。具體地,訪問軟件163響應于控制軟件161的命令,使運動圖像再現終端144發(fā)送對包括在音頻文件中的待再現的軌道的音頻流的傳輸請求。此外,訪問軟件163響應于傳輸請求而使運動圖像再現終端144開始接收從網絡服務器142發(fā)送的音頻流,并且向運動圖像再現軟件162供應接收開始的通知。
需注意,在本說明書中,將僅描述運動圖像內容的音頻文件。然而,實際上,對應的圖像文件與音頻文件一起生成和再現。
(音頻文件的軌道的第一示例的概要)
圖9為用于描述音頻文件的軌道的第一示例的概要的示圖。
注意需,在圖9中,為了便于描述,僅示出3D音頻中的音頻數據的軌道。這同樣適用于圖20、圖23、圖26、圖28、圖30、圖32至圖35及圖38。
如圖9所示,所有3D音頻的音頻流存儲在一個音頻文件(3dauio.mp4)中。在音頻文件(3dauio.mp4)中,3D音頻的各組的音頻流分別被分割成不同軌道并被排列。另外,與整個3D音頻相關的信息被設置為基本軌道(Base Track)。
Track Reference(軌道參考)布置在各個軌道中的軌道盒子中。Track Reference指示在相應軌道與其他軌道之間的參考關系。具體地,Track Reference指示參考關系中對于軌道唯一的其他軌道的ID(以下稱為軌道ID)。
在圖9的示例中,基本軌道的軌道ID、組ID為1的ID的組#1中的軌道、組ID為2的組#2中的軌道、組ID為3的組#3中的軌道、組ID為4的組#4中的軌道為1、2、3、4、5。另外,基本軌道的Track Reference為2、3、4和5,而組#1至組#4中的軌道的TrackReference為1,即基本軌道的軌道ID。因此,基本軌道和組#1至組#4中的軌道處于參考關系。即,在組#1至組#4中的軌道的再現時,參考基本軌道。
另外,基本軌道的樣本條目的4cc(字符碼)是“mha2”,并且在基本軌道的樣本條目中,布置有包括3D音頻的所有組的配置信息或對于僅解碼基本軌道而言是必要的配置信息的mhaC盒子以及包括與3D音頻的所有組和switch Group相關的信息的mhas盒子。與組相關的信息由組的ID、表示分類成組的元素的數據的內容的信息等來配置。與switch Group相關的信息由switch Group的ID、形成switch Group的各組的ID等配置。
各個組的軌道的樣本條目的4cc是“mhg1”,并且在各個組的軌道的樣本條目中,可以布置有包括與該組相關的信息的mhgC盒子。在組形成switch Group的情況下,包括與switch Group相關的信息的mhsC盒子布置在組中的軌道的樣本條目中。
在基本軌道的樣本中,布置有組中的軌道的樣本的參考信息或者用于解碼參考信息所必需的配置信息。通過按照參考信息的布置順序來排列由參考信息所參考的組的樣本,可以生成在分割成軌道之前的3D音頻的音頻流。參考信息由組中軌道的樣品的位置和大小、組類型等配置。
(基本軌道的樣本條目的語法的示例)。
圖10為示出基本軌道的樣本條目的語法的示例的示圖。
如圖10所示,在基本軌道的樣本條目中,布置有mhaC盒子(MHAC配置盒子)、mhas盒子(MHA音頻場景信息(AudioSceneInfo)盒子)等。在mhaC盒子中,描述了3D音頻的所有組的配置信息或對僅解碼基本軌道所必需的配置信息。另外,在mhas盒子中,描述了音頻場景(AudioScene)信息,該信息包括與3D音頻的所有組和switch Group相關的信息。音頻場景信息描述圖7的層級結構。
(各個組的軌道的樣本條目的語法的示例)。
圖11為示出各個組的軌道的樣本條目的語法的示例的示圖。
如圖11所示,在各個組的軌道樣本條目中,布置有mhaC盒子(MHAConfigration Box)、mhgC盒子(MHAGroupDefinition Box)、mhsC盒子(MHASwitchGropuDefinition Box)等。
在mhaC盒子中,描述對解碼相應軌道必需的配置信息。此外,在mhgC盒子中,與相應組相關的音頻場景信息被描述為組定義(GroupDefinition)。在mhsC盒子中,在相應組形成switch Group的情況下,在switch Group定義(SwitchGroupDefinition)中描述與switch Group相關的音頻場景信息。
(音頻文件的片段結構的第一示例)
圖12為示出音頻文件的片段結構的第一示例的示圖。
在圖12的片段結構中,由ftyp盒子和moov盒子配置初始片段。在moov盒子,trak盒子布置用于包括在音頻文件中的每個軌道。另外,在moov盒子,布置有包括指示各個軌道的軌道ID與媒體片段中的ssix盒子中使用的級別之間對應關系的信息的mvex盒子等。
此外,媒體片段由sidx盒子、ssix盒子和一個或多個子片段配置。在sidx盒子中,布置有指示子片段在音頻文件中的位置的位置信息。在ssix盒子中,布置有布置在mdat盒子中的各級別的音頻流的位置信息。需注意,級別對應于軌道。此外,第一軌道的位置信息為由第一軌道的moof盒子和音頻流構成的數據的位置信息。
子片段設置為各任意時間長度,且子片段設置有一對moof盒子和mdat盒子,其共用于所有軌道。在mdat盒子中,所有軌道的音頻流通過任意時間長度統一布置,而在moof盒子中,布置音頻流的管理信息。布置在mdat盒子中的軌道的音頻流在各軌道中是連續(xù)的。
在圖12的示例中,軌道ID為1的軌道1是基本軌道,軌道ID為2至N的軌道2至軌道N是組ID為1至N-1的組中的軌道。這同樣適用于下述圖13。
(音頻文件的片段結構的第二示例)
圖13為示出音頻文件的片段結構的第二示例的示圖。
圖13的片段結構與圖12的片段結構不同之處在于moof盒子和mdat盒子針對每個軌道而設。
即,圖13的初始片段相似于圖12的初始片段。另外,圖13的媒體片段通過sidx盒子、ssix盒子和一個或多個子片段構成,相似于圖12的媒體片段。在sidx盒子中,子片段的位置信息被布置,相似于圖12的sidx盒子。在ssix盒子中,包括由moof盒子和mdat盒子構成的級別的數據的位置信息。
子片段設置成各任意時間長度,且子片段設置有針對每個軌道的一對moof盒子和mdat盒子。即,在各個軌道的mdat盒子中,軌道的音頻流通過任意時間長度統一布置(交錯存儲),且在moof盒子中,布置音頻流的管理信息。
如圖12和圖13所示,軌道的音頻流通過任意時間長度統一布置。因此,相比于音頻流以樣本為單元統一布置時,通過HTTP等的音頻流獲取效率得到改進。
(mvex盒子的描述示例)
圖14為示出圖12和圖13的mvex盒子中布置的級別分配盒子的描述示例的示圖。
級別分配盒子是將每個軌道的軌道ID與在ssix盒子中使用的級別相關聯的盒子。如圖14所示,軌道ID為1的基本軌道與級別0相關聯,軌道ID為2的聲道音頻軌道與級別1相關聯。此外,軌道ID為3的HOA音頻軌道與級別2相關聯,軌道ID為4的對象元數據軌道與級別3相關聯。此外,軌道ID為5的對象音頻軌道與級別4相關聯。
(MPD文件的第一描述示例)
圖15為示出MPD文件的第一描述示例的示圖。
如圖15所示,在MPD文件中,描述了管理3D音頻的音頻文件(3daudio.mp4)的片段的“Representation”、管理包括在片段中的軌道的“SubRepresentation”等。
“Representation”和“SubRepresentation”包括指示在3D文件格式中的作為整體的相應片段或者軌道的編解碼的種類(配置文件或級別)的“codecs”。
“SubRepresentation”包括在級別分配盒子中設定的值的“l(fā)evel”,作為指示相應軌道的級別的值?!癝ubRepresentation”包括“dependencyLevel”,其為指示與具有參考關系(具有依賴性)的其他軌道(以下稱為參考軌道)對應的級別的值。
另外,“SubRepresentation”包括<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”。
“dataType(數據類型)”是指示在對應軌道的樣本條目中描述的音頻場景信息的內容(definition(定義))的種類的數字,并且該definition是其內容。例如,在GroupDefinition(組定義)包括在軌道的樣本條目中的情況下,1描述為軌道的“數據類型”,并且組定義描述為“definition”。另外,在SwitchGroupDefinition包括在軌道的樣本條目中的情況下,2描述為軌道的“數據類型”,并且SwitchGroupDefinition描述為“definition”。即,“dataType”和“definition”為指示SwitchGroupDefinition是否存在于相應軌道的樣本條目中的信息?!癲efinition”為二進制數據,且由base64方法編碼。
需注意,在圖15的示例中,所有組形成switch Group。然而,在存在組不形成switch Group的情況下,<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“2,SwitchGroupDefinition”>不被描述在對應于該組的“SubRepresentation”中。這同樣適用于下述的圖24、圖25、圖31、圖39、圖45、圖47、圖48和圖50。
(文件生成設備的配置示例)
圖16為示出圖8的文件生成設備141的配置示例的框圖。
圖16的文件生成設備141由音頻編碼處理單元171、音頻文件生成單元172、MPD生成單元173和服務器上傳處理單元174配置。
文件生成設備141的音頻編碼處理單元171以多種編碼速度對運動圖像內容的3D音頻的音頻數據和元數據進行編碼以生成音頻流。音頻編碼處理單元171將各個編碼速度的音頻流提供至音頻文件生成單元172。
音頻文件生成單元172針對每個組和每個類型的Ext元素將軌道分派至從音頻編碼處理單元171供應的音頻流。音頻文件生成單元172生成圖12或圖13的片段結構的音頻文件,其中對于各編碼速度和片段,以子片段為單位布置軌道的音頻流。音頻文件生成單元172將生成的音頻文件供應至MPD生成單元173。
MPD生成單元173確定其中從音頻文件生成單元172供應的音頻文件將被存儲的網絡服務器142的URL等。然后,MPD生成單元173生成其中音頻文件的URL等布置在音頻文件的“Representation”的“Segment”中的MPD文件。MPD生成單元173將所生成的MPD文件和音頻文件供應至服務器上傳處理單元174。
服務器上傳處理單元174將從MPD生成單元173供應的音頻文件和MPD文件上傳到網絡服務器142上。
(文件生成設備的處理的描述)
圖17為流程圖,其用于描述圖16的文件生成設備141的文件生成處理。
在圖17的步驟S191,音頻編碼處理單元171以多種編碼速度對運動圖像內容的3D音頻的音頻數據和元數據進行編碼以生成音頻流。音頻編碼處理單元171將各編碼速度的音頻流提供至音頻文件生成單元172。
在步驟S192,音頻文件生成單元172針對各個組和Ext元素的各類型將軌道分派給從音頻編碼處理單元171供應的音頻流。
在步驟S193,音頻文件生成單元172生成圖12或圖13的片段結構的音頻文件,其中對于每個編碼速度和片段,以子片段為單位布置軌道的音頻流。音頻文件生成單元172將生成的音頻文件供應至MPD生成單元173。
在步驟S194,MPD生成單元173生成包括音頻文件的URL等的MPD文件。MPD生成單元173將所生成的MPD文件和音頻文件供應至服務器上傳處理單元174。
在步驟S195,服務器上傳處理單元174將從MPD生成單元173供應的音頻文件和MPD文件上傳到網絡服務器142上。然后,終止處理。
(運動圖像再現終端的功能性配置示例)
圖18是框圖,其示出實現使得圖8的運動圖像再現終端144運行控制軟件161、運動圖像再現軟件162和訪問軟件163的流再現單元的配置示例。
圖18的流再現單元190由MPD獲取單元91、MPD處理單元191、音頻文件獲取單元192、音頻解碼處理單元194和音頻合成處理單元195配置。
流再現單元190的MPD獲取單元91從網絡服務器142獲取MPD文件,且供應MPD文件至MPD處理單元191。
MPD處理單元191從MPD獲取單元91供應的MPD文件中提取在用于音頻文件的“Segment”中描述的待再現的片段的音頻文件的URL信息,并且將該信息供應至音頻文件獲取單元192。
音頻文件獲取單元192請求網絡服務器142,并且獲取在利用從MPD處理單元191供應的URL識別的音頻文件中的待再現的軌道的音頻流。音頻文件獲取單元192將獲取的音頻流供應至音頻解碼處理單元194。
音頻解碼處理單元194解碼從音頻文件獲取單元192供應的音頻流。音頻解碼處理單元194將作為解碼結果獲得的音頻數據供應至音頻合成處理單元195。音頻合成處理單元195根據需要合成從音頻解碼處理單元194供應的音頻數據,且輸出該音頻數據。
如上所述,音頻文件獲取單元192、音頻解碼處理單元194和音頻合成處理單元195用作再現單元,并且從存儲在網絡服務器142中的音頻文件中獲取并再現待再現的軌道的音頻流。
(運動圖像再現終端的處理的描述)
圖19為流程圖,其用于描述圖18的流再現單元190的再現處理。
在圖19的步驟S211中,流再現單元190的MPD獲取單元91從網絡服務器142獲取MPD文件,且供應MPD文件至MPD處理單元191。
在步驟S212,MPD處理單元191從MPD獲取單元91供應的MPD文件中提取在用于音頻文件的“Segment”中描述的待再現的片段的音頻文件的URL信息,并且將該信息供應至音頻文件獲取單元192。
在步驟S213,音頻文件獲取單元192請求網絡服務器142并基于從MPD處理單元191供應的URL來獲取由URL識別的音頻文件中待再現的軌道的音頻流。音頻文件獲取單元192將獲取的音頻流供應至音頻解碼處理單元194。
在步驟S214,音頻解碼處理單元194解碼從音頻文件獲取單元192供應的音頻流。音頻解碼處理單元194將作為解碼結果獲得的音頻數據供應至音頻合成處理單元195。在步驟S215,音頻合成處理單元195根據需要合成從音頻解碼處理單元194供應的音頻數據,且輸出該音頻數據。
(音頻文件的軌道的第二示例的概要)
需注意,在以上描述中,GroupDefinition和SwitchGroupDefinition布置在樣本條目中。然而,如圖20所示,GroupDefinition和SwitchGroupDefinition可以布置在樣本組條目中,該樣品組條目為軌道中的子樣本的各個組的樣本條目。
在這種情況下,如圖21所示,組(其形成switch Group)的軌道的樣本組條目包括GroupDefinition和SwitchGroupDefinition。雖然省略圖示,但是組(其不形成switch Group)的軌道的樣本組條目僅包括GroupDefinition。
另外,各個組的軌道的樣本條目變成在圖22所示的一個。即,如圖22所示,在每個組的軌道的樣本條目中,描述了其中相應軌道的音頻流的諸如配置文件的配置信息(MPEGHAudioProfile)、級別(MPEGHAudioProfile)等的MHA組音頻配置盒子。
(音頻文件的軌道的第三示例的概要)
圖23為用于描述音頻文件的軌道的第三示例的概要的示圖。
圖23的音頻數據的軌道的配置與圖9的配置不同之處在于,3D音頻的一個或多個組的音頻流包括在基本軌道中,并且對應于分割成不包括與作為整體的3D音頻相關的信息的軌道(在下文被稱為組軌道)的音頻流的組的數量為1或更多。
即,圖23的基本軌道的樣本條目是4cc為“mha2”的樣本條目,其包括在3D音頻中的音頻數據的音頻流被分割成多個軌道并被布置時的基本軌道的語法,相似于圖9(圖10)。
另外,組軌道的樣本條目是4cc為“mhg1”的樣本條目,其包括針對在3D音頻中的音頻數據的音頻流分割成多個軌道并被布置時的組軌道的語法,相似于圖9(圖11)。因此,基本軌道和組軌道用樣本條目的4cc來識別,并且可以辨識軌道之間的依賴性。
另外,相似于圖9,Track Reference布置在軌道中的每個的軌道盒子中。因此,即使在“mha2”和“mhg1”為4cc的基本軌道的樣本條目或者組軌道未知的情況下,在軌道之間的依賴性可以利用軌道參考辨識。
需注意,可以不在組軌道的樣本條目中描述mhgC盒子和mhsC盒子。另外,在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,可以不在組軌道的樣本條目中描述mhaC盒子。然而,在基本軌道的樣本條目中描述包括可以獨立地再現基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨立地再現組軌道的配置信息的mhaC盒子。可以根據在樣本條目中的配置信息的存在/不存在來辨識是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標志或通過改變樣本條目的類型來進行辨識。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識的情況下,4cc的基本軌道的樣本條目在前一狀態(tài)的情況下是“mha2”狀態(tài),在后一狀態(tài)的情況下為“mha4”。
(MPD文件的第二描述示例)
圖24為示圖,其示出在音頻文件的軌道的配置為圖23的配置的情況下MPD文件的描述示例。
圖24的MPD文件與圖15的MPD文件不同之處在于,描述了基本軌道的“SubRepresentation”。
在基本軌道的“SubRepresentation”中,描述了基本軌道的“編解碼器”、“層級”、“依賴性層級”和<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="dataType,definition">,相似于組軌道的“SubRepresentation”。
在圖24的示例中,基本軌道的“編解碼器”是“mha2.2.1”,并且“層級”是指示基本軌道的層級的值“0”?!耙蕾囆詫蛹墶笔侵甘窘M軌道的層級的值“1”和“2”。另外,“數據類型”是指示作為基本軌道的樣本條目的mhas盒子中描述的種類的音頻場景信息的數字的“3”,并且“定義”由base64方法編碼的音頻場景的二元數據。
需注意,參考圖25,在基本軌道的“SubRepresentation”中,可以劃分和描述音頻場景信息。
在圖25的示例中,“1”被設定成數字,其指示作為種類的“Atmo”,指示具有組ID“1”的組的內容的“Atmo”,在基礎音頻的樣本條目的mhas盒子中描述的音頻場景信息(圖7)。
另外,“2”至“7”設定為數字,這些數字分別指示,作為種類,指示具有組ID“2”的組的內容的“對話框EN”,指示具有組ID“3”的組的內容的“對話FR”,指示具有組ID“4”的組的內容的“畫外音GE”,指示具有組ID“5”的組的內容的“效果”,指示具有組ID“6”的組的內容的“效果”,和指示具有組ID“7”的組的內容的“效果”。
因此,在圖25的基本軌道的“SubRepresentation”中,描述了其中“數據類型”為1,而“定義”為Atmo”的<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>。相似地,描述了<“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>,其中“數據類型”為“2”、“3”、“4”、“5”、“6”和“7”,而定義為“對話EN”、“對話FR”、“畫外音GE”、“效果”、“效果”和“效果”。在圖25的示例中,其中基本軌道的音頻場景信息被分割和描述的情況已經被描述。然而,組軌道的組定義和switch Group定義可以相似地分割和描述。
(音頻文件的軌道的第四示例的概要)
圖26為用于描述音頻文件的軌道的第四示例的概要的示圖。
圖26的軌道數據的軌道的配置與圖26的配置不同在于,組軌道的樣本條目是具有4cc的“mha2”的樣本條目。
在圖26的情況下,基本軌道和組軌道的樣本條目的4ccs均是“mha2”。因此,不可以識別基本軌道和組軌道且在軌道之間的依賴性不可以利用樣本條目4cc進行辨識。因此,利用布置在軌道中的每個的軌道盒子中的軌道參考來識別軌道之間的依賴性。
另外,因為樣本條目的4ccs為“mha2”,所以在音頻數據的音頻流被分割和布置在多個軌道中時可以識別作為3D音頻的軌道的相應軌道。
需注意,在基本軌道的樣本條目的mhaC盒子中,描述3D音頻的所有組的配置信息或者獨立地再現基本軌道的配置信息,相似于在圖9和圖23的情況。另外,在mhas盒子中,描述音頻場景信息,該信息包括與所有組和3D音頻的switch Group相關的信息。
同時在組軌道的樣本條目中,未布置mhas盒子。另外,在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,mhaC盒子可以不在組軌道的樣本條目中描述。然而,在基本軌道的樣本條目中描述包括可以獨立地再現基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨立地再現基本軌道的配置信息的mhaC盒子??梢愿鶕跇颖緱l目中的配置信息的存在/不存在來辨識是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標志或通過改變樣本條目的類型來識別前一狀態(tài)和后一狀態(tài)。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識的情況下,基本軌道的樣本條目的4cc和組軌道的樣本條目的4cc例如在前者的情況下是“mha2”以及在后者情況下為“mha4”。
(MPD文件的第三描述示例)
圖27為示圖,其示出在音頻文件的軌道的配置為圖26的配置的情況下MPD文件的描述示例。
圖27的MPD文件與圖24的MPD文件不同之處在于,組軌道的“SubRepresentation”的編解碼器為“mha2.2.1”,且<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>未在組軌道的“SubRepresentation”中描述。
需注意,雖然省略圖示,但是音頻場景信息可以在基本軌道的“SubRepresentation”中分割和描述,相似于圖25的情況。
(音頻文件的軌道的第五示例的概要)
圖28為用于描述音頻文件的軌道的第五示例的概要的示圖。
圖28的音頻數據的軌道的配置與圖23的配置不同之處在于,基本軌道和組軌道的樣本條目為這樣的樣本條目,其包括適用于3D音頻的音頻數據的音頻流被分割成多個軌道的情況下的組軌道和基本軌道這兩者的語法。
在圖28的情況下,基本軌道和組軌道的樣本條目的4ccs均是“mha3”,其為包括適用于基本軌道和組軌道這兩者的語法的樣本條目的4cc。
因此,相似于圖26的情況,利用布置在軌道中的每個的軌道盒子中的軌道參考來識別軌道之間的依賴性。另外,因為樣本條目的4ccs為“mha2”,所以在3D音頻的音頻數據的音頻流被分割和布置在多個軌道中時可以識別作為軌道的相應軌道。
(4cc為“mha3”的樣本條目的語法的示例)。
圖29為示出4cc為“mha3”的樣本條目的語法的示例的示圖。
如圖29所示,4cc為“mha3”的樣本條目的語法為通過合成圖10的語法和圖11的語法獲得的語法。
即,在4cc為“mha3”的樣本條目中,布置mhaC盒子(MHA配置盒子)、mhas盒子(MHA音頻場景信息盒子)、mhgC盒子(MHA組定義盒子)、mhsC盒子(MHAswitch Group定義盒子)等。
在基本軌道的樣本條目的mhaC盒子中,描述了3D音頻所有組的配置信息或者可以獨立地再現基本軌道的配置信息。另外,在mhas盒子中,描述包括與所有組和3D音頻switch Group相關的信息,且未布置mhgC盒子和mhsC盒子。
在包括3D音頻的所有組的配置信息的mhaC盒子在基本軌道的樣本條目中描述的情況下,mhaC盒子可以不在組軌道的樣本條目中描述。然而,在基本軌道的樣本條目中描述包括可以獨立地再現基本軌道的配置信息的mhaC盒子的情況下,在組軌道的樣本條目中描述包括可以獨立地再現組軌道的配置信息的mhaC盒子。可以根據在樣本條目中的配置信息的存在/不存在來辨識是處于前一狀態(tài)還是處于后一狀態(tài)。然而,可以通過描述在樣本條目中的標志或通過改變樣本條目的類型來辨識前一狀態(tài)和后一狀態(tài)。需注意,雖然省略圖示,但是在通過改變樣本條目的類型來使得前一狀態(tài)和后一狀態(tài)可辨識的情況下,基本軌道和組軌道的樣本條目的4ccs在前一狀態(tài)的情況下是“mha3”,在后一狀態(tài)的情況下為“mha5”。另外,未在組軌道的樣本條目中布置mhas盒子。可以或可不布置mhgC盒子和mhsC盒子。
需注意,如在圖30中所示,在基本軌道的樣本條目中,布置mhas盒子、mhgC盒子和mhsC盒子,描述了其中可以獨立僅再現基本軌道的配置信息的mhaC盒子,且布置包括3D音頻所有組的配置信息的mhaC盒子。在這種情況下,利用包括在這些mhaC中的標志來識別其中描述3D音頻的所有組的配置信息的mhaC盒子和其中描述可以獨立地僅再現基本軌道的配置信息的mhaC盒子。另外,在這種情況下,mhaC盒子可以不在組軌道的樣本條目中描述。mhaC盒子是否在組軌道的樣本條目中描述可以根據在組軌道的樣本條目中的mhaC盒子存在與否來辨識。然而,可以通過描述在樣本條目中的標志或通過改變樣本條目的類型來辨識mhaC盒子是否在組軌道的樣本條目中描述。需注意,雖然省略圖示,但在通過改變樣本條目的類型使得可以辨識mhaC盒子是否在組軌道的樣本條目中描述的情況下,基本軌道和組軌道的樣本條目的4ccs例如在mhaC盒子在組軌道的樣本條目中描述的情況為“mha3”,而在mhaC盒子在組軌道的樣本條目中未描述的情況下為“mha5”。需注意,在圖30,mhgC盒子和mhsC盒子可以不在組軌道的樣本條目中描述。
(MPD文件的第四描述示例)
圖31為示圖,其示出在音頻文件的軌道的配置為圖28或30的配置的情況下MPD文件的描述示例。
圖31的MPD文件與圖24的MPD文件不同之處在于,“Representation”的“編解碼器”為“mha3.3.1”,而“SubRepresentation”的“編解碼器”為“mha3.2.1”。
需注意,雖然省略圖示,但音頻場景信息可以在基本軌道的“SubRepresentation”中被分割和描述,相似于圖25的情況。
另外,在以上描述中,軌道參考布置在軌道中的每個的軌道盒子中。然而,可以不布置軌道參考。例如,圖32至34為示圖,它們分別示出其中未在圖23、圖26和圖28的音頻文件的軌道的軌道盒子中布置軌道參考的情況。在圖32的情況下,未布置軌道參考,但在基本軌道和組軌道的樣本條目的4ccs不同,且因此可以辨識在軌道之間的依賴性。在圖33和圖34的情況下,因為布置mhas盒子,所以可以辨識軌道是否為基本軌道。
音頻文件的軌道的配置為圖32至34的配置的情況的MPD文件分別與圖24、圖27和圖31的MPD文件相同。需注意,在這種情況下,音頻場景信息可以在基本軌道的“SubRepresentation”中被分割和描述,相似于圖25的情況。
(音頻文件的軌道的第六示例的概要)
圖35為用于描述音頻文件的軌道的第六示例的概要的示圖。
圖35的音頻數據的軌道的配置與圖33的結構不同之處在于,在基本軌道的樣本中沒有布置組的軌道的樣本的參考信息和用于解碼參考信息所必需的配置信息,包括0組或更多組音頻流,在基本軌道的樣本條目中描述組的軌道的樣本的參考信息。
更具體地,描述追蹤在音頻場景信息中描述的組被分割的mhmt盒子以新的方式布置在4cc為“mha2”的樣本條目中,其當3D音頻的音頻數據的音頻流被分割成多個軌道時包括用于基本軌道的語法。
(4cc為“mha2”的樣本條目的語法的另一個示例)。
圖36為示出4cc為“mha2”的圖35的基本軌道和組軌道的樣本條目的語法的示例的示圖。
圖36的4ccs為“mha2”的樣本條目的配置與圖10的配置不同之處在于,布置MHA多軌道描述(MHAMultiTrackDescription)盒子(mhmt盒子)。
在mhmt盒子中,作為參考信息,在組ID(組_ID)和軌道ID(軌道_ID)之間的相應信息被描述。需注意,在mhmt盒子中,可以彼此相關聯地描述音頻元素和軌道ID。
在參考信息在每個樣本中未改變的情況下,通過在樣本條目中布置mhmt盒子可以有效地描述參考信息。
需注意,雖然省略圖示,但在圖9、圖20、圖23、圖26、圖28、圖30、圖32和圖34的情況下,mhmt盒子可以相似地布置在后軌道的樣本條目中,而非描述組的軌道的樣本的參考信息,相似于基本軌道的樣本。
在這種情況下,4cc為“mha3”的樣本條目的語法變成在圖37所示的一個。即,圖36的4ccs為“mha3”的樣本條目的配置與圖29的配置不同之處在于,布置MHA多軌道描述(MHAMultiTrackDescription)盒子(mhmt盒子)。
另外,在圖23、圖26、圖28、圖30、圖32至圖34和圖35中,3D音頻的一個或多個組的音頻流可以不包括在基本軌道中,相似于圖9。另外,對應于被分割成組軌道的音頻流的組的數量可為1。
另外,在圖23、圖26、圖28、圖30、圖32至圖34和圖35中,組定義和switch Group定義可以布置在相同組條目中,相似于圖20的情況。
<第二實施例>
(軌道的概要)
圖38為用于描述本公開應用至的在第二實施例中的軌道的概要的示圖。
如圖38所示,第二實施例與第一實施例不同之處在于,軌道記錄為不同文件(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group 4.mp4)。在這種情況下,通過經HTTP獲取期望軌道的文件,可以僅獲取期望軌道的數據。因此,可以有效地獲取通過HTTP的期望軌道的數據。
(MPD文件的描述示例)
圖39為描述本公開應用至的在第二實施例中的MPD文件的描述示例的示圖。
如圖39所示,在MPD文件中,描述了管理3D音頻的音頻文件(3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_gro up 4.mp4)的片段的“Representation”等。
“Representation”包括“編解碼器”、“id”、“關聯Id”和“關聯類型”?!癷d”為包括“id”的“Representation”的ID?!瓣P聯Id”是指示相應軌道和另一軌道之間的參考關系的信息,并且是參考軌道的“id”。“關聯類型”是指示具有參考軌道的參考關系(依賴性)的含義的代碼,并且例如使用與MP4的軌道參考的值相同的值。
另外,組的軌道的“Representation”包括<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,def inition”>。在圖39的示例中,管理音頻文件的片段的“Representation”在一個“適配集(AdaptationSet)”下提供。然而,可以為音頻文件的每個片段提供“適應集”,并且可以在其下提供管理片段的“Representation”。在這種情況下,在“適應集”中,“關聯Id”和指示具有參考軌道的參考關系的含義的<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudioAssociationData:2014”value=“dataType,id”>可以被描述,相似于“關聯類型”。另外,在基本軌道和組軌道的“Representation”中描述的音頻場景信息、組定義和switch Group定義可以被分割和描述,相似于圖25的情況。另外,在“Representation”中描述和分割的音頻場景信息、組定義和switch Group定義可以在“適應集”中描述。
(信息處理系統的概要)
圖40為用于描述本公開應用至的在第三實施例中的信息處理系統的概要的示圖。
在圖40所示的配置的相同配置,與圖8的配置用相同參考標記標示。適當地省略重疊的描述。
圖40的信息處理系統210被配置成使得連接到文件生成設備211的網絡服務器212通過互聯網13與運動圖像再現終端214連接。
在信息處理系統210中,網絡服務器142通過符合MPEG-DASH的方法將待再現的組中的音頻文件的音頻流分配到運動圖像再現終端144。
具體地,文件生成設備211以多種編碼速度對運動圖像內容的3D音頻的音頻數據和元數據進行編碼以生成音頻流。文件生成設備211針對每個組和每個類型的Ext元素分割音頻流從而使音頻流在不同的軌道中。文件生成設備211針對每個片段和每個軌道以每個編碼速度制作音頻流的文件以生成音頻文件。文件生成設備211將作為結果的音頻文件上傳到網絡服務器212上。另外,文件生成設備211生成MPD文件并將其上傳到網絡服務器212上。
網絡服務器212存儲用于每個片段及用于每個軌道的處于每個編碼速度的音頻文件,以及從文件生成設備211上傳的MPD文件。響應于來自運動圖像再現終端214的請求,網絡服務器212將存儲的音頻文件、存儲的MPD文件等發(fā)送到運動圖像再現終端214。
運動圖像再現終端214執(zhí)行控制軟件221、運動圖像再現軟件162、訪問軟件223等。
控制軟件221是控制從網絡服務器212流出的數據的軟件。具體地,控制軟件221使運動圖像再現終端214從網絡服務器212獲取MPD文件。
另外,基于MPD文件,控制軟件221命令訪問軟件223傳送由運動圖像再現軟件162指定的待再現的組的發(fā)送請求以及對應于該組的Ext元素類型的音頻文件的音頻流。
訪問軟件223是通過使用HTTP的互聯網13控制運動圖像再現終端214和網絡服務器212之間的通信的軟件。具體地,訪問軟件223響應于控制軟件221的命令,使運動圖像再現終端144發(fā)送待再現的音頻文件的音頻流的發(fā)送請求。此外,訪問軟件223響應于發(fā)送請求而使運動圖像再現終端144開始接收從網絡服務器212發(fā)送的音頻流,并且向運動圖像再現軟件162供應接收開始的通知。
(文件生成設備的配置示例)
圖41為示出圖40的文件生成設備211的配置示例的框圖。
在圖41所示的配置的相同配置,與圖16的配置用相同參考標記標示。適當地省略重疊的描述。
圖41的文件生成設備211的配置與圖16的文件生成設備141不同之處在于,音頻文件生成單元241和MPD生成單元242被提供來代替音頻文件生成單元172和MPD生成單元173。
具體地,音頻文件生成設備211的音頻文件生成單元241針對每個組和每個類型的Ext元素將軌道分派至從音頻編碼處理單元171供應的音頻流。音頻文件生成單元241生成音頻文件,在其中音頻流以每個編碼速度針對每個片段及針對每個軌道被布置。音頻文件生成單元241將生成的音頻文件供應至MPD生成單元242。
MPD生成單元242確定其中從音頻文件生成單元172供應的音頻文件待存儲于的網絡服務器142的URL等。MPD生成單元242生成其中音頻文件的URL等布置在用于音頻文件的“Representation”的“片段”中的MPD文件。MPD生成單元173將所生成的MPD文件和生成的音頻文件供應至服務器上傳處理單元174。
(文件生成設備的處理的描述)
圖42為流程圖,其用于描述圖41的文件生成設備211的文件生成處理。
圖42的步驟S301和S302的處理相似于圖17的步驟S191和步驟S192的處理,因而省略描述。
在步驟S303,音頻文件生成單元241生成音頻文件,在其中音頻流以每個編碼速度針對每個片段及針對每個軌道被布置。音頻文件生成單元241將生成的音頻文件供應至MPD生成單元242。
步驟S304和S305的處理相似于圖17的步驟S194和步驟S195的處理,因而省略描述。
(運動圖像再現終端的功能性配置示例)
圖43是框圖,其示出實現使得圖40的運動圖像再現終端214執(zhí)行控制軟件221、運動圖像再現軟件162和訪問軟件223的流再現單元的配置示例。
在圖43所示的配置的相同配置,與圖18的配置用相同參考標記標示。適當地省略重疊的描述。
圖43的流再現單元260的配置和圖18的流再現單元190的配置不同之處在于,提供音頻文件獲取單元264來取代音頻文件獲取單元192。
音頻文件獲取單元264請求網絡服務器142以獲取基于從MPD處理單元191供應的URL的待再現的軌道的音頻文件的URL獲取音頻文件的音頻流。音頻文件獲取單元264將獲取的音頻流供應至音頻解碼處理單元194。
即,音頻文件獲取單元264、音頻解碼處理單元194和音頻合成處理單元195用作再現單元,并且從存儲在網絡服務器212中的音頻文件獲取待再現的軌道的音頻文件的音頻流,并再現該音頻流。
(運動圖像再現終端的處理的描述)
圖44為流程圖,其用于描述圖43的流再現單元260的再現處理。
圖44的步驟S321和S322的處理相似于圖19的步驟S221和步驟S212的處理,因而省略描述。
在步驟S323,基于待再現的軌道的音頻文件的URL,音頻文件獲取單元192請求網絡服務器142來獲取從MPD處理單元191供應的URL的音頻文件的音頻流。音頻文件獲取單元264將獲取的音頻流供應至音頻解碼處理單元194。
步驟S324和S325的處理相似于圖19的步驟S214和步驟S215的處理,因而省略描述。
需注意,在第二實施例中,相似于第一實施例,可以在樣本組條目中布置組定義和switch Group定義。
另外,在第二實施例中,相似于第一實施例,音頻數據的軌道的配置還可以為在圖23、圖26、圖28、圖30、圖32至圖34和圖35中所示的配置。
圖45至圖47為示圖,它們分別示出第二實施例中的音頻數據的軌道的配置為在圖23、圖26和圖28中所示的配置的情況下的MPD。在第二實施例中,在音頻數據的軌道的配置為在圖32、圖33、圖34或圖35中所示的配置的情況下的MPD文件相同于在圖23、圖26和圖28中所示的配置情況下的MPD。
圖45的MPD與圖39的MPD不同之處在基本軌道的“編解碼器”和“associationId(關聯Id)”,以及在于<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>包括在基本軌道的“Representation”中。具體地,圖45的MPD的基本軌道的“Representation”的“編解碼器”為“mha2.2.1”,而“關聯Id”為組軌道的“id”的“g1”和“g2”。
另外,圖46的MPD與圖45的MPD不同之處在于組軌道的“編解碼器”,且在于<EssentialProperty schemeIdUri=“urn:mpeg:DASH:3daudio:2014”value=“dataType,definition”>不包括在組軌道的“Representation”中。具體地,圖46的MPD的組軌道的“編解碼器”為“mha2.2.1”。
另外,圖47的MPD與圖45的MPD不同之處在于基本軌道和組軌道的“編解碼器”。具體地,圖47的MPD的組軌道的“編解碼器”為“mha3.2.1”。
需注意,在圖45至圖47的MPD中,“適應集(AdaptationSet)”可以針對“Representation”進行分割,如圖48至圖50所示。
<基本軌道的另一個示例>
在以上描述中,僅提供一個基本軌道。然而,可以提供多個基本軌道。在這種情況下,基本軌道被提供用于例如3D音頻的每個視點(細節(jié)將在下面給出),并且在基本軌道中,布置包括視點的3D音頻的所有組的配置信息的mhaC盒子。需注意,在基本軌道中,可以布置包括視點的音頻場景信息的mhas盒子。
3D音頻的視點是可以聽到3D音頻的位置,諸如與3D音頻同時再現的圖像的視點或預先設置的預定位置。
如上所述,在針對每個視點分割基本軌道的情況下,可以基于包括在每個視點中的配置信息中的在屏幕上的對象的位置等,從相同3D音頻的音頻流中再現針對每個視點不同的音頻。結果,可以減少3D音頻的音頻流的數據量。
即,在3D音頻的視點是可以與3D音頻同時再現的棒球場的圖像的多個視點的情況下,將在中心后屏幕中具有視點的圖像準備為基本視點的圖像的主圖像。此外,將具有位于板后面的座位中的視點的圖像、一壘內內場看臺座位、三壘內場看臺座位、左外野看臺座位、右外野看臺座位等準備作為多圖像,其為視點(其為非基本視點)的圖像。
在這種情況下,如果準備所有視點的3D音頻,則3D音頻的數據量變大。因此,通過對基本軌道描述視點中的在屏幕上對象等的位置,可以通過視點共享根據在屏幕上對象的位置而改變的音頻流諸如Object audio和SAOCObject audio。結果,可以減少3D音頻的音頻流的數據量
在3D音頻的再現時,例如,使用音頻流諸如Object audio和SAOCObject audio,以及對應于主圖像視點的基本軌道或者在相同時間利用音頻流再現的多個圖像,根據視點再現不同音頻。
相似地,例如,在3D音頻的視點是預先設定的體育場的多個座位的位置的情況下,如果準備所有視點的3D音頻,則3D音頻的數據量變大。因此,通過對基本軌道描述在屏幕上對象的位置,在視點中,可以通過視點共享音頻流諸如Object audio和SAOCObject audio。因此,根據由用戶使用座位表、使用一個視點的Object audio和SAOCObject audio選擇的座位可以再現不同音頻,且可以減少3D音頻的音頻流的數據量。
在基本軌道被提供用于在圖28的軌道結構中的3D音頻的每個視點的情況下,軌道結構變?yōu)槿鐖D51所示的一個。在圖51所示的示例中,3D音頻的視點的數量為三。另外,在圖51所示的示例中,針對3D音頻的每個視點生成聲道音頻,并且其他音頻數據由3D音頻的視點共享。這同樣適用于下述圖52的示例。
在這種情況下,三個基本軌道被提供用于3D音頻的每個視點,如圖3所示。軌道參考布置在基本軌道中的每個的軌道盒子中。另外,每個基本軌道的樣本條目的語法與4cc為“mha3”的樣本條目的語法相同。4cc是指示基本軌道被提供用于3D音頻的每個視點的“mhcf”。
包括每個視點的3D音頻的所有組的配置信息的mhaC盒子被布置在每個基本軌道的樣本條目中。例如,在視點中,因為每個視點的3D音頻的所有組的配置信息是在屏幕上的對象的位置。另外,包括每個視點的音頻場景信息的mhas盒子布置在每個基本軌道中。
視點的聲道音頻的組的音頻流布置在基本軌道的樣本中。
需注意,在樣本單元中,在每個視點中存在描述對象在屏幕上的位置的Object Metadata的情況下,Object Metadata也布置在每個基本軌道的樣本中。
即,在對象是移動體(例如,運動員)的情況下,在每個視點中屏幕上的對象的位置隨時間改變。因此,該位置描述為樣本單元中的Object Metadata。在這種情況下,對于每個視點,在樣本單元中的Object Metadata布置在對應于視點的基本軌道的樣本中。
圖51的組軌道的配置與圖28的配置相同,除了未布置聲道音頻的組的音頻流,因而省略描述。
需注意,在圖51的軌道結構中,視點的聲道音頻的組的音頻流可以不布置在基本軌道中,并且可以布置在不同的組軌道中。在這種情況下,軌道結構變成在圖52中所示的一個。
在圖52所示的示例中,對應于軌道ID為“1”的基本軌道的視點的聲道音頻組的音頻流布置在軌道ID為“4”的組軌道中。另外,對應于軌道ID為“2”的基本軌道的視點的聲道音頻組的音頻流布置在軌道ID為“5”的組軌道中。
另外,對應于軌道ID為“3”的基本軌道的視點的聲道音頻組的音頻流布置在軌道ID為“6”的組軌道中。
需注意,在圖51和圖52的示例中,基本軌道的樣本條目的4cc為“mhcf”。然而,4cc可為與圖28相同的“mha3”。
另外,雖然省略圖示,但是其中基本軌道被提供用于在上述所有軌道結構(除了圖28的軌道結構外)中的3D音頻的每個視點的情況相似于在圖51和52的情況。
<第三實施例>
(本公開應用至的計算機的描述)
網絡服務器142(212)的一系列處理可以由硬件執(zhí)行或者可以由軟件執(zhí)行。在通過軟件執(zhí)行一系列處理的情況下,配置軟件的程序安裝至計算機。這里,計算機包括結合特殊硬件的計算機和通過安裝各種類型的程序可以執(zhí)行各種功能的通用個人計算機等。
圖53是框圖,其示出利用程序執(zhí)行網絡服務器142(212)的一系列處理的計算機的硬件的配置示例。
在計算機中,中央處理單元(CPU)601、只讀存儲器(ROM)602和隨機存取存儲器(RAM)603通過總線604相互連接。
輸入/輸出接口605還連接到總線604。輸入單元606、輸出單元607、存儲單元608、通信單元609和驅動器610連接到輸入/輸出接口605。
輸入單元606由鍵盤、鼠標、麥克風等構成。輸出單元607由顯示器、揚聲器等構成。存儲單元608由硬盤、非易失性存儲器等構成。通信單元609由網絡接口等構成。驅動器610驅動可移動介質611諸如磁盤、光盤或磁光盤或半導體存儲器。
在如上所述配置的計算機中,CPU 601通過輸入/輸出接口605和總線604將存儲在存儲單元608中的程序加載到RAM 603上,并執(zhí)行該程序,從而執(zhí)行一系列處理。
由計算機(CPU 601)執(zhí)行的程序可以通過例如記錄在作為封裝介質的可移動介質611中來提供。此外,可以通過有線或無線傳輸介質諸如局域網、互聯網或數字衛(wèi)星廣播來提供程序。
在計算機中,可以通過將可移動介質611附接到驅動器610而經由輸入/輸出接口605將程序安裝到存儲單元608。此外,程序可以由通信單元609通過有線或無線傳輸介質接收,并安裝到存儲單元608。另外,程序可以預先安裝到ROM 602或存儲單元608。
需注意,由計算機執(zhí)行的程序可以是根據本說明書中描述的順序以時間序列處理的程序,或者可以是在諸如被調用時并行處理的程序或者在必要定時處理的程序。
另外,運動圖像再現終端144(214)的硬件配置可以具有與圖53的計算機相似的配置。在這種情況下,例如,CPU 601執(zhí)行控制軟件161(221)、運動圖像再現軟件162和訪問軟件163(223)。運動圖像再現終端144(214)的處理可以由硬件執(zhí)行。
在本說明書中,系統意指多個配置元件(設備、模塊(組件)等)的集合,并且所有配置元件可以或可以不在相同外殼中。因此,容納在分離的殼體中并經由網絡連接的多個裝置和在單個殼體中容納多個模塊的單個裝置均是系統。
注意,本公開的實施例不限于上述實施例,并且在不脫離本公開的精神和范圍的情況下可以進行各種改變。
此外,本公開可以應用于執(zhí)行廣播或本地存儲再現而非流再現的信息處理系統。
在MPD的實施例中,通過具有當由模式描述的內容不能被理解時可以忽略的描述符定義的基本屬性來描述信息。然而,可以通過具有即使由模式描述的內容不能被理解也可以再現的描述符定義的適當性(SupplementalProperty)來描述信息。該描述方法由創(chuàng)作具有意圖的內容的側來選擇。
此外,本公開可以采用如下的配置。
(1)一種信息處理裝置,包括:
文件生成單元,其被配置成生成文件,其中多個種類的音頻數據按所述種類的每一種或多種被分割到軌道中并被布置,且與所述多個種類相關的信息被布置。
(2)根據(1)所述的信息處理裝置,其中
與所述多個種類相關的信息布置在預定軌道的樣本條目中。
(3)根據(2)所述的信息處理裝置,其中
預定軌道為其中分割和布置所述多個種類的音頻數據的軌道中的一個。
(4)根據(1)至(3)中任一項所述的信息處理裝置,其中,
對于所述軌道中的每個,與對應于所述軌道的種類相關的信息布置在文件中。
(5)根據(4)所述的信息處理裝置,其中,
對于所述軌道中的每個,與排他再現種類相關的信息被布置在所述文件中,排他再現種類由與軌道對應的種類、以及對應于從與軌道對應的種類的音頻數據排他地再現的音頻數據的種類構成。
(6)根據(5)所述的信息處理裝置,其中
與對應于所述軌道的所述種類相關的信息和與排他再現種類相關的信息布置在對應軌道的樣本條目中。
(7)根據(5)或(6)所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括指示與排他再現種類相關的信息針對所述軌道中的每個存在與否的信息的所述文件。
(8)根據(1)至(7)中任一項所述的信息處理裝置,其中
對應于所述多個種類的所述軌道的參考信息布置在所述文件中。
(9)根據(8)所述的信息處理裝置,其中
所述參考信息布置在預定軌道的樣本中。
(10)根據(9)所述的信息處理裝置,其中
所述預定軌道為其中分割和布置所述多個種類的音頻數據的軌道中的一個。
(11)根據(1)至(10)中任一項所述的信息處理裝置,其中
指示所述軌道之間的參考關系的信息布置在所述文件中。
(12)根據(1)至(11)中任一項所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括指示所述軌道之間的參考關系的信息的所述文件。
(13)根據(1)至(12)中任一項所述的信息處理裝置,其中
所述文件為一個文件。
(14)根據(1)至(12)中任一項所述的信息處理裝置,其中
所述文件為所述軌道中的每個的文件。
(15)一種信息處理方法,包括以下步驟:
通過信息處理裝置,生成文件,其中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個種類相關的信息被布置。
(16)一種信息處理裝置,包括:
再現單元,其被配置成從文件中再現預定軌道的音頻數據,在所述文件中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個種類相關的信息被布置。
(17)一種信息處理方法,包括以下步驟:
通過信息處理裝置從文件中再現預定軌道的音頻數據,在所述文件中多個種類的音頻數據針對所述種類的每一種或多種而被分割到軌道中并被布置,且與所述多個種類相關的信息被布置。
參考標記列表
11 文件生成設備
192 音頻文件獲取單元
194 音頻解碼處理單元
195 音頻合成處理單元
211 文件生成設備
264 音頻文件獲取單元
權利要求書(按照條約第19條的修改)
1.一種信息處理裝置,包括:
文件生成單元,被配置為針對組中的每個組,將軌道分配至包括多個所述組的由一個軌道構成的音頻流以生成由多個所述軌道構成的文件,所述組利用組ID來表示并且由一個或多個音頻元素配置成。
2.根據權利要求1所述的信息處理裝置,其中
所述文件包括表示所述多個組與所述多個軌道之間的對應關系的信息。
3.根據權利要求2所述的信息處理裝置,其中
表示所述多個組與所述多個軌道之間的對應關系的信息包括所述多個組的組ID。
4.根據權利要求2所述的信息處理裝置,其中
表示所述多個組與所述多個軌道之間的對應關系的信息包括所述多個組的組ID以及與所述多個軌道對應的軌道ID。
5.根據權利要求2所述的信息處理裝置,其中
表示所述多個組與所述多個軌道之間的對應關系的信息被包括在基本軌道中。
6.根據權利要求2所述的信息處理裝置,其中
所述文件生成單元將表示所述多個組與所述多個軌道之間的對應關系的信息設定為不同于與所述多個組相關的音頻場景信息和所述多個組的配置信息的盒子。
7.根據權利要求1所述的信息處理裝置,其中
與所述多個組相關的信息被布置在所述文件中的預定軌道的樣本條目中。
8.根據權利要求1所述的信息處理裝置,其中
對于所述軌道中的每個軌道,與對應于所述軌道的組相關的信息被布置在所述文件中。
9.根據權利要求1所述的信息處理裝置,其中
對于所述軌道中的每個軌道,與排他再現組相關的信息被布置在所述文件中,所述排他再現組由與所述軌道對應的組以及對應于從與所述軌道對應的組的音頻元素中排他地再現的音頻元素的組構成。
10.根據權利要求9所述的信息處理裝置,其中
與對應于所述軌道的組相關的信息和與排他再現組相關的信息被布置在對應軌道的樣本條目中。
11.根據權利要求9所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括表示與排他再現組相關的信息是否針對所述軌道中的每個軌道而存在的信息的所述文件。
12.根據權利要求1所述的信息處理裝置,其中
所述多個軌道的參考信息被布置在所述文件中。
13.根據權利要求12所述的信息處理裝置,其中
所述參考信息被布置在預定軌道的樣本中。
14.根據權利要求1所述的信息處理裝置,其中
表示所述軌道之間的參考關系的信息被布置在所述文件中。
15.根據權利要求1所述的信息處理裝置,其中
所述文件生成單元生成管理文件,所述管理文件管理包括表示所述軌道之間的參考關系的信息的所述文件。
16.根據權利要求1所述的信息處理裝置,其中
所述文件是一個文件。
17.根據權利要求1所述的信息處理裝置,其中
所述文件是所述軌道中的每個軌道的文件。
18.一種信息處理方法,包括以下步驟:
針對組中的每個組,將軌道分配至包括多個組的由一個軌道構成的音頻流以生成由多個所述軌道構成的文件,所述組利用組ID來表示并且由一個或多個音頻元素配置成。
19.一種信息處理裝置,包括:
再現單元,被配置成從由多個軌道構成的文件中再現預定軌道,所述文件通過針對組中的每個組將軌道分配至包括多個所述組的由一個軌道構成的音頻流而生成,所述組利用組ID來表示并且由一個或多個音頻元素配置成。
20.一種信息處理方法,包括以下步驟:
從由多個軌道構成的文件中再現預定軌道,所述文件通過針對組中的每個組將軌道分配至包括多個所述組的由一個軌道構成的音頻流而生成,所述組利用組ID來表示并且由一個或多個音頻元素配置成。