本发明涉及音频信号处理,并且更特别地,涉及包括音频内容(通常指示扬声器声道和至少一个可选的音频对象声道)和支持对音频内容的交互式渲染(interactiverendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本发明的一些实施例以被称为杜比数字(dolby digital,ac-3)、杜比数字加(dolby digital plus,增强版ac-3或e-ac-3)或者杜比e(dolby e)的格式之一来生成、解码和/或渲染音频数据。
背景技术:
1、杜比、杜比数字、杜比数字加以及杜比e是杜比实验室授权许可公司(dolbylaboratories licensing corporation)的商标。杜比实验室提供分别被称为杜比数字和杜比数字加的ac-3和e-ac-3的专有实现。
2、典型的音频数据流包括音频内容(例如,音频内容的一个或更多个声道)和指示音频内容的至少一个特性的元数据。例如,在ac-3比特流中,存在若干个专用于改变被传送给收听环境的节目的声音的音频元数据参数。其中一个元数据参数是dialnorm参数,该参数意欲指示在音频节目中发生的对话的平均水平,并且被用来确定音频回放信号水平。
3、虽然本发明不限于与ac-3比特流、e-ac-3比特流或者杜比e比特流一起使用,但是为了方便,在实施例中将描述本发明生成、解码或以其它方式处理这种包括响度处理状态元数据的比特流。
4、ac-3编码比特流包括元数据和1至6个声道的音频内容。音频内容是已经利用感知音频编码压缩的音频数据。元数据包括若干个打算用于改变被传送到收听环境的节目的声音的音频元数据参数。
5、ac-3(也称为杜比数字)编码的细节是众所周知的,并且在许多公开文献中得到阐述,包括在atsc标准a52/a中:digital audio compression standard(ac-3),修订版a,先进电视系统委员会,2001年8月20日。
6、杜比数字加(e-ac-3)编码的细节在下文中得到阐述:“introduction to dolbydigital plus,an enhancement to the dolby digital coding system”,aes会议论文6196,第117届aes会议,2004年10月28日。
7、杜比e编码的细节在下文中得到阐述:“efficient bit allocation,quantization,and coding in an audio distribution system”,aes预印本5068,第107次aes会议,1999年8月;和“professional audio coder optimized for use withvideo”,aes预印本5033,第107次aes会议,1999年8月。
8、ac-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48khz的采样速率,这代表32毫秒的数字音频或者音频的31.25帧/秒的速率。
9、取决于帧分别包含1、2、3或6个音频数据块,e-ac-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据。对于48khz的采样速率,这分别代表5.333、10.667、16或32毫秒的数字音频或者音频的189.9、93.75、62.5或31.25帧/秒的速率。
10、如在图1中所示,每个ac-3帧被分成部分(片段),包括:同步信息(si)部分,该部分包含(如图2中所示)同步字(sw)和两个纠错字中的第一个(crc1);比特流信息(bsi)部分,该部分包含大部分元数据;6个音频块(ab0至ab5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(w),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(aux)信息部分,该部分可以包含更多元数据;以及两个纠错字中的第二个(crc2)。
11、如图4中所示,每个e-ac-3帧被分成部分(片段),包括:同步信息(si)部分,该部分包含(如图2中所示)同步字(sw);比特流信息(bsi)部分,该部分包含大部分元数据;1至6个之间的音频块(ab0至ab5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(w),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(aux)信息部分,该部分可以包含更多元数据;以及纠错字(crc)。
12、在ac-3(或e-ac-3)比特流中,存在若干个专用于改变被传送到收听环境的节目的声音的音频元数据参数。其中一个元数据参数是包括在bsi片段中的dialnorm参数。
13、如图3中所示,ac-3帧(或e-ac-3帧)的bsi片段包括指示该节目的dialnorm值的5比特参数(“dialnorm”)。如果ac-3帧的音频编码模式(“acmod”)是“0”,则包括指示在同一ac-3帧中携带的第二音频节目的dialnorm值的5比特参数(“dialnorm2”),以指示正在使用双单声道或“1+1”声道配置。
14、bsi片段还包括指示紧跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的标志(“addbsie”)、指示紧跟在“addbsil”值之后的任何附加比特流信息的长度的参数(“addbsil”)、以及紧跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。
15、bsi片段包括未在图3中具体示出的其它元数据值。
16、已经提出在音频比特流中包括其它类型的元数据。例如,在国际申请日为2011年12月1日且被转让给本技术的受让人的pct国际申请公开号wo 2012/075246 a2中,描述了用于生成、解码和处理包括指示音频内容的特性(例如,响度)和处理状态(例如,响度处理状态)的元数据的音频比特流的方法和系统。该参考文献还描述了利用元数据对比特流的音频内容的自适应处理,以及利用元数据对比特流的音频内容的响度处理状态和响度的有效性验证。
17、还已知用于生成和渲染基于对象的音频节目的方法。在这种节目的生成过程中,通常假设要用于渲染的扬声器位于回放环境中的任意位置;不一定在(标称)水平面内或者在节目生成时已知的任何其它预定布置中。典型地,节目中所包括的元数据指示用于例如使用扬声器的三维阵列来在明显空间位置或者沿着轨迹(三维空间中)渲染节目的至少一个对象的渲染参数。例如,节目的对象声道可以具有相应的元数据,指示要渲染(由对象声道指示的)对象的明显空间位置的三维轨迹。轨迹可以包括一系列“地板”位置(在被假设位于回放环境的地板上或在另一水平面内的扬声器子集的平面内)、以及一系列“地板上方”位置(各自通过驱动被假设位于回放环境的至少一个其它水平面内的扬声器子集来确定)。例如,在2011年9月29日以国际公开no.wo2011/119401a2公开且被转让给本技术的受让人的pct国际申请no.pct/us2001/028783中,描述了对基于对象的音频节目的渲染的示例。
技术实现思路
1、根据本发明的一些实施例,(根据本发明生成的)基于对象的音频节目被渲染为提供对节目的音频内容的沉浸式、可个性化感知。典型地,内容指示在观赏型赛事(例如,足球或橄榄球赛、汽车或摩托车比赛、或其它体育赛事)上的气氛(即,其中出现的声音)、和/或现场解说。在一些实施例中,内容不指示观赏型赛事上的气氛或现场解说(例如,在一些实施例中,内容指示具有多个可选版本的对话和/或其它音频内容的有稿节目或电影节目)。在一些实施例中,节目的音频内容指示多个音频对象声道(例如,指示用户可选的对象或对象集合,并且典型地还有一组在不存在用户对对象的选择时要渲染的默认对象)和至少一组(在本文中有时被称为“一床(a bed of)”)扬声器声道。所述一床扬声器声道可以是可能被包括在不包括对象声道的常规广播节目中的类型的扬声器声道的常规混合(例如,5.1声道混合)。
2、在一些实施例中,由基于对象的音频节目指示(即,作为基于对象的音频节目的一部分被传送)的对象相关元数据在回放侧提供了混合交互性(例如,大程度的混合交互性),包括通过允许终端用户选择节目的音频内容的混合以进行渲染,而不是仅仅允许回放预先混合的声场。例如,用户可以在由本发明的节目的典型实施例的元数据提供的渲染选项之间进行选择,以选择可用对象声道的子集来进行渲染,并且可选地还选择由要渲染的对象声道指示的至少一个音频对象(声音源)的回放水平。每个所选声音源被渲染的空间位置可以由包括在节目中的元数据预先确定,但是在一些实施例中,可以由用户选择(例如,经受预定的规则或约束)。在一些实施例中,节目中所包括的元数据允许用户从渲染选项菜单(例如,少量的渲染选项,例如,“主队人群噪声”对象、“主队人群噪声”和“主队现场解说”对象组、“客队人群噪声”对象、以及“客队人群噪声”和“客队现场解说”对象组)之间选择。菜单可以由控制器的用户界面呈现给用户。控制器典型地耦接(例如,通过无线链路)到被配置为(至少部分地)解码和渲染基于对象的节目的机顶设备(或其它设备,例如,tv、avr、平板电脑或电话)。在一些其它实施例中,节目中所包括的元数据以其它方式允许用户从关于由对象声道指示的哪些对象应该被渲染以及关于要渲染的对象应该如何配置的一组选项之间选择。
3、在一类实施例中,本发明是生成基于对象的音频节目的方法(例如,包括通过对音频内容进行编码来生成节目),使得节目能够以可个性化的方式渲染,以提供对节目的音频内容的沉浸式感知。其它实施例包括传送(例如,广播)、解码和/或渲染这种节目的步骤。由节目指示(包括在节目中)的音频对象的渲染可以提供沉浸式体验(例如,当回放系统包括三维扬声器阵列时,或者甚至当回放系统包括标称的二维扬声器阵列时)。
4、典型地,节目的音频内容指示多个音频对象(例如,用户可选的对象,并且典型地还有将在不存在用户选择的情况下渲染的一组默认对象)和一组(“一床”)扬声器声道。在一些实施例中,消费者使用(实现用户界面的)控制器来选择节目的对象声道内容(和相应的渲染参数),但是控制器不提供让用户选择节目的扬声器声道内容(即,所述一床扬声器声道中的个体扬声器声道)的选项。
5、在一些实施例中,基于对象的音频节目是经编码的(例如,经压缩的)音频比特流(在本文中有时被称为“主混合”),指示节目的至少一些(即,至少一部分)音频内容(例如,一床扬声器声道和至少一些节目对象声道)和对象相关元数据,并且可选地还有至少一个附加的比特流或文件(在本文中有时被称为“次混合”),指示节目的一些音频内容(例如,至少一些对象声道)和/或对象相关元数据。
6、在一些实施例中,节目的对象相关元数据包括持久性元数据(例如,持久性元数据和非持久性元数据)。例如,对象相关元数据可以包括:可以在广播链(从内容创建设备到消费者的用户界面)中的至少一个点处改变的非持久性元数据(例如,针对用户可选的对象,默认水平和/或渲染位置或轨迹)、以及意欲在节目初始生成(通常,在内容创建设备中)之后就不可再改变(或者不能被改变)的持久性元数据。持久性元数据的示例包括用于节目的每个用户可选对象或其它对象或对象组的对象id、以及指示每个用户可选对象或其它对象相对于所述一床扬声器声道的音频内容或节目的其它要素的定时的同步字(例如,时间码)。在从内容创建设备到用户界面的整个广播链中、在广播节目的整个持续时间内或者甚至还在节目的再次广播期间,典型地都保持持久性元数据。在一些实施例中,至少一个用户可选对象的音频内容(以及相关的元数据)在基于对象的音频节目的主混合中被发送,并且至少一些持久性元数据(例如,时间码)以及可选地还有至少一个其它对象的音频内容(以及相关的元数据)在节目的次混合中被发送。
7、在本发明的基于对象的音频节目的一些实施例中,持久性元数据被用来(例如,甚至在节目广播之后)保持用户选择的对象内容和床(扬声器声道)内容的混合。例如,每当用户观看特定类型的节目(例如,任何足球比赛)或者每次用户观看(任何类型的)任何节目时,这样可以提供选定的混合作为默认混合,直到用户改变他/她的选择。例如,在第一节目的广播期间,用户可以选择包括具有持久性id的对象(例如,被识别为“主队人群噪声”对象的对象)的混合,然后每当用户观看(和收听)另一个节目(包括具有同一持久性id的对象)时,回放系统将自动地以同一混合来渲染节目,直到用户改变混合选择。在本发明的基于对象的音频节目的一些实施例中,持久性的对象相关元数据可以使得在整个节目期间对某些对象的渲染是强制性的(例如,尽管用户期望废除这种渲染)。
8、在一些实施例中,对象相关元数据利用默认的渲染参数(例如,渲染对象的默认空间位置)来提供对象内容和床(扬声器声道)内容的默认混合。
9、在一些实施例中,对象相关元数据提供对象和“床”扬声器声道内容的一组可选“预设”混合,每个预设混合具有一组预定的渲染参数(例如,渲染对象的空间位置)。这些可以由回放系统的用户界面呈现为可用混合的有限菜单或选项板。每个预设混合(和/或每个可选对象)可以具有持久性id(例如,名称、标签或徽标),并且这种id的指示典型地能够由回放系统的用户界面显示(例如,在ipad或其它控制器的屏幕上)。例如,不管对预设混合的每个对象的音频内容或非持久性元数据的细节的变化(例如,由广播公司所作的变化)如何,都可以存在具有持久性id(例如,队伍徽标)的可选“主队”混合。
10、在一些实施例中,节目的对象相关元数据(或者非由与节目一起传送的元数据指示的回放或渲染系统的预配置)提供对于对象和床(扬声器声道)内容的可选混合的约束或条件。例如,如果采用了数字版权管理(drm),则可以实现drm分层,以允许消费者“分层”访问在基于对象的音频节目中所包括的一组音频对象。如果消费者(例如,向广播公司)支付更多的钱,则消费者可以有权解码和选择(和听到)节目的更多音频对象。对于另一个示例,对象相关元数据可以就对象的用户选择提供约束(例如,如果“主队人群噪声”对象和“主队播音员”对象都被选择,则元数据确保这两个对象被以预定的相对空间位置渲染)。约束可以(至少部分地)由关于回放系统的数据(例如,用户输入的数据)确定。例如,如果回放系统是立体声系统(只包括两个扬声器),则系统的对象处理子系统可以被配置为防止用户选择不能仅通过两个扬声器以足够的空间分辨率渲染的混合(由对象相关元数据识别)。对于另一个示例,出于由对象相关元数据(和/或输入到回放系统的其它数据)指示的法律(例如,drm)原因或其它原因(例如,基于传输信道的带宽),可以从可选对象的类别中移除一些传送的对象。用户可以为更多的带宽而向内容创建者或广播公司付费,并且作为结果,可以被允许从可选对象和/或床/对象混合的更大菜单中进行选择。
11、在一些实施例中,本发明实现基于规则的对象声道选择,在所述基于规则的对象声道选择中,至少一个预定规则确定基于对象的音频节目的哪些对象声道被渲染(例如,利用一床扬声器声道)。典型地,用户指定针对对象声道选择的至少一个规则(例如,通过从由回放系统控制器的用户界面呈现的可用规则菜单中选择),并且回放系统应用每个这种规则来确定基于对象的音频节目的哪些对象声道应该被包括在要渲染的声道的混合中。回放系统可以根据节目中的对象相关元数据来确定节目的哪些对象声道满足预定规则。
12、在一些实施例中,本发明的基于对象的音频节目包括并行地生成和发送的一组比特流(多个比特流,可以被称为“子流”)。典型地,利用多个解码器来对它们进行解码(例如,节目包括多个e-ac-3子流,回放系统利用多个e-ac-3解码器来解码子流)。典型地,每个子流包括对象声道的全集的不同子集和相应的对象相关元数据,并且至少一个子流包括一床扬声器声道。每个子流优选地包括同步字(例如,时间码),以允许子流彼此同步或时间对齐。例如,在每个子流中,包括对象声道内容和对象相关元数据的每个容器包括唯一的id或时间戳。
13、对于另一个示例,并行地生成和发送一组n个本发明的杜比e比特流。每个这种杜比e比特流包括一系列突发(burst)。每个突发可以携带扬声器声道音频内容(一“床”扬声器声道)和本发明的对象声道的完整对象声道组(其可以是大的集合)的子集以及对象相关元数据(即,每个突发可以指示完整对象声道组中的一些对象声道和相应的对象相关元数据)。组中的每个比特流包括同步字(例如,时间码),以允许组中的比特流彼此同步或时间对齐。例如,在每个比特流中,包括对象声道内容和对象相关元数据的每个容器可以包括唯一的id或时间戳,以允许组中的比特流彼此同步或时间对齐。
14、本发明的一些实施例(例如,本发明的回放系统的一些实施例)实现了分布式渲染。例如,节目的选定对象声道(以及相应的对象相关元数据)从机顶设备(stb)(与一床解码的扬声器声道一起)传递到下游设备(例如,avr或条形音箱),所述下游设备被配置为渲染对象声道与所述一床扬声器声道的混合。stb可以部分地渲染音频,并且下游设备可以完成渲染(例如,通过生成用于驱动特定顶层扬声器(例如,天花板扬声器)的扬声器馈送,以将音频对象布置在特定的明显源位置,其中stb的输出仅指示该对象可以在一些未指定的顶层扬声器中以某种未指定的方式渲染)。例如,stb可能不知道回放系统的扬声器的特定组织,但是下游设备(例如,avr或条形音箱)可以知道这些。
15、在一些实施例中,基于对象的音频节目是或者包括至少一个ac-3(或e-ac-3)比特流,并且该节目的包括对象声道内容(和/或对象相关元数据)的每个容器被包括在比特流的帧尾的辅助数据(auxdata)字段(例如,图1或图4中所示的aux片段)中,或者在比特流的“跳过字段”片段中。在一些这种实施例中,ac-3或e-ac-3比特流的每一帧包括一个或两个元数据容器。一个容器可以包括在帧的aux字段中,而另一个容器可以包括在帧的addbsi字段中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(aux字段中所包括的容器的或者与其关联的)一个这种有效载荷可以是(与同样由节目指示的所述一床扬声器声道相关的)一个或更多个本发明的对象声道中的每一个的音频样本组和与每个对象声道关联的对象相关元数据。每个容器的核心头部典型地包括至少一个id值,该id值指示在该容器中所包括或关联的有效载荷的类型;子流关联指示(指示核心头部与哪些子流关联);以及保护比特。典型地,每个有效载荷有它自己的头部(或“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。
16、在其它实施例中,基于对象的音频节目是或者包括非ac-3比特流或e-ac-3比特流的比特流。在一些实施例中,基于对象的音频节目是或者包括至少一个杜比e比特流,并且节目的对象声道内容和对象相关元数据(例如,包括对象声道内容和对象相关元数据的节目的每个容器)被包括在杜比e比特流的一般不携带有用信息的比特位置中。杜比e比特流的每个突发占用的时间段等于相应视频帧的时间段。对象声道(和对象相关元数据)可以被包括在杜比e突发之间的保护带内和/或每个杜比e突发内的每个数据结构(各具有aes3帧格式)中的未使用比特位置。例如,每个保护带包含一系列片段(例如,100个片段),每个保护带的前x个(例如,x=20)片段中的每一个包括对象声道和对象相关元数据,并且所述每个保护带的剩余片段中的每一个可以包括保护带符号。在一些实施例中,杜比e比特流的对象声道和对象相关元数据被包括在元数据容器中。每个容器具有核心头部并且包括(或关联)一个或更多个有效载荷。(aux字段中所包括的容器的或与其关联的)一个这种有效载荷可以是(与同样由节目指示的一床扬声器声道相关的)一个或更多个本发明的对象声道中的每一个的音频样本组以及与每个对象声道关联的对象相关元数据。每个容器的核心头部典型地包括至少一个id值,该id值指示该容器中所包括或关联的有效载荷的类型;子流关联指示(指示核心头部与哪些子流关联);以及保护比特。典型地,每个有效载荷有它自己的头部(或“有效载荷标识符”)。对象级的元数据可以携带在作为对象声道的每个子流中。
17、在一些实施例中,广播设备(例如,这种设备中的编码系统)基于捕捉到的声音来生成多个音频表示(基于对象的音频节目)(例如,5.1扁平化混合(5.1flattened mix)、国际混合(international mix)、国内混合(domestic mix))。例如,节目的所述一床扬声器声道和/或可选对象(或者用于渲染并混合对象的可选或不可选的渲染参数)的菜单可以因节目而有所不同。
18、在一些实施例中,基于对象的音频节目是可解码的,并且其扬声器声道内容可以由(不被配置为解析本发明的对象声道和对象相关元数据的)传统解码器和传统渲染系统渲染。相同的节目可以根据本发明的一些实施例由(根据本发明的实施例)被配置为解析本发明的对象声道和对象相关元数据并且渲染扬声器声道与由节目指示的对象声道内容的混合的机顶设备(或者其它解码和渲染系统,例如,tv、avr、平板电脑或电话)渲染。
19、根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及指示分层图(有时被称为分层“混合图”)的元数据,其中分层图指示扬声器声道和对象声道的可选混合(例如,所有可选的混合)。例如,混合图指示适用于选择扬声器和对象声道的子集的每个规则。典型地,经编码的音频比特流指示节目的至少一些(即,至少一部分)音频内容(例如,一床扬声器声道和节目的至少一些对象声道)和对象相关元数据(包括指示混合图的元数据),并且可选地还有至少一个附加的编码音频比特流或文件指示节目的一些音频内容和/或对象相关元数据。
20、分层混合图指示节点(每个节点可以指示可选的声道或声道组,或一类可选的声道或声道组)和节点之间的连接(例如,到用于选择声道的规则和/或节点的控制接口),并且包括必要数据(“基本”层)和可选的(即,可选择性地略去的)数据(至少一个“扩展”层)。典型地,分层混合图被包括在指示节目的编码音频比特流之一中,并且可以通过(例如,由回放系统实现的)图遍历进行评估,以确定声道的默认混合和用于修改默认混合的选项。
21、当混合图可表示为树图时,基本层可以是该树图的树枝(或两个或更多个树枝),而每个扩展层可以是树图的另一个树枝(或另一组两个或更多个树枝)。例如,树图的(由基本层指示的)一个树枝可以指示对所有终端用户可用的可选声道和声道组,并且树图的(由扩展层指示的)另一树枝可以指示只对某些终端用户可用的附加可选声道和/或声道组(例如,这种扩展层可以仅提供给有权使用它的终端用户)。
22、典型地,基本层包含(指示)图结构和到图的节点的控制接口(例如,摇摄(panning),和增益控制接口)。对于把任何用户交互映射到解码/渲染过程,基本层是必要的。
23、每个扩展层包含(指示)对基本层的扩展。对于把用户交互映射到解码过程,扩展不是立即需要的并且因此可以以较慢的速率发送和/或延迟,或者省略。
24、根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道,以及指示混合图(可以是或者可以不是分层混合图)的元数据,其中混合图指示扬声器声道和对象声道的可选混合(例如,所有可选混合)。经编码的音频比特流(例如,杜比e或e-ac-3比特流)指示节目的至少一部分,并且指示混合图的元数据(并且典型地还有可选择的对象和/或扬声器声道)被包括在比特流的每一帧中(或者比特流的帧子集的每一帧中)。例如,每一帧可以包括至少一个元数据片段和至少一个音频数据片段,并且混合图可以被包括在每帧的至少一个元数据片段中。每个元数据片段(可以被称为“容器”)可以具有包括元数据片段头部(以及可选地还有其它元素)和跟在元数据片段头部之后的一个或更多个元数据有效载荷的格式。每个元数据有效负载本身由有效载荷头部识别。如果在元数据片段中存在混合图,则混合图被包括在元数据片段的元数据有效载荷之一中。
25、根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式被处理的)基于对象的音频节目包括至少两床扬声器声道、至少一个对象声道、以及指示混合图(可以是或者可以不是分层混合图)的元数据。混合图指示扬声器声道和对象声道的可选混合(例如,所有可选混合),并且包括至少一个“床混合”节点。每个“床混合”节点定义扬声器声道床的预定混合,并且因此指示或实现一组预定的混合规则(可选地具有用户可选的参数),以便混合节目的两个或更多个扬声器床的扬声器声道。
26、在另一类实施例中,根据本发明的一些实施例生成的(或者发送、存储、缓冲、解码、渲染或以其它方式处理的)基于对象的音频节目包括子流,并且子流指示至少一床扬声器声道、至少一个对象声道、以及对象相关元数据。对象相关元数据包括“子流”元数据(指示节目的子流结构和/或子流应该被解码的方式),并且典型地还有指示扬声器声道和对象声道的可选混合(例如,所有可选混合)的混合图。子流元数据可以指示:节目的哪些子流应该与节目的其它子流相独立地被解码,以及节目的哪些子流应该与节目的至少一个其它子流相关联地被解码。
27、在示例性实施例中,基于对象的音频节目包括至少一床扬声器声道、至少一个对象声道、以及元数据。元数据包括“子流”元数据(指示节目的音频内容的子流结构和/或节目的音频内容的子流应当该被解码的方式)以及典型地还有指示扬声器声道和对象声道的可选混合的混合图。音频节目与足球赛关联。经编码的音频比特流(例如,e-ac-3比特流)指示节目的音频内容和元数据。节目的(以及因此比特流的)音频内容包括至少两个独立的子流。一个独立的子流指示5.1扬声器声道床,该5.1扬声器声道床指示足球赛时的中立人群噪声。另一个独立的子流指示2.0声道“a队”床、2.0声道“b队”床和单声道对象声道,该2.0声道“a队”床指示来自偏向一支队(“a队”)的比赛人群部分的声音,该2.0声道“b队”床指示来自偏向另一支队(“b队”)的比赛人群部分的声音,该单声道对象声道指示对比赛的现场解说。比特流的子流元数据指示:在解码期间,应当在每对独立子流之间“关闭”耦合(使得每个独立子流与其它独立子流相独立被解码),并且比特流的子流元数据指示每个子流内的应当“打开”耦合(使得这些声道不彼此独立地被解码)或“关闭”耦合(使得这些声道彼此独立地被解码)。例如,子流元数据指示,在第二子流的两个立体声扬声器声道床(2.0声道“a队”床和2.0声道“b队”床)的每一个内部,应当“打开”耦合;但是跨越第二子流的扬声器声道床以及在第二子流的单声道对象声道与每个扬声器声道床之间被禁用(以使得单声道对象声道和扬声器声道床彼此独立地被解码)。类似地,子流元数据指示:在第一子流i0的5.1扬声器声道床内部,应当“打开”耦合。
28、本发明的另一个方面是被配置为执行本本发明的方法的任何实施例的音频处理单元(apu)。在另一类实施例中,本发明是apu,包括(例如,以非暂态方式)存储已经由本发明的方法的任何实施例生成的基于对象的音频节目的至少一个帧或其它片段(包括对象声道和一床扬声器声道的音频内容、以及对象相关元数据)的缓冲存储器(缓冲区)。apu的示例包括但不限于编码器(例如,转码器)、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、音频比特流处理系统、以及这些元素的组合。
29、本发明的各方面包括被配置为(例如,被编程为)执行本发明的方法的任何实施例的系统或设备,以及(例如,以非暂态方式)存储有用于实现本发明的方法或其步骤的任何实施例的代码的计算机可读介质(例如,盘)。例如,本发明的系统可以是或者包括可编程的通用处理器、数字信号处理器或微处理器,被用软件或固件编程和/或以其它方式被配置为对数据执行各种操作中的任何操作,包括本发明的方法或步骤的实施例。这种通用处理器可以是或者包括含有以下的计算机系统:输入设备、存储器和被编程为(和/或以其它方式被配置为)响应于对其断言的数据来执行本发明的方法(或其步骤)的实施例的处理电路。
1.一种解码音频节目的音频内容的方法,所述方法包括:
2.一种存储计算机程序的非暂态计算机可读介质,所述计算机程序当由处理器执行时控制装置执行如权利要求1所述的方法。
3.一种用于解码音频节目的音频内容的方法,所述系统包括: