音频处理方法和系统及相关非暂时性介质与流程

专利检索2026-02-04  1


本公开涉及用于渲染音频以供一组扬声器的一些或全部扬声器(例如,每一经激活扬声器)回放的系统及方法。


背景技术:

1、音频装置,包含但不限于智能音频装置,已被广泛部署且成为许多家庭的共同特征。尽管用于控制音频装置的现有系统及方法提供益处,但仍需要改进的系统及方法。

2、符号及命名法

3、贯穿本公开,包含在权利要求书中,“扬声器”及“扩音器”同义地用以表示由单个扬声器馈送驱动的任何发声换能器(或一组换能器)。一组典型耳机包含两个扬声器。

4、贯穿本公开,包含在权利要求书中,“对”信号或数据执行操作的表述(例如,对信号或数据进行滤波、缩放、变换或施加增益)在广义上用以表示直接对信号或数据,或对信号或数据的经处理版本(例如,在对信号执行操作之前已经历初步滤波或预处理的信号版本)执行操作。

5、贯穿本公开,包含在权利要求书中,表述“系统”在广义上用以表示装置、系统或子系统。例如,实施解码器的子系统可被称为解码器系统,且包含此子系统的系统(例如,响应于多个输入而产生x个输出信号的系统,其中子系统产生m个输入且其它x-m个输入是从外部源接收)也可被称为解码器系统。

6、贯穿本公开,包含在权利要求书中,术语“处理器”在广义上用以表示可编程或以其它方式可配置(例如,使用软件或固件)以对数据(例如,音频或视频或其它图像数据)执行操作的系统或装置。处理器的实例包含现场可编程门阵列(或其它可配置集成电路或芯片组)、经编程及/或以其它方式经配置以对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机及可编程微处理器芯片或芯片组。

7、贯穿本公开,包含在权利要求书中,术语“耦合”或“经耦合”用以意味直接或间接连接。因此,如果第一装置耦合到第二装置,那么那个连接可通过直接连接,或通过经由其它装置及连接的间接连接。

8、在本文中,我们使用表述“智能音频装置”以表示作为单一用途音频装置或虚拟助手(例如,连网虚拟助手)的智能装置。单一用途音频装置是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且很大程度上或主要经设计以实现单一用途的装置(例如,tv或移动电话)。尽管tv通常可播放(且被认为能够播放)来自节目素材的音频,但在大多数情况下,现代tv运行某个操作系统,应用程序在所述操作系统上本地运行,包含看电视的应用程序。类似地,移动电话中的音频输入及输出可能会做很多事情,但这些由所述电话上运行的应用程序服务。在这个意义上,具有(若干)扬声器及(若干)麦克风的单一用途音频装置通常经配置以运行本地应用程序及/或服务以直接使用(若干)扬声器及(若干)麦克风。一些单一用途音频装置可经配置以分组在一起以实现在一地带或用户配置区域上播放音频。

9、虚拟助手(例如,连网虚拟助手)是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且可为在某种意义上云启用或以其它方式未在虚拟助手自身中或上实施的应用程序提供利用多个装置(不同于虚拟助手)的能力的装置(例如,智能扬声器或语音助手集成装置)。虚拟助手有时可一起工作,例如,以离散且有条件定义的方式。例如,两个或更多个虚拟助手可在它们中的一者(例如最有信心听到唤醒词的虚拟助手)响应于所述词的意义上一起工作。连网装置可形成一种星座,所述星座可由可为(或实施)虚拟助手的一个主应用程序来管理。

10、在本文中,“唤醒词”在广义上用以表示任何声音(例如,由人类发出的词,或一些其它声音),其中智能音频装置经配置以响应于检测到(“听到”)声音(使用包含在智能音频装置中或耦合到智能音频装置的至少一个麦克风,或至少一个其它麦克风)而被唤醒。在这个背景下,“唤醒”表示装置进入其等待(即,正在侦听)声音命令的状态。在一些情况下,本文中可被称为“唤醒词”的内容可包含多于一个词,例如,短语。

11、在本文中,表述“唤醒词检测器”表示经配置以连续搜索实时声音(例如,话语)特征与经训练模型之间的对准的装置(或包含用于配置装置的指令的软件)。通常,每当唤醒词检测器确定已检测到唤醒词的概率超过预定义阈值时触发唤醒词事件。例如,所述阈值可为经调谐以在误接受与误拒绝之间提供良好折衷的预定阈值。在唤醒词事件后,装置可能进入一状态(其可被称为“唤醒”状态或“专注”状态),其中所述装置侦听命令且将经接收命令传递到更大、更强计算密集型的辨识器。


技术实现思路

1、一些实施例是用于渲染音频以供一组智能音频装置的智能音频装置中的至少一者(例如,全部或一些)回放,或以供一组扬声器的扬声器中的至少一者(例如,全部或一些)回放的方法。所述渲染可包含成本函数的最小化,其中所述成本函数包含至少一个动态(例如,动态可配置)扬声器激活项。包含具有激活惩罚的(若干)动态可配置项允许响应于众多预计控制而修改空间渲染。动态扬声器激活项的实例包含(但不限于):

2、●扬声器与一或多个听音者的接近度;

3、●扬声器与吸引或排斥力的接近度;

4、●所述扬声器相对于某个位置(例如,听音者位置或婴儿房)的可听度;

5、●所述扬声器的能力(频率响应及失真);

6、●所述扬声器相对于其它扬声器的同步;

7、●唤醒词性能;及/或

8、●回声消除器性能。

9、所述成本函数(包含至少一个动态扬声器激活项)的最小化可能导致所述扬声器中的至少一者的取消激活(在每一此扬声器不播放相关音频内容的意义上)及所述扬声器中的至少一者的激活(在每一此扬声器播放至少一些所述经渲染音频内容的意义上)。(若干)动态扬声器激活项可实现多种行为中的至少一者,包含使所述音频远离特定智能音频装置的空间呈现规整使得其麦克风可更好地听到谈话者或使得可从所述智能音频装置的(若干)扬声器更好地听到辅助音频流。

10、一些所公开实施方案包含经配置(例如,经编程)以执行所公开方法或其步骤的任何实施例的系统,及实施数据的非暂时性存储、存储用于执行所公开方法或其步骤的任何实施例的代码(例如,可实行以供执行的代码)的有形非暂时性计算机可读媒体(例如,磁盘或其它有形存储媒体)。例如,所公开系统的实施例可为或包含使用软件或固件编程及/或以其它方式经配置以对数据执行多种操作中的任一者,包含所公开方法或其步骤的实施例的可编程通用处理器、数字信号处理器或微处理器。此通用处理器可为或包含计算机系统,所述计算机系统包含输入装置、存储器及处理子系统,经编程(及/或以其它方式经配置)以响应于对其断言的数据而执行所公开方法(或其步骤)的实施例。

11、本公开的至少一些方面可经由例如音频处理方法的方法来实施。在一些情况下,所述方法可至少部分地由例如本文中所公开的那些控制系统的控制系统来实施。一些此类方法涉及由控制系统且经由接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。

12、一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。

13、根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。

14、一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声器再现所述经渲染音频信号。

15、根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。

16、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。

17、根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。

18、根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。

19、在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。

20、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。

21、本文中所描述的操作、函数及/或方法的一些或全部可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如,软件)来执行。此非暂时性媒体可包含例如本文中所描述的那些存储器装置的一或多个存储器装置,包含但不限于一或多个随机存取存储器(ram)装置、只读存储器(rom)装置等。因此,本公开中所描述的主题的一些创新方面可在其上存储有软件的一或多个非暂时性媒体中实施。

22、例如,所述软件可包含用于控制一或多个装置以执行一种方法的指令,所述方法涉及由控制系统且经由接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。

23、一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。

24、根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。

25、一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声器再现所述经渲染音频信号。

26、根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。

27、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。

28、根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。

29、根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。

30、在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。

31、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。

32、本公开的至少一些方面可经由设备来实施。例如,一或多个装置可能够至少部分地执行本文中所公开的方法。在一些实施方案中,一种设备可包含接口系统及控制系统。所述控制系统可包含一或多个通用单或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其组合。

33、在一些实施方案中,所述控制系统可经配置以执行一或多种所公开方法。一些此类方法可涉及由所述控制系统且经由所述接口系统接收音频数据。在一些实例中,所述音频数据包含一或多个音频信号及相关联空间数据。根据一些实例,所述空间数据指示对应于音频信号的预期感知空间位置。

34、一些此类方法涉及由所述控制系统渲染所述音频数据以经由环境的一组扬声器再现,以产生经渲染音频信号。在一些实例中,渲染包含在所述音频数据中的所述一或多个音频信号中的每一者涉及通过优化作为以下项的函数的成本来确定环境中的一组扬声器的相对激活:当在所述环境中的所述一组扬声器上回放时播放的所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。

35、根据一些实例,所述一或多个额外动态可配置函数基于以下项中的一或多者:扬声器与一或多个听音者的接近度;扬声器与吸引力位置的接近度,其中吸引力是有利于更紧密接近所述吸引力位置的扬声器的相对较高激活的因子;扬声器与排斥力位置的接近度,其中排斥力是有利于更紧密接近所述排斥力位置的扬声器的相对较低激活的因子;所述环境中每一扬声器相对于其它扬声器的能力;所述扬声器相对于其它扬声器的同步;唤醒词性能;及/或回声消除器性能。

36、一些此类方法涉及经由所述接口系统将所述经渲染音频信号提供到所述环境的所述一组扬声器的至少一些扬声器。一些此类方法涉及由所述一组扬声器的至少一些扬声器再现所述经渲染音频信号。

37、根据一些实施方案,所述感知空间位置模型可在听音者的左耳及右耳处产生对应于音频对象位置的双耳响应。在一些实例中,所述感知空间位置模型可将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联激活增益加权的所述一组扬声器的位置的质心处。在一些此类实例中,所述感知空间位置模型还可在听音者的所述左耳及右耳处产生对应于音频对象位置的双耳响应。

38、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的电平。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于所述一或多个音频信号的频谱。

39、根据一些实施方案,所述一或多个额外动态可配置函数可至少部分地基于所述扬声器中的每一者在所述环境中的位置。在一些情况下,每一扬声器的所述能力可包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。

40、根据一些实例,所述一或多个额外动态可配置函数可至少部分地基于一或多个人在所述环境中的一或若干位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。

41、在一些实例中,所述一或多个额外动态可配置函数可至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。在一些此类实例中,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述对象位置的声学传输的测量或估计。

42、在一些情况下,所述一或多个额外动态可配置函数可至少部分地基于从每一扬声器到所述环境的一或多个地标、区域或地带的声学传输的估计。根据一些实例,所述预期感知空间位置可对应于基于信道的音频格式的信道或位置元数据中的至少一者。

43、本说明书中所描述的主题的一或多个实施方案的细节在附图及以下描述中进行阐述。其它特征、方面及优点将从所述描述、所述附图及权利要求书变得显而易见。应注意,以下图的相对尺寸可能未按比例绘制。


技术特征:

1.一种音频处理方法,其包括:

2.根据权利要求1所述的音频处理方法,其中所述感知空间位置模型在听音者的左耳及右耳处产生对应于所述音频信号的感知空间位置双耳响应。

3.根据权利要求1所述的音频处理方法,其中所述感知空间位置模型将从一组扬声器播放的音频信号的所述感知空间位置放置在由所述扬声器的相关联相对增益加权的所述一组扬声器的位置的质心处。

4.根据权利要求3所述的音频处理方法,其中所述感知空间位置模型还在听音者的左耳及右耳处产生对应于所述音频信号的感知空间位置的双耳响应。

5.根据权利要求1至4中任一权利要求所述的音频处理方法,其中所述一或多个额外动态可配置函数至少部分地基于所述扬声器中的每一者在所述环境中的位置。

6.根据权利要求1至4中任一权利要求所述的音频处理方法,其中每一扬声器的所述能力包含频率响应、回放电平极限或一或多种扬声器动态处理算法的参数中的一或多者。

7.根据权利要求1至4中任一权利要求所述的音频处理方法,其中所述一或多个额外动态可配置函数至少部分地基于从每一扬声器到所述其它扬声器的声学传输的测量或估计。

8.根据权利要求1至4中任一权利要求所述的音频处理方法,其中所述一或多个额外动态可配置函数至少部分地基于一或多个人在所述环境中的一或若干位置。

9.根据权利要求8所述的音频处理方法,其中所述一或多个额外动态可配置函数至少部分地基于从每一扬声器到所述一或多个人的所述一或若干位置的声学传输的测量或估计。

10.根据权利要求1至4中任一权利要求所述的音频处理方法,其中所述一或多个额外动态可配置函数至少部分地基于一或多个非扬声器对象在所述环境中的对象位置。


技术总结
本公开涉及音频处理方法和系统及相关非暂时性介质。公开用于渲染音频以供两个或更多个扬声器回放的方法。所述音频包含一或多个音频信号,每一音频信号具有相关联的预期感知空间位置。所述扬声器的相对激活可为以下项的成本函数:当在所述扬声器上回放时所述音频信号的感知空间位置模型;所述音频信号的所述预期感知空间位置与所述扬声器的位置的接近度的量度;及一或多个额外动态可配置函数。所述动态可配置函数可基于所述音频信号的至少一或多个性质、一组扬声器的一或多个性质及/或一或多个外部输入。

技术研发人员:A·J·泽费尔特,J·B·兰多,D·阿特亚加
受保护的技术使用者:杜比实验室特许公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1160691.html

最新回复(0)