Procedimiento de síntesis binaural teniendo en cuenta un efecto de sala.

Procedimiento de espacialización en 3D de canales de audio, a partir de al menos un filtro BRIR que incorpore unefecto de sala,

caracterizado porque consiste al menos, para un número de muestras específico que corresponde altamaño de la respuesta de impulsos del filtro BRIR, en:

- descomponer (A) este filtro BRIR en al menos un conjunto de valores de retardo de amplitud asociados a losinstantes de llegada de las reflexiones;

- extraer (B) sobre dicho número de muestras al menos un módulo espectral medio del filtro BRIR;

- constituir (C), a partir de cada retardo sucesivo, de su amplitud y de su módulo espectral medio asociados, un filtroBRIR elemental directamente aplicado a dichos canales de audio en el dominio temporal, frecuencial otransformado.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2007/050895.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6, PLACE D''ALLERAY 75015 PARIS FRANCIA.

Inventor/es: GUERIN,ALEXANDRE, PALLONE,GREGORY, FAURE,JULIEN, NICOL,ROZENN.

Fecha de Publicación: 11 de Julio de 2012.

Clasificación Internacional de Patentes:

H04S1/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas con dos canales (H04S 5/00, H04S 7/00 tienen prioridad).

PDF original: ES-2390831_T3.pdf

Fragmento de la descripción:

Procedimiento de síntesis binaural teniendo en cuenta un efecto de sala

La invención se refiere a la espacialización sonora, denominada representación en 3D, de la señal de audio, integrando en particular un efecto de sala, particularmente en el dominio de las técnicas binaurales.

De ese modo, el término “binaural” pretende la restitución sobre unos cascos estereofónicos, o un par de auriculares, de una señal sonora con sin embargo unos efectos de espacialización. La invención no se limita en todo caso a la técnica antes citada y se aplica, particularmente, a unas técnicas derivadas de la “binaural” tales como las técnicas de restitución “transaural”, es decir sobre unos altavoces distantes. TRANSAURAL® es una marca comercial registrada por la sociedad COOPER BAUCK CORPORATION.

Una aplicación específica de la invención es, por ejemplo, el enriquecimiento de los contenidos de audio aplicando de manera eficaz unas funciones de transferencia acústica de la cabeza de un oyente a unas señales monofónicas, con el fin de sumergir a este último en una escena sonora en 3D, incluyendo en particular un efecto de sala.

Para la implementación de las técnicas “binaurales” sobre cascos o altavoces, se define la función de transferencia,

o filtro, de una señal sonora entre una posición de una fuente sonora en el espacio y los dos oídos de un oyente. La función de transferencia acústica de la cabeza antes citada se designa como HRTF de “Head Related Transfer Function” en inglés en su forma frecuencial y HRIR de “Head Related Impulse Response” en inglés en su forma temporal. Para una dirección del espacio, se obtienen al final dos HRTF: una para el oído derecho y una para el oído izquierdo.

En particular, la técnica binaural consiste en aplicar dichas funciones de transferencia acústica de la cabeza a unas señales de audio monofónicas, con el fin de obtener una señal estereofónica que permita, durante una escucha en un casco, evitar la sensación de que las fuentes sonoras provienen de una dirección particular del espacio. La señal del oído derecho se obtiene filtrando la señal monofónica con la HRTF del oído derecho y la señal del oído izquierdo se obtiene filtrando igualmente la señal monofónica con la HRTF del oído izquierdo.

La patente de EE.UU. nº 5.438.623 describe un ejemplo de procedimiento de espacialización en 3D de canales de audio en los que tales funciones HRTF sintéticas se deducen a partir de datos experimentales y/o de un modelo de una cabeza esférica.

Los parámetros físicos esenciales que permiten caracterizar estas funciones de transferencia son:

- La ITD de “Interaural Time Difference” en inglés, definida como la diferencia interaural de tiempo de llegada de las ondas sonoras de una misma fuente sonora entre el oído izquierdo y el oído derecho del oyente. La ITD está ligada principalmente a la fase de las HRTF.

- El módulo espectral, que permite particularmente percibir unas diferencias de nivel entre el oído izquierdo y el oído derecho en función de la frecuencia.

- Cuando las HRTF, o las HRIR, de la cabeza del oyente no se consideran como correspondientes a unas condiciones de propagación sonora en campo libre (condición anecoica) , las funciones de transferencia antes citadas pueden tener en cuenta unos fenómenos de reflexión, difusión, difracción, que corresponden a la respuesta acústica de la sala en la que estas funciones de transferencia se han medido o simulado. Las funciones de transferencia antes citadas se denominan entonces BRIR de “Binaural Room Impulse Response” en inglés en su forma temporal.

Las técnicas binaurales antes citadas pueden ser por ejemplo empleadas para simular una representación en 3D del tipo 5.1 en el casco de audición. En esta técnica, a cada posición del altavoz del sistema “surround” en inglés, o de múltiples altavoces, le corresponden un par de HRTF, una HRTF para el oído izquierdo y una HRTF para el oído derecho. La suma de los 5 canales de la señal del modo 5.1 convolucionados por los 5 filtros HRTF para cada oído de un oyente permiten obtener dos canales binaurales derecho e izquierdo, los cuales simulan el modo 5.1 para una escucha sobre un los cascos de audición de audio.

Se habla en esta situación de “binaural virtual surround” en inglés para la espacialización binaural que simula un sistema de altavoces múltiples.

Cuando, en la representación en 3D, se tiene en cuenta el hecho, para el oyente, de percibir las fuentes sonoras más o menos alejadas de la cabeza, fenómeno conocido bajo el nombre de externalización, y éstas de manera independiente de la dirección de procedencia de las fuentes sonoras, sucede frecuentemente, en una representación en 3D binaural, que las fuentes sean percibidas en el interior de la cabeza por el oyente. La fuente así percibida se denomina no externalizada.

Diferentes trabajos han mostrado que la adición de un efecto de sala en los métodos de representación en 3D binaurales permite incrementar considerablemente la externalización de las fuentes sonoras. Considérese, particularmente, D. R. Begault y E. M. Wenzel, “Direct comparison of the impact of head tracking, reverberation, and individualized head-related transfer functions on the spatial perception of a virtual speech source”. J. Audio Eng. Soc., vol. 49, nº 10, 2001.

Actualmente, existen dos métodos principales, que permiten integrar el efecto de sala en las HRIR.

- El primero, relativo al efecto de sala real, consiste en medir unas HRIR en una sala no anecoica, que incluya por lo tanto un efecto de sala. Las HRIR obtenidas, que no son otras que las BRIR, deben tener una duración suficientemente larga para integrar las primeras reflexiones sonoras, una duración superior a 500 muestras temporales para una frecuencia de muestreo de 44.100 Hz, pero esta duración debe ser incluso más importante, es decir superior a 20.000 muestras temporales a la misma frecuencia de muestreo, si se desea integrar el efecto de reverberación tardía. Se observa en cualquier caso que las BRIR antes mencionadas se pueden obtener de manera equivalente mediante la convolución de las HRIR medidas en un entorno anecoico con el efecto de sala deseado, representado por la respuesta impulsional de la sala.

- El segundo, relativo al efecto de sala artificial, es el resultante de la acústica virtual y consiste en integrar el efecto de sala en la HRIR, de manera sintética. Esta operación se realiza gracias a unos espacializadores que introducen unos efectos de reverberación artificial. El inconveniente de tales métodos es que la obtención de una representación realista necesita una potencia de cálculo importante.

En lo que concierne a la espacialización sonora “binaural” un método actual consiste en modelizar los filtros binarios, descomponiendo las HRTF, o las HRIR, en una componente de fase mínima (filtro de fase mínima determinado por el módulo espectral de la HRTF) y un retardo puro. Para una descripción más detallada de un método de ese tipo, podrá referirse de modo útil a los artículos de D. J. Kistler y F. L. Wightman, “A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction” J. Acoustic Soc. Am. 91 (3) págs. 1637-1647, 1992 y de Kulkarni A. et ál. “On the minimum-phase approximation of head-related functions” 1995 IEEE ASSP Workshop on Applications of Signal Processing Audio and Acoustics (IEEE catalog number: 95TH8144) .

La diferencia de retardo observada entre las HRTF o las HRIR del oído izquierdo y del oído derecho corresponde entonces al índice de localización IRD. Existen diferentes métodos para extraer los retardos de las HRIR o HRTF. Los principales métodos se describen por S. Busson “Individualisation d'indices acoustiques pour la synthèse binaurale” Thèse de doctorat de l'Université de la Méditerranée Aix-Marseille II, 2006.

El módulo espectral se obtiene tomando el módulo de la transformada de Fourier de las HRIR. El número de coeficientes se puede reducir entonces, por ejemplo promediando la energía sobre un número reducido de bandas de frecuencias, por ejemplo de acuerdo con unas técnicas de alisado frecuencial basadas en las propiedades... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de espacialización en 3D de canales de audio, a partir de al menos un filtro BRIR que incorpore un efecto de sala, caracterizado porque consiste al menos, para un número de muestras específico que corresponde al tamaño de la respuesta de impulsos del filtro BRIR, en:

- descomponer (A) este filtro BRIR en al menos un conjunto de valores de retardo de amplitud asociados a los instantes de llegada de las reflexiones;

- extraer (B) sobre dicho número de muestras al menos un módulo espectral medio del filtro BRIR;

- constituir (C) , a partir de cada retardo sucesivo, de su amplitud y de su módulo espectral medio asociados, un filtro BRIR elemental directamente aplicado a dichos canales de audio en el dominio temporal, frecuencial o transformado.

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque los valores de retardo y de amplitud asociados a unos picos de amplitud corresponden a los instantes de llegada de las reflexiones.

3. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque dicha descomposición del filtro BRIR se ejecuta por un proceso de detección de los retardos mediante la detección de los picos de amplitud, estando asociado el primer pico de amplitud al retardo correspondiente al instante de llegada de la onda sonora directa.

4. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, caracterizado porque la extracción de cada módulo espectral se ejecuta mediante una transformación tiempo-frecuencia.

5. Procedimiento de acuerdo con una de las reivindicaciones 1 a 4, caracterizado porque la extracción de los retardos consiste al menos, para cualquier filtro BRIR correspondiente a la posición del espacio, a partir de la envolvente temporal del filtro establecida sobre dicho número de muestras correspondientes al tamaño de la respuesta de impulsos del filtro BRIR, en:

- identificar (A0) los índices del intervalo de muestras temporales cuyo valor de amplitud es superior a un valor de umbral, para engendrar un primer vector y un primer vector desfasado representativos de la posición de los picos de amplitud en dicho número de muestras;

- determinar (A1) la existencia de picos de amplitud aislados mediante el cálculo de un vector de desviación entre el primer vector desfasado y el primer vector;

- calcular (A2) un segundo vector que reagrupa los índices de los picos de amplitud aislados sobre dicho número de muestras;

- discriminar (A3) a partir de las muestras de dicho segundo vector los índices sucesivos de muestras de amplitud máxima entre un número determinado de muestras sucesivas, estando memorizados el índice y la amplitud de dichas muestras de amplitud máxima en la forma de un vector de índice de retardo y de amplitud.

6. Procedimiento de acuerdo con una de las reivindicaciones 1 a 5, caracterizado porque, para un número de muestras correspondiente a la respuesta de impulsos del filtro BRIR descompuesto en sub-bandas de frecuencias de intervalo k determinado, dicho valor del módulo espectral del filtro BRIR se define como un valor real de ganancia representativo de la energía del filtro BRIR en cada sub-banda.

7. Procedimiento de acuerdo con la reivindicación 6, caracterizado porque el valor del módulo espectral del filtro BRIR en cada sub-banda se calcula mediante la aplicación de una ventana de ponderación centrada en la frecuencia central de la sub-banda de frecuencias de intervalo k y de longitud igual o superior a la longitud de la subbanda de frecuencias.

8. Procedimiento de acuerdo con una de las reivindicaciones 6 ó 7, caracterizado porque, a cada retardo se asocia un módulo espectral y porque dicho módulo espectral se define en cada sub-banda como un valor real de ganancia representativo de la energía del filtro BRIR parcial en dicha sub-banda, siendo este valor de ganancia función del retardo asociado.

9. Procedimiento de acuerdo con una de las reivindicaciones 6 a 8, caracterizado porque cada filtro BRIR elemental en cada sub-banda de frecuencias de intervalo k está formado por:

- una multiplicación compleja, función o no del retardo aplicado en función del índice de cada muestra de pico de amplitud que incluye el valor real de ganancia;

- un retardo puro, incrementado en la desviación del retardo con respecto al retardo asignado a la primera muestra que corresponde al instante de llegada de la onda sonora directa.

10. Procedimiento de acuerdo con una de las reivindicaciones 1 a 9, caracterizado porque, para el tratamiento de la

reverberación tardía, éste consiste en volver a añadir a los valores típicos de amplitud detectados una pluralidad de valores de amplitud es arbitrarias, repartidas, desde un instante arbitrario, hasta una última muestra de los números de muestras que corresponden al tamaño de la respuesta de impulsos del filtro BRIR.

11. Programa de ordenador que incluye un conjunto de instrucciones memorizadas sobre un soporte de

almacenamiento de un ordenador o de un dispositivo dedicado de espacialización sonora en 3D de señales de audio, caracterizado porque, durante su ejecución, dicho programa ejecuta el procedimiento de espacialización sonora en 3D a partir de al menos un filtro BRIR que incluye un efecto de sala, de acuerdo con una de las reivindicaciones 1 a 10.

Patentes similares o relacionadas:

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Espacialización sonora con efecto de sala, del 11 de Septiembre de 2019, de Orange: Procedimiento de espacialización sonora en el que se aplica al menos un filtrado en al menos dos señales de entrada (I , I , ..., I(L)) para suministrar al […]

Emisor paramétrico transparente, del 15 de Abril de 2019, de Turtle Beach Corporation: Un altavoz de audio ultrasónico transparente, que comprende: una primera capa conductora transparente ; una segunda capa conductora transparente ; y una […]

Método, aparato y terminal de grabación, del 19 de Marzo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un aparato de grabación que incluye un procesador , una memoria , una interfaz de comunicaciones , un bus , un sensor de gravedad , una […]

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

DISPOSITIVO DE CAPTURA BINAURAL DE SONIDO, del 9 de Noviembre de 2017, de UNIVERSIDAD DE MEDELLIN: La presente invención corresponde a un dispositivo de captura binaural de sonido que comprende un módulo superior, un primer oído externo y un segundo […]

Auriculares de juego con rutas de audio programables, del 4 de Octubre de 2017, de Voyetra Turtle Beach, Inc: Un sistema de auriculares que proporciona señales de audio a un usuario, que comprende: un procesador de señales que tiene secciones […]

DISPOSITIVO CONVERSOR DE IMAGEN VISUAL A SU CORRESPONDIENTE IMAGEN SONORA, del 21 de Septiembre de 2017, de ESPINA, Enrique, Walter: Dispositivo Conversor de imagen Visual a imagen Sonora que comprende un sistema electrónico encargado de transformar la señal de video de entrada, […]