Método y dispositivo para decodificar una representación de un campo acústico de audio para reproducción de audio.

Un método de acuerdo con una representación de un campo acústico de audio para reproducción de audio,

que comprende los pasos de:

- calcular (110) para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- calcular (120) una matriz de modos (XN) a partir de las direcciones de la fuente;

- calcular (130) una matriz de modos seudoinversa (X+) de la matriz de modos (X); y

- decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos seudoinversa (X+).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/054644.

Solicitante: THOMSON LICENSING.

Nacionalidad solicitante: Francia.

Dirección: 1 rue Jeanne d'Arc 92443 Issy-les-Moulineaux FRANCIA.

Inventor/es: BOEHM,Johannes, BATKE,JOHANN-MARKUS, KEILER,FLORIAN.

Fecha de Publicación: 7 de Mayo de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
H04S3/02 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › H04S 3/00 Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad). › del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras.

PDF original: ES-2472456_T3.pdf

Fragmento de la descripción:

Método y dispositivo para decodificar una representación de un campo acústico de audio para reproducción de audio Campo de la invención Esta invención se refiere a un método y un dispositivo para decodificar una representación de un campo acústico de audio, y en particular una representación de audio formateada Ambisonics, para una reproducción de sonido.

Antecedentes Esta sección tiene como objeto introducir al lector en los diversos aspectos de la técnica, que pueden estar relacionados con diversos aspectos de la presente invención que se describen y/o reivindican más adelante. Se cree que la discusión es útil para proveer al lector de una información sobre los antecedentes para facilitar una mejor comprensión de los diversos aspectos de la presente invención. Por consiguiente, se debería comprender que estas exposiciones han de ser leídas en este sentido, y no como supuestos de la técnica anterior, a menos que una fuente sea mencionada expresamente.

La localización exacta es un objetivo clave para cualquier sistema de reproducción de sonido. Tales sistemas de reproducción son altamente aplicables a sistemas de conferencias, juegos, u otros entornos virtuales que se benefician del sonido en 3D. Las escenas de sonido en 3D pueden ser sintetizadas o captadas como un campo acústico natural. Las señales del campo acústico tales como por ejemplo Ambisonics llevan una representación de un campo acústico deseado. El formato Ambisonics se basa en la descomposición armónica esférica del campo acústico. En tanto que el formato Ambisonics básico o formato-B utiliza armónicos esféricos de orden cero y uno, el denominado Ambisonics de Orden Superior (HOA) también utiliza armónicos esféricos adicionales de al menos 2º orden. Se requiere un proceso de decodificación para obtener las señales de altavoz individuales. Para sintetizar escenas de audio, se requieren funciones de encuadre que se refieren a la configuración espacial de los altavoces para obtener una localización espacial de la fuente de sonido dada. Si se tuviera que grabar un campo acústico natural se requiere un conjunto de micrófonos para captar la información espacial. El conocido enfoque Ambisonics es una herramienta muy apropiada para llevarlo a cabo. Las señales formateadas Ambisonics llevan una representación del campo acústico deseado. Se requiere un proceso de decodificación para obtener las señales de altavoz individuales a partir de las señales formateadas Ambisonics. Como también en este caso las funciones de encuadre pueden ser obtenidas a partir de las funciones de decodificación, las funciones de encuadre son el tema clave para describir la tarea de la localización espacial. La configuración espacial de los altavoces se denomina aquí disposición de altavoces.

Las disposiciones de altavoces comúnmente utilizadas son la disposición estereofónica, la cual emplea dos altavoces, la disposición envolvente normal que usa cinco altavoces, y las ampliaciones de la disposición envolvente que usa más de cinco altavoces. Estas disposiciones son bien conocidas. No obstante, están limitadas a dos dimensiones (2D) , por ejemplo no se reproduce información sobre la altura.

Las disposiciones de altavoces para reproducción tridimensional (3D) están descritas por ejemplo en “Ã?rea de escucha amplia con una calidad de sonido espacial excepcional de un sistema multicanal de sonido 22, 2”, K. Hamasaki, T. Nishiguchi, R. Okumaura, e Y. Nakayama en Audio Engineering Society Preprints, Viena, Austria, Mayo 2007, que es una propuesta de la TV de ultra alta definición NHK con formato 22.2, o la disposición 2+2+2 de Dabringhaus (mdg – musikproduktion dabringhaus und Grimm, www.mdg.de) y una disposición 10.2 en “Sound for Film and Television”, T. Holman en 2ª edición, Boston: Focal Press, 2002. Uno de los pocos sistemas conocidos que se refiere a la reproducción espacial y a las estrategias de encuadre es el enfoque de encuadre de amplitud de base vectorial (VBAP) en “Ubicación virtual de la fuente acústica que usa el encuadre de amplitud de base vectorial”, Journal of Audio Engineering Society, volumen 45, nº 6, pp. 456-466, Junio 1997, aquí Pulkki. El VBAP (Encuadre de Amplitud de Base Vectorial (VBAP) ha sido usado por Pulkki para reproducir fuentes acústicas virtuales con una disposición de altavoces arbitraria. Para colocar una fuente virtual en un plano en 2D se requiere un par de altavoces, en tanto que en el caso de 3D se requieren tríos de altavoces. Para cada fuente virtual se suministra una señal monofónica con ganancias diferentes (dependientes de la posición de la fuente virtual) a los altavoces seleccionados desde la disposición total. A continuación se suman las señales de altavoz de todas las fuentes virtuales. El VBAP aplica un método geométrico para calcular las ganancias de las señales de los altavoces para el encuadre entre los altavoces.

Una disposición de altavoces en 3D a modo de ejemplo considerada y aquí recientemente propuesta tiene 16 altavoces, los cuales están colocados como se muestra en la Figura 2. La colocación se eligió debido a consideraciones prácticas, que tienen cuatro columnas con tres altavoces cada una y unos altavoces adicionales entre estas columnas. Con más detalle, ocho de los altavoces, que abarcan unos ángulos de 45 grados, están igualmente distribuidos en un círculo alrededor de la cabeza de la persona que escucha. Cuatro altavoces adicionales, que abarcan unos ángulos de 90 grados, están situados en la parte de arriba y en el fondo. Con respecto a Ambisonics, esta disposición es irregular y da lugar a problemas en el diseño del decodificador, como se ha mencionado en “Un formato ambisonics para distribuciones flexibles de la reproducción”, por H. Pomberger y F. Zotter en Proceedings of the 1st Ambisonics Symposium, Graz, Austria, Julio 2009.

La decodificación Ambisonics convencional, como está descrita en el documento EP 2.094.032 y en “Sistemas acústicos envolventes tridimensionales basados en armónicos esféricos” por M. Poletti en J. Audio Eng. Soc., volumen 53, nº 11, pp 1.004-1.025, Noviembre 2005, emplea el comúnmente conocido proceso de adaptación de modos. Los modos son descritos por vectores de modos que contienen valores de los armónicos esféricos para una dirección de incidencia distinta. La combinación de todas las direcciones dadas por los altavoces individuales lleva a la matriz de modos de la disposición de altavoces, de modo que la matriz de modos representa las posiciones de los altavoces. Para reproducir el modo de una señal de fuente distinta se ponderan los modos de los altavoces de tal forma que los modos superpuestos de los altavoces individuales alcancen el modo deseado. Para obtener las ponderaciones necesarias es preciso calcular una representación de la matriz inversa de la matriz de modos de los altavoces. Desde el punto de vista de la decodificación de la señal las ponderaciones forman la señal piloto de los altavoces, y la matriz de modos inversa de los altavoces, a la que se hace referencia como “matriz de decodificación”, la cual se aplica para decodificar una representación de la señal formateada Ambisonics. En particular, para muchas disposiciones de altavoces, por ejemplo la disposición mostrada en la Figura 2, es difícil de obtener la inversa de la matriz de modos.

Como se ha mencionado antes, las disposiciones comúnmente usadas están limitadas a 2D, es decir no se reproduce información sobre la altura. La decodificación de una representación de campo acústico en una disposición de altavoces con una distribución espacial matemáticamente no regular lleva a problemas de localización y coloración con las técnicas comúnmente conocidas. Para decodificar una señal Ambisonics se usa una matriz de decodificación (es decir, una matriz de coeficientes de decodificación) . En la decodificación convencional de las señales Ambisonics, y particularmente de las señales HOA, se presentan por lo menos dos problemas. Primero, para la correcta decodificación es necesario conocer las direcciones de la fuente de la señal para obtener la matriz de decodificación. Segundo, el establecimiento de una correspondencia con una disposición de altavoces existente es sistemáticamente erróneo debido al siguiente problema matemático: una decodificación matemáticamente correcta dará lugar a no sólo una positiva, sino a también algunas amplitudes negativas de los altavoces. No obstante, éstas son reproducidas erróneamente como señales positivas, lo que da lugar a los problemas antes mencionados.

Compendio de la invención La presente invención describe un método para decodificar una representación de un campo acústico para distribuciones... [Seguir leyendo]

Reivindicaciones:

1. Un método de acuerdo con una representación de un campo acústico de audio para reproducción de audio, que comprende los pasos de:

- calcular (110) para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- calcular (120) una matriz de modos (ΞN) a partir de las direcciones de la fuente;

- calcular (130) una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

- decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos seudoinversa (Ξ+) .

2. Método de acuerdo con la reivindicación 1, en donde el método geométrico usado en el paso de cálculo de una función de encuadre es el Encuadre de Amplitud de la Base Vectorial (VBAP) .

3. Método de acuerdo con la reivindicación 1 ó 2, en donde la representación de un campo acústico de audio es un formato Ambisonics de al menos 2º orden.

4. Método de acuerdo con cualquiera de las reivindicaciones 1-3, en donde la matriz de modos seudoinversa (Ξ+) se obtiene de acuerdo con ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.

5. Método de acuerdo con la reivindicación 4, en donde la matriz de decodificación (DN) se obtiene (135) de acuerdo con D = W ΞH [ΞΞH]-1 = WΞ+, en donde W es el conjunto de funciones de encuadre para cada altavoz.

6. Un dispositivo para decodificar una representación de reproducción de audio, que comprende:

- unos primeros medios de cálculo (210) para calcular para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- unos segundos medios de cálculo (220) para calcular una matriz de modos (Ξ) a partir de las direcciones de la fuente;

- unos terceros medios de cálculo (230) para calcular una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

- unos medios (240) de decodificador para decodificar la representación de un campo acústico, en donde la decodificación está basada en una matriz de decodificación (D) y los medios de decodificador usan al menos la función de encuadre (W) y la matriz de modos seudoinversa (Ξ+) para obtener la matriz de decodificación (D) .

7. Dispositivo de acuerdo con la reivindicación 6, en donde el dispositivo para decodificación comprende además unos medios (235) para calcular la matriz de decodificación (D) a partir de la función de encuadre (W) y de la matriz de modos seudoinversa (Ξ+) .

8. Dispositivo de acuerdo con la reivindicación 6 ó 7, en donde el método geométrico usado en el paso de cálculo de una función de encuadre es el Encuadre de Amplitud de la Base Vectorial (VBAP) .

9. Dispositivo de acuerdo con cualquiera de las reivindicaciones 6-8, en donde la representación de un campo acústico es un formato Ambisonics de al menos 2º orden.

10. Dispositivo de acuerdo con cualquiera de las reivindicaciones 6-9, en donde la matriz de modos seudoinversa Ξ+ se obtiene de acuerdo con Ξ+ = ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.

11. Método de acuerdo con la reivindicación 10, en donde la matriz de decodificación (DN) se obtiene en un medio (245) para calcular una matriz de decodificación, de acuerdo con D = W ΞH [ΞΞH]-1 = WΞ+, en donde W esel conjunto de funciones de encuadre para cada altavoz.

12. Medio que puede ser leído por un ordenador que tiene almacenado en él unas instrucciones ejecutables para hacer que un ordenador ejecute un método para decodificar una representación de un sonido acústico para reproducción de audio, en donde el método comprende los pasos de

-calcular (120) una matriz de modos (Ξ) a partir de las direcciones de la fuente;

-calcular (130) una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

-decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en

una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos 5 seudoinversa (Ξ+) .

13. Un medio que puede ser leído por un ordenador, de acuerdo con la reivindicación 12, en donde el método geométrico usado en el paso de calcular una función de encuadre es un Encuadre de Amplitud de Base Vectorial (VBAP) .

14. Un medio que puede ser leído por un ordenador, de acuerdo con la reivindicación 12 ó 13, en donde la 10 representación de un campo acústico es un formato Ambisonics de al menos 2º orden.

15. Un medio que puede ser leído por un ordenador, de acuerdo con cualquiera de las reivindicaciones 12-14, en donde la matriz de modos seudoinversa Ξ+ se obtiene de acuerdo con Ξ+ = ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]