Método y dispositivo para decodificar una representación de un campo acústico de audio para reproducción de audio.

Un método de acuerdo con una representación de un campo acústico de audio para reproducción de audio, que comprende los pasos de:

- calcular

(110) para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- calcular (120) una matriz de modos (XN) a partir de las direcciones de la fuente;

- calcular (130) una matriz de modos seudoinversa (X+) de la matriz de modos (X); y

- decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos seudoinversa (X+).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/054644.

Solicitante: THOMSON LICENSING.

Nacionalidad solicitante: Francia.

Dirección: 1 rue Jeanne d'Arc 92443 Issy-les-Moulineaux FRANCIA.

Inventor/es: .

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > Sistemas que utilizan más de dos canales, p. ej.... > H04S3/02 (del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/008 (Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p.ej. estéreo conjunto, codificación de la intensidad o matrizado)

PDF original: ES-2472456_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Método y dispositivo para decodificar una representación de un campo acústico de audio para reproducción de audio Campo de la invención Esta invención se refiere a un método y un dispositivo para decodificar una representación de un campo acústico de audio, y en particular una representación de audio formateada Ambisonics, para una reproducción de sonido.

Antecedentes Esta sección tiene como objeto introducir al lector en los diversos aspectos de la técnica, que pueden estar relacionados con diversos aspectos de la presente invención que se describen y/o reivindican más adelante. Se cree que la discusión es útil para proveer al lector de una información sobre los antecedentes para facilitar una mejor comprensión de los diversos aspectos de la presente invención. Por consiguiente, se debería comprender que estas exposiciones han de ser leídas en este sentido, y no como supuestos de la técnica anterior, a menos que una fuente sea mencionada expresamente.

La localización exacta es un objetivo clave para cualquier sistema de reproducción de sonido. Tales sistemas de reproducción son altamente aplicables a sistemas de conferencias, juegos, u otros entornos virtuales que se benefician del sonido en 3D. Las escenas de sonido en 3D pueden ser sintetizadas o captadas como un campo acústico natural. Las señales del campo acústico tales como por ejemplo Ambisonics llevan una representación de un campo acústico deseado. El formato Ambisonics se basa en la descomposición armónica esférica del campo acústico. En tanto que el formato Ambisonics básico o formato-B utiliza armónicos esféricos de orden cero y uno, el denominado Ambisonics de Orden Superior (HOA) también utiliza armónicos esféricos adicionales de al menos 2º orden. Se requiere un proceso de decodificación para obtener las señales de altavoz individuales. Para sintetizar escenas de audio, se requieren funciones de encuadre que se refieren a la configuración espacial de los altavoces para obtener una localización espacial de la fuente de sonido dada. Si se tuviera que grabar un campo acústico natural se requiere un conjunto de micrófonos para captar la información espacial. El conocido enfoque Ambisonics es una herramienta muy apropiada para llevarlo a cabo. Las señales formateadas Ambisonics llevan una representación del campo acústico deseado. Se requiere un proceso de decodificación para obtener las señales de altavoz individuales a partir de las señales formateadas Ambisonics. Como también en este caso las funciones de encuadre pueden ser obtenidas a partir de las funciones de decodificación, las funciones de encuadre son el tema clave para describir la tarea de la localización espacial. La configuración espacial de los altavoces se denomina aquí disposición de altavoces.

Las disposiciones de altavoces comúnmente utilizadas son la disposición estereofónica, la cual emplea dos altavoces, la disposición envolvente normal que usa cinco altavoces, y las ampliaciones de la disposición envolvente que usa más de cinco altavoces. Estas disposiciones son bien conocidas. No obstante, están limitadas a dos dimensiones (2D) , por ejemplo no se reproduce información sobre la altura.

Las disposiciones de altavoces para reproducción tridimensional (3D) están descritas por ejemplo en “Ã?rea de escucha amplia con una calidad de sonido espacial excepcional de un sistema multicanal de sonido 22, 2”, K. Hamasaki, T. Nishiguchi, R. Okumaura, e Y. Nakayama en Audio Engineering Society Preprints, Viena, Austria, Mayo 2007, que es una propuesta de la TV de ultra alta definición NHK con formato 22.2, o la disposición 2+2+2 de Dabringhaus (mdg – musikproduktion dabringhaus und Grimm, www.mdg.de) y una disposición 10.2 en “Sound for Film and Television”, T. Holman en 2ª edición, Boston: Focal Press, 2002. Uno de los pocos sistemas conocidos que se refiere a la reproducción espacial y a las estrategias de encuadre es el enfoque de encuadre de amplitud de base vectorial (VBAP) en “Ubicación virtual de la fuente acústica que usa el encuadre de amplitud de base vectorial”, Journal of Audio Engineering Society, volumen 45, nº 6, pp. 456-466, Junio 1997, aquí Pulkki. El VBAP (Encuadre de Amplitud de Base Vectorial (VBAP) ha sido usado por Pulkki para reproducir fuentes acústicas virtuales con una disposición de altavoces arbitraria. Para colocar una fuente virtual en un plano en 2D se requiere un par de altavoces, en tanto que en el caso de 3D se requieren tríos de altavoces. Para cada fuente virtual se suministra una señal monofónica con ganancias diferentes (dependientes de la posición de la fuente virtual) a los altavoces seleccionados desde la disposición total. A continuación se suman las señales de altavoz de todas las fuentes virtuales. El VBAP aplica un método geométrico para calcular las ganancias de las señales de los altavoces para el encuadre entre los altavoces.

Una disposición de altavoces en 3D a modo de ejemplo considerada y aquí recientemente propuesta tiene 16 altavoces, los cuales están colocados como se muestra en la Figura 2. La colocación se eligió debido a consideraciones prácticas, que tienen cuatro columnas con tres altavoces cada una y unos altavoces adicionales entre estas columnas. Con más detalle, ocho de los altavoces, que abarcan unos ángulos de 45 grados, están igualmente distribuidos en un círculo alrededor de la cabeza de la persona que escucha. Cuatro altavoces adicionales, que abarcan unos ángulos de 90 grados, están situados en la parte de arriba y en el fondo. Con respecto a Ambisonics, esta disposición es irregular y da lugar a problemas en el diseño del decodificador, como se ha mencionado en “Un formato ambisonics para distribuciones flexibles de la reproducción”, por H. Pomberger y F. Zotter en Proceedings of the 1st Ambisonics Symposium, Graz, Austria, Julio 2009.

La decodificación Ambisonics convencional, como está descrita en el documento EP 2.094.032 y en “Sistemas acústicos envolventes tridimensionales basados en armónicos esféricos” por M. Poletti en J. Audio Eng. Soc., volumen 53, nº 11, pp 1.004-1.025, Noviembre 2005, emplea el comúnmente conocido proceso de adaptación de modos. Los modos son descritos por vectores de modos que contienen valores de los armónicos esféricos para una dirección de incidencia distinta. La combinación de todas las direcciones dadas por los altavoces individuales lleva a la matriz de modos de la disposición de altavoces, de modo que la matriz de modos representa las posiciones de los altavoces. Para reproducir el modo de una señal de fuente distinta se ponderan los modos de los altavoces de tal forma que los modos superpuestos de los altavoces individuales alcancen el modo deseado. Para obtener las ponderaciones necesarias es preciso calcular una representación de la matriz inversa de la matriz de modos de los altavoces. Desde el punto de vista de la decodificación de la señal las ponderaciones forman la señal piloto de los altavoces, y la matriz de modos inversa de los altavoces, a la que se hace referencia como “matriz de decodificación”, la cual se aplica para decodificar una representación de la señal formateada Ambisonics. En particular, para muchas disposiciones de altavoces, por ejemplo la disposición mostrada en la Figura 2, es difícil de obtener la inversa de la matriz de modos.

Como se ha mencionado antes, las disposiciones comúnmente usadas están limitadas a 2D, es decir no se reproduce información sobre la altura. La decodificación de una representación de campo acústico en una disposición de altavoces con una distribución espacial matemáticamente no regular lleva a problemas de localización y coloración con las técnicas comúnmente conocidas. Para decodificar... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de acuerdo con una representación de un campo acústico de audio para reproducción de audio, que comprende los pasos de:

- calcular (110) para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- calcular (120) una matriz de modos (ΞN) a partir de las direcciones de la fuente;

- calcular (130) una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

- decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos seudoinversa (Ξ+) .

2. Método de acuerdo con la reivindicación 1, en donde el método geométrico usado en el paso de cálculo de una función de encuadre es el Encuadre de Amplitud de la Base Vectorial (VBAP) .

3. Método de acuerdo con la reivindicación 1 ó 2, en donde la representación de un campo acústico de audio es un formato Ambisonics de al menos 2º orden.

4. Método de acuerdo con cualquiera de las reivindicaciones 1-3, en donde la matriz de modos seudoinversa (Ξ+) se obtiene de acuerdo con ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.

5. Método de acuerdo con la reivindicación 4, en donde la matriz de decodificación (DN) se obtiene (135) de acuerdo con D = W ΞH [ΞΞH]-1 = WΞ+, en donde W es el conjunto de funciones de encuadre para cada altavoz.

6. Un dispositivo para decodificar una representación de reproducción de audio, que comprende:

- unos primeros medios de cálculo (210) para calcular para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

- unos segundos medios de cálculo (220) para calcular una matriz de modos (Ξ) a partir de las direcciones de la fuente;

- unos terceros medios de cálculo (230) para calcular una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

- unos medios (240) de decodificador para decodificar la representación de un campo acústico, en donde la decodificación está basada en una matriz de decodificación (D) y los medios de decodificador usan al menos la función de encuadre (W) y la matriz de modos seudoinversa (Ξ+) para obtener la matriz de decodificación (D) .

7. Dispositivo de acuerdo con la reivindicación 6, en donde el dispositivo para decodificación comprende además unos medios (235) para calcular la matriz de decodificación (D) a partir de la función de encuadre (W) y de la matriz de modos seudoinversa (Ξ+) .

8. Dispositivo de acuerdo con la reivindicación 6 ó 7, en donde el método geométrico usado en el paso de cálculo de una función de encuadre es el Encuadre de Amplitud de la Base Vectorial (VBAP) .

9. Dispositivo de acuerdo con cualquiera de las reivindicaciones 6-8, en donde la representación de un campo acústico es un formato Ambisonics de al menos 2º orden.

10. Dispositivo de acuerdo con cualquiera de las reivindicaciones 6-9, en donde la matriz de modos seudoinversa Ξ+ se obtiene de acuerdo con Ξ+ = ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.

11. Método de acuerdo con la reivindicación 10, en donde la matriz de decodificación (DN) se obtiene en un medio (245) para calcular una matriz de decodificación, de acuerdo con D = W ΞH [ΞΞH]-1 = WΞ+, en donde W esel conjunto de funciones de encuadre para cada altavoz.

12. Medio que puede ser leído por un ordenador que tiene almacenado en él unas instrucciones ejecutables para hacer que un ordenador ejecute un método para decodificar una representación de un sonido acústico para reproducción de audio, en donde el método comprende los pasos de

- calcular (110) para cada uno de una pluralidad de altavoces una función de encuadre (W) que usa un método geométrico basado en las posiciones de los altavoces y en una pluralidad de direcciones de la fuente;

-calcular (120) una matriz de modos (Ξ) a partir de las direcciones de la fuente;

-calcular (130) una matriz de modos seudoinversa (Ξ+) de la matriz de modos (Ξ) ; y

-decodificar (140) la representación de un campo acústico de audio, en donde la decodificación está basada en

una matriz de decodificación (D) que se obtiene a partir de la función de encuadre (W) y la matriz de modos 5 seudoinversa (Ξ+) .

13. Un medio que puede ser leído por un ordenador, de acuerdo con la reivindicación 12, en donde el método geométrico usado en el paso de calcular una función de encuadre es un Encuadre de Amplitud de Base Vectorial (VBAP) .

14. Un medio que puede ser leído por un ordenador, de acuerdo con la reivindicación 12 ó 13, en donde la 10 representación de un campo acústico es un formato Ambisonics de al menos 2º orden.

15. Un medio que puede ser leído por un ordenador, de acuerdo con cualquiera de las reivindicaciones 12-14, en donde la matriz de modos seudoinversa Ξ+ se obtiene de acuerdo con Ξ+ = ΞH [ΞΞH]-1, en donde Ξ es la matriz de modos de la pluralidad de direcciones de la fuente.