CODIFICACION Y DECODIFICACION DE AUDIO.

Codificador de audio que comprende:

- medios (401) para recibir una señal de audio de canal M donde M>

2;

- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;

- medios (411) para codificar la segunda señal estéreo para generar datos codificados; y

- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2007/050473.

Solicitante: KONINKLIJKE PHILIPS ELECTRONICS N.V..

Nacionalidad solicitante: Países Bajos.

Dirección: GROENEWOUDSEWEG 1,5621 BA EINDHOVEN.

Inventor/es: OOMEN, ARNOLDUS W., J., SCHUIJERS, ERIK, G., P., BREEBAART, DIRK, J..

Fecha de Publicación: 26 de Mayo de 2010.

Fecha Concesión Europea: 20 de Enero de 2010.

Clasificación Internacional de Patentes:

H04S3/00A2
H04S5/00F

Clasificación PCT:

H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).
H04S5/00 H04S […] › Sistemas seudoestereofónicos, p. ej. en los que las señales de un canal suplementario son derivadas de la señal monofásica por desfase, retardo o reverberación.

Fragmento de la descripción:

Codificación y decodificación de audio.

La invención se refiere a codificación y/o decodificación de audio y en particular, aunque no exclusivamente, a codificación y/o decodificación de audio que implica una señal espacial virtual binaural.

La codificación digital de diversas señales de fuente se ha vuelto más importante de manera creciente durante las últimas décadas ya que la representación y comunicación de señales digitales ha sustituido de manera creciente la representación y comunicación analógica. Por ejemplo, la distribución de contenido de medios, tal como vídeo y música, se basa cada vez más en codificación de contenido digital.

Además, en la última década ha habido una tendencia a audio multicanal y específicamente a audio espacial que se extiende más allá de las señales estéreo convencionales. Por ejemplo, las grabaciones estéreo tradicionales sólo comprenden dos canales mientras que los sistemas de audio avanzados modernos usan normalmente cinco o seis canales, tal como en los sistemas de sonido envolvente 5.1 populares. Esto proporciona una experiencia de escucha con mayor implicación en la que el usuario puede estar rodeado por fuentes de sonido.

Se han empleado diversas técnicas y normas para la comunicación de señales multicanal de este tipo. Por ejemplo, pueden transmitirse seis canales discretos que representan un sistema envolvente 5.1 según normas tales como la codificación de audio avanzada (AAC) o las normas Dolby Digital.

Sin embargo, con el fin de proporcionar compatibilidad hacia atrás, se conoce mezclar de manera descendente el número superior de canales para dar un número inferior y específicamente se usa con frecuencia para mezclar de manera descendente una señal de sonido envolvente 5.1 para dar una señal estéreo permitiendo reproducir una señal estéreo mediante decodificadores (estéreo) legados y una señal 5.1 mediante decodificadores de sonido envolvente.

Un ejemplo es el procedimiento de codificación compatible hacia atrás MPEG2. Una señal multicanal se mezcla de manera descendente de modo que se obtiene una señal estéreo. Señales adicionales se codifican en la parte de datos auxiliares permitiendo que un decodificador multicanal MPEG2 genere una representación de la señal multicanal. Un decodificador MPEG1 descartará los datos auxiliares y por tanto sólo decodificará la mezcla descendente estéreo. La desventaja principal del procedimiento de codificación aplicado en MPEG2 es que la tasa de transmisión de datos adicional requerida para las señales adicionales está en el mismo orden de magnitud que la tasa de transmisión de datos requerida para codificar la señal estéreo. Por tanto, la tasa de transmisión de bits adicional para extender estéreo a audio multicanal es significativa.

Otros procedimientos existentes para la transmisión multicanal compatible hacia atrás sin información multicanal adicional pueden caracterizarse normalmente como procedimientos envolventes de matriz. Ejemplos de codificación de sonido envolvente de matriz incluyen procedimientos tales como Dolby Prologic II y Logic-7. El principio común de estos procedimientos es que realizan una multiplicación de matriz de los múltiples canales de la señal de entrada por una matriz no cuadrática adecuada generando de este modo una señal de salida con un número inferior de canales. Específicamente, un codificador de matriz aplica normalmente desplazamientos de fase a los canales envolventes antes de mezclarlos con los canales frontales y centrales.

A partir del documento WO2005/098826 se conoce un codificador de audio que genera una mezcla descendente estéreo y parámetros asociados a partir de una señal de audio multicanal. Un posprocesador, que usa parámetros de función de transferencia, genera una mezcla descendente estéreo procesada que se transmite a un decodificador junto con los parámetros asociados.

A partir del documento US2005/0273322 se conoce un codificador de audio, que genera una señal combinada, que comprende una mezcla descendente binaural y las señales de audio originales. La señal combinada se transmite a un decodificador como flujo de bits de extensión y núcleo sin ningún parámetro.

Otro motivo para una conversión de canales es la eficacia de codificación. Se ha encontrado que por ejemplo las señales de audio de sonido envolvente pueden codificarse como señales de audio de canal estéreo combinadas con un flujo de bits de parámetro que describe las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio estéreo con un grado de precisión muy satisfactorio. De este modo, pueden obtenerse ahorros sustanciales de tasa de transmisión de bits.

Hay varios parámetros que pueden usarse para describir las propiedades espaciales de señales de audio. Un parámetro de este tipo es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para señales estéreo. Otro parámetro es la proporción de potencia de los canales. En los denominados codificadores de audio espaciales (paramétricos) éstos y otros parámetros se extraen de la señal de audio original para producir una señal de audio que tiene un número reducido de canales, por ejemplo sólo un único canal, más un conjunto de parámetros que describen las propiedades espaciales de la señal de audio original. En los denominados decodificadores de audio espaciales (paramétricos), vuelven a emplearse las propiedades espaciales tal como se describen por los parámetros espaciales transmitidos.

La codificación de audio espacial de este tipo preferiblemente emplea una estructura jerárquica en cascada o basada en árboles que comprende unidades convencionales en el codificador y el decodificador. En el codificador, estas unidades convencionales pueden ser mezcladores descendentes que combinan canales de modo que se obtiene un número inferior de canales tales como los mezcladores descendentes 2-a-1, 3-a-1, 3-a-2, etc., mientras que en el decodificador las unidades convencionales correspondientes pueden ser mezcladores ascendentes que dividen canales de modo que se obtiene un número superior de canales tales como los mezcladores ascendentes 1-a-2, 2-a-3.

En la actualidad el posicionamiento de fuente de sonido 3D está ganando interés, especialmente en el dominio de los móviles. Los efectos de sonido y la reproducción de música en los juegos de móviles pueden añadir un valor significativo a la experiencia del consumidor cuando se posicionan en 3D, creando de manera eficaz un efecto 3D "out-of-head". Específicamente, se conoce grabar y reproducir señales de audio binaurales que contienen información direccional específica a la que es sensible el oído humano. Las grabaciones binaurales se realizan normalmente usando dos micrófonos montados en una cabeza humana artificial, de modo que el sonido grabado corresponde al sonido captado por el oído humano e incluye cualquier influencia debida a la forma de la cabeza y los oídos. Las grabaciones binaurales difieren de las grabaciones estéreo (esto es, estereofónicas) porque la reproducción de una grabación binaural está prevista en general para un casco con auriculares o auriculares, mientras que una grabación estéreo se realiza en general para la reproducción mediante altavoces. Mientras que una grabación binaural permite una reproducción de toda la información espacial usando sólo dos canales, una grabación estéreo no proporcionaría la misma percepción espacial. Las grabaciones de canal dual regular (estereofónico) o de múltiples canales (por ejemplo 5.1) pueden transformarse en grabaciones binaurales realizando una convolución de cada señal regular con un conjunto de funciones de transferencia perceptiva. Las funciones de transferencia perceptiva de este tipo modelan la influencia de la cabeza humana, y posiblemente otros objetos, en la señal. Un tipo conocido ampliamente de la función de transferencia perceptiva espacial es la denominada función de transferencia relativa a la cabeza (HRTF, Head-Related Transfer Function). Un tipo alternativo de función de transferencia perceptiva espacial, que también tiene en cuenta las reflexiones causadas por las paredes, el techo y el suelo de un recinto, es la respuesta impulsiva binaural de un recinto (BRIR, Binaural Room Impulse Response).

Normalmente, los algoritmos de posicionamiento 3D emplean las HRTF, que describen la transferencia desde una determinada posición de fuente de sonido a los tímpanos por medio de una respuesta al impulso. El posicionamiento de fuente...

Reivindicaciones:

1. Codificador de audio que comprende:

- medios (401) para recibir una señal de audio de canal M donde M>2;

- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;

- medios (411) para codificar la segunda señal estéreo para generar datos codificados; y

- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

2. Decodificador de audio que comprende:

- medios (701, 703) para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M;

- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y primeros datos de parámetro espacial para una función de transferencia perceptiva binaural, asociándose los primeros datos de parámetro espacial con la primera señal estéreo.

3. Decodificador según la reivindicación 2, que comprende además medios (709) para generar la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.

4. Decodificador según la reivindicación 2, en el que los medios (705) de generación están dispuestos para generar la señal estéreo mezclada de manera descendente calculando valores de datos de subbanda para la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos asociados, los primeros datos de parámetro espacial y valores de datos de subbanda para la primera señal estéreo.

5. Decodificador según la reivindicación 4, en el que los medios (705) de generación están dispuestos para generar valores de subbanda para una primera subbanda de la señal estéreo mezclada de manera descendente en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda; comprendiendo además los medios (705) de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos y datos de parámetro de función de transferencia perceptiva binaural para la primera subbanda.

6. Decodificador según la reivindicación 2 que comprende además:

- una unidad (709, 801) de decodificador espacial para producir un par de canales de salida binaurales modificando la primera señal estéreo en respuesta a los datos paramétricos asociados y segundos datos de parámetro espacial para una segunda función de transferencia perceptiva binaural, siendo los segundos datos de parámetro espacial diferentes de los primeros datos de parámetro espacial.

7. Decodificador según la reivindicación 6, en el que la unidad (709, 801) de decodificador espacial comprende:

- una unidad (903) de conversión de parámetros para convertir los datos paramétricos en parámetros de síntesis binaural usando los segundos datos de parámetro espacial, y

- una unidad (901) de síntesis espacial para sintetizar el par de canales binaurales usando los parámetros de síntesis binaural y la primera señal estéreo.

8. Decodificador según la reivindicación 7, en el que los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras estéreo de la señal estéreo mezclada de manera descendente con muestras estéreo del par de canales de salida binaurales.

9. Procedimiento de codificación de audio, comprendiendo el procedimiento:

- recibir (1001) una señal de audio de canal M donde M>2;

- mezclar de manera descendente (1003) la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- modificar (1005) la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;

- codificar (1007) la segunda señal estéreo para generar datos codificados; y

- generar (1009) un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

10. Receptor para recibir una señal de audio que comprende:

- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.

11. Transmisor (1101) para transmitir un flujo de datos de salida; comprendiendo el transmisor:

- medios (401) para recibir una señal de audio de canal M donde M>2;

- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- medios (411) para codificar la segunda señal estéreo para generar datos codificados;

- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y

- medios (311) para transmitir el flujo de datos de salida.

12. Procedimiento para transmitir un flujo de datos de salida de audio, comprendiendo el procedimiento:

- recibir (1001) una señal de audio de canal M donde M>2;

- mezclar de manera descendente (1003) la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- codificar (1007) la segunda señal estéreo para generar datos codificados; y

- generar (1009) un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y

- transmitir el flujo de datos de salida de audio.

13. Producto de programa informático para ejecutar el procedimiento según la reivindicación 11.

Patentes similares o relacionadas:

DISPOSITIVO Y PROCEDIMIENTO PARA GENERAR UNA SEÑAL MULTICANAL CON UN PROCESAMIENTO DE SEÑAL DE VOZ, del 16 de Septiembre de 2011, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Dispositivo para generar una señal multicanal con un número de señales de canal de salida, que es mayor que un número de señales de canal de entrada de una señal […]

CONVERSION DE CANAL DE AUDIO, del 17 de Febrero de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V. DOLBY SWEDEN AB: Dispositivo para la conversión de un primer número (M) de canales de audio de entrada en un segundo número (N) de canales de audio de salida, en el que […]

DISPOSITIVO Y METODO PARA GENERAR UNA SEÑAL ESTEREOFONICA CODIFICADA DE UNA PIEZA DE AUDIO O FLUJO DE DATOS DE AUDIO, del 9 de Junio de 2010, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Dispositivo para generar una señal estereofónica codificada de una pieza de audio o un flujo de datos de audio con un primer canal estereofónico y un segundo […]

PROCEDIMIENTO DE CONVERSION DE FORMATO SONORO 5.1. A BINAURAL HIBRIDO, del 27 de Abril de 2010, de PORTAS ARRONDO,IVAN: Procedimiento de conversión de formato sonoro 5.1 a binaural híbrido que comprende obtener las señales de los canales FL, FR, C, SL, SR y LFE del formato 5.1 que se desea convertir […]

ESPACIALIZACION BINAURAL DE DATOS SONOROS CODIFICADOS EN COMPRESION, del 16 de Marzo de 2010, de FRANCE TELECOM: Procedimiento de tratamiento de datos sonoros para una restitución espacializada en tres dimensiones sobre dos vías de restitución para los oídos […]

Método y sistema para el procesamiento de sonido envolvente en un auricular, del 27 de Mayo de 2020, de Voyetra Turtle Beach, Inc: Un método, que comprende: en un auricular de audio que recibe una pluralidad de señales de audio correspondientes a una pluralidad de canales de sonido envolvente: […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]