CODIFICACION DE AUDIO RESIDUAL ADAPTATIVA.
Codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales (18),
que comprende:
un extractor (16) de parámetros para derivar un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales;
un limitador (14) para limitar el parámetro de coherencia para derivar un parámetro de coherencia limitado, en el que el límite del parámetro de coherencia depende del parámetro de nivel y de un factor de escala; y
un mezclador (12) descendente para derivar una señal (20) de mezcla descendente y una señal (18) residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro de coherencia limitado
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2006/003200.
Solicitante: DOLBY INTERNATIONAL AB
KONINKLIJKE PHILIPS ELECTRONICS N.V.
Nacionalidad solicitante: Países Bajos.
Dirección: ATLAS COMPLEX, AFRICA BUILDING HOOGOORDDREEF 9,1101 BA AMSTERDAM.
Inventor/es: VILLEMOES, LARS, MYBURG,FRANCOIS PHILIPPUS.
Fecha de Publicación: .
Fecha Concesión Europea: 6 de Enero de 2010.
Clasificación Internacional de Patentes:
- G10L19/00M
Clasificación PCT:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
Fragmento de la descripción:
Codificación de audio residual adaptativa.
Campo de la invención
La presente invención se refiere a la codificación y decodificación de señales de audio y, en particular, a la codificación de alta calidad eficaz de un par de canales de audio.
Antecedentes de la técnica anterior de la invención
Recientemente, la codificación de alta calidad eficaz de señales de audio se ha vuelto cada vez más importante, puesto que la distribución digital de contenido de audio y vídeo comprimido, por ejemplo, por satélite o por difusión de audio o vídeo digital terrestre se utiliza ampliamente. La técnica MP3 muy conocida, por ejemplo, permite la transmisión conveniente de títulos de audio por Internet u otros canales de transmisión que tienen anchos de banda limitados.
Además de MP3, otros diversos esquemas de codificación de audio ayudan a maximizar la calidad de audio para una relación de compresión o velocidad de transmisión de datos dada. Se ha mostrado en "Efficient and scalable Parametric Stereo Coding for Low Bit rate Audio Coding Applications", PCT/SE02/01372, que es posible recrear una señal estéreo que asemeja mucho a la imagen estéreo original subyacente, a partir de una señal mono cuando adicionalmente se utiliza una representación muy compacta de la señal estéreo comúnmente denominada como "colas espaciales". El principio dado a conocer es dividir la señal de entrada estéreo en bandas de frecuencia y estimar parámetros llamados diferencia de intensidad entre canales (IID) y coherencia entre canales (ICC) para cada una de las bandas de frecuencia por separado. El primer parámetro describe una medida de la distribución de energía entre los dos canales en la banda de frecuencia específica y el segundo parámetro describe una estimación de la correlación entre los dos canales. Una descripción más concienzuda de los parámetros espaciales puede encontrarse en "High-quality parametric spatial audio coding at low bit rates", J. Breebart, S. van de Par, A. Kohirausch y E.Schuijers, Proc. 116th AES Convention, Berlín (Alemania), 8-11 de mayo de 2004. Basándose en estas señales de entrada espaciales, la señal de entrada estéreo se combina de manera adaptativa en una señal mono. Tanto las colas espaciales como la señal mono se codifican y la representación codificada se multiplexa en un flujo de bits, que se transmite al decodificador. En el lado del decodificador, la imagen estéreo se recrea a partir de la señal mono mediante distribución de la energía de la señal mono entre los dos canales de salida según los datos IID, y mediante adición de una señal decorrelacionada con el fin de conservar la correlación de canal de los canales estéreo originales, según se describe por los parámetros ICC.
Cuando hay disponible más ancho de banda de transmisión, puede lograrse una mayor calidad de audio sustituyendo la señal mono decorrelacionada en el decodificador por una señal residual transmitida. Es decir, se requiere la transmisión de una señal residual adicional a un decodificador. También es éste el caso con la codificación central-lateral (mid-side, MS), en la que se codifican la suma y la diferencia de los canales de una señal estéreo en vez de los canales derecho e izquierdo directamente. Una descripción de la técnica MS puede encontrarse en "Sum-difference stereo transform coding", Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP); San Francisco, EE.UU., 1992, págs. II 569-572. La codificación MS se basa en el hallazgo de que el canal izquierdo y derecho de una señal estéreo son bastante similares con una alta probabilidad. Por consiguiente, una diferencia del canal izquierdo y derecho producirá una señal que tiene una intensidad comparativamente baja la mayor parte del tiempo, es decir, la amplitud de la señal de diferencia será bastante pequeña. No obstante, puede ahorrarse una cantidad significativa de velocidad de transmisión de datos cuando se codifica la señal de diferencia, ya que los parámetros que describen la señal de diferencia pueden cuantificarse de manera aproximada. La señal de suma evidentemente necesitará aproximadamente el mismo ancho de banda que un único canal izquierdo o derecho, cuando se codifica. Por consiguiente, puede ahorrarse una cantidad significativa de ancho de banda en total cuando se utiliza el esquema de codificación MS. Cuando existe una gran diferencia de intensidad entre el canal izquierdo y el derecho, la técnica MS tiene sus límites, ya que entonces el canal de diferencial contendrá una cantidad sustancial de energía y, por consiguiente, necesita un mayor ancho de banda. Sin embargo, puede observarse que en implementaciones codificadas en estéreo normales, la codificación MS no se aplicará en este caso, debido a los elevados costes de codificación. En estos casos, es ventajoso tener la posibilidad de cambiar entre la codificación estéreo normal y la codificación MS, dependiendo de la intensidad transportada por los canales de audio originales que tienen que codificarse.
Al sustituir el concepto estático de formar la suma y la diferencia de dos canales estéreo que van a codificarse mediante invención de una matriz de rotación del decodificador con elementos de matriz que describen la composición de dos canales intermedios que son una combinación de los dos canales estéreo, puede superarse el problema anterior. Los elementos de matriz son dependientes de parámetros estéreo paramétricos que se extraen del canal izquierdo y el derecho de la señal estéreo. La codificación residual adaptativa es tal que permite la adaptación dinámica de la regla de combinación para la generación de canales intermedios respecto a las propiedades de la presente señal, logrando una ganancia de rendimiento significativa frente a la codificación MS.
La selección de una dependencia adecuada de los elementos de matriz de la denominada matriz de rotación a partir de los parámetros estéreo paramétricos, puede lograrse que la energía dentro de un canal de diferencia permanezca al mínimo posible, como se muestra ya en la solicitud de patente Europea no dada a conocer EP 04103168.3. Cuando se introduce una matriz de rotación para transformar (mezcla descendente o mezcla ascendente) la señal estéreo en señales m y s (las señales intermedias, es decir, la señal de mezcla descendente m y la señal residual s), es crucial para la operación del método que las matrices de rotación (la matriz de rotación del decodificador y la matriz de rotación del codificador) estén delimitadas. Esto significa que los elementos de matriz dentro de las matrices no divergen al infinito dentro del intervalo entero de parámetros de codificación estéreo paramétricos posibles. En otras palabras, ambas matrices de rotación tienen que estar delimitadas en el sentido de que el número de condición de matriz es lo suficientemente pequeño para permitir una inversión de la matriz sin problemas para todo el intervalo de parámetros de codificación estéreo paramétricos, lo que no es el caso para implementaciones según técnicas de la técnica anterior.
Se conocen varios documentos en la técnica relacionados con el problema de inestabilidad anterior.
Un enfoque (WERNER OOMEN, ERIK SCHUIJERS, HEIKO PURNHAGEN, JONAS ENGDEGARD: "MPEG4-EXT2: CE ON LOW COMPLEXITY PARAMETRIC STEREO-ISO/IEC JTC1/SC29/WG11-MPEG2003/M10366" CODING OF MOVING PICTURES AND AUDIO-ISO/IEC, diciembre de 2003 (2003-12), XP002388137 Hawai) se refiere a la codificación de audio en MPEG4. Se propone limitar los parámetros estéreo paramétricos a un límite fijo predeterminado, para evitar problemas de inestabilidad computacional.
De manera similar, en otro enfoque (FALLER CHRISTOF: "Parametric coding of spatial audio-Thesis No.3062" THESE PRESENTEE A LA FACULTE INFORMATIQUE ET COMMUNICATIONS INSTITUT DE SYSTEMES DE COMMUNICATION SECTION DES SYSTEMES DE COMMUNICATION ÉCOLE POLYTHECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR EN SCIENCES, XX, XX, 2004 página completa, XP002343263) se aplica un límite permanente a un factor de ganancia utilizado para la mezcla descendente o mezcla ascendente de señales multicanal paramétricamente codificadas.
La patente estadounidense 6021386 se refiere a la codificación de múltiples canales de información de audio. En un codificador, los múltiples canales de canal de audio que representan fuentes de sonido multidimensional se dividen en señales de subbanda y las señales de subbanda en una o más subbandas se combinan para formar señales compuestas para transportarse. Los niveles espectrales de las señales de subbanda combinadas en señales compuestas se transmiten adicionalmente...
Reivindicaciones:
1. Codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales (18), que comprende:
2. Codificador (10) de audio según la reivindicación 1, en el que el extractor (16) de parámetros es operativo para derivar múltiples parámetros espaciales para una porción de tiempo dada de la señal de audio.
3. Codificador (10) de audio según la reivindicación 1 ó 2, en el que el limitador (14) es operativo para limitar el parámetro de coherencia de tal manera que una relación de intensidades entre la señal (20) de mezcla descendente y los al menos dos canales no excede un límite predefinido.
4. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 3, en el que una regla de limitación del limitador (14) es de tal manera que un límite inferior para el parámetro de coherencia ICC depende del parámetro de nivel IID y del factor de escala que depende de un factor de ganancia predefinido g0 como se describe por la siguiente expresión:
5. Codificador (10) de audio según la reivindicación 4, en el que el factor de ganancia predefinido g0 se selecciona del intervalo [1, 2].
6. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 5, en el que el mezclador (12) descendente es operativo para utilizar una regla de mezcla descendente de tal forma que la señal (20) de mezcla descendente y la señal (18) residual se derivan al formar una combinación lineal de los canales de los al menos dos canales, en el que los coeficientes de la combinación lineal dependen del parámetro de coherencia limitado.
7. Codificador (10) de audio según la reivindicación 6, en el que la regla de mezcla descendente es de tal manera que la derivación de la señal (20) de mezcla descendente m y la señal (18) residual s puede describirse por la siguiente ecuación, dependiendo del parámetro de coherencia limitado ICC, el parámetro de nivel IID, el primer canal l y el segundo canal r:
8. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 7, que comprende además una unidad (51) de procesamiento de señal para procesar o transmitir la señal (20) de mezcla descendente, la señal (18) residual y los parámetros espaciales para derivar una señal de mezcla descendente procesada, una señal residual procesada y parámetros procesados.
9. Codificador (10) de audio según la reivindicación 8, en el que la unidad (51) de procesamiento de señal es operativa para derivar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados de tal forma que la derivación incluye una compresión de la señal (20) de mezcla descendente, la señal (18) residual y los parámetros espaciales.
10. Codificador (10) de audio según las reivindicaciones 8 ó 9, que comprende además una interfaz (58) de salida para proporcionar la información de la señal (20) de mezcla descendente procesada, la señal (18) residual procesada y los parámetros procesados.
11. Codificador (10) de audio según la reivindicación 10, en el que la interfaz (58) de salida es operativa para combinar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados para derivar un flujo de bits de salida que tiene la información de la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados.
12. Codificador (10) de audio según la reivindicación 11, en el que la interfaz (58) de salida es operativa para multiplexar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados para derivar el flujo de bits de salida.
13. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 12, en el que se codifican los múltiples pares de canales, en el que para cada par de canales se derivan parámetros espaciales, una señal (20) de mezcla descendente y una señal (18) residual.
14. Codificador (10) de audio según la reivindicación 13, en el que los múltiples pares de canales comprenden un canal izquierdo frontal, uno izquierdo posterior, uno derecho frontal, uno derecho posterior, uno de refuerzo de baja frecuencia y uno central.
15. Decodificador (140) de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe la coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, que comprende:
16. Decodificador (140) de audio según la reivindicación 15, en el que el limitador (144) es operativo para limitar múltiples parámetros de coherencia para una porción de tiempo dado de la señal de audio codificada correspondiente a una trama de tiempo de la señal de audio original.
17. Decodificador (140) de audio según la reivindicación 15 ó 16, en el que el limitador (144) es operativo para limitar el parámetro de coherencia de tal manera que una relación de intensidades entre la señal de mezcla descendente y los al menos dos canales de la señal de audio original no excede un límite predefinido.
18. Decodificador (144) de audio según cualquiera de las reivindicaciones 15 a 17, en el que la regla de limitación del limitador (144) es de tal forma que un límite inferior para el parámetro de coherencia ICC depende del parámetro de nivel IID y del factor de escala que depende de un factor de ganancia predefinido g0 como se describe por la siguiente expresión:
19. Decodificador (140) de audio según la reivindicación 18, en el que el factor de ganancia predefinido g0 se selecciona del intervalo [1, 2].
20. Decodificador (140) de audio según cualquiera de las reivindicaciones 15 ó 19, en el que el mezclador (142) ascendente es operativo para utilizar una regla de mezcla ascendente de tal forma que un primer canal reconstruido y un segundo canal reconstruido de los al menos dos canales se derivan al formar una combinación lineal de la señal de mezcla descendente y la señal residual, en el que los coeficientes de la combinación lineal dependen del parámetro de coherencia limitado.
21. Decodificador (140) de audio según la reivindicación 20, en el que la regla de mezcla ascendente es de tal forma que la derivación del primer canal reconstruido l y el segundo canal reconstruido r a partir de la señal de mezcla descendente m y la señal residual s depende del parámetro de coherencia limitado ICC y el parámetro de nivel, como se describe por las siguientes ecuaciones:
donde
22. Decodificador (140) de audio según cualquiera de las reivindicaciones 15 a 21, que comprende además una unidad (182) de procesamiento de señal para transmitir o procesar una señal residual procesada, una señal de mezcla descendente procesada y parámetros procesados para derivar la señal residual, la señal de mezcla descendente y los parámetros espaciales.
23. Decodificador (140) de audio según la reivindicación 22, en el que la unidad (182) de procesamiento de señal es operativa para derivar la señal residual, la señal de mezcla descendente y los parámetros espaciales de tal forma que la derivación de la señal residual, la señal de mezcla descendente y los parámetros espaciales incluyen la descompresión de la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.
24. Decodificador (140) de audio según las reivindicaciones 22 ó 23, que comprende además una interfaz (190) de entrada para proporcionar la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.
25. Decodificador (140) de audio según la reivindicación 24, en el que la interfaz (190) de entrada es operativa para descomponer un flujo de bits de entrada único para derivar la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.
26. Decodificador (140) de audio según la reivindicación 25, en el que la interfaz (190) de entrada es operativa para descomponer el flujo de bits de entrada único de tal forma que la derivación de la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados incluye una demultiplexación del flujo de bits de en- trada.
27. Método para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método:
28. Método para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, comprendiendo el método:
29. Transmisor o grabador de audio que tiene un codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales, que comprende:
30. Receptor o reproductor de audio, que tiene un decodificador (140) de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, que comprende:
31. Método para transmitir o grabar audio, teniendo el método un método para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método:
32. Método para recibir o reproducir audio, teniendo el método un método para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, comprendiendo el método:
33. Sistema de transmisión que tiene un transmisor y un receptor,
34. Método para transmisión y recepción, comprendiendo el método:
35. Programa informático para realizar, cuando se ejecuta en un ordenador, un método según cualquiera de las reivindicaciones de método 27, 28, 31, 32 ó 34.
Patentes similares o relacionadas:
MÉTODO, DISPOSITIVO, APARATO CODIFICADOR, APARATO DECODIFICADOR Y SISTEMA DE AUDIO, del 8 de Febrero de 2012, de Koninklijke Philips Electronics N.V. Dolby International AB: Método de procesamiento de una señal de mezcla descendente estéreo que comprende señales estéreo primera y segunda (L0, R0), codificando la señal de mezcla […]
PROCEDIMIENTO Y APARATO PARA CODIFICAR Y DECODIFICAR SEÑALES DIGITALES, del 13 de Enero de 2012, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento de codificación de señales digitales compuestas de al menos dos canales, comprendiendo el procedimiento: dividir las señales digitales […]
DERIVACIÓN HÍBRIDA DE CANALES DE AUDIO DE SONIDO ENVOLVENTE COMBINANDO DE MANERA CONTROLABLE COMPONENTES DE SEÑAL DE SONIDO AMBIENTE Y CON DECODIFICACIÓN MATRICIAL, del 13 de Mayo de 2011, de DOLBY LABORATORIES LICENSING CORPORATION: Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes […]
PROCESAMIENTO DE SEÑALES DE MÚLTIPLES CANALES, del 24 de Marzo de 2011, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Procedimiento de generación de una señal monaural (S) que comprende una combinación de dos canales de audio de entrada (L, R), que comprende […]
CODIFICACION DE AUDIO MULTICANAL AJUSTABLE A ESCALA, del 27 de Octubre de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Codificador de audio adaptado para codificar una señal de audio multicanal, comprendiendo el codificador: - un módulo de combinación de […]
CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AMPLIABLE PARA APLICACIONES DE BAJA VELOCIDAD DE TRANSFERENCIA DE BITS, del 19 de Agosto de 2010, de CODING TECHNOLOGIES SWEDEN AB: Método para codificar una envolvente espectral de potencia de una señal de audio estereofónica o de una señal de audio multicanal que tiene dos canales, teniendo […]
CODIFICACION Y DECODIFICACION DE SEÑALES AUDIO MULTICANAL, del 18 de Junio de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Procedimiento para codificar una señal multicanal que incluye al menos una primera componente de señal y una segunda componente de señal que representan una señal de […]
CONTROL ADAPTATIVO DE COLA DE ECO PARA SINTESIS DE AUDIO PSEUDOESTEREOFONICA, del 13 de Mayo de 2010, de CODING TECHNOLOGIES AB: Unidad de reverberación para generar un primer canal y un segundo canal de una señal estereofónica o una señal multicanal, que comprende: un detector para detectar terminaciones […]