CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AJUSTABLE A ESCALA PARA APLICACIONES DE CODIFICACION DE AUDIO A BAJA VELOCIDAD DE TRANSFERENCIA DE BITS.
Método para decodificar una envolvente espectral de potencia codificada de una señal estereofónica o una señal multicanal que tiene dos canales,
teniendo los dos canales un conjunto de bandas de frecuencia, estando representada la envolvente espectral de potencia codificada mediante un parámetro de equilibrio para cada banda de frecuencia que representa un cociente de potencias de señal para cada canal y un parámetro de nivel que representa una potencia total de los dos canales para cada banda de frecuencia, que comprende convertir los parámetros de equilibrio y los parámetros de potencia en valores de potencia del primer canal y el segundo canal
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08016926.
Solicitante: DOLBY SWEDEN AB.
Nacionalidad solicitante: Suecia.
Dirección: GAEVLEGATAN 12A,113 30 STOCKHOLM.
Inventor/es: LILJERYD, LARS, HENN, FREDRIK, ENGDEGARD, JONAS, ROEDEN,JONAS, KJOERLING,KRISTOFER.
Fecha de Publicación: .
Fecha Solicitud PCT: 10 de Julio de 2002.
Fecha Concesión Europea: 23 de Septiembre de 2009.
Clasificación Internacional de Patentes:
- G10L19/00M
- H04S1/00D
- H04S3/00A
Clasificación PCT:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- H04S1/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas con dos canales (H04S 5/00, H04S 7/00 tienen prioridad).
- H04S5/00 H04S […] › Sistemas seudoestereofónicos, p. ej. en los que las señales de un canal suplementario son derivadas de la señal monofásica por desfase, retardo o reverberación.
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Finlandia, Chipre.
Fragmento de la descripción:
Codificación estereofónica paramétrica eficaz y ajustable a escala para aplicaciones de codificación de audio a baja velocidad de transferencia de bits.
Campo técnico
La presente invención se refiere a sistemas de codificación de fuente de audio a baja velocidad de transferencia de bits. Se introducen diversas representaciones paramétricas de propiedades estereofónicas de una señal de entrada y se explica la aplicación de las mismas en el lado del decodificador, abarcando desde codificación pseudoestereofónica a codificación estereofónica completa de envolventes espectrales, siendo la última de éstas especialmente adecuada para códecs basados en HFR (recombinación de alta frecuencia).
Antecedentes de la invención
Las técnicas de codificación de fuente de audio pueden dividirse en dos clases: codificación de audio natural y codificación de voz. A las velocidades de transferencia de bits medias a altas, la codificación de audio natural se utiliza normalmente para señales de música y voz, y es posible la transmisión y reproducción estereofónica. En aplicaciones en las que sólo se dispone de bajas velocidades de transferencia de bits, por ejemplo, en transmisiones de audio en flujo continuo (streaming) por Internet dirigidas a usuarios con conexiones telefónicas por módem lentas, o en los sistemas de radiodifusión digital AM emergentes, es inevitable la codificación monofónica del material del programa de audio. Sin embargo, todavía puede desearse una sensación estereofónica, en particular cuando se escucha con auriculares, en cuyo caso se percibe una señal monofónica pura como si proviniese de "dentro de la cabeza", lo cual puede resultar una experiencia desagradable.
Un enfoque para tratar este problema es sintetizar una señal estereofónica en el lado del decodificador a partir de una señal monofónica pura recibida. A lo largo de los años se han propuesto varios generadores "pseudoestereofónicos" diferentes. Por ejemplo, en la patente estadounidense 5.883.962 se describe la mejora de señales monofónicas por medio de la adición de versiones desfasadas/retardadas de una señal a la señal sin procesar, creando con ello una ilusión estereofónica. Con ello, la señal procesada se añade a la señal original para cada una de las dos salidas a niveles iguales pero con signos opuestos, garantizando que las señales de mejora se cancelen si los dos canales se añaden posteriormente a la trayectoria de la señal. En el documento PCT WO 98/57436 se muestra un sistema similar, aunque sin la compatibilidad monofónica anterior de la señal mejorada. Los métodos de la técnica anterior tienen en común que se aplican como procesos únicamente posteriores. En otras palabras, no se facilita al decodificador información alguna acerca del grado de amplitud estereofónica, dejando a un lado la posición en la etapa de sonido estereofónica. De esta manera, la señal pseudoestereofónica puede asemejarse o no al carácter estereofónico de la señal original. Una situación particular en la que los sistemas de la técnica anterior resultan deficientes es cuando la señal original es una señal monofónica pura, lo cual es a menudo el caso en las grabaciones de voz. Esta señal monofónica se convierte a ciegas en una señal estereofónica sintética en el decodificador, lo cual en el caso de la voz origina artefactos perturbadores y puede reducir la claridad y la inteligibilidad de la voz.
Otros sistemas de la técnica anterior dirigidos a la transmisión estereofónica real a bajas velocidades de transferencia de bits emplean normalmente un esquema de codificación de sumas y restas. De esta manera, las señales originales izquierda (L) y derecha (R) se convierten en una señal de suma, S= (L+R)/2, y una señal de resta, D =(L-R)/2, y seguidamente se codifican y tramiten. El receptor decodifica las señales S y D, recreándose la señal L/R original a través de las operaciones L = S + D, y R = S - D. La ventaja de esto es que con gran frecuencia se encuentra en la banda una redundancia entre L y R, siendo menos la información en D que debe codificarse y requiriendo menos bits que en S. Claramente, el caso extremo es una señal monofónica pura, es decir, L y R son idénticas. Un códec L/R convencional codifica esta señal monofónica dos veces, mientras que un códec S/D detecta esta redundancia, y la señal D no requiere (de forma ideal) ningún bit en absoluto. Otro extremo lo representa la situación en la que R = -L, correspondiente a señales "fuera de fase". Ahora, la señal S es cero, mientras que la señal D computa para L. Nuevamente, el esquema S/D tiene una clara ventaja frente a la codificación L/R estándar. Sin embargo, considérese la situación en la que, por ejemplo, R = 0 durante una transición, lo cual no era poco frecuente en los primeros tiempos de las grabaciones estereofónicas. Tanto S como D son iguales a L/2, y el esquema S/D no ofrece ninguna ventaja. Por el contrario, la codificación L/R trata esto muy bien: la señal R no requiere ningún bit. Por esta razón, los códecs de la técnica anterior emplean conmutación adaptativa entre estos dos esquemas de codificación, dependiendo de qué método es más beneficioso para usarlo en un momento dado. Los ejemplos anteriores son meramente teóricos (excepto en el caso monofónico dual, que es común en los programas de sólo voz). De esta manera, el material de los programas estereofónicos del mundo real contiene importantes cantidades de información estereofónica, e incluso si se lleva a cabo la conmutación anterior, la velocidad de transferencia de bits resultante a menudo es aún demasiado alta para muchas aplicaciones. Además, tal como puede observarse de las relaciones de resintetización anteriores, no es fiable una cuantificación muy poco definida de la señal D en un intento de reducir adicionalmente la velocidad de transferencia de bits dado que los errores de cuantificación se traducen en errores de nivel que no pueden descuidarse en las señales L y R.
Se conoce además a partir del documento J. Herre et al. "Intensity Stereo Coding", Preprints n.º 3799 presentado en la Convención AES, 26 de febrero de 1994, codificar señales de audio estereofónicas usando codificación de intensidad. Esta técnica define para cada banda de frecuencia un parámetro direccional relacionado con los coeficientes de factor de escala.
Sumario de la invención
La presente invención se refiere a un método para la codificación según la reivindicación 1.
El equilibrio estereofónico total o localización en el campo estereofónico se detecta en el codificador. Esta información, opcionalmente junto con el parámetro de amplitud anterior, se transmite eficazmente como un parámetro de equilibrio, junto con la señal monofónica codificada. De esta manera, los desplazamientos a cualquier lado de la etapa de sonido pueden recrearse en el decodificador alterando de forma correspondiente las ganancias de los dos canales de salida. Según la invención, este parámetro de equilibrio estereofónico pude derivarse del cociente de las potencias de señales izquierda y derecha. La transmisión de los dos tipos de parámetros requiere muy pocos bits, en comparación con la codificación estereofónica completa, con lo cual se mantiene reducida la demanda total de velocidad de transferencia de bits. En una versión más elaborada de la invención, que ofrece una descripción estereofónica paramétrica más precisa, se utilizan varios parámetros de equilibrio y amplitud estereofónica, representando cada uno bandas de frecuencia independientes.
El parámetro de equilibrio, generalizado a una operación por banda de frecuencia, junto con una operación por banda correspondiente de un parámetro de nivel, calculado como la suma de las potencias de señal izquierda y derecha, permite una nueva representación, detallada de forma arbitraria, de la densidad espectral de potencia de una señal estereofónica. Un beneficio particular de esta representación, además de los beneficios de la redundancia estereofónica, de la cual también sacan ventaja los sistemas S/D, es que la señal de equilibrio puede cuantificarse con menos precisión que el nivel mencionado, dado que el error de cuantificación, al convertirse nuevamente a una envolvente espectral estereofónica, ocasiona un "error en el espacio", es decir, la localización percibida en el panorama estereofónico, en lugar de un error de nivel. De forma análoga a un sistema L/R y S/D conmutado tradicional, el esquema nivel/equilibrio puede interrumpirse de forma adaptativa en favor de una señal de nivel L/nivel R, que es más eficaz cuando la señal total está intensamente desfasada hacia...
Reivindicaciones:
1. Método para decodificar una envolvente espectral de potencia codificada de una señal estereofónica o una señal multicanal que tiene dos canales, teniendo los dos canales un conjunto de bandas de frecuencia, estando representada la envolvente espectral de potencia codificada mediante un parámetro de equilibrio para cada banda de frecuencia que representa un cociente de potencias de señal para cada canal y un parámetro de nivel que representa una potencia total de los dos canales para cada banda de frecuencia, que comprende
2. Método según la reivindicación 1, en el que la etapa de conversión se realiza basándose en las siguientes ecuaciones:
en las que PL es el valor de potencia del primer canal,
en las que PR es el valor de potencia del segundo canal,
en las que B es el parámetro de equilibrio, y
en las que P es el parámetro de nivel.
Patentes similares o relacionadas:
MÉTODO, DISPOSITIVO, APARATO CODIFICADOR, APARATO DECODIFICADOR Y SISTEMA DE AUDIO, del 8 de Febrero de 2012, de Koninklijke Philips Electronics N.V. Dolby International AB: Método de procesamiento de una señal de mezcla descendente estéreo que comprende señales estéreo primera y segunda (L0, R0), codificando la señal de mezcla […]
SISTEMA Y PROCEDIMIENTO PARA LA TRANSMISIÓN INALÁMBRICA DE SEÑALES DE AUDIO DIGITALES, del 20 de Diciembre de 2011, de GRUNDIG MULTIMEDIA B.V.: Sistema para la transmisión inalámbrica de señales de audio digitales con una unidad central , con un dispositivo para la selección […]
DERIVACIÓN HÍBRIDA DE CANALES DE AUDIO DE SONIDO ENVOLVENTE COMBINANDO DE MANERA CONTROLABLE COMPONENTES DE SEÑAL DE SONIDO AMBIENTE Y CON DECODIFICACIÓN MATRICIAL, del 13 de Mayo de 2011, de DOLBY LABORATORIES LICENSING CORPORATION: Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes […]
CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AMPLIABLE PARA APLICACIONES DE BAJA VELOCIDAD DE TRANSFERENCIA DE BITS, del 19 de Agosto de 2010, de CODING TECHNOLOGIES SWEDEN AB: Método para codificar una envolvente espectral de potencia de una señal de audio estereofónica o de una señal de audio multicanal que tiene dos canales, teniendo […]
PROCEDIMIENTO Y APARATO PARA EL REALZADO DEL ESTEREO EN GRABACIONES DE AUDIO, del 23 de Junio de 2010, de UNIVERSIDAD POLITECNICA DE VALENCIA: Procedimiento y aparato para el realzado del estéreo en grabaciones de audio. La presente invención se enmarca dentro del campo de sistemas de procesado digital de la señal […]
CONTROL ADAPTATIVO DE COLA DE ECO PARA SINTESIS DE AUDIO PSEUDOESTEREOFONICA, del 13 de Mayo de 2010, de CODING TECHNOLOGIES AB: Unidad de reverberación para generar un primer canal y un segundo canal de una señal estereofónica o una señal multicanal, que comprende: un detector para detectar terminaciones […]
PROCEDIMIENTO Y DISPOSITIVO DE ESPACIALIZACION SONORA BINAURAL EFICAZ EN EL DOMINIO TRANSFORMADO, del 7 de Diciembre de 2009, de FRANCE TELECOM: Procedimiento de espacialización sonora de una escena de audio que comprende un primer conjunto que comprende un número, superior o igual a la unidad, […]
PROCEDIMIENTO Y APARATO PARA CODIFICAR Y DECODIFICAR SEÑALES DIGITALES, del 13 de Enero de 2012, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento de codificación de señales digitales compuestas de al menos dos canales, comprendiendo el procedimiento: dividir las señales digitales […]