Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase.

Un aparato (100; 200) para mezclar en forma ascendente una señal de audio con mezcla descendente

(110;210) que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada enforma ascendente (120;214) que describe una pluralidad de canales de audio mezclada en forma ascendente, elaparato comprende:

un mezclador ascendente (130;230) configurado para aplicar parámetros de mezcla ascendente temporalmentevariables (144; 262) para mezclar en forma ascendente la señal de audio con mezcla descendente, para obtener laseñal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmentevariables comprenden valores de fase suavizados temporalmente variables (144a; 270);

un determinador de parámetro (140; 250), donde el determinador de parámetro está configurado para obtener uno omás parámetros de mezcla ascendente temporalmente suavizados (αn) para usa por el mezclador ascendente(130;230) teniendo en cuenta una información de entrada de parámetro cuantizada (142; 212),

donde el determinador de parámetro (140;250) está configurado para combinar una versión ajustada a escala ((1-α) &alpha ~n-1) de un valor de fase suavizado previo ( α ~n-1) con una versión ajustada a escala (αn) de una información defase de entrada (αn) utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fasesuavizado actual ( α ~n) teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada.donde el determinador de parámetro está configurado para obtener un valor de fase suavizado actual α ~ n deacuerdo con las siguiente ecuación:**Fórmula**

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/054448.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: HILPERT, JOHANNES, ROBILLIARD,JULIEN, NEUSINGER,MATTHIAS.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/008 (Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p.ej. estéreo conjunto, codificación de la intensidad o matrizado)

PDF original: ES-2452569_T3.pdf

 

google+ twitter facebookPin it
Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase.

Fragmento de la descripción:

Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase.

Campo Técnico [0001] Las formas de realización de acuerdo con la invención se relacionan con un aparato, un procedimiento, y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente.

Algunas formas de realización de acuerdo con la invención se relacionan con suavización de parámetros de fase adaptativa para la codificación de audio paramétrica con múltiples canales.

Antecedentes de la Invención [0003] A continuación, se describe el contexto de la invención. Recientes desarrollos en el área de la codificación de audio paramétrica otorga técnicas para la codificación conjunta de señales de audio con múltiples canales (Ej. 5, 1) en uno (o más) canales de mezcla descendente más una corriente de información complementaria. Estas técnicas se conocen como Codificación de pistas binaural, Estéreo Paramétrico, y Envolvente MPEG etc.

Muchas publicaciones describen el procedimiento de codificación paramétrico con múltiples canales denominado “Codificación de pistas binaural”, ver por ejemplo referencias [1][2][3][4][5].

“Estéreo Paramétrico” es una técnica relacionada con la codificación paramétrica de una señal estéreo de dos canales basada en una señal mono transmitida más información complementaria del parámetro, ver, por ejemplo, referencias [6][7].

“Envolvente MPEG” es una norma ISO para la codificación paramétrica con múltiples canales, ver, por ejemplo, referencia [8].

Las técnicas mencionadas anteriormente se basan en la transmisión de pistas relevantes perceptuales para la audición espacial humana en forma compacta al receptor junto con una señal de mezcla descendente asociada, mono o estéreo. La pistas típicas pueden ser diferencias de nivel entre canales (ILD, por su sigla en inglés) , correlación o coherencia entre canales (ICC, por su sigla en inglés) , como también diferencias de tiempo entre canales (ITD, por su sigla en inglés) , diferencias de fase entre canales (IPD, por su sigla en inglés) , y diferencias de fase totales (OPD, por su sigla en inglés) .

Estos parámetros son, en algunos casos, transmitidos en una frecuencia y resolución de tiempo adaptadas a la resolución auditiva humana.

Para la transmisión, los parámetros son típicamente cuantizados (o, en algunos casos, deben ser cuantizados) , donde a menudo (especialmente para escenarios de baja secuencia de bits) se usa una cuantización gruesa.

El intervalo de actualización en el tiempo lo determina el codificador, dependiendo de las características de una señal. Por lo tanto, no se transmiten parámetros para cada muestra de señal con mezcla descendente, . En otras palabras en algunos casos una velocidad de transmisión (o frecuencia de transmisión, o velocidad de actualización) de parámetros que describen las pistas mencionadas anteriormente puede ser menor a la velocidad de transmisión (o frecuencia de transmisión, o velocidad de actualización) de muestras de audio (o grupos de muestras de audio) .

En vez de transmitir diferencias de fase entre canales (IPDs, por su sigla en inglés) y diferencias de fase totales (OPDs, por su sigla en inglés) , es también posible sólo transmitir diferencias de fase entre canales (IPDs, por su sigla en inglés) y estimar las diferencias de fase totales (OPDs, por su sigla en inglés) en el decodificador.

Como el decodificador puede, en algunos casos, aplicar parámetros en forma continua con el tiempo sin espacios, Ej. para cada muestra (o muestra de audio) , se necesitan parámetros intermedios para ser derivados del lado del decodificador, típicamente mediante interpolación entre grupos de parámetros pasados y actuales.

Algunos procedimientos de interpolación convencionales, sin embargo, resultan en una pobre calidad de audio.

A continuación se describe un esquema genérico de codificación de pistas binaural, haciendo referencia a la Fig. 7. La Fig. 7 muestra un diagrama de bloque esquemático de un sistema de transmisión de codificación de pista binaural 800, que comprende un codificador de pista binaural 810 y decodificador de pista binaural 820. El codificador de pista binaural 810 puede, por ejemplo, recibir una pluralidad de señales de audio 812a, 812b, y 812c. Además, el codificador de pista binaural 810 está configurado para mezclar en forma descendente las señales de entrada de audio 812a-812c utilizando un mezclador descendente 814 para obtener una señal con mezcla descendente 816, que puede, por ejemplo, ser una señal suma, y puede ser designada como “AS” o “X”. Además, el

codificador de pista binaural 810 está configurado para analizar señales de entrada de audio 812a-812c utilizando un analizador 818 para obtener una señal de información complementaria 819 (“SI”, por su sigla en inglés) . Una señal suma 816 y señal de información complementaria 819 se transmiten desde el codificador de pista binaural 810 al decodificador de pista binaural 820. El decodificador de pista binaural 820 puede ser configurado para sintetizar una señal de entrada de audio con múltiples canales que comprende, por ejemplo, canales de audio y1, y2, … , yN teniendo en cuenta una señal suma 816 y pistas entre canales 824. Para tal fin, el decodificador de pista binaural 820 puede comprender un sintetizador de pista binaural 822, que recibe la señal suma 816 y pistas entre canales 824, y provee las señales de audio y1, y2, …, yN.

El decodificador de pista binaural 820 además comprende un procesador de información complementaria 826, configurado para recibir información complementaria 819 y, opcionalmente, una entrada de usuario 827. El procesador de información complementaria 826 está configurado para proveer pistas entre canales 824 teniendo en cuenta la información complementaria 819 y entrada de usuario opcional 827.

Para sintetizar, las señales de entrada de audio se analizan y se mezclan en forma descendente. La señal suma más la información complementaria se transmiten al decodificador. Las pistas entre canales se generan desde la información complementaria y entrada de usuario local. La sintetización de codificación de pistas binaural genera una señal de salida de audio con múltiples canales.

Para detalles, se hace referencia a los artículos “Codificación de pista binaural Parte II: Esquemas y

aplicaciones, " por C. Faller y F. Baumgarte (publicado en: IEEE Transacciones sobre Discurso y Procesamiento de Audio vol. 11, no. 6, Nov. 2003) .

El documento " MPEG4-Ext2: CE on Low Complexity parametric stereo " ( MPEG2003 / M 10366 , la Organización Internacional para la Estandarización ) comprende una descripción técnica de un experimento básico en estéreo paramétrico de baja complejidad. Dicho documento describe una visión de alto nivel de la alternativa de baja complejidad basada en QMF a la síntesis estéreo paramétrico basada en FFT. En lugar de FFT , se emplean bancos de filtros basadosen QMF complejos híbridos. Estos bancos de filtros complejos híbridos operan en un filtro de bancos QMF complejo de 64 bandas como se emplea en la tecnología de replicación de banda espectral. Las subbandas QMF no procesadas se retrasan para sincronizarse con las sub-bandas de QMF filtradas híbridas complejas. Esta representación en el dominio de frecuencia se alimenta a un procedimiento de decorrelación para proporcionar una componente de señal correlacionada y una componente de señal no correlacionada. Estas señales se alimentan a continuación... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100; 200) para mezclar en forma ascendente una señal de audio con mezcla descendente (110;210) que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada en forma ascendente (120;214) que describe una pluralidad de canales de audio mezclada en forma ascendente, el aparato comprende:

un mezclador ascendente (130;230) configurado para aplicar parámetros de mezcla ascendente temporalmente variables (144; 262) para mezclar en forma ascendente la señal de audio con mezcla descendente, para obtener la señal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmente variables comprenden valores de fase suavizados temporalmente variables (144a; 270) ;

un determinador de parámetro (140; 250) , donde el determinador de parámetro está configurado para obtener uno o más parámetros de mezcla ascendente temporalmente suavizados (αn) para usa por el mezclador ascendente (130;230) teniendo en cuenta una información de entrada de parámetro cuantizada (142; 212) ,

donde el determinador de parámetro (140;250) está configurado para combinar una versión ajustada a escala ( (1

~~

δ) an-1) de un valor de fase suavizado previo (an-1) con una versión ajustada a escala (δαn) de una información de fase de entrada (αn) utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fase ~

suavizado actual (an) teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada.

~

donde el determinador de parámetro está configurado para obtener un valor de fase suavizado actual an de acuerdo con las siguiente ecuación:

5a J+ )

( -2) (1-5a mo J if aa >J

nn-1111 nn-111

{

n (1 5) else

5a+

donde ~

an-1 designa el valor de fase suavizado previo; αn designa la información de fase de entrada;

“mod” designa un operador de MÓDULO; y

δ designa el parámetro de suavización, cuyo valor es un intervalo entre cero y uno, excluyendo los límites del intervalo.

2. El aparato (100;200) de acuerdo con la reivindicación 1, donde el determinador de parámetro (140;250) está

~~

configurado para combinar la versión ajustada a escala (1-δ) an-1) del valor de fase suavizado previo (an-1) con la versión ajustada a escala (δαn) de la información de fase de entrada (αn) , de modo que el valor de fase suavizado ~

actual (an) se encuentra en una región de ángulo menor entre una primera región de ángulo y una segunda región de ángulo, donde la primera región de ángulo se extiende, en una dirección matemáticamente positiva, desde una ~

primera dirección de inicio definida por el valor de fase suavizado previo ( an-1) hasta una primera dirección final definida por la información de fase de entrada (αn) , y donde la segunda región de ángulo se extiende en una dirección matemáticamente positiva, desde una segunda dirección de inicio definida por la información de fase de ~

entrada (αn) hasta una segunda dirección final definida por el valor de fase suavizado previo (an-1) .

3. El aparato (100;200) de acuerdo con la reivindicación 1 o reivindicación 2, donde el determinador de parámetro (140;250) está configurado para seleccionar una regla de combinación entre una pluralidad de diferentes ~

reglas de combinación dependiendo de una diferencia (αn-an-1) entre la información de fase de entrada (αn) y el

~~

valor de fase suavizado previo (an-1) , y para determinar el valor de fase suavizado actual ( an) utilizando la regla de combinación seleccionada.

4. El aparato (100;200) de acuerdo con la reivindicación 3, donde el determinador de parámetro (140;250) está configurado para seleccionar una regla de combinación de fase básica, si la diferencia entre la información de fase ~

de entrada (αn) y el valor de fase suavizado previo ( an-1) se encuentra entre –π y +π, y para seleccionar por otro lado una o más regla de combinación de fase de adaptación diferente;

donde la regla de combinación de fase básica define una combinación lineal, sin sumando constante de la versión ~

ajustada a escala (δαn) de la información de fase de entrada y versión ajustada a escala ( (1-δ)

a

n-1) del valor de fase suavizado previo; y

donde la una o más regla de combinación de adaptación de fase definen una combinación lineal, tomando en cuenta un sumando de adaptación de fase constante (+π, -π) , de la versión ajustada a escala de la información de fase de entrada y la versión ajustada a escala del valor de fase suavizado previo.

5. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 4, donde el determinador de parámetro (140;250) comprende un controlador de suavización,

donde el controlador de suavización está configurado para desactivar una funcionalidad de suavización de valor de ~

fase en forma selectiva si la diferencia entre una cantidad de fase suavizada (

a

n) y la cantidad de fase de entrada correspondiente (αn) es mayor a un valor umbral predeterminado.

6. El aparato (100;200) de acuerdo con la reivindicación 5, donde el controlador de suavización está configurado para evaluar, como la cantidad de fase suavizada, una diferencia entre dos valores de fase suavizados (α1, α2) , y para evaluar, como la cantidad de fase de entrada correspondiente, una diferencia entre dos valores de fase de entrada (256) correspondiente a los dos valores de fase suavizados (α1, α2) .

7. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 6, donde el mezclador ascendente (130;230) está configurado para aplicar, para una porción de tiempo dada, diferentes rotaciones de fase temporalmente suavizadas (α1, α2) , definidas por diferentes valores de fase suavizados (α1, α2) , para obtener

~~

señales ( y (k) , y (k) ) de diferentes canales de audio mezclados en forma ascendente con diferencia de fase 12 entre canales, si se activa una función de suavización, y para aplicar rotaciones de fase no suavizadas en forma temporal (256) , definidas por diferentes valores de fase no suavizados, para obtener señales de diferentes canales de audio mezclados en forma ascendente con diferencia de fase entre canales, si se desactiva una función de suavización;

donde el determinador de parámetro (140;250) comprende un controlador de suavización; y

donde el controlador de suavización está configurado para desactivar una función de suavización del valor de fase en forma selectiva si una diferencia entre los valores de fase suavizados (α1, α2) aplicados para obtener las señales ~~

( y (k) , y (k) ) de los diferentes canales de audio mezclados en forma ascendente difiere de un valor de diferencia 12 de fase entre canales no suavizado (212) , recibido por el aparato (100;200) o derivado (252) de la información recibida (212) por el aparato, por más de un valor umbral predeterminado.

8. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 7, donde el determinador de parámetro (140;250) está configurado para ajustar una constante de tiempo de filtrado (δ) para determinar una secuencia (262)

~~

de valores de fase suavizados (

a

n) dependiendo de una diferencia actual entre un valor de fase suavizado (

a

n) y

el correspondiente valor de fase de entrada (αn) .

9. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 8, donde el determinador de parámetro (140;250) está configurado para ajustar una constante de tiempo de filtrado (δ) para determinar una ~

secuencia (262) de valores de fase suavizados (

a

n) dependiendo de una diferencia entre diferencia de fase suavizada entre canales definida por la diferencia entre dos valores de fase suavizados (α1, α2) asociados con diferentes canales de la señal de audio mezclada en forma ascendente, y una diferencia de fase entre canales no suavizada, definida por una información de diferencia de fase entre canales no suavizada (212) .

10. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 9, donde el aparato para mezclar en forma ascendente está configurado para activar y desactivar una función de suavización de valor de fase en forma selectiva dependiendo de una información extraída de una corriente de bits de audio.

11. Un procedimiento (700) para mezclar en forma ascendente una señal de audio con mezcla descendente que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada en forma ascendente que describe una pluralidad de canales de audio mezclados en forma ascendente, el procedimiento comprende:

Combinar (710) una versión ajustada a escala del valor de fase suavizado previo con una versión ajustada a escala de una información de fase de entrada actual utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fase actual temporalmente suavizado teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada; y

aplicar (720) parámetros de mezcla ascendente temporalmente variables, para mezclar en forma ascendente una señal de audio con mezcla descendente para obtener una señal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmente variables comprenden valores de fase temporalmente suavizados.

~

donde el valor de fase suavizado actual an se obtiene de acuerdo con las siguiente ecuación:

5a J+ )

( -2) (1-5a mo J if aa >J

nn-1111 nn-111

{

n (1 5) else

5a+

donde 10

~

an-1 designa el valor de fase suavizado previo; αn designa la información de fase de entrada;“mod” designa un operador de MÓDULO; y δ designa el parámetro de suavización, cuyo valor es un intervalo entre cero y uno, excluyendo los límites 15 del intervalo.

12. Un programa de computación para desarrollar el procedimiento de acuerdo con la reivindicación 11, cuando el programa de computación se ejecuta en una computadora.