Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase.

Un aparato (100; 200) para mezclar en forma ascendente una señal de audio con mezcla descendente (110;

210) que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada en forma ascendente (120;214) que describe una pluralidad de canales de audio mezclada en forma ascendente, el aparato comprende: un mezclador ascendente (130;230) configurado para aplicar parámetros de mezcla ascendente temporalmente variables (144; 262) para mezclar en forma ascendente la señal de audio con mezcla descendente, para obtener la señal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmente variables comprenden valores de fase suavizados temporalmente variables (144a; 270);

un determinador de parámetro (140; 250), donde el determinador de parámetro está configurado para obtener uno o más parámetros de mezcla ascendente temporalmente suavizados (αn) para usar por el mezclador ascendente (130;230) teniendo en cuenta una información de entrada de parámetro cuantizada (142; 212),

donde el determinador de parámetro (140;250) está configurado para combinar una versión ajustada a escala ((1-δ) a~ n- 1) de un valor de fase suavizado previo ( α˜ n-1) con una versión ajustada a escala (δ-n) de una información de fase de entrada actual (αn) utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fase suavizado actual ( α ˜ n) teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada actual.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11183975.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: HILPERT, JOHANNES, ROBILLIARD,JULIEN, NEUSINGER,MATTHIAS.

Fecha de Publicación: 23 de Julio de 2014.

Clasificación Internacional de Patentes:

G10L19/008 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.

PDF original: ES-2511390_T3.pdf

Fragmento de la descripción:

Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase

Campo Técnico

[0001] Las formas de realización de acuerdo con la invención se relacionan con un aparato, un procedimiento, y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente.

[0002] Algunas formas de realización de acuerdo con la invención se relacionan con suavización de parámetros de fase adaptativa para la codificación de audio paramétrica con múltiples canales.

Antecedentes de la Invención

[0003] A continuación, se describe el contexto de la invención. Recientes desarrollos en el área de la codificación de audio paramétrica otorga técnicas para la codificación conjunta de señales de audio con múltiples canales (Ej. 5,1) en uno (o más) canales de mezcla descendente más una corriente de información complementaria. Estas técnicas se conocen como Codificación de pistas binaural, Estéreo Paramétrico, y Envolvente MPEG etc.

[0004] Muchas publicaciones describen el procedimiento de codificación paramétrico con múltiples canales denominado "Codificación de pistas binaural", ver por ejemplo referencias [1][2][3][4][5].

[0005] "Estéreo Paramétrico" es una técnica relacionada con la codificación paramétrica de una señal estéreo de dos canales basada en una señal mono transmitida más información complementaria del parámetro, ver, por ejemplo, referencias [6][7],

[0006] " Envolvente MPEG" es una norma ISO para la codificación paramétrica con múltiples canales, ver, por ejemplo, referencia [8],

[0007] Las técnicas mencionadas anteriormente se basan en la transmisión de pistas relevantes perceptuales para la audición espacial humana en forma compacta al receptor junto con una señal de mezcla descendente asociada, mono o estéreo. La pistas típicas pueden ser diferencias de nivel entre canales (ILD, por su sigla en inglés), correlación o coherencia entre canales (ICC, por su sigla en inglés), como también diferencias de tiempo entre canales (ITD, por su sigla en inglés), diferencias de fase entre canales (IPD, por su sigla en inglés), y diferencias de fase totales (OPD, por su sigla en inglés).

[0008] Estos parámetros son, en algunos casos, transmitidos en una frecuencia y resolución de tiempo adaptadas a la

resolución auditiva humana.

[0009] Para la transmisión, los parámetros son típicamente cuantizados (o, en algunos casos, deben ser cuantizados), donde a menudo (especialmente para escenarios de baja secuencia de bits) se usa una cuantización gruesa.

[0010] El intervalo de actualización en el tiempo lo determina el codificador, dependiendo de las características de una señal. Por lo tanto, no se transmiten parámetros para cada muestra de señal con mezcla descendente,. En otras palabras en algunos casos una velocidad de transmisión (o frecuencia de transmisión, o velocidad de actualización) de parámetros que describen las pistas mencionadas anteriormente puede ser menor a la velocidad de transmisión (o frecuencia de transmisión, o velocidad de actualización) de muestras de audio (o grupos de muestras de audio).

[0011] En vez de transmitir diferencias de fase entre canales (IPDs, por su sigla en inglés) y diferencias de fase totales (OPDs, por su sigla en inglés), es también posible sólo transmitir diferencias de fase entre canales (IPDs, por su sigla en inglés) y estimar las diferencias de fase totales (OPDs, por su sigla en inglés) en el decodificador.

[0012] Como el decodificador puede, en algunos casos, aplicar parámetros en forma continua con el tiempo sin espacios, Ej. para cada muestra (o muestra de audio), se necesitan parámetros intermedios para ser derivados del lado del decodificador, típicamente mediante interpolación entre grupos de parámetros pasados y actuales.

[0013] Algunos procedimientos de interpolación convencionales, sin embargo, resultan en una pobre calidad de audio.

[0014] A continuación se describe un esquema genérico de codificación de pistas binaural, haciendo referencia a la Fig. 7. La Fig. 7 muestra un diagrama de bloque esquemático de un sistema de transmisión de codificación de pista binaural 800, que comprende un codificador de pista binaural 810 y decodificador de pista binaural 820. El codificador de pista binaural 810 puede, por ejemplo, recibir una pluralidad de señales de audio 812a, 812b, y 812c. Además, el codificador de pista binaural 810 está configurado para mezclar en forma descendente las señales de entrada de audio 812a-812c utilizando un mezclador descendente 814 para obtener una señal con mezcla descendente 816, que puede, por ejemplo, ser una señal suma, y puede ser designada como "AS" o "X". Además, el codificador de pista binaural 810 está configurado para analizar señales de entrada de audio 812a-812c utilizando un analizador 818 para obtener una señal de Información complementaria 819 ("SI", por su sigla en inglés). Una señal suma 816 y señal de información complementarla 819 se transmiten desde el codificador de pista binaural 810 al decodificador de pista binaural 820. El decodlflcador de pista binaural 820 puede ser configurado para sintetizar una señal de entrada de audio con múltiples canales que comprende, por ejemplo, canales de audio y1, y2,... , yN teniendo en cuenta una señal suma 816 y pistas entre canales 824. Para tal fin, el decodificador de pista binaural 820 puede comprender un sintetizador de pista binaural 822, que recibe la señal suma 816 y pistas entre canales 824, y provee las señales de audio y1, y2,..., yN.

[0015] El decodificador de pista binaural 820 además comprende un procesador de información complementaria 826, configurado para recibir información complementaria 819 y, opcionalmente, una entrada de usuario 827. El procesador de información complementaria 826 está configurado para proveer pistas entre canales 824 teniendo en cuenta la información complementaria 819 y entrada de usuario opcional 827.

[0016] Para sintetizar, las señales de entrada de audio se analizan y se mezclan en forma descendente. La señal suma más la información complementaria se transmiten al decodificador. Las pistas entre canales se generan desde la Información complementaria y entrada de usuario local. La sintetización de codificación de pistas binaural genera una señal de salida de audio con múltiples canales.

[0017] Para detalles, se hace referencia a los artículos "Codificación de pista binaural Parte II: Esquemas y aplicaciones," por C. Faller y F. Baumgarte (publicado en: IEEE Transacciones sobre Discurso y Procesamiento de Audio

vol. 11, no. 6, Nov. 2003).

[0018] El documento "MPEG4-Ext2: CE en estéreo paramétrico de Baja Complejidad" (MPEG2003 / M10366, Organización Internacional de Normalización) comprende una descripción técnica de un experimento básico en estéreo paramétñco de baja complejidad. Dicho documento describe una visión general de alto nivel de la alternativa de baja complejidad basada en QMF a la síntesis estéreo paramétrica basada en FFT. En lugar de FFT, se emplean bancos de filtros basados en QMF compleja híbrida. Estos bancos de filtros complejos híbridos operan en un banco de filtros QMF complejo 64 tal como se emplea en la tecnología de replicación de banda espectral. Las sub-bandas de QMF no procesadas se retrasan para sincronizarse con las sub-bandas QMF filtradas híbridas complejas. Esta representación en el dominio de la frecuencia se alimenta a un procedimiento de de-correlación para proporcionar una componente de señal correlacionada y no correlacionada. Estas señales se alimentan a continuación a un módulo de procesamiento estéreo donde se aplican las diferencias de intensidad, de tiempo (fase) y correlaciones, lo que resulta en una representación espectral izquierda y derecha de las señales temporales izquierda y derecha, respectivamente. Estas últimas se obtienen por medio de dos bancos de filtros de síntesis QMF que se extienden de nuevo con filtros de síntesis híbridos en las sub-bandas QMF inferiores. En la síntesis, los filtros híbridos se implementan como simples adiciones. El módulo de estéreo paramétrico basado en QMF alternativo sustituye el módulo basado en FFT existente. Exactamente de la misma manera proporciona la interfaz entre la señal sintetizada monoaural paramétrica M y la señales de salida estéreo L y R, respectivamente.

[0019] El documento WO 2005/086139 describe una codificación de audio multi-canal. Múltiples canales de audio se combinan ya sea a una señal compuesta monofónica o de múltiples canales de audio, junto con información auxiliar relacionada... [Seguir leyendo]

Reivindicaciones:

1. Un aparato (100; 200) para mezclar en forma ascendente una señal de audio con mezcla descendente (110;210) que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada en forma ascendente (120;214) que describe una pluralidad de canales de audio mezclada en forma ascendente, el aparato comprende:

un mezclador ascendente (130;230) configurado para aplicar parámetros de mezcla ascendente temporalmente variables (144; 262) para mezclar en forma ascendente la señal de audio con mezcla descendente, para obtener la señal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmente variables comprenden valores de fase suavizados temporalmente variables (144a; 270);

un determinador de parámetro (140; 250), donde el determinador de parámetro está configurado para obtener uno o más parámetros de mezcla ascendente temporalmente suavizados (a) para usar por el mezclador ascendente (130;230) teniendo en cuenta una información de entrada de parámetro cuantizada (142; 212),

donde el determinador de parámetro (140;250) está configurado para combinar una versión ajustada a escala ((1-6) a n- 1) de un valor de fase suavizado previo (Sn-i) con una versión ajustada a escala (6an) de una información de fase de entrada actual (an) utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fase suavizado actual (a, n) teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada actual.

2. El aparato (100;200) de acuerdo con la reivindicación 1, donde el determinador de parámetro (140;250) está configurado para combinar la versión ajustada a escala (1-6)5 n-i) del valor de fase suavizado previo (5n-i) con la versión ajustada a escala (6an) de la información de fase de entrada actual (an), de modo que el valor de fase suavizado actual (Sn) se encuentra en una región de ángulo menor entre una primera región de ángulo y una segunda región de ángulo, donde la primera región de ángulo se extiende, en una dirección matemáticamente positiva, desde una primera dirección de inicio definida por el valor de fase suavizado previo (5 n-i) hasta una primera dirección final definida por la información de fase de entrada actual (an), y donde la segunda región de ángulo se extiende en una dirección matemáticamente positiva, desde una segunda dirección de inicio definida por la información de fase de entrada actual (an) hasta una segunda dirección final definida por el valor de fase suavizado previo (5 n-i).

3. El aparato (100;200) de acuerdo con la reivindicación 1 o reivindicación 2, donde el determinador de parámetro (140;250) está configurado para seleccionar una regla de combinación entre una pluralidad de diferentes reglas de combinación dependiendo de una diferencia (an-5n-i) entre la información de fase de entrada actual (an) y el valor de fase suavizado previo (5n-i), y para determinar el valor de fase suavizado actual ((Tí n) utilizando la regla de combinación seleccionada.

4. El aparato (100;200) de acuerdo con la reivindicación 3, donde el determinador de parámetro (140;250) está configurado para seleccionar una regla de combinación de fase básica, si la diferencia entre la información de fase de entrada actual (an) y el valor de fase suavizado previo (5n-i) se encuentra entre -tt y +tt, y para seleccionar por otro lado una o más regla de combinación de fase de adaptación diferente;

donde la regla de combinación de fase básica define una combinación lineal, sin sumando constante de la versión ajustada a escala (óan) de la información de fase de entrada actual y versión ajustada a escala ((1-6)5 n-i) del valor de fase suavizado previo; y

donde la una o más regla de combinación de adaptación de fase definen una combinación lineal, tomando en cuenta un sumando de adaptación de fase constante (+tt, -tt), de la versión ajustada a escala de la información de fase de entrada actual y la versión ajustada a escala del valor de fase suavizado previo.

5. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 4, donde el determinador de parámetro está configurado para obtener un valor de fase suavizado actual dé n de acuerdo con las siguiente ecuación:

\S(an-2n) + (\-8)án_l <{S(an+2n) + (\-8)án_l San+(\-8)án_x

)mod2n si (an-án_x) > n )mod2^ sí {an-án_x)<-7t

En los demás casos

donde

Oí n-i designa el valor de fase suavizado previo; an designa la Información de fase de entrada actual;

"mod" designa un operador de MÓDULO; y

ó designa el parámetro de suavlzación, cuyo valor es un intervalo entre cero y uno, excluyendo los límites del intervalo.

6. El (100;200) aparato de acuerdo con una de las reivindicaciones 1 a 5, donde el determlnador de parámetro (140;250) comprende un controlador de suavización,

donde el controlador de suavización está configurado para desactivar una funcionalidad de suavización de valor de fase en forma selectiva actual si la diferencia entre una información de fase suavizada actual (OC n) y la cantidad de fase de entrada correspondiente (an) es mayor a un valor umbral predeterminado.

7. El aparato (100;200) de acuerdo con la reivindicación 6, donde el controlador de suavlzación está configurado para evaluar, como el valor de fase suavizada actual, una diferencia entre dos valores de fase suavizados (ai, a2), y para evaluar, como la Información de fase de entrada actual correspondiente, una diferencia entre dos valores de fase de entrada (256) correspondiente a los dos valores de fase suavizados (ai, a2).

8. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 7, donde el mezclador ascendente (130;230) está configurado para aplicar, para una porción de tiempo dada, diferentes rotaciones de fase temporalmente suavizadas (ai,

a2), definidas por diferentes valores de fase suavizados (ai, a2), para obtener señales (yx{k),y2{k)) de diferentes canales de audio mezclados en forma ascendente con diferencia de fase entre canales, si se activa una función de suavización, y para aplicar rotaciones de fase no suavizadas en forma temporal (256), definidas por diferentes valores de fase no suavizados, para obtener señales de diferentes canales de audio mezclados en forma ascendente con diferencia de fase entre canales, si se desactiva una función de suavización; donde el determinador de parámetro (140;250) comprende un controlador de suavización; y

donde el controlador de suavización está configurado para desactivar una función de suavización del valor de fase en forma selectiva si una diferencia entre los valores de fase suavizados (ai, a2) aplicados para obtener las señales

(yx (k), y2 (k)) de los diferentes canales de audio mezclados en forma ascendente difiere de un valor de diferencia de fase entre canales no suavizado (212), recibido por el aparato (100;200) o derivado (252) de la información recibida (212) por el aparato, por más de un valor umbral predeterminado.

9. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 8, donde el determinador de parámetro (140;250) está configurado para ajustar una constante de tiempo de filtrado (5) para determinar una secuencia (262) de valores de fase suavizados (¡?n) dependiendo de una diferencia actual entre un valor de fase suavizado actual (Sn) y la correspondiente Información de fase de entrada actual (an).

10. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 9, donde el determinador de parámetro (140;250) está configurado para ajustar una constante de tiempo de filtrado (ó) para determinar una secuencia (262) de valores de fase suavizados (a n) dependiendo de una diferencia entre diferencia de fase suavizada entre canales definida por la diferencia entre dos valores de fase suavizados (ai, a2) asociados con diferentes canales de la señal de audio mezclada en forma ascendente, y una diferencia de fase entre canales no suavizada, definida por una información de diferencia de fase entre canales no suavizada (212).

11. El aparato (100;200) de acuerdo con una de las reivindicaciones 1 a 10, donde el aparato para mezclar en forma ascendente está configurado para activar y desactivar una función de suavización de valor de fase en forma selectiva dependiendo de una información extraída de una corriente de bits de audio.

12. Un procedimiento (700) para mezclar en forma ascendente una señal de audlo con mezcla descendente que describe uno o más canales de audio de mezcla descendente en una señal de audio mezclada en forma ascendente que describe una pluralidad de canales de audio mezclados en forma ascendente, el procedimiento comprende:

Combinar (710) una versión ajustada a escala del valor de fase suavizado previo con una versión ajustada a

escala de una información de fase de entrada actual utilizando un algoritmo de limitación de cambio de fase, para determinar un valor de fase actual temporalmente suavizado teniendo en cuenta el valor de fase suavizado previo y la información de fase de entrada actual; y

aplicar (720) parámetros de mezcla ascendente temporalmente variables, para mezclar en forma ascendente

una señal de audio con mezcla descendente para obtener una señal de audio mezclada en forma ascendente, donde los parámetros de mezcla ascendente temporalmente variables comprenden valores de fase temporalmente suavizados.

13. Un programa de computación adaptado para desarrollar el procedimiento de acuerdo con la reivindicación 12, donde

el programa de computación opera en una computadora.

Patentes similares o relacionadas:

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación y descodificación de diferencias de fase entre canales entre señales de audio, del 8 de Julio de 2020, de QUALCOMM INCORPORATED: Un dispositivo para procesar señales de audio que comprende: un analizador de desajuste temporal entre canales configurado para determinar […]

Codificación de múltiples señales de audio, del 1 de Julio de 2020, de QUALCOMM INCORPORATED: Un dispositivo que comprende: un codificador configurado para: determinar un primer valor de desajuste indicativo de una cantidad de desajuste temporal […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Decodificador de audio multicanal, codificador de audio multicanal, procedimientos y programa informático que utilizan un ajuste basado en señal residual de una contribución de una señal decorrelacionada, del 13 de Mayo de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un decodificador de audio multicanal para proporcionar al menos dos señales de audio de salida sobre la base de una […]

Aparato y método para mejorar un sistema mejorador de sonido de señal de audio, del 15 de Abril de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para mejorar una señal de audio que es una señal mono o una señal tipo mono, que comprende: un procesador de señales para procesar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]