Aparato, procedimiento y programa de computadora para mezclar hacia arriba una señal de audio mezclada hacia abajo.
El aparato (100; 200) para mezclar hacia arriba una señal de audio mezclada hacia abajo (110;
210) que describeuno o más canales de audio mezclados hacia abajo en una señal de audio mezclada hacia arriba (120; 214)describiendo una pluralidad de canales de audio mezclados hacia arriba, el aparato que comprende:
un mezclador hacia arriba (130; 230) configurado para aplicar parámetros de mezclado hacia arribatemporalmente variables (150; 262; Hij) para mezclar hacia arriba la señal de audio mezclada hacia abajo (110; 210)para obtener la señal de audio mezclada hacia arriba (120; 214); y
un interpolador de parámetros (140; 260) en donde el interpolador de parámetros está configurado paraobtener uno o más parámetros de mezclado hacia arriba temporalmente interpolados (150; 262) para ser usados porel mezclador hacia arriba (130; 230) sobre la base de una información que describe un primer parámetro demezclado hacia arriba de valor complejo (142) y un subsiguiente segundo parámetro de mezclado hacia arriba devalor complejo (144),
en el que el interpolador de parámetros (140; 260) está configurado para interpolar separadamente
(a) entre un valor de magnitud (254) del primer parámetro de mezclado hacia arriba de valor complejo (142) y unvalor de magnitud (254) del segundo parámetro de mezclado hacia arriba de valor complejo (144), y
(b) entre un valor de fase (256) del primer parámetro de mezclado hacia arriba de valor complejo (142) y un valor defase (256) del segundo parámetro de mezclado hacia arriba de valor complejo (144), ypara obtener el uno o más parámetros de mezclado hacia arriba de valor complejo interpoladostemporalmente (150; 262).
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/050279.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: HILPERT, JOHANNES, ROBILLIARD,JULIEN, NEUSINGER,MATTHIAS.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- H04B1/66 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04B TRANSMISION. › H04B 1/00 Detalles de los sistemas de transmision, no cubiertos por uno de los grupos H04B 3/00 - H04B 13/00; Detalles de los sistemas de transmisión no caracterizados por el medio utilizado para la transmisión. › para reducir el ancho de banda de las señales; para mejorar la eficacia de la transmisión (H04B 1/68 tiene prioridad).
PDF original: ES-2401554_T3.pdf
Fragmento de la descripción:
Aparato, procedimiento y programa de computadora para mezclar hacia arriba una señal de audio mezclada hacia abajo.
Antecedentes de la invención [0001] Realizaciones de acuerdo con la invención se relacionan con un aparato, un procedimiento y un programa de computadora para mezclar hacia arriba (upmix) una señal de audio mezclada hacia abajo (downmix) .
Algunas realizaciones de acuerdo con la invención están relacionadas con una interpolación de parámetro de mezclado hacia arriba preservador de magnitud.
En lo que sigue se describirá el contexto de la invención. El reciente desarrollo en el área de codificación paramétrica de audio produce técnicas para codificar conjuntamente una señal de audio multicanal (por ejemplo, 5.1) en uno (o más) canales mezclados hacia abajo más una transmisión de información lateral. Estas técnicas se conocen como Codificación Binaural, Paramétrico Estéreo, y MPEG Surround, etc.
Una cantidad de publicaciones describen el enfoque de codificación multicanal paramétrico denominado "Codificación Binaural" ("Binaural Cue Coding") , ver por ejemplo, referencias [1][2][3][4][5].
"Paramétrico Estéreo" es una técnica relacionada para la codificación paramétrica de una señal estéreo de dos canales en base a una señal mono transmitida más información lateral de parámetro [6][7].
“MPEG Surround” es un estándar ISO para codificación paramétrica multicanal [8], que también se explican en Breebart et al. (2007) : Background concept, and architecture for the recent MPEG surround standard on multichannel audio compression; AES Journal vol. 55, no.5.
Las mencionadas técnicas se basan en transmitir indicadores perceptuales relevantes para una audición espacial del humano en una forma compacta para el receptor junto con la señal mezclada hacia abajo mono o estéreo asociada. Típicos indicadores pueden ser diferencias de nivel intercanal (ILD) , correlación o coherencia intercanal (ICC) , así como también diferencias de tiempo intercanal (ITD) y diferencias de fase intercanal (IPD) .
Estos parámetros en algunos casos son transmitidos en una resolución de frecuencia y tiempo adaptada a la resolución auditiva del humano. El intervalo de actualización en el tiempo está determinado por el codificador, dependiendo de las características de la señal. Esto significa que no para toda muestra de la señal-mezclada hacia abajo, se transmiten parámetros. En otras palabras, en algunos casos un ritmo de transmisión (o frecuencia de transmisión, o ritmo de actualización) de parámetros que describen los indicadores mencionados arriba, puede ser más pequeño que un ritmo de transmisión (o frecuencia de transmisión, o ritmo de actualización) de muestras de audio (o grupos de muestras de audio) .
Como el decodificador en algunos casos puede tener que aplicar los parámetros continuamente en el tiempo de una manera sin separación, por ejemplo a cada muestra (o muestra de audio) , puede ser necesario establecer parámetros intermedios en el lado del decodificador, típicamente mediante interpolación entre conjuntos de parámetros pasados y actuales.
Sin embargo, algunos enfoques de interpolación convencionales dan por resultado pobre calidad de audio.
En lo que sigue se describirá un esquema de codificación binaural genérico haciendo referencia a la Figura 7. La Figura 7 muestra un diagrama de bloques esquemático de un sistema de transmisión de codificación binaural 800, el cual comprende un codificador de codificación binaural 810 y un decodificador de codificación binaural 820. El codificador de codificación binaural 810 puede recibir, por ejemplo, una pluralidad de señales de audio 812a, 812b y 812c. Además, el codificador de codificación binaural 810 está configurado para mezclar hacia abajo las señales de audio de entrada 812a-812c usando un mezclador hacia abajo 814 para obtener una señal mezclada hacia bajo 816, la cual puede ser, por ejemplo, una señal suma, y la cual puede ser designada con "AS" o "X". Además, el codificador de codificación binaural 810 está configurado para analizar las señales de audio de entrada 812a-812c usando un analizador 818 para obtener la señal de información lateral 819 (“SI”) . La señal suma 816 y la señal de información lateral 819 son transmitidas desde el codificador de codificación binaural 810 al decodificador de codificación binaural 820. El decodificador de codificación binaural 820 puede ser configurado para sintetizar una señal de audio de salida multicanal que comprende, por ejemplo, canales de audio y1, y2, … , yN sobre la base de la señal suma 816 y los indicadores intercanal 824. Con este fin, el decodificador de codificación binaural 820 puede comprender un sintetizador de codificación binaural 822 el cual recibe la señal suma 816 y los indicadores intercanal 824, y provee las señales de audio y1, y2, …, yN.
El decodificador de codificación binaural 820 además comprende un procesador de información lateral 826 el cual está configurado para recibir la información lateral 819 y, opcionalmente, una entrada de usuario 827. El procesador de información lateral 826 está configurado para proveer los indicadores intercanal 824 sobre la base de la información lateral 819 y la entrada de usuario opcional 827.
Para sintetizar, las señales de audio de entrada son analizadas y mezcladas hacia abajo. La señal suma, más la información lateral, es transmitida al decodificador. Los indicadores intercanal son generados a partir de la información lateral y la entrada de usuario. La síntesis de codificación binaural genera la señal de audio de salida multicanal.
Para detalles se hace referencia a los artículos “Binaural Cue Coding Part II: Schemes and applications, " ("Codificación Binarual Parte II: Esquemas y aplicaciones") por C. Faller y F. Baumgarte (publicado en: IEEE Transactions on Speech and Audio Processing, vol. 11, Nº 6, Nov. 2003) .
Sin embargo, se ha hallado que muchos decodificadores de codificación binaural convencionales proveen señales de audio de salida multicanal con calidad degradada si la información lateral es recibida a una menor frecuencia de actualización que la señal mezclada hacia abajo.
En vista de este problema, hay una necesidad de un concepto mejorado de mezclar hacia arriba una señal de audio mezclada hacia abajo llegando a una señal de audio mezclada hacia arriba, el cual reduce una degradación de la impresión auditiva si la frecuencia de actualización de la información lateral es menor que la frecuencia de actualización de la señal de audio mezclada hacia abajo.
Resumen de la invención [0017] El problema técnico se resuelve mediante la invención tal como se define mediante las reivindicaciones independientes. Los detalles de la invención se dan en las reivindicaciones dependientes.
Una realización de acuerdo con la invención crea un aparato para mezclar hacia arriba una señal de audio mezclada hacia abajo describiendo uno o más canales de audio mezclados hacia abajo en un canal de audio mezclado hacia arriba describiendo una pluralidad de canales de audio mezclados hacia arriba. El aparato comprende un mezclador hacia arriba configurado para aplicar parámetros de mezclado hacia arriba temporalmente variables para mezclar hacia arriba la señal de audio mezclada hacia abajo para obtener la señal de audio mezclada hacia arriba. El aparato comprende además un interpolador de parámetros, en donde el interpolador de parámetros está configurado para obtener uno o más parámetros de mezclado hacia arriba temporalmente interpolados para ser usados por el mezclador hacia arriba sobre la base de un primer parámetro de mezclado hacia arriba de valor complejo y un subsiguiente segundo parámetro de mezclado hacia arriba de valor complejo. El interpolador de parámetro está configurado para interpolar separadamente entre un valor de magnitud del primer parámetro de mezclado hacia arriba de valor complejo y un valor de magnitud del segundo parámetro de mezclado hacia arriba de valor complejo, y entre un valor de fase del primer parámetro de mezclado hacia arriba de valor complejo y un valor de fase del segundo parámetro de mezclado hacia arriba de valor complejo, para obtener el uno o más parámetros de mezclado hacia arriba temporalmente interpolados.
Realizaciones de acuerdo con la invención se basan en el hallazgo de que una interpolación temporal separada del valor de magnitud de un parámetro de mezclado hacia arriba y del valor de fase del parámetro de mezclado hacia arriba conlleva una buena impresión auditiva de la señal de audio mezclada hacia arriba porque se mantiene muy pequeña una variación... [Seguir leyendo]
Reivindicaciones:
1. El aparato (100; 200) para mezclar hacia arriba una señal de audio mezclada hacia abajo (110; 210) que describe uno o más canales de audio mezclados hacia abajo en una señal de audio mezclada hacia arriba (120; 214) describiendo una pluralidad de canales de audio mezclados hacia arriba, el aparato que comprende:
un mezclador hacia arriba (130; 230) configurado para aplicar parámetros de mezclado hacia arriba temporalmente variables (150; 262; Hij) para mezclar hacia arriba la señal de audio mezclada hacia abajo (110; 210) para obtener la señal de audio mezclada hacia arriba (120; 214) ; y
un interpolador de parámetros (140; 260) en donde el interpolador de parámetros está configurado para obtener uno o más parámetros de mezclado hacia arriba temporalmente interpolados (150; 262) para ser usados por el mezclador hacia arriba (130; 230) sobre la base de una información que describe un primer parámetro de mezclado hacia arriba de valor complejo (142) y un subsiguiente segundo parámetro de mezclado hacia arriba de valor complejo (144) ,
en el que el interpolador de parámetros (140; 260) está configurado para interpolar separadamente
(a) entre un valor de magnitud (254) del primer parámetro de mezclado hacia arriba de valor complejo (142) y un valor de magnitud (254) del segundo parámetro de mezclado hacia arriba de valor complejo (144) , y
(b) entre un valor de fase (256) del primer parámetro de mezclado hacia arriba de valor complejo (142) y un valor de fase (256) del segundo parámetro de mezclado hacia arriba de valor complejo (144) , y
para obtener el uno o más parámetros de mezclado hacia arriba de valor complejo interpolados temporalmente (150; 262) .
2. El aparato (100; 200) de acuerdo con la reivindicación 1, en el cual el interpolador de parámetros (140; 260) está configurado para interpolar monótonamente en el tiempo entre el valor de magnitud (254) del primer parámetro de mezclado hacia arriba de valor complejo (142) y el valor de magnitud (254) del segundo subsiguiente parámetro de mezclado hacia arriba de valor complejo (144) , para obtener valores de magnitud (274) del uno más parámetros de mezclado hacia arriba temporalmente interpolados (150; 262) ,
para interpolar linealmente en el tiempo entre el valor de fase (256) del primer parámetro de mezclado hacia arriba de valor complejo (142) y el valor de fase (256) del segundo subsiguiente parámetro de mezclado hacia arriba de valor complejo (144) , para obtener valores de fase (276) del uno más parámetros de mezclado hacia arriba temporalmente interpolados, y
para combinar el uno o más valores de magnitud (274) con uno o más correspondientes valores de fase (276) , para obtener el uno o más parámetros de mezclado hacia arriba interpolados temporalmente de valor complejo (150; 262) .
3. El aparato (100; 200) de acuerdo con la reivindicación 1, en el cual el interpolador de parámetros (140; 260) está configurado para interpolar linealmente entre el valor de magnitud (254) del primer parámetro de mezclado hacia arriba de valor complejo (142) y el valor de magnitud (254) del segundo subsiguiente parámetro de mezclado hacia arriba de valor complejo (144) , para obtener valores de magnitud del uno más parámetros de mezclado hacia arriba temporalmente interpolados de valor complejo (150; 262) .
4. El aparato (100; 200) según cualquiera de las reivindicaciones 1 a 3, en el cual el mezclador hacia arriba (130; 230) está configurado para realizar una superposición ajustada lineal de parámetros de sub-banda de valor complejo, de una pluralidad de señales de audio de entrada del mezclador hacia arriba x (k) , q (k) ) , en dependencia de los parámetros de mezclado hacia arriba interpolados temporalmente de valor complejo (150; 262) para obtener la señal de audio mezclada hacia arriba (120; 214) ;
en donde el mezclador hacia arriba (130; 230) está configurado para procesar secuencias de parámetros de subbanda de valores complejos que representan muestras de audio subsiguientes de señales de entrada de audio de mezclador hacia arriba (x (k) , q (k) ) ; y
en donde el interpolador de parámetros (140; 260) está configurado para recibir una representación (142; 144; 254; 256) de parámetros de mezclado hacia arriba de valor complejo subsiguientes, los cuales están temporalmente espaciados por más que una duración de una de las muestras de audio, y
para actualizar los parámetros de mezclado hacia arriba interpolados (150; 262) más frecuentemente.
5. El aparato (100; 200) de acuerdo con la reivindicación 4, en el cual el mezclador hacia arriba (130; 230) está configurado para recibir señales de audio de entrada actualizadas (x (k) , q (k) ) a un ritmo de actualización de mezclador hacia arriba, y
en el cual el interpolador de parámetros (140; 260) está configurado para actualizar los parámetros de mezclado hacia arriba interpolados (150; 262) al ritmo de actualización del mezclador hacia arriba.
6. El aparato (100; 200) de acuerdo con una de las reivindicaciones 4 o 5, en el cual el mezclador hacia arriba (130; 230) está configurado para realizar una multiplicación matriz-vector usando una matriz (H) que comprende los parámetros interpolados (150; 262) y un vector
[x (k) :
q (k)
que comprende los parámetros de sub-banda de las señales de audio de entrada de mezclador hacia arriba (x (k) , q (k) ) , para obtener como resultado, un vector
Patentes similares o relacionadas:
Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]
Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]
Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]
Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]