Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente.

Generador (100) de señal de audio para generar una señal de salida de audio,

que comprende:

un receptor (102) de señal de audio para recibir:

una primera señal (110) de audio que comprende un primer canal (110a) de mezcla descendente que tiene información sobre dos o más primeros canales originales, y que comprende al menos un parámetro (110b) original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y

una segunda señal (112) de audio que comprende un segundo canal (112a) de mezcla descendente que tiene información sobre al menos un segundo canal original;

un combinador (104) de canales para derivar un canal (114) de mezcla descendente combinado combinando el primer canal (110a) de mezcla descendente y el segundo canal (112a) de mezcla descendente utilizando una combinación lineal del primer canal (110a) de mezcla descendente y el segundo (112b), en el que los coeficientes de la combinación lineal dependen de la energía E(sA 2(n)) dentro del primer canal (110a) de mezcla descendente y de la energía E(sB 2(n)) dentro del segundo canal (112a) de mezcla descendente; y

un calculador (106) de parámetro para derivar, utilizando la energía E(sA 2(n)} del primer canal (110a) de mezcla descendente, la energía E{sB 2(n)} del segundo canal (112b) de mezcla descendente y el al menos un parámetro (110b) original, un primer parámetro (116a) combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y

un segundo parámetro (116b) combinado que describe o bien la propiedad de otro de los primeros canales originales con respecto al canal de referencia común o bien la propiedad del al menos un segundo canal original con respecto al canal de referencia común; y

una interfaz de salida para producir la señal (120) de salida de audio que comprende el canal (114) de mezcla descendente combinado, los parámetros combinados primero (116a) y segundo (116b).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2007/003598.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: HELLMUTH, OLIVER, HILPERT, JOHANNES, HERRE,JUERGEN, KASTNER,THORSTEN, LINZMEIER,KARSTEN.

Fecha de Publicación: 8 de Mayo de 2012.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04N7/15 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas para conferencias.

PDF original: ES-2380059_T3.pdf

Fragmento de la descripción:

Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente.

Campo de la invención La presente invención se refiere a codificación de audio multicanal y, en particular, a un concepto para combinar flujos de audio codificados paramétricamente de una manera flexible y eficaz.

Antecedentes de la invención y técnica anterior El reciente desarrollo en el área de la codificación de audio ha dado lugar a varias técnicas de codificación de audio paramétrica para codificar conjuntamente una señal de audio multicanal (por ejemplo, 5.1 canales) en uno (o más) canales de mezcla descendente más un flujo de información lateral. En general, el flujo de información lateral tiene parámetros relacionados con las propiedades de los canales originales de la señal multicanal, ya sea con respecto a otros canales originales de la señal multicanal o con respecto al canal de mezcla descendente. La definición particular de los parámetros del canal de referencia al que se refieren estos parámetros, depende de la implementación específica. Algunas de las técnicas conocidas en la técnica son "codificación de indicación binaural", "codificación de audio espacial" y "estéreo paramétrico".

Para detalles de estas implementaciones particulares, con la presente se hace referencia a las publicaciones relacionadas. Por ejemplo, la codificación de indicación binaural se detalla en:

C. Faller y F. Baumgarte, "Efficient representation of spatial audio using perceptual parametrization", IEEE WASPAA, Mohonk, NY, octubre de 2001; F. Baumgarte y C. Faller, "Estimation of auditor y spatial cues for binaural cue coding", ICASSP, Orlando, FL, mayo de 2002; C. Faller y F. Baumgarte, "Binaural cue coding: a novel and efficient representation of spatial audio", ICASSP, Orlando, FL, mayo de 2002; C. Faller y F. Baumgarte, "Binaural cue coding applied to audio compression with flexible rendering", AES 113th Convention, Los Íngeles, preimpresión 5686, octubre de 2002; C. Faller y F. Baumgarte, "Binaural cue coding - Part II: Schemes and applications", IEEE Trans. On Speech and Audio Proc., vol., 11, nº 6, noviembre de 2003, y J. Herre, C. Faller et al., "Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio", Audio Engineering Society Convention Paper, octubre de 28, 2004, San Francisco, CA, EE.UU.

Aunque la codificación de indicación binaural utiliza múltiples canales originales, el estéreo paramétrico es una técnica relacionada para la codificación paramétrica de una señal estéreo de dos canales que da como resultado una señal mono transmitida e información lateral de parámetro, como se considera, por ejemplo, en las siguientes publicaciones:

J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates", AES 116th Convention, Berlín, preimpresión 6072, mayo de 2004; E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlín, preimpresión 6073, mayo de 2004.

Otras tecnologías se basan en la multiplexación de números arbitrarios de fuentes u objetos de audio en un solo canal de audio de transmisión. Los esquemas basados en multiplexación se introducen, por ejemplo, como "presentación flexible" en publicaciones relacionadas con BCC (codificación de indicación binaural) o, más recientemente, mediante un esquema llamado "codificación de fuente conjunta" (JSC) . Las publicaciones relacionadas son, por ejemplo: C. Faller, "Parametric Joint Coding of Audio Sources", Convention Paper 6752, 120th AES Convention, París, mayo de 2006. De manera similar a los esquemas de codificación de indicación binaural y estéreo paramétrica, estas técnicas están previstas para codificar múltiples objetos (canales) de audio originales para la transmisión por menos canales de mezcla descendente. Mediante la derivación adicional de los parámetros basados en objetos para cada canal de entrada, que pueden codificarse a una tasa de transmisión de datos muy baja y que también se transmiten a un receptor, estos objetos pueden separarse en el lado del receptor y presentarse (mezclarse) a un cierto número de dispositivos de salida, como por ejemplo, auriculares, altavoces estéreo de dos canales o instalaciones de altavoz multicanal. Este procedimiento permite un ajuste de nivel y redistribución (panorámica) de los diferentes objetos de audio hacia diferentes ubicaciones en la instalación de reproducción, es decir, en el lado del receptor.

Básicamente, tales técnicas operan como transmisor M-k-N, siendo M el número de objetos de audio en la entrada, siendo k el número de canales de mezcla descendente transmitidos, normalmente k es < 2. N es el número de canales de audio en la salida de presentación, es decir, por ejemplo, el número de altavoces. Es decir, N = 2 para una presentación estéreo o N = 6 para una instalación de altavoz multicanal 5.1. En términos de eficiencia de compresión, los valores típicos son, por ejemplo, 64 kbps o menos para un canal de mezcla descendente codificado de manera perceptiva (que consiste en k canales de audio) y aproximadamente 3 kbps para parámetros de objeto por objeto de audio transmitido.

Los escenarios de aplicación para las técnicas anteriores son, por ejemplo, la codificación de escenas de audio espacial relacionadas con producciones de cine-películas para permitir una reproducción espacial del sonido en un sistema de cine en casa. Ejemplos comunes son las pistas de sonido envolvente 5.1 y 7.1 ampliamente conocidas en un medio de película tal como DVD y similar. Las producciones de películas se están haciendo cada vez más complejas con respecto a las escenas de audio, previstas para proporcionar una experiencia de escucha espacial y que por tanto tienen que mezclarse con mucho cuidado. A diferentes ingenieros de sonido se les puede encargar la mezcla de diferentes fuentes envolventes o efectos de sonido y, en consecuencia, es deseable la transmisión de escenarios multicanal codificados paramétricamente entre los ingenieros de sonido individuales para transportar los flujos de audio de los ingenieros de sonido individuales de manera eficaz.

Otro escenario de aplicación para tal tecnología es la teleconferencia con múltiples hablantes en cada extremo de una conexión punto a punto tal como se describe en el documento US2005/0062843. Para ahorrar ancho de banda, la mayoría de las instalaciones de teleconferencia funcionan con transmisión monofónica. Utilizando, por ejemplo, codificación de fuente conjunta o una de las otras técnicas de codificación multicanal para la transmisión, puede lograrse una redistribución y alineación de nivel de los diferentes hablantes en el extremo receptor (cada extremo) y por tanto se mejora la inteligibilidad y el equilibrio de los hablantes gastando una tasa de transmisión de bits ligeramente aumentada en comparación con un sistema monofónico. La ventaja de la inteligibilidad aumentada se hace particularmente evidente en el caso especial de asignar a cada individuo participante de la conferencia un solo canal (y por tanto hablante) de una instalación de hablante multicanal en un extremo receptor. Sin embargo, éste es un caso especial. En general, el número de participantes no igualará al número de hablantes en el extremo receptor. Sin embargo, utilizando la instalación de hablante existente es posible presentar la señal asociada con cada participante de manera que parezca que se origina desde cualquier posición deseada. Es decir, el participante individual no sólo se reconoce por su voz diferente, sino también por la ubicación de la fuente de audio relacionada con el participante hablante.

Aunque las técnicas del estado de la técnica implementan conceptos acerca de cómo codificar de manera eficaz múltiples canales u objetos de audio, todas las técnicas actualmente conocidas carecen de la posibilidad de combinar dos o más de estos flujos de audio transmitidos de manera eficaz para derivar un flujo de salida (señal de salida) , que es una representación de todos los flujos de audio de entrada (señales de audio de entrada) .

El problema surge, por ejemplo, cuando se considera un escenario de teleconferencia con más de dos ubicaciones, teniendo cada ubicación uno o más hablantes. Entonces, se requiere una instancia intermedia para recibir las señales de entrada de audio de las fuentes individuales y para generar una señal de salida de audio para cada ubicación de teleconferencia que tenga solamente la información de las ubicaciones de teleconferencia restantes.... [Seguir leyendo]

Reivindicaciones:

1. Generador (100) de señal de audio para generar una señal de salida de audio, que comprende:

un receptor (102) de señal de audio para recibir:

una primera señal (110) de audio que comprende un primer canal (110a) de mezcla descendente que tiene información sobre dos o más primeros canales originales, y que comprende al menos un parámetro (110b) original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia; y una segunda señal (112) de audio que comprende un segundo canal (112a) de mezcla descendente que tiene información sobre al menos un segundo canal original;

un combinador (104) de canales para derivar un canal (114) de mezcla descendente combinado combinando el primer canal (110a) de mezcla descendente y el segundo canal (112a) de mezcla descendente utilizando una combinación lineal del primer canal (110a) de mezcla descendente y el segundo (112b) , en el que los coeficientes de la combinación lineal dependen de la energía E (sA2 (n) ) dentro del primer canal (110a) de mezcla descendente y de la energía E (sB2 (n) ) dentro del segundo canal (112a) de mezcla descendente; y un calculador (106) de parámetro para derivar, utilizando la energía E (sA2 (n) } del primer canal (110a) de mezcla descendente, la energía E{sB2 (n) } del segundo canal (112b) de mezcla descendente y el al menos un parámetro (110b) original,

un primer parámetro (116a) combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro (116b) combinado que describe o bien la propiedad de otro de los primeros canales originales con respecto al canal de referencia común o bien la propiedad del al menos un segundo canal original con respecto al canal de referencia común; y una interfaz de salida para producir la señal (120) de salida de audio que comprende el canal (114) de mezcla descendente combinado, los parámetros combinados primero (116a) y segundo (116b) .

2. Generador (100) de señal de audio según la reivindicación 1, en el que el combinador (104) de canales es operativo para utilizar una combinación lineal que tiene un coeficiente gA para el primer canal de mezcla descendente, y un coeficiente gB para el segundo canal de mezcla descendente derivado utilizando la siguiente ecuación:

3. Generador (100) de señal de audio según las reivindicaciones 1 ó 2, en el que el combinador (104) de canales es operativo para utilizar una combinación lineal que tiene coeficientes que dependen del número U de los primeros canales originales y del número V de los segundos canales originales.

4. Generador (100) de señal de audio según la reivindicación 3, en el que el combinador (104) de canales es operativo para utilizar una combinación lineal que tiene un coeficiente gA del primer canal (110a) de mezcla descendente y un coeficiente gB del segundo canal (112a) de mezcla descendente derivado según una de las siguientes ecuaciones:

5. Generador (100) de señal de audio según las reivindicaciones 1 a 4, en el que el calculador (106) de parámetro es operativo para utilizar un canal predeterminado de los primeros canales originales o del al menos un segundo canal original como canal de referencia común.

6. Generador (100) de señal de audio según las reivindicaciones 1 a 4, en el que el calculador (106) de parámetro es operativo para utilizar el canal de referencia de la primera señal (110) de audio como canal de referencia común.

7. Generador (100) de señal de audio según las reivindicaciones 1 a 4, en el que el calculador (106) de parámetro es operativo para utilizar el canal (114) de mezcla descendente combinado como canal de referencia común.

8. Generador (100) de señal de audio según las reivindicaciones 1 a 4, en el que el calculador (106) de parámetro es operativo para utilizar el canal original como canal de referencia común que tiene la energía más alta.

9. Generador (100) de señal de audio según cualquiera de las reivindicaciones anteriores, en el que el calculador (106) de parámetro es operativo para calcular la energía E{sAref} del canal de referencia derivando la energía E{sA2} del primer canal (110a) de mezcla descendente y parámetros ai{i = 1, ..., n} asociados a canales diferentes del canal de referencia según la ecuación:

10. Generador (100) de señal de audio según cualquiera de las reivindicaciones anteriores, en el que el calculador (106) de parámetro es operativo para utilizar el canal de referencia como canal de referencia común y el al menos un parámetro original a2 como primer parámetro combinado yu y para derivar el segundo parámetro combinado yu+1 para el al menos un segundo canal original con respecto al canal de referencia.

11. Generador (100) de señal de audio según la reivindicación 1, en el que el calculador (106) de parámetro es operativo para utilizar además los coeficientes gA asociados al primer canal (110a) de mezcla descendente y gB asociados al segundo canal (112a) de mezcla descendente, los coeficientes utilizados para la combinación lineal de la primera y segunda mezcla descendente utilizada por el combinador (104) de canales.

12. Generador (100) de señal de audio según la reivindicación 13, en el que el calculador (106) de parámetro es operativo para calcular el segundo parámetro combinado yu+1 para el al menos un segundo canal original según la siguiente ecuación:

en la que es la energía del canal de referencia derivada utilizando la energía del primer canal de mezcla descendente según la siguiente fórmula:

en la que a2 es el al menos un parámetro original que relaciona un primer canal original con el canal de referencia.

13. Generador (100) de señal de audio según cualquiera de las reivindicaciones anteriores, en el que el calculador (106) de parámetro es operativo para procesar las partes de frecuencia del primer y el segundo canal de mezcla descendente asociados con intervalos de frecuencia discretos de tal manera que los parámetros combinados se derivan para cada intervalo de frecuencia discreto.

14. Generador (100) de señal de audio según cualquiera de las reivindicaciones anteriores, en el que el receptor de señal de audio es operativo para recibir señales (110, 112) de audio que comprenden canales (110a, 112a) de mezcla descendente representados por parámetros de muestreo muestreados con una frecuencia de muestra predeterminada.

15. Método para generar una señal de salida de audio, comprendiendo el método:

recibir una primera señal (110) de audio que comprende un primer canal (110a) de mezcla descendente que tiene información sobre dos o más primeros canales originales, y que comprende al menos un parámetro (110b) original asociado con uno de los primeros canales originales que describe una propiedad de uno de los primeros canales originales con respecto a un canal de referencia y una segunda señal (112) de audio que comprende un segundo canal (112a) de mezcla descendente que tiene información sobre al menos un segundo canal original;

derivar un canal (114) de mezcla descendente combinado combinando el primer canal (110) de mezcla descendente y el segundo canal (112) de mezcla descendente utilizando una combinación lineal del primer canal (110a) de mezcla descendente y el segundo (110b) , en el que los coeficientes de la combinación lineal dependen de la energía E (sA2 (n) ) dentro del primer canal (110a) de mezcla descendente y de la energía E{sB2 (n) } dentro del segundo canal (112a) de mezcla descendente; y derivar, utilizando la energía E{sA2 (n) } del primer canal (110a) de mezcla descendente, la energía E{sB2 (n) } del segundo canal (112b) de mezcla descendente y el al menos un parámetro (110b) original, un primer parámetro (116a) combinado que describe la propiedad de uno de los primeros canales originales con respecto a un canal de referencia común, y un segundo parámetro (116b) combinado que describe o bien la propiedad de otro de los primeros canales originales con respecto al canal de referencia común o bien la propiedad del al menos un segundo canal original con respecto a un canal de referencia común; y producir la señal (120) de salida de audio que comprende el canal (114) de mezcla descendente combinado y los parámetros combinados primero (116a) y segundo (116b) .

16. Sistema de conferencia que comprende un generador (100) de señal de audio para generar una señal de salida de audio según la reivindicación 1.

17. Programa informático para implementar, cuando se ejecute en un ordenador, un método según la reivindicación 15.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]