Generación de una señal multicanal codificada y decodificación de una señal multicanal codificada.

Dispositivo para la generación de una señal multicanal codificada que representa una señal multicanal no codificada que comprende N canales originales, donde N es igual a mayor que 2, con las siguientes características:

un dispositivo para proporcionar

(22) informaciones de parámetros (24a, 24b, 24c) para la reconstrucción de K canales de salida a partir de M canales de transmisión (23), donde M es igual o mayor que 1 y menor o igual que N, en donde K es mayor que M y menor o igual que N, en donde las informaciones de parámetros comprenden al menos un primer juego de parámetros y un segundo juego de parámetros variable para la reconstrucción de un único canal de salida, en donde el segundo juego de parámetros presenta informaciones de versión de sintaxis (103 a 105) asignadas; y

un dispositivo para escribir (25) de una corriente de datos (26), en donde el dispositivo (25) está conformado para la escritura, para escribir el primer y el segundo juego de parámetros en la corriente de datos de tal forma que se pueda realizar una reconstrucción en un decodificador de al menos uno de los K canales de salida mediante la utilización del primer juego de parámetros, sin utilizar el segundo juego de parámetros y mediante la utilización de al menos uno de los M canales de transmisión (23),

en donde el dispositivo para escribir (25) está conformado para escribir informaciones de longitud, que indican una cantidad de datos del segundo juego de parámetros asignado, en la corriente de datos.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2005/009293.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: HERRE, JURGEN, POPP, HARALD, HILPERT, JOHANNES, SPERSCHNEIDER,RALPH, LINZMEIER,KARSTEN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/008 (Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p.ej. estéreo conjunto, codificación de la intensidad o matrizado)

PDF original: ES-2454670_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Generación de una señal multicanal codificada y decodificación de una señal multicanal codificada [0001] La presente invención se refiere a las técnicas paramétricas de procesamiento de audio multicanal y, en particular, a una disposición eficiente de información paramétrica lateral, cuando existen varios juegos de parámetros diferentes disponibles para su reconstrucción.

Una representación recomendada circundante multicanal incluye, además de los dos canales estereofónicos, un canal central (o canal Center) C y dos canales circundantes, como son el canal circundante izquierdo Ls y el canal circundante derecho Rs, y, además de ello, eventualmente, un canal de altavoz de subgraves también denominado canal LFE (LFE = Low Frequency Enhacement (mejora de la baja frecuencia) ) . Este formato de referencia de sonido también se denomina estereofónico 3/2- (plus LFE) y recientemente también multicanal 5.1, lo que significa que existen tres canales frontales, dos canales circundantes y un canal LFE. En general, para esta representación circundante multicanal recomendada se requieren cinco o seis canales de transmisión. En un entorno de reproducción se requieren al menos cinco altavoces en las cinco posiciones respectivas diferentes para obtener un denominado punto óptimo a una distancia determinada de los cinco altavoces colocados de manera correcta. Sin embargo, el altavoz de subgraves puede utilizarse relativamente de una manera libre en lo que respecta a su ubicación.

Existen varias técnicas para reducir la cantidad de datos requerida para transmitir una señal de audio multi-canal. Tales técnicas que también se denominan técnicas estereofónicas conjuntas. Para este propósito, se hace referencia a la fig. 5. La fig. 5 muestra un dispositivo de estereofonía conjunta 60. Este dispositivo puede ser un dispositivo que implementa, por ejemplo, la técnica de intensidad estereofónica (técnica IS) o la codificación de punto de referencia binaural (BCC) . Un dispositivo de este tipo recibe generalmente al menos dos canales (CH1,

CH2, … CHn) como señal de entrada y emite al menos un solo canal portador (combinación de canales) y datos paramétricos, esto es, uno o varios juegos de parámetros. Los datos paramétricos se definen de tal manera que se puede calcular en un decodificador una aproximación de cada canal original (CH1, CH2, … CHn) .

Normalmente, el canal portador incluirá muestras de subbanda, coeficientes espectrales o muestras de intervalo de tiempo, etc., que proporcionan una representación comparativamente detallada de la señal subyacente, mientras que los datos parámetricos o juegos de parámetros no incluyen ninguna de tales muestras o coeficientes espectrales. En su lugar, los datos paramétricos comprenden parámetros de control para controlar un algoritmo de reconstrucción determinado, como, por ejemplo, ponderación por multiplicación, desplazamiento en el

tiempo, desplazamiento de frecuencia, …. Los datos paramétricos comprenden por ello únicamente una representación comparativamente basta de la señal o del canal asociado. La cantidad de datos requerida por una canal portador, expresada en números, se encuentra comprendida en el rango de entre 60 y 70 kbit/s, mientras que la cantidad de datos requerida por la información lateral paramétrica se encontrará en el orden de magnitud de 1, 5 kbit/s para un canal. Un ejemplo de datos paramétricos son los factores de escala conocidos, información de intensidad estereofónica o los parámetros de punto de referencia binaural, tal y como describirá más adelante.

La técnica de codificación de intensidad estereofónica está descrita en la prepublicación AES 3799

titulada “Intensity stereo coding” J. Herre, K. H. Brandenburg, D. Lederer, febrero de 1994, Ámsterdam. En general,

el concepto de intensidad estereofónica se basa en una transformación de eje principal que se debe aplicar a los datos de los dos canales de audio estereofónicos. Si la mayoría de los puntos de datos están situados alrededor del primer eje principal, se puede lograr una ganancia de codificación al girar ambas señales en un ángulo determinado antes de la codificación. Sin embargo, esto no siempre es válido para técnicas reales de reproducción estereofónica. Las señales reconstruidas para los canales izquierdo y derecho están compuestas por versiones ponderadas o escaladas de manera diferente de la misma señal transmitida. Si bien las señales reconstruidas se diferencian en su amplitud, en cambio son idénticas con respecto a sus informaciones de fase. Las curvas envolventes energía-tiempo de ambos canales de audio originales se conservan, sin embargo, por medio de la operación de escalado selectivo que trabaja típicamente de una manera selectiva en frecuencia. Esto se corresponde con la percepción humana del sonido a frecuencias altas, en donde los puntos de referencia o las indicaciones espaciales dominantes están determinadas por las curvas envolventes de energía.

Además, en implementaciones prácticas la señal transmitida, es decir, el canal portador, se forma a partir de la suma de la señal del canal izquierdo y del canal derecho, en lugar de girar ambos componentes. Además, este procesamiento, es decir, la generación de los parámetros de intensidad estereofónica para la realización de la operación de escalado, se realiza de una manera selectiva en frecuencia, es decir, independientemente una de otra para cada banda de factor de escalado, es decir, para cada partición de frecuencia de codificador. Preferentemente, se combinan ambos canales para formar un canal combinado o “portador”. Además del canal combinado, se determina la información de intensidad estereofónica que depende de la energía del primer canal, de la energía del segundo canal y de la energía del canal combinado o de suma.

La técnica BCC está descrita en el documento de convención AES 5574 titulado “Binaural cue coding

applied to stereo and multi-channel audio compression”, C. Faller, F. Baumgarte, mayo de 2002, Munich. En la codificación BCC, se convierte un número de canales de entrada de audio a una representación espectral utilizando una transformación basada en DFT con ventanas solapadas. El espectro resultante se divide en particiones no solapadas. Cada partición tiene un ancho de banda proporcional a un ancho de banda rectangular equivalente (ERB) . Para cada partición se calculan las denominadas diferencias de nivel inter-canal (ICLD = Inter-Channel Level Differences (diferencias de nivel inter-canal) ) así como las denominadas diferencias de tiempo inter-canal (ICTD; ICTD = Interchannel Time Differences (diferencias de tiempo inter-canal) ) , es decir para cada banda y para cada trama k, por lo tanto, un bloque de una secuencia de valores de tiempo. Los parámetros ICLD e ICDT se cuantifican y codifican para obtener una corriente de bits BCC. Las diferencias de nivel inter-canal y las diferencias de tiempo inter-canal se dan para cada canal con respecto a un canal de referencia. En particular, los parámetros se calculan de acuerdo con fórmulas predeterminadas que dependen de las divisiones determinadas de la señal a procesar.

En el lado decodificador, el decodificador recibe una señal monofónica y la corriente de bits BCC, esto es, un primer juego de parámetros para las diferencias de tiempo inter-canal y un segundo juego de parámetros para las diferencias de nivel inter-canal. La señal monofónica se transforma en el dominio de frecuencia y se introduce en un bloque de síntesis que recibe también valores ICLD e ICTD decodificados. En el bloque de síntesis o bloque de reconstrucción se utilizan los parámetros BCC (ICLD e ICTD) para realizar una operación de ponderación... [Seguir leyendo]

 


Reivindicaciones:

1. Dispositivo para la generación de una señal multicanal codificada que representa una señal multicanal no codificada que comprende N canales originales, donde N es igual a mayor que 2, con las siguientes características: un dispositivo para proporcionar (22) informaciones de parámetros (24a, 24b, 24c) para la reconstrucción de K canales de salida a partir de M canales de transmisión (23) , donde M es igual o mayor que 1 y menor o igual que N, en donde K es mayor que M y menor o igual que N, en donde las informaciones de parámetros comprenden al menos un primer juego de parámetros y un segundo juego de parámetros variable para la reconstrucción de un único canal de salida, en donde el segundo juego de parámetros presenta informaciones de versión de sintaxis (103 a 105) asignadas; y un dispositivo para escribir (25) de una corriente de datos (26) , en donde el dispositivo (25) está conformado para la escritura, para escribir el primer y el segundo juego de parámetros en la corriente de datos de tal forma que se pueda realizar una reconstrucción en un decodificador de al menos uno de los K canales de salida mediante la utilización del primer juego de parámetros, sin utilizar el segundo juego de parámetros y mediante la utilización de al menos uno de los M canales de transmisión (23) , en donde el dispositivo para escribir (25) está conformado para escribir informaciones de longitud, que indican una cantidad de datos del segundo juego de parámetros asignado, en la corriente de datos.

2. Dispositivo para la decodificación de una señal multicanal codificada que representa una señal multicanal no codificada, que comprende N canales originales, en donde la señal multicanal codificada está representada mediante una corriente de datos que presenta informaciones de parámetros para la reconstrucción de K canales de salida a partir de M canales de transmisión, en donde M es mayor o igual que 1 y menor o igual que N, en donde K es mayor que M y menor o igual que N, en donde las informaciones de parámetros presentan al menos dos juegos de parámetros diferentes para la reconstrucción de un único canal de salida, y en donde el primer y segundo juego de parámetros están escritos en la corriente de datos de tal forma que se puede realizar una reconstrucción en un decodificador de los K canales de salida mediante la utilización del primer juego de parámetros y sin utilizar el segundo juego de parámetros, en donde el segundo juego de parámetros presenta informaciones de versión de sintaxis (103 a 105) asignadas, con la siguiente característica: un dispositivo para la lectura de la corriente de datos (28) para la lectura de la corriente de datos, para registrar el primer juego de parámetros (30a) , y omitir el segundo juego de parámetros (30b) cuando las informaciones de versión de sintaxis asignadas al segundo juego de parámetros no son compatibles con una información de versión de sintaxis predeterminada para el dispositivo para la decodificación, y para registrar el segundo juego de parámetros cuando las informaciones de versión de sintaxis son compatibles con la información de versión de sintaxis predeterminada, en donde el segundo juego de parámetros presenta informaciones de longitud, que indican una cantidad de datos del segundo juego de parámetros asignado, y en donde el dispositivo para leer (28) está conformado para omitir una cantidad de datos en la corriente de datos en base a las informaciones de longitud, indicada mediante la información de longitud, sin analizar sintácticamente los datos del segundo juego de parámetros.

3. Dispositivo según la reivindicación 2, que presenta además la siguiente característica: un dispositivo para la reconstrucción (32) para la reconstrucción de los K canales de salida mediante la utilización de los M los canales de transmisión y del primer juego de parámetros, pero sin la utilización del segundo juego de parámetros.

4. Dispositivo según la reivindicación 2 o 3, en donde el primer juego de parámetros presenta una información de versión de sintaxis (103 a 105) asociada, y en donde el dispositivo para leer (28) está conformado para leer la información de versión de sintaxis asignada y controlar al dispositivo de reconstrucción (31) de tal forma que sólo se realice una reconstrucción mediante el dispositivo de reconstrucción cuando las informaciones de versión de sintaxis registradas sean compatibles con una información de versión de sintaxis predefinida del dispositivo para la decodificación.

5. Dispositivo según una de las reivindicaciones 2 a 4, en donde el dispositivo para leer (28) se puede controlar (32) para obtener informaciones de disponibilidad de recursos, y en donde el dispositivo para leer (28) está además conformado para, cuando las informaciones de disponibilidad de recursos indican recursos suficientes, registrar el segundo juego de parámetros, y para omitir el segundo juego de parámetros cuando las informaciones de disponibilidad de recursos indican recursos insuficientes.

6. Dispositivo según una de las reivindicaciones 2 a 5, en donde un juego de parámetros es menos importante que otro juego de parámetros diferente para la reconstrucción de los K canales de salida en lo que se refiere a una calidad de la señal multicanal reconstruida, y en donde el dispositivo para la lectura de la corriente de datos (28) está conformado para omitir el juego de datos menos importante.

7. Dispositivo según una de las reivindicaciones 2 a 6, en donde la corriente de datos presenta un juego de parámetros con un identificador (100 a 105) asignado, en donde un identificador indica para un juego de

parámetros que el juego de parámetros se tiene que utilizar imprescindiblemente para una reconstrucción, o en donde un identificador para otro juego de parámetros indica que el juego de parámetros sólo se puede utilizar de forma opcional para una reconstrucción, en donde el dispositivo para la lectura de la corriente de datos (28) está conformado para detectar el identificador y para leer el juego de parámetros imprescindiblemente necesario y para omitir un juego de parámetros opcional en base al identificador detectado.

8. Dispositivo según una de las reivindicaciones 2 a 7, en donde la corriente de datos presenta un primer juego de parámetros en una primera sección de juego de parámetros (12a) y un segundo juego de parámetros en una segunda sección de juego de parámetros (12b) , en donde el dispositivo para la lectura de la corriente de datos está conformado para interpretar la corriente de datos en lo que respecta a las secciones de juegos de parámetros y registrar la primera sección de juego de parámetros y omitir la segunda sección de juego de parámetros.

9. Dispositivo según una de las reivindicaciones 2 a 8, en donde los juegos de parámetros se han seleccionado del siguiente grupo que incluye diferencias de nivel inter-canal, diferencias de tiempo inter-canal, diferencias de fase inter-canal o informaciones de coherencia inter-canal, en donde, en la corriente de datos, el juego de parámetros de diferencias de nivel inter-canal está caracterizado como imprescindiblemente necesario para la decodificación y en donde al menos otro juego de parámetros del grupo está caracterizado como opcional para la decodificación, y en donde el dispositivo para la lectura de la corriente de datos (28) está conformado para registrar el juego de parámetros de diferencias de nivel inter-canal y para omitir otro juego de parámetros del grupo.

10. Dispositivo según una de las reivindicaciones 2 a 9, en donde la corriente de datos presenta una información de número (102) , que indica un número de juegos de parámetros opcionales sin los que se puede realizar una reconstrucción de los K canales de salida mediante el decodificador, en donde el dispositivo para la lectura de la corriente de datos está conformado para registrar al menos un juego de parámetros opcional a partir de la información de número.

11. Dispositivo según la reivindicación 2, en el que para el segundo juego de parámetros y eventualmente otros juegos de parámetros opcionales existen informaciones de versión de sintaxis asociadas en la corriente de datos, en donde para el primer juego de parámetros no existe ninguna información de versión de sintaxis.

12. Dispositivo según una de las reivindicaciones anteriores, en el que un último juego de parámetros opcional en una secuencia de juegos de parámetros no presenta ninguna información de longitud asociada en la corriente de datos, en donde el dispositivo para la lectura de la corriente de datos (28) está conformado para no leer ni interpretar ninguna información de longitud antes del registro del último juego de parámetros opcional.

13. Dispositivo según una de las reivindicaciones 2 a 12, en el que se señaliza dinámicamente en la corriente de datos una presencia y longitud de las informaciones de longitud del juego de parámetros, y en donde el dispositivo para la lectura de la corriente de datos (28) está conformado para detectar en primer lugar la presencia de las informaciones de longitud del juego de parámetros en la corriente de datos, para a continuación, en base en a una presencia detectada, extraer la longitud de las informaciones de longitud del juego de parámetros de la corriente de datos.

14. Dispositivo según una de las reivindicaciones 3 a 13, en el que los M canales de transmisión son canales de combinación de canales BCC y los juegos de parámetros comprenden parámetros BCC, y en el que el dispositivo para la reconstrucción (32) está conformado para realizar una síntesis BCC.

15. Procedimiento para la generación de una señal multicanal codificada que representa una señal multicanal no codificada, que presenta N canales originales, en donde N es mayor o igual que 2, con los siguientes pasos: proporcionar (22) informaciones paramétricas (24a, 24b, 24c) para la reconstrucción de K canales de salida a partir de M canales de transmisión (23) , en donde M es mayor o igual que 1 y menor o igual que N, en donde K es mayor que M y menor o igual que N, en donde las informaciones de parámetros comprenden al menos dos juegos de parámetros diferentes para la reconstrucción de un único canal de salida; y la escritura (25) de una corriente de datos (26) mediante la escritura del primer y segundo juegos de parámetros en la corriente de datos de tal forma que se puede realizar una reconstrucción en un decodificador de al menos uno de los K canales de salida mediante la utilización del primer juego de parámetros, sin utilizar el segundo juego de parámetros y mediante la utilización de al menos uno de los M canales de transmisión (23) , en donde el segundo juego de parámetros presenta informaciones de versión de sintaxis (103 a 105) asignadas, en donde durante la escritura (25) se escriben informaciones de longitud en la corriente de datos que indican una cantidad de datos del segundo juego de parámetros asignado.

16. Procedimiento para la decodificación de una señal multicanal codificada que representa una señal multicanal no codificada que presenta N canales originales, en donde la señal multicanal codificada está representada mediante una corriente de datos que presenta informaciones de parámetros para la reconstrucción de K canales de salida a partir de M canales de transmisión, en donde M es mayor o igual que 1 y menor o igual que N,

en donde K es mayor que M y menor o igual que N, en donde las informaciones de parámetros presentan al menos dos juegos de parámetros diferentes para la reconstrucción de un único canal de salida, y en donde el primer y el segundo juego de parámetros están escritos en la corriente de datos de tal forma que se puede realizar una reconstrucción en un decodificador de los K canales de salida mediante la utilización del primer juego de parámetros y sin utilizar el segundo juego de parámetros, en donde el segundo juego de parámetros comprende informaciones de versión de sintaxis (103 a 105) asignadas, mediante el siguiente paso: lectura (28) de la corriente de datos para registrar el primer juego de parámetros (30a) , y para omitir el segundo juego de parámetros (30b) cuando las informaciones de versión de sintaxis asignadas al segundo juego de parámetros no son compatibles para la decodificación con una información de versión de sintaxis predeterminada del dispositivo, y para registrar el segundo juego de parámetros cuando las informaciones de sintaxis son compatibles con la información de versión de sintaxis predeterminada, en donde el segundo juego de parámetros presenta informaciones de longitud, que indican una cantidad de datos del segundo juego de parámetros asignado, y en donde se omite una cantidad de datos durante la lectura (28) en la corriente de datos en base a las informaciones de longitud, indicada a través de la información de longitud, sin que se analicen sintácticamente los datos del

segundo juego de parámetros.

17. Programa de ordenador con un código de programa para la realización del procedimiento de acuerdo con la reivindicación 15 o 16, cuando se ejecuta el programa de ordenador en un ordenador.