Síntesis espacial de señales de audio multicanal.

Procedimiento de síntesis espacial de una señal de suma para obtener al menos dos señales de audio digitalesde salida,

procediendo la señal de suma, así como los parámetros de espacialización, de una codificaciónparamétrica mediante matrización de una señal de audio digital multicanal original, comprendiendo 5 el procedimientolas etapas de:

- decorrelación (Decorr.) de la señal de suma (s) para obtener una señal decorrelacionada (d),

- aplicación (Sint.) de una matriz de síntesis (M Minq) cuyos coeficientes dependen de los parámetros deespacialización (R, I), a la señal decorrelacionada y a la señal de suma para obtener dichas señales de salida;caracterizado porque, para al menos un intervalo de valor de al menos un parámetro de espacialización, loscoeficientes de la matriz de síntesis se determinan según un criterio de minimización de una función cuantitativa (q),relativa a la cantidad de señal decorrelacionada en cada una de las señales de salida obtenidas mediante la etapade aplicación de la matriz de síntesis, siendo la función cuantitativa tal que el aumento en valor absoluto de loscoeficientes de la matriz de síntesis aplicados a la señal decorrelacionada hace aumentar el valor de dicha funciónaplicada a estos mismos coeficientes.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2009/051146.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 place d''Alleray 75015 Paris FRANCIA.

Inventor/es: VIRETTE,DAVID, JAILLET,Florent.

Fecha de Publicación: 9 de Mayo de 2012.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04S3/02 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › H04S 3/00 Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad). › del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras.
H04S5/00 H04S […] › Sistemas seudoestereofónicos, p. ej. en los que las señales de un canal suplementario son derivadas de la señal monofásica por desfase, retardo o reverberación.

PDF original: ES-2387867_T3.pdf

Fragmento de la descripción:

Síntesis espacial de señales de audio multicanal

La presente invención se refiere al campo de la codificación/decodificación de señales de audio digitales multicanal.

Más particularmente, la presente invención se refiere a la codificación/decodificación paramétrica de señales de audio multicanal.

Este tipo de codificación/decodificación se basa en la extracción de parámetros de espacialización para que, durante la decodificación, la percepción espacial del oyente pueda reconstituirse.

Dicha técnica de codificación es conocida con el nombre de “Binaural Cue Coding” en inglés (BCC) que pretende, por un lado, extraer y, a continuación, codificar los índices de espacialización auditiva y, por otro lado, codificar una 15 señal monofónica o estereofónica obtenida de una matrización de la señal multicanal original.

Este enfoque paramétrico es una codificación de bajo rendimiento. El principal interés de este enfoque de codificación es permitir una mejor tasa de compresión que los métodos convencionales de compresión de señales de audio digitales multicanal, mientras se asegura la retrocompatibilidad del formato comprimido obtenido con los

formatos de codificación y los sistemas de difusión ya existentes.

De este modo, la invención se refiere, más particularmente, a la decodificación espacial de una escena sonora en 3 D a partir de un número reducido de canales transmitidos.

La norma MPEG Surround descrita en el documento de la norma MPEG ISO/IEC 23003-1: 2007 y en el documento de “Breebaart, J. y Hotho, G. y Koppens, J. y Schuijers, E. y Oomen, W. y van de Par, S., ” titulado “Background, concept, and architecture for the recent MPEG surround standard on multichannel audio compression” en Journal of the Audio Engineering Society 55-5 (2007) 331-351, describe una estructura específica de codificación/decodificación de la señal de audio multicanal.

La figura 1 describe dicho sistema de codificación/decodificación en el que el codificador 100 construye una señal de suma (“downmix” en inglés) Ss mediante matrización en 110 de los canales de la señal multicanal original S y proporciona mediante un módulo de extracción de parámetros 120, un conjunto reducido de parámetros P que caracteriza el contenido espacial de la señal multicanal original.

En el decodificador 150, la señal multicanal es reconstruida (S') por un módulo de síntesis 160 que tiene en cuenta a al vez la señal de suma y los parámetros P transmitidos.

La señal de suma comprende un número reducido de canales. Estos canales pueden ser codificados por un

codificador de audio convencional antes de la transmisión o el almacenamiento. Típicamente, la señal de suma comprende dos canales y es compatible con una difusión estéreo convencional. Antes de la transmisión o el almacenamiento, esta señal de suma también puede ser codificada por cualquier codificador estéreo convencional. La señal codificada de este modo es entonces compatible con los dispositivos que comprenden el decodificador correspondiente que reconstruyen la señal de suma ignorando los datos espaciales.

45 La norma MPEG Surround ha adoptado una estructura específica para la representación de los datos espaciales: el codificador se apoya en una estructura arborescente de codificación construida a partir de un número reducido de bloques elementales de codificación que permiten, cada uno, extraer parámetros espaciales en un número reducido de canales. Existen dos tipos de bloque elemental de codificación:

- los bloques TTO (por “Two To One” en inglés) que permiten extraer los parámetros espaciales entre dos canales y construir una señal de suma monofónica a partir de estos dos canales,

- los bloques TTT (por “Three To Two” en inglés) que permiten extraer los parámetros espaciales entre tres canales 55 y construir una señal de suma que contiene dos canales a partir de estos tres canales.

La figura 2 ilustra un primer ejemplo de una estructura de codificación o árbol de codificación que utiliza bloques TTO (TTO0, TTO1, TTO2, TTO3 y TTO4) para obtener una señal monofónica S a partir de una señal multicanal 5.1 que comprende 6 canales (L, R, C, LFE, Ls y Rs) .

60 La figura 3 ilustra un segundo ejemplo de estructura de codificación que utiliza a la vez bloques TTO y bloques TTT para obtener una señal estereofónica Sl y Sr a partir de la señal 5.1.

La decodificación de las señales monofónicas o estereofónicas recibidas de este modo se realiza utilizando un árbol 65 de decodificación simétrico a los representados en las figuras 2 y 3.

De este modo, para la decodificación de una señal codificada según el árbol de la figura 2, la decodificación puede verse como una sucesión de etapas de reconstrucción.

En este caso, la primera etapa de decodificación consiste en reconstruir las señales que corresponden a las señales

de entrada del bloque TTO0 a partir de la señal de suma S y de los parámetros espaciales extraídos por el bloque TTO0, la etapa siguiente consiste a continuación en reconstruir las señales que corresponden a las señales de entrada del bloque TTO1 a partir de la señal reconstruida en la etapa precedente y de los parámetros espaciales extraídos por el bloque TTO1, la decodificación continúa a continuación de manera similar hasta la reconstrucción del conjunto de los canales de la señal multicanal codificada. En la práctica, el decodificador construye una matriz que

permite pasar directamente de la señal de suma monofónica a los 6 canales reconstruidos mediante combinación de las matrices de tamaño inferior de los diferentes bloques TTO y TTT.

La técnica adoptada en la norma MPEG Surround para la decodificación de los bloques TTO impone, sin embargo, una limitación muy penalizante para la codificación de señales multicanal que comprenden canales en oposición de 15 fase.

Esta técnica de decodificación se describe de forma más precisa en la solicitud de patente titulada “signal synthesizing” publicada con el número WO 03/090206 A1 el 30 de octubre de 2003 (Solicitante: Koninklijke Philips Electronics N.V., Inventor: Dirk J. Breebaart) .

Esta técnica consiste, como se representa en referencia a la figura 4, en efectuar una etapa de decorrelación en 410 mediante filtrado de la señal de suma s para obtener una señal decorrelacionada d. La señal de suma y la señal decorrelacionada obtenida de este modo son procesadas a continuación por un módulo de síntesis 420 mediante una matriz de síntesis M, en función de los parámetros espaciales R y I para crear las dos señales l y r que respetan

los parámetros espaciales especificados. Los parámetros R y I son, en este caso, respectivamente la relación de energía entre los canales de la señal multicanal y un índice de correlación intercanal de los canales de la señal multicanal.

La matrización de las señales s y d se realiza siguiendo las siguientes relaciones: 30

Ahora bien, esta matrización presenta la limitación mencionada anteriormente y que hace a este método inadecuado para la codificación de las señales de audio multicanal que presentan correlaciones intercanal negativas.

En particular, dicha técnica no es adecuada para la decodificación de las señales ambiofónicas que comprenden oposiciones de fase entre canales.

En efecto, cuando la correlación intercanal I es negativa, y en particular cuando está próxima a -1, la proporción de señal decorrelacionada utilizada para sintetizar las señales l y r se vuelve muy importante, superando en algunos casos particulares claramente la cantidad de señal de suma s utilizada. En el caso más problemático, puede constatarse que, para una diferencia intercanal del nivel de 0dB, es decir para R=1, cuando la correlación intercanal I

45 tiende a -1, la matriz de mezclado tiende a la siguiente matiz:

Esta matriz corresponde a señales reconstruidas

d y r

que no implican a la señal de suma en

50 su expresión,... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de síntesis espacial de una señal de suma para obtener al menos dos señales de audio digitales de salida, procediendo la señal de suma, así como los parámetros de espacialización, de una codificación

paramétrica mediante matrización de una señal de audio digital multicanal original, comprendiendo el procedimiento las etapas de:

- decorrelación (Decorr.) de la señal de suma (s) para obtener una señal decorrelacionada (d) ,

- aplicación (Sint.) de una matriz de síntesis (M Minq) cuyos coeficientes dependen de los parámetros de espacialización (R, I) , a la señal decorrelacionada y a la señal de suma para obtener dichas señales de salida;

relativa a la cantidad de señal decorrelacionada en cada una de las señales de salida obtenidas mediante la etapa de aplicación de la matriz de síntesis, siendo la función cuantitativa tal que el aumento en valor absoluto de los coeficientes de la matriz de síntesis aplicados a la señal decorrelacionada hace aumentar el valor de dicha función aplicada a estos mismos coeficientes.

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque la función cuantitativa es una función de energía de la señal decorrelacionada.

3. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque la función cuantitativa es de tipo:

con p un número entero superior o igual a 1.

4. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque los parámetros de espacialización son un

parámetro (R) de relación de energía entre los canales de la señal multicanal y un parámetro (I) de correlación intercanal de la señal multicanal, siendo un intervalo de valor el intervalo en el que el parámetro de correlación intercanal es negativo.

5. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque se selecciona una función cuantitativa 35 diferente como intervalo de valor de los parámetros de espacialización.

6. Dispositivo de síntesis espacial de una señal de suma que genera al menos dos señales de audio digitales de salida, procediendo la señal de suma, así como los parámetros de espacialización, de un dispositivo de codificación paramétrica que implementa una matrización de una señal de audio digital multicanal original, comprendiendo el

dispositivo:

- medios de decorrelación (510) de la señal de suma para obtener una señal decorrelacionada,

- medios de aplicación (520) de una matriz de síntesis (M Minq) cuyos coeficientes dependen de los parámetros de 45 espacialización, a la señal decorrelacionada y a la señal de suma para obtener dichas señales de salida;

caracterizado porque, para al menos un intervalo de valor de al menos un parámetro de espacialización, los coeficientes de la matriz de síntesis se determinan según un criterio de minimización de una función cuantitativa, relativa a la cantidad de señal decorrelacionada en cada una de las señales de salida obtenidas por los medios de

50 aplicación de la matriz de síntesis, siendo la función cuantitativa tal que el aumento en valor absoluto de los coeficientes de la matriz de síntesis aplicados a la señal decorrelacionada hace aumentar el valor de dicha función aplicada a estos mismos coeficientes.

7. Decodificador de señal de audio digital que comprende al menos un dispositivo de síntesis de acuerdo con la 55 reivindicación 6.

8. Equipo multimedia que comprende un decodificador de acuerdo con la reivindicación 7.

9. Programa informático que comprende instrucciones de código para la implementación de las etapas del

60 procedimiento de acuerdo con una de las reivindicaciones 1 a 5, cuando estas instrucciones son ejecutadas por un procesador.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]