Codificación perfeccionada de señales digitales de audio multicanal.

Procedimiento de codificación de una señal de audio multicanal que representa una escena sonora quecomprende una multitud de fuentes sonoras,

caracterizado por que comprende una etapa de descomposición (T) dela señal multicanal en bandas de frecuencia y las siguientes etapas por banda de frecuencia:

- obtención (OBT) de datos representativos de la dirección de las fuentes sonoras de la escena sonora;

- selección (Selec) de un conjunto de fuentes sonoras de la escena sonora que constituyen las fuentes principales;

- adaptación (DiA_M) de los datos representativos de la dirección de las fuentes principales seleccionadas, enfunción de las características de restitución de la señal multicanal, mediante la modificación de la posición de lasfuentes para obtener una distancia mínima entre dos fuentes;

- determinación (DiA_M) de una matriz de mezcla de las fuentes principales en función de los datos adaptados;

- matrizado (M) de las fuentes principales mediante la matriz determinada para obtener una señal compuesta con unnúmero reducido de canales;

- codificación (Cod.Di) de los datos representativos de la dirección de las fuentes sonoras y formación de un flujobinario que comprende los datos codificados, estando el flujo binario adaptado para transmitirse en paralelo a laseñal compuesta.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2009/052492.

Solicitante: Orange.

Nacionalidad solicitante: Francia.

Dirección: 78, rue Olivier de Serres 75015 Paris FRANCIA.

Inventor/es: VIRETTE,DAVID, JAILLET,Florent.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/00 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
  • G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.

PDF original: ES-2435792_T3.pdf

 

Codificación perfeccionada de señales digitales de audio multicanal.

Fragmento de la descripción:

Codificación perfeccionada de señales digitales de audio multicanal

La presente invención se refiere al campo de la codificación/decodificación de señales digitales de audio multicanal.

De manera más particular, la presente invención se refiere a la codificación/decodificación paramétrica de señales de audio multicanal.

Este tipo de codificación/decodificación se basa en la extracción de parámetros de espacialización para que se pueda reconstituir en la decodificación la percepción espacial del oyente.

Este tipo de técnica de decodificación se conoce con el nombre de “Binaural Cue Coding” en inglés (BCC) que busca, por una parte, extraer y a continuación codificar los índices de espacialización auditiva y, por otra parte,

codificar una señal monofónica o estereofónica resultante de un matrizado de la señal multicanal original.

Este enfoque paramétrico es una codificación de baja velocidad. La principal ventaja de este enfoque de codificación es que permite una tasa de compresión mejor que los métodos clásicos de compresión de señales digitales de audio multicanal garantizando al mismo tiempo la compatibilidad con versiones anteriores del formato comprimido que se obtiene con los formatos de codificación y los sistemas de difusiones ya existentes.

La norma MPEG Surround que se describe en el documento de la norma MPEG ISO/IEC 23003-1:2007 y en el documento de “Breebaart, J., Hotho, G., Koppens, J., Schuijers, E., Oomen, W. y van de Par, S.”, titulado "Background, concept and architecture for the recent MPEG surround standard on multichannel audio compression"

en el Journal of the Audio Engineering Society, 55-5 (2007) , págs. 331-351, describe una estructura de codificación paramétrica como la que se representa en la figura 1.

Otro ejemplo de estructura de codificación paramétrica se describe en el documento de Bin Cheng, Christian Ritz e Ian Burnett titulado "Encoding Independent Sources in Spatially Squeezed Surround Audio Coding" en Advances in Multimedia Information Processing - PCM2a7, Lecture Notes in Computer Science Volume, 4.810, 2007, págs. 804

813.

Así pues, la figura 1 describe dicho sistema de codificación/decodificación en el cual el codificador 100 construye una señal compuesta (“downmix” en inglés) Sc mediante el matrizado en 110 de los canales de la señal multicanal

original S y suministra a través de un módulo de extracción de parámetros 120, un conjunto reducido de parámetros P que caracterizan el contenido espacial de la señal multicanal original.

En el decodificador 150, la señal multicanal se reconstruye (S’) mediante un módulo de síntesis 160 que tiene en cuenta a la vez la señal compuesta y los parámetros P transmitidos.

La señal compuesta comprende un número reducido de canales. Estos canales se pueden codificar mediante un codificador de audio clásico antes de su transmisión o almacenamiento. Tradicionalmente, la señal compuesta comprende dos canales y es compatible con una difusión estéreo clásica. Antes de su transmisión o almacenamiento, esta señal compuesta puede de este modo codificarse mediante cualquier codificador estéreo 45 clásico. De este modo la señal codificada es entonces compatible con los dispositivos que comprende el decodificador correspondiente que reconstruyen la señal compuesta ignorando los datos espaciales.

Cuando se realiza este tipo de codificación mediante el matizado de una señal multicanal para obtener una señal compuesta, tras la transformación en el espacio frecuencial de la señal multicanal, pueden aparecer problemas de reconstrucción de la señal multicanal.

En efecto, en este caso, no hay necesariamente coherencia espacial entre la señal compuesta y el sistema de restitución en el cual se puede reproducir la señal. Por ejemplo, cuando la señal compuesta contiene dos canales, una restitución estereofónica debe permitir respetar la posición relativa de las fuentes sonoras en el espacio sonoro 55 reconstruido. La posición izquierda/derecha de las fuentes sonoras debe poder respetarse.

Además, tras el matrizado por banda de frecuencia, la señal compuesta resultante se transmite a continuación al decodificador en forma de una señal temporal.

El paso del espacio tiempo-frecuencia al espacio temporal implica unas interacciones entre las bandas de frecuencia y las tramas temporales próximas que introducen fallos y artefactos molestos.

Existe, por lo tanto, la necesidad de una técnica de codificación/decodificación paramétrica por banda de frecuencia que permita limitar los defectos introducidos por los pasos de las señales del campo tiempo-frecuencia al campo 65 temporal y controlar la coherencia espacial entre la señal de audio multicanal y la señal compuesta resultante de un matrizado de fuentes sonoras.

La presente invención viene a mejorar la situación.

Para ello, propone un procedimiento de codificación de una señal de audio multicanal que representa una escena 5 sonora que comprende una multitud de fuentes sonoras. El procedimiento es tal que comprende una etapa de descomposición de la señal multicanal en bandas de frecuencia y las siguientes etapas por banda de frecuencia:

- obtención de datos representativos de la dirección de las fuentes sonoras de la escena sonora;

- selección de un conjunto de fuentes sonoras de la escena sonora constituyendo las fuentes principales;

- adaptación de los datos representativos de la dirección de las fuentes principales seleccionadas, en función de las características de restitución de la señal multicanal, mediante la modificación de la posición de las fuentes para obtener una distancia mínima entre dos fuentes;

- determinación de una matriz de mezcla de las fuentes principales en función de los datos adaptados;

- matrizado de las fuentes principales mediante la matriz determinada para obtener una señal compuesta con un

número reducido de canales; 20

- codificación de los datos representativos de la dirección de las fuentes sonoras y formación de un flujo binario que comprende los datos codificados, adaptándose el flujo binario para transmitirse en paralelo a la señal compuesta.

De este modo, para la obtención de la señal compuesta, la matriz de mezcla tiene en cuenta los datos de informaciones de dirección de las fuentes. Esto permite adaptar la señal compuesta resultante, para una buena restitución del sonido en el espacio durante la reconstrucción de esta señal en el decodificador. La señal compuesta se adapta entonces a las características de restitución de la señal multicanal y a los eventuales solapamientos de las posiciones de las fuentes sonoras. De este modo se respeta la coherencia espacial entre la señal compuesta y la señal multicanal.

La adaptación de los datos que modifican la posición de las fuentes para obtener una distancia mínima entre dos fuentes permite, de este modo, que las dos fuentes que estarían tras la restitución sonora demasiado próximas entre sí, se separen para que la restitución de la señal permita que el oyente diferencie la posición de estas fuentes.

Al codificar por separado los datos de dirección y las fuentes sonoras por banda de frecuencia, se saca partido al hecho de que el número de fuentes activas en una banda de frecuencia es por lo general bajo, lo que aumenta los rendimientos de codificación.

No es necesario transmitir otros datos de reconstrucción de la matriz de mezcla al decodificador ya que esta se 40 determinará a partir de los datos de direcciones codificadas.

Los diferentes modos particulares de realización que se exponen a continuación se pueden añadir de forma independiente o combinándose unos con otros, en las etapas del procedimiento de codificación definido con anterioridad.

En un modo de realización, los datos representativos de la dirección son informaciones de directividades representativas de la distribución de las fuentes sonoras en la escena sonora.

Las informaciones de directividad asociadas a una fuente dan no solo la dirección de la fuente, sino también la 50 forma, o la distribución espacial, de la fuente, es decir la interacción que puede tener esta fuente con las demás fuentes de la escena sonora.

El conocimiento de estas informaciones de directividades asociado a la señal compuesta va a permitir que el decodificador obtenga una señal de mejor calidad que tiene en cuenta las redundancias entre los canales de manera 55 global y las probables oposiciones de fase entre canales.

En un modo particular de realización, la codificación... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento de codificación de una señal de audio multicanal que representa una escena sonora que comprende una multitud de fuentes sonoras, caracterizado por que comprende una etapa de descomposición (T) de 5 la señal multicanal en bandas de frecuencia y las siguientes etapas por banda de frecuencia:

- obtención (OBT) de datos representativos de la dirección de las fuentes sonoras de la escena sonora;

- selección (Selec) de un conjunto de fuentes sonoras de la escena sonora que constituyen las fuentes principales;

- adaptación (DiA_M) de los datos representativos de la dirección de las fuentes principales seleccionadas, en función de las características de restitución de la señal multicanal, mediante la modificación de la posición de las fuentes para obtener una distancia mínima entre dos fuentes;

- determinación (DiA_M) de una matriz de mezcla de las fuentes principales en función de los datos adaptados;

- matrizado (M) de las fuentes principales mediante la matriz determinada para obtener una señal compuesta con un número reducido de canales;

- codificación (Cod.Di) de los datos representativos de la dirección de las fuentes sonoras y formación de un flujo binario que comprende los datos codificados, estando el flujo binario adaptado para transmitirse en paralelo a la señal compuesta.

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado por que los datos representativos de la dirección 25 son informaciones de directividades representativas de la distribución de las fuentes sonoras en la escena sonora.

3. Procedimiento de acuerdo con la reivindicación 2, caracterizado por que la codificación de las informaciones de directividades se lleva a cabo mediante un método de representación paramétrica.

4. Procedimiento de acuerdo con la reivindicación 2, caracterizado por que la codificación de las informaciones de directividad se lleva a cabo mediante un método de análisis de componentes principales que proporciona unos vectores de directividad de base asociados a unas ganancias que permiten la reconstrucción de las directividades iniciales.

5. Procedimiento de acuerdo con la reivindicación 2, caracterizado por que la codificación de las informaciones de directividad se lleva a cabo mediante una combinación de un método de análisis de componentes principales y de un método de representación paramétrica.

6. Procedimiento de acuerdo con la reivindicación 1, caracterizado por que comprende, además, la codificación de fuentes secundarias entre las fuentes no seleccionadas de la escena sonora y de inserción de informaciones de codificación de las fuentes secundarias en el flujo binario.

7. Procedimiento de decodificación de una señal de audio multicanal que representa una escena sonora que

comprende una multitud de fuentes sonoras, a partir de un flujo binario y de una señal compuesta, caracterizado por 45 que comprende las siguientes etapas.

- extracción (Decod. Fb) en el flujo binario y decodificación de datos representativos de la dirección de las fuentes sonoras en la escena sonora;

- adaptación (DiA_N) de al menos una parte de los datos de dirección en función de las características de restitución de la señal multicanal, mediante la modificación de la posición de las fuentes obtenidas por los datos de dirección, para obtener una distancia mínima entre dos fuentes;

- determinación (DiA_N) de una matriz de mezcla de la señal compuesta en función de los datos adaptados y cálculo 55 de la inversa de la matriz de mezcla;

- desmatrizado (N) de la señal compuesta mediante la inversa de la matriz de mezcla para obtener un conjunto de fuentes principales;

- reconstrucción (SPAC.) de la señal de audio multicanal mediante la espacialización al menos de las fuentes principales con los datos extraídos decodificados.

8. Procedimiento de decodificación acuerdo con la reivindicación 7, caracterizado por que comprende, además, las siguientes etapas: 65

- extracción del flujo binario, de informaciones de codificación de fuentes secundarias codificadas;

- decodificación de las fuentes secundarias a partir de las informaciones de codificación extraídas;

- agrupamiento de las fuentes secundarias con las fuentes principales para la espacialización. 5

9. Codificador de una señal de audio multicanal que representa una escena sonora que comprende una multitud de fuentes sonoras, caracterizado por que comprende:

- un módulo (210) de descomposición de la señal multicanal en banda de frecuencia; 10

- un módulo (220) de obtención de datos representativos de la dirección de las fuentes sonoras de la escena sonora;

- un módulo (260) de selección de un conjunto de fuentes sonoras de la escena sonora que constituyen las fuentes

principales; 15

- un módulo (275) de adaptación de los datos representativos de la dirección de las fuentes principales seleccionadas, en función de las características de restitución de la señal multicanal, mediante unos medios de modificación de la posición de las fuentes para obtener una distancia mínima entre dos fuentes;

- un módulo (275) de determinación de una matriz de mezcla de las fuentes principales en función de los datos resultantes del módulo de adaptación;

- un módulo (270) de matrizado de las fuentes principales seleccionadas mediante la matriz determinada para

obtener una señal compuesta con un número reducido de canales; 25

- un módulo (230) de codificación de los datos representativos de la dirección de las fuentes sonoras; y

- un módulo (250) de formación de un flujo binario que comprende los datos codificados, estando el flujo binario

adaptado para transmitirse en paralelo a la señal compuesta. 30

10. Decodificador de una señal de audio multicanal que representa una escena sonora que comprende una multitud de fuentes sonoras, que recibe en la entrada un flujo binario y una señal compuesta, caracterizado por que comprende:

- un módulo (650) de extracción y de decodificación de datos representativos de la dirección de las fuentes sonoras en la escena sonora;

- un módulo (690) de adaptación de al menos una parte de los datos de dirección en función de las características

de restitución de la señal multicanal, mediante unos medios de modificación de la posición de las fuentes obtenidos 40 mediante los datos de dirección, para obtener una distancia mínima entre dos fuentes;

- un módulo (690) de determinación de una matriz de mezcla de la señal compuesta en función de los datos resultantes del módulo de adaptación y de cálculo de la inversa de la matriz de mezcla;

- un módulo (620) de desmatrizado de la señal compuesta mediante la inversa de la matriz de mezcla para obtener un conjunto de fuentes principales;

- un módulo (630) de reconstrucción de la señal de audio multicanal mediante la espacialización al menos de las

fuentes principales con los datos extraídos decodificados. 50

11. Programa informático que comprende unas instrucciones de código para la aplicación de las etapas de un procedimiento de codificación de acuerdo con una de las reivindicaciones 1 a 6 y/o de un procedimiento de decodificación de acuerdo con una de las reivindicaciones 7 a 8, cuando estas instrucciones las ejecuta un procesador.


 

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .