DECODIFICACIÓN DE AUDIO.

Aparato para generar un número de canales de salida de audio; comprendiendo el aparato:

medios para recibir (401) un flujo de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, representando la estructura de decodificador de matriz una estructura decodificadora jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de las características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador jerárquica, en el que los coeficientes de matriz de la estructura de decodificador de matriz pueden generarse a partir de los datos de estructura de árbol de decodificador, en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio en un cierto número de canales, unidades intermedias de decorrelación (D1, ..., D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio; medios para generar (405) la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y medios para generar (403) el número de canales de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E09005485.

Solicitante: Koninklijke Philips Electronics N.V.
Dolby International AB.

Nacionalidad solicitante: Países Bajos.

Dirección: GROENEWOUDSEWEG 1 5621 BA EINDHOVEN PAISES BAJOS.

Inventor/es: SCHUIJERS, ERIK, G., P., PURNHAGEN,HEIKO, HOTHO,GERARD,H, SCHILDBACH,WOLFGANG,A, HOERICH,HOLGER, KJOERLING,HANS,M, Roeden,Karl J.

Fecha de Publicación: 15 de Febrero de 2012.

Fecha Solicitud PCT: 7 de Julio de 2006.

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2374309_T3.pdf

Fragmento de la descripción:

Decodificación de audio.

La invención se refiere a la codificación y/o decodificación de audio que utilizan estructuras de codificación jerárquicas y/o estructuras de decodificador jerárquicas.

En el campo del procesamiento de audio, se conoce bien convertir un número de canales de audio en otro número más grande de canales de audio. Una conversión de este tipo puede realizarse por diferentes razones. Por ejemplo, una señal de audio puede convertirse en otro formato para proporcionar una experiencia mejorada de usuario. Por ejemplo, las grabaciones tradicionales de estéreo sólo comprenden dos canales mientras que los sistemas avanzados de audio de módem normalmente utilizan cinco o seis canales, como los populares sistemas de sonido envolvente 5.1. En consecuencia, los dos canales de estéreo pueden convertirse en cinco o seis canales con el fin de aprovechar completamente el sistema avanzado de audio.

Otra razón para una conversión de un canal es la eficiencia de la codificación. Se ha encontrado que por ejemplo, las señales de audio de estéreo pueden codificarse como señales de audio de canal único combinadas con un flujo de bits de parámetro que describen las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio de estéreo con un grado muy satisfactorio de exactitud. De este modo, pueden obtenerse ahorros sustanciales de la tasa de transmisión de bits.

Existen varios parámetros que pueden utilizarse para describir las propiedades espaciales de las señales de audio. Un parámetro de este tipo es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para las señales de estéreo. Otro parámetro es la proporción de potencia de los canales. En los denominados codificadores (paramétricos) de audio espacial, estos y otros parámetros se extraen de la señal original de audio para producir una señal de audio que tiene un número reducido de canales, por ejemplo, sólo un canal único, más un conjunto de parámetros que describen las propiedades espaciales de la señal original de audio. En los denominados decodificadores (paramétricos) de audio espacial, se reconstruye la señal original de audio.

La codificación de audio espacial es una técnica recientemente introducida para codificar de manera eficaz el material de audio de múltiples canales. En la codificación de audio espacial, una señal de audio de M canales se describe como una señal de audio de N canales más un conjunto de parámetros espaciales correspondientes, en la que N es normalmente más pequeño que M. Por lo tanto, en el codificador de audio espacial se mezcla de forma descendente la señal de M canales en una señal de N canales y los parámetros espaciales se extraen. En el decodificador, la señal de N canales y los parámetros espaciales se emplean para reconstruir (de manera perceptible) la señal de M canales.

Preferiblemente, tal codificación de audio espacial emplea una estructura jerárquica en cascada o basada en árbol (tree) que comprende unidades convencionales en el codificador y los decodificadores. En el codificador, estas unidades convencionales pueden ser mezcladores descendentes que combinan canales en un número más bajo de canales, tales como los mezcladores descendentes de 2-a-1, 3-a-1, 3-a-2, etc., mientras en las correspondientes unidades convencionales del decodificador pueden estar los canales divisores mezcladores ascendentes en un número más alto de canales tales como los mezcladores ascendentes de 1-a-2, 2-a-3.

No obstante, un problema con un enfoque de este tipo es que la estructura del decodificador debe coincidir con la estructura del codificador. Aunque esto puede conseguirse mediante el uso de una estructura normalizada de codificador y decodificador, un enfoque de este tipo carece de flexibilidad y tenderá a originar un rendimiento por debajo del óptimo.

El documento de la convención AES 6447, presentado en la 118ª Convención, 28-31 de mayo de 2005, “The Reference Model Architecture for MPEG Spatial Audio Coding”, J. Herre, et al. da a conocer principios de la codificación de audio espacial, en la que se transmiten una señal de mezcla descendente y parámetros espaciales a una etapa de síntesis espacial. La etapa de síntesis espacial comprende una matriz de mezclado previo, uno o más circuitos de decorrelación y una matriz de mezclado posterior, donde la matriz de mezclado previo recibe señales de entrada de dominio QMF, y la matriz de mezclado posterior genera señales de salida de dominio QMF.

Es un objeto proporcionar un sistema mejorado que permita el incremento en la flexibilidad, la reducción en la complejidad y/o la mejora del rendimiento.

Este objeto se logra mediante un aparato según la reivindicación 1 o un método según la reivindicación 10.

Por consiguiente, la invención busca preferiblemente mitigar, aliviar o eliminar una o más de las desventajas mencionadas anteriormente, solas o en combinación.

La invención puede permitir una generación flexible de canales de audio y puede permitir en particular una funcionalidad del decodificador para adaptarse a una estructura de codificador utilizada para la generación del flujo de datos. La invención puede permitir, por ejemplo, a un codificador seleccionar un enfoque adecuado de codificación para una señal de múltiples canales a la vez que permite que el aparato se adapte de manera automática a la misma. La invención puede permitir un flujo de datos que tiene una calidad mejorada de la proporción de tasa de transmisión de bits. En particular, la invención puede permitir la adaptación automática y/o un alto grado de flexibilidad a la vez que proporciona la calidad mejorada de audio que puede conseguirse a partir de las estructuras de codificación/decodificación jerárquicas. Un ejemplo puede permitir además una comunicación eficaz de la información de la estructura de decodificador jerárquica. De manera específica, la invención puede permitir una baja sobrecarga para los datos de estructura de árbol de decodificador. La invención puede proporcionar un aparato que se adapte de manera automática al flujo recibido de bits y que pueda utilizarse con cualquier estructura de codificación jerárquica adecuada.

Cada canal de audio puede soportar una señal individual de audio. El flujo de datos puede ser un único flujo de bits o por ejemplo, puede ser una combinación de una pluralidad de un subflujos de bits distribuidos, por ejemplo, a través de diferentes canales de distribución. El flujo de datos puede tener una duración limitada tal como una duración fija que corresponda a un archivo de datos de un tamaño dado. La característica de división de canal puede ser una característica indicativa de en cuántos canales se divide un canal de audio dado en una capa jerárquica. Por ejemplo, la característica de división de canal puede reflejar si un canal dado de audio no se divide o si se divide en dos canales de audio.

Los datos de estructura de árbol de decodificador pueden comprender datos para la estructura de decodificador jerárquica de una pluralidad de canales de audio. De manera específica, los datos de estructura de árbol de decodificador pueden comprender un conjunto de datos para cada uno del número de canales de entrada de audio. Por ejemplo, los datos de estructura de árbol de decodificador pueden comprender datos para una estructura de árbol de decodificador para cada señal de entrada.

Según un ejemplo, los datos de estructura de árbol de decodificador comprenden una pluralidad de valores de datos, siendo cada valor de datos indicativo de una característica de división de canal para un canal en una capa jerárquica de la estructura de decodificador jerárquica.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte a la codificación utilizada para el flujo de datos. Los datos de estructura de árbol de decodificador pueden comprender, de manera específica, un valor de datos para cada función de división de canal en la estructura de decodificador jerárquica. Los datos de estructura de árbol de decodificador también pueden comprender un valor de datos para cada canal de salida que indica que no se producirán divisiones adicionales de canal para una señal de capa jerárquica dada.

Según una característica opcional de la invención, un valor predeterminado de datos es indicativo de la falta de división de canal para el canal en la capa jerárquica.... [Seguir leyendo]

Reivindicaciones:

1. Aparato para generar un número de canales de salida de audio; comprendiendo el aparato:

en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio en un cierto número de canales, unidades intermedias de decorrelación (D1, …, D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio;

medios para generar (405) la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y medios para generar (403) el número de canales de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

2. Aparato según la reivindicación 1, en el que los medios para generar (405) la estructura de decodificador de matriz se disponen para determinar, como los coeficientes de multiplicación de la estructura de decodificador de matriz, parámetros de multiplicación para funciones de división de canal de las capas jerárquicas de la estructura de decodificador de matriz en respuesta a los datos de estructura de árbol de decodificador.

3. Aparato según la reivindicación 1, en el que la estructura de decodificador de matriz comprende al menos una funcionalidad de división de canal en al menos una capa jerárquica de la estructura de decodificador de matriz, la al menos una funcionalidad de división de canal comprende las unidades intermedias de decorrelación para generar una señal decorrelacionada a partir de una salida obtenida mediante el procesamiento del canal de entrada de audio del flujo de datos por la primera matriz (M1) usada en la primera multiplicación matricial; y

en el que la segunda matriz comprende una matriz de mezcla (M2) que comprende al menos una unidad de división de canal para generar una pluralidad de canales de salida de capa jerárquica a partir de un canal de audio de una capa jerárquica más alta y la señal decorrelacionada .

4. Aparato según la reivindicación 1, en el que la primera matriz (M1) comprende medios de compensación de nivel para realizar una compensación de nivel de audio en el canal de entrada de audio para generar una señal de audio compensada en nivel; y en el que las unidades de decorrelación (D1, …D5) están adaptadas para filtrar la señal de audio compensada en nivel para generar la señal decorrelacionada.

5. Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y los coeficientes de la matriz previa (M1) tienen al menos un valor unidad para la estructura de decodificador jerárquica que comprende sólo una funcionalidad de división de canal de uno-a-dos.

6. Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y en el que el aparato comprende además medios para determinar la matriz previa (M1) para la al menos una funcionalidad de división de canal en la al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal en una capa jerárquica más alta.

7. Aparato según la reivindicación 1, que comprende además medios para determinar una matriz de división de canal (árbol) para la al menos una funcionalidad de división de canal en respuesta a parámetros de la al menos una funcionalidad de división de canal en la al menos una capa jerárquica.

8. Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y en el que el aparato comprende además medios para determinar la matriz previa (M1) para al menos una funcionalidad de división de canal en al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal de dos-a-tres de una capa jerárquica más alta.

9. Aparato según la reivindicación 8, en el que los medios para determinar la matriz previa (M1) se disponen para determinar la matriz previa para la al menos una funcionalidad de división de canal en respuesta a una determinación de una primera sub-matriz previa que corresponde a una primera entrada del mezclador ascendente de dos-a-tres y una segunda sub-matriz previa que corresponde a una segunda entrada de un mezclador ascendente de dos-a-tres.

10. Método de generación de un número de canales de salida de audio; comprendiendo el método:

recibir un flujo (1511) de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos los datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, representando la estructura de decodificador de matriz una estructura de decodificador jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador jerárquica;

en el que los coeficientes de matriz de la estructura de decodificador de matriz pueden generarse a partir de los datos de estructura de árbol de decodificador, en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio para un cierto número de canales, unidades intermedias de decorrelación (D1, …D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio,

generar la estructura de decodificador de matriz que representa la estructura (1513) de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y generar el número de canales (1515) de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

11. Receptor (103) para generar un número de canales de salida de audio; comprendiendo el receptor (103) un aparato según la reivindicación 1.

12. Método de recepción de un flujo de datos, comprendiendo el método un método según la reivindicación 10.

13. Producto de programa informático adaptado para ejecutar el método según la reivindicación 10.

14. Dispositivo de reproducción de audio que comprende un aparato según la reivindicación 1.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]