Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que usa la detección de un grupo de valores espectrales previamente decodificados.

Decodificador de audio (200;800) para proveer una información de audio decodificada (212;

812) sobre la base de una información de audio codificada (210;810), que comprende:

un decodificador aritmético (230;820) para proveer una pluralidad de valores espectrales decodificados (232;822) sobre la base de una representación aritméticamente codificada (222;821) de los valores espectrales; y

un convertidor de dominio frecuencial a dominio temporal (260;830) para proveer una representación de audio de dominio temporal (262;812) que utiliza los valores espectrales decodificados (232;822), para obtener la información de audio decodificada (212;812);

en donde el decodificador aritmético (230;820) está configurado para seleccionar una norma de mapeo (297; cum_freq[]) que describe un mapeo de un valor de código (value) de la representación aritméticamente codificada a un código de símbolos (symbol) que representa uno o más de los valores espectrales decodificados, o por lo menos una porción de uno o más de los valores espectrales decodificados de manera dependiente de un estado contextual (s); y

en donde el decodificador aritmético (230;820) está configurado para determinar el estado contextual actual (s) de manera dependiente de una pluralidad de valores espectrales previamente decodificados,

en donde el decodificador aritmético está configurado para detectar un grupo de la pluralidad de valores espectrales previamente decodificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y para determinar o modificar el estado contextual actual (s) de manera dependiente de un resultado obtenido con la detección.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/065725.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: WEISS, OLIVER, GAYER,MARC, RETTELBACH,NIKOLAUS, MULTRUS,MARKUS, FUCHS,Guillaume, WARMBOLD,PATRICK, SUBBARAMAN,VIGNESH, GRIEBEL,CHRISTIAN.

Fecha de Publicación: 31 de Diciembre de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

PDF original: ES-2531013_T3.pdf

Fragmento de la descripción:

Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que usa la detección de un grupo de valores espectrales previamente decodificados

Campo técnico

[1] Las formas de realización de acuerdo con la invención se refieren a un decodificador de audio para proveer información de audio decodificada sobre la base de una información de audio codificada, un codificador de audio para proveer una información de audio codificada sobre la base de una información de audio entrante, un método para proveer información de audio decodificada sobre la base de una información de audio codificada, un método para proveer una información de audio codificada sobre la base de una información de audio entrante y un programa de computación.

[2] Las formas de realización de acuerdo con la invención se refieren a una codificación espectral insonorizada mejorada, que se puede usar en un codificador o decodificador de audio, por ejemplo, como el llamado codificador de lenguaje y audio unificados (USAC, por sus siglas en inglés).

Antecedentes de la invención

[3] A continuación se explicarán brevemente los antecedentes de la invención para facilitar la comprensión de la invención y sus ventajas. Durante la última década, se han hecho grandes esfuerzos para desarrollar la posibilidad de almacenar y distribuir en forma digital contenidos de audio con buena eficacia en la velocidad de transmisión de bits. Un logro importante con respecto a lo anterior es la definición de la Norma Internacional ISO/IEC 14496-3. La parte 3 de esta Norma se relaciona con la codificación y decodificación de contenidos de audio, y la subparte 4 de la parte 3 se relaciona con codificación general de audio. La ISO/IEC 14496, parte 3, subparte 4 define un concepto para la codificación y decodificación de contenidos de audio en general. Además, se han propuesto otras mejoras para aumentar la calidad y/o reducir la velocidad de transmisión de bits requerida.

[4] De acuerdo con el concepto descripto en dicha Norma, una señal de audio de dominio temporal se convierte en una representación tiempo-frecuencia. La transformación del dominio temporal al dominio tiempo-frecuencia se lleva a cabo generalmente usando bloques transformadores, que también reciben el nombre de "marcos", de muestras de dominio temporal. Se ha descubierto que es conveniente usar marcos superpuestos, que sufren un desplazamiento, por ejemplo, de medio marco, porque la superposición permite evitar (o por lo menos reducir) con eficiencia artefactos. Además, se ha descubierto que debería ejecutarse un sistema de ventanas para evitar los artefactos que se originan de este procesamiento de marcos temporalmente limitados.

[5] Transformando una porción de ventana de la señal de audio entrante desde el dominio temporal al dominio tiempo-frecuencia, en muchos casos se obtiene una compactación de la energía, de manera que algunos de los valores espectrales comprenden una magnitud enormemente mayor que una pluralidad de otros valores espectrales. En consecuencia, en muchos casos, existe un número comparativamente pequeño de valores espectrales que poseen una magnitud considerablemente superior a una magnitud promedio de los valores espectrales. Un ejemplo típico de una transformación de dominio temporal a dominio tiempo-frecuencia que proporciona una compactación de energía es la denominada transformada discreta del coseno modificada (MDCT, por sus siglas en Inglés).

[6] Los valores espectrales generalmente están escalados y cualificados de acuerdo con un modelo psicoacústico, de modo tal que los errores de cuantificación son comparativamente más pequeños para los valores espectrales psicoacústlcamente más importantes, y son comparativamente mayores para los valores espectrales psicoacústicamente menos importantes. Los valores espectrales escalados y cualificados son codificados para proveer una representación eficaz de la velocidad de transmisión de bits de aquellos.

[7] Por ejemplo, la utilización de una codificación denominada de Huffman de coeficientes espectrales cualificados está descripta en la Norma Internacional ISO/IEC 14496-3:25(E), parte 3, subparte 4.

[8] El artículo "Improved Quantization and Lossless Codlng for Subband Audio Codlng" de N. Meine et al. (ediciones preliminares de los trabajos presentados en la 118a Convención AES, Barcelona, España, vol. 1-4, 31 de mayo de 25, páginas 1-9) describe un algoritmo de codificación de fuente basado en el modelo de Markov clásico, que utiliza cuantización vectorial y codificación aritmética en conjunción con un contexto adaptado dinámicamente de índices espectrales previamente codificados. El núcleo del algoritmo es el mapeado numéricamente optimizado de un gran número de estados de origen a un pequeño número de diferentes tablas codificadas. Esto permite su aplicación a la codificación de audio.

[9] Sin embargo, se ha descubierto que la calidad de la codificación de los valores espectrales tiene un importantísimo efecto en la velocidad de transmisión de bits requerida. Asimismo, se ha descubierto que la complejidad de un decodificador de audio, que generalmente está implementado como un dispositivo portátil para

uso del consumidor y que debería ser, por lo tanto, barato y de bajo consumo de energía, depende de la codificación que se haya usado para codificar los valores espectrales.

[1] En vista de esta situación, es necesario desarrollar un concepto para la codificación y decodificación de un contenido de audio, que proporcione una mejor correlación entre la eficacia de la velocidad de transmisión de bits y la eficacia de recursos.

Descripción de la invención

[11] Una forma de realización de acuerdo con la invención tal como se reivindica en la reivindicación 1 crea un decodificador de audio para proveer información de audio decodificada (o representación de audio decodificada) sobre la base de una información de audio codificada (o representación de audio codificada). El decodificador de audio comprende un decodificador aritmético para proveer una pluralidad de valores espectrales decodificados sobre la base de una representación codificada aritméticamente de los valores espectrales. El decodificador de audio también comprende un convertidor de dominio frecuencial a dominio temporal para proveer una representación de audio de dominio temporal que utiliza los valores espectrales decodificados, para obtener la información de audio decodificada. El decodificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo que describe un mapeo de un valor de código en un código de símbolos de manera dependiente de un estado contextual. El decodificador aritmético tiene una configuración que le permite determinar el estado contextual actual de manera dependiente de una pluralidad de valores espectrales previamente decodificados. El decodificador aritmético tiene una configuración que le permite detectar un grupo de una pluralidad de valores espectrales previamente decodificados, que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y determinar o modificar el estado contextual actual de manera dependiente de un resultado obtenido con la detección.

[12] Esta forma de realización de acuerdo con la invención se basa en el hallazgo de que la presencia de un grupo de una pluralidad de valores espectrales (preferiblemente, pero no necesariamente, adyacentes) previamente decodificados, que satisfacen la condición predeterminada relacionada con sus magnitudes, da lugar a una determinación especialmente eficaz del estado contextual actual debido a que un grupo de valores espectrales (preferiblemente adyacentes) previamente decodificados es un rasgo característico de la representación espectral y puede usarse, por lo tanto, para facilitar la determinación del estado contextual actual. Mediante la detección de un grupo de una pluralidad de valores espectrales (preferiblemente adyacentes) previamente decodificados que comprenden, por ejemplo, una magnitud particularmente pequeña, es posible reconocer porciones de amplitud comparativamente baja dentro del espectro, y ajustar (determinar o modificar) el estado contextual actual en consecuencia, de tal manera que se pueden codificar y decodificar otros valores espectrales adicionales con buena eficacia de codificación (en términos de velocidad de transmisión de bits). Alternativamente, se pueden detectar grupos de una pluralidad de valores espectrales adyacentes previamente decodificados que comprenden una amplitud comparativamente grande, y el contexto puede ajustarse (determinarse... [Seguir leyendo]

Reivindicaciones:

1. Decodificador de audio (2;8) para proveer una información de audio decodificada (212;812) sobre la base de una información de audio codificada (21;81), que comprende:

un decodificador aritmético (23;82) para proveer una pluralidad de valores espectrales decodificados (232;822) sobre la base de una representación aritméticamente codificada (222;821) de los valores espectrales; y un convertidor de dominio frecuencial a dominio temporal (26;83) para proveer una representación de audio de dominio temporal (262;812) que utiliza los valores espectrales decodificados (232,822), para obtener la información de audio decodificada (212;812);

en donde el decodlficador aritmético (23;82) está configurado para seleccionar una norma de mapeo (297; cum_freq[]) que describe un mapeo de un valor de código (valué) de la representación aritméticamente codificada a un código de símbolos (symbol) que representa uno o más de los valores espectrales decodificados, o por lo menos una porción de uno o más de los valores espectrales decodificados de manera dependiente de un estado contextual (s); y

en donde el decodlficador aritmético (23;82) está configurado para determinar el estado contextual actual (s) de manera dependiente de una pluralidad de valores espectrales previamente decodificados, en donde el decodlficador aritmético está configurado para detectar un grupo de la pluralidad de valores espectrales previamente decodificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y para determinar o modificar el estado contextual actual (s) de manera dependiente de un resultado obtenido con la detección.

2. El decodlficador de audio (2; 8) según la reivindicación 1, en donde el decodificador aritmético está configurado para determinar o modificar el estado contextual actual (s) independientemente de los valores espectrales previamente decodificados en respuesta a la detección de que la condición predeterminada ha sido satisfecha.

3. El decodlficador de audio (2; 8) según la reivindicación 1 o 2, en donde el decodificador aritmético está configurado para detectar un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes.

4. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 3, en donde el decodificador aritmético (23) está configurado para detectar un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados que, considerados individualmente o en conjunto, comprenden una magnitud que es más pequeña que una magnitud umbral predeterminada, y determinar o modificar el estado contextual actual (s) de manera dependiente de un resultado obtenido con la detección.

5. El decodificador de audio según una de las reivindicaciones 1 a 4, en donde el decodificador aritmético está configurado para detectar un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados, donde cada uno de los valores espectrales previamente decodificados es un valor cero, y determinar o modificar el estado contextual (s) de manera dependiente de un resultado obtenido con la detección.

6. El decodificador de audio según una de las reivindicaciones 1 a 4, en donde el decodificador aritmético está configurado para detectar un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados, que comprenden un valor suma que es más pequeño que un valor umbral predeterminado, y determinar o modificar el estado actual (s) de manera dependiente de un resultado obtenido con la detección.

7. El decodificador de audio según una de las reivindicaciones 1 a 6, en donde el decodificador aritmético está configurado para ajustar el estado contextual actual (s) a un valor predeterminado en respuesta a la detección de que un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes.

8. El decodificador de audio según la reivindicación 7, en donde el decodificador aritmético (23) está configurado para omitir de manera selectiva un cálculo del estado contextual (s) en forma dependiente de valores numéricos de una pluralidad de valores espectrales previamente decodificados en respuesta a la detección de que un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes.

9. El decodificador de audio según una de las reivindicaciones 1 a 6, en donde el decodificador aritmético está configurado para establecer el estado contextual actual (s) dentro de un intervalo de valores que señala la detección de un grupo de una pluralidad de valores espectrales adyacentes previamente decodificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, en respuesta a la detección.

1. El decodificador según una de las reivindicaciones 1 a 9, en donde el decodificador aritmético está configurado para mapear un código de símbolos (symbol; m) a un valor espectral decodificado (a).

11. El decodificador de audio según una de las reivindicaciones 1 a 1, en donde el decodificador aritmético está configurado para evaluar valores espectrales previamente decodificados de una primera región de tiempo- frecuencia, para detectar un grupo de una pluralidad de valores espectrales que satisfacen, considerados individualmente o en conjunto, la condición predeterminada relacionada con sus magnitudes, y

en donde el decodificador aritmético está configurado para obtener un valor numérico que representa el estado contextual (s) si la condición predeterminada no se satisface, de manera dependiente de los valores espectrales previamente decodificados de una segunda región de tiempo-frecuencia que es diferente de la primera región de tiempo-frecuencia.

12. El decodificador de audio según una de las reivindicaciones 1 a 11, en donde el decodificador aritmético está configurado para evaluar una o varias tablas hash (ari_s_hash, ari_gs_hash) para seleccionar una norma de mapeo (ari_cf_m[pki][9]) dependiente del estado contextual (s).

13. Codificador de audio (1;7 ) para proveer una información de audio codificada (112;712) sobre la base de una información de audio entrante (11;71), que comprende:

un convertidor de dominio temporal a dominio frecuencial que compacta la energía (13;72) para proveer una representación de audio de dominio frecuencial (132;722) sobre la base de una representación de dominio temporal (11;71) de la información de audio entrante, de modo tal que la representación de audio de dominio frecuencial (132;722) comprende un conjunto de valores espectrales; y

un codificador aritmético (17;73) configurado para codificar un valor espectral (a) o una versión preprocesada de aquel, usando una palabra de código de longitud variable (acod_m, acod_r), en donde el codificador aritmético (17) tiene una configuración que le permite mapear el valor espectral (a), o un valor (m) de un plano de bits más significativos del valor espectral (a) a un valor de código (acod_m),

en donde el codificador aritmético está configurado para seleccionar una norma de mapeo que describe el mapeo de un valor espectral, o del plano de bits más significativos del valor espectral, al valor de código, de manera dependiente de un estado contextual (s); y

en donde el codificador aritmético está configurado para determinar el estado contextual actual (s) de manera dependiente de una pluralidad de valores espectrales previamente codificados,

en donde el codificador aritmético está configurado para detectar un grupo de una pluralidad de valores espectrales previamente codificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y determinar o modificar el estado contextual actual (s) de manera dependiente de un resultado obtenido con la detección.

14. El codificador de audio (1; 7) según la reivindicación 13, en donde el codificador aritmético está configurado para determinar o modificar el estado contextual actual (s) de manera independiente de los valores espectrales previamente codificados en respuesta a la detección de que la condición predeterminada ha sido satisfecha.

15. El codificador de audio (1; 7) según la reivindicación 13 o 14, en donde el codificador aritmético está configurado para detectar un grupo de una pluralidad de valores espectrales adyacentes previamente codificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus

magnitudes.

16. Método para proveer una información de audio decodificada sobre la base de una información de audio codificada, que comprende:

proveer una pluralidad de valores espectrales decodificados sobre la base de una representación aritméticamente codificada de los valores espectrales; y

proveer una representación de audio de dominio temporal que utiliza los valores espectrales decodificados, para obtener la información de audio decodificada;

en donde proveer la pluralidad de valores espectrales decodificados comprende seleccionar una norma de mapeo que describe un mapeo de un valor de código (acod_m; valué) que representa un valor espectral, o un plano de bits más significativos del valor espectral, en una forma codificada a un código de símbolos (symbol) que representa el valor espectral, o el plano de bits más significativos del valor espectral, en una forma decodificada, de manera dependiente de un estado contextual; y

en donde el estado contextual actual se determina de manera dependiente de una pluralidad de valores espectrales previamente decodificados,

en donde se detecta un grupo de una pluralidad de valores espectrales previamente decodificados que satisfacen, considerados individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y donde el estado contextual actual es determinado o modificado de manera dependiente de un resultado obtenido con la detección.

17. Método para proveer una información de audio codificada sobre la base de una información de audio entrante, que comprende:

proveer una representación de audio de dominio frecuencial sobre la base de una representación de dominio temporal de la información de audio entrante usando una conversión de dominio temporal a dominio frecuencial

que compacta la energía, de modo tal que la representación de audio de dominio frecuencial comprende un conjunto de valores espectrales; y

codificar aritméticamente un valor espectral, o una versión preprocesada de aquél, que utiliza una palabra de código de longitud variable, en donde el valor espectral o un valor de un plano de bits más significativos del valor 5 espectral es mapeado a un valor de código;

en donde una norma de mapeo que describe el mapeo del valor espectral, o del plano de bits más significativos del valor espectral, al valor de código se selecciona de manera dependiente de un estado contextual; y en donde un estado contextual actual es determinado de manera dependiente de una pluralidad de valores espectrales adyacentes previamente codificados; y

en donde se detecta un grupo de una pluralidad de valores espectrales previamente decodificados que

satisfacen, Individualmente o en conjunto, una condición predeterminada relacionada con sus magnitudes, y el estado contextual actual es determinado o modificado de manera dependiente de un resultado obtenido con la detección.

18. Programa de computación adaptado para ejecutar el método según la reivindicación 16 o la reivindicación

17 cuando el programa funciona en una computadora.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]