Codificador de audio, decodificador de audio, procedimiento para codificar información de audio, procedimiento y programa de computación que usa una regla dependiente de la región para un mapeado mediante codificación aritmética.

Un decodificador de audio (200; 800; 2200) para proveer una información de audio decodificada (212;

812; 2212) sobre la base de una información de audio codificada (210; 810; 2210), codificador de audio que comprende:

un decodificador aritmético (230; 820; 2220) para proveer una pluralidad de valores espectrales decodificados (232; 822; 2224; a) sobre la base de una representación aritméticamente codificada (222; 821; 2222; acod_m[pki][m], acod_r[r]) de los valores espectrales; y

un convertidor de dominio frecuencial a dominio temporal (260; 830; 2230) para proveer una representación de audio de dominio temporal que usa los valores espectrales decodificados (232; 822; 2224; a), para obtener la información de audio decodificada; donde el decodificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo (cum_freq, ari_cf_m[pki][9]) que describe un mapeo de un valor de código (acod_m[pki][m]; valor) a un código de símbolos (symbol) de manera dependiente de un estado contextual;

donde el decodificador aritmético tiene una configuración que le permite determinar un valor contextual actual numérico (s) que describe el estado contextual actual de manera dependiente de una pluralidad de valores espectrales previamente decodificados (a) y también de manera dependiente de que un valor espectral (a) que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/065726.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: WEISS, OLIVER, GAYER,MARC, RETTELBACH,NIKOLAUS, MULTRUS,MARKUS, FUCHS,Guillaume, WARMBOLD,PATRICK, SUBBARAMAN,VIGNESH, GRIEBEL,CHRISTIAN.

Fecha de Publicación: 5 de Marzo de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

PDF original: ES-2454020_T3.pdf

Fragmento de la descripción:

Codificador de audio, decodificador de audio, procedimiento para codificar información de audio, procedimiento y programa de computación que usa una regla dependiente de la región para un mapeado mediante codificación aritmética

Campo técnico [0001] Las formas de realización de acuerdo con la invención se refieren a un decodificador de audio para proveer información de audio decodificada sobre la base de una información de audio codificada, un codificador de audio para proveer una información de audio codificada sobre la base de una información de audio entrante, un procedimiento para proveer información de audio decodificada sobre la base de una información de audio codificada, un procedimiento para proveer una información de audio codificada sobre la base de una información de audio entrante y un programa de computación.

Las formas de realización de acuerdo con la invención se refieren a una codificación espectral insonorizada mejorada, que se puede usar en un codificador o decodificador de audio, por ejemplo, como el llamado codificador de lenguaje y audio unificados (USAC, por sus siglas en inglés) .

Antecedentes de la invención [0003] A continuación se explicarán brevemente los antecedentes de la invención para facilitar la comprensión de la invención y sus ventajas. Durante la última década, se han hecho grandes esfuerzos para desarrollar la posibilidad de almacenar y distribuir en forma digital contenidos de audio con buena eficacia en la velocidad de transmisión de bits. Un logro importante con respecto a lo anterior es la definición de la Norma Internacional ISO/IEC 14496-3. La parte 3 de esta Norma se relaciona con la codificación y decodificación de contenidos de audio, y la subparte 4 de la parte 3 se relaciona con codificación general de audio. La ISO/IEC 14496, parte 3, subparte 4 define un concepto para la codificación y decodificación de contenidos de audio en general. Además, se han propuesto otras mejoras para aumentar la calidad y/o reducir la velocidad de transmisión de bits requerida.

De acuerdo con el concepto descrito en dicha Norma, una señal de audio de dominio temporal se convierte en una representación tiempo–frecuencia. La transformación del dominio temporal al dominio tiempo–frecuencia se lleva a cabo generalmente usando bloques transformadores, que también reciben el nombre de “marcos”, de muestras de dominio temporal. Se ha descubierto que es conveniente usar marcos superpuestos, que sufren un desplazamiento, por ejemplo, de medio marco, porque la superposición permite evitar (o por lo menos reducir) con eficiencia artefactos. Además, se ha descubierto que debería ejecutarse un sistema de ventanas para evitar los artefactos que se originan de este procesamiento de marcos temporalmente limitados.

Transformando una porción de ventana de la señal de audio entrante desde el dominio temporal al dominio tiempo–frecuencia, en muchos casos se obtiene una compactación de la energía, de manera que algunos de los valores espectrales comprenden una magnitud enormemente mayor que una pluralidad de otros valores espectrales. En consecuencia, en muchos casos, existe un número comparativamente pequeño de valores espectrales que poseen una magnitud considerablemente superior a una magnitud promedio de los valores espectrales. Un ejemplo típico de una transformación de dominio temporal a dominio tiempo–frecuencia que proporciona una compactación de energía es la denominada transformada discreta del coseno modificada (MDCT, por sus siglas en inglés) .

Los valores espectrales generalmente están escalados y cuantificados de acuerdo con un modelo psicoacústico, de modo tal que los errores de cuantificación son comparativamente más pequeños para los valores espectrales psicoacústicamente más importantes, y son comparativamente mayores para los valores espectrales psicoacústicamente menos importantes. Los valores espectrales escalados y cuantificados son codificados para proveer una representación eficaz de la velocidad de transmisión de bits de aquellos.

Por ejemplo, la utilización de una codificación denominada de Huffman de coeficientes espectrales cuantificados está descripta en la Norma Internacional ISO/IEC 14496-3:2005 (E) , parte 3, subparte 4.

Sin embargo, se ha descubierto que la calidad de la codificación de los valores espectrales tiene un importantísimo efecto en la velocidad de transmisión de bits requerida. Asimismo, se ha descubierto que la complejidad de un decodificador de audio, que generalmente está implementado como un dispositivo portátil para uso del consumidor y que debería ser, por lo tanto, barato y de bajo consumo de energía, depende de la codificación que se haya usado para codificar los valores espectrales.

En vista de esta situación, es necesario desarrollar un concepto para la codificación y decodificación de un contenido de audio, que proporcione una mejor correlación entre la eficacia de la velocidad de transmisión de bits y la eficacia de recursos.

Un ejemplo conocido de codificador-descodificador de audio de baja tasa de bits que utiliza una descomposición de sub-banda en planos de bits se describe en MEINE NIKOLAUS ET AL: "IMPROVED QUANTIZATION AND LOSSLESS CODING FOR SUBBAND AUDIO CODING", PREPRINTS OF PAPERS PRESENTED AT THE 118TH AES CONVENTION, BARCELONA, SPAIN, vol. 1-4, 31 Mayo de 2005, páginas 1-9, XP008071322.

Síntesis de la invención [0011] Una forma de realización de acuerdo con la invención tal como se reivindica en la reivindicación 1 crea un decodificador de audio para proveer una información de audio decodificada sobre la base de una información de audio codificada. El decodificador de audio comprende un decodificador aritmético para proveer una pluralidad de valores espectrales decodificados sobre la base de una representación aritméticamente codificada de los valores espectrales. El decodificador de audio comprende además un convertidor de dominio frecuencial a dominio temporal para proveer una representación de audio de dominio temporal que usa los valores espectrales decodificados, para obtener la información de audio decodificada. El decodificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo que describe un mapeo de un valor de código (que puede extraerse de una corriente de bits que representa la información de audio codificada) a un código de símbolos (que puede ser un valor numérico que representa un valor espectral decodificado, o un plano de bits más significativos de éste) de manera dependiente de un estado contextual. El decodificador aritmético tiene una configuración que le permite determinar un valor contextual actual numérico que describe el estado contextual actual de manera dependiente de una pluralidad de valores espectrales previamente decodificados y también de manera dependiente de que un valor espectral que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

Se ha descubierto que una consideración de la región frecuencial, en la que se encuentra un valor espectral que se va a decodificar actualmente, da lugar a una mejora importantísima de la calidad de la computación del contexto sin que aumente de manera relevante el esfuerzo computacional requerido para la computación del contexto. Asimismo, teniendo en cuenta el hecho de que las dependencias estadísticas entre valores espectrales previamente decodificados que se encuentran en la proximidad de un valor espectral que se ha de decodificar actualmente, varían con la frecuencia, se puede seleccionar el contexto para dar lugar a una eficacia de codificación elevada, tanto para la decodificación de valores espectrales asociados con frecuencias comparativamente bajas como para la decodificación de valores espectrales asociados con frecuencias comparativamente altas. Una buena adaptación del contexto a los detalles de las dependencias estadísticas entre el valor espectral que se ha de decodificar actualmente y los valores espectrales previamente decodificados (en general de una proximidad directa o indirecta con respecto al valor espectral que se ha de decodificar actualmente) genera la posibilidad de aumentar la eficacia de codificación a la vez que se mantiene el esfuerzo computacional razonablemente pequeño. Se ha descubierto que la consideración de la región frecuencial es posible con muy poco esfuerzo, ya que un índice frecuencial del valor espectral que se ha de decodificar actualmente es habitual en el proceso de la decodificación aritmética. Por consiguiente, la adaptación selectiva del contexto puede ejecutarse con poco esfuerzo computacional y aún así dar lugar a una mejora de la eficacia de codificación.... [Seguir leyendo]

Reivindicaciones:

1. Un decodificador de audio (200; 800; 2200) para proveer una información de audio decodificada (212; 812; 2212) sobre la base de una información de audio codificada (210; 810; 2210) , codificador de audio que comprende:

un decodificador aritmético (230; 820; 2220) para proveer una pluralidad de valores espectrales decodificados (232; 822; 2224; a) sobre la base de una representación aritméticamente codificada (222; 821; 2222; acod_m[pki][m], acod_r[r]) de los valores espectrales; y un convertidor de dominio frecuencial a dominio temporal (260; 830; 2230) para proveer una representación de audio de dominio temporal que usa los valores espectrales decodificados (232; 822; 2224; a) , para obtener la información de audio decodificada; donde el decodificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo (cum_freq, ari_cf_m[pki][9]) que describe un mapeo de un valor de código (acod_m[pki][m]; valor) a un código de símbolos (symbol) de manera dependiente de un estado contextual; donde el decodificador aritmético tiene una configuración que le permite determinar un valor contextual actual numérico (s) que describe el estado contextual actual de manera dependiente de una pluralidad de valores espectrales previamente decodificados (a) y también de manera dependiente de que un valor espectral (a) que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

2. El decodificador de audio de acuerdo con la reivindicación 1, donde el decodificador aritmético tiene una configuración que le permite modificar selectivamente el valor contextual actual numérico (s) de manera dependiente de que el valor espectral (a) que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

3. El decodificador de audio de acuerdo con la reivindicación 1 o la reivindicación 2, donde el decodificador aritmético tiene una configuración que le permite determinar el valor contextual actual numérico (s) de modo tal que el valor contextual actual numérico (s) se basa en una combinación de una pluralidad de valores espectrales previamente decodificados, o en una combinación de una pluralidad de valores intermedios (c0, c1, c2, c3, c4, c5, c6) derivados de una pluralidad de valores espectrales previamente decodificados (a) , y de modo tal que el valor contextual actual numérico (s) aumenta en forma selectiva respecto de un valor obtenido sobre la base de una combinación de una pluralidad de valores espectrales previamente decodificados, o sobre la base de una combinación de una pluralidad de valores intermedios (c0, c1, c2, c3, c4, c5, c6) derivados de una pluralidad de valores espectrales previamente decodificados, de manera dependiente de que un valor espectral que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

4. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 3, donde el decodificador aritmético tiene una configuración que le permite distinguir entre por lo menos una primera región frecuencial y una segunda región frecuencial para determinar el valor contextual actual numérico (s) ,

donde la primera región frecuencial comprende por lo menos 15% de los valores espectrales asociados con una porción temporal dada del contenido de audio, y donde la primera región frecuencial es una región de baja frecuencia y comprende un valor espectral asociado que tiene la frecuencia más baja.

5. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 4, donde el decodificador aritmético tiene una configuración que le permite distinguir entre por lo menos una primera región frecuencial y una segunda región frecuencial para determinar el valor contextual actual numérico (s) ,

donde la segunda región frecuencial comprende por lo menos 15% de los valores espectrales asociados con una porción temporal dada del contenido de audio, y donde la segunda región frecuencial es una región de alta frecuencia y comprende un valor espectral asociado que tiene la frecuencia más alta.

6. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 5, donde el decodificador aritmético tiene una configuración que le permite distinguir por lo menos entre una primera región frecuencial, una segunda región frecuencial y una tercera región frecuencial, para determinar el valor contextual actual numérico (s) apoyándose en el hecho de determinar en cuál de las por lo menos tres regiones frecuenciales se encuentra el valor espectral que se ha de decodificar; y

donde cada una de la primera región frecuencial, la segunda región frecuencial y la tercera región frecuencial comprende una pluralidad de valores espectrales asociados.

7. El decodificador de audio de acuerdo con la reivindicación 6, donde por lo menos un octavo de los valores espectrales de una porción temporal dada de la información de audio están asociados con la primera región frecuencial, y donde por lo menos un quinto de los valores espectrales de la porción temporal dada de la información de audio están asociados con la segunda región frecuencial, y donde por lo menos un cuarto de los valores espectrales de la porción temporal dada de la información de audio están asociados con la tercera región frecuencial.

8. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 7, donde el decodificador aritmético tiene una configuración que le permite calcular una suma que comprende por lo menos un primer sumando y un segundo sumando, para obtener el valor contextual actual numérico (s) como resultado de la suma,

donde el primer sumando se obtiene combinando una pluralidad de valores intermedios (c0, c1, c2, c3, c4, c5, c6) que describen magnitudes de valores espectrales previamente decodificados (a) , y donde el segundo sumando (región) describe a cuál región frecuencial, de una pluralidad de regiones frecuenciales, está asociado un valor espectral que se ha de decodificar.

9. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 8, donde el decodificador aritmético tiene una configuración que le permite modificar una o varias posiciones de bits predeterminadas de una representación binaria del valor contextual actual numérico (s) apoyándose en el hecho de determinar en cuál región frecuencial, de una pluralidad de regiones frecuenciales diferentes, se encuentra el valor espectral que se ha de decodificar.

10. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 9, donde el decodificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo de manera dependiente del valor contextual actual numérico (s) , de modo tal que una pluralidad de diferentes valores contextuales actuales numéricos (s) dan como resultado una selección de una misma norma de mapeo.

11. El decodificador de audio de acuerdo con una de las reivindicaciones 1 a 10, donde el decodificador aritmético tiene una configuración que le permite ejecutar una selección en dos pasos de una norma de mapeo de manera dependiente del valor contextual actual numérico;

donde el decodificador aritmético tiene una configuración que le permite verificar, en un primer paso de selección, si el valor contextual actual numérico (s) o un valor derivado de éste, es igual a un valor de estado significativo descrito por una entrada de una tabla de aciertos directos (ari_s_hash) ; y

donde el decodificador aritmético tiene una configuración que le permite determinar, en un segundo paso de selección, que solamente es ejecutado si el valor contextual actual numérico (s) , o un valor derivado de éste, es diferente de los valores de estado significativos descritos por las entradas de la tabla de aciertos directos, en cuál intervalo, de una pluralidad de intervalos, se encuentra el valor contextual actual numérico (s) ; y

donde el decodificador aritmético tiene una configuración que le permite seleccionar la norma de mapeo de manera dependiente de un resultado del primer paso de selección o el segundo paso de selección; y

donde el decodificador aritmético tiene una configuración que le permite seleccionar la norma de mapeo, en el primer paso de selección o en el segundo paso de selección, de manera dependiente de que un valor espectral que se ha de decodificar esté en una primera región frecuencial o en una segunda región frecuencial.

12. El decodificador de audio de acuerdo con la reivindicación 11, donde el decodificador aritmético tiene una configuración que le permite modificar selectivamente una o más porciones de bits menos significativos de una representación binaria del valor contextual actual numérico (s) apoyándose en el hecho de determinar en cuál región frecuencial, de una pluralidad de regiones frecuenciales diferentes, se encuentra el valor espectral que se ha de decodificar;

donde el decodificador aritmético tiene una configuración que le permite determinar, en el segundo paso de selección, en cuál intervalo, de una pluralidad de intervalos, se encuentra la representación binaria del valor contextual actual numérico (s) ,

seleccionar el mapeo, de modo tal que algunos valores contextuales actuales numéricos dan como resultado una selección de la misma norma de mapeo sin que importe en cuál región frecuencial se encuentra el valor espectral que se ha de decodificar, y

de modo tal que para algunos valores contextuales actuales numéricos, la norma de mapeo se selecciona teniendo en cuenta en cuál región frecuencial se encuentra el valor espectral que se ha de decodificar.

13. Un codificador de señales de audio (100; 700; 2100) para proveer una información de audio codificada (112; 712; 2112) sobre la base de una información de audio entrante (110; 710; 2110) , codificador de audio que comprende:

un convertidor de dominio temporal a dominio frecuencial compactador de energía (130; 720; 2120) para proveer una representación de audio de dominio frecuencial (132; 722; 2124) sobre la base de una representación de dominio frecuencial (110; 710; 2122) de la información de audio entrante, de modo tal que la representación de audio de dominio frecuencial comprende un conjunto de valores espectrales (a) ;

un codificador aritmético (170; 730; 2130) que tiene una configuración que le permite codificar valores espectrales (a) , o una versión preprocesada de estos, usando una palabra de código de longitud variable (acod_m, acod_r) ,

donde el codificador aritmético tiene una configuración que le permite mapear un valor espectral

(a) o un valor (m) de un plano de bits más significativos de un valor espectral (a) , a un valor de código (acod_m) ,

donde el codificador aritmético tiene una configuración que le permite seleccionar una norma de mapeo (ari_cf_m[pki][9]) que describe un mapeo de un valor espectral (a) , o de un plano de bits más significativos (m) de un valor espectral (a) , a un valor de código de manera dependiente de un estado contextual (s) ,

donde el codificador aritmético tiene una configuración que le permite determinar un valor contextual actual numérico (s) que describe el estado contextual actual de manera dependiente de una pluralidad de valores espectrales previamente codificados y también de manera dependiente de que un valor espectral que se ha de codificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

14. Un procedimiento para proveer una información de audio decodificada sobre la base de una información de audio codificada, procedimiento que comprende:

proveer una pluralidad de valores espectrales decodificados sobre la base de una representación aritméticamente codificada de los valores espectrales; y

ejecutar una conversión de dominio frecuencial a dominio temporal, para proveer una representación de audio de dominio temporal que usa los valores espectrales decodificados, para obtener la información de audio decodificada;

donde una norma de mapeo que describe un mapeo de un valor de código a un código de símbolos se selecciona de manera dependiente de un estado contextual; y

donde un valor contextual actual numérico que describe el estado contextual actual es determinado de manera dependiente de una pluralidad de valores espectrales previamente decodificados y también de manera dependiente de que un valor espectral que se ha de decodificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

15. Un procedimiento para proveer una información de audio codificada sobre la base de una información de audio entrante, procedimiento que comprende:

ejecutar una conversión de frecuencias de dominio temporal a dominio frecuencial compactadora de energía, para proveer una representación de audio de dominio frecuencial sobre la base de una representación de dominio temporal de la información de audio entrante, de modo tal que la representación de audio de dominio frecuencial comprende un conjunto de valores espectrales; y

codificar un valor espectral, o una versión preprocesada de éste empleando una palabra de código de longitud variable; donde un valor espectral, o un valor de un plano de bits más significativos de un valor espectral, es mapeado a un valor de código;

donde una norma de mapeo que describe un mapeo de un valor espectral, o de un plano de bits más significativos de un valor espectral, a un valor de código se selecciona de manera dependiente de un estado contextual;

donde un valor contextual actual numérico que describe el estado contextual actual es determinado de manera dependiente de una pluralidad de valores espectrales previamente codificados y también de manera dependiente de que un valor espectral que se ha de codificar esté en una primera región frecuencial predeterminada o en una segunda región frecuencial predeterminada.

16. Un programa de computación para ejecutar uno de los procedimientos de acuerdo con la reivindicación 14 o la reivindicación 15 cuando el programa de computación trabaja en una computadora.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]