Codificación jerárquica de señales digitales de audio.

Procedimiento de codificación mediante cuantificación escalar de las muestras de una señal de audio digital (S),

siendo codificadas las muestras en un número predeterminado de bits para obtener una trama binaria de índices decuantificación (IMIC), efectuándose la codificación de acuerdo con una ley logarítmica de compresión de la amplitud,no siendo tenidos en cuenta, en la operación de compresión para formar la trama binaria de índices decuantificación, un número predeterminado de bits de peso reducido de la señal de audio digital en formato MIClineal, caracterizado porque comprende las etapas siguientes:

- memorización (27) de al menos una parte de los bits de peso reducido que no son tenidos en cuenta en laoperación de compresión para formar la trama binaria del índice de cuantificación;

- determinación (28) de un flujo de mejora (IEXT) que comprende al menos un bit así memorizado.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2008/051248.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY 75015 PARIS FRANCIA.

Inventor/es: KOVESI, BALAZS, RAGOT,STEPHANE.

Fecha de Publicación: 30 de Julio de 2013.

Clasificación Internacional de Patentes:

G10L19/24 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codecs de frecuencia variable, p. ej. para generar diferentes calidades utilizando una representación escalable como una codificación jerárquica o en capas.

PDF original: ES-2416056_T3.pdf

Fragmento de la descripción:

Codificación jerárquica de señales digitales de audio La presente invención se refiere a un procedimiento jerárquico de codificación de datos sonoros más particularmente para una codificación mediante cuantificación escalar.

Esa codificación está particularmente adaptada para la transmisión y/o el almacenamiento de señales digitales tales como las señales de frecuencia de audio (palabra, música u otras) .

La presente invención se relaciona más particularmente con la codificación de formas de onda tal como la codificación MIC (de “Modulación de Impulsos Codificados”) , denominada PCM (de “Pulse Code Modulation”) en inglés, en donde cada muestra de entrada se codifica individualmente, sin predicción.

El principio general de codificación/decodificación MIC especificado por la recomendación UIT-T G.711 es tal como el descrito con referencia a la figura 1. La señal de entrada se supone definida con una amplitud de banda mínima de [300-3400 Hz] y muestreada a 8 kHz, con una resolución de 16 bits por muestra (en el formato denominado “MIC lineal”) .

El codificador MIC 13 comprende un módulo de cuantificación QMIC 10 que recibe en la entrada la señal de entrada S. El índice de cuantificación IMIC en la salida del módulo de cuantificación 10 se trasmite a través del canal de transmisión 11 al decodificador 14.

El decodificador MIC 14 recibe en la entrada los índices I’MIC resultantes del canal de transmisión, versión 25 eventualmente perturbada por unos errores binarios de IMIC, y realiza una cuantificación inversa mediante el módulo de cuantificación inversa Q-1MIC 12 para obtener la señal codificada S’Mic.

La codificación MIC normalizada UIT-T G.711 (de aquí en adelante denominada G. 711) realiza una compresión de la amplitud de las señales mediante una curva logarítmica antes de una cuantificación escalar uniforme, lo que 30 permite obtener una relación de señal a ruido aproximadamente constante para una gran dinámica de las señales. El paso de cuantificación en el dominio de la señal original es proporcionar por lo tanto a la amplitud de las señales.

Las muestras sucesivas de la señal comprimida se cuantifican a 8 bits, es decir 256 niveles. En la red telefónica conmutada (RTC) denominada Public Switched Telephone Network (PSTN) en inglés, estos 8 bits se transmiten a 35 una frecuencia 8 kHz para dar una velocidad de 64 kbit/s.

Una trama de la señal cuantificada de acuerdo con la norma G.711 está constituida por índices de cuantificación codificados a 8 bits. De ese modo, si la cuantificación inversa se implementa mediante una tabla, ésta consiste simplemente en un puntero mediante el índice de uno de los 256 valores decodificados posibles.

Por razones de complejidad de implementación, la compresión MIC se ha aproximado mediante una curva lineal por segmentos.

Se definen en la norma G.711 dos leyes de codificación, la ley A utilizada principalmente en Europa y la ley mu ( μ) 45 utilizada en América del Norte y en Japón.

Estas leyes de codificación permiten efectuar en la señal una compresión de la amplitud (o también “companding” en inglés) . La amplitud de la señal se comprime así mediante una función no lineal en el codificador, se envía sobre un canal de transmisión y se descomprime mediante la función inversa en el decodificador. El interés de la compresión 50 de la amplitud es que permite transformar la distribución de probabilidad de la amplitud de la señal de audio de entrada en una ley de probabilidad casi uniforme, en la que se puede aplicar una cuantificación escalar uniforme.

Las leyes de compresión de amplitud son en general unas leyes de tipo logarítmico que permiten por lo tanto codificar una señal muestreada con una resolución de 16 bits (en formato “PCM lineal”) sobre 8 bits (en formato 55 “PCM” del tipo ley A o mu) .

Los 8 bits por muestra en G.711 se reparten de la manera siguiente tal como se representa en 15 en la figura 1:

- 1 bit de signo S (0 para un valor negativo, 1 en caso contrario) , que lleva la referencia sgn en la figura 1, 60

- 3 bits para indicar el segmento (referencia ID-SEG en la figura 1) , viniendo dado cada extremo del segmento por 256*2n para la ley A y 256*2n-132 para la ley mu, en donde n = 0, 1, ..., 7. El paso de cuantificación se multiplica por tanto por 2 cuando se pasa sobre el segmento superior (a partir del 2º segmento para la ley A) .

- 4 bits para indicar el emplazamiento en el segmento, llevando la referencia ID-POS en la figura 1.

Los últimos 7 bis constituyen por lo tanto el valor absoluto codificado. A continuación se estudiará de entrada el caso de la ley A, después se generalizarán los resultados para la ley mu. De acuerdo con la norma G.711 ley A, el índice final se obtiene invirtiendo cada segundo bit a partir del bit de peso más reducido (Least Significant Bit LSB en inglés) . Esta ley de codificación permite tener una precisión de cuantificación escalar de 12 bits (por lo tanto un paso de cuantificación de 16) cuando se está en los dos primeros segmentos, después la precisión disminuye en 1 bit cuando el número de segmentos incrementa en 1.

Se puede observar que es posible realizar la cuantificación MIC G.711 a partir de una señal digital representada en 16 bits efectuando unas simples comparaciones entre la amplitud de la muestra a codificar y los umbrales de decisión del cuantificador. La utilización de una dicotomía acelera de manera significativa estas comparaciones. Esta solución necesita el almacenamiento de una tabla de 256 entradas, la Tabla 1 a continuación da un extracto de una tabla de ese tipo para la ley A G.711.

Tabla 1. Umbrales para la búsqueda por dicotomía.

N° de intervalo Umbral inferior Umbral superior Signo Valor absoluto codificado Índice final Valor cuantificado

0 -32768 -31745 0 127 0x2a -32256

1 -31744 -30721 0 126 0x2b -31232

··· ··· ··· ··· ···

122 -96 -81 0 5 0x50 -88

123 -80 -65 0 4 0x51 -72

124 -64 -49 0 3 0x56 -56

125 -48 -33 0 2 0x57 -40

126 -32 -17 0 1 0x54 -24

127 -16 -1 0 0 0x55 -8

128 0 15 1 0 0xd5 8

129 16 31 1 1 0xd4 24

130 32 47 1 2 0xd7 40

131 48 63 1 3 0xd6 56

132 64 79 1 4 0xd1 72

133 80 95 1 5 0xd0 88

··· ··· ··· ··· ···

254 30720 31743 1 126 0xab 31232

255 31744 32767 1 127 0xaa 32256

Por ejemplo, una muestra de origen de la señal S a codificar con una amplitud igual a -75. En consecuencia, esta amplitud está comprendida en el intervalo [-80, -65] de la línea 123 (o “nivel” 123) de la tabla. La codificación de esta información consiste en entregar un índice final codificado, referenciado como I’Mic en la figura 1 y en la tabla 1, que es igual a 0x51. En la decodificación, la operación de cuantificación inversa consiste por tanto en recuperar el índice I’Mic = 0x51 y hacerle corresponder un valor cuantificado VQ, tal que VQ = -72. En consecuencia, la decodificación asigna a la amplitud de la muestra correspondiente, de la señal decodificada S’Mic, este valor -72. Se resaltará que se asignaría este mismo valor VQ = -72 a todas las muestras a decodificar y cuyo valor inicial tuviera un valor en el intervalo [-80, -65], o sea en todos los 16 valores posibles en el intervalo, lo que corresponde en este caso al paso de cuantificación de 16. Por el contrario, se resaltará que se asignaría el mismo valor VQ = 32256 a todas las muestras cuya amplitud inicial estuviera en el intervalo [31744, 32767], o sea en todos los 1024 valores posibles, lo que corresponde a un paso de cuantificación de 1024.

La relación señal a ruido (RSR) obtenida mediante la codificación MIC es aproximadamente constante (~38 dB) para una dinámica amplia de las señales. El paso de cuantificación en el dominio de la señal original es proporcional a la amplitud de las señales. Esta relación señal a ruido no es suficiente para hacer el ruido de cuantificación inaudible en toda la banda de frecuencias 0-4000 Hz. Además, para las señales de niveles reducidos (que se codifican con el primer segmento) la RSR es muy mala.

La norma G.711 se considera generalmente como de buena calidad para las aplicaciones de telefonía en banda 35 estrecha con los terminales limitados a la banda de [300-3400 Hz]. No obstante, la calidad no es satisfactoria cuando se utiliza G.711 para otras aplicaciones como por ejemplo para los terminales de buena fidelidad en la banda [50, 4000 Hz] o para la extensión jerárquica... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de codificación mediante cuantificación escalar de las muestras de una señal de audio digital (S) , siendo codificadas las muestras en un número predeterminado de bits para obtener una trama binaria de índices de cuantificación (IMIC) , efectuándose la codificación de acuerdo con una ley logarítmica de compresión de la amplitud, no siendo tenidos en cuenta, en la operación de compresión para formar la trama binaria de índices de cuantificación, un número predeterminado de bits de peso reducido de la señal de audio digital en formato MIC lineal, caracterizado porque comprende las etapas siguientes:

- memorización (27) de al menos una parte de los bits de peso reducido que no son tenidos en cuenta en la operación de compresión para formar la trama binaria del índice de cuantificación;

- determinación (28) de un flujo de mejora (IEXT) que comprende al menos un bit así memorizado.

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque los bits memorizados son los bits de peso más alto entre los bits que no son tenidos en cuenta en la operación de compresión para formar la trama binaria de índices de cuantificación.

3. Procedimiento de acuerdo con una de las reivindicaciones 1 a 2, caracterizado porque el número de bits tenidos en cuenta para determinar el flujo de mejora es función de la velocidad disponible en el curso de una transmisión hacia un decodificador.

4. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, caracterizado porque la etapa de cuantificación

escalar es una cuantificación del tipo MIC según una ley de codificación logarítmica de compresión de la amplitud 25 del tipo A o del tipo mu, conforme a la norma ITU-T G.711.

5. Procedimiento de decodificación de una trama binaria de índices de cuantificación (I’MIC) que comprende un número predeterminado de bits mediante una capa de cuantificación inversa (22) y según una ley logarítmica de compresión de la amplitud, caracterizado porque comprende las etapas siguientes:

- recepción (29) de un flujo de mejora (I’EXT) que comprende uno o varios bits de extensión determinados de acuerdo con un procedimiento de codificación según la reivindicación 1;

- concatenación (30) de los bits de extensión detrás de los bits resultantes de la trama binaria para obtener una 35 señal de audio decodificada.

6. El procedimiento de decodificación de acuerdo con la reivindicación 5, caracterizado porque comprende además una etapa de adaptación de un valor de redondeo en función del número de los bits de extensión recibidos para obtener la señal de audio decodificada.

7. Codificador de audio que comprende un módulo de cuantificación escalar (20) de las muestras de la señal de audio digital (S) , estando codificadas las muestras en un número predeterminado de bits para obtener una trama binaria de índices de cuantificación (IMIC) , efectuándose la codificación de acuerdo con una ley logarítmica de compresión de amplitud, no siendo tenidos en cuenta, en la operación de compresión para formar la trama binaria de

índices de cuantificación, un número predeterminado de bits de peso reducido de la señal digital de audio en formato MIC lineal, caracterizado porque comprende:

- un espacio de memoria (27) adecuado para memorizar al menos una parte de los bits de peso reducido que no son tenidos en cuenta en la operación de compresión para formar la trama binaria de índices de cuantificación;

- unos medios de determinación (28) de un flujo de mejora (IEXT) que comprende al menos un bit así memorizado.

8. Decodificador de audio adecuado para decodificar una trama binaria de índices de cuantificación (I’MIC) que comprende el número predeterminado de bits mediante un módulo de cuantificación inversa (22) y de acuerdo con 55 una ley logarítmica de compresión de amplitud caracterizado porque comprende:

- unos medios de recepción (29) de un flujo de mejora que comprende uno o varios bits de extensión determinados por un codificador según la reivindicación 7;

- unos medios de concatenación (30) de los bits de extensión detrás de los resultantes de la trama binaria para obtener una señal de audio decodificada.

9. Programa informático destinado a estar almacenado en una memoria de un codificador y/o un soporte de memoria adecuado para cooperar con un lector del codificador, que comprende unas instrucciones de código para la 65 implementación de las etapas del procedimiento de codificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4 cuando se ejecuta mediante un procesador del codificador.

10. Programa informático destinado a estar almacenado en una memoria de un decodificador y/o un soporte de memoria adecuado para cooperar con un lector del decodificador, que comprende unas instrucciones de código para la implementación de las etapas del procedimiento de decodificación de acuerdo con una cualquiera de las reivindicaciones 5 a 6 cuando se ejecuta mediante un procesador del decodificador.

Patentes similares o relacionadas:

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Estimación de ruido de fondo en señales de audio, del 24 de Junio de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para la estimación de ruido de fondo en un segmento de señal de audio que comprende una pluralidad de subbandas, comprendiendo el método: calcular una […]

Sistema para trasmitir adaptativamente objetos de audio, del 8 de Abril de 2020, de DTS LLC: Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo: un monitor de recursos de red configurado para recibir una solicitud […]

Codificación en capas para representaciones de sonido o de campo sonido comprimidas, del 11 de Marzo de 2020, de DOLBY INTERNATIONAL AB: Procedimiento de decodificación de una representación Ambisonics de orden superior, HOA, comprimida de un sonido o un campo de sonido, […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]

Sintetizador de señales de audio y codificador de señales de audio, del 4 de Marzo de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Sintetizador de señales de audio para generar una señal de audio de síntesis que tiene una primera banda de frecuencia y una segunda banda de frecuencia […]

Decodificación de secuencias de bits de audio con metadatos de replicación de banda espectral mejorada en al menos un elemento de relleno, del 1 de Enero de 2020, de DOLBY INTERNATIONAL AB: Unidad de procesamiento de audio que comprende: una memoria intermedia configurada para almacenar al menos un bloque de una secuencia de bits de audio […]

Codificación y descodificación de una señal de sonido, del 25 de Septiembre de 2019, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un dispositivo de codificación de señales de sonido, que comprende: una primera unidad de codificación que está adaptada para obtener un primer […]