Códec multimodo de audio.

Decodificador de audio multimodo (120; 320) para proporcionar una representación decodificada

(322) del contenido de audio (24; 302) sobre la base de una corriente de bits codificada (36; 304), en el cual el decodificador multimodo de audio (120; 320) está configurado para

decodificar un valor de ganancia global por marco (324, 326) de la corriente de bits codificada (36; 304), en el cual un primer subconjunto (324) de los marcos está codificado en un primer modo de codificación y un segundo subconjunto (326) de los marcos está codificado en un segundo modo de codificación, donde cada marco del segundo subconjunto está compuesto de más de un submarco (328),

decodificar, por submarco de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos, un elemento de corriente de bits correspondiente en forma diferencial al valor de ganancia global del respectivo marco, y

completar la decodificación de la corriente de bits (36; 304) utilizando el valor de ganancia global y el elemento de corriente de bits correspondiente al decodificar los submarcos de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos y el valor de ganancia global al decodificar el primer subconjunto de marcos,

en el cual el decodificador multimodo de audio está configurado de modo tal que un cambio del valor de ganancia 20 global de los marcos dentro de la corriente de bits codificada (36; 304) tiene como resultado un ajuste (330) de un nivel de salida (332) de la representación decodificada (322) del contenido de audio (24; 302).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/065718.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GEIGER, RALF, GRILL, BERNHARD, MULTRUS,MARKUS, FUCHS,Guillaume.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/14
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/08 (Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo)

PDF original: ES-2453098_T3.pdf

 

google+ twitter facebookPin it
Códec multimodo de audio.

Fragmento de la descripción:

Códec multimodo de audio [0001] La presente invención se refiere a una codificación multimodo de audio tal como un códec unificado de voz y audio o un códec adaptado para señales de audio generales tales como señales de música, voz, mixtas y otras señales, y un esquema de codificación de predicción lineal con excitación por código (CELP, según sus siglas en inglés) adaptada a éste.

Es conveniente mezclar distintos modos de codificación a fin de codificar señales de audio generales que representan una mezcla de señales de audio de distintos tipos tales como voz, música, o similares. Los modos individuales de codificación pueden estar adaptados para tipos particulares de audio, y por lo tanto, un codificador multimodo de audio puede sacar provecho del cambio de modo de codificación en el transcurso del tiempo correspondiente al cambio del tipo de contenido de audio. En otras palabras, el codificador multimodo de audio puede decidir, por ejemplo, codificar porciones de la señal de audio que tiene contenido de voz utilizando un modo de codificación especialmente dedicado para codificar voz, y para utilizar otro (s) modo (s) de codificación a fin de codificar distintas porciones del contenido de audio que representan contenido de no voz tal como música. Los modos de codificación de predicción lineal tienden a ser más adecuados para codificar contenidos de voz, en tanto que los modos de codificación de dominio de frecuencia tienden a superar el desempeño de los modos de codificación de predicción lineal en lo que respecta a la codificación de música.

Sin embargo, la utilización de distintos modos de codificación dificulta ajustar globalmente la ganancia dentro de una corriente de bits codificada o, para ser más precisos, la ganancia de la representación decodificada del contenido de audio de una corriente de bits codificada sin tener que decodificar realmente la corriente de bits codificada y luego recodificar la representación decodificada con ajuste de ganancia nuevamente, cuyo desvío disminuiría necesariamente la calidad de la corriente de bits con ajuste de ganancia debido a recuantificaciones realizadas en la recodificación de la representación decodificada y con ajuste de ganancia.

Por ejemplo, en la Codificación Avanzada de Audio (AAC, por sus siglas en inglés) , un ajuste del nivel de salida se puede lograr fácilmente en el nivel de corriente de bits cambiando el valor de la “ganancia global” de campos de 8 bits. Este elemento de corriente de bits puede ser aprobado y editado simplemente, sin necesidad de decodificar y recodificar completamente. Por lo tanto, este proceso no introduce ninguna degradación de calidad y puede deshacerse sin pérdidas. Existen aplicaciones que realmente hacen uso de esta opción. Por ejemplo, existe un software gratuito denominado “ganancia AAC” [AAC gain] que aplica exactamente el procedimiento recientemente descrito. Este software proviene del software gratuito “ganancia MP3”, que aplica la misma técnica para el grupo de expertos en imágenes en movimiento (MPEG, según sus siglas en inglés) 1/2 capa 3.

En el códec del sistema unificado de codificación de voz y audio (USAC, según sus siglas en inglés) de reciente aparición, el modo de codificación en el dominio de la frecuencia (FD, según sus siglas en inglés) ha heredado la ganancia global de 8 bits de la AAC. Por lo tanto, si USAC se ejecuta en el único modo en FD, tal como para tasas de bits superiores, la funcionalidad del ajuste de nivel se conservaría totalmente, en comparación con AAC. Sin embargo, en cuanto se admiten transiciones de modo, esta posibilidad ya no está presente. En el modo de transformación con código de excitación (TCX, según sus siglas en inglés) , por ejemplo, existe también un elemento de corriente de bits que tiene la misma funcionalidad también denominada “ganancia global”, que tiene una longitud de tan sólo 7–bits. En otras palabras, el número de bits para codificar los elementos individuales de ganancia de los modos individuales está adaptado básicamente al modo de codificación respectivo, a fin de lograr un mejor equilibrio entre el menor consumo de bits para el control de ganancia por una parte, y por otra parte evitar una degradación de la calidad debido a una cuantificación demasiado gruesa de la ajustabilidad de ganancia. Evidentemente, este equilibrio tuvo como resultado un número distinto de bits en comparación con el modo TCX y el modo FD. En el modo de predicción lineal excitada por código algebraico (ACELP, según sus siglas en inglés) del estándar USAC que surge actualmente, el nivel puede ser controlado mediante un elemento de corriente de bits “energía media”, que tiene una longitud de 2–bits. Nuevamente, es evidente que el equilibrio entre demasiados bits para la energía media y muy pocos bits para la energía media tuvo como resultado un número distinto de bits en comparación con los otros modos de codificación, a saber el modo de codificación TCX y el modo de codificación FD.

Por lo tanto, hasta ahora resulta complicado el ajuste global de la ganancia de una representación decodificada, de una corriente de bits codificada por la codificación multimodo y además tiende a disminuir la calidad. En cualquiera de los casos, se ha de realizar la decodificación seguida del ajuste de ganancia y la recodificación, o se ha de realizar el ajuste del nivel de sonido de forma heurística solamente adaptando los elementos respectivos de la corriente de bits de los distintos modos que influencian la ganancia de las distintas porciones respectivas del modo de codificación de la corriente de bits. Sin embargo, es muy probable que la última posibilidad introduzca artefactos en la representación decodificada con ajuste de ganancia.

Un ejemplo de un codec multi-modo conocido para codificar contenidos de voz y audio empleando un algoritmo que cambia entre los modos ACELP y TCX se describe en BESSETTE ET AL: "A wideband speech and audio codec at 16/24/32 kbit/s using hybrid ACELP/TCX techniques", SPEECH CODING PROCEEDINGS, 1999 IEEE WORKSHOP ON PORVOO, FINLANDIA 20-23 JUNIO DE 1999, PISCATAWAY, NJ, USA, IEEE, US, 20 de Junio 1999, páginas 7-9, XP010345581.

Por lo tanto, un objetivo de la presente invención consiste en proporcionar un códec multimodo de audio que permita el ajuste global de la ganancia sin un desvío de decodificación y recodificación con penas moderadas en términos de calidad y tasa de compresión, y un códec de CELP adecuado para ser incorporado en la codificación multimodo de audio logrando propiedades similares.

Este objetivo es logrado por el contenido en cuestión de las reivindicaciones adjuntas al presente documento.

De acuerdo con un primer aspecto de la presente invención, los inventores de la presente solicitud comprendieron que un problema que aparece cuando se intenta armonizar el ajuste de ganancia global a través de distintos modos de codificación proviene del hecho de que los distintos modos de codificación tienen distintos tamaños de marco y se descomponen de manera diferente en submarcos. De acuerdo con el primer aspecto de la presente solicitud, esta dificultad se supera codificando los elementos de corriente de bits de submarcos en forma diferencial al valor de ganancia global de modo tal que un cambio del valor de ganancia global de los marcos tiene como resultado un ajuste de un nivel de salida de la representación decodificada del contenido de audio. Simultáneamente, la codificación diferencial ahorra bits que de otro modo ocurrirían cuando se introduce un nuevo elemento de sintaxis en una corriente de bits codificada. Aún más, la codificación diferencial permite la reducción de la carga del ajuste global de la ganancia de... [Seguir leyendo]

 


Reivindicaciones:

1. Decodificador de audio multimodo (120; 320) para proporcionar una representación decodificada (322) del contenido de audio (24; 302) sobre la base de una corriente de bits codificada (36; 304) , en el cual el decodificador multimodo de audio (120; 320) está configurado para decodificar un valor de ganancia global por marco (324, 326) de la corriente de bits codificada (36; 304) , en el cual un primer subconjunto (324) de los marcos está codificado en un primer modo de codificación y un segundo subconjunto (326) de los marcos está codificado en un segundo modo de codificación, donde cada marco del segundo subconjunto está compuesto de más de un submarco (328) ,

decodificar, por submarco de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos, un elemento de corriente de bits correspondiente en forma diferencial al valor de ganancia global del respectivo marco, y

completar la decodificación de la corriente de bits (36; 304) utilizando el valor de ganancia global y el elemento de corriente de bits correspondiente al decodificar los submarcos de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos y el valor de ganancia global al decodificar el primer subconjunto de marcos,

en el cual el decodificador multimodo de audio está configurado de modo tal que un cambio del valor de ganancia global de los marcos dentro de la corriente de bits codificada (36; 304) tiene como resultado un ajuste (330) de un nivel de salida (332) de la representación decodificada (322) del contenido de audio (24; 302) .

2. El decodificador multimodo de audio de acuerdo con la reivindicación 1, en el cual el primer modo de codificación es un modo de codificación de dominio de frecuencia, y el segundo modo de codificación es un modo de codificación de predicción lineal.

3. El decodificador multimodo de audio de acuerdo con la reivindicación 2, en el cual el decodificador multimodo de audio está configurado para, al completar la decodificación de la corriente de bits codificada (36; 304) , decodificar los submarcos de por lo menos el subconjunto de submarcos (328) del segundo subconjunto de marcos (310) utilizando decodificación de predicción lineal excitada por transformada, y decodificar un subconjunto desarticulado de los submarcos del segundo subconjunto de marcos mediante el uso de CELP.

4. El decodificador multimodo de audio de acuerdo con cualquiera de las reivindicaciones 1 a 3, en el cual el decodificador multimodo de audio está configurado para decodificar, por marco del segundo subconjunto (326) de los marcos, un elemento de corriente de bits adicional que revela una descomposición del respectivo marco en uno o más submarcos.

5. El decodificador multimodo de audio de acuerdo con cualquiera de las reivindicaciones anteriores, en el cual los marcos del segundo subconjunto tienen igual longitud, y el por lo menos subconjunto de submarcos (328) del segundo subconjunto de marcos tiene una longitud de muestra variable seleccionada entre el grupo integrado por 256, 512 y 1024 muestras, y un subconjunto desarticulado de los submarcos (328) tiene una longitud de 256 muestras.

6. El decodificador multimodo de audio de acuerdo con cualquiera de las reivindicaciones anteriores, en el cual el decodificador multimodo de audio está configurado para decodificar el valor de ganancia global en un número fijo de bits y el elemento de corriente de bits en un número variable de bits, dependiendo el número de una longitud de muestra del submarco respectivo.

7. El decodificador multimodo de audio de acuerdo con cualquiera de las reivindicaciones 1 a 5, en el cual el decodificador multimodo de audio está configurado para decodificar el valor de ganancia global en un número fijo de bits y para decodificar el elemento de corriente de bits en un número fijo de bits.

8. El decodificador de SBR, el cual comprende un decodificador central para decodificar la porción del codificador central de una corriente de bits para obtener una señal de banda central de acuerdo con cualquiera de las reivindicaciones anteriores, en el cual el decodificador de SBR está configurado para decodificar energías de envolvente para una banda espectral a replicar, a partir de una porción de SBR de la corriente de bits, y ajustar a escala las energías de envolvente de acuerdo con una energía de la señal de banda central.

9. Codificador multimodo de audio configurado para codificar un contenido de audio (302) en una corriente de bits codificada (304) codificando un primer subconjunto de marcos (306) en un primer modo de codificación (308) y un segundo subconjunto de marcos (310) en un segundo modo de codificación (312) , en el cual el segundo subconjunto de marcos (310) está respectivamente compuesto por uno o más submarcos (314) , en el cual el codificador multimodo de audio está configurado para determinar y codificar un valor de ganancia global por marco, y determinar

y codificar, por submarcos de por lo menos un subconjunto de submarcos (314) del segundo subconjunto (310) , un elemento de corriente de bits correspondiente en forma diferencial al valor de ganancia global del respectivo marco, en el cual el codificador multimodo de audio está configurado de modo tal que un cambio del valor de ganancia global de los marcos dentro de la corriente de bits codificada tiene como resultado un ajuste de un nivel de salida de una representación decodificada del contenido de audio (302) en el lado decodificador.

10. Procedimiento de decodificación multimodo de audio para proporcionar una representación decodificada (322) del contenido de audio (24; 302) sobre la base de una corriente de bits codificada (36; 304) , en el cual el procedimiento comprende

decodificar un valor de ganancia global por marco (324, 326) de la corriente de bits codificada (36; 304) , en el cual un primer subconjunto (324) de los marcos está codificado en un primer modo de codificación y un segundo subconjunto (326) de los marcos está codificado en un segundo modo de codificación, donde cada marco del segundo subconjunto está compuesto de más de un submarco (328) ,

decodificar, por submarco de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos, un elemento de corriente de bits correspondiente en forma diferencial al valor de ganancia global del respectivo marco, y

completar la decodificación de la corriente de bits (36; 304) utilizando el valor de ganancia global y el elemento de corriente de bits correspondiente al decodificar los submarcos de por lo menos un subconjunto de submarcos (328) del segundo subconjunto de marcos y el valor de ganancia global al decodificar el primer subconjunto de marcos,

en el cual el procedimiento de decodificación multimodo de audio se lleva a cabo de modo tal que un cambio del valor de ganancia global de los marcos dentro de la corriente de bits codificada (36; 304) tiene como resultado un ajuste (330) de un nivel de salida (332) de la representación decodificada (322) del contenido de audio (24; 302) .

11. Procedimiento de codificación multimodo de audio, el cual comprende codificar un contenido de audio (302) en una corriente de bits codificada (304) codificando un primer subconjunto de marcos (306) en un primer modo de codificación (308) y un segundo subconjunto de marcos (310) en un segundo modo de codificación (312) , en el cual el segundo subconjunto de marcos (310) está respectivamente compuesto por uno o más submarcos (314) , en el cual el procedimiento de codificación multimodo de audio además comprende determinar y codificar un valor de ganancia global por marco, y determinar y codificar, por submarcos de por lo menos un subconjunto de submarcos (314) del segundo subconjunto (310) , un elemento de corriente de bits correspondiente en forma diferencial al valor de ganancia global del respectivo marco, en el cual el procedimiento de codificación multimodo de audio se lleva a cabo de modo tal que un cambio del valor de ganancia global de los marcos dentro de la corriente de bits codificada tiene como resultado un ajuste de un nivel de salida de una representación decodificada del contenido de audio (302) en el lado decodificador.

12. El programa de computadora, el cual tiene un código de programa para llevar a cabo, cuando es ejecutado en una computadora, un procedimiento de acuerdo con la reivindicación 11.