Codificación de sonido con bajo retardo que alterna codificación predictiva y codificación por transformada.

Procedimiento de codificación de una señal de sonido digital, que incluye las etapas de:

- codificación

(E601) de una trama anterior de muestras de la señal digital según una codificación predictiva,

- codificación (E603) de una trama actual de muestras de la señal digital según una codificación por transformada;

caracterizándose el procedimiento porque una primera parte de la trama actual está codificada (E602) por una codificación predictiva restringida respecto de la codificación predictiva de la trama anterior reutilizando al menos un parámetro de la codificación predictiva de la trama anterior y codificando solo los parámetros no reutilizados de esta primera parte de la trama actual

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2011/053097.

Solicitante: Orange.

Nacionalidad solicitante: Francia.

Dirección: 78, rue Olivier de Serres 75015 Paris FRANCIA.

Inventor/es: KOVESI, BALAZS, RAGOT,STEPHANE, BERTHET,PIERRE.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/14
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/04 (utilizando técnicas de predicción)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/022 (Bloqueo, p. ej. agrupación de muestras en el tiempo; Elección de las ventanas de análisis; Factorización de interferencias)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/18 (Codificadores de voz que utilizan modos múltiples)

PDF original: ES-2529221_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Codificación de sonido con bajo retardo que alterna codificación predictiva y codificación por transformada La presente invención se refiere al ámbito de la codificación de señales digitales.

La invención se aplica ventajosamente a la codificación de sonidos que presentan alternancias de voz y de música.

Para codificar eficazmente los sonidos de voz, se preconizan las técnicas de tipo CELP ("Code Excited Linear Prediction"). Para codificar eficazmente los sonidos musicales, se preconizan más bien las técnicas de codificación por transformada.

Los codificadores de tipo CELP son codificadores predictivos. Tiene por objeto modelizar la producción de la voz a partir de diversos elementos: una predicción lineal a corto plazo para modelizar el conducto vocal, una predicción a largo plazo para modelizar la vibración de las cuerdas vocales en periodo sonoro, y una excitación derivada de un diccionario fijo (ruido blanco, excitación algebraica) para representar la innovación que no se ha podido modelizar

Los codificadores por transformada más utilizados (codificador MPEG AAC o ITU-T G.722.1 Anexo C por ejemplo) utilizan transformadas de muestreo crítico con el fin de compactar la señal en el campo transformada. Se denomina "transformada del muestreo crítico", una transformada para la que el número de coeficientes en el campo de transformada es igual al número de muestras temporales analizadas.

Una solución para codificar eficazmente una señal que contiene estos dos tipos de contenido, consiste en seleccionar a lo largo del tiempo la mejor técnica. Esta solución ha sido especialmente preconizada por el organismo de estandarización 3GPP ("3rd Generation Partnership Project") y se ha propuesto una técnica denominada AMR WB+.

Esta técnica está basada en una tecnología CELP de tipo AMR-WB, más específicamente de tipo ACELP (por "Algébrale Code Excited Linear Prediction" en inglés) y una codificación por transformada basada en una transformada de Fourierde recubrimiento en un modelo de tipo TCX (porTransform Coded eXcitation" en inglés).

La codificación ACELP y la codificación TCX son ambas técnicas de tipo lineal predictivo. Cabe señalar que el código AMR-WB+ se ha desarrollado para los servicios 3GPP PSS (por Packet Switched Streaming" en inglés), MBMS (por "Multimedia Broadcast/Multicast Service" en inglés) y MMS (por "Multimedia Messaging Service" en inglés), dicho de otro modo para servicios de difusión y almacenamiento, sin grandes condicionantes sobre el retardo algorítmico.

Esta solución está afectada por una calidad insuficiente respecto de la música. Esta insuficiencia procede en particular de la codificación por transformadas. En particular, la transformada de Fourier de recubrimiento no es una transformación de muestreo crítico, y por ello es sub-óptima.

Además, las ventanas utilizadas en este codificador no son óptimas respecto de la concentración de energía: las formas frecuenciales de estas ventanas casi-rectangulares son sub-óptimas.

Una mejora de la codificación AMR-WB+ combinada con los principios de la codificación MPEG AAC (por "Advanced Audio Coding" en inglés) es proporcionada por el código MPEG USAC (por "Unified Speech Audio Coding" en inglés), que sigue desarrollándose en el ISO/MPEG. Las aplicaciones apuntadas por MPEG USAC no son convencionales, sino que responden a servicios de difusión y almacenamiento sin graneles condicionantes sobre el retardo algorítmico.

La versión inicial del códec USAC, denominada RM (Reference Model ), se describe en el artículo de M. Neuendorf et ál. A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM, 7-1 may 29, 12th AES Convention. Este códec RM alterna entre varios modos de codificación:

Para las señales de tipo de voz: modos LPD (por "linear Predictive Domain" en inglés) que comprenden dos modos diferentes derivados de la codificación AMR-WB+:

- Un modo ACELP

Un modo TCX denominado wLPT (por "wighted Linear Predective Transform" en inglés) que utiliza una transformada de tipo MDCT (contrariamente al códec AMR-WB+).

Para las señales de tipo música: modo FD (por "Frequency Domain" en inglés" que utiliza una codificación por transformada MDCT (por "Modified Discrete Cosine Transform" en inglés) de tipo MPEG AAC (por "Advanced Audio Coding" en inglés) en 124 muestras.

En comparación con el códec AMR-WB+, las diferencias principales aportadas por la codificación USAC RM para la parte mono son la utilización de una transformada con decimación crítica de tipo MDCT para la codificación por transformada y la cuantificación del espectro MDCT por cuantificación escalar con codificación aritmética. Cabe

señalar que la banda acústica codificada por los diferentes modos (LPD, FD) depende del modo seleccionado, lo cual no es el caso en el códec AMR-WB+ donde los modos ACELP y TCX operan en la misma frecuencia de muestreo interna. Además, la decisión de modo en el códec USAC RM se realiza en bucle abierto (u "open loop" en inglés) para cada trama de 124 muestras. Se recuerda que se denomina decisión de buche cerrado ("closed loop" en inglés) aquella que se efectúa ejecutando los diferentes modos de codificación en paralelo y eligiendo a posteriori el modo que proporciona el mejor resultado según un criterio predefinido. En el caso de una decisión de bucle abierto, la decisión es tomada a priori en función de los datos y de las observaciones disponibles pero sin probar si esta decisión es óptima o no.

En el códec USAC, las transiciones entre modos LPD y FD son cruciales para garantizar una calidad suficiente sin fallo de conmutación, sabiendo que cada modo (ACELP, TCX, FD) tiene una "firma específica" "en términos de artefactos) y que los modos FD y LPD son de naturaleza diferentes - el modo FD se basa en una codificación por transformada en el campo de la señal, mientras que los modos LPD utilizan una codificación lineal predictiva en el campo perceptualmente ponderado con memorias de filtro que se han de gestionar correctamente. La gestión de las conmutaciones intermodo en el códec USCA RM se detalla en el artículo de J. Lecomte et ál., "Efficient cross-fade Windows for transitions between LPC-based and non-LPC based audio coding". 7-1 May 29, 126th AES Convention. Como se ha explicado en este artículo, la dificultad principal reside en las transiciones entre modos LPD hacia FD y viceversa. Solo se tiene en cuenta aquí el caso de las transiciones de ACELP hacia FD.

Para entender correctamente el funcionamiento, se recuerda aquí el principio de la codificación por transformada MDCT a través de un ejemplo típico de realización.

En el codificador la transformación MDCT se divide en tres etapas:

Ponderación de la señal por una ventana denominada aquí "ventana MDCT" de longitud 2M.

Solape temporal (o "time-domain aliasing" en inglés) para formar un bloque de longitud M.

Transformación DCT (por "Discrete Cosine Transform" en inglés) de longitud M.

La ventana MDCT está dividida en 4 porciones adyacentes de longitud iguales M/2, denominadas "cuartos".

La señal se multiplica por la ventana de análisis y a continuación se efectúan los solapes: el primer cuarto (de ventana) está solapado (es decir invertido en el tiempo y puesto en modo de recubrimiento) en el segundo cuarto y el cuarto cuarto está solapado en el tercero.

Más concretamente, el solape de un cuarto sobre otro se efectúa de la siguiente manera: la primera muestra del primer cuarto se añade (o resta) a la última muestra del segundo cuarto, la segunda muestra del primer cuarto se suma (o resta) a la penúltima muestra del segundo cuarto, y así sucesivamente hasta la última muestra... [Seguir leyendo]

 


Reivindicaciones:

1Procedimiento de codificación de una señal de sonido digital, que incluye las etapas de:

- codificación (E61) de una trama anterior de muestras de la señal digital según una codificación predictiva,

- codificación (E63) de una trama actual de muestras de la señal digital según una codificación por transformada;

caracterizándose el procedimiento porque una primera parte de la trama actual está codificada (E62) por una codificación predictiva restringida respecto de la codificación predictiva de la trama anterior reutilizando al menos un parámetro de la codificación predictiva de la trama anterior y codificando solo los parámetros no reutilizados de esta primera parte de la trama actual.

2.- Procedimiento según la reivindicación 1, caracterizado porque la codificación predictiva restringida utiliza un filtro de predicción copiado de la trama anterior de codificación predictiva.

3.- Procedimiento según la reivindicación 2, caracterizado porque la codificación predictiva restringida utiliza, además, un valor descodificado del tono y/o de su ganancia asociada de la trama anterior de codificación predictiva.

4.- Procedimiento según la reivindicación 1, caracterizado porque algunos parámetros de codificación predictiva utilizados para la codificación predictiva restringida son cualificados en modo diferencial respecto de los parámetros descodificados de la trama anterior de codificación predictiva.

5.- Procedimiento según la reivindicación 1, caracterizado porque incluye una etapa de obtención de las señales reconstruidas procedentes de las codificaciones y descodificaciones locales predictiva y por transformada de la primera parte de la trama actual y de combinaciones (E64) por un fundido encadenado de estas señales reconstruidas.

6.- Procedimiento según la reivindicación 5, caracterizado porque dicho fundido encadenado de las señales reconstruidas se realiza en una porción de la primera parte de la trama actual en función de la forma de la ventana de la codificación por transformada.

7.- Procedimiento según la reivindicación 5, caracterizado porque dicho fundido encadenado de las señales reconstruidas se realiza en una porción de la primera parte de la trama actual, no conteniendo dicha porción ningún solape temporal.

8.- Procedimiento según la reivindicación 1, caracterizado porque la codificación por transformada utiliza una ventana de ponderación que incluye un número elegido de coeficientes de ponderación sucesivos de valor nulo al final y al principio de ventana.

9.- Procedimiento según la reivindicación 1, caracterizado porque la codificación por transformada utiliza una ventana de ponderación asimétrica que incluye un número elegido de coeficientes de ponderación sucesivos de valor nulo en al menos un extremo de la ventana.

1.- Procedimiento de descodificación de una señal de sonido digital, que incluye las etapas de:

- descodificación (E65) predictiva de una trama anterior de muestras de la señal digital recibida y codificada según una codificación predictiva,

- descodificación (E67) por transformada inversa de una trama actual de muestras de la señal digital recibida y codificada según una codificación por transformada;

caracterizándose el procedimiento porque incluye, además, una etapa de descodificación (E66) por una descodificación predictiva restringida respecto de la descodificación predictiva de la trama anterior de una primera parte de la trama actual recibida y codificada según una codificación predictiva restringida, reutilizando al menos un parámetro de la descodificación predictiva de la trama anterior y descodificando solo los parámetros recibidos para esta primera parte de la trama actual.

11.- Procedimiento según la reivindicación 1, caracterizado porque incluye una etapa de combinación (E68) por un fundido encadenado de las señales descodificadas por transformada inversa y por descodificación predictiva restringida para al menos una porción de la primera parte de la trama actual.

12.- Procedimiento según la reivindicación 1, caracterizado porque la codificación predictiva restringida utiliza un filtro de predicción descodificado y utilizado por la descodificación predictiva de la trama anterior.

13.- Procedimiento según la reivindicación 12, caracterizado porque la descodificación predictiva restringida utiliza,

además, un valor descodificado del tono y/o de su ganancia asociada de la descodificación predictiva de la trama anterior.

14.- Codificador de señal de sonido digital, que incluye:

- un módulo (211) de codificación predictiva para codificar una trama anterior de muestras de la señal digital,

- un módulo (221) de codificación por transformada para codificar una trama actual de muestras de la señal digital;

caracterizado porque incluye, además, un módulo (231) de codificación predictiva restringida respecto de la codificación predictiva de la trama anterior para codificar una primera parte de la trama actual, reutilizando al menos un parámetro de la codificación predictiva de la trama anterior y codificando solo los parámetros no reutilizados de esta primera parte de la trama actual.

15.- Descodificador de señal de sonio digital que incluye:

- un módulo (51) de descodificación predictiva para descodificar una trama anterior de muestras de la señal digital recibida y codificada según una codificación predictiva,

- un módulo (53) de descodificación por transformada inversa para descodificar una trama actual de muestras de la señal digital recibida y codificada según una codificación por transformada;

caracterizado porque incluye, además, un módulo (55) de descodificación predictiva restringida respecto de la descodificación predictiva de la trama anterior para descodificar una primera parte de la trama actual recibida y codificada según una codificación predictiva restringida, reutilizando al menos un parámetro de la descodificación predictiva de la trama anterior y descodificando solo los parámetros recibidos para esta primera parte de la trama actual.

16.- Programa informático que incluye instrucciones de código para la aplicación de las etapas del procedimiento de codificación según una de las reivindicaciones 1 a 9 y/o de descodificación según una de las reivindicaciones 1 a 13, cuando estas instrucciones son ejecutadas por un procesador.