Procedimiento y disposición para el procesamiento de señales de audio.

Procedimiento en un decodificador, en el que el procedimiento comprende:

• obtener

(402) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio,

• derivar (404) un vector dˆ (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k),

que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y

• derivar (406) una forma de onda de la señal aplicando una transformada MDCT inversa al vector dˆ (k) procesado.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2011/050518.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: GRANCHAROV,VOLODYA, SVERRISSON,SIGURDUR.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/14

PDF original: ES-2501840_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procedimiento y disposición para el procesamiento de señales de audio Campo técnico

La invención se refiere al procesamiento de señales de audio, en particular a un procedimiento y una disposición para mejorar la calidad perceptual mediante un post-filtrado.

Antecedentes

La codificación de audio a tasas de bits bajas o moderadas se usa ampliamente para reducir la carga de la red. Sin embargo, la reducción de la tasa de bits conduce inevitablemente a una disminución de la calidad debida a una mayor cantidad de ruido de cuantificación. Una manera de minimizar el impacto perceptual del ruido de cuantificación es usando un post-filtro. Un post-filtro funciona en el decodificador y afecta a los parámetros de la señal reconstruida o, directamente, a la forma de onda de la señal. El uso de un post-filtro tiene por objeto atenuar los valles del espectro, donde el ruido de cuantificación es más audible y conseguir, de esta manera, una calidad perceptual mejorada.

Ambos post-filtros de tono y formantes se usan para mejorar la calidad en los codees de voz denominados ACELP (Predicción lineal excitada por código algebraico, Algebraic Code Excited Linear Prediction). Estos filtros funcionan en el dominio del tiempo y, típicamente, se basan en el modelo de voz usado en el códec ACELP [1]. Sin embargo, esta familia de post-filtros no es adecuada para su uso con codees de audio con transformación, tales como por ejemplo, G.719 [2],

Otro ejemplo de post-procesador de voz para mejora una señal de voz dividida en una pluralidad de bandas en el dominio de la frecuencia se describe en la referencia [3],

De esta manera, hay una necesidad de mejorar la calidad perceptual de las señales de audio que han sido sometidas a una codificación de audio con transformación.

Sumario

Sería deseable conseguir una calidad perceptual de audio mejorada de las señales de audio que han sido sometidas a una codificación de audio con transformación. Un objeto de la invención es mejorar la calidad perceptual de una señal de audio que ha sido sometida a una codificación de audio con transformación. Además, un objeto de la invención es proporcionar un procedimiento y una disposición para el post-filtrado de una señal de audio que ha sido sometida a una codificación de audio con transformación. Estos objetos pueden ser conseguidos mediante un procedimiento y un aparato según las reivindicaciones independientes adjuntas. Las realizaciones se exponen en las reivindicaciones dependientes.

Según un primer aspecto, se proporciona un procedimiento en un decodificador según se reivindica en la reivindicación 1. El procedimiento implica obtener un vector d, que comprende coeficientes cuantificados de

dominio MDCT de un segmento de tiempo de una señal de audio. Además, se deriva un vector d procesado aplicando un post-filtro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. Además, se deriva una forma de

onda de la señal aplicando una transformada MDCT inversa al vector d procesado.

Según un segundo aspecto, se proporciona un decodificador según se reivindica en la reivindicación 8. El decodificador comprende una unidad funcional adaptada para obtener un vector d, que comprende los coeficientes cuantificados en el dominio MDCT de un segmento de tiempo de una señal de audio. El decodificador comprende

además una unidad funcional, adaptada para derivar un vector d procesado mediante la aplicación de un postfiltro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. El decodificador comprende además una unidad funcional

adaptada para derivar una forma de onda de la señal aplicando una transformada MDCT inversa al vector d procesado.

El procedimiento y la disposición indicados anteriormente, que implican un post-filtro MDCT, pueden ser usados para mejorar la calidad de los sistemas de codificación de audio con tasas de bits moderada y baja. Cuando el post-filtro es usado en un códec MDCT, la complejidad adicional es muy baja, ya que el post-filtro opera directamente sobre el vector MDCT.

El procedimiento y la disposición indicados anteriormente pueden ser implementados en diferentes realizaciones.

En algunas realizaciones, el denominador de la función de transferencia H está configurado para comprender un máximo del vector |d|, que puede ser una estimación obtenida realizando un seguimiento recursivo de máximo sobre el vector |d|. En algunas realizaciones, la función de transferencia H está configurada para comprender un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT. Por ejemplo, el componente de énfasis podría depender de la frecuencia o podría ser constante. Además, la energía

del vector d procesado puede ser normalizada a la energía del vector d.

En algunas realizaciones, el vector d procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. Además, la función de transferencia H podría ser limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre, por ejemplo, voz sorda, ruido de fondo y música.

Las realizaciones anteriores se han descrito principalmente en términos de un procedimiento. Sin embargo, la descripción anterior pretende abarcar también realizaciones del decodificador, adaptadas para permitir la realización de las características descritas anteriormente. Las diferentes características de las realizaciones ejemplares anteriores pueden combinarse de diferentes maneras según las necesidades, los requisitos o las

preferencias.

Breve descripción de los dibujos

La invención se describirá ahora más detalladamente por medio de realizaciones ejemplares y con referencia a los dibujos adjuntos, en los que:

La Figura 1 muestra un diagrama de un factor a(k) de énfasis ejemplar, que disminuye (para limitar el efecto del post-filtro) conforme aumenta la frecuencia, según una realización ejemplar.

La Figura 2 muestra un diagrama que ilustra el efecto del post-filtro sobre un espectro de la señal, donde la línea de puntos delgada representa el espectro de la señal antes del post-filtro, y la línea continua representa el espectro de la señal después del post-filtro, según una realización ejemplificar.

La Figura 3 muestra el resultado de un ensayo de escucha MUSHRA que compara un códec de audio MDCT con y sin post-filtro, según una realización ejemplar.

La Figura 4 es un diagrama de flujo que ¡lustra las acciones de un procedimiento realizado en un decodificador, según una realización ejemplar.

Las Figuras 5-7 son diagramas de bloques que ¡lustran una disposición respectiva en un decodificador y una entidad de gestión de audio, según realizaciones ejemplares.

Descripción detallada

En breve, se proporciona un decodificador que comprende un post-filtro, cuyo post-filtro está diseñado para trabajar con codees con transformadas de tipo MDCT (Modlfled Dlscrete Cosme Transform, Transformada Discreta de Coseno Modificada), tales como por ejemplo, G.719 [2]. El post-filtro sugerido opera directamente en el dominio MDCT, y no requiere una transformación adicional de la señal de audio al dominio DFT o al dominio del tiempo, lo que mantiene la complejidad computaclonal baja. La mejora de la calidad debida al post-filtro se confirma en los ensayos de escucha.

El concepto de codificación mediante transformación es convertir, o transformar, una señal de audio... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento en un decodificador, en el que el procedimiento comprende:

obtener(42) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio,

derivar (44) un vector d (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k),

tíQ

abs[dQc)l

max\abs(d)})

que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y

derivar (46) una forma de onda de la señal aplicando una transformada MDCT inversa al vector d (k) procesado.

2. Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es el coeficiente de |d| que tiene la magnitud más grande.

3. Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es una estimación del máximo del vector \d\, obtenido mediante seguimiento recursivo de máximo sobre el vector |d|.

4. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el componente a(k) de énfasis depende de la frecuencia.

5. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la energía del vector d (k) procesado es normalizado a la energía del vector d.

6. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el vector d (k) procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz.

7. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la función de transferencia H(k) es limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:

voz sorda,

ruido de fondo,

música.

8. Decodificador que comprende:

una unidad (52) de obtención, adaptada para obtener un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio,

una unidad (54) de filtro, adaptada para derivar un vector d (k) procesado aplicando un post-filtro directamente al vector d(k) obtenido, cuyo post-filtro está configurado para tener una función de transferencia H(k)

H{k) =

afcs[d(/c)]

**(Ver fórmula)**

que es una versión comprimida de la envolvente del vector d(k) obtenido, donde k está comprendido entre 1 y el número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y

una unidad (56) de conversión configurada para derivar una forma de onda de la señal aplicando una 5 transformada MDCT inversa al vector d (k) procesado.

9. Decodificador según la reivindicación 8, en el que la función de transferencia H está configurada para comprender el coeficiente de |d| que tiene la magnitud más grande.

1. Decodificador según la reivindicación 8 o 9, en el que la función de transferencia H(k) está configurada para comprender una estimación de un máximo del vector |d| en el denominador, cuya estimación se obtiene mediante

un seguimiento recursivo de máximo sobre el vector |d|.

11. Decodificador según cualquiera de las reivindicaciones 8-1, en el que el componente a(k) de énfasis depende de la frecuencia.

12. Decodificador según cualquiera de las reivindicaciones 8-11, adaptado además para normalizar la energía del vector d (k) procesado a la energía del vector d(k).

13. Decodificador según cualquiera de las reivindicaciones 8-12, adaptado además para derivar d (k) sólo cuando

se determina que el segmento de tiempo de la señal de audio comprende voz.

14. Decodificador según cualquiera de las reivindicaciones 8 a 13, adaptado además para limitar o suprimir la función de transferencia H(k) cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:

- voz sorda,

ruido de fondo,

música

15. Entidad (61) de gestión de audio que comprende un decodificador según cualquiera de las reivindicaciones 8- 14.