CODIFICACION / DECODIFICACION PERFECCIONADAS DE SEÑALES DIGITALES DE AUDIO.

Procedimiento de codificación de una señal de audio en varias sub-bandas,

en la que al menos una primera y una segunda sub-bandas, contiguas, se codifican por transformada (601, 602; 901, 902), caracterizado porque, para aplicar una ponderación perceptual, en el dominio de la transformada, al menos a la segunda sub-banda, el procedimiento comprende: - una determinación de al menos un umbral de enmascaramiento en frecuencia (606; 905; 906b) a aplicar en la segunda sub-banda y - una normalización de dicho umbral de enmascaramiento para asegurar una continuidad espectral entre dichas primera y segunda sub-bandas

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2008/050150.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY, 75015 PARIS.

Inventor/es: RAGOT,STEPHANE, GUILLAUME,CYRIL.

Fecha de Publicación: 4 de Noviembre de 2010.

Fecha Concesión Europea: 7 de Julio de 2010.

Clasificación Internacional de Patentes:

G10L19/02S

Clasificación PCT:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/14

CODIFICACION / DECODIFICACION PERFECCIONADAS DE SEÑALES DIGITALES DE AUDIO.

Fragmento de la descripción:

Codificación/decodificación perfeccionadas de señales digitales de audio.

La presente invención se refiere a un tratamiento de datos sonoros.

Este tratamiento se adapta particularmente a la transmisión y/o al almacenamiento de señales digitales tales como las señales en frecuencia de audio (voz, música u otras).

Existen diferentes técnicas para codificar en forma digital una señal en frecuencia de audio. Las técnicas más comunes son:

- los métodos de codificación de forma de onda, tales como la codificación MIC (de "Modulación por Impulsos Codificados") y MICDA (de "Modulación por Impulsos y Codificación Diferencial Adaptativa"), denominados también "PCM" y "ADPCM" en inglés,

- los métodos de codificación paramétrica por análisis de síntesis como la codificación CELP (de "Code Excited Linear Prediction") y

- los métodos de codificación perceptual en sub-bandas o por transformada.

Estas técnicas tratan la señal de entrada de manera secuencial muestra por muestra (MIC o MICDA) o por bloques de muestras denominados "tramas" (CELP y codificación por transformada).

Se recuerda rápidamente que una señal sonora tal como una señal de voz se puede predecir a partir de su pasado reciente (por ejemplo de 8 a 12 muestras a 8 kHz) por medio de parámetros evaluados en unas cortas ventanas (10 a 20 ms en este ejemplo). Estos parámetros de predicción a corto plazo, representativos de la función de transferencia del conducto vocal (por ejemplo para la pronunciación de consonantes), se obtienen por métodos de análisis LPC (de "Linear Prediction Coding"). Se realiza también una correlación a más largo plazo para determinar las periodicidades de los sonidos sordos (por ejemplo las vocales) debidos a la vibración de las cuerdas vocales. Se trata entonces de determinar al menos la frecuencia fundamental de la señal sorda que varía típicamente de 60 Hz (voz grave) a 600 Hz (voz aguda) según los locutores. Se determina también, mediante un análisis LTP (de "Long Term Prediction"), los parámetros LTP de un predictor a largo plazo, y en particular la inversa de la frecuencia fundamental, denominada a menudo "periodo del tono". Se define entonces el número de muestras en un periodo del tono por la relación F_m/F₀ (o su parte entera), donde:

- F_m es la frecuencia de muestreo y

- F₀ de la frecuencia fundamental.

Se recordará por lo tanto que los parámetros de previsión a largo plazo LTP, cuyo periodo del tono, representa la vibración fundamental de la señal de voz (cuando es sorda), en tanto que los parámetros de predicción a corto plazo LPC representan la envolvente espectral de esta señal.

En ciertos codificadores, el conjunto de estos parámetros LPC y LTP, resultantes por lo tanto de una codificación de voz, se pueden transmitir en bloques hacia un decodificador homólogo, por medio de una o varias redes de telecomunicación, para restituir a continuación la señal de voz inicial.

En la codificación de voz convencional, el codificador genera un flujo binario de tasa fija. Esta restricción de la tasa simplifica la realización y la utilización del codificador y del decodificador. Estos ejemplos de tales sistemas son la codificación normalizada UIT-T G.711 a 64 kbit/s, la codificación normalizada UIT-T G.729 a 8 kbit/s o la codificación GSM-EFR a 12,2 kbit/s.

En ciertas aplicaciones (la telefonía móvil o la voz sobre IP, de "Internet Protocol"), es preferible generar un flujo binario de tasa variable. Los valores de la tasa se toman de un conjunto predefinido. Tal técnica de codificación, denominada de "tasa variable" se comprueba por lo tanto más flexible que la técnica de codificación de tasa fija.

Se pueden distinguir varias técnicas de codificación de tasa variable:

- la codificación de modo múltiple controlada por la fuente y/o el canal, realizada particularmente en los codificadores 3GPP AMR-NB, 3GPP AMR-WB o 3GPP VMR-WB,

- la codificación jerárquica (o codificación "escalable") que genera un flujo binario denominado "jerárquico" porque comprende una tasa núcleo y una o varias capas de mejora (la codificación normalizada de acuerdo con G.722 a 48, 56 y 64 kbit/s es típicamente escalable en tasa, mientras que los códecs UIT-T G.729.1 y MPEG-4 CELP son escalables a la vez en tasa y en amplitud de banda),

- la codificación de múltiples descripciones, descrita particularmente en:

"A multiple description speech coder based on AMR-WB for mobile ad hoc networks", H. Dong, A. Gersho, J.D. Gibson, V. Cuperman, ICASSP, págs. 277-280, vol. 1 (mayo de 2004).

Se describe en el presente documento a continuación la codificación jerárquica que tiene la capacidad de proporcionar unas tasas variables, repartiendo las informaciones relativas a una señal de audio a codificar en unos subconjuntos jerarquizados, de tal manera que estas informaciones se puedan utilizar por orden de importancia en el plan de calidad de la restitución del audio. El criterio tomado en cuenta para determinar el orden es un criterio de optimización (o más bien de menor degradación) de la calidad de la señal de audio codificada. La codificación jerárquica se adapta particularmente a la transmisión en redes heterogéneas o que presentan unas tasas disponibles variables en el curso del tiempo, o más aún en la transmisión a un terminal de destino que presenta capacidades varia- bles.

El concepto básico de la codificación de audio (o "escalable") se puede describir como sigue:

El flujo binario comprende una capa de base y una o varias capas de mejora. La capa de base se genera por un códec de tasa base (fija), calificado de "códec núcleo", que garantiza la calidad mínima de la codificación. Esta capa debe recibirse por decodificador para mantener un nivel de calidad aceptable. Las capas de mejora sirven para mejorar la calidad. Sin embargo, se puede dar el caso de que no se reciban todas en el decodificador.

El interés principal de la codificación jerárquica es que permite entonces una adaptación de la tasa simplemente mediante "truncamiento del flujo binario". El número de capas (es decir el número de truncamientos posibles del flujo binario) define la granularidad de la codificación. Se habla de codificación de "granularidad fuerte" si el flujo binario comprende pocas capas (del orden de 2 a 4) y de codificación de "granularidad fina" que permite por ejemplo un paso del orden de 1 a 2 kbit/s.

Se describen más particularmente a continuación las técnicas de codificación escalable en tasa y en amplitud de banda, con un codificador de núcleo del tipo CELP, en banda telefónica y una o varias capas de mejora en banda ampliada. Un ejemplo de tales sistemas se da en la norma UIT-T G.729.1 de 8 a 32 kbit/s de granularidad fina. Se resume a continuación el algoritmo de codificación/decodificación G.729.1.

* Notas sobre el codificador G.729.1

El codificador G.729.1 es una extensión del codificador UIT-T G.729. Se trata de un codificador jerárquico de núcleo G.729, modificado, que produce una señal cuya banda va de la banda estrecha (50-4000 Hz) a la banda ampliada (50-7000 Hz) con una tasa de 8 a 32 kbit/s para los servicios de conversación. Este códec es compatible con los equipos de voz sobre IP existentes (la mayor parte de ellos están equipados según la norma G.729). Conviene indicar finalmente que la norma G.729.1 se aprobó en mayo de 2006.

El codificador G.729.1 se esquematiza en la figura 1. La señal de entrada en banda ampliada s_wb, muestreada a 16 kHz, se descompone en primer lugar en dos bandas mediante filtrado QMF (de "Quadrature Mirror Filter"). La banda base (0-4000 Hz) se obtiene mediante filtrado pasa baja LP (bloque 100) y decimación (bloque 101), y la banda alta (4000-8000 Hz) por filtro pasa alta HP (bloque 102) y decimación (bloque 103). Los filtros LP y HP son de amplitud 64.

La banda base se trata previamente por un filtro pasa alta que elimina los componentes por debajo de 50 Hz (bloque 104), para tener la señal s_LB, antes de codificación CELP en banda estrecha (bloque 105) a 8 y 12 kbit/s. Este filtrado pasa alta tiene en cuenta el hecho de que la banda útil se define como la que cubre el intervalo 50-7000 Hz. La codificación CELP en banda estrecha es una codificación CELP en cascada que comprende como...

Reivindicaciones:

1. Procedimiento de codificación de una señal de audio en varias sub-bandas, en la que al menos una primera y una segunda sub-bandas, contiguas, se codifican por transformada (601, 602; 901, 902),

caracterizado porque, para aplicar una ponderación perceptual, en el dominio de la transformada, al menos a la segunda sub-banda, el procedimiento comprende:

- una determinación de al menos un umbral de enmascaramiento en frecuencia (606; 905; 906b) a aplicar en la segunda sub-banda y

- una normalización de dicho umbral de enmascaramiento para asegurar una continuidad espectral entre dichas primera y segunda sub-bandas.

2. Procedimiento de acuerdo con la reivindicación 1, en el que un número de bits a asignar a cada sub-banda se determina a partir de una envolvente espectral,

caracterizado porque la asignación de los bits (607) para la segunda sub-banda se determina al menos además en función de un cálculo de una curva de enmascaramiento normalizada, aplicado al menos a la segunda sub-banda (606).

3. Procedimiento de acuerdo con la reivindicación 2, en el que la codificación se efectúa en más de dos sub-bandas, estando incluida la primera sub-banda en una primera banda espectral y estando incluida la segunda sub-banda en una segunda banda espectral, caracterizado porque el número de bits por sub-banda nbit(j) se concede, para cada sub-banda de índice j, en función de una importancia perceptual ip(j) calculada a partir de una relación del tipo:

- ip(j) = frac{1}{2}rms_index(j), si j es un índice de sub-banda en la primera banda y

- ip(j) = frac{1}{2}[rms_index(j)-log_mask(j)], si j es un índice de sub-banda en la segunda banda, con log_mask(j) = log₂(M(j))-normfac, donde:

- rms_index(j) son los valores cuantificados resultantes de la codificación de la envolvente para la sub-banda j,

- M(j) es el umbral de enmascaramiento para dicha sub-banda de índice j y

- normfac es un factor de normalización determinado para asegurar la continuidad espectral entre dichas primera y segunda sub-bandas.

4. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque la señal transformada, en la segunda sub-banda, se pondera (905) por un factor proporcional a la raíz cuadrada del umbral de enmascaramiento normalizado para la segunda sub-banda.

5. Procedimiento de acuerdo con la reivindicación 4, en el que la codificación se efectúa en más de dos sub-bandas, estando incluida la primera sub-banda en una primera banda espectral y estando incluida la segunda sub-banda en una segunda banda espectral, caracterizado porque se codifican (906) unos valores de ponderación de sqrt{M(j)}, donde M(j) es el umbral de enmascaramiento normalizado para una sub-banda de índice j, incluida en la segunda banda espectral.

6. Procedimiento de acuerdo con una de las reivindicaciones precedentes, caracterizado porque la codificación por transformada interviene en una capa superior (110 de un codificador jerárquico,

- comprendiendo la primera sub-banda una señal (d^W}_LB) resultante de la codificación del núcleo (105) del codificador jerárquico,

- y comprendiendo la segunda sub-banda una señal original (S_HB).

7. Procedimiento de acuerdo con la reivindicación 6, caracterizado porque la señal (d^W_LB) resultante de la codificación del núcleo se pondera perceptualmente (600; 900).

8. Procedimiento de acuerdo con una de las reivindicaciones 6 y 7, caracterizado porque la señal (d^W_{LB) resultante de la codificación del núcleo es una señal representativa de una diferencia entre una señal original y una síntesis de esta señal original.

9. Procedimiento de acuerdo con una de las reivindicaciones 6 a 8, caracterizado porque la codificación por transformada es del tipo TDAC en un codificador global de acuerdo con la norma G.729.1, y porque la primera sub-banda está incluida en una banda de bajas frecuencias (T1) mientras que la segunda sub-banda está incluida en una banda de altas frecuencias.

10. Procedimiento de acuerdo con la reivindicación 9, caracterizada porque la banda de altas frecuencias se extiende hasta 7000 Hz (T2), al menos (T3).

11. Procedimiento de acuerdo con una de las reivindicaciones precedentes, en el que se calcula una envolvente espectral (604; 904), caracterizado porque el umbral de enmascaramiento, para una sub-banda, se define por una convolución entre:

- una expresión de la envolvente espectral y

- una función de escalonamiento que involucra una frecuencia central de dicha sub-banda.

12. Procedimiento de acuerdo con una de las reivindicaciones precedentes, en el que se obtiene una información (305) de acuerdo con la que la señal a codificar es tonal o no tonal, caracterizado porque la ponderación perceptual de la segunda sub-banda, con la determinación del umbral de enmascaramiento y la normalización, no se prosiguen más que si la señal no es tonal.

13. Procedimiento de codificación de una señal de audio en varias sub-bandas, en la que al menos una primera y una segunda sub-bandas, contiguas, se decodifican por transformada (709, 711; 1007, 1009),

caracterizado porque, para aplicar una ponderación perceptual, en el dominio de la transformada, al menos a la segunda sub-banda, el procedimiento comprende:

- una determinación de al menos un umbral de enmascaramiento en frecuencia (702; 1001; 1011b) a aplicar en la segunda sub-banda, a partir de una envolvente espectral decodificada, y

- una normalización de dicho umbral de enmascaramiento para asegurar una continuidad espectral entre dichas primera y segunda sub-bandas.

14. Procedimiento de acuerdo con la reivindicación 13, en el que se determina un número de bits a asignar a cada sub-banda (703) a partir de una decodificación de la envolvente espectral (701),

caracterizado porque la asignación de los bits (703) para la segunda sub-banda se determina al menos, además, en función de un cálculo de una curva de enmascaramiento normalizada (702), aplicado al menos a la segunda sub-banda.

15. Procedimiento de acuerdo con la reivindicación 13, caracterizado porque la señal transformada, en la segunda sub-banda, se pondera (1004) por un factor proporcional a la raíz cuadrada del umbral de enmascaramiento normalizado para la segunda sub-banda.

16. Programa informático, almacenado en una memoria de un codificador de un terminal de telecomunicación y/o almacenado en un soporte de memoria destinado a cooperar con un lector de dicho codificador,

caracterizado porque comprende unas instrucciones para la realización del procedimiento de codificación de acuerdo con una de las reivindicaciones 1 a 12 cuando dichas instrucciones se ejecutan por un procesador del codificador.

17. Codificador, caracterizado porque comprende al menos una memoria que almacena un programa informático de acuerdo con la reivindicación 16.

18. Programa informático, almacenado en una memoria de un decodificador de un terminal de telecomunicación y/o almacenado en un soporte de memoria destinado a cooperar con un lector de dicho decodificador,

caracterizado porque comprende unas instrucciones para la realización del procedimiento de decodificación de acuerdo con una de las reivindicaciones 13 a 15 cuando dichas instrucciones se ejecutan por un procesador del decodificador.

19. Decodificador, caracterizado porque comprende al menos una memoria que almacena un programa informático de acuerdo con la reivindicación 18.

Patentes similares o relacionadas:

APARATO PARA EVALUAR LA ENERGÍA DE UNA SEÑAL QUE TIENE SEÑALES DE SUBBANDA Y MÉTODO CORRESPONDIENTE, del 9 de Marzo de 2011, de DOLBY INTERNATIONAL AB: Aparato para evaluar la energía de una señal que tiene señales de subbanda generadas filtrando la señal utilizando un banco de filtros de análisis, teniendo el banco de filtros, […]

APARATO PARA CALCULAR VALORES DE AJUSTE DE GANANCIA PARA AJUSTAR LA GANANCIA DE UNA PLURALIDAD DE SEÑALES DE SUBBANDA EN BANCOS DE FILTROS DE VALOR REAL Y MÉTODO CORRESPONDIENTE, del 26 de Enero de 2011, de DOLBY INTERNATIONAL AB: Aparato para calcular valores de ajuste de ganancia para ajustar la ganancia de una pluralidad de señales de subbanda generadas filtrando una […]

PROCESAMIENTO DIGITAL DIFERENCIADO DE LA VOZ Y DE LA MUSICA, LA FILTRACION DEL RUIDO, LA CREACION DE EFECTOS ESPECIALES ASI COMO UN DISPOSITIVO PARA LA APLICACION DE DICHO PROCEDIMIENTO, del 9 de Julio de 2010, de CREBOUW, JEAN-LUC: Procedimiento para el tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija […]

APARATO Y METODO PARA GENERAR VALORES DE SUBBANDA DE AUDIO Y APARATO YMETODO PARA GENERAR MUESTRAS DE AUDIO DE DOMINIO DE TIEMPO, del 10 de Noviembre de 2009, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para generar valores de subbanda de audio en canales de subbanda de audio, que comprende: un divisor en ventanas de análisis para dividir en ventanas una trama […]

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]

Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]

Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]