SÍNTESIS DE BLOQUES PERDIDOS DE UNA SEÑAL AUDIO-DIGITAL.

Método de síntesis de una señal audio-digital representado por bloques sucesivos de muestras,

en donde, a la recepción de dicha señal, para sustituir al menos un bloque no válido, se genera un bloque de sustitución a partir de muestras de al menos un bloque válido, comprendiendo el método las etapas siguientes: a) determinar (402) un periodo de repetición en al menos un bloque válido y b) volver a copiar (403) las muestras del periodo de repetición en al menos un bloque de sustitución, correspondiendo dicho periodo de repetición a un periodo de tono de frecuencia fundamental si la señal es vocalizada o a un valor determinado arbitrariamente o a partir de una función de correlación si la señal no está vocalizada, caracterizado porque: - en la etapa a), se determina un último periodo de repetición (Tj) en al menos un bloque válido que precede inmediatamente a un bloque no válido, - en la etapa b), se corrige muestras (e(3)) del dicho último periodo de repetición (Tj) en función de muestras e(2- T0), e(3-T0), e(4-T0)) de un periodo de repetición (Tj-1) que precede a dicho último periodo de repetición, para limitar la amplitud de una posible señal transitoria en dicho último periodo de repetición y se recopian las muestras así corregidas en dicho bloque de sustitución (Tj+1, Tj+2) efectuándose dicha corrección con respecto a una proximidad centrada en torno a una muestra temporalmente situada en un periodo de repetición antes de la muestra corriente

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2007/052189.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY 75015 PARIS FRANCIA.

Inventor/es: KOVESI, BALAZS, RAGOT,STEPHANE.

Fecha de Publicación: 26 de Julio de 2011.

Fecha Solicitud PCT: 17 de Octubre de 2007.

Clasificación Internacional de Patentes:

G10L19/00E

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2363181_T3.pdf

Fragmento de la descripción:

La presente invención se refiere al procesamiento de señales audio-digitales (señales de voz, en particular).

Interviene en un sistema de codificación/decodificación adaptado para la transmisión/recepción de dichas señales. Más en particular, la presente invención se refiere a un procesamiento en la recepción que permite mejorar la calidad de las señales decodificadas en presencia de pérdidas de bloques de datos.

Diferentes técnicas existen para convertir bajo forma digital y comprimir una señal audio-digital. Las técnicas más frecuentes son:

- los métodos de codificación de forma de onda, tales como la codificación MIC (Modulación por Impulsos Codificados) y MICDA (Modulación por Impulso y Codificación Diferencial Adaptativa), en adelante denominados simplemente “PCM” y “ADPCM”;

- los métodos de codificación paramétrica mediante análisis por síntesis tal como la codificación CELP (Predicción Lineal Inducida por Código) y

- los métodos de codificación perceptual en sub-bandas o mediante una transformada.

Estas técnicas procesan la señal de entrada de forma secuencial, muestra por muestra (MIC o MICDA) o mediante bloques de muestras denominados “tramas” (CELP y codificación por transformada).

Se recuerda, rápidamente, que una señal de voz puede ser predecida a partir de su ‘transmisión reciente' (por ejemplo, de 8 a 12 muestras a 8 kHz) por medio de parámetros evaluados en ventanas cortas (10 a 20 ms, en este ejemplo). Estos parámetros de predicción a corto plazo, representativos de la función de transferencia del conducto vocal (por ejemplo para pronunciar consonantes), se obtienen por métodos de análisis LPC (Codificación de Predicción Lineal). Existe también una correlación, a más largo plazo, asociada a las cuasi-periodicidades de la palabra (por ejemplo, de sonidos vocalizados, tales como las vocales) que son debidos a la vibración de las cuerdas vocales. Se trata, por lo tanto, de determinar al menos la frecuencia fundamental de la señal vocalizada que suele variar desde 60 Hz (voz grave) a 600 Hz (voz aguda) según quien habla. Se determina, entonces, mediante un análisis de LTP (Predicción a Largo Plazo), los parámetros LTP de un predictor a largo plazo y en particular, la inversa de la frecuencia fundamental, que suele denominarse “periodo de tono fundamental”. Se define, entonces, el número de muestras en un periodo de tono fundamental por la relación Fe/F0 (o su parte entera), en donde:

- Fe es la cadencias de muestreo y

- F0 es la frecuencia fundamental.

Se considerará, por lo tanto, que los parámetros de predicción a largo plazo LTP, que corresponde al periodo de tono fundamental, representan la vibración fundamental de la señal de voz (cuando es vocalizada), mientras que los parámetros de predicción a corto plazo LPC representan la envolvente espectral de esta señal.

En algunos codificadores, el conjunto de estos parámetros LPC y LTP, que resultan, por lo tanto, de una codificación de voz, se pueden transmitir por bloques hacia un decodificador homólogo, a través de una o varias redes de telecomunicación, para restituir, a continuación, la señal de voz inicial.

Sin embargo, se interesa en la descripción siguiente (a título de ejemplo) por el sistema de codificación G.722 de 48, 56 y 64 kbits/s normalizado por la UIT-T para la transmisión de señales de voz en banda ancha (que se muestrean a 16 kHz). El codificador G.722 presenta un esquema de codificación MICDA en dos sub-bandas obtenidas por un banco de filtros QMF (Filtro Espejo en Cuadratura). Para más detalles, conviene referirse al texto de la recomendación G.722.

La Figura 1 de la técnica anterior ilustra la estructura de codificación y de decodificación según la recomendación G.722. Los bloques 101 a 103 representan el banco de filtros QMF de transmisión (separación espectral en altas 102 y bajas 100 frecuencias y un sub-muestreo 101 y 103), aplicado a la señal de entrada Se. Los bloques siguientes 104 y 105 corresponden, respectivamente, a los codificadores MICDA en banda baja y alta. El caudal de transmisión del codificador MICDA, en banda baja, está especificado por un modo con un valor de 0, 1 o 2, que indica, respectivamente, un caudal de transmisión de 6, 5 o 4 bits por muestra, mientras que el caudal del codificador MICDA en banda alta es fijo (dos bits por muestra). Se encuentra, en el decodificador, los bloques equivalentes de decodificación MICDA (bloques 106 y 107), cuyas salidas están combinadas en el banco de filtros QMF de recepción (sobre-muestreo 108 y 110, filtros inversos 109, 111 y reunión de las bandas de frecuencias bajas y altas 112) para generar la señal de síntesis Ss.

Un problema general, aquí estudiado, se refiere a la corrección de pérdidas de bloques en la decodificación. En efecto, el tren binario procedente de la codificación está, en general, en formato de bloques binarios para la transmisión en numerosos tipos de redes. Se habla, por ejemplo, de “paquetes IP” (Protocolo de Internet) para bloques transmitidos a través de la red Internet, de “tramas” para bloques transmitidos a través de redes ATM (Modo de Transferencia Asíncrona) u otras. Los bloques transmitidos, después de la codificación, pueden perderse por diversos motivos:

- si un encaminador de la red está saturado y vacío sin cola de espera;

- si el bloque se recibe con retardo (por lo tanto, no tomado en cuenta) en el momento de una decodificación de flujo continuo y en tiempo real;

- si un bloque recibido está operativamente viciado (por ejemplo, si su código de paridad CRC no está verificado).

En el momento de una pérdida de uno o varios bloques consecutivos, el decodificador debe reconstruir la señal sin información sobre los bloques perdidos o erróneos. Se basa en la información decodificada anteriormente a partir de los bloques válidos recibidos. Este problema, denominado “corrección de bloques perdidos” (o también, a continuación, “corrección de tramas suprimidas”) es, en realidad, más general que la simple extrapolación de información ausente porque la pérdida de tramas ocasiona, a menudo, una pérdida de sincronización entre el codificador y decodificador, en particular cuando estos últimos son predictivos así como problemas de continuidad entre la información extrapolada y la información decodificada después de una pérdida. La corrección de tramas suprimidas engloba, por lo tanto, también técnicas de reestablecimiento de estados, de reconvergencia y otros.

El anexo 1 de la recomendación UIT-T G.711 describe una corrección de tramas suprimidas adaptada a la codificación MIC. Al no ser predictiva la codificación MIC, la corrección de pérdidas de tramas se resume, por lo tanto, simplemente en extrapolar la información ausente y garantizar la continuidad entre una trama reconstruida y tramas correctamente recibidas, como resultado de una pérdida. La extrapolación se pone en práctica por repetición de la señal transmitida de forma síncrona con la frecuencia fundamental (o a la inversa, “periodo de tono fundamental”), es decir, repitiendo simplemente periodos de tono fundamental. La continuidad está garantizada por un desvanecimiento cruzado (o “fundido encadenado” correspondiente al término inglés “cross-fading”) entre muestras recibidas y muestras extrapoladas.

En el documento:

“A Packet Loss Concealment Method using Pitch Waveform Repetition and Internal State Update on the Decoded Speech for the Sub-band ADPCM Wideband Speech Codec”, M. Serizawa y Y. Nozawa, IEEE Speech Coding Workshop, páginas 68-70 (2002), se ha dado a conocer una corrección de tramas suprimidas para el codificador/decodificador normalizado G.722 extrapolando una trama perdida con la ayuda de un algoritmo de repetición de los periodos de tono fundamental (repetición que puede ser similar a la descrita en el anexo 1 de la recomendación G.711). Para actualizar los estados del codificador G.722 (memoria de los filtros y memoria de adaptación de paso), la trama así extrapolada se divide en dos sub-bandas que son codificadas de nuevo por la codificación MICDA.

Sin embargo, tales técnicas de corrección de pérdidas de trama por repetición de periodos de tono fundamental solamente pueden funcionar correctamente si la señal transmitida es estacionaria... [Seguir leyendo]

Reivindicaciones:

1. Método de síntesis de una señal audio-digital representado por bloques sucesivos de muestras, en donde, a la recepción de dicha señal, para sustituir al menos un bloque no válido, se genera un bloque de sustitución a partir de muestras de al menos un bloque válido, comprendiendo el método las etapas siguientes:

a) determinar (402) un periodo de repetición en al menos un bloque válido y

b) volver a copiar (403) las muestras del periodo de repetición en al menos un bloque de sustitución,

correspondiendo dicho periodo de repetición a un periodo de tono de frecuencia fundamental si la señal es vocalizada o a un valor determinado arbitrariamente o a partir de una función de correlación si la señal no está vocalizada, caracterizado porque:

- en la etapa a), se determina un último periodo de repetición (Tj) en al menos un bloque válido que precede inmediatamente a un bloque no válido,

- en la etapa b), se corrige muestras (e(3)) del dicho último periodo de repetición (Tj) en función de muestras e(2T0), e(3-T0), e(4-T0)) de un periodo de repetición (Tj-1) que precede a dicho último periodo de repetición, para limitar la amplitud de una posible señal transitoria en dicho último periodo de repetición y se recopian las muestras así corregidas en dicho bloque de sustitución (Tj+1, Tj+2) efectuándose dicha corrección con respecto a una proximidad centrada en torno a una muestra temporalmente situada en un periodo de repetición antes de

la muestra corriente.

2. El método, según la reivindicación 1, en donde la señal es una señal de voz vocalizada, caracterizado porque el periodo de repetición es un periodo de tono fundamental que corresponde a la inversa de una frecuencia fundamental de la señal.

3. El método, según una de las reivindicaciones 1 y 2, caracterizado porque en la etapa b) se corrige una muestra corriente (e(3)) del último periodo de repetición, comparando: -la amplitud de esta muestra corriente, en valor absoluto, -con la amplitud, en valor absoluto, de al menos una muestra (e(2-T0 )) temporalmente situada sensiblemente en

un periodo de repetición antes de la muestra corriente, y asignando, a la muestra corriente, la amplitud mínima, en valor absoluto, entre estas dos amplitudes.

4. El método, según la reivindicación 3, caracterizado porque, para una muestra corriente (e(3)) del último periodo de repetición:

- se constituye un conjunto de muestras (75) en una proximidad centrada en torno a una muestra (e(3-T0) temporalmente situada en un periodo de repetición antes de la muestra corriente,

- se determina una amplitud elegida (76) entre las amplitudes de las muestras de dicha proximidad, tomadas en valor absoluto,

- y se compara esta amplitud elegida con la amplitud de la muestra corriente, en valor absoluto, para asignar (77) a la muestra corriente (e(3)) la amplitud mínima, en valor absoluto, entre la amplitud elegida y la amplitud de la muestra corriente.

5. El método, según la reivindicación 4, caracterizado porque la amplitud elegida, entre las amplitudes de las muestras de dicha proximidad, es la amplitud máxima en valor absoluto (M).

6. El método, según una de las reivindicaciones precedentes, en donde se aplica un amortiguamiento de la amplitud de las muestras en dicho bloque de sustitución, caracterizado porque se detecta un posible carácter transitorio de la señal en el último periodo de repetición y, si fuera el caso, la corrección de la etapa b) se efectúa aplicando un amortiguamiento más rápido que para una señal estacionaria.

7. El método, según la reivindicación 6, tomado en combinación con una de las reivindicaciones 3 y 4, caracterizado porque:

- para una pluralidad de muestras corrientes del último periodo de repetición, se mide una relación, en valor absoluto, de la amplitud de una muestra corriente con respecto a dicha amplitud elegida y

- se cuenta el número de ocurrencias, para dichas muestras corrientes, para las cuales dicha relación es superior a un primer umbral predeterminado y

- se detecta la presencia de un carácter transitorio si el número de ocurrencias es superior a un segundo umbral predeterminado.

8. El método, según una de las reivindicaciones precedentes, caracterizado porque, en el caso de una recepción de una pluralidad de bloques no válidos consecutivos, que se extiende en al menos un periodo de repetición, la etapa de corrección de muestras b) se aplica a todas las muestras del último periodo de repetición, tomadas una a una en tanto como la muestra corriente.

9. El método, según la reivindicación 8, caracterizado porque, en el caso de una recepción de una pluralidad de bloques no válidos consecutivos, que se extienden en varios periodos de repetición, para sustituir dicha pluralidad de bloques no válidos, se recopia varias veces el periodo de repetición corregido en la etapa b) para formar los bloques de sustitución.

10. Un programa de ordenador destinado a almacenarse en memoria de un dispositivo de síntesis de una señal audiodigital, caracterizado porque contiene instrucciones adaptadas para la puesta en práctica del método, según una de las reivindicaciones 1 a 9, cuando se ejecuta por un procesador de un tal dispositivo de síntesis.

11. Un dispositivo de síntesis de una señal audio-digital constituido por una sucesión de bloques que comprende:

- una entrada (E) para recibir bloques de la señal (e(n)), que preceden a al menos un bloque corriente a sintetizar y

- una salida (S) para proporcionar la señal sintetizada (emod(n)) y que comprende al menos dicho bloque corriente,

caracterizado porque comprende medios (MEM, PROC) adaptados para la puesta en práctica del método según una de las reivindicaciones 1 a 9, para sintetizar el bloque corriente a partir de al menos uno de dichos bloques precedentes.

12. Un decodificador de una señal audio-digital constituido por una sucesión de bloques, caracterizado porque comprende, además, un dispositivo (403) según la reivindicación 11, para sintetizar bloques no válidos.

Patentes similares o relacionadas:

MÉTODO DE TRATAMIENTO DE SEÑALES, APARATO DE TRATAMIENTO Y DESCODIFICADOR DE VOZ, del 13 de Febrero de 2012, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de tratamiento de señales para tratar una señal sintetizada en ocultación de pérdida de paquetes, que comprende: recibir una trama buena a continuación de una […]

ALISAMIENTO DE DISCONTINUIDADES ENTRE TRAMAS DE HABLA, del 1 de Junio de 2011, de QUALCOMM INCORPORATED: Un procedimiento para suavizar la discontinuidad entre una trama de habla perdida y una trama de habla actual en un dispositivo de comunicación, que comprende: […]

FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO, del 6 de Mayo de 2011, de MICROSOFT CORPORATION: Un flujo de bits que representa una señal de audio, que comprende información principal codificada para una trama actual que hace referencia […]

PROCEDIMIENTO Y DISPOSITIVO DE RECONSTRUCCION ESPECTRAL DE UNA SEÑAL DE AUDIO, del 24 de Septiembre de 2010, de FRANCE TELECOM: Procedimiento de codificación de una señal de audio, en el que una parte del espectro de frecuencia de la señal de audio es codificada con un codificador de limitación de banda […]

METODO Y APARATO PARA OBTENER UN FACTOR DE ATENUACION, del 11 de Junio de 2010, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes, cuyo método comprende: obtener una tendencia al […]

METODO Y DISPOSITIVO PARA REALIZAR UNA OCULTACION DE TRAMAS BORRADAS EN UNA SEÑAL DE BANDA SUPERIOR, del 16 de Noviembre de 2009, de HUAWEI TECHNOLOGIES CO., LTD.: Método para realizar una ocultación de tramas borradas en una señal de banda superior, que comprende: calcular una intensidad periódica de la señal de banda […]

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]