Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información.

Procedimiento de síntesis de una señal digital de audio representada por bloques consecutivos de muestras,

en el cual, tras la recepción de tal señal, para sustituir al menos un bloque inválido, se genera un bloque de sustitución a partir de las muestras de al menos un bloque válido que precede al bloque inválido, caracterizado porque incluye las siguientes etapas:

a) estimar una correlación que permite detectar un eventual periodo correspondiente a la inversa de una frecuencia fundamental de un tono en la señal digital de audio, y seleccionar un número (T) de muestras que es función de esta estimación, que forman una sucesión en al menos un último bloque válido que precede al bloque inválido,

b) fragmentar la sucesión de muestras en grupos (A, B, C, D) de dos muestras, y, en al menos una parte de los grupos, invertir las dos muestras o no en función de dicha estimación de correlación,

c) reconcatenar los grupos (A', B', C', D') cuyas muestras de algunos al menos se han invertido en la etapa b), para formar una parte (T') al menos del bloque de sustitución, y

d) si dicha parte obtenida en la etapa c) no llena todo el bloque de sustitución, copiar de nuevo dicha parte (T') en el bloque de sustitución y aplicar de nuevo las etapas b) y c) a dicha parte recopiada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2007/052188.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY 75015 PARIS FRANCIA.

Inventor/es: KOVESI, BALAZS, VIRETTE,DAVID.

Fecha de Publicación: 19 de Abril de 2012.

Clasificación Internacional de Patentes:

G10L11/04
G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

PDF original: ES-2378972_T3.pdf

Fragmento de la descripción:

Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información.

La presente invención se refiere al procesamiento de señales digitales de audio, tales como señales de voz en telecomunicación, en particular a la descodificación de tales señales.

Se recuerda rápidamente que se puede predecir una señal de voz a partir de su pasado reciente (por ejemplo de 8 a 12 muestras a 8 kHz) mediante parámetros evaluados en ventanas cortas (10 a 20 ms en este ejemplo) . Estos parámetros de predicción a corto plazo, representativos de la función de transferencia del conducto vocal (por ejemplo para pronunciar consonantes) , se obtienen mediante procedimientos de análisis LPC (de "Linear Prediction Coding") . Se aplica también una correlación a más largo plazo para determinar periodicidades de sonidos sonoros (por ejemplo las vocales) debidas a la vibración de las cuerdas vocales. De este modo se trata determinar al menos la frecuencia fundamental de la señal sonora que varía típicamente de 60 Hz (voz grave) a 600 Hz (voz aguda) según los locutores. Se determina entonces, por un análisis LTP (de "Long Term Prediction") , los parámetros LTP de un predictor a largo plazo, y en particular la inversa de la frecuencia fundamental, a menudo denominada "periodo de pitch". Se define entonces el número de muestras en una frecuencia fundamental por la relación Fe/F0 (o su parte entera) , donde:

- Fe es el ritmo de muestreo, y

- F0 es la frecuencia fundamental.

Cabe resaltar que los parámetros de predicción a largo plazo LTP, como el periodo de pitch, representan la vibración fundamental de la señal de voz (cuando es sonora) , mientras que los parámetros de predicción a corto plazo LPC representan la envoltura espectral de esta señal.

El conjunto de estos parámetros LPC y LTP, que resultan por lo tanto de una codificación de voz, se transmite por bloques hacia un descodificador homólogo, por una o varias redes de telecomunicación, para restituir a continuación la señal de voz inicial.

En el marco de la comunicación de tales señales por bloques, puede sobrevenir la pérdida de uno o más bloques consecutivos. Se entiende por el término "bloque" una sucesión de datos de señal que puede por ejemplo ser una trama en comunicación radio móvil, o también un paquete por ejemplo en comunicación sobre IP (de "Internet Protocol") , u otros.

En comunicación radio móvil por ejemplo, la mayoría de las técnicas de codificación por síntesis predictiva, y en particular la codificación de tipo CELP (de "Code Excited Liner Predictive") , proponen soluciones para recuperar tramas borradas. El descodificador es informado del caso de una trama borrada, por ejemplo por la transmisión de una información de borrado de trama procedente del descodificador canal. La recuperación de tramas borradas tiene por objetivo extrapolar los parámetros de la trama borrada a partir de una o más tramas anteriores consideradas como válidas. Algunos parámetros manipulados o codificados por los codificadores predictivos presentan una fuerte correlación entre tramas. Se trata típicamente de los parámetros de predicción a largo plazo LTP, para los sonidos sonoros por ejemplo, y de los parámetros de predicción a corto plazo LPC. Debido a esta correlación, es mucho más ventajoso reutilizar los parámetros de la última trama válida para sintetizar la trama borrada, que utilizar parámetros aleatorios, incluso erróneos.

En la generación de excitación CELP, los parámetros de la trama borrada se obtienen clásicamente como sigue.

Los parámetros LPC de una trama a reconstruir se obtienen a partir de los parámetros LPC de la última trama válida, por simple recopia de los parámetros o también con introducción de alguna atenuación (técnica utilizada por ejemplo en el codificador normalizado G723.1) . A continuación, se detecta una sonorización o una no-sonorización en la señal de voz para determinar un grado de armonicidad de la señal al nivel de la trama borrada.

Si la señal es sorda, se puede generar una señal de excitación de manera aleatoria (por aparición de códigos de la excitación pasada, por una ligera atenuación de la ganancia de la excitación pasada, por selección aleatoria en la excitación pasada, o también utilizando códigos transmitidos que pueden ser totalmente erróneos) .

Si la señal es sonora, el periodo de pitch (también denominada "retardo LTP") es generalmente la calculada para la trama anterior, eventualmente con una ligera "inestabilidad" (aumento del valor del retardo LTP para las tramas de error consecutivo, siendo tomada la ganancia LTP muy próxima a 1 o igual a 1) . La señal de excitación se limita por lo tanto a la predicción a largo plazo efectuada a partir de una excitación pasada.

Los medios de disimulación de las tramas borradas, durante la descodificación, están generalmente muy ligados a la estructura del descodificador y pueden ser comunes a módulos de este descodificador, como por ejemplo el módulo de síntesis de la señal. Estos medios utilizan también señales intermedias disponibles en el seno del descodificador, como por ejemplo la señal de excitación pasada y memorizada durante el procesamiento de las tramas válidas que preceden las tramas borradas.

Algunas técnicas utilizadas para disimular los errores producidos por paquetes perdidos durante el transporte de datos codificados según una codificación de tipo temporal recurren a menudo a técnicas de sustitución de formas de onda. Tales técnicas apuntan a reconstituir la señal seleccionando porciones de la señal descodificada antes del periodo perdido y no recurren a modelos de síntesis. Se aplican igualmente técnicas de suavización para evitar los fenómenos producidos por la concatenación de las diferentes señales.

Para los descodificadores que operan sobre señales codificadas mediante codificación por transformada, las técnicas de reconstrucción de las tramas borradas se apoyan generalmente en la estructura de codificación utilizada. Algunas técnicas apuntan a regenerar los coeficientes transformados perdidos a partir de los valores tomados por estos coeficientes antes del borrado.

Se han desarrollado otras técnicas de disimulación de las tramas borradas junto con la codificación canal. Sirven de informaciones proporcionadas por el descodificador canal, por ejemplo de informaciones relativas al grado de fiabilidad de los parámetros recibidos. Se indica en este caso que por el contrario, el objeto de la presente invención no presupone la existencia de un codificador canal.

Se ha propuesto, en el documento Combescure et al. :

"A 16, 24, 32 kbit/s Wideband Speech Codec Based on ATCELP", P.Combescure, J.Schnitzler, K.Ficher, R.Kirchherr, C.Lamblin, A.Le Guyader, D.Massaloux, C.Quinquis, J.Stegmann, P.Var y , Proceedings Conference ICASSP (1998) , el uso de un procedimiento de disimulación de las tramas borradas equivalente al utilizado en los codificadores CELP para un codificador por transformada.

Los inconvenientes de este procedimiento eran la introducción de distorsiones espectrales audibles (voz "sintética", resonancias parásitas, etc.) . Estos inconvenientes eran debidos en especial al uso de filtros de síntesis a largo plazo mal controlados (componente armónico único en sonidos sonoros, uso de porciones de la señal residual pasada en sonidos sordos) . Además, el control de energía se efectúa aquí al nivel de la señal de excitación y la diana energética de esta señal se mantiene constante durante toda la duración del borrado, lo cual general igualmente fenómenos audibles y molestos.

En el documento FR-2.813.722, se ha propuesto una técnica de disimulación de las tramas borradas, que no genera más distorsión a tasas de errores más elevadas y/o para intervalos borrados más largos. Esta técnica apunta a evitar el exceso de periodicidad para los sonidos sonoros y a controlar mejor la generación de la excitación no sonora. Para esto, se considera la señal de excitación (si es sonora) como la suma de dos señales:

- una componente fuertemente armónica limitada en banda a las frecuencias bajas del espectro total, y

- otra componente menos armónica y limitada a las frecuencias más altas.

La componente fuertemente armónica se obtiene por filtrado LTP. La segunda componente se obtiene también por un filtrado LTP convertido en no periódico por la modificación aleatoria de su periodo... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de síntesis de una señal digital de audio representada por bloques consecutivos de muestras, en el cual, tras la recepción de tal señal, para sustituir al menos un bloque inválido, se genera un bloque de sustitución a partir de las muestras de al menos un bloque válido que precede al bloque inválido, caracterizado porque incluye las siguientes etapas:

a) estimar una correlación que permite detectar un eventual periodo correspondiente a la inversa de una frecuencia fundamental de un tono en la señal digital de audio, y seleccionar un número (T) de muestras que es función de esta estimación, que forman una sucesión en al menos un último bloque válido que precede al bloque inválido, b) fragmentar la sucesión de muestras en grupos (A, B, C, D) de dos muestras, y, en al menos una parte de los grupos, invertir las dos muestras o no en función de dicha estimación de correlación, c) reconcatenar los grupos (A', B', C', D') cuyas muestras de algunos al menos se han invertido en la etapa b) , para formar una parte (T') al menos del bloque de sustitución, y d) si dicha parte obtenida en la etapa c) no llena todo el bloque de sustitución, copiar de nuevo dicha parte (T') en el bloque de sustitución y aplicar de nuevo las etapas b) y c) a dicha parte recopiada.

2. Procedimiento según la reivindicación 1, en el cual la señal digital de audio es una señal de voz, caracterizado porque la estimación de correlación incluye la detección de un grado de sonorización (51) en la señal de voz y se aplican las etapas b) a d) si la señal es escasamente sonora o sorda.

3. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque, para llevar a cabo la etapa a) :

a1) se busca una correlación para detectar un eventual periodo correspondiente a la inversa de una frecuencia fundamental de un tono en la señal digital de audio (56) , y a2) dicho número de muestras seleccionadas en la etapa a) corresponde:

• al número de muestras que incluye un periodo correspondiente a la inversa de una frecuencia fundamental del tono si la búsqueda de correlación detecta dicho periodo, y

• si no, a un número fijo de muestras, predeterminado.

4. Procedimiento según la reivindicación 3, caracterizado porque, si el número de muestras que incluye el periodo del tono detectado es un número par, un número impar de muestras (30) se añade a o se sustrae de las muestras de dicho periodo para formar la selección de la etapa a) , no estando una muestra de la sucesión (T') así formada en la etapa a) agrupada, en la etapa b) , con otra muestra de dicha sucesión (T') .

5. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque dichas reglas predeterminadas imponen convertir en aleatorios los casos de inversión de muestras en cada grupo y fijan un umbral de probabilidad

(p) para invertir o no las muestras de un grupo.

6. Procedimiento según la reivindicación 5, caracterizado porque el umbral de probabilidad (p) es variable y depende de la estimación de correlación.

7. Programa informático destinado a ser almacenado en la memoria de un dispositivo de síntesis de una señal digital de audio, caracterizado porque incluye instrucciones para la aplicación del procedimiento según una de las reivindicaciones 1 a 6 cuando es ejecutado por un procesador de tal dispositivo de síntesis.

8. Dispositivo de síntesis de una señal digital de audio constituida por una sucesión de bloques, que incluye:

- una entrada para recibir bloques de la señal (Se) , que precede a al menos un bloque actual a sintetizar, y

- una salida para proporcionar la señal sintetizada (Ss) y que incluye al menos dicho bloque actual,

caracterizado porque incluye medios (MEM, PROC) adaptados para la aplicación del procedimiento según una de las reivindicaciones 1 a 6, para sintetizar el bloque actual a partir de al menos uno de dichos bloques precedentes.

9. Aparato de recepción de una señal digital de audio constituida por una sucesión de bloques, que incluye un detector de bloques inválidos (DET) , caracterizado porque incluye, además, un dispositivo (SYN) según la reivindicación 8, para sintetizar bloques de sustitución de los bloques inválidos.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]