Corrección directa de errores en la codificación vocal.

Un módulo descodificador (704) para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa, que comprende: un descodificador primario

(712) para descodificar los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria;

un descodificador redundante (714) para descodificar los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, y

medios para localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y avanzando entonces desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, en donde la posición del impulso de tono localizada en la trama actual se utiliza para reducir las discontinuidades de fase.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08168570.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: SUNDQVIST, JIM, NOHLGREN,ANDERS, UVLIDEN,ANDERS, WESTERLUND,Magnus, SVEDBERG,Jonas.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION... > H04L1/00 (Disposiciones para detectar o evitar errores en la información recibida)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION H — ELECTRICIDAD > CIRCUITOS ELECTRONICOS BASICOS > CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO,... > Conversión de un código, en el cual la información... > H03M7/36 (Conversión en, o a partir de una modulación diferencial de varios bits, es decir, la diferencia entre muestras sucesivas está codificada por más de un bit)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/005 (Corrección de errores producidos por el canal de transmisión, si se refieren al algoritmo de codificación)

PDF original: ES-2527697_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Corrección directa de errores en la codificación vocal Antecedentes

La presente invención se refiere a un sistema y a un método para realizar una corrección directa de errores en la transmisión de información de audio y, más particularmente, a un sistema y un método para realizar una corrección directa de errores en la transmisión basada en paquetes de información vocalmente codificada.

1. Codificación vocal

Las deficiencias de los métodos de corrección directa de errores (FEC) del estado de la técnica pueden apreciarse del mejor modo por una discusión introductoria de algunos conceptos de codificación vocal convencionales.

1.1 Codificación Predictiva Lineal Excitada por Código (CELP)

La figura 1 muestra un codificador 100 de análisis por síntesis predictivo lineal excitado por código (CELP) convencional. El codificador 100 incluye unidades funcionales designadas como módulo de tramado 104, módulo de análisis 106 de codificación de predicción lineal (LPC), módulo de cálculo de diferencia 118, módulo de ponderación de error 114, módulo de minimización de error 116 y módulo descodificador 102. El módulo descodificador 102 incluye a su vez un libro de código fijo 112, un filtro 110 predictor a largo plazo (LTP) y un filtro 108 de codificación predictora lineal (LPC) conectados uno a otro en relación de cascada para producir una señal sintetizada (n). El filtro LPC 108 modela la correlación a corto plazo en la voz atribuida a los tractos vocales, correspondiente a la envolvente espectral de la señal vocal. Debe representarse por:

1/A(z) =1/(1- ajz')

i «I

(Ec. 1),

en donde p denota el orden del filtro y a¡ denota los coeficientes del filtro. El filtro LTP 110, por otro lado, modela la correlación a largo plazo de la voz atribuida a las cuerdas vocales, correspondiente a la estructura espectral fina similar a periódica de la señal vocal. Por ejemplo, puede tener la forma dada por:

1/P(z) =1/(1- 'b¡z'(l>+i))

i =-)

(Ec. 2),

en donde D corresponde generalmente al período de tono de la correlación a largo plazo y b¡ pertenece a los coeficientes de ganancia a largo plazo del filtro. El libro de código fijo 112 almacena una serie de secuencias de entrada de excitación. Las secuencias proporcionan señales de excitación al filtro LTP 110 y al filtro LPC 108 y son útiles en la modelación de las características de la señal vocal que no pueden predecirse hasta cierto grado con métodos determinísticos utilizando el filtro LTP 110 y el filtro LPC 108, tal como componentes de audio dentro de música.

En funcionamiento, el módulo de tramado 104 recibe una señal vocal de entrada y la divide en tramas sucesivas (por ejemplo, de 20 ms de duración). A continuación, el módulo de análisis LPC 106 recibe y analiza una trama para generar un conjunto de coeficientes LPC. Estos coeficientes son utilizados por el filtro LPC 108 para modelar las características a corto plazo de la señal vocal correspondientes a su envolvente espectral. Puede formarse a continuación un residual LPC alimentando la señal vocal de entrada a través de un filtro inverso, incluyendo los coeficientes LPC calculados. Este residual, mostrado en la figura 2, representa un componente de la señal vocal original que permanece después de la retirada de la redundancia a corto plazo por análisis predictivo lineal. La distancia entre dos pulsos de tono se denota con L y se denomina retraso. El codificador 100 puede utilizar a continuación el residual para predecir los coeficientes a largo plazo. Estos coeficientes a largo plazo son utilizados por el filtro LTP 110 para modelar la estructura espectral fina de la señal vocal (tal como retardo de tono y ganancia de tono). Tomados conjuntamente, el filtro LTP 110 y el filtro LPC 108 forman un filtro en cascada que modela las características a largo plazo y a corto plazo de la señal vocal. Cuando se acciona por una secuencia de excitación procedente del libro de código fijo 112, el filtro en cascada genera la señal vocal sintética (n) que representa una versión reconstruida de la señal vocal original s(n).

El codificador 100 selecciona una secuencia de excitación óptima generando sucesivamente una serie de señales vocales sintéticas (n), comparando sucesivamente las señales vocales sintéticas (n) con las señales vocales originales s(n) y ajustando sucesivamente los parámetros operativos del módulo descodificador 102 para minimizar la diferencia entre (n) y s(n). Más específicamente, el módulo de cálculo de diferencia 118 forma la diferencia (es decir, la señal de error e(n)) entre la señal vocal original s(n) y la señal vocal sintética (n). Un módulo de ponderación de error 114 recibe la señal de error e(n) y genera una señal de error ponderada ew(n) sobre la base de factores de ponderación perceptuales. El módulo de minimización de error 116 utiliza un procedimiento de búsqueda para

ajustar los parámetros operativos del descodificador de voz 102 de tal manera que produzca una señal sintetizada (n) que está lo más próxima posible a la señal original s(n).

Tras llegar a una señal sintetizada óptima (n), se transfieren parámetros de codificador relevantes sobre un medio de transmisión (no mostrado) a un sitio de descodificador (no mostrado). Un descodificador en el sitio de descodificador incluye una construcción idéntica al módulo descodificador 102 del codificador 100. El descodificador utiliza los parámetros transferidos para reproducir la señal sintetizada optimizada (n) calculada en el codificador 100. Por ejemplo, el codificador 100 puede transferir índices de libro de código que representan la localización de la señal de excitación óptima en el libro de código fijo 112, junto con parámetros o coeficentes de filtro relevantes (por ejemplo, los parámetros LPC y LTP). La transferencia de los parámetros en vez de una representación más directa de la señal vocal de entrada proporciona una reducción notable en el ancho de banda requerido para transmitir información vocal.

La figura 3 muestra una modificación del codificador 100 de análisis por síntesis mostrado en la figura 1. El codificador 300 mostrado en la figura 3 incluye un módulo de tramado 304, un módulo de análisis LPC 306, un filtro LPC 308, un módulo de cálculo de diferencia 318, un módulo de ponderación de error 314, un módulo de minimización de error 316 y un libro de código fijo 312. Cada una de estas unidades corresponde generalmente a las partes con el mismo nombre mostradas en la figura 1. Sin embargo, en la figura 3, el filtro LTP 110 es sustituido por el libro de código 320 adaptativo. Además, un módulo sumador 322 añade las señales de excitación emitidas desde el libro de código adaptativo 320 y el libro de código fijado 312.

El codificador 300 funciona básicamente de la misma manera que el codificador 100 de la figura 1. Sin embargo, en el codificador 300, el libro de código adaptativo 320 modela las características a largo plazo de la señal vocal. Además, la señal de excitación aplicada al filtro LPC 308 representa una suma total de una entrada del libro de código adaptativo 320 y una entrada del libro de código fijo 312.

1.2 Codificación de Tasa Completa Reforzada GSM (GSM-EFR)

La técnica anterior proporciona numerosas implementaciones específicas del diseño CELP antes descrito. Una de tales implementaciones es el estándar de transcodificación vocal de Tasa Completa Reforzada GSM (GSM-EFR) descrito en el documento Sistema Global para Comunicaciones Móviles: Sistemas de Telecomunicaciones Celulares Digitales: Transcodificación Vocal de Tasa Completa Reforzada (EFR) (GSM 06.60), noviembre de 1996, del Instituto Europeo de Normas de Telecomunicaciones (ETSI).

... [Seguir leyendo]

 


Reivindicaciones:

1. Un módulo descodificador (704) para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa, que comprende:

un descodificador primario (712) para descodificar los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria;

un descodificador redundante (714) para descodificar los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, y

medios para localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y avanzando entonces desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, en donde la posición del impulso de tono localizada en la trama actual se utiliza para reducir las discontinuidades de fase.

2. Un módulo descodificador para descodificar datos de audio según la reivindicación 1, en el que los medios para localizar la posición del impulso de tono están configurados además para recibir un valor de posición de impulso de tono desde un sitio de codificación, comparar el valor recibido con la posición localizada del impulso de tono, y suavizar a continuación cualquier discrepancia de fase detectada en el curso de la trama actual.

3. Un método para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa, que comprende:

descodificar primariamente los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria; descodificar redundantemente los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, en donde la descodificación primaria o la descodificación redundante comprende el paso de localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y, a continuación, avanzar desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, y en donde la posición localizada del impulso de tono se utiliza para reducir las discontinuidades de fase.

4. Un método para descodificar datos de audio según la reivindicación 3, en el que el paso de localizar la posición del impulso de tono comprende además recibir un valor de posición del impulso de tono desde un sitio de codificación, comparar el valor recibido con la posición localizada del impulso de tono, y suavizar entonces cualquier discrepancia de fase detectada en el curso de la trama actual.