Corrección directa de errores en la codificación vocal.

Un módulo descodificador (704) para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa,

que comprende: un descodificador primario (712) para descodificar los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria;

un descodificador redundante (714) para descodificar los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, y

medios para localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y avanzando entonces desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, en donde la posición del impulso de tono localizada en la trama actual se utiliza para reducir las discontinuidades de fase.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08168570.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: SUNDQVIST, JIM, NOHLGREN,ANDERS, UVLIDEN,ANDERS, WESTERLUND,Magnus, SVEDBERG,Jonas.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/00 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
  • G10L19/005 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Corrección de errores producidos por el canal de transmisión, si se refieren al algoritmo de codificación.
  • H03M7/36 ELECTRICIDAD.H03 CIRCUITOS ELECTRONICOS BASICOS.H03M CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO, EN GENERAL (por medio de fluidos F15C 4/00; convertidores ópticos analógico/digitales G02F 7/00; codificación, decodificación o conversión de código especialmente adaptada a aplicaciones particulares, ver las subclases apropiadas, p. ej. G01D, G01R, G06F, G06T, G09G, G10L, G11B, G11C, H04B, H04L, H04M, H04N; cifrado o descifrado para la criptografía o para otros fines que implican la necesidad de secreto G09C). › H03M 7/00 Conversión de un código, en el cual la información está representada por una secuencia dada o por un número de dígitos, en un código en el cual la misma información está representada por una secuencia o por un número de dígitos diferentes. › Conversión en, o a partir de una modulación diferencial de varios bits, es decir, la diferencia entre muestras sucesivas está codificada por más de un bit.
  • H04L1/00 H […] › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04L TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION TELEGRAFICA (disposiciones comunes a las comunicaciones telegráficas y telefónicas H04M). › Disposiciones para detectar o evitar errores en la información recibida.

PDF original: ES-2527697_T3.pdf

 


Fragmento de la descripción:

Corrección directa de errores en la codificación vocal Antecedentes

La presente invención se refiere a un sistema y a un método para realizar una corrección directa de errores en la transmisión de información de audio y, más particularmente, a un sistema y un método para realizar una corrección directa de errores en la transmisión basada en paquetes de información vocalmente codificada.

1. Codificación vocal

Las deficiencias de los métodos de corrección directa de errores (FEC) del estado de la técnica pueden apreciarse del mejor modo por una discusión introductoria de algunos conceptos de codificación vocal convencionales.

1.1 Codificación Predictiva Lineal Excitada por Código (CELP)

La figura 1 muestra un codificador 100 de análisis por síntesis predictivo lineal excitado por código (CELP) convencional. El codificador 100 incluye unidades funcionales designadas como módulo de tramado 104, módulo de análisis 106 de codificación de predicción lineal (LPC), módulo de cálculo de diferencia 118, módulo de ponderación de error 114, módulo de minimización de error 116 y módulo descodificador 102. El módulo descodificador 102 incluye a su vez un libro de código fijo 112, un filtro 110 predictor a largo plazo (LTP) y un filtro 108 de codificación predictora lineal (LPC) conectados uno a otro en relación de cascada para producir una señal sintetizada (n). El filtro LPC 108 modela la correlación a corto plazo en la voz atribuida a los tractos vocales, correspondiente a la envolvente espectral de la señal vocal. Debe representarse por:

1/A(z) =1/(1- ajz')

i «I

(Ec. 1),

en donde p denota el orden del filtro y a¡ denota los coeficientes del filtro. El filtro LTP 110, por otro lado, modela la correlación a largo plazo de la voz atribuida a las cuerdas vocales, correspondiente a la estructura espectral fina similar a periódica de la señal vocal. Por ejemplo, puede tener la forma dada por:

1/P(z) =1/(1- 'b¡z'(l>+i))

i =-)

(Ec. 2),

en donde D corresponde generalmente al período de tono de la correlación a largo plazo y b¡ pertenece a los coeficientes de ganancia a largo plazo del filtro. El libro de código fijo 112 almacena una serie de secuencias de entrada de excitación. Las secuencias proporcionan señales de excitación al filtro LTP 110 y al filtro LPC 108 y son útiles en la modelación de las características de la señal vocal que no pueden predecirse hasta cierto grado con métodos determinísticos utilizando el filtro LTP 110 y el filtro LPC 108, tal como componentes de audio dentro de música.

En funcionamiento, el módulo de tramado 104 recibe una señal vocal de entrada y la divide en tramas sucesivas (por ejemplo, de 20 ms de duración). A continuación, el módulo de análisis LPC 106 recibe y analiza una trama para generar un conjunto de coeficientes LPC. Estos coeficientes son utilizados por el filtro LPC 108 para modelar las características a corto plazo de la señal vocal correspondientes a su envolvente espectral. Puede formarse a continuación un residual LPC alimentando la señal vocal de entrada a través de un filtro inverso, incluyendo los coeficientes LPC calculados. Este residual, mostrado en la figura 2, representa un componente de la señal vocal original que permanece después de la retirada de la redundancia a corto plazo por análisis predictivo lineal. La distancia entre dos pulsos de tono se denota con L y se denomina retraso. El codificador 100 puede utilizar a continuación el residual para predecir los coeficientes a largo plazo. Estos coeficientes a largo plazo son utilizados por el filtro LTP 110 para modelar la estructura espectral fina de la señal vocal (tal como retardo de tono y ganancia de tono). Tomados conjuntamente, el filtro LTP 110 y el filtro LPC 108 forman un filtro en cascada que modela las características a largo plazo y a corto plazo de la señal vocal. Cuando se acciona por una secuencia de excitación procedente del libro de código fijo 112, el filtro en cascada genera la señal vocal sintética (n) que representa una versión reconstruida de la señal vocal original s(n).

El codificador 100 selecciona una secuencia de excitación óptima generando sucesivamente una serie de señales vocales sintéticas (n), comparando sucesivamente las señales vocales sintéticas (n) con las señales vocales originales s(n) y ajustando sucesivamente los parámetros operativos del módulo descodificador 102 para minimizar la diferencia entre (n) y s(n). Más específicamente, el módulo de cálculo de diferencia 118 forma la diferencia (es decir, la señal de error e(n)) entre la señal vocal original s(n) y la señal vocal sintética (n). Un módulo de ponderación de error 114 recibe la señal de error e(n) y genera una señal de error ponderada ew(n) sobre la base de factores de ponderación perceptuales. El módulo de minimización de error 116 utiliza un procedimiento de búsqueda para

ajustar los parámetros operativos del descodificador de voz 102 de tal manera que produzca una señal sintetizada (n) que está lo más próxima posible a la señal original s(n).

Tras llegar a una señal sintetizada óptima (n), se transfieren parámetros de codificador relevantes sobre un medio de transmisión (no mostrado) a un sitio de descodificador (no mostrado). Un descodificador en el sitio de descodificador incluye una construcción idéntica al módulo descodificador 102 del codificador 100. El descodificador utiliza los parámetros transferidos para reproducir la señal sintetizada optimizada (n) calculada en el codificador 100. Por ejemplo, el codificador 100 puede transferir índices de libro de código que representan la localización de la señal de excitación óptima en el libro de código fijo 112, junto con parámetros o coeficentes de filtro relevantes (por ejemplo, los parámetros LPC y LTP). La transferencia de los parámetros en vez de una representación más directa de la señal vocal de entrada proporciona una reducción notable en el ancho de banda requerido para transmitir información vocal.

La figura 3 muestra una modificación del codificador 100 de análisis por síntesis mostrado en la figura 1. El codificador 300 mostrado en la figura 3 incluye un módulo de tramado 304, un módulo de análisis LPC 306, un filtro LPC 308, un módulo de cálculo de diferencia 318, un módulo de ponderación de error 314, un módulo de minimización de error 316 y un libro de código fijo 312. Cada una de estas unidades corresponde generalmente a las partes con el mismo nombre mostradas en la figura 1. Sin embargo, en la figura 3, el filtro LTP 110 es sustituido por el libro de código 320 adaptativo. Además, un módulo sumador 322 añade las señales de excitación emitidas desde el libro de código adaptativo 320 y el libro de código fijado 312.

El codificador 300 funciona básicamente de la misma manera que el codificador 100 de la figura 1. Sin embargo, en el codificador 300, el libro de código adaptativo 320 modela las características a largo plazo de la señal vocal. Además, la señal de excitación aplicada al filtro LPC 308 representa una suma total de una entrada del libro de código adaptativo 320 y una entrada del libro de código fijo 312.

1.2 Codificación de Tasa Completa Reforzada GSM (GSM-EFR)

La técnica anterior proporciona numerosas implementaciones específicas del diseño CELP antes descrito. Una de tales implementaciones es el estándar de transcodificación vocal de Tasa Completa Reforzada GSM (GSM-EFR) descrito en el documento Sistema Global para Comunicaciones Móviles: Sistemas de Telecomunicaciones Celulares Digitales: Transcodificación Vocal de Tasa Completa Reforzada (EFR) (GSM 06.60), noviembre de 1996, del Instituto Europeo de Normas de Telecomunicaciones (ETSI).

El estándar GSM-EFR modela las propiedades a corto plazo de la señal vocal utilizando:

H(z) = 1/Á(z) =1/(1 + ñ¡z`)

(Ec. 3),

donde a¡ representa los parámetros de predicción lineal cuantificada. El estándar modela las características a largo plazo de la señal vocal con:

)/B(z) = 1/ ( l-gpz'T)

(Ec. 4),

donde T pertenece al retardo de tono y gp pertenece a la ganancia de tono. Un libro de código adaptativo implementa la síntesis de tono. Además, el estándar GSM-EFR utiliza un filtro de ponderación perceptual definido por:

W(*) = (A(z/,)) / (A(z/?))

(Ec. 5),

donde A(z) define el filtro LPC no cuantificado y 1 y 2 representan factores de ponderación perceptuales. Finalmente, el estándar GSM-EFR utiliza libros de código adaptativos y fijos (innovadores) para proporcionar una señal de excitación. En particular, el libro de código forma un libro de código algebraico estructurado sobre la... [Seguir leyendo]

 


Reivindicaciones:

1. Un módulo descodificador (704) para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa, que comprende:

un descodificador primario (712) para descodificar los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria;

un descodificador redundante (714) para descodificar los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, y

medios para localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y avanzando entonces desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, en donde la posición del impulso de tono localizada en la trama actual se utiliza para reducir las discontinuidades de fase.

2. Un módulo descodificador para descodificar datos de audio según la reivindicación 1, en el que los medios para localizar la posición del impulso de tono están configurados además para recibir un valor de posición de impulso de tono desde un sitio de codificación, comparar el valor recibido con la posición localizada del impulso de tono, y suavizar a continuación cualquier discrepancia de fase detectada en el curso de la trama actual.

3. Un método para descodificar datos de audio formateados en paquetes que contienen datos codificados primarios para una trama actual y datos codificados redundantes para una trama previa, que comprende:

descodificar primariamente los datos codificados primarios de los paquetes utilizando un modelo de síntesis primaria; descodificar redundantemente los datos codificados redundantes de los paquetes utilizando un modelo de síntesis redundante, cuando los datos codificados primarios no están disponibles, en donde la descodificación primaria o la descodificación redundante comprende el paso de localizar una posición de impulso de tono en la trama actual localizando la última posición de impulso conocida en la trama previa, y, a continuación, avanzar desde la última posición de impulso conocida en uno o más valores de retraso de tono para localizar la posición del impulso en la trama actual, utilizando los datos codificados redundantes al dejar de recibir los datos codificados primarios, y en donde la posición localizada del impulso de tono se utiliza para reducir las discontinuidades de fase.

4. Un método para descodificar datos de audio según la reivindicación 3, en el que el paso de localizar la posición del impulso de tono comprende además recibir un valor de posición del impulso de tono desde un sitio de codificación, comparar el valor recibido con la posición localizada del impulso de tono, y suavizar entonces cualquier discrepancia de fase detectada en el curso de la trama actual.


 

Patentes similares o relacionadas:

Aparato de comunicación inalámbrica y procedimiento de generación de señales de referencia, del 29 de Julio de 2020, de Sun Patent Trust: Un aparato de comunicación para una estación base que comprende: un transmisor, el cual, en operación, transmite, a un terminal, información […]

Procedimiento y aparato para inserción de índice de bloque de código en un sistema celular de comunicación inalámbrica, del 29 de Julio de 2020, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento de un terminal en un sistema de comunicación inalámbrica, comprendiendo el procedimiento: recibir, de una estación base, un bloque de información maestra, […]

Información de control en un sistema de comunicación inalámbrica, del 15 de Julio de 2020, de QUALCOMM INCORPORATED: Un procedimiento para enviar datos de tráfico e información de control en un sistema de comunicación inalámbrica, que comprende: realizar conformación de haces […]

Detección y comprobación de error de señalización de retroalimentación en sistemas de comunicación inalámbrica de MIMO, del 15 de Julio de 2020, de INTERDIGITAL TECHNOLOGY CORPORATION: Un método implementado en una unidad de transmisión recepción inalámbrica, WTRU, caracterizado por que el método comprende: proporcionar una pluralidad […]

Repetición de transmisiones de señales en sistemas de comunicación, del 15 de Julio de 2020, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento para que un equipo de usuario, UE, transmita una señal de acuse de recibo en un sistema de comunicación, comprendiendo el procedimiento: transmitir la señal […]

Método y dispositivo de codificación, del 15 de Julio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación, que comprende: realizar (S101), mediante un extremo de transmisión basado en un polinomio de verificación de redundancia cíclica, […]

Método, aparato y sistema para retroalimentar la decodificación de detención temprana, del 1 de Julio de 2020, de ZTE CORPORATION: Un método para retroalimentar un resultado de decodificación de la decodificación de detención temprana, caracterizado porque comprende: en un intervalo de tiempo […]

Tramas Wi-Fi que incluyen extensiones de trama, del 1 de Julio de 2020, de QUALCOMM INCORPORATED: Un procedimiento de comunicación inalámbrica realizado por un aparato, que comprende: generar una trama para activar la transmisión […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .