Aparato y método para ocultamiento de error en voz unificada con bajo retardo y codificación de audio (USAC).

Un aparato (100) para generar valores de reemplazo espectrales para una señal de audio que comprende:

una unidad

(110) de búfer para almacenar valores espectrales anteriores relacionados con una trama de señal de audio libre de errores recibida anteriormente, y

un generador (120) de trama de ocultación para generar los valores de reemplazo espectrales cuando no se ha recibido o es errónea una trama de señal de audio actual, en el que la trama de señal de audio libre de errores recibida anteriormente comprende una información del filtro, teniendo la información de filtro asociada un valor de estabilidad del filtro que indica una estabilidad de un filtro de predicción definida por la información del filtro, y en el que el generador (120) de trama de ocultamiento se adapta para generar los valores de reemplazo espectrales en base a los valores espectrales anteriores y en base al valor de estabilidad del filtro.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2012/052395.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: SCHNABEL, MICHAEL, DIETZ, MARTIN, SPERSCHNEIDER,RALPH, LECOMTE,Jérémie.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/012 (Codificación del ruido de confort o el silencio)

PDF original: ES-2539174_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Aparato y método para ocultamiento de error en voz unificada con bajo retardo y codificación de audio (USAC)

La presente invención se refiere al procesamiento de señal de audio y, en particular, a un aparato y método para el 5 ocultamiento de error en voz unificada con bajo retardo y codificación de audio (LD-USAC) .

El procesamiento de señal de audio ha avanzado en gran medida y ha crecido en importancia. En el procesamiento de señal de audio, la voz unificada con bajo retardo y codificación de audio tiene por objetivo proveer técnicas de codificación adecuadas para voz, audio y mezclas de voz y audio. Además, LD-USAC tiene por objetivo garantizar 10 una alta calidad para señales de audio codificadas. Comparado con USAC (voz unificada y codificación de audio) , el retardo en LD-USAC se reduce.

Al codificar los datos de audio, un codificador LD-USAC examina la señal de audio a codificar. El codificador LD-USAC codifica la señal de audio codificada codificando los coeficientes del filtro de predicción lineal de un filtro de 15 predicción. Dependiendo de los datos de audio a codificar por una trama de audio particular, el codificador LD-USAC decide, si ACELP (predicción lineal por excitación de código avanzada) se usa para codificar, o si los datos de audio se codifican usando TCX (excitación codificada por transformada) . Si bien ACELP usa coeficientes del filtro LP (coeficientes del filtro de predicción lineal) , índices de libro de código adaptativo e índices de libro de código algebraico y ganancias de libro de código algebraicas y adaptativas, TCX usa coeficientes del filtro LP, parámetros 20 de energía e índices de cuantización relacionados con la transformada de coseno discreta modificada (MDCT) .

Del lado del decodificador, el decodificador LD-USAC determina si se ha empleado ACELP o TCX para codificar datos de audio de una trama de señal de audio actual. El decodificador, a continuación, decodifica el cuadro de señal de audio en consecuencia. 25

Periódicamente, la transmisión de datos falla. Por ejemplo, una trama de señal de audio transmitida por un emisor llega con errores al receptor o no llega del todo o la trama se demora.

En estos casos, el ocultamiento de error es necesario para garantizar que pueden reemplazarse los datos de audio 30 perdidos o erróneos. Esto es particularmente verdadero para aplicaciones que tengan requisitos en tiempo real, ya que la solicitud de una retransmisión de la trama perdida o errónea podría infringir los requisitos de bajo retardo.

Las técnicas de ocultamiento se divulgan por el documento WO 2007/073604 A1 y por Lauber et al. "Error Concealment for Compressed Digital Audio", AES Convention, Septiembre de 2001, páginas 1-8. 35

Sin embargo, las técnicas existentes de ocultamiento usadas para otras aplicaciones de audio crean a menudo un sonido artificial provocado por artefactos sintéticos.

Por lo tanto el objetivo de la presente invención es proporcionar unos conceptos mejorados para el ocultamiento de 40 error para una trama de señal de audio. El objetivo de la presente invención se soluciona mediante un aparato de acuerdo con la reivindicación 1, mediante un método de acuerdo con la reivindicación independiente 12 y mediante un programa de computación de acuerdo con la reivindicación independiente 13.

La presente invención se basa en el hallazgo de que, mientras que los valores espectrales anteriores de una trama 45 libre de error recibida anteriormente pueden usarse para la ocultación de errores, debería realizarse una atenuación en estos valores, y la atenuación debería depender de la estabilidad de la señal. Mientras menos estable sea una señal, más rápido debería realizarse la atenuación.

Las realizaciones preferidas se proporcionarán en las reivindicaciones dependientes. 50

Las siguientes realizaciones preferidas de la presente invención se describirán con respecto a las figuras, en las que

La figura 1 ilustra un aparato para obtener valores de reemplazo espectrales para una señal de audio de acuerdo con una realización, 55

La figura 2 ilustra un aparato para obtener valores de reemplazo espectrales para una señal de audio de acuerdo con otra realización, Las figuras 3a-c ilustran la multiplicación de un factor de ganancia y los valores espectrales anteriores de acuerdo con una realización, La figura 4a ilustra la repetición de una parte de señal que comprende un inicio en un dominio de tiempo, 60

La figura 4b ilustra la repetición de una parte de señal estable en un dominio de tiempo, Las figuras 5a-b ilustran ejemplos, en los que los factores de ganancia generados se aplican en los valores espectrales de la figura 3a, de acuerdo con una realización, La figura 6 ilustra un decodificador de señal de audio de acuerdo con una realización, La figura 7 ilustra un decodificador de señal de audio de acuerdo con otra realización, y La figura 8 ilustra un decodificador de señal de audio de acuerdo con una realización adicional.

La figura 1 ilustra un aparato 100 para generar valores de reemplazo espectrales para una señal de audio. El aparato 100 comprende una unidad 110 de búfer para almacenar valores espectrales anteriores relacionados con una trama de audio libre de error recibida anteriormente. Además, el aparato 100 comprende un generador 120 de 5 trama de ocultamiento para generar valores de reemplazo espectrales, cuando no se ha recibido una trama de audio actual o es errónea. La trama de audio libre de error recibida anteriormente comprende una información del filtro, teniendo la información del filtro asociada un valor de estabilidad del filtro que indica una estabilidad de un filtro de predicción. El generador 120 de trama de ocultamiento se adapta para generar valores de reemplazo espectrales basados en los valores espectrales anteriores y en base al valor de estabilidad del filtro. 10

La trama de audio libre de errores recibida anteriormente puede, por ejemplo, comprender valores espectrales anteriores. Por ejemplo, los valores espectrales anteriores pueden estar comprendidos en la trama de audio libre de errores recibida anteriormente en una forma codificada.

O, los valores espectrales anteriores pueden, por ejemplo, ser valores que pueden haberse generado modificando los valores comprendidos en la trama de audio libre de errores recibida anteriormente, por ejemplo, los valores espectrales de la señal de audio. Por ejemplo, los valores comprendidos en la trama de audio libre de errores recibida anteriormente pueden haberse modificado multiplicando cada uno de ellos con un factor de ganancia para obtener los valores espectrales anteriores. 20

O, los valores espectrales anteriores pueden, por ejemplo, ser valores que pueden haberse generado en base a los valores comprendidos en la trama de audio libre de errores recibida anteriormente. Por ejemplo, cada uno de los valores espectrales anteriores puede haberse generado empleando al menos algunos de los valores comprendidos en la trama de audio libre de errores recibida anteriormente, de tal manera que cada uno de los valores espectrales 25 anteriores depende de al menos algunos de los valores comprendidos en la trama de audio libre de errores recibida anteriormente. Por ejemplo, los valores comprendidos en la trama de audio libre de errores recibida anteriormente pueden haberse usado para generar una señal intermedia. Por ejemplo, los valores espectrales de la señal intermedia generada pueden, a continuación, considerarse como valores espectrales anteriores relacionados con la trama de audio libre de errores recibida anteriormente. 30

La flecha 105 indica que los valores espectrales anteriores se almacenan en la unidad 110 de búfer.

El generador 120 de trama de... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100) para generar valores de reemplazo espectrales para una señal de audio que comprende:

una unidad (110) de búfer para almacenar valores espectrales anteriores relacionados con una trama de señal 5 de audio libre de errores recibida anteriormente, y un generador (120) de trama de ocultación para generar los valores de reemplazo espectrales cuando no se ha recibido o es errónea una trama de señal de audio actual, en el que la trama de señal de audio libre de errores recibida anteriormente comprende una información del filtro, teniendo la información de filtro asociada un valor de estabilidad del filtro que indica una estabilidad de un filtro de predicción definida por la información del filtro, y en 10 el que el generador (120) de trama de ocultamiento se adapta para generar los valores de reemplazo espectrales en base a los valores espectrales anteriores y en base al valor de estabilidad del filtro.

2. Un aparato (100) de acuerdo con la reivindicación 1, en el que el generador (120) de trama de ocultamiento está adaptado para generar los valores de reemplazo espectrales invirtiendo de forma aleatoria el signo de los valores 15 espectrales anteriores.

3. Un aparato (100) de acuerdo con la reivindicación 1 o 2, en el que el generador (120) de trama de ocultamiento está configurado para generar los valores de reemplazo espectrales multiplicando cada uno de los valores espectrales anteriores por un primer factor de ganancia cuando el valor de estabilidad del filtro tiene un primer valor, 20 y multiplicando cada uno de los valores espectrales anteriores por un segundo factor de ganancia, que es más pequeño que el primer factor de ganancia, cuando el valor de estabilidad del filtro tiene un segundo valor que es más pequeño que el primer valor.

4. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que la trama de señal de audio libre de 25 errores recibida anteriormente comprende unos primeros coeficientes de filtro predictivos del filtro de predicción, en el que una trama predecesora de la trama de señal de audio libre de errores recibida anteriormente comprende unos segundos coeficientes de filtro predictivos, y en el que el valor de estabilidad del filtro depende de los primeros coeficientes de filtro predictivos y de los segundos coeficientes de filtro predictivos.

5. Un aparato de acuerdo con la reivindicación 4, en el que el valor de estabilidad del filtro depende de una medida LSFdist de distancia, y en el que la medida LSFdist de distancia se define por la fórmula:

uipiidistífLSF02) () (

en la que u+1 especifica un número total de los primeros coeficientes de filtro de predicción de la trama de señal de audio libre de errores recibida anteriormente, y en la que u+1 también especifica un número total de los segundos coeficientes de filtro de predicción de la trama predecesora de la trama de señal de audio libre de errores recibida anteriormente, en la que fi especifica el i-ésimo coeficiente de filtro de los primeros coeficientes de filtro de predicción y en la que fi (p) especifica el i-ésimo coeficiente de filtro de los segundos coeficientes de filtro de predicción. 40

6. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el que el generador (120) de trama de ocultamiento está adaptado para generar adicionalmente los valores de reemplazo espectrales en base a la información de clase de trama relacionada con la trama de señal de audio libre de errores recibida anteriormente, en el que la información de clase de trama indica que la trama de señal de audio libre de errores recibida anteriormente 45 se clasifica como "inicio artificial", "inicio", "transición con voz", "transición sin voz", "sin voz" o "con voz".

7. Un aparato (100) de acuerdo con una de las reivindicaciones anteriores, en el que el generador (120) de trama de ocultamiento está adaptado para generar adicionalmente los valores de reemplazo espectrales en base a un número de tramas consecutivas que son erróneas, desde que ha llegado una última trama de señal de audio libre de errores 50 al receptor, en el que no han llegado otras tramas de señal de audio libres de errores al receptor desde que ha llegado la última trama de señal de audio libre de errores al receptor.

8. Un aparato (100) de acuerdo con la reivindicación 7, en el que el generador (120) de trama de ocultamiento está adaptado para calcular un factor de atenuación, en base 55 al valor de estabilidad del filtro y en base al número de tramas consecutivas que son erróneas, y en el que el generador (120) de trama de ocultamiento está adaptado para generar los valores de reemplazo espectrales multiplicando el factor de atenuación por al menos algunos de los valores espectrales anteriores, o por al menos algunos valores de un grupo de valores intermedios, en el que cada uno de los valores intermedios depende de al menos uno de los valores espectrales anteriores. 60

9. Un decodificador de señal de audio que comprende:

un aparato (610, 710, 810) para decodificar los valores de señal de audio espectrales, y un aparato (620, 740, 820) para generar valores de reemplazo espectrales de acuerdo con una de las reivindicaciones 1 a 8, en el que el aparato (610, 710, 810) para decodificar los valores de señal de audio espectrales está adaptado 5 para decodificar los valores espectrales de una trama de señal de audio libre de errores recibida anteriormente de una señal de audio como los valores de señal de audio espectrales, en el que el aparato (610, 710, 810) para decodificar los valores de señal de audio espectrales está adaptado además para almacenar los valores espectrales de la trama de señal de audio libre de errores recibida anteriormente en una unidad de búfer del aparato (620, 740, 820) para generar los valores de reemplazo espectrales, y 10

en el que el aparato (620, 740, 820) para generar valores de reemplazo espectrales está adaptado para generar los valores de reemplazo espectrales en base a los valores espectrales almacenados en la unidad de búfer, cuando no se ha recibido o es errónea una trama de señal de audio actual.

10. Un decodificador de señal de audio de acuerdo con la reivindicación 9, 15

en el que el aparato para decodificar es una unidad (710) de decodificación para generar, como valores espectrales de la trama de señal de audio libre de errores recibida anteriormente, unos primeros valores espectrales intermedios en base a una trama de señal de audio libre de errores recibida, en el que el aparato (740) de acuerdo con una de las reivindicaciones 1 a 8 está adaptado para generar los valores de reemplazo espectrales cuando no se ha recibido o es errónea una trama de señal de audio actual, y 20

en el que el decodificador de señal de audio comprende además:

una unidad (720) de modelado temporal del ruido para realizar un modelado temporal del ruido en los primeros valores espectrales intermedios para obtener unos segundos valores espectrales intermedios, un calculador (730) de ganancia de predicción para calcular una ganancia de predicción del modelado temporal 25 del ruido que depende de los primeros valores espectrales intermedios y que depende de los segundos valores espectrales intermedios, y un selector (750) de valores para almacenar los primeros valores espectrales intermedios en la unidad (745) de búfer del aparato (740) para generar los valores de reemplazo espectrales, si la ganancia de predicción es mayor que o igual a un valor umbral, o para almacenar los segundos valores espectrales intermedios en la unidad de 30 búfer del aparato para generar los valores de reemplazo espectrales, si la ganancia de predicción es menor que el valor umbral.

11. Un decodificador de señal de audio que depende de la reivindicación 9, en el que el decodificador de señal de audio comprende además un módulo (830) de procesamiento para procesar 35 los valores de señal de audio espectrales realizando el modelado temporal del ruido, que aplica el relleno de ruido o que aplica una ganancia global, para obtener los valores de audio espectrales de la señal de audio decodificada, y en el que el aparato (820) para generar los valores de reemplazo espectrales está adaptado para generar los valores de reemplazo espectrales y para suministrarlos en el módulo (830) de procesamiento, cuando no se ha recibido o es errónea una trama actual. 40

12. Un método para generar valores de reemplazo espectrales para una señal de audio que comprende:

almacenar los valores espectrales anteriores relacionados con una trama de señal de audio libre de errores recibida anteriormente, y 45

generar los valores de reemplazo espectrales cuando no se ha recibido o es errónea una trama de señal de audio actual, en el que la trama de señal de audio libre de errores recibida anteriormente comprende una información de filtro, teniendo la información de filtro asociada un valor de estabilidad del filtro que indica una estabilidad de un filtro de predicción definida por la información de filtro, en el que los valores de reemplazo espectrales se generan en base a los valores espectrales anteriores y en base al valor de estabilidad del filtro. 50

13. Un programa de computación para implementar el método de la reivindicación 12, cuando el programa de computación se ejecuta por un procesador de computadora o de señal.