Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo.

Un decodificador de señal de audio (200;350) que provee una representación de señal de audio decodificada

(212) teniendo en cuenta una representación de señal de audio codificada (112, 210) que comprende información de frecuencia de muestreo (218), información de distorsión en el tiempo codificada (216, índice(i) dt)) y una representación de espectro codificada (214, datos_espectrales_ar), el decodificador de señal de audio comprende: Un calculador de distorsión en el tiempo (230, 604) configurado para mapear la información de distorsión en el tiempo codificada (216, índice(i) dt)) en una información de distorsión en el tiempo decodificada (232, tbl (índice(i)_valor_ distorsión), Prel).

Donde el calculador de distorsión en el tiempo se configura para adaptar una regla de mapeo para mapear palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) que describen la información de distorsión en el tiempo decodificada (232) dependiendo de la información de frecuencia de muestreo (218); y

Un decodificador de distorsión (240) configurado para proveer una representación de señal de audio decodificada (212) teniendo en cuenta la representación de espectro codificada (214, datos()- espectrales_ar) y dependiendo de la información de distorsión en el tiempo decodificada (232).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/053538.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GEIGER, RALF, VILLEMOES, LARS, EDLER, BERND, DISCH,SASCHA, BAYER,Stefan, BÄCKSTRÖM,TOM.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/90 (Detección del tono de una señal de habla)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/022 (Bloqueo, p. ej. agrupación de muestras en el tiempo; Elección de las ventanas de análisis; Factorización de interferencias)

PDF original: ES-2458354_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo Antecedentes de la invención [0001] Las realizaciones de acuerdo con la invención se relacionan con un decodificador de señal de audio. Otras realizaciones de acuerdo con la invención se relacionan con un codificador de señal de audio. Otras realizaciones de acuerdo con la invención se relacionan con un procedimiento para decodificar una señal de audio, con un procedimiento para codificar una señal de audio y con un programa de ordenador.

Algunas realizaciones de acuerdo con la invención se relacionan con una cuantización de variación de tono que depende de la frecuencia de muestreo.

A continuación se enuncia una breve introducción en el campo de la codificación de audio de distorsión en el tiempo, cuyos conceptos podrán aplicarse junto con algunas realizaciones de la invención.

En los últimos años, se han desarrollado técnicas para transformar una señal de audio a una representación en dominio de frecuencia, y para codificar de modo eficiente la representación en dominio de frecuencia, por ejemplo, teniendo en cuenta valores umbrales de máscara perceptual. Este concepto de codificación de señal de audio es particularmente eficiente si la longitud de bloque, para la cual se transmite un grupo de coeficientes espectrales codificados, es largo y si sólo un número comparativamente pequeño de coeficientes espectrales se encuentran sobre el valor umbral de máscara global mientras un número grande de coeficientes espectrales se encuentran cerca o debajo del valor umbral de máscara global podrán ser abandonados (o codificados con una longitud mínima de código) . Un espectro en el cual se mantiene dicha condición se denomina a veces espectro dimensional.

Por ejemplo, las transformadas solapadas moduladas basadas en coseno o seno se usan a menudo en aplicaciones para la codificación de fuente debido a sus propiedades de compactado de energía. Es decir, para tonos armónicos con frecuencias fundamentales constantes (tono) , concentran la energía de señal a una baja cantidad de componentes espectrales (sub-bandas) , que da por resultado una representación de señal eficiente.

Generalmente, el tono (fundamental) de una señal se entiende como frecuencia dominante más baja que se distingue del espectro de la señal. En el modelo de discurso común, el tono es la frecuencia de la señal de excitación modulada por la garganta humana. Si sólo hubiere una sola frecuencia fundamental presente, el espectro sería extremadamente simple, comprendiendo la frecuencia fundamental y los sobretonos solamente. Dicho espectro podría ser codificado muy eficientemente. Para señales con tono variable, sin embargo, la energía correspondiente a cada componente armónico se expande sobre varios coeficientes de transformadas reduciendo así la eficiencia en la codificación.

Para solucionar la reducción de la eficiencia en la codificación, la señal de audio a codificar es re-muestreada en forma efectiva en una grilla temporal no uniforme. En el procesamiento siguiente, las posiciones de muestreo obtenidas por el re-muestreo no uniforme. Se procesan como si representaran valores en una grilla temporal uniforme. Esta operación se denota comúnmente con la frase “distorsión de tiempo”. Los tiempos de muestreo podrán elegirse en forma ventajosa dependiendo de la variación temporal del tono, de modo que la variación del tono en la versión de tiempo distorsionado de la señal de audio es menor a la variación del tono en la versión original de la señal de audio (antes de la distorsión en el tiempo) . Luego de la distorsión en el tiempo de la señal de audio, la versión de tiempo distorsionado de la señal de audio se convierte en dominio de frecuencia. La distorsión en el tiempo que depende del tono hace que la representación de dominio de frecuencia de la señal distorsionada en el tiempo exhiba típicamente una compresión de energía en un número mucho menor de componentes espectrales que la representación de dominio de frecuencia del original (señal de audio no distorsionada en el tiempo) .

Del lado del decodificador la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo se convierte en dominio de tiempo, de modo que la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo queda disponible del lado del decodificador. Sin embargo, en la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruido del lado del decodificador, las variaciones del tono original de la señal de audio ingresada del lado del codificador no están incluidas. En consecuencia, se aplica otra distorsión en el tiempo al remuestrear la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruida del lado del decodificador.

Para obtener una buena reconstrucción de la señal de audio ingresada del lado del codificador en el decodificador, es deseable que la distorsión en el tiempo del lado del decodificador sea al menos aproximadamente la operación inversa con respecto a la distorsión en el tiempo del lado del codificador. Para obtener una distorsión apropiada, es deseable contar con información en el decodificador, que permita el ajuste de la distorsión en el tiempo del lado del decodificador.

El documento US 2007/0100607 describe el distorsionador de tiempo en el lado descodificador, basado en el parámetro de distorsión transmitido.

Como típicamente se necesita para transferir dicha información desde el codificador de la señal de audio al decodificador de la señal de audio, es deseable mantener la velocidad de bits necesaria para esta transmisión baja permitiendo a la vez una reconstrucción confiable de la información de distorsión en el tiempo necesaria del lado del decodificador.

Teniendo en cuenta esta situación, existe la necesidad de obtener un concepto que permita una reconstrucción confiable de la información de distorsión en el tiempo teniendo en cuenta una representación codificada de modo eficiente de la información de distorsión en el tiempo.

Síntesis de la Invención [0013] Una realización de acuerdo con la invención crea un decodificador de audio que provee una representación de señal de audio decodificada teniendo en cuenta una señal de audio codificada que comprende información de frecuencia de muestreo, información de distorsión en el tiempo codificada y una representación de espectro codificada. El decodificador de la señal de audio comprende un calculador de distorsión en el tiempo (que por ejemplo podrá tomar la función de decodificador de distorsión en el tiempo) y un decodificador de distorsión. El calculador de distorsión en el tiempo mapea la información de distorsión en el tiempo codificada en información de distorsión en el tiempo decodificada. El calculador de distorsión en el tiempo adapta una regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados que describen la información de distorsión en el tiempo decodificada dependiendo de la información de frecuencia de muestreo. El decodificador de distorsión provee la información de distorsión en el tiempo decodificada teniendo en cuenta la representación de espectro codificada y dependiendo de la información de distorsión en el tiempo decodificada.

Esta realización de acuerdo con la invención se basa en el concepto que una distorsión en el tiempo (que por ejemplo, se describe por un contorno de distorsión en el tiempo) puede ser eficientemente... [Seguir leyendo]

 


Reivindicaciones:

1. Un decodificador de señal de audio (200;350) que provee una representación de señal de audio decodificada (212) teniendo en cuenta una representación de señal de audio codificada (112, 210) que comprende información de frecuencia de muestreo (218) , información de distorsión en el tiempo codificada (216, índice (i) dt) ) y una representación de espectro codificada (214, datos_espectrales_ar) , el decodificador de señal de audio comprende:

Un calculador de distorsión en el tiempo (230, 604) configurado para mapear la información de distorsión en el tiempo codificada (216, índice (i) dt) ) en una información de distorsión en el tiempo decodificada (232, tbl (índice (i) _valor_ distorsión) , Prel) . Donde el calculador de distorsión en el tiempo se configura para adaptar una regla de mapeo para mapear palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) que describen la información de distorsión en el tiempo decodificada (232) dependiendo de la información de frecuencia de muestreo (218) ; y Un decodificador de distorsión (240) configurado para proveer una representación de señal de audio decodificada (212) teniendo en cuenta la representación de espectro codificada (214, datos () espectrales_ar) y dependiendo de la información de distorsión en el tiempo decodificada (232) .

2. El decodificador de la señal de audio de acuerdo con la reivindicación 1, donde las palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) describen una evolución temporal del contorno de distorsión en el tiempo (contorno () _tiempo) y Donde el calculador de distorsión en el tiempo (230, 604) se configura para evaluar un número predeterminado (nodos_dt_núm.) de palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) para un cuadro de audio de una señal de audio codificada representada por la representación de espectro codificada (214, datos () -espectrales_ar) donde el número predeterminado de palabras codificadas es independiente de la frecuencia de muestreo de la señal de audio codificada.

3. El decodificador de la señal de audio de acuerdo con la reivindicación 1 o 2, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un rango de valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) sobre los cuales se mapean palabras codificadas (índice, índice (i) dt) de un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada (216) , es mayor para una primera frecuencia de muestreo que para una segunda frecuencia de muestreo siempre que la primera frecuencia de muestreo sea menor que la segunda frecuencia de muestreo.

4. El decodificador de la señal de audio de acuerdo con la reivindicación 3, donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) son valores del contorno de distorsión en el tiempo que representan valores del contorno de distorsión en el tiempo o valores de variación del contorno e distorsión en el tiempo que representan cambio de valores absolutos o relativos de un contorno de distorsión en el tiempo (contorno () _tiempo) .

5. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 4, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un cambio máximo de tono sobre un número dado de muestras de una señal de audio representada por la representación de señal de audio codificada (112, 210) , que se representa por un grupo dado de palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) es mayor para una primera frecuencia de muestreo que para una segunda frecuencia de muestreo, siempre que la primera frecuencia de muestreo sea menor a la segunda frecuencia de muestreo.

6. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 5, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un cambio máximo de tono sobre un período de tiempo dado, representado por un grupo dado de palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) en una primera frecuencia de muestreo, difiere del cambio máximo de tono sobre un período de tiempo dado, representado por el grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada en una segunda frecuencia de muestreo, no mayor a un 10% para una primera frecuencia de muestreo y segunda frecuencia de muestreo que difiere en al menos un 30%.

7. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 6, donde el calculador de distorsión en el tiempo (230) se configura para usar diferentes tablas de mapeo (480, 484; 480, 486) para mapear palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) dependiendo de la información de frecuencia de muestreo (218) .

8. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 6, donde el calculador de distorsión en el tiempo (230) se configura para adaptar valores de mapeo de referencia (494) , que describen valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) asociados con diferentes palabras codificadas

(índice, índice (i) dt 490) de la información de distorsión en el tiempo codificada (216) para una frecuencia de muestreo de referencia (fs, ref) , a una frecuencia de muestreo real (fs) diferente a la frecuencia de muestreo de referencia (fs) , para obtener valores de mapeo adaptados (496) .

9. El decodificador de la señal de audio de acuerdo con la reivindicación 8 donde el calculador de distorsión en el tiempo se configura para ajustar a escala una porción de los valores de mapeo de referencia (494) , que describe una distorsión en el tiempo, dependiendo de un índice entre la frecuencia de muestreo real (fs) , y la frecuencia de muestreo de referencia (fs, ref) .

10. El decodificador de la señal de audio de acuerdo con la reivindicación 9 donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) describen una variación del contorno de distorsión en el tiempo sobre un número predeterminado de muestras de la señal de audio codificada representada por la representación de señal de audio codificada (210) , y Donde el decodificador de señal de audio comprende un calculador de posición de muestreo, donde el calculador de posición de muestreo se configura para combinar una pluralidad de valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) , que representan una variación del contorno de distorsión en el tiempo, para derivar un valor de nodo del contorno de distorsión en el tiempo (valores () _nodo_distorsión) , de modo que una desviación de los valores de nodo del contorno de distorsión en el tiempo desde un valor de nodo de distorsión en el tiempo de referencia es mayor a una desviación representada por un solo valor de distorsión en el tiempo decodificado (tbl (índice_dt) _valor_ distorsión) , Prel) .

11. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 10 donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , Prel) describen un cambio relativo de un contorno de distorsión en el tiempo sobre un número predeterminado de muestras de la señal de audio codificada representada por la representación de señal de audio codificada (210) , y Donde el decodificador de la señal de audio comprende un calculador de posición de muestreo, donde el calculador de posición de muestreo se configura para derivar una información del contorno de distorsión en el tiempo distorsión en el tiempo desde los valores de distorsión en el tiempo decodificados.

12. El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 11, donde el decodificador de la señal de audio comprende un calculador de posición de muestreo (240k) , donde el calculador de posición de muestreo se configura para computar puntos de soporte (valores () _nodo_distorsión) de un contorno de distorsión en el tiempo teniendo en cuenta los valores de distorsión en el tiempo decodificados (tbl (índice_dt) _valor_ distorsión) , y Donde el calculador de posición de muestreo se configura para interpolar entre los puntos de soporte, para obtener el contorno de distorsión en el tiempo (contorno () _tiempo) , Y donde un número de valores de distorsión en el tiempo decodificados por cuadro de audio es independiente de la frecuencia de muestreo.

13. Un codificador de señal de audio (100, 300) para proveer una representación codificada (112) de una señal de audio (110) , el codificador de señal de audio comprende:

Un codificador del contorno de distorsión en el tiempo (130) configurado para mapear valores de distorsión en el tiempo (prel) que describen el contorno de distorsión en el tiempo en información de distorsión en el tiempo codificada (132) , Donde el codificador del contorno de distorsión en el tiempo (130) se configura para adaptar una regla de mapeo (134) para mapear los valores de distorsión en el tiempo (prel) que describen el contorno de distorsión en el tiempo en palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (132) dependiendo de la frecuencia de muestreo (fs) de la señal de audio (110) ; y Un codificador de señal de distorsión en el tiempo (140) , configurado para obtener una representación codificada (142) de un espectro de la señal de audio (110) , teniendo en cuenta una distorsión en el tiempo descripta por el contorno de distorsión en el tiempo (122) , Donde la representación codificada (112) de la señal de audio (110) comprende las palabras codificadas (índice, índice (i) dt) de la información de distorsión en el tiempo codificada (132) , la representación codificada (142) del espectro y una información de frecuencia de muestreo (152) que describe la frecuencia de muestreo.

14. Un procedimiento para proveer una representación de señal de audio decodificada teniendo en cuenta una representación de señal de audio codificada que comprende información de frecuencia de muestreo, información de una distorsión en el tiempo codificada y una representación de espectro codificada, el procedimiento comprende:

Mapear la información de distorsión en el tiempo codificada en una información de distorsión en el tiempo decodificada, donde una regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados que describen la información de distorsión en el tiempo decodificada se adapta dependiendo de la información de frecuencia de muestreo, y Proveer la representación de señal de audio decodificada teniendo en cuenta una representación de espectro codificada dependiendo de la información de distorsión en el tiempo decodificada.

15. Un procedimiento para proveer una representación codificada de una señal de audio, el procedimiento comprende:

Mapear valores de distorsión en el tiempo que describen un contorno de distorsión en el tiempo en información de distorsión en el tiempo codificada, Donde una regla de mapeo para mapear valores de distorsión en el tiempo que describen un contorno de distorsión en el tiempo en palabras codificadas de la información de distorsión en el tiempo codificada se adapta dependiendo de la frecuencia de muestreo de la señal de audio;

Obtener una representación codificada de un espectro de la señal de audio, teniendo en cuenta una distorsión en el tiempo descripta por la información del contorno de distorsión en el tiempo; Donde la representación codificada de la señal de audio comprende las palabras codificadas de la información de distorsión en el tiempo codificada, la representación codificada del espectro e información de la frecuencia de muestreo que describe la frecuencia de muestreo.

16. Un programa de ordenador para aplicar el procedimiento de acuerdo con la reivindicación 14 o 15 cuando el programa de ordenador opera en una computadora.