Aparato y procedimiento para generar una señal de audio de alta frecuencia usando sobremuestreo adaptativo.

Un aparato para generar una señal de audio de alta frecuencia (18), que comprende:

un analizador

(12) para analizar una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene una información de componente transitorio;

un conversor espectral (14) para convertir la señal de entrada en una representación espectral de entrada (11);

un procesador espectral (13) para procesar la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y un conversor de tiempo (17) para convertir la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que

el conversor espectral (14) o el conversor de tiempo (17) pueden ser controlados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de la señal de entrada que tiene asociada la información de componente transitorio y para no llevar a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o para llevar a cabo un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con la primera porción de la señal de entrada, y el procesador espectral (13) está configurado para calcular un valor para una frecuencia mayor mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/057130.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: VILLEMOES, LARS, EKSTRAND, PER, DISCH,SASCHA, NAGEL,Frederik, WILDE,STEFAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/038 (utilizando técnicas de extensión de banda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/025 (Detección de transitorios o accesos para la conmutación de la resolución de tiempo y frecuencia)

PDF original: ES-2461172_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

El presente invento se refiere a codificación de señales de audio, y en particular a procedimientos de reconstrucción de alta frecuencia incluyendo un medio de transposición de dominio de la frecuencia tal como un medio de transposición armónica.

En el arte previo hay varios procedimientos para reconstrucción de alta frecuencia usando transposición armónica, o estiramiento de tiempo o procedimiento similar. Un procedimiento usado se basa en vocoders (codificadores de voz) de fase. Estos operan bajo el principio de hacer un análisis de frecuencia con suficientemente alta resolución de frecuencia, y la modificación de señal en el dominio de la frecuencia antes de sintetizar la señal. El estiramiento de tiempo o transposición depende de la combinación de ventana de análisis, tranco de ventana de análisis, ventana de síntesis, tranco de ventana de síntesis, así como también ajustes de fase de la señal analizada.

Un problema que inevitablemente existe con estos procedimientos es la contradicción entre la necesidad de resolución de frecuencia a fin de obtener una transposición de alta calidad para sonidos estacionarios, y la respuesta transitoria del sistema para sonidos de componentes transitorios.

Un algoritmo que emplea unos vocoders de fase, como se describe, por ejemplo, en M. Puckette. Vocoder de fase sincronizada. Congreso IEEE ASSP sobre Aplicaciones de Procesamiento de Señales en Audio y Acústica. (Phase–locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics) , Mohonk 1995.", A. Röbel, "Detección y preservación de componentes transitorios en el vocoder de fase." ("Transient detection and preservation in the phase vocoder, ") citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M.:

"Modificación mejorada de escala de tiempo de vocoder de fase de audio (“Improved phase vocoder timescale modification of audio") , IEEE Trans, sobre procesamiento de voz y audio (IEEE Trans. Speech and Audio Processing) , vol. 7, no. 3, pp. 323—332 y Patente de Estados Unidos Nº 6549884 Laroche, J. & Dolson, M.: Corrimiento de tono de vocoder de fase para la generación de parche. (Phase–vocoder pitch–shifting for the patch generation) , ha sido presentada en Frederik Nagel, Sascha Disch, "Un procedimiento de extensión de ancho de banda para codificadores–decodificadores de audio (“A harmonic bandwidth extension method for audio codecs”) , ICASSP Congreso Internacional sobre Procesamiento de Acústica, Voz y Señal. (ICASSP International Conference on Acoustics, Speech and Signal Processing) , IEEE CNF, Taipei, Taiwan, abril de 2009. Sin embargo, este procedimiento denominado " extensión de ancho de banda armónica" (HBE) tiende a degradaciones de calidad de componentes transitorios contenidos en la señal de audio como se describe en Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "Un procedimiento de extensión de ancho de banda impulsado por vocoder de fase con un manejo novedoso de componente transitorio para codificadores–decodificadores de audio" (“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs, ”) en el 116º Congreso de AES, Munich, Alemania, mayo de 2009, ya que no se garantiza que se preserve una coherencia vertical sobre las sub–bandas en el algoritmo de vocoder de fase estándar y, más aún, se debe realizar el re–cálculo de las fases de la transformación discreta de Fourier (DFT) sobre bloques de tiempo aislados de una transformada asumiendo implícitamente una periodicidad circular.

También se conoce de la solicitud de patente EP2234103 A1 un procedimiento de manipulación de una señal de audio que utiliza sobremuestreo y modificación de fase.

Es conocido que se pueden observar específicamente dos tipos de artefactos debido al procesamiento de vocoder de fase basado en bloques. Estos son, en particular, una dispersión de la forma de onda y una aliasing en el tiempo debido a efectos de convolución cíclica en el tiempo de la señal debido a la aplicación de las fases nuevamente calculados.

En otras palabras, debido a la aplicación de una modificación de fase sobre los valores espectrales de la señal de audio en el algoritmo de BWE, un componente transitorio contendido en un bloque de la señal de audio puede ser envuelto alrededor del bloque, es decir es convuelto cíclicamente de vuelta dentro del bloque. Eso da como resultado un aliasing en el tiempo y, en consecuencia, conduce a una degradación de la señal de audio.

Por lo tanto, se deben emplear procedimientos para un tratamiento especial de las partes de señal que contienen componentes transitorios. Sin embargo, la complejidad computacional es un asunto serio, debido a que especialmente el algoritmo de BWE es realizado sobre el lado del decodificador de una cadena de codificador– decodificador. Por ende, medidas contra la degradación de señal de audio recién mencionada preferiblemente no deberían venir a costo de una complejidad computacional ampliamente incrementada.

Es el objetivo del presente invento proveer un concepto eficiente y de alta calidad para generar una señal de audio de alta frecuencia.

Este objetivo se alcanza con un aparato para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 1, un procedimiento para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 13 o un programa de computadora de acuerdo con la reivindicación 14.

El presente invento utiliza la característica que los componentes transitorios se tratan por separado, es decir de manera diferente que las porciones no transitorias de la señal de audio. A estos efectos, un aparato para generar una señal de audio de alta frecuencia comprende un analizador para analizar la señal de entrada para determinar una información de componente transitorio en el cual se asocia una información de componente transitorio con una primera porción de la señal de entrada y una segunda porción posterior de la señal de entrada no contienen la información de componente transitorio. El analizador puede analizar realmente la señal de audio, es decir, puede analizar la distribución de energía o un cambio en la energía para determinar de este modo la porción de componente transitorio. Esto requiere una cierta vista preliminar de modo que, por ejemplo se analiza una señal de salida de un codificador de núcleo a un determinado tiempo por adelantado de modo que el resultado del análisis puede ser usado para generar la señal de audio de alta frecuencia sobre la base de la señal de salida del codificador de núcleo. Una alternativa diferente es llevar a cabo una detección de componente transitorio sobre el lado del codificador y asociar una cierta información lateral tal como un cierto bit en una transmisión de bits a una porción de tiempo de la señal que tiene la característica del componente transitorio. Entonces, el analizador está configurado para extraer el bit de la información de componente transitorio desde la transmisión de bits a fin de determinar si una cierta porción de esta señal de audio de entrada es un componente transitorio o no. El aparato para generar una señal de audio de alta frecuencia comprende además un conversor espectral para convertir la señal de entrada en la representación espectral de entrada. La reconstrucción de alta frecuencia se lleva a cabo dentro del dominio de los bancos de filtro, es decir a continuación de la conversión espectral usando el conversor espectral. A estos efectos, un procesador espectral procesa la representación espectral de entrada para generar una representación espectral procesada que comprende valores de frecuencias más altas que la representación espectral... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato para generar una señal de audio de alta frecuencia (18) , que comprende:

un analizador (12) para analizar una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene una información de componente transitorio; un conversor espectral (14) para convertir la señal de entrada en una representación espectral de entrada (11) ; un procesador espectral (13) para procesar la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y un conversor de tiempo (17) para convertir la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que el conversor espectral (14) o el conversor de tiempo (17) pueden ser controlados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de la señal de entrada que tiene asociada la información de componente transitorio y para no llevar a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o para llevar a cabo un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con la primera porción de la señal de entrada, y el procesador espectral (13) está configurado para calcular un valor para una frecuencia mayor mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

2. El aparato de acuerdo con la reivindicación 1, en el cual el conversor espectral (14) está configurado para llevar a cabo el sobremuestreo en el dominio de la frecuencia aplicando una longitud de transformación más larga para la primera porción que tiene asociada la información de componente transitorio en comparación con la transformación aplicada por el conversor espectral (14) para la segunda porción, en el cual la transformación más larga comprende datos de rellenado.

3. El aparato de acuerdo con la reivindicación 1, en el cual el conversor espectral (14) comprende:

un medio de ventaneo (14a) para ventanear cuadros superpuestos de la señal de audio de entrada, un cuadro que tiene una cantidad de muestras de ventana, y un procesador de tiempo a frecuencia (14b) para convertir el cuadro dentro del dominio de la frecuencia, en el cual el procesador de tiempo a frecuencia (14b) está configurado para aumentar la cantidad de muestras ventaneadas rellenando los valores adicionales delante de una primera muestra ventaneada de la cantidad de muestras de entrada para la primera porción de la señal de entrada y para no rellenar valores adicionales o para rellenar una cantidad más pequeña de valores adicionales para la segunda porción de la señal de entrada.

4. El aparato de acuerdo con cualquiera de las reivindicaciones 2 o 3, en el cual los datos de rellenado son datos de rellenado con ceros.

5. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el conversor espectral (14) comprende un núcleo de transformación que tiene una longitud de transformación que puede ser controlada, y se aumenta la longitud de transformación para la primera porción con respecto a la longitud de transformación para la segunda porción.

6. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el conversor espectral está configurado para proveer una cantidad de líneas de frecuencia sucesivas,

en el cual el procesador está configurado para calcular fases para líneas de frecuencia que tienen una frecuencia más alta modificando las fases o amplitudes de la cantidad de líneas de frecuencia sucesivas para obtener el espectro procesado, y

en el cual el conversor de tiempo está configurado para llevar a cabo la conversión de modo que la tasa de muestreo de conversor de tiempo sea más alta que la tasa de muestreo de la señal de audio de entrada.

7. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral (13) está configurado para llevar a cabo una transposición que usa un factor de transposición procesando una porción espectral de la representación espectral que comienza con un cierto índice de frecuencia, y

en el cual el cierto índice de frecuencia, es más alto para la primera porción de la señal de entrada y es más bajo para la segunda porción de la señal de entrada.

8. El aparato de acuerdo con la reivindicación 7, en el cual el conversor espectral (14) o el conversor de tiempo (17) son configurados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de entrada usando un factor de sobremuestreo, y

en el cual el procesador espectral (13) está configurado para multiplicar el cierto índice de frecuencia con el factor de sobremuestreo usado para la primera porción de la señal de entrada.

9. El aparato de acuerdo con la reivindicación 9, en el cual el procesador espectral está configurado para calcular una fase interpolando fases (33) de los dos valores de frecuencia adyacentes, o

para calcular una amplitud (34) interpolando amplitudes de los dos valores de frecuencia adyacentes.

10. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral está configurado para llevar a cabo una transposición que usa un factor de transposición, en el cual (32) el procesador espectral (13) es configurado, para los casos en los cuales una frecuencia de destino no es un múltiple de un número entero del factor de transposición o no es un múltiple de un número entero del factor de transposición dividido por un factor de aumento de la tasa de muestreo provisto por el conversor de tiempo (17) , para calcular la fase para la frecuencia de destino usando las fases de por lo menos dos valores espectrales adyacentes, cada una multiplicada por un factor de fase individual, en el cual los factores de fase son determinados de modo que una suma de los factores de fase sea igual al factor de transposición.

11. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral está configurado para llevar a cabo una transposición que usa un factor de transposición, en el cual el procesador espectral es configurado, para los casos en los cuales una frecuencia de destino no es un múltiple de un número entero del factor de transposición o no es un múltiple de un número entero del factor de transposición dividido por un factor de aumento de la tasa de muestreo provisto por el conversor de tiempo (17) , para calcular la fase para la frecuencia de destino usando las fases de por lo menos dos valores espectrales adyacentes, cada una multiplicada por un factor de fase individual, en el cual el factor de fase es determinado de modo que el factor de fase para un primer valor del valor espectral de entrada sea más bajo que el factor de fase para un segundo valor de la representación espectral de entrada, cuando un índice para la frecuencia de destino dividido por el factor de transposición o dividido por una fracción del factor de transposición y el factor del aumento de la tasa de muestreo es más cerca al segundo valor de la representación espectral de entrada.

12. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual la señal de entrada tiene asociada una información lateral que contiene la información de componente transitorio, y en el cual el analizador está configurado para analizar la señal de entrada para extraer la información de componente transitorio desde la información lateral, o en el cual el analizador (12) comprende un detector de componente transitorio para analizar y detectar un componente transitorio en la señal de entrada sobre la base de una distribución de energía de audio o un cambio de energía de audio en la señal de entrada.

13. Un procedimiento para generar una señal de audio de alta frecuencia (18) , que comprende:

analizar (12) una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene la información de componente transitorio; convertir (14) la señal de entrada en una representación espectral de entrada (11) ; procesar (13) la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y convertir (17) la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que:

la etapa de convertir (14) en una representación espectral de entrada o la etapa de convertir (17) en una representación de tiempo se lleva a cabo para la primera porción de la señal de entrada que tiene una información de componente transitorio un sobremuestreo en el dominio de la frecuencia, que puede ser controlado, en el cual no se lleva a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o en el cual se lleva a cabo para la segunda porción de la señal de entrada un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con el factor de sobremuestreo de la primera porción de la señal de entrada, y la etapa (13) de procesar la representación espectral de entrada comprende calcular un valor para una frecuencia mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

14. Un programa de computadora para llevar a cabo, cuando el programa se ejecuta en una computadora, el procedimiento para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 14.