Aparato y método para procesar una señal de audio usando alineación de borde de patching.

Aparato que permite tratar una señal de audio para generar una señal de anchura de banda extendida que presenta una parte de altas frecuencias

(102) y una parte de bajas frecuencias (104) con ayuda de los datos paramétricos (2302) para la parte de altas frecuencias (102), datos paramétricos relativos a las bandas de frecuencias (100, 101) de la parte de altas frecuencias (102), que comprende:

un calculador de límite de extensión (2302) destinado a calcular un límite de extensión (1001c, 1002c, 1002d, 1003c, 1003b) entre una pluralidad de límites de extensión de manera que el límite de extensión coincida con un límite de las bandas de frecuencias (101, 100) de la parte de altas frecuencias (102); y

un medio de extensión (2312) destinado a generar una señal extendida con ayuda de la señal de audio (2300) y del límite de extensión (1001c, 1002c, 1002b, 1003c, 1003b), en el que los límites de extensión se refieren a la parte de altas frecuencias (102) de la señal de anchura de banda extendida;

en el cual el calculador de límite de extensión (2302) está configurado para:

calcular (2520) una tabla de frecuencias que definen las bandas de frecuencias de la parte de altas frecuencias (102) con ayuda de los datos paramétricos o de otros datos de entrada de configuración;

determinar (2522) un límite de extensión de síntesis diana con ayuda de al menos un factor de transposición; buscar (2524), en la tabla de frecuencias, una banda de frecuencias coincidente que presenta un límite coincidente que coincide con el límite de extensión de síntesis diana en un intervalo de coincidencias predeterminado, o buscar la banda de frecuencias que presenta un límite de banda de frecuencias la más cercana del límite de extensión de síntesis diana; y

seleccionar (2525, 2527), como límite de extensión, el límite coincidente que coincide con el límite de extensión de síntesis diana en el intervalo de coincidencias predeterminado o el límite de banda de frecuencias más cercano del límite de extensión de síntesis diana encontrado durante la búsqueda (2524).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/053313.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: VILLEMOES, LARS, EKSTRAND, PER, DISCH,SASCHA, NAGEL,Frederik, WILDE,STEPHAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/04 (Compresión o expansión temporales)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/038 (utilizando técnicas de extensión de banda)

PDF original: ES-2522171_T3.pdf

 

google+ twitter facebookPin it
Ilustración 1 de Aparato y método para procesar una señal de audio usando alineación de borde de patching.
Ilustración 2 de Aparato y método para procesar una señal de audio usando alineación de borde de patching.
Ilustración 3 de Aparato y método para procesar una señal de audio usando alineación de borde de patching.
Ilustración 4 de Aparato y método para procesar una señal de audio usando alineación de borde de patching.
Ver la galería de la patente con 12 ilustraciones.
Aparato y método para procesar una señal de audio usando alineación de borde de patching.

Fragmento de la descripción:

Aparato y método para procesar una señal de audio usando alineación de borde de patching CAMPO TÉCNICO

[1] El presente Invento se refiere a sistemas de codificación de fuente de audio los cuales hacen uso de un método de transposición armónica para reconstrucción de alta frecuencia (HFR), y a procesadores de efecto digital, por ejemplo, los denominados excitadores, donde la generación de distorsión armónica agrega brillo a la señal procesada, y a extensores de tiempo, donde la duración de una señal es extendida mientras se mantiene el contenido espectral de la original.

ANTECEDENTES DEL INVENTO

[2] En la PCT WO 98/57436 se estableció el concepto de transposición como un método para recrear una banda de alta frecuencia a partir de una banda de frecuencia más baja de una señal de audio. Se puede obtener un substancial ahorro en cantidad de bits transmitidos usando este concepto para codificación de audio. En un sistema de codificación de audio basado en HFR, una señal de ancho de banda bajo es procesada por un codificador por núcleo de forma de onda y las frecuencias más altas son regeneradas usando transposición e información lateral adicional de muy baja cantidad de bits transmitidos que describe la forma espectral blanco del lado del decodificador. Para bajas cantidades de bits transmitidos, donde el ancho de banda de la señal codificada por un núcleo (core coded) es angosto, se hace cada vez más importante recrear una banda alta con características perceptualmente agradables. La transposición armónica definida en PCT WO 98/57436 funciona muy bien para material musical complejo en una situación con baja frecuencia de transición. El principio de una transposición armónica es que una sinusoide con frecuencia® es mapeada a una sinusoide con frecuencia Tco donde T >\ es un entero que define el orden de transposición. En contraste con esto, un método de HFR basado en modulación de banda lateral simple (SSB) mapea una sinusoide con frecuencia o a una sinusoide con frecuencia co + Acó donde Áco es un corrimiento de frecuencia fijo. Dada una señal núcleo con ancho de banda bajo, puede resultar un artefacto que suena disonante de la transposición SSB.

[3] Otro ejemplo para la regereneración de alta frecuencia se describe en WO 29/78681.

[4] Para lograr la mejor calidad de audio posible, los métodos de HFR armónica de alta calidad del estado actual de la técnica emplean bancos de filtros modulados complejos, por ejemplo, una Transformación de Fourier de Tiempo Corto (STFT), con resolución de alta frecuencia y un alto grado de sobremuestreo para lograr la calidad de audio requerida. La resolución fina es necesaria para evitar distorsión de intermodulación no deseada que aparece del procesamiento no lineal de sumas de sinusoides. Con suficientemente alta resolución de frecuencia, esto es, subbandas angostas, los métodos de alta calidad apuntan a tener un máximo de una sinusoide en cada subbanda. Se necesita un alto grado de sobremuestreo en el tiempo para evitar un tipo de distorsión aliasing, y se necesita un cierto grado de sobremuestreo en la frecuencia para evitar preecos para señales con componente transitorio. La desventaja obvia es que la complejidad computacional puede hacerse alta.

[5] La transposición armónica basada en bloque subbanda es otro método de HFR usado para suprimir productos de intermodulación, en cuyo caso se emplea un banco de filtros con resolución de frecuencia gruesa y un menor grado de sobremuestreo, por ejemplo, un banco QMF multicanal. En este método, un bloque de tiempo de muestras de subbanda complejas es procesado por un modificador de fase común mientras la superposición de varias muestras modificadas forma una muestra de subbanda de salida. Esto tiene el efecto neto de suprimir productos de intermodulación que de otra manera aparecerían cuando la señal subbanda de entrada consta de varias sinusoides. La transposición basada en procesamiento de subbanda basado en bloques tiene mucho menor complejidad computacional que los medios de transposición de alta calidad y alcanza casi la misma calidad para muchas señales. Sin embargo, la complejidad es todavía mucho más alta que para los métodos de HFR basados en SSB triviales, ya que se requiere una pluralidad de bancos de filtros de análisis, cada que procesa señales de diferentes órdenes de transposición T, en una típica aplicación de HFR para sintetizar el ancho de banda requerido. Adicionalmente, un enfoque común es adaptar la tasa de muestreo de las señales de entrada para ajustar bancos de filtros de análisis de un tamaño constante, aunque los bancos de filtros procesan señales de diferentes órdenes de transposición. También es común aplicar filtros pasabanda a las señales de entrada para obtener señales de salida procesadas desde diferentes órdenes de transposición, con densidades espectrales que no se superponen.

[6] El almacenamiento o la transmisión de señales de audio con frecuencia están sometidos a estrictas restricciones de cantidad de bits transmitidos. En el pasado, los codificadores eran forzados a reducir drásticamente el ancho de banda de audio transmitido cuando sólo se disponía de una muy baja cantidad de bits transmitidos. Los modernos codificadoresdecodificadores de audio hoy en día son capaces de codificar señales de banda ancha usando métodos de extensión de ancho de banda (BWE) [112]. Estos algoritmos se basan en una representación paramétrica del contenido de alta frecuencia (HF), que es generado a partir de la parte de baja frecuencia (LF) de la

señal decodificada mediante una transposición dentro de la región espectral de HF ("patching", es decir los "parches" de audio) y aplicación de un procesamiento posterior regido por parámetros. La parte de LF es codificada con cualquier codificador de audio o voz. Por ejemplo, los métodos de extensión de ancho de banda descritos en [14] se apoyan en modulación de banda lateral simple (SSB), que con frecuencia se denomina con el término método "copyup", para generar los múltiples sectores de patching, es decir los parches de HF.

[7] Últimamente se ha presentado un nuevo algoritmo, el cual emplea un banco de vocoders de fase [1517] para la generación de los diferentes parches [13] (ver Figura 2). Este método ha sido desarrollado para evitar la aspereza auditiva que con frecuencia se observa en señales sometidas a extensión de ancho de banda SSB. A pesar de ser beneficioso para muchas señales tonales, este método llamado "extensión de ancho de banda armónica" (HBE) es proclive a degradaciones de calidad de los componentes transitorios contenidos en la señal de audio [14], ya que no está garantizada la conservación de la coherencia vertical sobre subbandas en el algoritmo de vocoder de fase estándar y, asimismo, el recálculo de las fases tiene que ser realizado sobre bloques de tiempo de una transformación o, alternativamente de un banco de filtros. Por lo tanto, aparece una necesidad de un tratamiento especial para partes de señal que contienen componentes transitorios.

[8] Sin embargo, la complejidad computacional es un asunto serio, debido a que el algoritmo de BWE es realizado sobre el lado del decodificador de una cadena de codificador-decodificador. Los métodos del estado actual de la técnica, especialmente la HBE basada en vocoder de fase viene a costo de una complejidad computacional muy incrementada comparado con los métodos basados en SSB.

[9] Como se detalla arriba, los esquemas de extensión de ancho de banda existentes se aplican sólo un método de parcheo sobre un bloque de señal dado a la vez, ya sea parcheo basado en SSB [14] o parcheo basado en vocoder de HBE [1517]. Adicionalmente, los modernos codificadores de audio [192] ofrecen la posibilidad de conmutar el método de... [Seguir leyendo]

 


Reivindicaciones:

1. Aparato que permite tratar una señal de audio para generar una señal de anchura de banda extendida que presenta una parte de altas frecuencias (102) y una parte de bajas frecuencias (104) con ayuda de los datos paramétricos (2302) para la parte de altas frecuencias (102) , datos paramétricos relativos a las bandas de 5 frecuencias (100, 101) de la parte de altas frecuencias (102) , que comprende:

un calculador de límite de extensión (2302) destinado a calcular un límite de extensión (1001c, 1002c, 1002d, 1003c, 1003b) entre una pluralidad de límites de extensión de manera que el límite de extensión coincida con un límite de las bandas de frecuencias (101, 100) de la parte de altas frecuencias (102) ; y 10

un medio de extensión (2312) destinado a generar una señal extendida con ayuda de la señal de audio (2300) y del límite de extensión (1001c, 1002c, 1002b, 1003c, 1003b) , en el que los límites de extensión se refieren a la parte de altas frecuencias (102) de la señal de anchura de banda extendida;

en el cual el calculador de límite de extensión (2302) está configurado para:

calcular (2520) una tabla de frecuencias que definen las bandas de frecuencias de la parte de altas frecuencias (102) con ayuda de los datos paramétricos o de otros datos de entrada de configuración;

determinar (2522) un límite de extensión de síntesis diana con ayuda de al menos un factor de transposición;

buscar (2524) , en la tabla de frecuencias, una banda de frecuencias coincidente que presenta un límite coincidente que coincide con el límite de extensión de síntesis diana en un intervalo de coincidencias predeterminado, o buscar la banda de frecuencias que presenta un límite de banda de frecuencias la más cercana del límite de extensión de 25 síntesis diana; y

seleccionar (2525, 2527) , como límite de extensión, el límite coincidente que coincide con el límite de extensión de síntesis diana en el intervalo de coincidencias predeterminado o el límite de banda de frecuencias más cercano del límite de extensión de síntesis diana encontrado durante la búsqueda (2524) . 30

2. Aparato según la reivindicación 1, en el cual el calculador de límite de extensión (2302) está configurado para calcular los límites de extensión para tres factores de transposición diferentes de manera que cada límite de extensión coincide con un límite de las bandas de frecuencias (100, 101) de la parte de altas frecuencias, y en el cual el medio de extensión (2312) está configurado para generar la señal extendida con ayuda de los tres factores 35 de transposición diferentes (2308) de manera que un límite entre extensiones adyacentes coincide con un límite entre dos bandas de frecuencias (100, 101) adyacentes.

3. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el calculador de límite de extensión (2302) está configurado para calcular el límite de extensión como límite de frecuencia (k) en un intervalo de frecuencias de 40 síntesis correspondiente a la parte de altas frecuencias (102) , y en el cual el medio de extensión (2312) está configurado para seleccionar una parte de frecuencia de la parte de la banda baja (104) con ayuda de un factor de transposición y del límite de extensión.

4. Aparato según cualquiera de las reivindicaciones anteriores, que comprende por otro lado: un reconstructor de 45 altas frecuencias (1030, 2510) destinado a ajustar la señal extendida (2509) con ayuda de los datos paramétricos (2302) , estando el reconstructor de altas frecuencias configurado para calcular, para una banda de frecuencias o un grupo de bandas de frecuencias, un factor de ganancia a utilizar para ponderar la banda de frecuencias o un grupo de bandas de frecuencias correspondiente de la señal extendida (2509) .

5. Aparato según la reivindicación 1, en el cual el intervalo de coincidencias predeterminado está ajustado a un valor inferior o igual a cinco bandas QMF o 40 bins de frecuencias de la parte de altas frecuencias (102) .

6. Aparato según cualquiera de las reivindicaciones anteriores, en el cual los datos paramétricos comprenden un valor de datos de envolvente espectral, en el cual se determina, para cada banda de frecuencias, un valor de datos 55 de envolvente espectral separada, en el cual el aparato comprende por otro lado un reconstructor de altas frecuencias (2510, 1030) destinado a ajustar en envolvente espectral cada banda de la señal extendida con ayuda del valor de datos de envolvente espectral para esta banda.

7. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el calculador de límite de extensión (2302) 60 está configurado para buscar en la tabla de frecuencias el límite más elevado que no sobrepasa un límite de anchura de banda de una señal regenerada en altas frecuencias para un factor de transposición, y para utilizar el límite más elevado encontrado como límite de extensión.

8. Aparato según la reivindicación 7, en el cual el calculador de límite de extensión (2302) está configurado para recibir, para cada factor de transposición entre la pluralidad de factores de transposición diferentes, un límite de extensión diana diferente.

9. Aparato según cualquiera de las reivindicaciones anteriores, que comprende por otro lado una herramienta de 5 limitación (2505, 2510) destinada a calcular las bandas de limitación utilizadas para limitar los valores de ganancia para ajustar las señales extendidas, comprendiendo el aparato por otro lado un calculador de bandas de limitación configurado para definir un límite de limitación de manera que al menos un límite de extensión determinada por el calculador de límite de extensión (2302) también se establezca como límite de limitación.

10. Aparato según la reivindicación 9, en el cual el calculador de bandas de limitación (2505) está configurado para calcular otros límites de limitación de manera que los otros límites de limitación coinciden con los límites de las bandas de frecuencias de la parte de altas frecuencias (102) .

11. Dispositivo según cualquiera de las reivindicaciones anteriores, en el cual el medio de extensión (2312) está 15 configurado para generar múltiples extensiones con ayuda de diferentes factores de transposición (2308) , en el cual el calculador de límite de extensión (2302) está configurado para calcular los límites de extensión de cada extensión entre las múltiples extensiones de manera que los límites de extensión coinciden con límites diferentes de las bandas de frecuencias de la parte de altas frecuencias (102) , en el cual el aparato comprende por otro lado un ajustador de envolvente (2510) destinado a ajustar una envolvente de la parte de altas frecuencias (102) tras la 20 extensión o a ajustar la parte de altas frecuencias antes de la extensión con ayuda de los factores de escala comprendida en los datos paramétricos suministrados para las bandas de factores de escala.

12. Procedimiento que permite tratar una señal de audio para generar una señal extendida en anchura de banda que presenta una parte de altas frecuencias (102) y una parte de bajas frecuencias (104) con ayuda de los datos 25 paramétricos (2302) para la parte de altas frecuencias (102) , datos paramétricos relativos a las bandas de frecuencias (100, 101) de la parte de altas frecuencias (102) , que comprende:

calcular (2302) un límite de extensión (1001c, 1002c, 1002d, 1003c, 1003b) de manera que el límite de extensión entre una pluralidad de límites de extensión coincida con un límite de las bandas de frecuencias (101, 100) de la 30 parte de altas frecuencias (102) ; y

generar (2312) una señal extendida con ayuda de la señal de audio (2300) y del límite de extensión (1001c, 1002c, 1002b, 1003c, 1003b) , en el que los límites de extensión se refieren a la parte de altas frecuencias (102) de la señal de anchura de banda extendida, en el cual la etapa de cálculo (2302) de un límite de extensión comprende: 35

calcular (2520) una tabla de frecuencias que definen las bandas de frecuencias de la parte de altas frecuencias (102) con ayuda de los datos paramétricos o de otros datos de entrada de configuración;

determinar (2522) un límite de extensión de síntesis diana con ayuda de al menos un factor de transposición; 40

buscar (2524) , en la tabla de frecuencias, una banda de frecuencias coincidente que presenta un límite coincidente que coincida con el límite de extensión de síntesis diana en un intervalo de coincidencias predeterminado, o buscar la banda de frecuencias que presenta un límite de banda de frecuencias la más cercana del límite de extensión de síntesis diana; y 45

seleccionar (2525, 2527) , como límite de extensión, el límite coincidente que coincide con el límite de extensión de síntesis diana en el intervalo de coincidencias predeterminado o el límite de banda de frecuencias más cercana del límite de extensión de síntesis diana encontrado durante la búsqueda (2524) .

13. Programa de ordenador que tiene un código de programa adaptado para realizar, cuando se ejecuta en un 50 ordenador, el procedimiento según la reivindicación 12.