Procesamiento de señales de audio durante la reconstrucción de alta frecuencia.

Un sistema (601, 703) configurado para generar una pluralidad de señales de subbanda de audio de alta frecuencia

(604) que cubren un intervalo de alta frecuencia a partir de una pluralidad de señales de subbanda de audio de baja frecuencia (602), comprendiendo el sistema (601, 703):

- medios para recibir la pluralidad de señales de subbanda de baja frecuencia (602);

- medios para recibir un conjunto de energías objetivo, cubriendo cada energía objetivo un intervalo objetivo diferente (130) dentro del intervalo de alta frecuencia y siendo indicativa de la energía deseada de una o más señales de subbanda de alta frecuencia que se encuentran dentro del intervalo objetivo (130);

- medios para generar la pluralidad de señales de subbanda de alta frecuencia (604) a partir de la pluralidad de señales de subbanda de baja frecuencia (602) y a partir de una pluralidad de coeficientes de ganancia espectral asociados con la pluralidad de señales de subbanda de baja frecuencia (602), respectivamente; y

- medios para ajustar la energía (203) de la pluralidad de señales de subbanda de alta frecuencia (604) utilizando el conjunto de energías objetivo.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/062068.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: KJOERLING,KRISTOFER.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/038 (utilizando técnicas de extensión de banda)

PDF original: ES-2484795_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procesamiento de señales de audio durante la reconstrucción de alta frecuencia Campo técnico

La solicitud se refiere a la HFR (regeneración/reconstrucción de alta frecuencia o «High Frequency Reconstruction/Regeneration») de señales de audio. En particular, la solicitud se refiere a un método y sistema para realizar la HFR de señales de audio que tienen grandes variaciones en los niveles de energía a través del intervalo de baja frecuencia, que se utiliza para reconstruir las altas frecuencias de la señal de audio.

Antecedentes de la invención

Las tecnologías HFR, tales como la tecnología de replicación de la banda espectral (SBR, «Spectral Band Replication»), permiten mejorar significativamente la eficiencia de codificación de los codees de audio perceptuales tradicionales. En combinación con la codificación de audio avanzada (ACC, «Advanced Audio Coding») MPEG-4, HFR forma un códec de audio muy eficaz, que ya está en uso en el sistema de radio por satélite XM y en Digital Radio Mondiale, y también estandardizado dentro del foro 3GPP, DVD y otros. La combinación de AAC y SBR se denomina aacPlus. Forma parte de la norma MPEG-4, en la que se denomina perfil AAC de alta eficiencia (HE-AAC, «High Efficiency AAC Profile»). En general, la tecnología de HFR se puede combinar con cualquier códec de audio perceptual de una manera compatible en ambos sentidos, ofreciendo de esta manera la posibilidad de mejorar los sistemas de difusión ya establecidos, como el MPEG capa 2 utilizado en el sistema Eureka DAB. Los métodos HFR también se pueden combinar con codees de voz para permitir la transmisión de voz de banda ancha a tasas de bits u Itrabajas.

La idea básica en la que se basa la HFR es la observación de que normalmente existe una fuerte correlación entre las características del intervalo de alta frecuencia de una señal y las características del intervalo de baja frecuencia de la misma señal. De esta manera, se puede lograr una buena aproximación para la representación del intervalo de alta frecuencia de entrada original de una señal mediante una transposición de la señal desde el intervalo de baja frecuencia hasta el intervalo de alta frecuencia.

Este concepto de transposición se describió en el documento WO 98/57436 como método para recrear una banda de alta frecuencia a partir de una banda de menor frecuencia de una señal de audio. Al utilizar este concepto en la codificación de audio y/o en la codificación de voz se puede obtener un ahorro substancial en términos de la tasa de bits. A continuación, se hará referencia a la codificación de audio, pero cabe indicar que los métodos y sistemas descritos son igualmente aplicables a la codificación de voz y codificación unificada de voz y audio (USAC, «Unified Speech and Audio Coding»).

El documento WO 2/4131 A1 da a conocer un descodificador de audio con blanqueo espectral basado en una predicción lineal después de la reconstrucción de alta frecuencia y antes del ajuste de la envolvente.

La reconstrucción de alta frecuencia se puede realizar en el dominio del tiempo o en el dominio de la frecuencia, utilizando un banco de filtros o una transformación elegida. El proceso normalmente implica varias etapas, en donde las dos operaciones principales consisten en primer lugar en crear una señal de excitación de alta frecuencia y, posteriormente, conformar la señal de excitación de alta frecuencia para aproximarse a la envolvente espectral del espectro de alta frecuencia original. La etapa de creación de una señal de excitación de alta frecuencia se puede basar, por ejemplo, en la modulación de banda lateral única (SSB, «Single SideBand»), en donde una sinusoide con frecuencia co se asigna a una sinusoide con frecuencia © + A©, en donde A© es un desplazamiento de frecuencia fijo. En otras palabras, la señal de alta frecuencia puede ser generada a partir de la señal de baja frecuencia mediante una operación de «copia» de subbandas de baja frecuencia a subbandas de alta frecuencia. Un planteamiento adicional de cara a la creación de una señal de excitación de alta frecuencia puede involucrar la transposición armónica de subbandas de baja frecuencia. La transposición armónica de orden T se diseña típicamente para asignar una sinusoide con frecuencia © de la señal de baja frecuencia a una sinusoide con frecuencia T©, con T > 1, de la señal de alta frecuencia.

La tecnología HFR se puede usar como parte de los sistemas de codificación de fuente, en los que una variedad de información de control destinada a guiar el proceso HFR desde un codificador hasta un descodificador junto con una representación de la señal de banda estrecha/baja frecuencia. En el caso de los sistemas en los que no se pueda transmitir ninguna señal de control adicional, el proceso se puede aplicar en el lado de descodificador con los datos de control adecuados estimados a partir de la información disponible en el lado del descodificador.

El ajuste de la envolvente mencionado anteriormente de la señal de excitación de alta frecuencia tiene como objetivo lograr una forma espectral que se asemeje a la forma espectral de la banda alta original. Para ello, es necesario modificar la forma espectral de la señal de alta frecuencia. Dicho de manera diferente, el ajuste que se ha de aplicar a la banda alta es una función de la envolvente espectral existente y de la envolvente espectral objetivo deseada.

En el caso de los sistemas que operan en el dominio de la frecuencia, por ejemplo, sistemas HFR implementados en un banco de filtros seudo-QMF, los métodos de la técnica anterior son subóptimos a este respecto, ya que la creación de la señal de banda alta, mediante la combinación de varias contribuciones desde el intervalo de frecuencia de la fuente, introduce una envolvente espectral artificial en la banda alta que debe ser ajustada por la envolvente. En otras palabras, la señal de alta frecuencia o de banda alta generada a partir de la señal de baja frecuencia durante el proceso HFR muestra típicamente una envolvente espectral artificial (que típicamente comprende discontinuidades espectrales). Esto plantea dificultades para el ajustador de la envolvente espectral, ya que el ajustador no solo debe tener la capacidad de aplicar la envolvente espectral deseada con una resolución adecuada del tiempo y de la frecuencia, sino que el ajustador también debe tener la capacidad de deshacer las características espectrales introducidas artificialmente por el generador de señal HFR. Esto plantea complejas restricciones de diseño del ajustador de la envolvente. Como resultado, estas dificultades tienden a llevar a una pérdida percibida de energía de alta frecuencia, y discontinuidades audibles en la forma espectral en la señal de banda alta, particularmente en el caso de señales de tipo voz. En otras palabras, los generadores de señales HFR convencionales tienden a introducir discontinuidades y variaciones de nivel en la señal de banda alta para señales que tienen grandes variaciones de nivel en el intervalo de banda baja, por ejemplo sibilancias. Cuando posteriormente el ajustador de la envolvente se expone a esta señal de banda alta, el ajustador de la envolvente no puede separar, de manera razonable y consistente, la discontinuidad recientemente introducida de cualquier característica espectral natural de la señal de banda baja.

El presente documento describe una solución al problema mencionado anteriormente, lo que tiene como resultado una mayor calidad de audio percibida. En particular, el presente documento describe una solución al problema de generar una señal de banda alta a partir de una señal de banda baja, en donde la envolvente espectral de la señal de banda alta se ajusta de manera efectiva con el fin de que se asemeje a la envolvente... [Seguir leyendo]

 


Reivindicaciones:

1. Un sistema (61, 73) configurado para generar una pluralidad de señales de subbanda de audio de alta frecuencia (64) que cubren un intervalo de alta frecuencia a partir de una pluralidad de señales de subbanda de audio de baja frecuencia (62), comprendiendo el sistema (61,73):

- medios para recibir la pluralidad de señales de subbanda de baja frecuencia (62);

- medios para recibir un conjunto de energías objetivo, cubriendo cada energía objetivo un intervalo objetivo diferente (13) dentro del intervalo de alta frecuencia y siendo indicativa de la energía deseada de una o más señales de subbanda de alta frecuencia que se encuentran dentro del intervalo objetivo (13);

- medios para generar la pluralidad de señales de subbanda de alta frecuencia (64) a partir de la pluralidad de señales de subbanda de baja frecuencia (62) y a partir de una pluralidad de coeficientes de ganancia espectral asociados con la pluralidad de señales de subbanda de baja frecuencia (62), respectivamente; y

- medios para ajustar la energía (23) de la pluralidad de señales de subbanda de alta frecuencia (64) utilizando el conjunto de energías objetivo.

2. El sistema (61,73) de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que:

- la pluralidad de coeficientes de ganancia espectral se asocia con la energía de la respectiva pluralidad de señales de subbanda de baja frecuencia (62).

3. El sistema (61,73) de acuerdo con la reivindicación 2, en el que:

- la pluralidad de coeficientes de ganancia espectral se deriva de una curva dependiente de la frecuencia (43) ajustada a la energía de la pluralidad de señales de subbanda de baja frecuencia (62).

4. El sistema (61,73) de acuerdo con la reivindicación 3, en el que:

- la curva dependiente de la frecuencia (43) es un polinomio de un orden predeterminado.

5. El sistema (61,73) de acuerdo con las reivindicaciones 3 o 4, en el que:

- un coeficiente de ganancia espectral de la pluralidad de coeficientes de ganancia espectral se deriva de la diferencia de la energía media de la pluralidad de señales de subbanda de baja frecuencia (62) y un valor correspondiente de la curva dependiente de la frecuencia (43).

6. El sistema (61,73) de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que los medios para generar la pluralidad de señales subbanda de alta frecuencia (64) están configurados para amplificar la pluralidad de señales de subbanda de baja frecuencia (62) utilizando la respectiva pluralidad de coeficientes de ganancia espectral.

7. El sistema (61,73) de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que los medios para generar la pluralidad de señales subbanda de alta frecuencia (64) están configurados para:

- realizar una transposición de copia (83) de la pluralidad de señales de subbanda de baja frecuencia (62); y/o

- realizar una transposición armónica (84) de la pluralidad de señales de subbanda de baja frecuencia (62).

8. El sistema (61, 73) de acuerdo con la reivindicación 7, en el que los medios para generar la pluralidad de señales subbanda de alta frecuencia (64) están configurados para:

- multiplicar las muestras de una señal de subbanda de baja frecuencia (62) con el respectivo coeficiente de ganancia espectral de la pluralidad de coeficientes de ganancia espectral, produciendo de esta manera muestras modificadas; y

- determinar una muestra de una correspondiente señal de subbanda de alta frecuencia (64) en un instante de tiempo particular a partir de muestras modificadas de la señal de subbanda de baja frecuencia (62) en el instante de tiempo particular y al menos en un instante de tiempo anterior.

9. El sistema (61, 73) de acuerdo con una cualquiera de las reivindicaciones anteriores, que comprende además medios para recibir datos de control (63) indicativos de:

- si se aplica la pluralidad de coeficientes de ganancia espectral para generar la pluralidad de señales de subbanda

de alta frecuencia (64); y/o

- un método para determinar la pluralidad de coeficientes de ganancia espectral.

1. Un descodificador de audio (7) configurado para descodificar un flujo de bits (74) representativo de una señal de audio de baja frecuencia (77) y un conjunto de energías objetivo (78) que describe la envolvente espectral de una correspondiente señal de audio de alta frecuencia, comprendiendo el descodificador de audio (7):

- una unidad de transformación y descodificador central (72, 21) configurada para determinar una pluralidad de señales de subbanda de baja frecuencia asociadas con la señal de audio de baja frecuencia (77) del flujo de bits (74);

- el sistema de acuerdo con una cualquiera de las reivindicaciones 1 a 9, para generar una pluralidad de señales de subbanda de alta frecuencia a partir de la pluralidad de señales de subbanda de baja frecuencia y el conjunto de energías objetivo; y

- una unidad de transformación inversa y fusión (22) configurada para generar una señal de audio a partir de la pluralidad de señales de subbanda de baja frecuencia y la pluralidad de señales de subbanda de alta frecuencia.

11. Un codificador (91) configurado para generar datos de control (95) a partir de una señal de audio (93), comprendiendo el codificador de audio (91):

- un primer medio que se puede utilizar para analizar la forma espectral de la señal de audio (93) y para determinar un grado de discontinuidades de la envolvente espectral introducidas al regenerar un componente de alta frecuencia de la señal de audio (93) a partir de un componente de baja frecuencia de la señal de audio (93), y

- un segundo medio que se puede utilizar para generar datos de control (95) para controlar la regeneración del componente de alta frecuencia sobre la base del grado de discontinuidades;

en el que los primeros medios están adaptados para determinar dicho grado de discontinuidades de la envolvente espectral mediante la determinación de una información de proporción, determinándose la información de proporción estudiando las frecuencias más bajas del componente de baja frecuencia y las frecuencias más altas del componente de baja frecuencia, en el que un alto valor de la información de proporción determinada es indicativo de un alto grado de discontinuidades de la envolvente espectral y un valor bajo de la información de proporción determinada es indicativo de un bajo grado de discontinuidades de la envolvente espectral.

12. Un método para generar una pluralidad de señales de subbanda de audio de alta frecuencia (64) que cubren un intervalo de alta frecuencia desde una pluralidad de señales de subbanda de audio de baja frecuencia (62), comprendiendo el método:

- recibir la pluralidad de señales de subbanda de baja frecuencia (62);

- recibir un conjunto de energías objetivo, cubriendo cada energía objetivo un intervalo objetivo diferente (13) dentro del intervalo de alta frecuencia y siendo indicativa de la energía deseada de una o más señales de subbanda de alta frecuencia (64) que se encuentran dentro del intervalo objetivo (13);

- generar la pluralidad de señales de subbanda de alta frecuencia (64) a partir de la pluralidad de señales de subbanda de baja frecuencia (62) y a partir de una pluralidad de coeficientes de ganancia espectral asociados con la pluralidad de señales de subbanda de baja frecuencia (62), respectivamente; y

- ajustar la energía de la pluralidad de señales de subbanda de alta frecuencia (64) utilizando el conjunto de energías objetivo.

13. Un método para descodificar un flujo de bits (7) configurado para descodificar un flujo de bits (74) representativo de una señal de audio de baja frecuencia (77) y un conjunto de energías objetivo (78) que describe la envolvente espectral de una correspondiente señal de audio de alta frecuencia, comprendiendo el método:

- determinar una pluralidad de señales de subbanda de baja frecuencia (76) asociadas con la señal de audio de baja frecuencia (77) del flujo de bits (74);

- generar una pluralidad de señales de subbanda de alta frecuencia a partir de la pluralidad de señales de subbanda de baja frecuencia y el conjunto de energías objetivo, de acuerdo con el método de la reivindicación 12; y

- generar una señal de audio a partir de la pluralidad de señales de subbanda de baja frecuencia y la pluralidad de señales de subbanda de alta frecuencia.

14. Un método para generar datos de control (95) a partir de una señal de audio (93), comprendiendo el método:

- analizar la forma espectral de la señal de audio (93) para determinar un grado de discontinuidades de la envolvente espectral introducidas al regenerar un componente de alta frecuencia de la señal de audio (93) a partir

de un componente de baja frecuencia de la señal de audio (93); y

- generar datos de control (95) para controlar la regeneración del componente de alta frecuencia sobre la base del grado de discontinuidades,

en donde la determinación de dicho grado de discontinuidades de la envolvente espectral incluye la determinación de una información de proporción estudiando las frecuencias más bajas del componente de baja frecuencia y las frecuencias más altas del componente de baja frecuencia, en donde un alto valor de la información de proporción determinada es indicativo de un alto grado de discontinuidades de la envolvente espectral y un valor bajo de la información de proporción determinada es indicativo de un bajo grado de discontinuidades de la envolvente 15 espectral.

15. Un programa de software adaptado para su ejecución en un procesador y para realizar las etapas del método de acuerdo con una cualquiera de las reivindicaciones 12 a 14 cuando se ejecuta en un dispositivo informático.