Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.

Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:

obtener

(210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74);

determinar (212) una frecuencia de transición (ft);

rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y

extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);

donde

la citada frecuencia de transición (ft) es ajustada al límite superior de la primera banda de frecuencia visto desde el lado de la frecuencia alta que tiene en él un coeficiente cuantificado.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12196913.

Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: BRIAND,Manuel, TALEB,Anisse.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/038 (utilizando técnicas de extensión de banda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/028 (Sustitución del ruido, p. ej. Sustituyendo componentes espectrales no tonales por fuentes de ruido (ruido de confort para transmisiones de voz discontinua G10L 19/012))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/035 (Cuantificación logarítmica o escalar)

PDF original: ES-2526333_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda Campo Técnico

La presente invención se refiere en general a métodos y dispositivos para la codificación y la descodificación de señales de audio, y en particular a métodos y dispositivos para el rellenado del espectro.

Antecedentes

Cuando las señales van a ser almacenadas y/o transmitidas, un planteamiento estándar actual es codificar las señales de audio en una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o de transmisión, un deseo general es reducir el tamaño de la representación digital necesario para permitir la reconstrucción de las señales de audio con suficiente calidad. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación real.

Los codificadores de audio basados en transformada comprimen las señales de audio cuantificando los coeficientes de transformación. Para permitir bajas tasas de bits, los cuantificadores podrían concentrar los bits disponibles en los coeficientes más energéticos y perceptualmente relevantes y transmitir sólo esos, dejando agujeros espectrales de coeficientes no cualificados en el espectro de frecuencia.

La llamada tecnología de SBR (Replicación de Banda Espectral - Spectral Band Replication, en inglés), véase por ejemplo el TS 26.404 V6.0.0 (2004-09) del 3GPP, Enhanced aacPlus general audio codee - encoder SBR part (Versión 6), 2004 [1], cierra el hueco entre la señal de banda limitada de un codificador perceptual convencional y el ancho de banda audible de aproximadamente 15 kHz. La idea general tras la SBR es recrear el contenido de alta frecuencia faltante de una señal decodificada de una manera perceptualmente precisa. Las frecuencias por encima de 15 kHz son menos importantes desde un punto de vista psicoacústico, pero pueden ser también reconstruidas. No obstante, la SBR no puede ser utilizada como un códec autónomo. Siempre opera en conjunción con un códec de forma de onda convencional, un llamado códec de núcleo. El códec de núcleo es responsable de transmitir la parte inferior del espectro original mientras que el descodificador de SBR, que es principalmente un post-proceso al descodificador de forma de onda convencional, reconstruye el intervalo de frecuencia no transmitido. Los valores espectrales de la banda ancha no son transmitidos directamente como en los codees convencionales. El sistema combinado ofrece una ganancia de codificación superior a la ganancia del códec de núcleo solo.

La metodología de SBR se basa en la definición de una frecuencia de transición fija entre una banda baja, bajas frecuencias perceptualmente relevantes codificadas, y una banda alta, altas frecuencias menos relevantes no codificadas. No obstante, en la práctica, esta frecuencia de transición se basa en el contenido de audio de la señal original. En otras palabras, de una señal a otra, la frecuencia de transición apropiada puede variar mucho. Éste es por ejemplo el caso cuando se comparan señales de conversación limpia y de música de banda completa.

Los agujeros espectrales del espectro descodlflcado pueden dividirse en dos tipos. El primero es pequeños agujeros a bajas frecuencias debido al efecto de enmascaramiento Instantáneo, véase por ejemplo Estimation of Perceptual Entropy Uslng Nolse Masklng Criteria, Proc. ICASSP, pp. 2524-2527, Mayo de 1988, de J.D. Johnston [2], El segundo es agujeros más grandes a partir de la saturación por el umbral absoluto de audición y la adición de enmascaramiento [2], La SBR afecta principalmente al segundo tipo.

Además, un códec de audio típico basado en tal método que se dirige a rellenar el agujero espectral, es decir, coeficientes no codificados, para las altas frecuencias, es decir, el segundo tipo de agujeros espectrales, podría preferiblemente rellenar los agujeros espectrales sobre el espectro completo. Verdaderamente, Incluso si un códec de SBR es capaz de proporcionar una señal de audio de ancho de banda completo, las altas frecuencias reconstruidas no enmascararán las molestas aberraciones Introducidas por la descodlflcaclón, es decir, la cuantlflcaclón de la banda baja, es decir, las frecuencias bajas perceptualmente relevantes.

El documento WO 02/41302 A1 describe la adaptación de la frecuencia de transición de acuerdo con las características de la señal de entrada.

Compendio

Un objeto general de la presente Invención es proporcionar métodos y dispositivos para permitir una supresión eficiente de las aberraciones perceptuales provocadas por agujeros espectrales sobre una señal de audio de banda completa.

Los objetos anteriores se logran mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas.

La presente invención tiene varias ventajas. Una ventaja es que un uso de la frecuencia de transición permite la utilización de un rellenado combinado del espectro utilizando tanto rellenado con ruido como extensión del ancho de banda. Además, la frecuencia de transición se define adaptatlvamente, por ejemplo, de acuerdo con el esquema de codificación utilizado, lo que hace al rellenado del espectro dependiente por ejemplo de la resolución de la frecuencia. Cualquier códec de conversación y/o de audlo que utilice este método es capaz de proporcionar una alta calidad, es decir, con menos aberraciones molestas, y una señal de audio de ancho de banda completo. El método es flexible en el sentido de que puede ser combinado con cualquier tipo de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrlco, etc.).

Breve descripción de los dibujos

La Invención, junto con otros objetos y ventajas de la misma, puede comprenderse mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los cuales:

la FIG. 1 es un esquema de bloques esquemático de un sistema de códec;

la FIG. 2 es un esquema de bloques esquemático de una realización de una realización de un codificador de señal de audio de acuerdo con la presente invención;

la FIG. 3 es una ilustración esquemática de coeficientes espectrales, grupos de los mismos y bandas de

frecuencia;

la FIG. 4 es un esquema de bloques esquemático de una realización de una realización de un descodificador de señal de audlo de acuerdo con la presente Invención;

las FIGS. 5A-C son Ilustraciones de principios para encontrar una frecuencia de transición;

la FIG. 6 es un diagrama de flujo de etapas de una realización de un método de acuerdo con la presente

invención; y

la FIG. 7 es un diagrama de flujo de una etapa de una realización de un método de manejo de señal de acuerdo con la presente Invención.

Descripción detallada

En todos los dibujos, los mismos números de referencia se utilizan para elementos similares o correspondientes.

Una realización de un sistema de códec general para señales de audio se ilustra esquemáticamente en la Fig. 1. Una fuente de audio 10 produce una señal de audio 15. La señal de audio 15 es manejada en un codificador 20, el cual produce un flujo binario 25 que comprende datos que representan a la señal de audio 15. El flujo binario 25 puede ser transmitido, como por ejemplo, en el caso de la comunicación multimedia, mediante una disposición de transmisión y/o de almacenamiento 30. La disposición de transmisión y/o de almacenamiento 30 opcionalmente también puede comprender alguna capacidad de almacenamiento. El flujo binario 25 puede también ser almacenado sólo en la disposición de transmisión y/o de almacenamiento 30, sólo introduciendo... [Seguir leyendo]

 


Reivindicaciones:

1. Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:

obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;

dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74);

determinar (212) una frecuencia de transición (ft);

rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y

extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);

donde

la citada frecuencia de transición (ft) es ajustada al límite superior de la primera banda de frecuencia visto desde el lado de la frecuencia alta que tiene en él un coeficiente cuantificado.

2. Método de acuerdo con la reivindicación 1, en el que las citadas bandas de frecuencia (74) tienen un ancho de frecuencia constante.

3. El método de acuerdo con la reivindicación 1, en el que al menos dos de las citadas bandas de frecuencia (74) tienen diferentes anchos de frecuencia.

4. Método de acuerdo con cualquier reivindicación precedente, en el que la citada etapa de ajustar la citada frecuencia de transición (ft) depende también de una frecuencia de transición previamente utilizada

5. Método de acuerdo con la reivindicación 4, en el que la citada etapa de ajustar la citada frecuencia de transición (ft) depende también de más de una frecuencia de transición previamente utilizada.

6. Método de acuerdo con la reivindicación 4 ó 5, en el que la citada frecuencia de transición (ft) está prohibido que cambie más de una cantidad absoluta o relativa predeterminada entre dos tramas consecutivas.

7. Método para su uso para la codificación espectral de una señal de audio, que comprende:

dividir los coeficientes espectrales de un conjunto inicial (24; 42) de coeficientes espectrales que representan a la citada señal de audio en una pluralidad de bandas de frecuencia;

determinar (212) una frecuencia de transición (ft) para el conjunto (24; 42) inicial de coeficientes espectrales que representan a la citada señal de audio;

definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda;

estando la citada frecuencia de transición (ft) ajustada al límite superior de la primera banda de frecuencia vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.

8. Descodificador (40) para la descodificación espectral de una señal de audio, que comprende:

una entrada para obtener un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;

unos circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft);

un rellenador con ruido (50) para el rellenado con ruido de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y

un extensor de ancho de banda (55) dispuesto para extender el ancho de banda del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);

estando los citados circuitos de determinación de transición (60) dispuestos

para dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y

para determinar la citada frecuencia de transición (ft) como el limite superior de la primera banda de frecuencia vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.

9. Codificador (20) para la codificación espectral de una señal de audio, que comprende:

circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) para un conjunto (24) inicial de coeficientes espectrales que representan a la citada señal de audio;

definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, previsto para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser 10 un sujeto para la extensión del ancho de banda;

estando los citados circuitos de determinación de transición (60) dispuestos para

dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y para

determinar la citada frecuencia de transición (ft) como el límite superior de la primera banda de frecuencia 15 vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.