Codificación y decodificación de extensión de ancho de banda.

Un codificador de extensión de ancho de banda (800) para codificar una señal de audio (101-1) para obtener unaseñal de audio codificada (103-1),

comprendiendo la señal de audio (101-1) una señal de baja frecuencia (101-2) quecomprende una banda de frecuencia central (101-3) y una señal de alta frecuencia (101-4) que comprende una bandade frecuencia superior (101-5), comprendiendo el codificador(800):

un analizador de señal (110) para analizar la señal de audio (101-1), teniendo la señal de audio (101-1) un bloque (101-6) de muestras de audio, teniendo el bloque (101-6) una duración de tiempo especificada, en donde el analizador deseñal (110) está configurado para determinar, a partir de una pluralidad (111-1) de funciones de ventanas de análisis,una función de ventana de análisis (111-2) destinada a ser usada para efectuar una extensión de ancho de banda en undescodificador de extensión de ancho de banda (400), en el que el analizador de señal (110) comprende un clasificadorde señal (810) o una señal derivada de una señal de audio (101-4) para determinar una indicación de ventana (811)correspondiente a una función de ventana de análisis basada en una señal característica de la señal de audio;

un controlador de ventana (820) para proporcionar información de control de ventana (821) basada en la indicación deventana (811) determinada por el clasificador de señal (810), en el que la pluralidad (111-1) de funciones de ventana deanálisis indicadas por la información de control de ventana en una salida del controlador de ventana, comprendediferentes funciones de ventana de análisis que tienen características de ventana diferentes, en el que las funciones deventana de análisis tienen diferentes funciones de transferencia caracterizadas por sus anchuras de lóbulo principales,

niveles de lóbulo laterales o caídas de lóbulo laterales;

un codificador central (120) para codificar la señal de baja frecuencia (101-2) para obtener una señal de baja frecuenciacodificada (121);

un calculador de parámetros (830) para calcular parámetros de extensión de ancho de banda (831) a partir de la señalde alta frecuencia (101-4), comprendiendo el calculador de parámetros (830) que comprende un formador de ventanascontrolado por el controlador de ventanas (820), en donde el formador de ventanas está configurado para aplicar unafunción de ventana de análisis basada en la información de control de ventana (821) a la señal de alta frecuencia (101-4); y

una interfase de salida (840) para proveer una señal de audio codificada (841), comprendiendo la señal de audiocodificada (841) la señal de frecuencia baja codificada (121), los parámetros de extensión de ancho de banda, y laindicación de ventana (811).

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10153530.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: DISCH,SASCHA, ERTEL,CHRISTIAN, MULTRUS,MARKUS, NAGEL,Frederik, LECOMTE,Jérémie, WARMBOLD,PATRICK.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/02 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
  • G10L19/14
  • G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00  tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
  • G10L21/04 G10L 21/00 […] › Compresión o expansión temporales.

PDF original: ES-2400661_T3.pdf

 

Codificación y decodificación de extensión de ancho de banda.

Fragmento de la descripción:

Codificación y decodificación de extensión de ancho de banda [0001] La presente invención es concerniente con el procesamiento de señales de audio y en particular con un codificador de extensión de ancho de banda, un procedimiento para codificar una señal de audio, un descodificador de extensión de ancho de banda, un procedimiento para descodificar una señal de audio codificada, un vocoder de fase y una señal de audio.

Además, realizaciones de la presente invención son concernientes con una aplicación de un vocoder de fase para estiramiento de tiempo puro, independiente de la extensión de ancho de banda.

El almacenamiento o transmisión de señales de audio es frecuentemente sometido a restricciones de velocidades de bits estrictas. Estas restricciones son usualmente tomadas en cuenta mediante el uso de codificadores/descodificadores (“codec”) que comprimen eficientemente la señal de audio en términos de la velocidad de información necesaria para almacenar o transmitir la señal. En el pasado, los codificadores fueron forzados a reducir drásticamente el ancho de banda de audio cuando solamente una velocidad de bits muy baja está disponible. Los codecs de audio moderno son aptos de codificar señales de banda ancha al utilizar procedimientos de extensión de anchos de banda (BWE) , como se describe en M. Dietz, L. Liljer y d, K. Kjörling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding” en la 112ª Convención AES, Münich, mayo de 2002; S. Meltzer, R. Böhm y F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM) ”, en la 112ª Convención AES, Münich, mayo de 2002; T. Ziegler, A. Ehret, P. Rkstrand y M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm” en la 112ª Convención AES, Münich, mayo de 2002; Estándar Internacional ISO/IEC 14496-3: 2001/FDPAM 1, “Bandwidth Extension”, ISO/IEC, 2002; “Speech Bandwidth extensión method and apparatus”, Vasu Iyengar et al., patente estadounidense 5, 455, 888; E. larsen, R. M. Aarts y M. Danessis. Efficient highfrecuency bandwidth extensión of music and speech. En la la 112ª Convención AES, Münich, Alemania, mayo de 2002;

R. M. Aarts y M. Danessis. Efficient high-frecuency bandwidth extension of music and speech. En la 112ª Convención AES, Münich, Alemania, mayo de 2002; R. M. Aarts, E. Larsen y O. Ouweltjes. An unified approach to low-and high frequency bandwidth extensión. En la 115ª Convención AES, Nueva York, EUA, octubre de 2003; K. Käyhkö. A robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Universidad de Helsinki de Teconología, laboratorio de Acústuca y Procesamiento de Señal de Audio, 2001; E. Larsen y R. M. Aarts. Audio bandwith Extension – Application yo psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd., 2004; E. Larsen,

R. M. Aarts y M. Danessis. Efficient high-frequency bandwidth extension of music and speech. En la 112ª Convención AES, Münich, Alemania, mayo de 2002; J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and RElectroacoustics, AU-21 (3) , junio de 1973; Solicitud de patente estadounidense 08/951, 029, Ohmori et al. Audio band width extending system and method; patente estadounidense 6895375, Malah, D. y Cox, R.V.: System for a bandwidth extension of Narrow-band speech and Frederick Nagel, Sascha Sisch, “A harmonic bandwidth extension method for audio codecs”, Conferencia Internacional ICASSP sobre Acústica, Lenguaje y Procesamiento de Señal, IEEE CNF, Taipei, Taiwán, abril de 2009.

Estos algoritmos dependen de una representación paramétrica del contenido de alta frecuencia (HF) . Esta representación es generada a partir de la parte de baja frecuencia (LF) de la señal descodificada por medio de transposición a la región espectral de HF (“parche”) y aplicación de un post-procesamiento impulsado por parámetros.

En el arte, son conocidos procedimientos de extensión de ancho de banda tales como replicación de banda espectral (SBR) o extensión de ancho de banda (HBE) . En lo siguiente, estos dos procedimientos de BWE son descritos brevemente.

Por una parte, la replicación de banda espectral (SBR) , como se describe en M. Dietz, L. Liljer y d, K. Kjörling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, en la 112ª Convención AES, Münich, mayo de 2002, utiliza un banco de filtros de espejo de cuadratura (QMF) para generar la información de HF. La aplicación de un llamado algoritmo de “parche”, señales de banda QMF más bajas son confiadas a bandas de QMF más alta, conduciendo a una replicación de la información de la parte de LF en la parte de HF. Subsecuentemente, la parte de HF es generada es adaptada para coincidir estrechamente con la parte de HF original con la ayuda de parámetros que ajustan la envolvente espectral y la tonalidad.

Por otra parte, la extensión de ancho de banda harmónica (HBE) es un esquema de extensión de ancho de banda alternativo basado en vocoders de fase. HBE permite una continuación harmónica del espectro en contraposición con SBR, que depende de un desplazamiento espectral no harmónico. Puede ser utilizado para reemplazar o enmemdar el algoritmo de parcehde SBR.

La solicitud de patente estadounidense provisional US con el número de solicitud 61/079, 841 revela un procedimiento de BWE, que puede escoger entre algoritmos de parche alternativos que operan ya sea en el dominio de frecuencia o en el dominio de tiempo. En la transformada de tiempo-frecuencia mediante el banco de filtros, se aplica una cierta ventana de análisis predeterminada. Además, en implementaciones de vocoder de fase clásicos de acuerdo con el uso del estado del arte de la forma de ventana predefinida tal como una ventana elevada al coseno o una ventana de Bartlett.

Sin embargo, el escoger una ventana de análisis predeterminada para aplicaciones de vocoder siempre abarca que se haga una solución intermedia por el diseñador de aplicación en términos de calidad de audio perceptual global obtenida para diferentes clases de señales de audio. Así, aunque la calidad de audio media puede ser optimizada por la elección inicial de una cierta ventana, la calidad de audio para cada clase individual de señales sigue siendo sub-óptima.

Además, se encontró que ciertas señales se benefician de usar ventanas de análisis especializadas para un vocoder de fase, que pueden sustancialmente ser usadas para el esparcimiento temporal de la señal de audio sin modificar el tono de la misma.

Por consiguiente, se requiere un concepto para seleccionar las ventanas de análisis óptimas tal como dentro de un esquema de BWE. Sin embargo, medidas contra la degradación recién mencionada de la calidad de audio perceptual deben preferiblemente no dar como resultado una complejidad de cálculos ilustrativamente incrementada de los codecs empleados.

WO 01/26095 A1 proporciona un procedimiento y un aparato para la codificación de envolvente espectral. El documento enseña cómo llevar a cabo y señalizar de forma compacta una asignación de tiempo / frecuencia de la representación de envolvente, y, además, codificar los datos de envolvente espectral utilizando eficientemente la codificación direccional adaptativa tiempo / frecuencia. El procedimiento es aplicable tanto a sistemas de codificación de audio natural y de voz y es especialmente adecuado para codificadores que utilizan SBR [WO 98/57436] u otros procedimientos de reconstrucción de alta frecuencia.

EP 1 672 618 A1 da a conocer un procedimiento para la determinación de un borde de tiempo y una resolución de frecuencia en la codificación de envolvente espectral. Un tipo de trama para una trama SBR actual se determina de acuerdo con un tipo de borde final de una trama anterior, así como la presencia de un transitorio en la trama SBR actual. Un borde de inicio se determina de acuerdo con el borde final de la trama SBR anterior. Para un marco FIXFIX, se utiliza un ajuste de resolución de tiempo bajo. Para un marco FIXVAR o VARVAR, se lleva a cabo una búsqueda de las fronteras intermedias en la región entre el transitorio y la ubicación de borde final máxima. El borde final se determina también en esta etapa. Si hay exceso de capacidad para más bordes, se lleva a cabo otra búsqueda en la región entre el transitorio y el borde de inicio. Para un marco VARFIX, sólo debe llevarse a cabo una búsqueda, en toda la región dividida por un borde de inicio variable y un borde de extremo fijo. Todo lo anterior se realiza con dos operaciones de búsqueda... [Seguir leyendo]

 


Reivindicaciones:

1. Un codificador de extensión de ancho de banda (800) para codificar una señal de audio (101-1) para obtener una señal de audio codificada (103-1) , comprendiendo la señal de audio (101-1) una señal de baja frecuencia (101-2) que comprende una banda de frecuencia central (101-3) y una señal de alta frecuencia (101-4) que comprende una banda de frecuencia superior (101-5) , comprendiendo el codificador (800) :

un analizador de señal (110) para analizar la señal de audio (101-1) , teniendo la señal de audio (101-1) un bloque (1016) de muestras de audio, teniendo el bloque (101-6) una duración de tiempo especificada, en donde el analizador de señal (110) está configurado para determinar, a partir de una pluralidad (111-1) de funciones de ventanas de análisis, una función de ventana de análisis (111-2) destinada a ser usada para efectuar una extensión de ancho de banda en un descodificador de extensión de ancho de banda (400) , en el que el analizador de señal (110) comprende un clasificador de señal (810) o una señal derivada de una señal de audio (101-4) para determinar una indicación de ventana (811) correspondiente a una función de ventana de análisis basada en una señal característica de la señal de audio;

un controlador de ventana (820) para proporcionar información de control de ventana (821) basada en la indicación de ventana (811) determinada por el clasificador de señal (810) , en el que la pluralidad (111-1) de funciones de ventana de análisis indicadas por la información de control de ventana en una salida del controlador de ventana, comprende diferentes funciones de ventana de análisis que tienen características de ventana diferentes, en el que las funciones de ventana de análisis tienen diferentes funciones de transferencia caracterizadas por sus anchuras de lóbulo principales, niveles de lóbulo laterales o caídas de lóbulo laterales;

un codificador central (120) para codificar la señal de baja frecuencia (101-2) para obtener una señal de baja frecuencia codificada (121) ;

un calculador de parámetros (830) para calcular parámetros de extensión de ancho de banda (831) a partir de la señal de alta frecuencia (101-4) , comprendiendo el calculador de parámetros (830) que comprende un formador de ventanas controlado por el controlador de ventanas (820) , en donde el formador de ventanas está configurado para aplicar una función de ventana de análisis basada en la información de control de ventana (821) a la señal de alta frecuencia (1014) ; y

una interfase de salida (840) para proveer una señal de audio codificada (841) , comprendiendo la señal de audio codificada (841) la señal de frecuencia baja codificada (121) , los parámetros de extensión de ancho de banda, y la indicación de ventana (811) .

2. Un codificador de extensión de ancho de banda (800) según la reivindicación 1, en el que el clasificador de señal

(810) comprende:

un medidor de tonalidad (910) configurado para analizar la señal de audio para determinar una medida de la tonalidad de la señal de audio;

un caracterizador de señal (920) para determinar una característica de señal de la señal de audio a partir de la medida de tonalidad; y

un selector de ventana (930) para proporcionar la indicación de ventana (811) a partir de la característica de señal.

3. Un codificador de extensión de ancho de banda (800) según la reivindicación 1, en el que se proporciona la información de control de ventana (821) al proporcionador de parámetros de modo que una primera función de ventana caracterizada por una función de transferencia con un primer ancho de un lóbulo principal se aplica por el formador de ventanas del calculador de parámetros (830) , cuando una medida de tonalidad determinada de la señal de audio está por debajo de un umbral predefinido, y esta segunda función de ventana caracterizada por una función de transferencia con un segundo ancho de un lóbulo principal se aplica por el formador de ventanas del calculador de parámetros (830) , cuando la medida de tonalidad determinada de la señal de audio es igual o mayor del umbral predefinido, en donde el primer ancho del lóbulo principal es mayor que el segundo ancho del lóbulo principal.

4. Un descodificador de extensión de ancho de banda (400) para descodificar una señal de audio codificada (401-1) , comprendiendo la señal de audio codificada (401-1) una señal de baja frecuencia codificada (401-2) y parámetros de banda superior (401-3) , comprendiendo el descodificador (400) :

un descodificador central (410) para descodificar la señal de baja frecuencia codificada (401-2) , en donde la señal de baja frecuencia descodificada (411-1) comprende una banda de frecuencia central (411-2) ;

un módulo de interconexiones (420) que está configurado para generar una señal interconectada (421) en base a la señal de baja frecuencia descodificada (411-1) y los parámetros de banda superior (401-3) , en donde la señal interconectada (421) comprende una banda de frecuencia superior (221-2) generada a partir de la banda de frecuencia central (211-2.

41. 2) , donde el módulo de interconexiones (420) comprende un formador de ventanas controlable para seleccionar una función de ventana de análisis de una pluralidad de funciones de ventana de análisis en base a la indicación de ventana (401-4) de modo que se obtiene la señal interconectada (421) , en el que la pluralidad (111-1) de funciones de ventana de análisis indicadas por la indicación de ventana comprende diferentes funciones de ventana de análisis que tienen características de ventana diferentes, en el que las funciones de ventana de análisis tienen diferentes funciones de transferencia caracterizadas por sus anchuras de lóbulo principales, niveles de lóbulo laterales o caídas de lóbulo laterales; y

un combinador (430) que está configurado para combinar la señal interconectada (421) y la señal de baja frecuencia descodificada (411-1) para obtener una señal de salida combinada (431) .

5. Un procedimiento para codificar una señal de audio (101-1) , comprendiendo la señal de audio (101-1) una señal de baja frecuencia (101-2) que comprende una banda de frecuencia central (101-3) y una señal de alta frecuencia (101-4) que comprende una banda de frecuencia superior (101-5) , comprendiendo el procedimiento (100; 300; 500; 1000) :

analizar la señal de audio (110) , teniendo la señal de audio (101-1) un bloque (101-6) de muestras de audio, teniendo el bloque (101-6) una duración de tiempo especificada para determinar, a partir de una pluralidad (111-1) de ventanas de análisis, una función de ventana de análisis (111-2) destinada a ser usada para efectuar una extensión de ancho de banda en un descodificador de extensión de ancho de banda (400) ; en el que el análisis de señal de audio comprende clasificar la señal de audio o una señal derivada de una señal de audio (101-4) empleando un clasificador de señal (810) para determinar una indicación de ventana (811) correspondiente a una función de ventana de análisis basada en una señal característica de la señal de audio; proporcionar información de control de ventana (821) , empleando un controlador de ventana (820) a partir de la indicación de ventana (811) determinada por el clasificador de señal (810) , en el que la pluralidad (111-1) de funciones de ventana de análisis indicadas por la información de control de ventana en una salida del controlador de ventana, comprende diferentes funciones de ventana de análisis que tienen características de ventana diferentes, en el que las funciones de ventana de análisis tienen diferentes funciones de transferencia caracterizadas por sus anchuras de lóbulo principales, niveles de lóbulo laterales o caídas de lóbulo laterales;

codificar (120) la señal de baja frecuencia (102-2) para obtener una señal de baja frecuencia codificada (121) ;

calcular (130) parámetros de extensión de ancho de banda a partir de la señal de alta frecuencia (101-4) , comprendiendo el cálculo aplicar una función de ventana de análisis basada en la información de control de ventana (821) a la señal de alta frecuencia (101-4) por un formador de ventanas controlado por el controlador de ventanas (820) ;

proporcionar una señal de audio codificada (841) , por una interfase de salida (840) , comprendiendo la señal de audio codificada (841) la señal de frecuencia baja codificada (121) , los parámetros de extensión de ancho de banda, y la indicación de ventana (811) .

6. Un procedimiento para descodificar una señal de audio codificada (401-1) , comprendiendo la señal de audio codificada (401-1) una señal de baja frecuencia codificada (401-2) y parámetros de banda superior (401-3) , y una indicación de ventana (401-4) , comprendiendo el procedimiento:

descodificar (410) la señal de baja frecuencia codificada (401-2) , en donde la señal de baja frecuencia descodificada (411-1) comprende una banda de frecuencia central (411-2) ;

generar (420) una señal interconectada (421) en base a la señal de baja frecuencia descodificada (411-1) y los parámetros de banda superior (401-3) , en donde la señal interconectada (421) comprende una banda de frecuencia superior (221-2) generada a partir de la banda de frecuencia central (411-2) , donde la etapa de generar una señal interconectada comprende seleccionar, por un formador de ventana seleccionable, una función de ventana de análisis a partir de una pluralidad de funciones de ventana de análisis en base a la indicación de ventana (401-4) y aplicar la función de ventana de análisis seleccionada a la señal de baja frecuencia decodificada (411-1) de modo que se obtiene la señal interconectada (421) , en el que la pluralidad (111-1) de funciones de ventana de análisis indicadas por la indicación de ventana comprende diferentes funciones de ventana de análisis que tienen características de ventana diferentes, en el que las funciones de ventana de análisis tienen diferentes funciones de transferencia caracterizadas por sus anchuras de lóbulo principales, niveles de lóbulo laterales o caídas de lóbulo laterales; y

combinar (430) la señal interconectada (421) y la señal de baja frecuencia descodificada (411-1) para obtener una señal de salida combinada (431) .

7. Un programa de computadora caracterizado porque tiene códigos de de programa para efectuar el procedimiento de la reivindicación 5 o la reivindicación 6, cuando el programa de computadora es ejecutado en una computadora.


 

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .