Aparato y procedimiento para decodificar una señal de audio codificada.

Un aparato para decodificar (100) una señal de audio codificada (102),

la señal de audio codificada (102) comprende una primera porción (104a) codificada de acuerdo con un primer algoritmo de codificación, una segunda porción (104b) codificada de acuerdo con un segundo algoritmo de codificación, parámetros de ampliación de ancho de banda BWE (106) para la primera porción (104a) y la segunda porción (104b) y una información del modo de codificación (108) que indica un primer algoritmo de decodificación o un segundo algoritmo de decodificación, que comprende:

Un primer decodificador (110a) parar decodificar la primera porción (104a) de acuerdo con el primer algoritmo de decodificación para una primera porción de tiempo de la señal codificada (102) para obtener una primera señal decodificada (114a), en el que el primer decodificador (110a) comprende un codificador basado en LPC;

Un segundo decodificador (110b) para decodificar la segunda porción (104b) de acuerdo con el segundo algoritmo de decodificación para una segunda porción de tiempo de la señal codificada (102) para obtener una segunda señal decodificada (114b), en el que el segundo decodificador (110b) comprende un codificador basado en transformada; Un módulo BWE (130) con frecuencia de cruce (fx) controlable, el módulo BWE (130) configurado para desarrollar un algoritmo de ampliación de ancho de banda utilizando la primera señal decodificada (114a) y los parámetros BWE (106) para la primera porción (104a), y para desarrollar un algoritmo de 20 ampliación de ancho de banda utilizando la segunda señal decodificada (114b) y el parámetro de ampliación de ancho de banda (106) para la segunda porción (104b),

En el que el módulo BWE (130) está configurado para utilizar una frecuencia de cruce para la ampliación de ancho de banda para la primera señal codificada (114a) y para utilizar una segunda frecuencia de cruce para la ampliación de ancho de banda para la segunda señal decodificada (114b), 25 en el que la primera frecuencia de cruce es mayor que la segunda frecuencia de cruce; y

un controlador (140) para controlar la frecuencia de cruce (fx) para el módulo BWE (130) de acuerdo con la información del modo de codificación (108).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004522.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GRILL, BERNHARD, POPP, HARALD, GAYER,MARC, RETTELBACH,NIKOLAUS, LOHWASSER,MARKUS, MULTRUS,MARKUS, JANDER,Manuel, NEUENDORF,Max, KRAEMER,Ulrich, NAGEL,Frederik, BACIGALUPO,VIRGILIO.

Fecha de Publicación: 1 de Marzo de 2013.

Clasificación Internacional de Patentes:

G10L19/14
G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

PDF original: ES-2396927_T3.pdf

Fragmento de la descripción:

Aparato y procedimiento para decodificar una señal de audio codificada [0001] La presente invención se relaciona con un aparato y un procedimiento para decodificar una señal de audio codificada, un aparato para codificar, un procedimiento para codificar y una señal de audio.

En la técnica, se conocen esquemas de codificación de dominio de frecuencia como MP3 o AAC (sigla en inglés correspondiente a la traducción codificación de audio avanzada) . Estos codificadores de dominio de frecuencia se basan en una conversión de dominio de tiempo/dominio de frecuencia, una etapa de cuantización subsecuente, donde el error de cuantización es controlado utilizando información desde un módulo psicoacústico, y una etapa de codificación, donde los coeficientes espectrales cuantizados y la información lateral correspondiente son codificados por entropía utilizando tablas de códigos.

Por otro lado, existen codificadores muy apropiados para el procesamiento de voz como AMR-WB+ (sigla en inglés correspondiente a la traducción velocidad múltiple adaptativa - banda ancha) como se describe en 3GPP TS 26.290. Dichos esquemas de codificación de voz realizan un filtro Predictivo Lineal de una señal de dominio del tiempo. Dicho filtro PL deriva de un análisis Predictivo Lineal de la señal de entrada de dominio del tiempo. Los coeficientes del filtro Predictivo Lineal resultantes son luego cuantizados/codificados y transmitidos como información lateral. El proceso se conoce como Codificación de Predicción Lineal (LPC, por su sigla en inglés) . En la salida del filtro, la señal residual de predicción o señal de error de predicción también conocida como señal de excitación es codificada utilizando las etapas de análisis-por-síntesis del codificador ACELP (sigla en inglés que corresponde a la traducción predicción lineal con excitación por código algebraico) o, en forma alternativa, es codificada utilizando un codificador de transformación, que utiliza una transformada de Fourier con solapamiento. La decisión entre la codificación ACELP (sigla en inglés que corresponde a la traducción predicción lineal con excitación por código algebraico) y la codificación de excitación Codificada de Transformación también llamada codificación TCX (por su sigla en inglés) se realiza utilizando un algoritmo de bucle cerrado o bucle abierto [0004] Los esquemas de codificación de audio en dominio de frecuencia como el esquema de codificación de alta eficiencia AAC (sigla en inglés que corresponde a la traducción codificador de audio avanzado) , que combina un esquema de codificación AAC y una técnica de replicación de banda espectral puede combinarse también con una herramienta de codificación de estero conjunto o multi-canal conocida bajo la denominación “MPEG surround” (sigla en inglés que corresponde a la traducción Grupo de Expertos en Imágenes en Movimiento [0005] Dicha replicación de banda espectral (SBR, por su sigla en inglés) comprende una técnica que obtuvo popularidad como complemento de la codificación de audio de percepción popular como MP3 y la codificación de audio avanzada (AAC, por su sigla en inglés) . SBR comprende un procedimiento de ampliación de ancho de banda (BWE, por su sigla en inglés) donde la banda baja (banda base o banda núcleo) del espectro es codificada utilizando una codificación existente, en tanto que la banda superior (o banda alta) es parametrizada en forma grosera utilizando pocos parámetros. SBR hace uso de una correlación entre la banda baja y la banda alta con el fin de predecir la señal de banda alta extrayendo rasgos de la banda inferior.

SBR es, por ejemplo, utilizada en HE-AAC o AAC+SBR. En SBR es posible cambiar en forma dinámica la frecuencia de cruce (frecuencia de inicio de BWE) como también la resolución temporal que implica la cantidad de conjuntos de parámetros (envolvente) por cuadro. AMR-WB+ implementa una ampliación de ancho de banda en dominio de tiempo combinada con un decodificador de núcleo de dominio de tiempo/frecuencia conmutada, otorgando una buena calidad de audio especialmente para señales de voz. Un factor limitante de la calidad de audio de AMR-WB+ es el ancho de banda de audio común a ambos codificadores de núcleo y frecuencia de inicio BWE que represente un cuarto de la frecuencia de muestreo interna del sistema. Mientras que el modelo de voz ACELP es capaz de modelar señales de voz lo suficientemente bien por todo el ancho de banda, el codificador de audio en dominio de frecuencia fracasa en el envío de una calidad decente para algunas señales de audio generales. En consecuencia, los esquemas de codificación de voz muestran una alta calidad para las señales de voz aún a baja tasa de bits, pero muestran una pobre calidad para las señales de música a baja tasa de bits.

Esquemas de codificación en frecuencia de dominio como HE-AAC son ventajosos porque muestran una alta calidad a baja tasa de bits para señales de música. Sin embargo, es problemático, la calidad de señales de voz a baja tasa de bits.

Por lo tanto, las diferentes clases de señal de audio demandan diferentes características de la herramienta de ampliación de ancho de banda. En WO 02/41302 A y en 2008/031458 A1 se describen unos enfoques para ampliación de ancho de banda.

El objetivo de la presente invención es proveer un concepto mejorado de codificación/decodificación.

El objetivo se logra por medio de un decodificador de audio de acuerdo con la reivindicación 1, un procedimiento para decodificar audio de acuerdo con la reivindicación 13, un codificador de acuerdo con la reivindicación 8, un procedimiento para codificar de acuerdo con la reivindicación 14, una señal codificada de acuerdo con la reivindicación 15 o un programa de computación de acuerdo con la reivindicación 16.

La presente invención se basa en descubrir que la frecuencia de cruce o la frecuencia de inicio BWE es un parámetro que ejerce influencia en la calidad de audio. Mientras que los codificadores de domino de tiempo (voz) usualmente codifican todo el rango de frecuencia para una velocidad de muestreo dada, el ancho de banda del audio es un parámetro de sintonía (por ejemplo codificadores para música) , que disminuye la cantidad total de líneas espectrales para codificar y al mismo tiempo aumentará la cantidad de bits por línea espectral disponible para codificar, significando que se realiza un intercambio de calidad versus ancho de banda de audio. Por lo tanto, en el nuevo enfoque, se combinan diferentes codificadores de núcleo con anchos de banda de audio variable con un sistema conmutado con un módulo BWE común, donde el módulo BWE debe representar los diferentes anchos de banda de audio.

Un modo directo sería hallar el menor de todos los anchos de bandas de los codificadores de núcleo y utilizarlo como frecuencia de inicio de BWE, pero esto deterioraría la calidad de audio percibida. Además, la eficiencia de codificación sería reducida, ya que en secciones de tiempo donde un codificador de núcleo es activo el cual tiene un mayor ancho de banda que la frecuencia de inicio BWE, algunas regiones de frecuencia serían representadas dos veces, por el codificador de núcleo sí como BWE que introduce redundancia. Una mejor solución consiste por lo tanto en adaptar la frecuencia de inicio BWE al ancho de banda de audio del codificador de núcleo utilizado.

Por lo tanto, de acuerdo con las formas de realización de la presente invención un sistema de codificación de audio combina una herramienta de ampliación de ancho de banda con un codificador de núcleo que depende de la señal (por ejemplo codificador de voz/audio conmutado) , donde la frecuencia de cruce comprende un parámetro variable. Una salida clasificadora de señal que controla la conmutación entre diferentes modos de codificación de núcleo puede también ser utilizada para conmutar las características del sistema BWE como la resolución temporal y borrosidad, resolución espectral y la frecuencia de cruce.

Por lo tanto, un aspecto de la presente invención consisten un decodificador de audio para una señal de audio codificada, la señal de audio codificada comprende una primera porción codificada de acuerdo con un primer algoritmo de codificación, una segunda porción codificada de acuerdo con un segundo algoritmo de codificación, parámetros BWE para la primera porción y la segunda porción e información de modo de codificación que indica un primer algoritmo de decodificación o un segundo algoritmo de decodificación, que comprenden un primer decodificador, un segundo decodificador, un módulo BWE y un controlador. El primer decodificador decodifica la primera porción de acuerdo con el primer algoritmo de decodificación para una primera... [Seguir leyendo]

Reivindicaciones:

1. Un aparato para decodificar (100) una señal de audio codificada (102) , la señal de audio codificada (102) comprende una primera porción (104a) codificada de acuerdo con un primer algoritmo de codificación, una segunda porción (104b) codificada de acuerdo con un segundo algoritmo de codificación, parámetros de ampliación de ancho de banda BWE (106) para la primera porción (104a) y la segunda porción (104b) y una información del modo de codificación (108) que indica un primer algoritmo de decodificación o un segundo algoritmo de decodificación, que comprende:

Un primer decodificador (110a) parar decodificar la primera porción (104a) de acuerdo con el primer algoritmo de decodificación para una primera porción de tiempo de la señal codificada (102) para obtener una primera señal decodificada (114a) , en el que el primer decodificador (110a) comprende un codificador basado en LPC; Un segundo decodificador (110b) para decodificar la segunda porción (104b) de acuerdo con el segundo algoritmo de decodificación para una segunda porción de tiempo de la señal codificada (102) para obtener una segunda señal decodificada (114b) , en el que el segundo decodificador (110b) comprende un codificador basado en transformada; Un módulo BWE (130) con frecuencia de cruce (fx) controlable, el módulo BWE (130) configurado para desarrollar un algoritmo de ampliación de ancho de banda utilizando la primera señal decodificada (114a) y los parámetros BWE (106) para la primera porción (104a) , y para desarrollar un algoritmo de ampliación de ancho de banda utilizando la segunda señal decodificada (114b) y el parámetro de ampliación de ancho de banda (106) para la segunda porción (104b) , En el que el módulo BWE (130) está configurado para utilizar una frecuencia de cruce para la ampliación de ancho de banda para la primera señal codificada (114a) y para utilizar una segunda frecuencia de cruce para la ampliación de ancho de banda para la segunda señal decodificada (114b) , en el que la primera frecuencia de cruce es mayor que la segunda frecuencia de cruce; y un controlador (140) para controlar la frecuencia de cruce (fx) para el módulo BWE (130) de acuerdo con la información del modo de codificación (108) .

2. El aparato decodificador (100) de la reivindicación 1, que además comprende una interfaz de entrada (900) para introducir la señal de audio codificada (102) como una secuencia de bits.

3. El aparato decodificador (100) de la reivindicación 1 o de la reivindicación 2, donde el módulo BWE (130) comprende un conmutador (132) configurado para conmutar entre la primera y segunda porción de tiempo desde el primer decodificador (110a) al segundo decodificador (110b) para que el algoritmo de ampliación de ancho de banda es aplicado a la primera señal decodificada (114a) o a la segunda señal decodificada (114b) .

4. El aparato decodificador (100) de la reivindicación 3, donde el controlador (140) configurado para controlar el conmutador (132) depende del algoritmo de decodificación indicado dentro de la información del modo de codificación (108) .

5. El aparato decodificador (100) de una de las reivindicaciones precedentes, donde el controlador (140) está configurado para aumentar la frecuencia de cruce (fx) dentro de la primera porción de tiempo o para disminuir la frecuencia de cruce (fx) dentro de la segunda porción de tiempo.

6. Un procedimiento para decodificar una señal de audio codificada (102) , la señal de audio codificada (102) comprende una primera porción (104a) codificada de acuerdo con un primer algoritmo de codificación, una segunda porción (104b) codificada de acuerdo con un segundo algoritmo de codificación, parámetros de ampliación de ancho de banda BWE (106) para la primera porción (104a) y la segunda porción (104b) y una información del modo de codificación (108) que indica un primera algoritmo de decodificación o un segundo algoritmo de decodificación, comprendiendo el procedimiento:

la decodificación de la primera porción (104a) de acuerdo con el primer algoritmo de decodificación para una primera porción de tiempo de la señal codificada (102) para obtener una primera señal decodificada (114a) , en el que la etapa de decodificar la primera porción comprende emplear un codificador basado en LPC; la decodificación de la segunda porción (104b) de acuerdo con el segunda algoritmo de decodificación para una segunda porción de tiempo de la señal codificada (102) para obtener una segunda señal decodificada (114b) , en el que la etapa de decodificar la segunda porción (104b) comprende utilizar un codificador basado en transformada; desarrollar un algoritmo de ampliación de ancho de banda por un módulo BWE (130) con frecuencia de cruce (fx) controlable, utilizando la primera señal decodificada (114a) y los parámetros BWE (106) para la primera porción (104a) , y desarrollar, por el módulo BWE (130) con frecuencia de cruce (fx) controlable, un algoritmo de ampliación de ancho de banda utilizando la segunda señal decodificada (114b) y el parámetro de ampliación de ancho de banda (106) para la segunda porción (104b) ; en el que se utiliza una primera frecuencia de cruce para la ampliación de ancho de banda para la primera señal codificada (114a) y una segunda frecuencia de cruce para la ampliación de ancho de banda para la segunda señal decodificada (114b) , en el que la primera frecuencia de cruce es mayor que la segunda frecuencia de cruce; y controlar la frecuencia de cruce (fx) para el módulo BWE (130) de acuerdo con la información del modo de codificación (108) .

7. Un programa de computación para desarrollar, al ser utilizado en una computadora, el procedimiento de la reivindicación 6.

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]