Un aparato y un método para decodificar una señal de audio codificada.
Un aparato para codificar (200) una señal de audio (105) que comprende:
un primer codificador (210a) configurado para codificar de acuerdo con un primer algoritmo decodificación, el primer algoritmo de codificación posee un primer ancho de banda de frecuencia, en el queel primer codificador (210a) es un codificador de voz;
un segundo codificador (210b) configurado para codificar de acuerdo con un segundo algoritmo decodificación, el segundo algoritmo de codificación posee un ancho de banda de frecuencia menor que elprimer ancho de banda de frecuencia, en el que el segundo codificador (210b) comprende un codificadorde música;
una etapa de decisión (220) para indicar el primer algoritmo de codificación para una primera porción detiempo (204a) de la señal de audio (105) y para indicar el segundo algoritmo de codificación para unasegunda porción de tiempo (204b) de la señal de audio (105), siendo la segunda porción de tiempo(204b) diferente a la primera porción de tiempo (204a); y
un módulo de ampliación de ancho de banda (230) para calcular parámetros de ampliación de ancho debanda (106) para la señal de audio (105), en el que el módulo de ampliación de ancho de banda (230)está configurado para ser controlado por la etapa de decisión (220) para calcular los parámetros deampliación de ancho de banda (106) para una primera banda que no incluye el primer ancho de banda defrecuencia en la primera porción de tiempo (204a) de la señal de audio (105) y para una segunda bandaque no incluye el segundo ancho de banda de frecuencia en la segunda porción (204b) de la señal deaudio (105), en el que el primer ancho de banda de frecuencia o el segundo ancho de banda defrecuencia está definido por una frecuencia de cruce (fx) variable controlada por la etapa de decisión(220),
en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que estánfuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro porla frecuencia de cruce,
en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que estánfuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectropor la frecuencia de cruce, y en el que la frecuencia de cruce para la primera banda es mayor que lafrecuencia de cruce de la segunda banda.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11162255.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: KRAMER, ULRICH, GRILL, BERNHARD, POPP, HARALD, GAYER,MARC, RETTELBACH,NIKOLAUS, LOHWASSER,MARKUS, MULTRUS,MARKUS, JANDER,Manuel, NEUENDORF,Max, NAGEL,Frederik, BACIGALUPO,VIRGILIO.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/008 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
- G10L19/20 G10L 19/00 […] › utilizando codificación específica de clase de sonido, codificadores híbridos o codificación basada en objeto.
- G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
- G10L21/038 G10L 21/00 […] › utilizando técnicas de extensión de banda.
PDF original: ES-2439549_T3.pdf
Fragmento de la descripción:
Un aparato y un método para decodificar una señal de audio codificada [0001] La presente invención se refiere a un aparato y un método para codificar.
En la técnica, se conocen esquemas de codificación de dominio de frecuencia como MP3 o AAC (codificación de audio avanzada) . Estos codificadores de dominio de frecuencia se basan en una conversión de dominio de tiempo/dominio de frecuencia, una etapa de cuantización subsecuente, donde el error de cuantización es controlado utilizando información desde un módulo psicoacústico, y una etapa de codificación, donde los coeficientes espectrales cuantizados y la información lateral correspondiente son codificados por entropía utilizando tablas de códigos.
Por otro lado, existen codificadores muy apropiados para el procesamiento de voz como AMR-WB+
(velocidad múltiple adaptativa - banda ancha) como se describe en 3GPP TS 26.290. Dichos esquemas de codificación de voz realizan un filtro Predictivo Lineal de una señal de dominio del tiempo. Dicho filtro LP deriva de un análisis Predictivo Lineal de la señal de entrada de dominio del tiempo. Los coeficientes del filtro LP resultantes son luego cuantizados/codificados y transmitidos como información lateral. El proceso se conoce como Codificación de Predicción Lineal (LPC) . En la salida del filtro, la señal residual de predicción o señal de error de predicción también conocida como señal de excitación es codificada utilizando las etapas de análisis-por-síntesis del codificador ACELP (predicción lineal con excitación por código algebraico) o, en forma alternativa, es codificada utilizando un codificador de transformación, que utiliza una transformada de Fourier con solapamiento. La decisión entre la codificación ACELP y la codificación de excitación Codificada de Transformación también llamada codificación TCX se realiza utilizando un algoritmo de bucle cerrado o bucle abierto. Los esquemas de codificación de audio en dominio de frecuencia como el esquema de codificación de alta eficiencia AAC, que combina un esquema de codificación AAC y una técnica de replicación de banda espectral puede combinarse también con una herramienta de codificación de estero conjunto o multi-canal conocida bajo la denominación “MPEG surround” (Grupo de Expertos en Imágenes en Movimiento) . Por otra parte, codificadores de voz tales como AMR-WB+ también tienen un estado de mejora de frecuencia alta y una funcionalidad estéreo.
Dicha replicación de banda espectral (SBR) comprende una técnica que obtuvo popularidad como complemento de la codificación de audio de percepción popular como MP3 y la codificación de audio avanzada (AAC) . SBR comprende un método de ampliación de ancho de banda (BWE) donde la banda baja (banda base o banda núcleo) del espectro es codificada utilizando una codificación existente, en tanto que la banda superior (o banda alta) es parametrizada en forma grosera utilizando pocos parámetros. SBR hace uso de una correlación entre la banda baja y la banda alta con el fin de predecir la señal de banda alta extrayendo rasgos de la banda inferior.
SBR es, por ejemplo, utilizada en HE-AAC o AAC+SBR. En SBR es posible cambiar en forma dinámica la frecuencia de cruce (frecuencia de inicio de BWE) como también la resolución temporal que implica la cantidad de conjuntos de parámetros (envolvente) por cuadro. AMR-WB+ implementa una ampliación de ancho de banda en dominio de tiempo combinada con un decodificador de núcleo de dominio de tiempo/frecuencia conmutada, otorgando una buena calidad de audio especialmente para señales de voz. Un factor limitante de la calidad de audio de AMR-WB+ es el ancho de banda de audio común a ambos codificadores de núcleo y frecuencia de inicio BWE
que represente un cuarto de la frecuencia de muestreo interna del sistema. Mientras que el modelo de voz ACELP es capaz de modelar señales de voz lo suficientemente bien por todo el ancho de banda, el codificador de audio en dominio de frecuencia fracasa en el envío de una calidad decente para algunas señales de audio generales. En consecuencia, los esquemas de codificación de voz muestran una alta calidad para las señales de voz aún a baja tasa de bits, pero muestran una pobre calidad para las señales de música a baja tasa de bits.
Esquemas de codificación en frecuencia de dominio como HE-AAC son ventajosos porque muestran una alta calidad a baja tasa de bits para señales de música. Sin embargo, es problemático, la calidad de señales de voz a baja tasa de bits.
Por lo tanto, las diferentes clases de señal de audio demandan diferentes características de la herramienta de ampliación de ancho de banda.
Propuestas de extensión de ancho de banda son por ejemplo las descritas en las patentes WO 02/41302 A y WO 2008/031458 A1.
El objetivo de la presente invención es proveer un concepto mejorado de codificación.
El objetivo se logra por medio de un decodificador de audio de acuerdo con la reivindicación 1, un método 5 para decodificar de acuerdo con la reivindicación 2 o un programa de computación de acuerdo con la reivindicación 3.
La presente invención se basa en descubrir que la frecuencia de cruce o la frecuencia de inicio BWE es un parámetro que ejerce influencia en la calidad de audio. Mientras que los codificadores de domino de tiempo (voz) 10 usualmente codifican todo el rango de frecuencia para una velocidad de muestreo dada, el ancho de banda del audio es un parámetro de sintonía (por ejemplo codificadores para música) , que disminuye la cantidad total de líneas espectrales para codificar y al mismo tiempo aumentará la cantidad de bits por línea espectral disponible para codificar, significando que se realiza un intercambio de calidad versus ancho de banda de audio. Por lo tanto, en el nuevo enfoque, se combinan diferentes codificadores de núcleo con anchos de banda de audio variable con un sistema conmutado con un módulo BWE común, donde el módulo BWE debe representar los diferentes anchos de banda de audio.
Un modo directo sería hallar el menor de todos los anchos de bandas de los codificadores de núcleo y utilizarlo como frecuencia de inicio de BWE, pero esto deterioraría la calidad de audio percibida. Además, la eficiencia de codificación sería reducida, ya que en secciones de tiempo donde un codificador de núcleo es activo el cual tiene un mayor ancho de banda que la frecuencia de inicio BWE, algunas regiones de frecuencia serían representadas dos veces, por el codificador de núcleo sí como BWE que introduce redundancia. Una mejor solución consiste por lo tanto en adaptar la frecuencia de inicio BWE al ancho de banda de audio del codificador de núcleo utilizado.
Por lo tanto, de acuerdo con las formas de realización de la presente invención un sistema de codificación de audio combina una herramienta de ampliación de ancho de banda con un codificador de núcleo que depende de la señal (por ejemplo codificador de voz/audio conmutado) , donde la frecuencia de cruce comprende un parámetro variable. Una salida clasificadora de señal que controla la conmutación entre diferentes modos de codificación de núcleo puede también ser utilizada para conmutar las características del sistema BWE como la resolución temporal y borrosidad, resolución espectral y la frecuencia de cruce.
En contraposición con las formas de realización, SBR en técnicas previas se aplica a un codificador de audio sin conmutador que solamente dan por resultado las siguientes desventajas. La resolución temporal así como 35 la frecuencia de cruce podrían aplicarse en forma dinámica, pero implementaciones de vanguardia como la fuente 3GPP aplican sólo un cambio de resolución temporal para tasa de bits como, por ejemplo, castañuelas. Asimismo, una resolución temporal total más fina podría escogerse velocidades mayores como un parámetro de sintonía que depende de o un valor umbral de decisión que controla la resolución temporal, que combina de la mejor manera la tasa de bits de al señal. No se lleva a cabo una clasificación explícita que determina el tipo de resolución temporal,
como por ejemplo, música tonal estacionaria versus voz. Las formas de realización de la presente invención superan estas desventajas. Las formas de realización permiten especialmente una frecuencia de cruce adaptada combinada con una opción flexible para el codificador de núcleo utilizado para que la señal codificada provea una calidad significantemente mayor en comparación con un codificador/decodificador de técnicas previas 45 Breve descripción de los dibujos [0015] Las formas de realización preferidas de la presente invención se describen a continuación con respecto a los dibujos adjuntos, donde:... [Seguir leyendo]
Reivindicaciones:
1. Un aparato para codificar (200) una señal de audio (105) que comprende:
5
un primer codificador (210a) configurado para codificar de acuerdo con un primer algoritmo de
codificación, el primer algoritmo de codificación posee un primer ancho de banda de frecuencia, en el que
el primer codificador (210a) es un codificador de voz;
10 un segundo codificador (210b) configurado para codificar de acuerdo con un segundo algoritmo de
codificación, el segundo algoritmo de codificación posee un ancho de banda de frecuencia menor que el
primer ancho de banda de frecuencia, en el que el segundo codificador (210b) comprende un codificador
de música;
15 una etapa de decisión (220) para indicar el primer algoritmo de codificación para una primera porción de
tiempo (204a) de la señal de audio (105) y para indicar el segundo algoritmo de codificación para una
segunda porción de tiempo (204b) de la señal de audio (105) , siendo la segunda porción de tiempo
(204b) diferente a la primera porción de tiempo (204a) ; y
20 un módulo de ampliación de ancho de banda (230) para calcular parámetros de ampliación de ancho de
banda (106) para la señal de audio (105) , en el que el módulo de ampliación de ancho de banda (230)
está configurado para ser controlado por la etapa de decisión (220) para calcular los parámetros de
ampliación de ancho de banda (106) para una primera banda que no incluye el primer ancho de banda de
frecuencia en la primera porción de tiempo (204a) de la señal de audio (105) y para una segunda banda
25 que no incluye el segundo ancho de banda de frecuencia en la segunda porción (204b) de la señal de
audio (105) , en el que el primer ancho de banda de frecuencia o el segundo ancho de banda de
frecuencia está definido por una frecuencia de cruce (fx) variable controlada por la etapa de decisión
(220) ,
30 en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que están
fuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro por
la frecuencia de cruce,
en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que están
35 fuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro
por la frecuencia de cruce, y en el que la frecuencia de cruce para la primera banda es mayor que la
frecuencia de cruce de la segunda banda.
40 2. Un método para codificar una señal de audio (105) que comprende:
la codificación de acuerdo con un primer algoritmo de codificación, el primer algoritmo de codificación
posee un primer ancho de banda de frecuencia, en el que la etapa de codificación de acuerdo con un
primer algoritmo de codificación usa un codificador de voz;
45
la codificación de acuerdo con un segundo algoritmo de codificación, el segundo algoritmo de
codificación posee un segundo ancho de banda de frecuencia menor al primer ancho de banda de
frecuencia, en el que la etapa de codificación de acuerdo con un segundo algoritmo de codificación
comprende el uso de un codificador de música;
50
la indicación, mediante una etapa de decisión (220) , del primer algoritmo de codificación para una
primera porción de tiempo (204a) de la señal de audio (105) y el segundo algoritmo de codificación para
una segunda porción de tiempo (204b) de la señal de audio (105) , siendo la segunda porción de tiempo
(204b) diferente de la primera porción de tiempo (204a) ; y
55
el cálculo de parámetros de ampliación de ancho de banda (106) para la señal de audio (105) de modo
tal que los parámetros de ampliación de ancho de banda (106) se calculan para una banda que no
incluye el primer ancho de banda de frecuencia en la primera porción de tiempo (204a) de la señal de
audio (105) y para una banda que no incluye el segundo ancho de banda de frecuencia en la segunda
porción de tiempo (204b) de la señal de audio (105) ,
en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que están
5 fuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro por
la frecuencia de cruce,
en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que están
fuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro
10 por la frecuencia de cruce, en el que el primer ancho de banda de frecuencia o el segundo ancho de
banda de frecuencia está definido por una frecuencia de cruce variable (fx) controlada por la etapa de
decisión (220) , y en el que la frecuencia de cruce para la primera banda es mayor que la frecuencia de
cruce de la segunda banda.
15
3. Un programa de computación adaptado para desarrollar, al ser utilizado en una computadora, el método de la
reivindicación 2.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]