Codificador de audio, procedimiento para la codificación de audio y programa de ordenador.
Un codificador (100; 228) para proveer una corriente de audio (126;
212) sobre la base de una representación enel dominio de la transformación (112; 114; 228a) de una señal de audio de entrada; el codificador comprende:
un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación demúltiples bandas (116; 332) sobre una pluralidad de bandas de frecuencia (por ejemplo, sobre una pluralidad debandas de factor de escala) de la señal de audio de entrada, para la cual está disponible una información separadade ganancia de banda (228a); y
un proveedor de corriente de audio (120; 230) configurado para proveer la corriente de audio (126; 212) de modoque la corriente de audio comprenda una información que describe un contenido de audio de las bandas defrecuencia y una información que describe el error de cuantificación de múltiples bandas;
en el cual el codificador está configurado para fijar una información de ganancia de bandas de una banda defrecuencia de una pluralidad de bandas de frecuencia, que está cuantificada totalmente a cero, a un valor querepresenta una relación entre una energía de la banda de frecuencia cuantificada a cero y una energía del error decuantificación de múltiples bandas.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11157188.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: SCHULLER, GERALD, GRILL, BERNHARD, HERRE, JURGEN, POPP, HARALD, GEYERSBERGER,STEFAN, WABNIK,STEFAN, HIRSCHFELD,JENS, RETTELBACH,NIKOLAUS, MULTRUS,MARKUS, FUCHS,Guillaume.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
PDF original: ES-2422412_T3.pdf
Fragmento de la descripción:
Codificador de audio, procedimiento para la codificación de audio y programa de ordenador
[Antecedentes de la invención [0001] La presente invención se refiere a un codificador para proveer una corriente de audio sobre la base de una representación en el dominio de la transformación de una señal de audio de entrada a un procedimiento y un programa de ordenador correspondientes.
Hablando en general, la presente invención se refiere a un relleno de ruido.
Los conceptos de codificación de audio codifican frecuentemente una señal de audio frecuentemente en el dominio de la frecuencia. Por ejemplo el tal denominada concepto de ”codificación de audio avanzada” (AAC) codifica los contenidos de distintas bandejas espectrales (o bandejas de frecuencia) tomando en cuenta un modelo psicoacústico. Para este propósito se codifica la información de intensidad para distintas bandejas espectrales. Sin embargo, se adapta la resolución usada para codificar intensidades en distintas bandejas espectrales de acuerdo con las importancias psicoacústicas de las distintas bandejas espectrales. De ese modo, se coidifican algunas bandejas espectrales, que están consideradas tener una baja importancia psicoacústica, con una resolución de baja intensidad, de modo que algunas de las bandejas espectrales, que están consideradas tener una baja importancia psicoacústica, o aún una cantidad dominante de ellas, se cuantifican a cero. La cuantificación de la intensidad de una bandeja espectral a cero, trae consigo la ventaja que el valor cero cuantificado puede ser cofificado en una manrea muy ahorrativa de bits, lo cual ayuda mantener la velocidad de corriente de bits lo más bajo posible. No obstante, las bandejas espectrales cuantificadas a cero dan de vez en cuando como resultado unos artefactos audibles aun cuando el modelo psicoacústico indica que las bandejas espectrales son de una baja importancia psicoacústica.
Por lo tanto, hay un deseo de tratar las bandejas espectrales cuantificadas a cero tanto en un codificador de audio como en un decodificador de audio.
Se conocen distintos enfoques para tratar las bandejas espectrales cuantificadas a cero en los sistemas de codificación de audio en dominios de la transformación y también en codificador de voz.
Por ejemplo, la MPEG–4 “AAC” (codificación de audio avanzada) utiliza el concepto de la sustitución de ruido perceptivo (PNS) . La sustitución de ruido perceptivo llena bandas de factor de escala completa sólo con ruido. Los detalles con respecto a la MPEG–4 AAC se pueden encontrar, por ejemplo, en la Norma Internacional (International Standard) ISO/IEC 14496–3 (Tecnología de Información - Codificación de Objetos Audio–Visuales - Volumen 3: Audio (Information Technology - Coding of Audio–Visual Objects - Part 3: Audio) ) . Además el codificador de voz AMR–WB+ reemplaza los vectores de cuantificación de vector (vectores VQ) cuantificados a cero con un vector de ruido aleatorio donde cada valor espectral complejo tiene una amplitud constante, pero una fase aleatoria. Se controla la amplitud mediante un valor de ruido transmitido con la corriente de bits. Los detalles con respecto al codificador de voz AMR–WB+ se pueden encontrar, por ejemplo, en la especificación técnica con el título “Proyecto de Asociación de Tercera Generación; Servicios de Grupo de Especificación Técnica y Aspectos de Sistema; Funciones de Procesamiento de Codificador–Decodificador de Audio; Codificador–Decodificador (AMR–WB+) Adaptivo, Extendido de Banda Ancha de Múltiples Velocidades; Funciones de Transcodificación (Versión Seis) ” (“Third Generation Partnership Project; Technical Specification Group Services and System Aspects; Audio Codec Processing Functions; Extended Adaptive Multi–Rate–Wide Band (AMR–WB+) Codec; Transcoding Functions (Release Six) ”) , lo cual también se conoce como “3GPP TS 26.290 V6.3.0 (2005–06) - Especificaciones Técnicas (Technical Specification”) .
Además, el documento EP 1 395 980 B1 describe un concepto de codificación de audio. La publicación describe un medio por el cual las bandas de frecuencia seleccionadas de información de una señal de audio original, que son audibles, pero que son menos relevante desde el punto de vista de la percepción, no necesitan ser codificadas, sino que se pueden sustituir por un parámetro de llenado de ruido. Esas bandas de señal que tienen contenido, que son más relevantes desde el punto de vista de la percepción están, por el contrario, completamente codificadas. Los bits de codificación se guardan de esta manera sin dejar huecos en el espectro de frecuencia de la señal recibida. El parámetro de llenado de ruido es una medida del valor de la señal RMS dentro de la banda en cuestión, y se utiliza en el extremo de recepción por un algoritmo de decodificación para indicar la cantidad de ruido a inyectar en la banda de frecuencias en cuestión.
Otros enfoques proporcionan una inserción ruido no guiada en el decodificador, que tiene en cuenta la tonalidad del espectro de transmisión.
Sin embargo, los conceptos convencionales suelen llevar consigo el problema de que o bien comprenden una pobre resolución con respecto a la granularidad del relleno de ruido, que por lo general degrada la impresión de la audición, o requieren una cantidad comparativamente grande de ruido de llenado de información lateral, que requiere velocidad de bits adicional.
US4 956 871 describe una disposición de codificación de habla de sub-banda, que divide el espectro de voz en sub-bandas y asigna los bits para codificar las muestras de intervalos de trama de tiempo de cada sub-banda relativa a las energías del habla de las sub-bandas. Las muestras de sub-banda se cuantifican de acuerdo con la asignación de bits de energía de sub-banda y se codifican las muestras cuantificadas de trama de tiempo y las señales de energía del habla. Se genera una señal representativa de la diferencia residual entre cada muestra de habla de trama de tiempo de la sub-banda y la muestra de habla cuantificada correspondiente de la sub-banda. La calidad de la señal codificada de sub-banda se mejora mediante la selección de las sub-bandas con las mayores diferencias residuales, produciendo una señal de vector de sub-banda a partir de la secuencia de señales de diferencia residuales de cada sub-banda seleccionada, y que hace coincidir la señal de vector de sub-banda con un conjunto de entradas de libro de códigos almacenados gaussianos para generar un código de bits reducido para la señal de vector seleccionado. Las señales cuantificadas por intervalo de trama de tiempo codificadas, las señales de energía del habla y los códigos de bits reducidos para las diferencias residuales seleccionadas se combinan para formar una corriente multiplexada para el patrón de habla del intervalo de trama de tiempo.
El documento "3rd Generation Partnership Project: Technical Specification Group Service and System Aspects; Audio Codec Processing Functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) Codec; Transcoding Functions (Release 6) " describe un codificador de banda ancha múltiple de velocidad múltible adaptativo ampliado dentro del sistema 3GPP. El documento describe el mapeo detallado de los bloques de entrada de muestras de audio monofónicas o estereofónicas en formato PCM de 16 bits uniforme con los bloques codificados y de los bloques codificados a los bloques de salida de muestras de audio monofónicas o estereofónicas reconstruidas. El esquema de codificación es una extensión del esquema de codificación AMR-WB y se conoce como AMR-WB extendido o AMR-WB + codec. Comprende todos los modos de códec de habla AMR-WB incluyendo VAD / DTX así como la funcionalidad extendida para codificar señales de audio comunes, como la música, el habla, mezclas, y otras señales.
El documento " Overview of MPEG-4 Audio and its Applications in Mobile Communications " de J. Herre y B. Grill (publicado en las Actas de la Conferencia Internacional sobre Tecnología de la Comunicación, China, 21-25 de agosto de 2000) describe el estándar de codificación MPEG-4, que proporciona un conjunto integrado de codificadores de audio con capacidades específicas, incluyendo velocidad de bits y la escalabilidad de ancho de banda. La publicación ofrece una introducción a los conceptos de diseño subyacentes de MPEG-4 y proporciona una visión general de la tecnología de codificación de audio MPEG-4 y sus características.
En vista de lo anterior, existe la necesidad de un concepto mejorado de relleno de ruido, que proporcione un mejor equilibrio entre la impresión de audio alcanzable y la... [Seguir leyendo]
Reivindicaciones:
1. Un codificador (100; 228) para proveer una corriente de audio (126; 212) sobre la base de una representación en el dominio de la transformación (112; 114; 228a) de una señal de audio de entrada; el codificador comprende:
un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación de múltiples bandas (116; 332) sobre una pluralidad de bandas de frecuencia (por ejemplo, sobre una pluralidad de bandas de factor de escala) de la señal de audio de entrada, para la cual está disponible una información separada de ganancia de banda (228a) ; y
un proveedor de corriente de audio (120; 230) configurado para proveer la corriente de audio (126; 212) de modo que la corriente de audio comprenda una información que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación de múltiples bandas;
en el cual el codificador está configurado para fijar una información de ganancia de bandas de una banda de frecuencia de una pluralidad de bandas de frecuencia, que está cuantificada totalmente a cero, a un valor que representa una relación entre una energía de la banda de frecuencia cuantificada a cero y una energía del error de cuantificación de múltiples bandas.
2. El codificador (100; 228) de acuerdo con la reivindicación 1, en el cual el codificador comprende un cuantificador
(310) configurado para cuantificar unos componentes espectrales de distintas bandas de frecuencia de la representación en el dominio de la transformación (228a) utilizando distintas precisiones de cuantificación en dependencia de las importancias psicoacústicas (228c) de las distintas bandas de frecuencia para obtener los componentes espectrales cuantificados, en lo cual las distintas precisiones de cuantificación están reflejadas por la información de ganancia de bandas; y
en el cual el proveedor de corriente de audio (212) está configurado para proveer la corriente de audio de modo que la corriente de audio comprenda una información que describe la información de ganancia de bandas y de modo que la corriente de audio comprenda además la información que describe el error de cuantificación de múltiples bandas.
3. El codificador (100; 228) de acuerdo con la reivindicación 2, en el cual cuantificador (310) configurado para llevar a cabo un ajuste de los componentes espectrales en dependencia de la información de ganancia de bandas y para llevar cabo una cuantificación del valor de un número entero de los componentes espectrales ajustados; y
en el cual el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación de múltiples bandas (332) en el dominio cuantificado, de modo que se toma en cuenta, en el error de cuantificación de múltiples bandas, un ajuste de los componentes espectrales, que se lleva a cabo antes de la cuantificación del valor de un número entero.
4. El codificador (100; 228) de acuerdo con cualquiera de las reivindicaciones 1 a 3, en el cual el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación de múltiples bandas (332) sobre una pluralidad de bandas de frecuencia que comprenden por lo menos un componente espectral cuantificado a un valor no cero mientras se deben evitar las bandas de frecuencia en las cuales todos los componentes espectrales estén cuantificados a cero.
5. Un procedimiento para proveer una corriente de audio (126; 212) sobre la base de una representación en el dominio de la transformación (112; 114; 228a) de una señal de audio de entrada; comprendiendo el procedimiento:
determinar un error de cuantificación de múltiples bandas sobre una pluralidad de bandas de frecuencia, para la cual está disponible una información separada de ganancia de banda; y
proveer la corriente de audio de modo que la corriente de audio comprenda una información que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación de múltiples bandas;
en el cual el codificador una información de ganancia de bandas de una banda de frecuencia de una pluralidad de bandas de frecuencia, que está cuantificada totalmente a cero, se ajusta a un valor que representa una relación entre una energía de la banda de frecuencia cuantificada a cero y una energía del error de cuantificación de múltiples bandas 6. Un programa de ordenador para llevar a cabo un procedimiento de acuerdo con la reivindicación 5 cuando se ejecuta el programa de ordenador sobre una computadora.
Patentes similares o relacionadas:
Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]
Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]
Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]
Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]
Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]
Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]