Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador.

Un codificador (100; 228) para proporcionar una corriente de audio (126; 212) a partir de una representación en el dominio de la transformada

(112; 114; 228a) de una señal de audio de entrada, comprendiendo el codificador: un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación multi-banda (116; 332) sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada (228a); y un proveedor de corriente de audio (120; 230) configurado para proporcionar la corriente de audio (126; 212) de modo que la corriente de audio comprende una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero evitando a la vez bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11157204.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: SCHULLER, GERALD, GRILL, BERNHARD, HERRE, JURGEN, POPP, HARALD, GEYERSBERGER,STEFAN, WABNIK,STEFAN, HIRSCHFELD,JENS, RETTELBACH,NIKOLAUS, MULTRUS,MARKUS, FUCHS,Guillaume.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/18 (siendo los parámetros extraídos información espectral de cada una de las subbandas)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/022 (Bloqueo, p. ej. agrupación de muestras en el tiempo; Elección de las ventanas de análisis; Factorización de interferencias)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/028 (Sustitución del ruido, p. ej. Sustituyendo componentes espectrales no tonales por fuentes de ruido (ruido de confort para transmisiones de voz discontinua G10L 19/012))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/035 (Cuantificación logarítmica o escalar)

PDF original: ES-2526767_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador Antecedentes de la invención

[0001] Las formas de realización según la invención se refieren a un codificador para proporcionar una corriente de audio a partir de una representación en el dominio de la transformada de una señal de audio de entrada. Otra realización según la invención proporciona un procedimiento para codificar una señal de audio. Además unas realizaciones según la invención proporcionan programas de ordenador para codificar una señal de audio.

[0002] En términos generales, las realizaciones de acuerdo con la invención están relacionadas con un relleno de ruido.

[0003] Los conceptos de codificación de audio a menudo codifican una señal de audio en el dominio de la frecuencia. Por ejemplo, el llamado concepto de "codificación de audio avanzada" (AAC) codifica el contenido de los diferentes contenedores espectrales (o contenedores de frecuencia), teniendo en cuenta un modelo psicoacústico. Para este propósito, se codifica información de intensidad para diferentes contenedores espectrales. Sin embargo, la resolución utilizada para codificación de intensidades en diferentes contenedores espectrales está adaptada de acuerdo con las relevancias psicoacústicas de los diferentes contenedores espectrales. Por lo tanto, algunos contenedores espectrales, que son considerados como de baja relevancia psicoacústica, se codifican con una resolución de muy baja intensidad, de tal manera que algunos de los contenedores espectrales considerados como de baja relevancia psicoacústica, o incluso un número dominante de estos, se cuantifican a cero. La cuantificación de la intensidad de un contenedor espectral a cero trae consigo la ventaja de que el valor cuantizado a cero se puede codificar de una manera muy económica en cuanto a bits, lo que ayuda a mantener la tasa de bits lo más pequeña posible. Sin embargo, los contenedores espectrales cuantiflcados a cero a veces dan como resultado artefactos audibles, incluso si el modelo psicoacústico indica que los contenedores espectrales son de baja relevancia psicoacústica.

[0004] Por lo tanto, hay un deseo de tratar con contenedores espectrales cuantlficados a cero, tanto en un codificador de audio como en un decodificador de audio.

[0005] Se conocen diferentes enfoques para tratar contenedores espectrales codificados a cero en sistemas de codificación de audio en el dominio de la transformada y también en los codificadores de voz.

[0006] Por ejemplo, el estándar MPEG-4 "AAC" (codificación avanzada de audio) utiliza el concepto de sustitución de ruido perceptivo (PNS). La sustitución de ruido de percepción llena bandas de factor de escala completas con sólo ruido. Los detalles relativos a la MPEG-4 AAC pueden, por ejemplo, encontrarse en la Norma ISO / IEC 14496- 3 (Information Technology - Coding of Audio-Visual Objects - Part 3: Audio). Además, el codificador de voz AMR-WB + reemplaza los vectores de cuantificación de vectores (vectores VQ) cuantificado a cero con un vector aleatorio de ruido, donde cada valor espectral complejo tiene una amplitud constante, pero una fase aleatoria. La amplitud está controlada por un valor de ruido transmitido con el flujo de bits. Los detalles sobre el codificador de voz AMR-WB + pueden, por ejemplo, encontrarse en la especificación técnica titulada "Third Generation Partnershlp Project; Technical Specification Group Services and System Aspects; Audio Codee Processing Functions; Extended Adaptive Multi-Rate-Wide Band (AMR-WB+) Codee; Transcoding Functions (Release Six)", que también se conoce como "3GPP TS 26.290 V6.3.0 (2005-06) - Technical Specification".

[0007] Además, el documento EP 1 395 980 B1 describe un concepto de codificación de audio. La publicación describe un medio mediante el cual bandas de frecuencia de Información seleccionadas de una señal de audio original, que son audibles, pero que son menos relevantes perceptualmente, no necesitan ser codificadas, sino que se pueden sustituir por un parámetro de rellenado de ruido. Esas bandas de señal que tienen contenido, que es perceptualmente más relevante están, por el contrario, completamente codificadas. Los bits de codificación se guardan de esta manera sin dejar huecos en el espectro de frecuencia de la señal recibida. El parámetro de ruido de rellenado es una medida del valor RMS de la señal dentro de la banda en cuestión y se utiliza en el extremo de recepción por un algoritmo de decodificación para Indicar la cantidad de ruido a Inyectar en la banda de frecuencia en cuestión.

[0008] Otros enfoques proporcionan una inserción de ruido no guiada en el decodlficador, teniendo en cuenta la tonalidad del espectro transmitido.

[0009] Sin embargo, los conceptos convencionales típicamente conllevan el problema de que o bien comprenden una resolución pobre con respecto a la granularldad del ruido de llenado, que típicamente degrada la impresión de audición, o requieren una cantidad comparativamente grande de información lateral de ruido de llenado, que requiere una velocidad de bits extra.

[0010] US 4 956 871 describe una disposición de codificación de discurso sub-banda, que divide el espectro de voz en subbandas y asigna bits para codificar las muestras de intervalos de tiempo de cada sub-banda en respuesta a las energías de voz de las sub-bandas. Las muestras de sub-banda se cuantifican de acuerdo con la asignación de bits de energía sub-banda y muestras cuantificadas de marco de tiempo y se codifican señales de energía de voz. Se genera una señal representativa de la diferencia residual entre cada muestra de voz de intervalo tiempo de la sub-banda y la muestra de voz cuantificada correspondiente de la subbanda. La calidad de la señal de sub-banda codificada se mejora mediante la selección de las sub-bandas con las mayores diferencias residuales, produciendo una señal de vector a partir de la secuencia de señales de diferencia residuales de cada sub-banda seleccionada, y haciendo coincidir la señal de vector de sub-banda con uno de un conjunto de entradas de libro de códigos gaussianos almacenados para generar un código de bits reducido para la señal de vector seleccionado. Las señales cuantificadas de intervalo de tiempo codificadas, las señales de energía de voz y códigos de bits reducidos para las diferencias residuales seleccionadas se combinan para formar una corriente multiplexada para el patrón de vozdel intervalo de marco de tiempo.

[0011] El documento "3rd Generation Partnership Project: Technical Specification Group Service and System Aspects; Audio Codee Processing Functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) Codee; Transcoding Functions (Release 6)" describe un codificador de banda ancha multi-tasa adaptativo extendido en el sistema 3GPP. El documento describe el cartografiado detallado para bloques de entrada de muestras monofónicas o estereofónicas en formato de 16 bit uniforme PCM para bloques codificados de desde bloques codificados a bloques de salida de muestras de audio monofónicas o estereofónicas reconstruidas. El esquema de codificación es una extensión del sistema de codificación AMR-WB y se conoce como AMR-WB o AMR-WB + codee extendido. Comprende todos los modos de códec de voz AMR-WB incluyendo VAD / DTX, así como la funcionalidad extendida para la codificación de señales de audio generales, tales como la música, el habla, mixtas, y otras señales.

[0012] El documento "OverView of MPEG-4 Audio and its Applications in Mobile Communications" de J. Herre y B. Grill (Publicado en los procedimientos de the International Conference on Communicación Technology, China, Agosto 21-25, 2012) describe la norma de codificación MPEG-4, que proporciona un conjunto integrado de codificadores... [Seguir leyendo]

 


Reivindicaciones:

1. Un codificador (100; 228) para proporcionar una corriente de audio (126; 212) a partir de una representación en el dominio de la transformada (112; 114; 228a) de una señal de audio de entrada, comprendiendo el codificador: un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación multi-banda (116; 332) sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada (228a); y un proveedor de corriente de audio (120; 230) configurado para proporcionar la corriente de audio (126; 212) de modo que la corriente de audio comprende una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero evitando a la vez bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

2. El codificador (100; 228) según la reivindicación 1, en el que el codificador comprende un cuantificador (310) configurado para cuantificar componentes espectrales de diferentes bandas de frecuencia de la representación en el dominio de la transformada (228a) empleando diferentes precisiones de cuantificación en función de relevancias psicoacústicas (228c) de las diferente bandas de frecuencia, para obtener componentes espectrales cuantificados, en el que las diferentes precisiones de cuantificación están reflejadas por la información de ganancia de banda; y en el que el proveedor de corriente de audio (212) está configurado para proporcionar la corriente de audio de modo que la corriente de audio comprende una información que describe la información de ganancia de banda y de modo que la corriente de audio también comprende la información que describe el error de cuantificación multi-banda.

3. El codificador (100; 228) según la reivindicación 2, en el que el cuantificador (310) está configurado para realizar un escalado de la componente espectral en función de la información de ganancia de banda y para realizar una cuantificación de valor entero de las componentes espectrales escaladas; y en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) en el dominio cuantificado, de modo que el escalado de las componentes espectrales, que se realiza antes de la cuantificación de valor entero, se tiene en cuenta en el error de cuantificación multi-banda.

4. El codificador (100; 228) según cualquiera de las reivindicaciones 1 a 3, en el que el codificador está configurado para ajustar una información de ganancia de banda de una banda de frecuencia, que está completamente cuantificada a cero, a un valor que representa una relación entre una energía de la banda de frecuencia completamente cuantificada a cero y una energía del error de cuantificación multi-banda.

5. Un procedimiento para proporcionar una corriente de audio (126; 212) a partir de una representación en el dominio de la transformada (112; 114;228a) de una señal de audio de entrada, comprendiendo el procedimiento:

determinar un error de cuantificación multi-banda sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada; y proporcionar la corriente de audio de modo que la corriente de audio comprenda una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el error de cuantificación multi-banda (332) se determina sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero mientras se evitan bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

6. Un programa de ordenador para realizar el procedimiento según la reivindicación 5 cuando el programa de ordenador se ejecuta en un ordenador.