Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador.

Un codificador (100; 228) para proporcionar una corriente de audio (126;

212) a partir de una representación en el dominio de la transformada (112; 114; 228a) de una señal de audio de entrada, comprendiendo el codificador: un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación multi-banda (116; 332) sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada (228a); y un proveedor de corriente de audio (120; 230) configurado para proporcionar la corriente de audio (126; 212) de modo que la corriente de audio comprende una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero evitando a la vez bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11157204.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: SCHULLER, GERALD, GRILL, BERNHARD, HERRE, JURGEN, POPP, HARALD, GEYERSBERGER,STEFAN, WABNIK,STEFAN, HIRSCHFELD,JENS, RETTELBACH,NIKOLAUS, MULTRUS,MARKUS, FUCHS,Guillaume.

Fecha de Publicación: 1 de Octubre de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/022 G10L 19/00 […] › Bloqueo, p. ej. agrupación de muestras en el tiempo; Elección de las ventanas de análisis; Factorización de interferencias.
G10L19/028 G10L 19/00 […] › Sustitución del ruido, p. ej. Sustituyendo componentes espectrales no tonales por fuentes de ruido (ruido de confort para transmisiones de voz discontinua G10L 19/012).
G10L19/035 G10L 19/00 […] › Cuantificación logarítmica o escalar.
G10L25/18 G10L […] › G10L 25/00 Técnicas de análisis del habla o voz no restringidos a un solo de los grupos G10L 15/00 - G10L 21/00 (silenciar los amplificadores basados en semiconductores, cuando algunas de las características especiales de una señal son detectadas por un detector de voz, p. ej. detectar cuando no hay ninguna señal, H03G 3/34). › siendo los parámetros extraídos información espectral de cada una de las subbandas.

PDF original: ES-2526767_T3.pdf

Fragmento de la descripción:

Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador Antecedentes de la invención

[0001] Las formas de realización según la invención se refieren a un codificador para proporcionar una corriente de audio a partir de una representación en el dominio de la transformada de una señal de audio de entrada. Otra realización según la invención proporciona un procedimiento para codificar una señal de audio. Además unas realizaciones según la invención proporcionan programas de ordenador para codificar una señal de audio.

[0002] En términos generales, las realizaciones de acuerdo con la invención están relacionadas con un relleno de ruido.

[0003] Los conceptos de codificación de audio a menudo codifican una señal de audio en el dominio de la frecuencia. Por ejemplo, el llamado concepto de "codificación de audio avanzada" (AAC) codifica el contenido de los diferentes contenedores espectrales (o contenedores de frecuencia), teniendo en cuenta un modelo psicoacústico. Para este propósito, se codifica información de intensidad para diferentes contenedores espectrales. Sin embargo, la resolución utilizada para codificación de intensidades en diferentes contenedores espectrales está adaptada de acuerdo con las relevancias psicoacústicas de los diferentes contenedores espectrales. Por lo tanto, algunos contenedores espectrales, que son considerados como de baja relevancia psicoacústica, se codifican con una resolución de muy baja intensidad, de tal manera que algunos de los contenedores espectrales considerados como de baja relevancia psicoacústica, o incluso un número dominante de estos, se cuantifican a cero. La cuantificación de la intensidad de un contenedor espectral a cero trae consigo la ventaja de que el valor cuantizado a cero se puede codificar de una manera muy económica en cuanto a bits, lo que ayuda a mantener la tasa de bits lo más pequeña posible. Sin embargo, los contenedores espectrales cuantiflcados a cero a veces dan como resultado artefactos audibles, incluso si el modelo psicoacústico indica que los contenedores espectrales son de baja relevancia psicoacústica.

[0004] Por lo tanto, hay un deseo de tratar con contenedores espectrales cuantlficados a cero, tanto en un codificador de audio como en un decodificador de audio.

[0005] Se conocen diferentes enfoques para tratar contenedores espectrales codificados a cero en sistemas de codificación de audio en el dominio de la transformada y también en los codificadores de voz.

[0006] Por ejemplo, el estándar MPEG-4 "AAC" (codificación avanzada de audio) utiliza el concepto de sustitución de ruido perceptivo (PNS). La sustitución de ruido de percepción llena bandas de factor de escala completas con sólo ruido. Los detalles relativos a la MPEG-4 AAC pueden, por ejemplo, encontrarse en la Norma ISO / IEC 14496- 3 (Information Technology - Coding of Audio-Visual Objects - Part 3: Audio). Además, el codificador de voz AMR-WB + reemplaza los vectores de cuantificación de vectores (vectores VQ) cuantificado a cero con un vector aleatorio de ruido, donde cada valor espectral complejo tiene una amplitud constante, pero una fase aleatoria. La amplitud está controlada por un valor de ruido transmitido con el flujo de bits. Los detalles sobre el codificador de voz AMR-WB + pueden, por ejemplo, encontrarse en la especificación técnica titulada "Third Generation Partnershlp Project; Technical Specification Group Services and System Aspects; Audio Codee Processing Functions; Extended Adaptive Multi-Rate-Wide Band (AMR-WB+) Codee; Transcoding Functions (Release Six)", que también se conoce como "3GPP TS 26.290 V6.3.0 (2005-06) - Technical Specification".

[0007] Además, el documento EP 1 395 980 B1 describe un concepto de codificación de audio. La publicación describe un medio mediante el cual bandas de frecuencia de Información seleccionadas de una señal de audio original, que son audibles, pero que son menos relevantes perceptualmente, no necesitan ser codificadas, sino que se pueden sustituir por un parámetro de rellenado de ruido. Esas bandas de señal que tienen contenido, que es perceptualmente más relevante están, por el contrario, completamente codificadas. Los bits de codificación se guardan de esta manera sin dejar huecos en el espectro de frecuencia de la señal recibida. El parámetro de ruido de rellenado es una medida del valor RMS de la señal dentro de la banda en cuestión y se utiliza en el extremo de recepción por un algoritmo de decodificación para Indicar la cantidad de ruido a Inyectar en la banda de frecuencia en cuestión.

[0008] Otros enfoques proporcionan una inserción de ruido no guiada en el decodlficador, teniendo en cuenta la tonalidad del espectro transmitido.

[0009] Sin embargo, los conceptos convencionales típicamente conllevan el problema de que o bien comprenden una resolución pobre con respecto a la granularldad del ruido de llenado, que típicamente degrada la impresión de audición, o requieren una cantidad comparativamente grande de información lateral de ruido de llenado, que requiere una velocidad de bits extra.

[0010] US 4 956 871 describe una disposición de codificación de discurso sub-banda, que divide el espectro de voz en subbandas y asigna bits para codificar las muestras de intervalos de tiempo de cada sub-banda en respuesta a las energías de voz de las sub-bandas. Las muestras de sub-banda se cuantifican de acuerdo con la asignación de bits de energía sub-banda y muestras cuantificadas de marco de tiempo y se codifican señales de energía de voz. Se genera una señal representativa de la diferencia residual entre cada muestra de voz de intervalo tiempo de la sub-banda y la muestra de voz cuantificada correspondiente de la subbanda. La calidad de la señal de sub-banda codificada se mejora mediante la selección de las sub-bandas con las mayores diferencias residuales, produciendo una señal de vector a partir de la secuencia de señales de diferencia residuales de cada sub-banda seleccionada, y haciendo coincidir la señal de vector de sub-banda con uno de un conjunto de entradas de libro de códigos gaussianos almacenados para generar un código de bits reducido para la señal de vector seleccionado. Las señales cuantificadas de intervalo de tiempo codificadas, las señales de energía de voz y códigos de bits reducidos para las diferencias residuales seleccionadas se combinan para formar una corriente multiplexada para el patrón de vozdel intervalo de marco de tiempo.

[0011] El documento "3rd Generation Partnership Project: Technical Specification Group Service and System Aspects; Audio Codee Processing Functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) Codee; Transcoding Functions (Release 6)" describe un codificador de banda ancha multi-tasa adaptativo extendido en el sistema 3GPP. El documento describe el cartografiado detallado para bloques de entrada de muestras monofónicas o estereofónicas en formato de 16 bit uniforme PCM para bloques codificados de desde bloques codificados a bloques de salida de muestras de audio monofónicas o estereofónicas reconstruidas. El esquema de codificación es una extensión del sistema de codificación AMR-WB y se conoce como AMR-WB o AMR-WB + codee extendido. Comprende todos los modos de códec de voz AMR-WB incluyendo VAD / DTX, así como la funcionalidad extendida para la codificación de señales de audio generales, tales como la música, el habla, mixtas, y otras señales.

[0012] El documento "OverView of MPEG-4 Audio and its Applications in Mobile Communications" de J. Herre y B. Grill (Publicado en los procedimientos de the International Conference on Communicación Technology, China, Agosto 21-25, 2012) describe la norma de codificación MPEG-4, que proporciona un conjunto integrado de codificadores de audio con capacidades específicas, incluyendo escalabilidad de tasa de bits y de anchura de banda. La publicación ofrece una introducción a los conceptos de diseños subyacentes de MPEG-4 y proporciona una visión general de la tecnología de codificación de audio MPEG-4 y sus características.

[0013] En vista de lo anterior, existe la necesidad de un concepto mejorado de ruido de llenado, que prevé un mejor compromiso entre la impresión de audición alcanzable y la tasa de bits requerida.

Resumen de la invención

[0014] Una forma de realización según la invención, tal como se establece en la reivindicación independiente 1, crea un codificador para proporcionar una corriente de audio a partir de una representación en el dominio de la transformada de una señal de audio de entrada. El codificador comprende un calculador de error de cuantificación configurado para determinar un error de cuantificación multi-banda sobre una pluralidad de bandas... [Seguir leyendo]

Reivindicaciones:

1. Un codificador (100; 228) para proporcionar una corriente de audio (126; 212) a partir de una representación en el dominio de la transformada (112; 114; 228a) de una señal de audio de entrada, comprendiendo el codificador: un calculador de error de cuantificación (110; 330) configurado para determinar un error de cuantificación multi-banda (116; 332) sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada (228a); y un proveedor de corriente de audio (120; 230) configurado para proporcionar la corriente de audio (126; 212) de modo que la corriente de audio comprende una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero evitando a la vez bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

2. El codificador (100; 228) según la reivindicación 1, en el que el codificador comprende un cuantificador (310) configurado para cuantificar componentes espectrales de diferentes bandas de frecuencia de la representación en el dominio de la transformada (228a) empleando diferentes precisiones de cuantificación en función de relevancias psicoacústicas (228c) de las diferente bandas de frecuencia, para obtener componentes espectrales cuantificados, en el que las diferentes precisiones de cuantificación están reflejadas por la información de ganancia de banda; y en el que el proveedor de corriente de audio (212) está configurado para proporcionar la corriente de audio de modo que la corriente de audio comprende una información que describe la información de ganancia de banda y de modo que la corriente de audio también comprende la información que describe el error de cuantificación multi-banda.

3. El codificador (100; 228) según la reivindicación 2, en el que el cuantificador (310) está configurado para realizar un escalado de la componente espectral en función de la información de ganancia de banda y para realizar una cuantificación de valor entero de las componentes espectrales escaladas; y en el que el calculador de error de cuantificación (330) está configurado para determinar el error de cuantificación multi-banda (332) en el dominio cuantificado, de modo que el escalado de las componentes espectrales, que se realiza antes de la cuantificación de valor entero, se tiene en cuenta en el error de cuantificación multi-banda.

4. El codificador (100; 228) según cualquiera de las reivindicaciones 1 a 3, en el que el codificador está configurado para ajustar una información de ganancia de banda de una banda de frecuencia, que está completamente cuantificada a cero, a un valor que representa una relación entre una energía de la banda de frecuencia completamente cuantificada a cero y una energía del error de cuantificación multi-banda.

5. Un procedimiento para proporcionar una corriente de audio (126; 212) a partir de una representación en el dominio de la transformada (112; 114;228a) de una señal de audio de entrada, comprendiendo el procedimiento:

determinar un error de cuantificación multi-banda sobre una pluralidad de bandas de frecuencia de la señal de audio de entrada, para las que hay disponible una información de ganancia de banda separada; y proporcionar la corriente de audio de modo que la corriente de audio comprenda una información espectral que describe un contenido de audio de las bandas de frecuencia y una información que describe el error de cuantificación multi-banda; en el que el error de cuantificación multi-banda (332) se determina sobre una pluralidad de bandas de frecuencia que comprenden cada una al menos una componente espectral cuantificada a un valor diferente de cero mientras se evitan bandas de frecuencia, cuyas componentes espectrales están totalmente cuantificadas a cero.

6. Un programa de ordenador para realizar el procedimiento según la reivindicación 5 cuando el programa de ordenador se ejecuta en un ordenador.

Patentes similares o relacionadas:

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]