Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena.

Un aparato para la codificación de una señal de audio, que comprende:



una función de ventana (11), para someter a ventana un primer bloque de la señal de audio usando una ventana deanálisis, donde la ventana de análisis tiene una porción de aliasing (Lk, Rk) y una porción adicional (Mk);

un procesador (12), para el procesamiento de un primer subloque (20) de la señal de audio asociado con la porciónde aliasing, mediante la transformación del primer subloque en un dominio diferente del dominio, después de laventana del primer subloque para obtener un primer subloque procesado; y para el procesamiento de un segundosubloque (21) de la señal de audio asociado con la otra porción, mediante la transformación del segundo subloqueen el dominio diferente, antes de someter a ventana el segundo subloque a fin de obtener un segundo subloqueprocesado; y

un transformador (13), para la conversión del primer subloque procesado y el segundo subloque procesado deldominio diferente en un dominio adicional, usando el mismo principio de transformación de bloques, de manera deobtener un primer bloque convertido;

donde el aparato está configurado para el procesamiento adicional (14) del primer bloque convertido usando unalgoritmo de compresión de información.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004374.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GEIGER, RALF, SCHULLER, GERALD, HIRSCHFELD,JENS, MULTRUS,MARKUS, FUCHS,Guillaume, LECOMTE,Jérémie, BAYER,Stefan.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/02 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
  • G10L19/04 G10L 19/00 […] › utilizando técnicas de predicción.

PDF original: ES-2401487_T3.pdf

 

Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena.

Fragmento de la descripción:

Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena [0001] La presente invención se refiere a la codificación de audio, y en particular, a esquemas de codificación de audio de baja tasa de bits (en inglés, bit rate) .

En el arte, se conocen esquemas de codificación de dominio de frecuencia tales como MP3 o AAC (sigla en inglés de "codificación de audio avanzada") . Estos codificadores de dominio de frecuencia se sustentan en una conversión de dominio de tiempo/dominio de frecuencia, una posterior etapa de cuantificación, en la cual el error de cuantificación es controlado usando la información de un módulo psicoacústico, y una etapa de codificación, en la cual los coeficientes espectrales cuantificados y la correspondiente información secundaria son codificados por entropía usando tablas de códigos.

Por otro lado, hay codificadores que son muy adecuados para el procesamiento del discurso, tales como el AMR–WB+ (sigla en inglés de "multitasa adaptativa–banda ancha") , como se describe en el documento 3GPP TS

26.290. Dichos esquemas de codificación del discurso realizan un filtrado lineal pronosticador de una señal de dominio de tiempo. Dicho filtrado LP (sigla en inglés de "predicción lineal") deriva de un análisis de predicción lineal de la señal de dominio de tiempo de entrada. Los coeficientes del filtro LP resultantes luego son cuantificados/codificados y transmitidos como información secundaria. El proceso se conoce como codificación de predicción lineal (LPC, por sus siglas en inglés) . En la salida del filtro, la señal residual de predicción o la señal de error de predicción, que también se conoce como la señal de excitación, es codificada usando las etapas de análisis por síntesis del codificador ACELP (sigla en inglés de "predicción lineal excitada por código de adaptación") ; alternativamente, es codificada usando un codificador de transformación, que utiliza una transformación de Fourier con una superposición. La decisión entre la codificación ACELP y la codificación de excitación codificada de transformación, que también se denomina codificación TCX (sigla en inglés de "excitación codificada de transformación") , se toma usando un algoritmo de bucle cerrado o de bucle abierto.

Los esquemas de codificación de audio de dominio de frecuencia, tales como el esquema de codificación de alta eficiencia–AAC, que combina un esquema de codificación AAC y una técnica de replicación de banda espectral, pueden también combinarse con una herramienta de codificación de multicanal o estéreo conjunto, que se conoce con el término "MPEG surround".

Por otro lado, los codificadores del discurso tales como el AMR–WB+ también tienen una etapa de aumento de alta frecuencia y una funcionalidad estéreo.

Los esquemas de codificación de dominio de frecuencia son convenientes por cuanto muestran una alta calidad a bajas tasas de bits para señales de música. Sin embargo, es problemática la calidad de las señales de discurso a bajas tasas de bits.

Los esquemas de codificación del discurso muestran una alta calidad para señales de discurso, aun a bajas tasas de bits, aunque exhiben una mala calidad para señales de música a bajas tasas de bits.

Los esquemas de codificación de dominio de frecuencia a menudo hacen uso de la así denominada MDCT (MDCT = sigla en inglés de "transformación de coseno separada modificada") . La MDCT ha sido descripta inicialmente en la referencia de J. Princen, A. Bradley: “Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”, IEEE Trans. ASSP, ASSP–34 (5) : 1153–1161, 1986. La MDCT o el banco de filtros de MDCT se usa ampliamente en los codificadores de audio modernos y eficientes. Esta clase de procesamiento de señales proporciona las siguientes ventajas:

Atenuación cruzada suave entre los bloques de procesamiento:

aun si la señal en cada bloque de procesamiento es alterada en forma diferente (por ejemplo, debido a la cuantificación de los coeficientes espectrales) , no se producen artefactos de bloqueo debido a transiciones abruptas de bloque a bloque, dada la operación de superposición/adición de ventana.

Muestreo crítico: la cantidad de valores espectrales en la salida del banco de filtros es igual a la cantidad de valores de entrada de dominio de tiempo en esta entrada, y los valores extra adicionales deben ser transmitidos.

El banco de filtros de MDCT proporciona una selectividad de frecuencia alta y una ganancia de codificación.

Dichas altas propiedades se logran mediante la utilización de la técnica de cancelación de aliasing (aparición de señal ajena o espúrea) de dominio de tiempo. La cancelación de aliasing de dominio de tiempo se realiza en la síntesis, por medio de la superposición–adición de dos señales de ventana adyacentes. Si no se aplica cuantificación entre las etapas de análisis y síntesis de la MDCT, se obtiene una reconstrucción perfecta de la señal original. Sin embargo, la MDCT se usa para esquemas de codificación, que se adaptan específicamente para señales de música. Dichos esquemas de codificación de dominio de frecuencia tienen, como se establece anteriormente, menor calidad a bajas tasas de bits o señales de discurso, mientras que los codificadores del discurso específicamente adaptados tienen una mayor calidad a tasas de bits comparables, o aun, tienen tasas de bits significativamente menores para la misma calidad, en comparación con los esquemas de codificación de dominio de frecuencia.

Las técnicas de codificación del discurso, tales como la así denominada AMR–WB+ codec como se define en “Extended Adaptive Multi–Rate – Wideband (AMR–WB+) codec”, 3GPP TS 26.290 V6.3.0, 2005–06, Technical Specification, no aplican la MDCT, y por lo tanto, no pueden sacar ninguna ventaja de las excelentes propiedades de la MDCT, que, específicamente, se sustentan en un procesamiento de muestreo crítico por una parte, y un cruce de un bloque al otro, por otra parte. En consecuencia, el cruce de un bloque al otro obtenido por la MDCT sin ninguna penalidad con respecto a la tasa de bits, y por lo tanto, la propiedad de muestreo crítico de MDCT aún no se han obtenido en codificadores del discurso.

Cuando se combinan codificadores del discurso y codificadores de audio dentro de un esquema de codificación híbrido individual, se presenta todavía el problema de la manera de obtener una conmutación de un modo de codificación al otro modo de codificación, a una baja tasa de bits y una alta calidad.

El documento WO 2008/071353 A2 describe otro ejemplo de un aparato para codificar/ descodificar datos de audio.

Un objetivo de la presente invención consiste en la provisión de un concepto mejorado de codificación/decodificación.

Este objetivo se logra por medio de un aparato para la codificación de una señal de audio de acuerdo con la reivindicación 1; un aparato para la decodificación de una señal de audio codificada de acuerdo con la reivindicación 8; una señal de audio codificada de acuerdo con la reivindicación 14; un procedimiento para la codificación de una señal de audio de acuerdo con la reivindicación 15; un procedimiento para la decodificación de una señal de audio codificada de acuerdo con la reivindicación 16, o un producto de programa para computadora de acuerdo con la reivindicación 17.

Un aspecto de la presente invención consiste en la aplicación de un esquema de codificación híbrido, en el cual se aplica un primer modo de codificación adaptado específicamente para ciertas señales, y que opera en un dominio, y en el cual se usa, junto a este primer modo, otro modo de codificación adaptado específicamente para otras señales y para la operación en un dominio diferente. En este concepto de codificación/decodificación, es posible una conmutación críticamente muestreada de un modo de codificación al otro modo de codificación, por cuanto, del lado del codificador, el mismo bloque de muestras de audio que ha sido generado por una operación de ventana es procesado en forma diferente. Específicamente, se procesa una porción del aliasing del bloque de la señal de audio mediante la transformación del subloque asociado con la porción de aliasing de la ventana de un dominio al otro dominio luego de la ventana de este subloque, donde un subloque diferente obtenido por la misma operación de ventana es transformado de un dominio al otro dominio antes de la ventana de este subloque, usando una ventana de análisis.

El primer subloque procesado... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato para la codificación de una señal de audio, que comprende:

una función de ventana (11) , para someter a ventana un primer bloque de la señal de audio usando una ventana de análisis, donde la ventana de análisis tiene una porción de aliasing (Lk, Rk) y una porción adicional (Mk) ;

un procesador (12) , para el procesamiento de un primer subloque (20) de la señal de audio asociado con la porción de aliasing, mediante la transformación del primer subloque en un dominio diferente del dominio, después de la ventana del primer subloque para obtener un primer subloque procesado; y para el procesamiento de un segundo subloque (21) de la señal de audio asociado con la otra porción, mediante la transformación del segundo subloque en el dominio diferente, antes de someter a ventana el segundo subloque a fin de obtener un segundo subloque procesado; y

un transformador (13) , para la conversión del primer subloque procesado y el segundo subloque procesado del dominio diferente en un dominio adicional, usando el mismo principio de transformación de bloques, de manera de obtener un primer bloque convertido;

donde el aparato está configurado para el procesamiento adicional (14) del primer bloque convertido usando un algoritmo de compresión de información.

2. El aparato de acuerdo con la reivindicación 1, que está configurado para el procesamiento de un segundo bloque de la señal de audio que se superpone con el primer bloque, usando una segunda ventana de análisis (73) que tiene una porción de aliasing (73b) que corresponde a la porción de aliasing (72b) de la primera ventana de análisis.

3. El aparato de acuerdo con la reivindicación 1 o la reivindicación 2, donde el dominio en el cual está posicionada la señal de audio es un dominio de tiempo, donde el dominio diferente es un dominio de LPC, donde un tercer dominio, en el cual un segundo bloque de la señal de audio que se superpone con el primer bloque de la señal de audio es codificado, es un dominio de frecuencia, y donde el dominio adicional, donde el transformador (13) está configurado para la transformación, es un dominio de frecuencia de LPC; y

donde el procesador (12) comprende un filtro de LPC para la transformación del primer dominio al segundo dominio,

o donde el transformador (13) comprende un algoritmo de conversión sobre la base de Fourier para la transformación de la información de entrada en un dominio de frecuencia de la información de entrada, tal como una DCT, una DST, una FFT o una DFT.

4. El aparato de acuerdo con una de las reivindicaciones precedentes, donde la función de ventana (11) comprende una función de plegado (82) , para el plegado de los valores de entrada a fin de obtener valores de salida, donde la cantidad de valores de salida es menor que la cantidad de valores de entrada; donde la función de plegado es de modo tal que se introduce aliasing de tiempo en los valores de salida.

5. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, donde la función de ventana (11) es operativo de manera de efectuar la ventana, a fin de obtener los valores de entrada para una función de plegado efectuada posteriormente (82) .

6. El aparato de acuerdo con una de las reivindicaciones precedentes, donde el aparato comprende una primera rama de codificación (400) , para la codificación de la señal de audio en un dominio de frecuencia; y una segunda rama de codificación (500) , para la codificación de la señal de audio sobre la base de un dominio de frecuencia diferente;

donde la segunda rama de codificación tiene una primera subrama (527; 528) , para la codificación de la señal de audio en el otro dominio de frecuencia; y una segunda subrama (526) , para la codificación de la señal de audio en el otro dominio; donde el aparato además comprende una etapa de decisión (300) , para la decisión de si un bloque de información de audio es representado en una corriente de bits de salida por información generada usando la primera rama de codificación, o la primera subrama o la segunda subrama de la segunda rama de codificación; y

donde el controlador (98) está configurado para el control de la etapa de decisión (300) de manera de decidir a favor de la primera subrama, cuando debe efectuarse la transición de la primera rama de codificación a la segunda rama de codificación, o de la segunda rama de codificación a la primera rama de codificación.

7. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, donde la porción adicional comprende una porción sin aliasing (Mk) y una porción de aliasing adicional, o una porción de aliasing que se superpone con una porción de aliasing correspondiente de un bloque vecino de la señal de audio.

8. Un aparato para la decodificación de una señal de audio codificada que tiene un primer bloque codificado de información de audio, donde el bloque codificado tiene una porción de aliasing y una porción adicional, que comprende:

un procesador (51) para el procesamiento de la porción de aliasing (Lk, Rk) , mediante la transformación (86) de la porción de aliasing en un dominio objetivo, antes de efectuar una ventana de síntesis (88) a fin de obtener una porción de aliasing de ventana; y para efectuar una ventana de síntesis (88) de la porción adicional, antes de efectuar una transformación (98) en el dominio objetivo; y

un cancelador de aliasing de dominio de tiempo (53) para la combinación de la porción de aliasing de ventana y la porción de aliasing de ventana de un segundo bloque codificado de información de audio, luego de una transformación (91) de la porción de aliasing del primer bloque codificado de información de audio, en el dominio objetivo, a fin de obtener una señal de audio decodificada correspondiente a la porción de aliasing del primer bloque.

9. El aparato de acuerdo con la reivindicación 8,

donde el procesador (51) comprende un transformador (86) para la conversión de la porción de aliasing de un cuarto dominio, en un segundo dominio, y donde el procesador además comprende un transformador (91) , para la conversión de la porción de aliasing representada en el segundo dominio, en el primer dominio, donde el transformador (86) es operativo de manera de efectuar un algoritmo de conversión de tiempo de frecuencia sobre la base de bloque.

10. El aparato de acuerdo con la reivindicación 8 ó 9, donde el procesador (12) es operativo de manera de efectuar una operación de desplegado (87) , para la obtención de información de salida que tiene una cantidad de valores mayor que una cantidad de valores de entrada en la operación de desplegado (87) .

11. El aparato de acuerdo con cualquiera de las reivindicaciones 8; 9 ó 10, donde el procesador (12) es operativo de manera de utilizar una función de ventana de síntesis (88) relacionada con una función de ventana de análisis utilizada cuando se genera la señal de audio codificada.

12. El aparato de acuerdo con cualquiera de las reivindicaciones 8–11, donde la señal de audio codificada comprende un indicador de modo de codificación que indica un modo de codificación para el primer bloque codificado y el segundo bloque codificado,

donde el aparato además comprende un controlador de transición (99) , para el control del procesador (12) , cuando el indicador de modo de codificación indica una conmutación de modo de codificación, de un primer modo de codificación a un segundo modo de codificación diferente, o viceversa, y para el control del procesador (12) , a fin de efectuar la misma operación para un bloque de codificación completo, cuando no se señala una conmutación de modo de codificación entre dos bloques de codificación.

13. El aparato de acuerdo con cualquiera de las reivindicaciones 8–12,

donde un primer modo de codificación y un segundo modo de codificación comprenden una etapa de decodificación de entropía; una etapa de descuantificación; una etapa de conversión de tiempo de frecuencia que comprende una operación de desplegado; y una etapa de ventana de síntesis;

donde el cancelador de aliasing de dominio de tiempo (53) comprende un añadidor (89a) , para la adición de correspondientes porciones de aliasing de bloques codificados obtenidos por la etapa de ventana de síntesis (88) , donde las correspondientes porciones de aliasing se obtienen por medio de un procesamiento de superposición (89b) de la señal de audio; y

donde, en el primer modo de codificación, el cancelador de aliasing de dominio de tiempo (53) está configurado para la adición de porciones de bloques obtenidas por la ventana de síntesis, a fin de obtener, como una salida de la adición (89a) , la señal decodificada en el dominio objetivo; y

donde, en el segundo modo de codificación, la salida de la adición (89a) es procesada por el procesador (12) , a fin de efectuar una transformación (91) de la salida de la adición, al dominio objetivo.

14. Una señal de audio codificada que comprende un primer bloque codificado de una señal de audio y un segundo bloque codificado superpuesto de la señal de audio, donde el primer bloque codificado de la señal de audio comprende una porción de aliasing y una porción adicional; donde la porción de aliasing ha sido transformada de un primer dominio a un segundo dominio, luego de la ventana (80) de la porción de aliasing; y la porción adicional ha sido transformada del primer dominio en el segundo dominio, antes de la ventana (80) del segundo subloque; donde el segundo subloque ha sido transformado en un cuarto dominio usando el mismo principio de transformación de bloques; y

donde el segundo bloque codificado ha sido generado por medio de la ventana (80) de un bloque de superposición de muestras de audio, y mediante la transformación de un bloque ventana en un tercer dominio; donde el segundo bloque codificado tiene una porción de aliasing que corresponde a la porción de aliasing del primer bloque codificado de muestras de audio.

15. Un procedimiento para la codificación de una señal de audio, que comprende:

la ventana (11) de un primer bloque de la señal de audio usando una ventana de análisis, donde la ventana de análisis tiene una porción de aliasing (Lk, Rk) y una porción adicional (Mk) ;

el procesamiento (12) de un primer subloque (20) de la señal de audio asociado con la porción de aliasing, mediante la transformación del primer subloque en un dominio diferente del dominio, luego de la ventana del primer subloque, a fin de obtener un primer subloque procesado;

el procesamiento de un segundo subloque (21) de la señal de audio asociado con la porción adicional, mediante la transformación del segundo subloque, en el dominio diferente, antes de la ventana del segundo subloque, a fin de obtener un segundo subloque procesado;

la conversión (13) del primer subloque procesado y el segundo subloque procesado, del dominio diferente en un dominio adicional, usando el mismo principio de transformación de bloques, a fin de obtener un primer bloque convertido; y

el procesamiento adicional (14) del primer bloque convertido, usando un algoritmo de compresión de información.

16. Un procedimiento de decodificación de una señal de audio codificada que tiene un primer bloque codificado de información de audio, donde el bloque codificado tiene una porción de aliasing y una porción adicional, que comprende:

el procesamiento (51) de la porción de aliasing (Lk, Rk) mediante la transformación (86) de la porción de aliasing en un dominio objetivo, antes de efectuar una ventana de síntesis (88) a fin de obtener una porción de aliasing de ventana;

una ventana de síntesis (88) de la porción adicional, antes de efectuar una transformación (98) , en el dominio objetivo; y

la combinación (53) de la porción de aliasing de ventana y la porción de aliasing de ventana de un segundo bloque codificado de información de audio, a fin de obtener una cancelación de aliasing de dominio de tiempo, luego de una transformación (91) de la porción de aliasing del primer bloque codificado de información de audio, en el dominio objetivo, a fin de obtener una señal de audio decodificada que corresponde a la porción de aliasing del primer bloque.

17. Un producto de programa para computadora que tiene un código de programa para la realización, cuando se ejecuta en una computadora, del procedimiento para la codificación de acuerdo con la reivindicación 15, o el procedimiento de decodificación de acuerdo con la reivindicación 16.


 

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .