CODIFICACION DE AUDIO.

Procedimiento para codificar una señal de audio, comprendiendo el procedimiento las etapas de:

- proporcionar un conjunto respectivo de valores (x(t)) de señal muestreados para cada uno de una pluralidad de segmentos de tiempo secuenciales;

- analizar los valores (x(t)) de señal muestreados para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales;

- conectar componentes sinusoidales a lo largo de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales, comprendiendo cada pista varias tramas;

estando caracterizado el procedimiento porque comprende además las etapas de:

generar una fase (f) cuantificada para la pluralidad de segmentos secuenciales mediante una cuantificación predictiva de una fase de las componentes sinusoidales en una pista usando una precisión de cuantificación adaptativa; y

- generar una señal (AS) codificada que incluye códigos (CS) sinusoidales que comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y donde algunos de estos códigos (CS) comprenden una fase (f) cuantificada actual, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio, reflejando la tabla (Q) de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2004/051963.

Solicitante: KONINKLIJKE PHILIPS ELECTRONICS N.V..

Nacionalidad solicitante: Países Bajos.

Dirección: GROENEWOUDSEWEG 1,5621 BA EINDHOVEN.

Inventor/es: DEN BRINKER, ALBERTUS, C., GERRITS,ANDREAS,J.

Fecha de Publicación: 30 de Abril de 2010.

Fecha Concesión Europea: 16 de Diciembre de 2009.

Clasificación Internacional de Patentes:

G10L19/02Q
G10L19/08S

Clasificación PCT:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/08 G10L 19/00 […] › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.

Clasificación antigua:

G10L19/02 G10L 19/00 […] › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/08 G10L 19/00 […] › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.

Fragmento de la descripción:

Codificación de audio.

Campo de la invención

La presente invención se refiere a codificación y decodificación de señales de banda ancha, en particular señales de audio. La invención se refiere tanto al codificador como al decodificador, y a un flujo de audio codificado según la invención y a un medio de almacenamiento de datos en el que se ha almacenado un flujo de audio de este tipo.

Antecedentes de la invención

Cuando se transmiten señales de banda ancha, por ejemplo señales de audio tales como voz, se usan técnicas de compresión o de codificación para reducir el ancho de banda o la tasa de transmisión de bits de la señal.

La figura 1 muestra un esquema de codificación paramétrica conocido, en particular un codificador sinusoidal, que se usa en la presente invención, y que se describe en el documento WO 01/69593. En este codificador, una señal x(t) de audio de entrada se divide en varias tramas o segmentos de tiempo (que posiblemente se solapan), que normalmente tienen una duración de 20 ms cada uno. Cada segmento se descompone en componentes transitorias, sinusoidales y de ruido. También es posible derivar otras componentes de la señal de audio de entrada tales como complejos armónicos, aunque éstos no son relevantes para los fines de la presente invención.

En el analizador 130 sinusoidal de la figura 1, la señal x2 para cada segmento se modela usando varias sinusoides representadas por parámetros de fase, frecuencia y amplitud. Esta información se extrae habitualmente para un intervalo de tiempo de análisis realizando una transformada de Fourier (FT) que proporciona una representación espectral del intervalo que incluye: frecuencias, amplitudes para cada frecuencia y fases para cada frecuencia, donde cada fase "está envuelta", es decir, en el rango {-p;p}. Una vez que se estima la información sinusoidal para un segmento, se inicia un algoritmo de seguimiento. Este algoritmo usa una función del coste para conectar sinusoides en diferentes segmentos entre sí de segmento a segmento para obtener denominadas pistas. El algoritmo de seguimiento da como resultado por tanto códigos C_s sinusoidales que comprenden pistas sinusoidales que empiezan en un momento específico en el tiempo, evolucionan durante un determinado periodo de tiempo a lo largo de una pluralidad de segmentos de tiempo y a continuación se detienen.

En una codificación sinusoidal de este tipo, es habitual transmitir información de frecuencia para las pistas formadas en el codificador. Esto puede realizarse de manera sencilla y con costes relativamente bajos, porque las pistas sólo tienen una frecuencia que varía lentamente. La información de frecuencia puede transmitirse por lo tanto de manera eficaz mediante codificación diferencial en el tiempo. En general, la amplitud también puede codificarse de manera diferencial a lo largo del tiempo.

A diferencia de la frecuencia, la fase cambia de manera más rápida con el tiempo. Si la frecuencia es (sustancialmente) constante, la fase cambiará (sustancialmente) de manera lineal con el tiempo, y los cambios de frecuencia darán como resultado desviaciones de fase correspondientes respecto al curso lineal. Como función del índice de segmento de pista, la fase tendrá un comportamiento aproximadamente lineal. La transmisión de fase codificada es por lo tanto más complicada. Sin embargo, cuando se transmite, la fase está limitada al rango {-p;p}, es decir, la fase "está envuelta", según se proporciona por la transformada de Fourier. Debido a esta representación de fase de módulo 2p, se pierde la relación entre tramas estructural de la fase y, a primera vista, parece ser una variable aleatoria.

Sin embargo, puesto que la fase es la integral de la frecuencia, la fase es redundante y, en principio, no tiene que transmitirse. Esto reduce de manera significativa la tasa de transmisión de bits. En el decodificador, la fase se recupera mediante un proceso que se denomina continuación de fase.

En la continuación de fase, sólo se transmite la frecuencia codificada, y la fase se recupera en el decodificador a partir de los datos de frecuencia aprovechando la relación de integrales entre fase y frecuencia. Se conoce, sin embargo, que cuando se usa la continuación de fase, la fase no puede recuperarse perfectamente. Si se producen errores de frecuencia, por ejemplo debido a errores de medición en la frecuencia o debido a ruido de cuantificación, la fase, que está reconstruyéndose usando la relación de integrales, mostrará normalmente un error que tiene carácter de desviación. Esto se debe a que los errores de frecuencia tienen un carácter aproximadamente aleatorio. Los errores de baja frecuencia se amplifican mediante integración, y por consiguiente la fase recuperada tenderá a desviarse de la fase realmente medida. Esto lleva a artefactos audibles.

Esto se ilustra en la figura 2a en la que O y ? son la frecuencia real y la fase real, respectivamente, para una pista. Tanto en el codificador como el decodificador, la frecuencia y la fase tienen una relación de integrales según se representa por la letra "I". El proceso de cuantificación en el codificador se modela como ruido n añadido. En el decodificador, la fase hat{?} recuperada incluye por tanto dos componentes: la fase ? real y una componente varepsilon₂ de ruido, donde tanto el espectro de la fase recuperada como la función de densidad espectral de potencia del ruido varepsilon₂ tienen un carácter de baja frecuencia marcado.

Por tanto, puede verse que en la continuación de fase, la propia fase recuperada es una señal de baja frecuencia porque la fase recuperada es la integral de una señal de baja frecuencia. Sin embargo, el ruido introducido en el proceso de reconstrucción también es dominante en este rango de baja frecuencia. Es por lo tanto difícil separar estas fuentes con el fin de filtrar el ruido n introducido durante la codificación.

Además, en la continuación de fase, sólo la primera sinusoide de cada pista se transmite para cada pista con el fin de ahorrar tasa de transmisión de bits. Cada fase subsiguiente se calcula a partir de la fase y las frecuencias iniciales de la pista. Puesto que las frecuencias se cuantifican y no siempre se estiman de manera muy precisa, la fase continua se desviará de la fase medida. Experimentos muestran que la continuación de fase degrada la calidad de una señal de audio.

Se ha propuesto tratar estos problemas proponiendo un cuantificador de fase/frecuencia conjunto, en el que las fases medidas de una pista sinusoidal, que tienen valores entre -p y p, se desenvuelven usando las frecuencias medidas y conectando información, dando como resultado fases desenvueltas en aumento monótonas a lo largo de una pista. En el codificador, las fases desenvueltas se cuantifican usando un cuantificador de modulación por codificación de impulsos diferencial adaptativa (ADPCM) y se transmiten al decodificador. El decodificador deriva las frecuencias y las fases de una pista sinusoidal a partir de la trayectoria de fase desenvuelta.

Como ejemplo, el cuantificador ADPCM puede configurarse como se describe a continuación. Para la primera continuación de una pista, la fase desenvuelta se cuantifica según la tabla 1.

TABLA 1 Tabla R de representación usada para primera continuación

Los límites de cuantificación se definen según esta tabla mediante: {-infty; 2T (r = 1), 0, 2T (r = 2), infty}. Para cada continuación consecutiva, las tablas se ajustan a escala. Si el nivel de representación está en el nivel externo, las tablas se multiplican por 2^1/2, haciendo que la precisión de cuantificación sea más basta. De otro modo, los niveles de representación están en el nivel interno y las tablas se ajustan a escala por 2^-1/4, haciendo que la precisión de cuantificación sea más fina. Además, hay un límite superior e inferior para el nivel interno, concretamente 3p/4 y p/64.

La cuantificación de la trayectoria de fase desenvuelta es un proceso continuo en los procedimientos anteriores, en los que la precisión de cuantificación se adapta a lo largo de la pista. Por lo tanto, con el fin de decodificar una pista, el proceso de decodificación tiene que empezar desde el nacimiento o punto inicial de una pista, es decir, el decodificador sólo puede descuantificar una pista completa y no es posible decodificar una parte de la pista. Por...

Reivindicaciones:

1. Procedimiento para codificar una señal de audio, comprendiendo el procedimiento las etapas de:

- proporcionar un conjunto respectivo de valores (x(t)) de señal muestreados para cada uno de una pluralidad de segmentos de tiempo secuenciales;

- analizar los valores (x(t)) de señal muestreados para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales;

- conectar componentes sinusoidales a lo largo de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales, comprendiendo cada pista varias tramas;

estando caracterizado el procedimiento porque comprende además las etapas de:

generar una fase (f) cuantificada para la pluralidad de segmentos secuenciales mediante una cuantificación predictiva de una fase de las componentes sinusoidales en una pista usando una precisión de cuantificación adaptativa; y

- generar una señal (AS) codificada que incluye códigos (C_S) sinusoidales que comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y donde algunos de estos códigos (C_S) comprenden una fase (f) cuantificada actual, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio, reflejando la tabla (Q) de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio.

2. Procedimiento según la reivindicación 1, en el que se realiza una selección entre un código para una trama que comprende un nivel (r) de representación y un código para una trama que comprende una fase (f) actual, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación en función de una señal de activación (Activ.).

3. Procedimiento según la reivindicación 1 ó 2, en el que cada tabla (Q) de cuantificación se representa por un índice (IND) y en el que el índice (IND) se transmite desde el codificador (1) al decodificador (3) en una trama (702) de acceso aleatorio en lugar de transmitir la tabla (Q) de cuantificación.

4. Procedimiento según la reivindicación 3, en el que el índice (IND) se genera o representa usando codificación de Huffman.

5. Procedimiento para decodificar un flujo (AS') de audio codificado, estando caracterizado el procedimiento porque comprende la etapa de:

- recibir una señal que incluye el flujo (AS') de audio codificado, comprendiendo el flujo (AS') de audio pistas de códigos (C_S) sinusoidales, en el que los códigos (C_S) sinusoidales comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y en el que algunos de estos códigos (C_S) comprenden una fase (f) cuantificada actual que es una cuantificación predictiva de una fase de las componentes sinusoidales con una precisión de cuantificación adaptativa, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio, reflejando la tabla (Q) de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio.

6. Procedimiento según la reivindicación 5, en el que cada tabla (Q) de cuantificación se representa por un índice (IND) y en el que el índice (IND) se recibe desde un codificador (1) en lugar de una recepción de la tabla (Q) de cuantificación en una trama (702) de acceso aleatorio.

7. Procedimiento según la reivindicación 6, en el que el índice (IND) se genera o representa, usando codificación de Huffman.

8. Codificador de audio dispuesto para procesar un conjunto respectivo de valores de señal muestreados para cada uno de una pluralidad de segmentos de tiempo secuenciales, comprendiendo el codificador;

- un analizador para analizar los valores de señal muestreados para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales;

- un elemento (13) de conexión para conectar componentes sinusoidales a lo largo de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales, comprendiendo cada pista varias tramas;

estando caracterizado el codificador porque comprende además:

- medios para generar una fase (f) cuantificada para la pluralidad de segmentos secuenciales mediante una cuantificación predictiva de una fase de las componentes sinusoidales en una pista usando una precisión de cuantificación adaptativa;

- medios (15) para proporcionar una señal (AS) codificada que incluye códigos (C_S) sinusoidales que comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y en el que algunos de estos códigos (C_S) comprenden una fase (f) cuantificada actual, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio, reflejando la tabla (Q) de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio.

9. Reproductor de audio, caracterizado porque comprende:

- medios para recibir una señal que incluye el flujo (AS') de audio codificado, comprendiendo el flujo (AS') de audio pistas de códigos (C_S) sinusoidales, en el que los códigos (C_S) sinusoidales comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y en el que algunos de estos códigos (C_S) comprenden una fase (f) cuantificada actual que es una cuantificación predictiva de una fase de las componentes sinusoidales con una precisión de cuantificación adaptativa, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio, reflejando la tabla (Q) de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio, y

- un sintetizador dispuesto para emplear los cero o más niveles de representación recibidos y la fase (f) cuantificada, la frecuencia (?) y la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como una trama de acceso aleatorio con el fin de sintetizar las componentes sinusoidales de la señal (y(t)) de audio.

10. Sistema de audio que comprende un codificador de audio según la reivindicación 8 y un reproductor de audio según la reivindicación 9.

11. Flujo de audio que comprende códigos (C_S) sinusoidales que representan pistas de componentes sinusoidales conectadas a lo largo de una pluralidad de segmentos de tiempo secuenciales de una señal de audio, en el que los códigos (C_S) sinusoidales comprenden un nivel (r) de representación para al menos una trama no designada como trama de acceso aleatorio y en el que el flujo de audio se cuantifica porque algunos de estos códigos (C_S) comprenden una fase (f) cuantificada actual que es una cuantificación predictiva de una fase de las componentes sinusoidales con una precisión de cuantificación adaptativa, una frecuencia (?) actual y al menos uno de una tabla (Q) de cuantificación y un índice (IND) de tabla de cuantificación para la tabla (Q) de cuantificación para una trama dada cuando la trama dada se designa como trama de acceso aleatorio, reflejando la tabla de cuantificación una precisión actual de la precisión de cuantificación adaptativa para la trama de acceso aleatorio y no comprendiendo la señal (AS) codificada datos de estado de predicción para la cuantificación predictiva para la trama de acceso aleatorio.

12. Medio de almacenamiento en el que se ha almacenado un flujo de audio según la reivindicación 11.

Patentes similares o relacionadas:

SINTESIS DE SEÑAL DE AUDIO, del 26 de Enero de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Dispositivo de síntesis de señal para sintetizar una señal (r'') de audio, comprendiendo el dispositivo: - una unidad de síntesis sinusoidal […]

CODIFICACIÓN DE SEÑALES AUDIO-DIGITALES, del 26 de Julio de 2011, de FRANCE TELECOM: Método de codificación de una señal de audio de entrada en donde dicha señal de audio de entrada está combinada con una señal intermedia de contra-reacción que forma una señal […]

CODIFICACION DE ENTROPIA POR ADAPTACION DE CODIFICACION ENTRE MODALIDADES DE NIVEL Y DE LONGITUD DE SUCESION Y NIVEL, del 17 de Marzo de 2010, de MICROSOFT CORPORATION: Un procedimiento de codificación de datos de audio en un esquema de codificación vectorial de Huffman, en un sistema informático, comprendiendo el procedimiento: determinar […]

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]