CODIFICACION DE AUDIO.

Dispositivo para la codificación de una señal de audio de una secuencia de valores de audio en una señal codificada,

con

un medio (20) para determinar un primer umbral de escucha para un primer bloque de valores de audio de la secuencia de valores de audio y un segundo umbral de escucha para un segundo bloque de valores de audio de la secuencia de valores de audio;

un medio (24) para calcular una versión de una primera parametrización de un filtro (30) parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del primer umbral de escucha, y una versión de una segunda parametrización del filtro parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del segundo umbral de escucha;

un medio (30) para filtrar un bloque predeterminado de valores de audio de la secuencia de valores de audio con el filtro parametrizable utilizando una parametrización predeterminada, que de manera predeterminada depende de la versión de la segunda parametrización, para obtener un bloque de valores de audio filtrados correspondiente al bloque predeterminado;

un medio (28) para cuantificar los valores de audio filtrados, para obtener un bloque de valores de audio filtrados, cuantificados;

un medio para formar una combinación de la versión de la primera parametrización y de la versión de la segunda parametrización, que se suceden entre sí, y que comprende al menos una diferencia entre la versión de la primera parametrización y la versión de la segunda parametrización; y

un medio para integrar información, a partir de la que pueden derivarse los valores de audio filtrados, cuantificados y una versión de la primera parametrización, y que comprende la combinación, en la señal codificada

Tipo: Resumen de patente/invención. Número de Solicitud: W05001363EP.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C,80686 MUNCHEN.

Inventor/es: SCHULLER, GERALD, LUTZKY,MANFRED, WABNIK,STEFAN, HIRSCHFELD,JENS.

Fecha de Publicación: 19 de Enero de 2010.

Fecha Concesión Europea: 2 de Septiembre de 2009.

Clasificación Internacional de Patentes:

G10L19/00L
G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/14P1
G10L19/14P2

Clasificación PCT:

G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/02 G10L 19/00 […] › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/14

Clasificación antigua:

G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/02 G10L 19/00 […] › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/14

Fragmento de la descripción:

Codificación de audio.

La presente invención se refiere a codificadores o decodificadores de audio o a la codificación de audio en general y, especialmente, a codificaciones de audio que permiten una codificación de señales de audio con un tiempo de retardo corto.

El procedimiento de compresión de audio actualmente más conocido es el MPEG-1 capa III. En este procedimiento de compresión se codifican con pérdidas los valores de muestreo o de audio de una señal de audio en una señal codificada. Dicho de otro modo, en la compresión se reducen o de manera ideal se eliminan la irrelevancia y redundancia de la señal de audio original. Para conseguir esto, mediante un modelo psicoacústico se detectan enmascaramientos simultáneos y temporales, es decir, se calcula o determina un umbral de enmascaramiento que varía en el tiempo, dependiente de la señal de audio, que indica a partir de qué volumen empiezan a ser perceptibles los tonos de una determinada frecuencia para el oído humano. Esta información se utiliza a su vez para la codificación de la señal, cuantificándose los valores espectrales de la señal de audio en función del umbral de enmascaramiento de manera más precisa, menos precisa o no cuantificándose en absoluto, e integrándose en la señal codificada.

Los procedimientos de compresión de audio, tales como el formato MP3, experimentan entonces un límite en su aplicabilidad, cuando se trata de transferir datos de audio por un canal de transferencia con una tasa de bits limitada por un lado comprimidos, pero por otro lado con un tiempo de retardo lo más reducido posible. En algunas aplicaciones, el tiempo de retardo no es importante, como por ejemplo en el caso de archivar información de audio. Sin embargo, los codificadores de audio con un tiempo de retardo bajo, también denominados a veces "codificadores de retardo ultrabajo", son necesarios cuando se trata de transferencias críticas en cuanto al tiempo de señales de audio, como por ejemplo en el caso de teleconferencias, altavoces o micrófonos inalámbricos. Para estos campos de aplicación se propone en el artículo de Schuller G. etc. "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, vol. 10, n.º 6, septiembre de 2002, págs. 379-390, una codificación de audio, en la que la reducción de irrelevancia y la reducción de redundancia se realizan no basándose en una única transformación, sino en dos transformaciones separadas.

El principio se explica a continuación haciendo referencia a las figuras 12 y 13. La codificación parte de una señal 902 de audio, que ya se ha muestreado y por tanto ya está presente como una secuencia 904 de valores 906 de audio o muestreo, indicándose mediante una flecha 908 el orden temporal de los valores 906 de audio. Para bloques sucesivos de valores 906 de audio, que se indican con una numeración creciente con "bloque#", se calcula un umbral de escucha mediante un modelo psicoacústico. La figura 13 muestra por ejemplo un diagrama, en el que, con respecto a la frecuencia f, con la curva a se ha trazado en unidades logarítmicas el espectro de un bloque de señal de 128 valores 906 de audio y en b el umbral de enmascaramiento, tal como se ha calculado mediante un modelo psicoacústico. Como ya se ha mencionado, el umbral de enmascaramiento indica hasta qué intensidad las frecuencias son imperceptibles para el oído humano, concretamente todos los tonos por debajo del umbral de enmascaramiento b. Ahora, basándose en los umbrales de enmascaramiento calculados para cada bloque se consigue una reducción de irrelevancia mediante el control de un filtro parametrizable seguido por un cuantificador. Para un filtro parametrizable se calcula una parametrización de tal modo que la respuesta de frecuencia del mismo corresponde a la inversa de la magnitud del umbral de enmascaramiento. Esta parametrización se indica en la figura 12 mediante x_#(i).

Tras el filtrado de los valores 906 de audio se realiza una cuantificación con un tamaño de paso constante, por ejemplo una operación de redondeo al siguiente número entero. El ruido de cuantificación provocado de este modo es ruido blanco. En el lado del decodificador la señal filtrada vuelve a "transformarse de manera inversa" con un filtro parametrizable, cuya función de transferencia se ajusta a la magnitud del propio umbral de enmascaramiento. De este modo no sólo se vuelve a decodificar la señal filtrada sino que también se adapta el ruido de cuantificación en el lado del decodificador a la forma del umbral de enmascaramiento. Para que el ruido de cuantificación corresponda con la mayor precisión posible al umbral de enmascaramiento, en el lado del codificador se calcula para cada conjunto de parámetros o para cada parametrización además un valor de amplificación a_#, que se aplica antes de la cuantificación a la señal filtrada. Para que en el lado del decodificador pueda realizarse la transformación inversa se transfieren al codificador el valor de amplificación a y la parametrización x como información 910 secundaria además de los datos principales reales, concretamente los valores 912 de audio filtrados, cuantificados. Para la reducción 914 de redundancia estos datos, es decir, la información 910 secundaria y los datos 912 principales, se someten aún a una compresión sin pérdida, concretamente a una codificación de entropía, con lo cual se obtiene la señal codificada.

El artículo anterior propone como tamaño de bloque un tamaño de 128 valores 906 de muestreo. De este modo se permite un retardo relativamente corto de 8 ms a una tasa de muestreo de 32 kHz. Con respecto a la implementación detallada se describe aún en el artículo, que para aumentar la eficacia de la codificación de información secundaria, la información secundaria, concretamente los coeficientes x_# y a_# sólo se transfieren cuando existe un cambio suficiente en comparación con un conjunto de parámetros transferido anteriormente, es decir, cuando el cambio supera un valor umbral determinado. Además se describe que la implementación se lleva a cabo preferiblemente de modo que un conjunto de parámetros actual no se aplica directamente a todos los valores de muestreo pertenecientes al bloque respectivo, sino que se utiliza una interpolación lineal de los coeficientes de filtro x_# para evitar artefactos audibles. Para realizar la interpolación lineal de los coeficientes de filtro se propone una estructura reticular para el filtro, para evitar la aparición de inestabilidades. Para el caso de que se desee una señal codificada con una tasa de bits controlada, el artículo propone además multiplicar o atenuar aún selectivamente la señal filtrada y ajustada a escala con el factor de amplificación a dependiente del tiempo con un factor diferente de 1, de modo que si bien se generan interferencias audibles, sin embargo puede reducirse la tasa de bits en puntos complejos de codificar de la señal de audio.

Aunque el esquema de codificación de audio descrito en el artículo citado anteriormente ya reduce suficientemente el tiempo de retardo para muchas aplicaciones, un problema del esquema anterior consiste en que, debido a la necesidad de tener que transferir el umbral de enmascaramiento o la función de transferencia del filtro en el lado del codificador, designado a continuación como prefiltro, el canal de transferencia se carga relativamente mucho, aunque los coeficientes de filtro sólo se transfieran al superar un umbral predeterminado.

Otra desventaja del esquema de codificación anterior consiste en que, debido al hecho de que el umbral de enmascaramiento o la inversa del mismo debe ponerse a disposición en el lado del decodificador mediante el conjunto de parámetros x_# que ha de transferirse, debe llegarse a un acuerdo entre por un lado una tasa de bits lo más baja posible o una relación de compresión alta y por otro lado una aproximación o parametrización lo más precisa posible del umbral de enmascaramiento o la inversa del mismo. Por tanto es inevitable que el ruido de cuantificación adaptado mediante el esquema de codificación de audio anterior al umbral de enmascaramiento supere en algunas gamas de frecuencia el umbral de enmascaramiento y por tanto lleve a interferencias de audio audibles para el oyente.

La figura 13 muestra por ejemplo con la curva c la respuesta de frecuencia parametrizada del filtro parametrizable en el lado del decodificador. Como puede observarse, hay zonas en las que la función de transferencia del filtro en el lado del decodificador, a continuación denominado también postfiltro, supera el umbral...

Reivindicaciones:

1. Dispositivo para la codificación de una señal de audio de una secuencia de valores de audio en una señal codificada, con

un medio (20) para determinar un primer umbral de escucha para un primer bloque de valores de audio de la secuencia de valores de audio y un segundo umbral de escucha para un segundo bloque de valores de audio de la secuencia de valores de audio;

un medio (24) para calcular una versión de una primera parametrización de un filtro (30) parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del primer umbral de escucha, y una versión de una segunda parametrización del filtro parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del segundo umbral de escucha;

un medio (30) para filtrar un bloque predeterminado de valores de audio de la secuencia de valores de audio con el filtro parametrizable utilizando una parametrización predeterminada, que de manera predeterminada depende de la versión de la segunda parametrización, para obtener un bloque de valores de audio filtrados correspondiente al bloque predeterminado;

un medio (28) para cuantificar los valores de audio filtrados, para obtener un bloque de valores de audio filtrados, cuantificados;

un medio para formar una combinación de la versión de la primera parametrización y de la versión de la segunda parametrización, que se suceden entre sí, y que comprende al menos una diferencia entre la versión de la primera parametrización y la versión de la segunda parametrización; y

un medio para integrar información, a partir de la que pueden derivarse los valores de audio filtrados, cuantificados y una versión de la primera parametrización, y que comprende la combinación, en la señal codificada.

2. Dispositivo según la reivindicación 1, en el que el medio para filtrar presenta las características siguientes:

un medio para interpolar entre la versión de la primera parametrización y la versión de la segunda parametrización, para obtener una versión de una parametrización interpolada para un valor de audio predeterminado del bloque predeterminado de valores de audio; y

un medio para aplicar la versión de la parametrización interpolada al valor de audio predeterminado.

3. Dispositivo según una de las reivindicaciones anteriores, en el que el medio para integrar comprende un codificador de entropía.

4. Dispositivo según una de las reivindicaciones anteriores, en el que el medio para determinar el primer y el segundo umbral de escucha y el medio para calcular están configurados para, a partir del primer bloque de valores de audio, para una pluralidad de bloques sucesivos posteriores de valores de audio de la secuencia de valores de audio, determinar un umbral de escucha o calcular una parametrización del filtro parametrizable, de modo que la función de transferencia del mismo corresponde aproximadamente a la inversa de la magnitud del umbral de escucha respectivo, presentando el dispositivo además la característica siguiente:

un medio para comprobar las parametrizaciones por orden, en cuanto a si las mismas se diferencian de la primera parametrización en más de una medida predeterminada, y para seleccionar como la segunda parametrización sólo aquella parametrización de entre las parametrizaciones, que por primera vez se diferencia de la primera parametrización en más de la medida predeterminada.

5. Dispositivo según la reivindicación 4, en el que la combinación presenta la diferencia menos la medida predeterminada.

6. Dispositivo según una de las reivindicaciones anteriores, que presenta además un medio (22) para determinar un primer límite de potencia de ruido en función del primer umbral de enmascaramiento y un segundo límite de potencia de ruido en función del segundo umbral de enmascaramiento, y en el que el medio para filtrar presenta un medio (90) para interpolar entre el primer límite de potencia de ruido y el segundo límite de potencia de ruido, para obtener un límite de potencia de ruido interpolado para un valor de audio predeterminado del bloque predeterminado de valores de audio, un medio (92) para determinar un valor intermedio de ajuste a escala en función de una potencia de ruido de cuantificación provocada por una cuantificación según una norma de cuantificación predeterminada y el límite de potencia de ruido interpolado, y un medio (94) para aplicar el valor intermedio de ajuste a escala al valor de audio predeterminado, para obtener un valor de audio filtrado, ajustado a escala.

7. Dispositivo según una de las reivindicaciones anteriores, que está configurado para procesar una pluralidad de bloques predeterminados sucesivos y a este respecto incorporar en la señal codificada de manera intermitente información que comprende los valores de audio filtrados, cuantificados y una versión de la primera y la segunda parametrización.

8. Procedimiento para codificar una señal de audio de una secuencia de valores de audio en una señal codificada, con las etapas siguientes:

determinar un primer umbral de escucha para un primer bloque de valores de audio de la secuencia de valores de audio y un segundo umbral de escucha para un segundo bloque de valores de audio de la secuencia de valores de audio;

calcular una versión de una primera parametrización de un filtro (30) parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del primer umbral de escucha, y una versión de una segunda parametrización del filtro parametrizable, de modo que su función de transferencia corresponde aproximadamente a la inversa de la magnitud del segundo umbral de escucha;

filtrar un bloque predeterminado de valores de audio de la secuencia de valores de audio con el filtro parametrizable utilizando una parametrización predeterminada, que de manera predeterminada depende de la versión de la segunda parametrización, para obtener un bloque de valores de audio filtrados correspondiente al bloque predeterminado;

cuantificar los valores de audio filtrados, para obtener un bloque de valores de audio filtrados, cuantificados;

formar una combinación de la versión de la primera parametrización y de la versión de la segunda parametrización, que se suceden entre sí, y que comprende al menos una diferencia entre la versión de la primera parametrización y la versión de la segunda parametrización; e

integrar información, a partir de la que pueden derivarse los valores de audio filtrados, cuantificados, y que comprende la combinación, en la señal codificada.

9. Dispositivo para decodificar una señal codificada en una señal de audio, conteniendo la señal codificada información, a partir de la que pueden derivarse un bloque de valores de audio filtrados, cuantificados y una versión de una primera parametrización, según la cual una función de transferencia de un filtro parametrizable corresponde a la inversa de la magnitud de un primer umbral de escucha, y que comprende una combinación entre una versión de una segunda parametrización, según la cual una función de transferencia del filtro parametrizable corresponde a la inversa de una magnitud de un segundo umbral de escucha, y la versión de la primera parametrización, que se suceden entre sí, y que comprende al menos una diferencia entre la versión de la primera parametrización y la versión de la segunda parametrización, con

un medio para derivar la versión de la primera parametrización a partir de la señal codificada;

un medio para formar una suma entre la versión de la primera parametrización y la diferencia, para obtener la versión de la segunda parametrización; y

un medio para filtrar el bloque de valores de audio filtrados, cuantificados con un filtro parametrizable utilizando la versión de la segunda parametrización, de modo que su función de transferencia corresponde aproximadamente a la magnitud del umbral de escucha, para obtener un bloque de valores de audio decodificados de la señal de audio.

10. Procedimiento para decodificar una señal codificada en una señal de audio, conteniendo la señal codificada información a partir de la que pueden derivarse un bloque de valores de audio filtrados, cuantificados y una versión de una primera parametrización, según la cual una función de transferencia de un filtro parametrizable corresponde a la inversa de la magnitud de un primer umbral de escucha, y que comprende una combinación entre una versión de una segunda parametrización, según la cual una función de transferencia del filtro parametrizable corresponde a la inversa de una magnitud de un segundo umbral de escucha, y la versión de la primera parametrización, que se suceden entre sí, y que comprende al menos una diferencia entre la versión de la primera parametrización y la versión de la segunda parametrización, con las etapas siguientes:

derivar la versión de la primera parametrización a partir de la señal codificada;

formar una suma entre la versión de la primera parametrización y la diferencia, para obtener la versión de la segunda parametrización; y

filtrar el bloque de valores de audio filtrados, cuantificados con un filtro parametrizable utilizando la versión de la segunda parametrización, de modo que su función de transferencia corresponde aproximadamente a la magnitud del umbral de escucha, para obtener un bloque de valores de audio decodificados de la señal de audio.

11. Programa informático con un código de programa para la realización del procedimiento según la reivindicación 8 ó 10, cuando el programa informático se ejecuta en un ordenador.

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]