Codificación por transformada de audio utilizando corrección tonal.

Procesador de audio para generar una representación procesada de una señal de audio que tiene una secuencia de tramas,

comprendiendo el procesador de audio:

un muestreador adaptado para muestrear la señal de audio dentro de una primera y una segunda trama de la secuencia de tramas, siguiendo la segunda trama a la primera trama, utilizando el muestreador información sobre un contorno tonal de la primera y la segunda trama para derivar una primera representación muestreada y para muestrear la señal de audio dentro de la segunda y una tercera trama, siguiendo la tercera trama a la segunda trama en la secuencia de tramas utilizando la información sobre el contorno tonal de la segunda trama e información sobre un contorno tonal de la tercera trama para derivar una segunda representación muestreada;

un calculador de ventanas de transformada adaptado para derivar una primera ventana de ajuste a escala para la primera representación muestreada y una segunda ventana de ajuste a escala para la segunda representación muestreada, dependiendo las ventanas de ajuste a escala del muestreo aplicado para derivar la primera representación muestreada o la segunda representación muestreada; y un divisor en ventanas adaptado para aplicar la primera ventana de ajuste a escala a la primera representación muestreada y la segunda ventana de ajuste a escala a la segunda representación muestreada para derivar una representación procesada de las tramas de audio primera, segunda y tercera de la señal de audio.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/002118.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GEIGER, RALF, SCHULLER, GERALD, EDLER, BERND, POPP, HARALD, DISCH,SASCHA, MULTRUS,MARKUS, NEUENDORF,Max, KRAEMER,Ulrich, FUCHS,Guillaume, BAYER,Stefan.

Fecha de Publicación: 21 de Marzo de 2012.

Clasificación Internacional de Patentes:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.

PDF original: ES-2376989_T3.pdf

Fragmento de la descripción:

Codificación por transformada de audio utilizando corrección tonal.

Campo de la invención Varias realizaciones de la presente invención se refieren a procesadores de audio para generar una representación procesada de una señal de audio en tramas utilizando el muestreo y remuestreo en función de la altura tonal de las señales.

Antecedentes de la invención y técnica anterior A menudo se utilizan transformadas solapadas moduladas basadas en coseno o seno correspondientes a bancos de filtros modulados, en aplicaciones en codificación de fuente debido a sus propiedades de compactación de energía. Es decir, para tonos armónicos con frecuencias fundamentales (altura tonal) constantes, concentran la energía de señal en un número bajo de componentes espectrales (subbandas) , lo que lleva a representaciones eficaces de la señal. En general, la altura tonal de una señal debe entenderse como la frecuencia dominante más baja que puede distinguirse del espectro de la señal. En el modelo de habla común, la altura tonal es la frecuencia de la señal de excitación modulada por la garganta humana. Si sólo estuviera presente una única frecuencia fundamental, el espectro sería extremadamente sencillo, comprendiendo únicamente la frecuencia fundamental y los armónicos superiores. Un espectro de este tipo podría codificarse de manera muy eficaz. Sin embargo, para señales con una altura tonal variable, la energía correspondiente a cada componente armónica se propaga por varios coeficientes de transformada llevando, por tanto, a una reducción de la eficacia de codificación.

Se podría intentar mejorar la eficacia de codificación para señales con una altura tonal variable creando en primer lugar una señal discreta en el tiempo con una altura tonal prácticamente constante. Para lograr esto, la tasa de muestreo podría variarse proporcionalmente a la altura tonal. Es decir, podría remuestrearse toda la señal antes de la aplicación de la transformada de modo que la altura tonal fuera lo más constante posible en toda la duración de la señal. Esto podría lograrse con un muestreo no equidistante, en el que los intervalos de muestreo son localmente adaptativos y se eligen de modo que la señal remuestreada, cuando se interpreta en términos de muestras equidistantes, tiene un contorno tonal más próximo a una altura tonal media común que la señal original. En este sentido, el contorno tonal debe entenderse que es la variación local de la altura tonal. La variación local podría parametrizarse, por ejemplo, en función de un número de muestra o tiempo.

De manera equivalente, esta operación podría considerarse como un reajuste a escala del eje de tiempo de una señal muestreada o de una continua antes de un muestreo equidistante. Una transformada de tiempo de este tipo también se conoce como alineamiento (warping) . La aplicación de una transformada de frecuencia a una señal procesada previamente para llegar a una altura tonal casi constante, podría aproximar la eficacia de codificación a la eficacia alcanzable para una señal con una altura tonal generalmente constante.

El enfoque anterior, sin embargo, tiene varias desventajas. En primer lugar, una variación de la tasa de muestreo por un intervalo amplio, tal como se requiere por el procesamiento de toda la señal, podría llevar a una variación importante del ancho de banda de la señal debido al teorema de muestreo. En segundo lugar, cada bloque de coeficientes de transformada que representa un número fijo de muestras de entrada representaría entonces un segmento de tiempo de duración variable en la señal original. Esto haría que las aplicaciones con retardo de codificación limitado fueran casi imposibles y, además, daría como resultado dificultades en la sincronización.

Un método adicional se propone por los solicitantes de la solicitud de patente internacional 2007/051548. Los autores proponen un método para realizar el alineamiento por tramas. Sin embargo, esto se logra introduciendo limitaciones no deseadas a los contornos de alineamiento aplicables. Por tanto, existe la necesidad de enfoques alternativos para aumentar la eficacia de codificación, manteniendo al mismo tiempo una alta calidad de las señales de audio codificadas y decodificadas.

Sumario de la invención Varias realizaciones de la presente invención permiten un aumento en la eficacia de codificación realizando una transformación local de la señal dentro de cada bloque de señal (trama de audio) con el fin de proporcionar una altura tonal (prácticamente) constante dentro de la duración de cada bloque de entrada que contribuye a un conjunto de coeficientes de transformada en una transformada basada en bloques. Un bloque de entrada de este tipo puede crearse, por ejemplo, por dos tramas consecutivas de una señal de audio cuando se utiliza una transformada de coseno discreta modificada como transformación de dominio de frecuencia.

Según varias realizaciones de la presente invención, un procesador de audio según la reivindicación 1 para generar una representación procesada de una señal de audio que tiene una secuencia de tramas comprende: un muestreador adaptado para muestrear la señal de audio dentro de una primera y una segunda trama de la secuencia de tramas, siguiendo la segunda trama a la primera trama, utilizando el muestreador información sobre un contorno tonal de la primera y la segunda trama para derivar una primera representación muestreada y para muestrear la señal de audio dentro de la segunda y una tercera trama, siguiendo la tercera trama a la segunda trama en la secuencia de tramas utilizando la información sobre el contorno tonal de la segunda trama e información sobre un contorno tonal de la tercera trama para derivar una segunda representación muestreada; un calculador de ventanas de transformada adaptado para derivar una primera ventana de ajuste a escala para la primera representación muestreada y una segunda ventana de ajuste a escala para la segunda representación muestreada, dependiendo las ventanas de ajuste a escala del muestreo aplicado para derivar la primera representación muestreada o la segunda representación muestreada; y un divisor en ventanas adaptado para aplicar la primera ventana de ajuste a escala a la primera representación muestreada y la segunda ventana de ajuste a escala a la segunda representación muestreada para derivar una representación procesada de las tramas de audio primera, segunda y tercera de la señal de audio.

Según realizaciones adicionales el divisor en ventanas está adaptado para derivar una primera representación muestreada ajustada a escala aplicando la primera ventana de ajuste a escala a la primera representación muestreada y para derivar una segunda representación muestreada ajustada a escala aplicando la segunda ventana de ajuste a escala a la segunda representación ajustada a escala.

Según realizaciones adicionales el divisor en ventanas comprende además un transformador de dominio de frecuencia para derivar una primera representación de dominio de frecuencia de una primera representación remuestreada ajustada a escala y para derivar una segunda representación de dominio de frecuencia de una segunda representación remuestreada ajustada a escala.

Según realizaciones adicionales un procesador de audio comprende además un estimador de altura tonal adaptado para derivar el contorno tonal de las tramas primera, segunda y tercera.

Según realizaciones adicionales un procesador de audio comprende además una interfaz de salida para proporcionar las representaciones de dominio de frecuencia primera y segunda y el contorno tonal de las tramas primera, segunda y tercera como una representación codificada de la segunda trama.

Según una realización adicional, se define un procesador de audio según la reivindicación 11.

Según realizaciones adicionales de la presente invención un método según la reivindicación 13 para procesar una primera representación muestreada de una primera y una segunda trama de una señal de audio que tiene una secuencia de tramas en la que la segunda trama sigue a la primera trama y para procesar una segunda representación muestreada de la segunda trama y de una tercera trama de la señal de audio que sigue a la segunda trama en la secuencia de tramas, comprende: derivar una primera ventana de ajuste a escala para la primera representación muestreada utilizando información sobre un contorno tonal de la primera y la segunda trama y derivar una segunda ventana de ajuste a escala para la segunda representación muestreada utilizando información sobre un contorno... [Seguir leyendo]

Reivindicaciones:

1. Procesador de audio para generar una representación procesada de una señal de audio que tiene una secuencia de tramas, comprendiendo el procesador de audio:

un muestreador adaptado para muestrear la señal de audio dentro de una primera y una segunda trama de la secuencia de tramas, siguiendo la segunda trama a la primera trama, utilizando el muestreador información sobre un contorno tonal de la primera y la segunda trama para derivar una primera representación muestreada y para muestrear la señal de audio dentro de la segunda y una tercera trama, siguiendo la tercera trama a la segunda trama en la secuencia de tramas utilizando la información sobre el contorno tonal de la segunda trama e información sobre un contorno tonal de la tercera trama para derivar una segunda representación muestreada;

un calculador de ventanas de transformada adaptado para derivar una primera ventana de ajuste a escala para la primera representación muestreada y una segunda ventana de ajuste a escala para la segunda representación muestreada, dependiendo las ventanas de ajuste a escala del muestreo aplicado para derivar la primera representación muestreada o la segunda representación muestreada; y un divisor en ventanas adaptado para aplicar la primera ventana de ajuste a escala a la primera representación muestreada y la segunda ventana de ajuste a escala a la segunda representación muestreada para derivar una representación procesada de las tramas de audio primera, segunda y tercera de la señal de audio.

2. Procesador de audio según la reivindicación 1, en el que el muestreador es operativo para muestrear la señal de audio de modo que un contorno tonal dentro de las representaciones muestreadas primera y segunda es más constante que un contorno tonal de la señal de audio dentro de las tramas primera, segunda y tercera correspondientes.

3. Procesador de audio según la reivindicación 1, en el que el muestreador es operativo para remuestrear una señal de audio muestreada que tiene N muestras en cada una de las tramas primera, segunda y tercera, de modo que cada una de las representaciones muestreadas primera y segunda comprende 2N muestras.

4. Procesador de audio según la reivindicación 3, en el que el muestreador es operativo para derivar una muestra i de la primera representación muestreada en una posición dada por la fracción u entre las posiciones de muestreo originales k y (k+1) de las 2N muestras de las tramas primera y segunda, dependiendo la fracción u de un contorno de tiempo que asocia las posiciones de muestreo utilizadas por el muestreador y las posiciones de muestreo originales de la señal de audio muestreada de las tramas primera y segunda.

5. Procesador de audio según la reivindicación 4, en el que el muestreador es operativo para utilizar un contorno de tiempo derivado del contorno tonal pi de las tramas según la siguiente ecuación:

donde un intervalo de tiempo de referencia I para la primera representación muestreada se deriva de un indicador de altura tonal D derivado del contorno tonal pi según:

6. Procesador de audio según la reivindicación 1, en el que el calculador de ventanas de transformada está adaptado para derivar ventanas de ajuste a escala con números idénticos de muestras, en el que un primer número de muestras utilizadas para atenuar la primera ventana de ajuste a escala difiere de un segundo número de muestras utilizadas para intensificar la segunda ventana de ajuste a escala.

7. Procesador de audio según la reivindicación 1, en el que el calculador de ventanas de transformada está adaptado para derivar una primera ventana de ajuste a escala en la que un primer número de muestras es menor que un segundo número de muestras de la segunda ventana de ajuste a escala cuando las tramas primera y segunda combinadas tienen una altura tonal media mayor que las tramas combinadas segunda y tercera o para derivar una primera ventana de ajuste a escala en la que el primer número de muestras es mayor que el segundo número de muestras de la segunda ventana de ajuste a escala cuando las tramas combinadas primera y segunda tienen una altura tonal media menor que las tramas combinadas segunda y tercera.

8. Procesador de audio según la reivindicación 6, en el que el calculador de ventanas de transformada está adaptado para derivar ventanas de ajuste a escala en las que un número de muestras antes de las muestras utilizadas para atenuar y en las que un número de muestras después de las muestras utilizadas para intensificar se establecen en una unidad y en las que el número de muestras después de las muestras

utilizadas para atenuar y antes de las muestras utilizadas para intensificar se establecen en 0.

9. Procesador de audio según la reivindicación 8, en el que el calculador de ventanas de transformada está adaptado para derivar el número de muestras utilizadas para intensificar y utilizadas para atenuar dependiendo de un primer indicador de altura tonal Dj de las tramas primera y segunda que tienen muestras 0, ...

2. 1 y de un segundo indicador de altura tonal Dj+1 de la segunda y la tercera que tienen muestras N, .., 3N

1, de modo que el número de muestras utilizadas para intensificar es:

o y el primer número de muestras utilizadas para atenuar es:

o donde los indicadores de altura tonal Dj yDj+1 se derivan del contorno tonal pi según las siguientes ecuaciones:

10. Procesador de audio según la reivindicación 8, en el que el calculador de ventanas es operativo para derivar el primer y segundo número de muestras volviendo a muestrear una ventana de intensificación y atenuación predeterminada con números iguales de muestras con respecto al primer y segundo número de muestras.

11. Procesador de audio para procesar una primera representación muestreada de una primera y una segunda trama de una señal de audio que tiene una secuencia de tramas en la que la segunda trama sigue a la primera trama y para procesar una segunda representación muestreada de la segunda trama y de una tercera trama de la señal de audio que sigue a la segunda trama en la secuencia de tramas, que comprende:

un calculador de ventanas de transformada adaptado para derivar una primera ventana de ajuste a escala para la primera representación muestreada utilizando información sobre un contorno tonal de la primera y la segunda trama y para derivar una segunda ventana de ajuste a escala para la segunda representación muestreada utilizando información sobre un contorno tonal de las tramas segunda y tercera, en el que las ventanas de ajuste a escala tienen un número idéntico de muestras y en el que un primer número de muestras utilizadas para atenuar la primera ventana de ajuste a escala difiere de un segundo número de muestras utilizadas para intensificar la segunda ventana de ajuste a escala;

un divisor en ventanas adaptado para aplicar la primera ventana de ajuste a escala a la primera representación muestreada y para aplicar la segunda ventana de ajuste a escala a la segunda representación muestreada; y un remuestreador adaptado para remuestrear la primera representación muestreada ajustada a escala para derivar una primera representación remuestreada utilizando la información sobre el contorno tonal de la primera y la segunda trama y para remuestrear la segunda representación muestreada ajustada a escala para derivar una segunda representación remuestreada utilizando la información sobre el contorno tonal de las tramas segunda y tercera, dependiendo el remuestreo de las ventanas de ajuste a escala derivadas.

12. Procesador de audio según la reivindicación 11, que comprende además un sumador adaptado para sumar la parte de la primera representación remuestreada correspondiente a la segunda trama y la parte de la segunda representación remuestreada correspondiente a la segunda trama para derivar una representación reconstruida de la segunda trama de la señal de audio.

13. Método para generar una representación procesada de una señal de audio que tiene una secuencia de tramas que comprende:

muestrear la señal de audio dentro de una primera y una segunda trama de la secuencia de tramas, siguiendo la segunda trama a la primera trama, utilizando el muestreo información sobre un contorno tonal de la primera y la segunda trama para derivar una primera representación muestreada;

muestrear la señal de audio dentro de la segunda y una tercera trama, siguiendo la tercera trama a la segunda trama en la secuencia de tramas, utilizando el muestreo la información sobre el contorno tonal de la segunda trama e información sobre un contorno tonal de la tercera trama para derivar una segunda representación muestreada;

derivar una primera ventana de ajuste a escala para la primera representación muestreada y una segunda ventana de ajuste a escala para la segunda representación muestreada, dependiendo las ventanas de ajuste a escala de los muestreos aplicados para derivar la primera representación muestreada o la segunda representación muestreada; y aplicar la primera ventana de ajuste a escala a la primera representación muestreada y aplicar la segunda ventana de ajuste a escala a la segunda representación muestreada.

14. Método para procesar una primera representación muestreada de una primera y una segunda trama de una señal de audio que tiene una secuencia de tramas en la que la segunda trama sigue a la primera trama y para procesar una segunda representación muestreada de la segunda trama y de una tercera trama de la señal de audio que sigue a la segunda trama en la secuencia de tramas, que comprende:

derivar una primera ventana de ajuste a escala para la primera representación muestreada utilizando información sobre un contorno tonal de la primera y la segunda trama y derivar una segunda ventana de ajuste a escala para la segunda representación muestreada utilizando información sobre un contorno tonal de la segunda y la tercera trama, en el que las ventanas de ajuste a escala se derivan de manera que tienen un número idéntico de muestras, en el que un primer número de muestras utilizadas para atenuar la primera ventana de ajuste a escala difiere de un segundo número de muestras utilizadas para intensificar la segunda ventana de ajuste a escala;

aplicar la primera ventana de ajuste a escala a la primera representación muestreada y la segunda ventana de ajuste a escala a la segunda representación muestreada; y remuestrear la primera representación muestreada ajustada a escala para derivar una primera representación remuestreada utilizando la información sobre el contorno tonal de la primera y la segunda trama y remuestrear la segunda representación muestreada ajustada a escala para derivar una segunda representación remuestreada utilizando la información sobre el contorno tonal de la segunda y la tercera trama, dependiendo el remuestreo de las ventanas de ajuste a escala derivadas.

15. Programa informático que comprende medios de código de programa que cuando se ejecuta en un ordenador hace que dicho ordenador ejecute las etapas de un método según las reivindicaciones 13 ó 14.

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]