Aparato y método para modificar una señal de audio de entrada.

Un aparato (100) para modificar una señal de audio de entrada, que comprende:

un determinador de la excitación

(110) configurado para determinar un valor (112) de un parámetro de la excitación de una subbanda (102) de una pluralidad de subbandas de la señal de audio de entrada, basándose en un contenido de energía de la subbanda (102), en donde el valor (112) del parámetro de la excitación indica una potencia de la señal de audio en la subbanda o una energía de corto plazo de la señal de audio en la subbanda o un valor cuantificado de la energía de corto plazo de la señal de audio en la subbanda; un dispositivo de almacenamiento (120) que almacena una tabla de búsqueda que contiene una pluralidad de factores de ponderación espectral, en donde un factor de ponderación espectral de la pluralidad de factores de ponderación espectral está asociado con un valor predefinido del parámetro de la excitación y con una subbanda de la pluralidad de subbandas, en donde el dispositivo de almacenamiento está configurado para proporcionar un factor de ponderación espectral (124) que corresponde al valor determinado (112) del parámetro de la excitación y que corresponde a la subbanda (102), para la cual se determina el valor (112) del parámetro de la excitación; y un modificador de la señal (130) configurado para modificar un contenido de la subbanda (102) de la señal de audio de entrada, para la cual se determina el valor (112) del parámetro de la excitación, basándose en el factor de ponderación espectral (124) proporcionado, para proporcionar una subbanda modificada (132), mediante el escalado multiplicativo de la subbanda de la señal de audio por el factor de ponderación espectral proporcionado por la tabla de búsqueda.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10160679.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: UHLE, CHRISTIAN, HELLMUTH, OLIVER, HERRE,JUERGEN, FINAUER,STEFAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L21/00 (Tratamiento de la señal de la voz para producir otra señal audible o no audible, p.ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00  tiene prioridad))
  • SECCION H — ELECTRICIDAD > CIRCUITOS ELECTRONICOS BASICOS > CONTROL DE LA AMPLIFICACION (redes de impedancia,... > Combinaciones de dos o más tipos de control, p.... > H03G9/02 (en amplificadores no sintonizados (controles de tono combinados para altas y bajas frecuencias H03G 5/00))
  • SECCION H — ELECTRICIDAD > CIRCUITOS ELECTRONICOS BASICOS > CONTROL DE LA AMPLIFICACION (redes de impedancia,... > H03G9/00 (Combinaciones de dos o más tipos de control, p. ej. control de ganancia y control de tono)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/69 (para evaluar señales de voz sintéticas o decodificadas)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/0264 (caracterizado por el tipo de medición de parámetros, p. ej. técnicas de correlación, técnicas zero crossing o técnicas predictivas)

PDF original: ES-2526761_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Aparato y método para modificar una señal de audio de entrada

[0001] Las realizaciones de acuerdo con la invención se refieren al procesamiento de una señal de audio y, particularmente, a un aparato y método para modificar una señal de audio de entrada.

[0002] Ha habido muchos intentos de desarrollar un método objetivo satisfactorio para medir el volumen. Fletchery Munson determinaron en 1933 que el oído humano es menos sensible frecuencias altas y bajas que a frecuencias medias (o voz). También encontraron que el cambio relativo en la sensibilidad disminuía conforme el nivel del sonido se incrementaba. Un medidor del volumen inicial consistía de un micrófono, amplificador, medidor y una combinación de filtros diseñados para imitar aproximadamente la respuesta a la frecuencia del oído a niveles de sonido bajos, medios y altos.

[0003] Aunque tales dispositivos proporcionaron una medición del volumen de un tono aislado de un solo nivel constante, las mediciones de sonidos más complejos no correspondían muy bien a las impresiones subjetivas del volumen. Los medidores del nivel del sonido de este tipo se han estandarizado, pero sólo se utilizan para tareas específicas, tales como la verificación y control del ruido industrial.

[0004] A inicios de la década de 1950, Zwickery Stevens, entre otros, extendieron el trabajo de Fletchery Munson al desarrollar un modelo más realista del proceso de percepción del volumen. Stevens publicó un método para el "Cálculo del Volumen del Ruido Complejo" en la revista de la Sociedad Acústica de América en 1956, y Zwicker publicó su artículo "Base Sicológica y Metódica del Volumen" en Acoustica en 1958. En 1959, Zwicker publicó un procedimiento gráfico para el cálculo del volumen, así como varios artículos similares poco después. Los métodos de Stevens y Zwicker se estandarizaron como ISO 532, partes A y B (respectivamente). Ambos métodos involucran pasos similares.

[0005] Primero, la distribución que varía con el tiempo de la energía a lo largo de una membrana basilar del oído

interno, referida como excitación, se simuló pasando el audio a través de un banco de filtros auditivos de paso de banda, con frecuencias centrales separadas de manera uniforme en una escala de relación de la banda crítica. Cada filtro auditivo se diseñó para simular la respuesta a la frecuencia en una ubicación particular a lo largo de la membrana basilar del oído Interno, con la frecuencia central del filtro que corresponde a esta ubicación. Un ancho

de banda crítica se define como el ancho de banda de tal filtro. Medida en unidades de Hertz, el ancho de banda

crítica de estos filtros auditivos se Incrementa con la frecuencia central que se incrementa. Por lo tanto, es útil definir una escala de frecuencia deformada, de manera que el ancho de banda crítica para todos los filtros auditivos medidos en esta escala deformada sea constante. Tal escala deformada se refiere como la escala de relación de la banda crítica, y es muy útil para entender y similar una gama de fenómenos psicoacústicos. Véase, por ejemplo, Psychoacoustlcs-Facts and Models por E. Zwicker y H. Fastl, Springer-Verlag, Berlín, 1990. Los métodos de Stevens y Zwicker utilizan una escala de relación de la banda crítica referida como la escala Bark, en la cual el

ancho de banda crítica es constante por debajo de 500 Hz, y se incrementa por encima de 500 Hz. Más

recientemente, Moore y Glasberg definieron una escala de relación de la banda crítica, que nombraron la escala del Ancho de Banda Rectangular Equivalente (ERB) (B. C. J. Moore, B. Glasberg, T. Baer, "A Model forthe Prediction of Thresholds, Loudness, and Partial Loudness," Journal of the Audio Engineering Society, Vol. 45, No. 4, Abril 1997, pp. 224-240). A través de experimentos psicoacústicos que utilizan enmascaradores del ruido con muescas, Moore y Glasberg demostraron que el ancho de banda crítica continúa disminuyendo por debajo de 500 Hz, en contraste con la escala Bark, en donde el ancho de banda crítica permanece constante.

[0006] El término "banda crítica" se remonta al trabajo de Harvey Fletcher en 1938, sobre el enmascaramiento de la sensación del sonido por señales acompañantes ("J. B. Alien, "A short history of telephone psychophysics", Audio Eng. Soc. Convention, 1997"). Las bandas críticas pueden expresarse utilizando la escala Bark propuesta por Zwicker en 1961: cada banda crítica tiene el ancho de un Bark (una unidad nombrada por Heinrich Barkhausen). Sobre los bancos de filtros que imitan la percepción auditiva humana, existe, por ejemplo, la escala del Ancho de Banda Rectangular Equivalente (ERB) ("B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997").

[0007] El término "volumen específico", describe la sensación del volumen causado por una señal en una cierta región de la membrana basilar a un cierto ancho de banda de la frecuencia medido en las bandas críticas. Se mide en unidades de Sone/Bark. El término "banda crítica", se relaciona con las bandas de frecuencia de un banco de filtros auditivos, que comprende bancos de filtros de paso de banda no uniforme, diseñados para imitar la resolución de la frecuencia del oído humano. El volumen total de un sonido equivale a la suma/integral del volumen específico a través de todas las bandas críticas.

[0008] Un método para procesar una señal de audio ha sido descrito en "A. J. Seefeldt, "Cálculo y ajuste del volumen percibido y/o el equilibrio espectral percibido de una señal de audio" (Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal). Patente de los Estados Unidos 2009/0097676, 2009". Este método tiene el objeto de controlar el volumen específico de la señal de audio, con

aplicaciones para controlar el volumen, controlar el intervalo dinámico, igualación dinámica y compensación del ruido de fondo. En este documento, una señal de audio de entrada (normalmente en el dominio de la frecuencia), se modifica de manera que su volumen específico corresponde el volumen específico objetivo.

[0009] Para ilustrar la ventaja del procesamiento presentado en "A. J. Seefeldt, "Cálculo y ajuste del volumen percibido y/o el equilibrio espectral percibido de una señal de audio" (Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio slgnal). Patente de los Estados Unidos 2009/0097676, 2009", considerar el control del volumen de una señal de audio. El cambiar el nivel de una señal de audio en la reproducción del sonido normalmente está dirigido al cambio de su volumen percibido. Dicho de manera diferente, el control del volumen es implementado tradicionalmente como el control del nivel del sonido. Sin embargo, nuestra experiencia diaria y el conocimiento de la psicoacústica, indican que esto no óptimo.

[0010] La sensibilidad del oído humano varía con la frecuencia y el nivel, de manera que una disminución del nivel de la intensidad del sonido atenúa la sensación de las frecuencias bajas y altas (por ejemplo, alrededor de 100 Hz y 10000 Hz, respectivamente), más que la sensación de las frecuencias medias (por ejemplo, entre 2000 y 4000 Hz). Cuando se disminuye el nivel de reproducción de un nivel "cómodamente fuerte" (por ejemplo, 75-80 dBA) a un nivel más bajo, por ejemplo, 18 dB, el equilibrio espectral percibido de la señal de audio cambia. Esto se ilustra en los bien conocidos Contornos de Volumen Igual, referidos con frecuencia como las Curvas de Fletcher-Munson (por los investigadores que midieron primero los Contornos del Volumen Igual en 1933). El Contorno de Volumen Igual muestra el nivel de presión del sonido (SPL) sobre... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100) para modificar una señal de audio de entrada, que comprende:

un determinador de la excitación (110) configurado para determinar un valor (112) de un parámetro de la excitación de una subbanda (102) de una pluralidad de subbandas de la señal de audio de entrada, basándose en un contenido de energía de la subbanda (102), en donde el valor (112) del parámetro de la excitación Indica una potencia de la señal de audio en la subbanda o una energía de corto plazo de la señal de audio en la subbanda o un valor cuantificado de la energía de corto plazo de la señal de audio en la subbanda;

un dispositivo de almacenamiento (120) que almacena una tabla de búsqueda que contiene una pluralidad de factores de ponderación espectral, en donde un factor de ponderación espectral de la pluralidad de factores de ponderación espectral está asociado con un valor predefinido del parámetro de la excitación y con una subbanda de la pluralidad de subbandas, en donde el dispositivo de almacenamiento está configurado para proporcionar un factor de ponderación espectral (124) que corresponde al valor determinado (112) del parámetro de la excitación y que corresponde a la subbanda (102), para la cual se determina el valor (112) del parámetro de la excitación; y

un modificador de la señal (130) configurado para modificar un contenido de la subbanda (102) de la señal de audio de entrada, para la cual se determina el valor (112) del parámetro de la excitación, basándose en el factor de ponderación espectral (124) proporcionado, para proporcionar una subbanda modificada (132), mediante el escalado multiplicativo de la subbanda de la señal de audio por el factor de ponderación espectral proporcionado por la tabla de búsqueda.

2. El aparato según la reivindicación 1, en donde el determinador de la excitación (110) está configurado para determinar un valor (112) de un parámetro de la excitación para más de una subbanda (102) de la pluralidad de subbandas, en donde el dispositivo de almacenamiento (120) está configurado para proporcionar un factor de ponderación espectral (124) para cada subbanda (102), para la cual se determinar un valor (112) de un parámetro de la excitación, y en donde el modificador de la señal (130) está configurado para modificar un contenido de cada subbanda (102), para la cual se determina un valor (112) de un parámetro de la excitación, basándose en el factor de ponderación espectral (124) respectivo, correspondiente proporcionado.

3. El aparato según la reivindicación 1 ó 2, caracterizado porque comprende además:

un banco de filtros de análisis (410) configurado para separar la señal de audio de entrada en la pluralidad de subbandas; y

un banco de filtros de síntesis (420) configurado para combinar la pluralidad de subbandas que contienen al menos una subbanda modificada (132) para proporcionar una señal de audio modificada.

4. El aparato según cualquiera de las reivindicaciones 1 a 3, en donde cada factor de ponderación espectral contenido en la tabla de búsqueda está asociado con un valor predefinido del parámetro de la excitación y con una subbanda de la pluralidad de subbandas.

5. El aparato según cualquiera de las reivindicaciones 1 a 4, en donde las subbandas de la pluralidad de subbandas de la señal de audio de entrada están divididas de acuerdo a la escala ERB, la escala Bark u otra separación frecuencial, que imita la resolución frecuencial del oído humano.

6. El aparato según cualquiera de las reivindicaciones 1 a 5, en donde el determinador de la excitación (110) está configurado para determinar un valor (112) de un parámetro de la excitación, no para todas las subbandas de la pluralidad de subbandas, y en donde la tabla de búsqueda contiene sólo factores de ponderación espectral asociados con las subbandas, para las cuales se determina un valor de un parámetro de la excitación.

7. El aparato según la reivindicación 6, en donde una subbanda (102), para la cual se determina un valor (112) de un parámetro de la excitación, comprende frecuencias más bajas que una subbanda, para la cual no se determina un valor de un parámetro de la excitación.

8. El aparato según la reivindicación 6 ó 7, en donde un contenido de una subbanda de la señal de audio de entrada no se modifica por el modificador de la señal (130), si el determinador de la excitación (110) no determinar un valor (112) de un parámetro de la excitación para esta subbanda.

9. El aparato de según cualquiera de las reivindicaciones 1 a 8, en donde el determinador de la excitación (110) está configurado para determinar un valor (112) de un parámetro de la excitación sólo para menos que un tercio de las subbandas de la pluralidad de subbandas, y en donde el modificador de la señal (130) está configurado para modificar un contenido de las subbandas, para las cuales se determina un valor de un parámetro de la excitación, basándose en un factor de ponderación espectral respectivo, correspondiente proporcionado, y en donde estas

subbandas comprende frecuencias más bajas que todas las otras subbandas de la pluralidad de subbandas, para las cuales se determina un valor de un parámetro de la excitación.

10. El aparato según cualquiera de las reivindicaciones 1 a 9, en donde el modificador de la señal (130) está configurado para modificar un contenido de una subbanda, para la cual no se determina un valor de un parámetro de la excitación, basándose en un factor de ponderación espectral (124) proporcionado para una subbanda (102), para la cual se determina un valor (112) de un parámetro de la excitación.

11. El aparato según la reivindicación 10, en donde el modificador de la señal (130) modifica un contenido de la subbanda, para la cual no se determina un valor de un parámetro de la excitación, basándose en un factor de ponderación espectral (124) proporcionado para una subbanda (102), para la cual se determina un valor (112) de un parámetro de la excitación, que contiene frecuencias más altas que todas las otras subbandas (102), para las cuales se determina un valor (112) de un parámetro de la excitación.

12. El aparato según cualquiera de las reivindicaciones 1 a 11, en donde un factor de ponderación espectral contenido en la tabla de búsqueda está asociado además con un valor predefinido de un parámetro de modificación externa, en donde el dispositivo de almacenamiento (120) está configurado para proporcionar un factor de ponderación espectral (124) que corresponde al valor (112) determinado del parámetro de la excitación de una subbanda (102), que corresponde a la subbanda (102), para la cual se determina el valor (112) de un parámetro de la excitación, y que corresponde a un valor del parámetro de modificación externa.

13. El aparato según la reivindicación 12, en donde la tabla de búsqueda comprende exactamente tres dimensiones asociadas con los valores predefinidos del parámetro de la excitación, con las subbandas de la pluralidad de subbandas y con los valores predefinidos del parámetro de modificación externa.

14. El aparato según cualquiera de las reivindicaciones 12 a 13, en donde el modificador de la señal (130) está configurado para modificar un contenido de una subbanda, para la cual no se determina un valor de un parámetro de la excitación, basándose en un valor del parámetro de modificación externa.

15. El aparato según cualquiera de las reivindicaciones 1 a 14, en donde un factor de ponderación espectral contenido en la tabla de búsqueda está asociado además con un valor predefinido de un parámetro del ruido de fondo, en donde el dispositivo de almacenamiento (120) está configurado para proporcionar un factor de ponderación espectral (124) que corresponde al valor (112) determinado del parámetro de la excitación de la subbanda (102), que corresponde a la subbanda (102), para la cual se determina el valor (112) de un parámetro de la excitación, y que corresponde a un valor del parámetro del ruido de fondo.

16. El aparato según la reivindicación 15, en donde la tabla de búsqueda comprende exactamente cuatro dimensiones asociadas con los valores predefinidos del parámetro de la excitación, con las subbandas de la pluralidad de subbandas, con los valores predefinidos del parámetro de modificación externa y con los valores predefinidos del parámetro del ruido de fondo.

17. El aparato según cualquiera de las reivindicaciones 1 a 16, en donde el dispositivo de almacenamiento (120) no comprende ninguna entrada para un parámetro del volumen específico o un parámetro del volumen específico objetivo.

18. El aparato según cualquiera de las reivindicaciones 1 a 17, en donde la tabla de búsqueda almacenada por el dispositivo de almacenamiento (120) es la única tabla de búsqueda del aparato para modificar la señal de audio de entrada.

19. El aparato según cualquiera de las reivindicaciones 1 a 18, en donde el determinador de la excitación (110) está configurado para medir un contenido de energía de la subbanda (102) y configurado para cuantificar el contenido de energía medido de la subbanda para obtener el valor del parámetro de la excitación, de manera que el valor del parámetro de la excitación es igual a un valor predefinido del parámetro de la excitación.

20. Un método (500, 600) para modificar una señal de audio de entrada, que comprende:

determinar (510) un valor de un parámetro de la excitación de una subbanda de una pluralidad de subbandas de la señal de audio de entrada, basándose en un contenido de energía de la subbanda, en donde el valor del parámetro de la excitación indica una potencia de la señal de audio en la subbanda o una energía de corto plazo de la señal de audio en la subbanda o un valor cuantificado de la energía de corto plazo de la señal de audio en la subbanda;

proporcionar (520) un factor de ponderación espectral que corresponde al valor determinado del parámetro de la excitación y que corresponde a la subbanda, para la cual se determina el valor de el parámetro de la excitación, en donde el factor de ponderación espectral está almacenado en una tabla de búsqueda que contiene una pluralidad de factores de ponderación espectral, en donde un factor de ponderación espectral de la pluralidad de factores de

ponderación espectral está asociado con un valor predefinido del parámetro de la excitación y con una subbanda de la pluralidad de subbandas;

modificar (530) la subbanda, para la cual se determina el valor del parámetro de la excitación, basándose en el 5 factor de ponderación espectral proporcionado, para proporcionar una subbanda modificada mediante el escalado multiplicativo de la subbanda de la señal de audio por el factor de ponderación espectral proporcionado por la tabla de búsqueda.

21. Un programa para computadora con un código del programa para realizar el método según la reivindicación 20, 10 cuando el programa para computadora se ejecuta en una computadora o un microcontrolador.