PROCEDIMIENTO DE TRATAMIENTO DE SEÑALES ACÚSTICAS RUIDOSAS Y DISPOSITIVO PARA LA REALIZACIÓN DEL PROCEDIMIENTO.
Procedimiento de tratamiento de una señal acústica ruidosa (x(n)) organizado en tramas sucesivas,
que incluye las siguientes etapas respecto de al menos una de dichas tramas (x(k, n)): - aplicar a dicha trama de la señal acústica ruidosa una transformada hacia el ámbito frecuencial; - estimar una densidad espectral de potencia del ruido para dicha trama - calcular un primer filtro de reducción de ruido a partir de la densidad espectral de potencia del ruido estimada y de una estimación de la densidad espectral de potencia de una señal útil correspondiente a dicha trama; - filtrar dicha trama de la señal acústica ruidosa (x(k,n); X(k,f)) con la ayuda del primer filtro de reducción de ruido calculado, para obtener una primera estimación sin ruido de dicha trama y - efectuar un tratamiento caracterizado por la etapa de regeneración de armonicidad de la primera estimación sin ruido de dicha trama de la señal acústica ruidosa, para obtener una trama de una segunda señal 166 que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2005/002284.
Solicitante: FRANCE TELECOM.
Nacionalidad solicitante: Francia.
Dirección: 6 PLACE D'ALLERAY 75015 PARIS FRANCIA.
Inventor/es: MARRO, CLAUDE, SCALART,PASCAL, PLAPOUS,CYRIL.
Fecha de Publicación: .
Fecha Solicitud PCT: 14 de Septiembre de 2005.
Fecha Concesión Europea: 4 de Agosto de 2010.
Clasificación Internacional de Patentes:
- G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
Clasificación PCT:
- G10L21/02 G10L 21/00 […] › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.
Fragmento de la descripción:
Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.
La presente invención se refiere al tratamiento de señales acústicas ruidosas. La invención se refiere en particular a la reducción del ruido presente en tales señales.
Se conocen técnicas de reducción de ruido, es decir de una señal perturbadora, dentro de una señal acústica. Dichas técnicas están orientadas a tener en cuenta el entorno acústico en el que aparece la señal acústica para mejorar la calidad y la inteligibilidad de la señal. Estas técnicas consisten en extraer la información útil de la señal acústica considerada efectuando un tratamiento de esta señal ruidosa. Tales técnicas se aplican por ejemplo a comunicaciones orales, en aplicaciones tales como la telefonía, teleconferencia y videoconferencia, donde la señal acústica se transmite entre diversos interlocutores. Éstas se aplican, además, a aplicaciones de toma de sonido en medio ruidoso, así como de reconocimiento de voz, cuyas prestaciones se ven fuertemente modificadas cuando la señal de voz se emite en un entorno ruidoso.
Estas técnicas suelen consistir en estimar una función de transferencia de un filtro de reducción de ruido y, a continuación, en realizar un proceso de filtrado a partir de una multiplicación en el campo espectral. Dichas técnicas dependen de los enfoques denominados de "reducción de ruido mediante atenuación espectral a corto plazo".
Según estas técnicas, la señal acústica x(n) incluye una componente de señal útil s(n) y una componente de ruido b(n), representando n un índice temporal en tiempo discreto. Se observará sin embargo que también se podría adoptar una representación de la señal en tiempo continuo. La señal x(n) se organiza en tramas x(n, k) sucesivas de longitud constante y de índice k. Cada una de estas tramas se multiplica en primer lugar por una ventana de ponderación que permite mejorar la estimación posterior de las magnitudes espectrales necesarias para el cálculo del filtro de reducción de ruido. Cada trama así ventaneada se analiza a continuación en el ámbito espectral, por ejemplo con la ayuda de una transformación de Fourier discreta o rápida. Esta operación se denomina transformación de Fourier a corto plazo (TFCT).
La representación frecuencial X(k, f) así obtenida de la señal observada, donde f es un índice de frecuencia, permite a la vez estimar la función de transferencia H(k, f) del filtro de reducción de ruido, y aplicar este filtro en el ámbito espectral por simple multiplicación entre esta función de transferencia y el espectro a corto plazo de la señal ruidosa. El resultado del filtrado se puede escribir de este modo:
A continuación, se efectúa un regreso al ámbito temporal de la señal obtenida, con una transformada espectral inversa. La señal temporal correspondiente se sintetiza finalmente mediante una técnica de superposición y de adición de bloques (OLA para "overlap add") o bien mediante una técnica de salvaguarda de bloques (OLS para "overlap save"). Esta operación de reconstrucción de la señal en el campo temporal se denomina transformación de Fourier a corto plazo inversa (TFCTI).
Se encontrará una descripción detallada de los procedimientos de atenuación espectral a corto plazo en las referencias: J.S. Lim, A. V. Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proceedings of the IEEE, vol. 67, pp. 1586-1604, 1979; y R.E. Crochiere, L.R. Rabiner, "Multirate digital signal processing", Prentice Hall, 1983.
La atenuación espectral a corto plazo H(k, f) aplicada a la señal de observación X(k, f) en el segmento temporal de índice k y a la componente frecuencial f, se determina generalmente a partir de la estimación de la relación señal-ruido local RSB(k, f). Una característica común del conjunto de las reglas de supresión reside en su comportamiento asimétrico, dado por:
En la mayoría de las técnicas, se realizan las siguientes hipótesis: el ruido y la señal útil están estadísticamente sin correlación, la señal útil es intermitente (presencia de períodos de silencio) y el oído humano no es sensible a la fase de la señal (que generalmente no se modifica mediante el tratamiento).
Entre las reglas de supresión habitualmente utilizadas, se pueden mencionar a título de ejemplo la sustracción espectral en potencia, la sustracción espectral en amplitud y la aplicación directa del filtro de Wiener. Para estas reglas, la estimación a corto plazo de la componente frecuencial f de la señal útil de voz se escribe respectivamente:
para la sustracción espectral en potencia (véase el artículo mencionado anteriormente de J.S. Lim y A. V. Oppenheim);
para la sustracción espectral en amplitud (véase S. F. BoII, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Audio, Speech and Signal Processing, vol. 27, Nº. 2, pp. 113-120, Abril 1979); y
para el filtrado de Wiener (véase el artículo anteriormente mencionado de J.S. Lim y A. V. Oppenheim).
En estas expresiones,
A partir de las expresiones anteriores, es posible estudiar, en función de la relación señal-ruido local medida en una componente frecuencial dada f, el comportamiento de la atenuación espectral aplicada a la señal ruidosa. Estas curvas se trazan en la figura 1 para las tres reglas de supresión a corto plazo anteriormente mencionadas. Se puede observar que el conjunto de las reglas proporciona una atenuación sensiblemente idéntica cuando la relación señal-ruido local es importante (parte derecha de la figura 1). La regla de sustracción en potencia óptima en el sentido de la verosimilitud máxima para modelos gaussianos (véase O. Cappé, "Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor", IEEE Trans. on Speech and Audio Processing, vol. 2, Nº. 2, pp. 345-349, Abril 1994), sigue siendo aquella para la cual la potencia del ruido es la más importante a la salida del tratamiento. Para las tres reglas de supresión, se puede observar que una pequeña variación de la relación señal-ruido local alrededor de un valor de corte basta para pasar del caso de la atenuación total (H(k, f)
Esta última propiedad constituye una de las causas del fenómeno denominado "ruido musical". En efecto, el ruido ambiente, que incluye a la vez componentes deterministas y aleatorias, sólo se puede caracterizar durante los períodos de no actividad vocal. Debido a la presencia de componentes aleatorios, existen variaciones muy fuertes entre la contribución real de una componente frecuencial f del ruido durante los períodos de actividad vocal y su estimación media realizada en diversas tramas durante los instantes de no actividad vocal. Debido a esta diferencia, la estimación de la relación señal-ruido local puede fluctuar alrededor del nivel de corte y, por lo tanto, generar a la salida del tratamiento componentes espectrales que aparecen y desaparecen y cuya vida útil media no sobrepasa estadísticamente el orden de magnitud de la ventana de análisis considerada. La generalización de este comportamiento en el conjunto de la banda de paso introduce un ruido residual audible y molesto.
Se han llevado a cabo diversos estudios acerca de la reducción de la influencia de este ruido residual. Las soluciones preconizadas se plantean según diversos ejes: un promedio...
Reivindicaciones:
1. Procedimiento de tratamiento de una señal acústica ruidosa (x(n)) organizado en tramas sucesivas, que incluye las siguientes etapas respecto de al menos una de dichas tramas (x(k, n)):
2. Procedimiento según la reivindicación 1, que incluye, además, las siguientes etapas:
3. Procedimiento según la reivindicación 2, en el cual, cuando el resultado del filtrado efectuado con la ayuda del segundo filtro de reducción de ruido se encuentra en el ámbito frecuencial, se aplica al resultado de dicho filtrado una transformada hacia el ámbito temporal, antes de sintetizar la segunda estimación sin ruido de dicha trama.
4. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que se multiplica dicha trama de la señal acústica ruidosa (x(k, n)) por una ventana de ponderación (w(n)) antes de aplicarle una transformada hacia el ámbito frecuencial.
5. Procedimiento según la reivindicación 4, en el que dicha ventana de ponderación es una ventana de Hanning que tiene como dimensión la longitud L de dicha trama de la señal acústica ruidosa.
6. Procedimiento según la reivindicación 5, en el que dicha ventana de ponderación es de forma
7. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que dicha transformada hacia el ámbito frecuencial aplicada a dicha trama de la señal acústica ruidosa (x(k, n)) es una transformada de Fourier rápida de longitud 512.
8. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual se busca una actividad vocal en dicha trama de la señal acústica ruidosa (x(k, n)), y en el cual la estimación de la densidad espectral de potencia del ruido para dicha trama corresponde a una estimación de la densidad espectral de potencia del ruido incluido en dicha trama cuando no se detecta actividad vocal alguna en dicha trama y a una estimación de la densidad espectral de potencia del ruido incluido en al menos una trama de la señal acústica ruidosa que precede dicha trama cuando se detecta una actividad vocal en dicha trama.
9. Procedimiento según la reivindicación 8, en el cual la densidad espectral de potencia del ruido incluido en al menos una trama de índice kb de la señal acústica ruidosa en la cual no se detecta actividad vocal alguna se realiza mediante alisado exponencial de la forma donde X(kb, f) representa la transformada hacia el ámbito frecuencial de la trama de índice kb de la señal acústica ruidosa y α es una magnitud de alisado.
10. Procedimiento según una cualquiera de las reivindicaciones anteriores en el cual el cálculo del primer filtro de reducción de ruido incluye un primer paso que aplica una técnica de atenuación espectral a corto plazo.
11. Procedimiento según la reivindicación 10, en el cual el cálculo del primer filtro de reducción de ruido incluye un primer paso que aplica un filtro de Wiener en bucle abierto que tiene una función de transferencia de la forma
12. Procedimiento según la reivindicación 11, en el cual la estimación de la densidad espectral de potencia de una señal útil correspondiente a dicha trama incluye una estimación de decisión dirigida de la forma donde β es un parámetro baricéntrico, o una estimación de alisado exponencial.
13. Procedimiento según una cualquiera de las reivindicaciones 10 a 12, en el cual el cálculo del primer filtro de reducción de ruido incluye además un segundo paso que aplica una técnica de atenuación espectral a corto plazo, y en la cual la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama tiene en cuenta el cálculo efectuado en el primer paso.
14. Procedimiento según la reivindicación 13, en el cual la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama que tiene en cuenta el cálculo efectuado en el primer paso es de forma
15. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del primer filtro de reducción de ruido se efectúa en la transformada hacia el ámbito frecuencial de dicha trama (X(k,f)).
16. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del primer filtro de reducción de ruido incluye una selección de coeficientes de dicho primer filtro de reducción de ruido y una ponderación de la respuesta impulsiva temporal de dicho primer filtro de reducción de ruido.
17. Procedimiento según la reivindicación 16, en el cual se seleccionan 256 coeficientes del primer filtro de reducción de ruido que se pondera mediante una ventana de Hanning.
18. Procedimiento según la reivindicación 17, en el cual dicha transformada hacia el ámbito frecuencial aplicado a dicha trama de la señal acústica ruidosa es una transformada de Fourier rápida de longitud 512 y en el cual la respuesta impulsiva temporal de dicho primer filtro de reducción de ruido (xw(k, n)) se completa con 256 ceros.
19. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual la obtención de una trama de una segunda señal que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa incluye la aplicación de una función no lineal a la primera estimación sin ruido de dicha trama de la señal acústica ruidosa
20. Procedimiento según la reivindicación 19, en el cual dicha función no lineal (d(k, n)) es una de entre: una función de rectificación de monoalternancia, un valor absoluto, un máximo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral, y un mínimo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral.
21. Procedimiento según una cualquiera de las reivindicaciones 2 a 20, en el cual el cálculo del segundo filtro de reducción de ruido aplica una técnica de atenuación espectral a corto plazo.
22. Procedimiento según la reivindicación 21, en el cual el cálculo del segundo filtro de reducción de ruido aplica un filtro de Wiener en bucle abierto que tiene una función de transferencia de la forma con
23. Procedimiento según la reivindicación 22, en el cual ρ(k, f) varía en función de la frecuencia y/o del tiempo.
24. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del segundo filtro de reducción de ruido se efectúa en la transformada hacia el ámbito frecuencial de dicha trama (X(k, f)).
25. Procedimiento según una cualquiera de las reivindicaciones 2 a 24, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del segundo filtro de reducción de ruido incluye una selección y una ponderación de la respuesta impulsiva temporal de dicho segundo filtro de reducción de ruido.
26. Procedimiento según la reivindicación 25, en el cual se seleccionan 256 coeficientes del segundo filtro de reducción de ruido que se ponderan mediante una ventana de Hanning.
27. Procedimiento según la reivindicación 26, en el cual dicha transformada hacia el ámbito frecuencial aplicada a dicha trama de la señal acústica ruidosa es una transformada de Fourier rápida de longitud 512 y en el cual la respuesta impulsiva temporal de dicho segundo filtro de reducción de ruido se completa con 256 ceros.
28. Procedimiento según una cualquiera de las reivindicaciones 2 a 27, en el cual la síntesis de la segunda estimación sin ruido de dicha trama utiliza una superposición y una adición de bloques OLA o una salvaguarda de bloques OLS.
29. Dispositivo (1) de tratamiento de señales acústicas ruidosas, que incluye medios dispuestos para aplicar el procedimiento según una cualquiera de las reivindicaciones anteriores.
30. Equipo de toma de sonido que incorpora el dispositivo según la reivindicación 29
31. Equipo de comunicación que incorpora el dispositivo según la reivindicación 29.
32. Equipo de reconocimiento de voz que incorpora el dispositivo según la reivindicación 29.
33. Programa informático en un soporte de información, caracterizado porque incluye instrucciones adaptadas para la aplicación de un procedimiento según una cualquiera de las reivindicaciones 1 a 28, cuando dicho programa se carga y se ejecuta mediante medios informáticos.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]