Procedimiento de eliminación de ruido de una señal de audio.

Un procedimiento de procesamiento de una señal de audio, para la eliminación de ruido de una señal original con ruido que consta de una componente de voz combinada con una componente de ruido,

esta componente de ruido comprende ella misma una componente de ruido transitoria y una componente de ruido pseudoestacionaria, caracterizado por que este procedimiento es un procedimiento de análisis de coherencia temporal de la señal con ruido muestreada que comprende las etapas de:

a) determinación de una señal de referencia por aplicación a la señal con ruido de un procesamiento (10, 18) propio para atenuar de manera más importante las componentes de voz que las componentes de ruido de esta señal con ruido, dicho procesamiento comprendiendo:

a1) la aplicación de un algoritmo de predicción lineal adaptativo que opera sobre una combinación lineal de las muestras anteriores de la señal con ruido, y a2) la determinación de dicha señal de referencia por una sustracción, con compensación del desfase, entre la señal con ruido original, no filtrada previamente y la señal entregada por el algoritmo de predicción lineal;

b) determinación (24) de una probabilidad de presencia/ausencia de voz a priori a partir de los niveles de energía respectivos en el dominio espectral de la señal con ruido y de la señal de referencia; y c) utilización de esta probabilidad de ausencia de voz a priori para estimar un espectro de ruido y 25 derivar (26) de la señal con ruido una estimada con eliminación de ruido de la señal de voz.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E07290219.

Solicitante: PARROT.

Nacionalidad solicitante: Francia.

Dirección: 174 QUAI DE JEMMAPES 75010 PARIS FRANCIA.

Inventor/es: Pinto,Guillaume.

Fecha de Publicación: 13 de Abril de 2012.

Clasificación Internacional de Patentes:

G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

PDF original: ES-2378482_T3.pdf

Fragmento de la descripción:

Procedimiento de eliminación de ruido de una señal de audio CONTEXTO DE LA INVENCIÓN

Campo de la invención La presente invención se refiere a la eliminación de ruido de las señales de audio captadas por un micrófono en un entorno con ruido.

La invención se aplica ventajosamente, pero de modo no limitativo, a las señales de voz captadas por los aparatos telefónicos de tipo "manos-libres" o análogos.

Estos aparatos constan de un micrófono sensible que capta no sólo la voz del usuario, sino igualmente el ruido del entorno, ruido que constituye un elemento perturbador pudiendo llegar, en algunos casos, hasta hacer incomprensibles las palabras del hablante.

Lo mismo sucede si se quieren aplicar técnicas de reconocimiento de voz, en las que es muy difícil operar un reconocimiento de forma sobre palabras sumergidas en un nivel de ruido elevado.

Esta dificultad relacionada con el ruido ambiente es particularmente molesta en el caso de los dispositivos "manoslibres" para vehículos automóviles. En particular, la distancia importante entre el micrófono y el hablante conlleva un nivel relativo de ruido elevado que hace difícil la extracción de la señal útil ahogada por el ruido. Además, el medio con mucho ruido típico del entorno automovilístico presenta características espectrales no estacionarias, es decir, que evolucionan de manera imprevisible en función de las condiciones de conducción: paso sobre calzadas deformadas o adoquinadas, autorradio en funcionamiento, etc.

Descripción de la técnica relacionada Se han propuesto diversas técnicas para reducir el nivel de ruido de la señal captada por un micrófono.

Por ejemplo, el WO-A-98/45997 (Parrot SA) utiliza la presión sobre el pulsador de activación de un teléfono (por ejemplo cuando el conductor quiere responder a una llamada entrante) para detectar el inicio de una señal de voz y considerar que la señal captada antes de presionar era esencialmente una señal de ruido. Esta última señal, memorizada, se analiza para dar un espectro energético medio ponderado del ruido, luego se sustrae de la señal de voz con ruido.

El US-A-5 742 694 describe otra técnica, aplicando un mecanismo de tipo filtro adaptativo predictivo. Este filtro entrega una "señal de referencia" que corresponde a la parte predecible de la señal con ruido y una "señal de error" que corresponde al error de predicción, después atenúa estas dos señales en proporciones variables y las vuelve a combinar para suministrar una señal sin ruido.

El mayor inconveniente de esta técnica de eliminación de ruido reside en la distorsión importante introducida por el filtrado previo, dando en salida una señal muy degradada sobre el plano de la calidad acústica. Además está mal adaptada a las situaciones en las que se necesitaría una eliminación de ruido enérgica con una señal de voz ahogada por un ruido de naturaleza compleja e imprevisible, con características espectrales no estacionarias.

Otras técnicas más, denominadas beamforming o double-phoning, aplican dos micrófonos distintos. El primero está concebido y colocado para captar principalmente la voz del hablante, mientras que el otro está concebido y colocado para captar una componente de ruido más importante que el micrófono principal. La comparación de las señales captadas permite extraer la voz del ruido ambiente de manera eficaz, y por medios de software relativamente simples.

Esta técnica, basada en un análisis de coherencia espacial de dos señales, presenta no obstante el inconveniente de necesitar dos micrófonos distantes, lo que la relega generalmente con respecto a instalaciones fijas o semifijas y no permite integrarla a un dispositivo preexistente mediante simple añadidura de un módulo software. También presupone que la posición del hablante con respecto a dos micrófonos sea aproximadamente constante, lo que es generalmente el caso en un teléfono de coche utilizado por su conductor. Además, para obtener una eliminación de ruido más o menos satisfactoria, las señales se someten a un filtrado previo importante, lo que presenta, también aquí, el inconveniente de introducir distorsiones que vienen a degradar la calidad de la señal sin ruido restituida.

La invención se refiere a una técnica de eliminación de ruido de las señales de audio captadas por un único micrófono que registra una señal de voz en un entorno con ruido.

Una parte importante de los métodos más eficaces aplicados en los sistemas de un único micrófono se basan en el modelo estadístico establecido por D. Malah e Y. Ephraim en:

[1] Y. Ephraim y D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No 6, pp. 1109-1121, Dec. 1984, y [2] Y. Ephraim y D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No 2, pp 443-445, April 1985.

Haciendo la aproximación de que la voz y el ruido son procesos gaussianos no correlacionados y presuponiendo que la potencia espectral del ruido sea un dato conocido, estos dos artículos dan una solución óptima al problema de reducción de ruido descrito más arriba. Esta solución propone cortar la señal con ruido en componentes frecuenciales independientes mediante la utilización de la transformada de Fourier discreta, aplicar una ganancia óptima sobre cada una de estas componentes y después volver a combinar la señal así procesada. Los dos artículos divergen en la elección del criterio de optimalidad. En [1], la ganancia aplicada se denomina ganancia STSA y permite minimizar la distancia cuadrática media entre la señal estimada (en la salida del algoritmo) y la señal de voz original (sin ruido) . En [2], la aplicación de una ganancia denominada ganancia LSA permite en cuanto a ella minimizar la distancia cuadrática media entre el logaritmo de la amplitud de la señal estimada y el logaritmo de la amplitud de la señal de voz original. Este segundo criterio se muestra superior al primero ya que la distancia escogida está en mucha mejor adecuación con el comportamiento del oído humano, y por lo tanto da cualitativamente mejores resultados. En todos los casos, la idea esencial es disminuir la energía de las componentes frecuenciales con mucho ruido aplicándoles una ganancia débil dejando a la vez intactas (mediante la aplicación de una ganancia igual a 1) las que lo son poco o nada.

Aunque es muy atractivo ya que está sostenido por una demostración matemática rigurosa, este procedimiento no puede sin embargo aplicarse solo. En efecto, como se ha indicado más arriba, la potencia espectral del ruido es desconocida e imprevisible ex ante. Además, este mismo procedimiento no propone evaluar en qué momentos la voz del hablante está presente en la señal captada. Simplemente se contenta con suponer, o bien que la voz está siempre presente, o bien que está presente una porción fija de tiempo, lo que puede limitar seriamente la calidad de la reducción de ruido.

Por consiguiente, es necesario utilizar otro algoritmo que tenga como función evaluar la potencia espectral del ruido así como los instantes en los que la voz del hablante está presente en la señal bruta captada. Resulta incluso que esta estimación constituye el factor determinante de la calidad de la reducción de ruido operada, siendo el algoritmo de Ephraim y Malah sólo la manera óptima de utilizar la información así obtenida.

Es una solución original a este doble problema de evaluación del ruido y de los instantes de presencia de la señal de voz lo que aporta la presente invención.

Estas dos cuestiones están en realidad intrínsecamente relacionadas. En efecto, supongamos que la señal bruta captada se recorta en tramos de longitudes iguales, de las que se calcula para cada una la transformada de Fourier a corto plazo.

Para una componente frecuencial dada, el conocimiento de los índices de los tramos en los que la voz está ausente permite evaluar la potencia del ruido así como su evolución a lo largo del tiempo en este segmento del espectro. En efecto, basta con medir la energía de la señal bruta cuando la voz está ausente y hacer una media puesta al día continuamente de estas mediciones. Por lo tanto, la cuestión principal es saber cuándo exactamente la voz del hablante está ausente de la señal captada por... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento de procesamiento de una señal de audio, para la eliminación de ruido de una señal original con ruido que consta de una componente de voz combinada con una componente de ruido, esta componente de ruido comprende ella misma una componente de ruido transitoria y una componente de ruido pseudoestacionaria, caracterizado por que este procedimiento es un procedimiento de análisis de coherencia temporal de la señal con ruido muestreada que comprende las etapas de:

a) determinación de una señal de referencia por aplicación a la señal con ruido de un procesamiento (10, 18) propio para atenuar de manera más importante las componentes de voz que las componentes de ruido de esta señal con ruido, dicho procesamiento comprendiendo:

a1) la aplicación de un algoritmo de predicción lineal adaptativo que opera sobre una combinación lineal de las muestras anteriores de la señal con ruido, y a2) la determinación de dicha señal de referencia por una sustracción, con compensación del desfase, entre la señal con ruido original, no filtrada previamente y la señal entregada por el algoritmo de predicción lineal;

b) determinación (24) de una probabilidad de presencia/ausencia de voz a priori a partir de los niveles de energía respectivos en el dominio espectral de la señal con ruido y de la señal de referencia; y c) utilización de esta probabilidad de ausencia de voz a priori para estimar un espectro de ruido y 25 derivar (26) de la señal con ruido una estimada con eliminación de ruido de la señal de voz.

2. El procedimiento de la reivindicación 1, en el que dicha señal de referencia se determina por aplicación en la etapa a2) de una relación del tipo:

donde X (k, l) e Y (k, l) son las transformadas de Fourier a corto plazo de cada segmento de espectro k de 35 cada tramo l, respectivamente de la señal original con ruido y de la señal entregada por el algoritmo de predicción lineal.

3. El procedimiento de la reivindicación 1, en el que el algoritmo de predicción lineal (10) es un algoritmo del tipo método de mínimos cuadrados LMS.

4. El procedimiento de la reivindicación 1, en el que el algoritmo de predicción lineal (10) es un algoritmo adaptativo recursivo.

5. El procedimiento de la reivindicación 1, en el que la etapa b) comprende la aplicación de un algoritmo de

45 estimación de la energía de la componente de ruido pseudoestacionaria en la señal de referencia y en la señal con ruido.

6. El procedimiento de la reivindicación 5, en el que el algoritmo de estimación de la energía de la componente de ruido pseudoestacionaria es un algoritmo de tipo de cálculo recursivo del promedio 50 controlado por mínimos MRCA.

7. El procedimiento de la reivindicación 1, en el que la etapa c) comprende la aplicación de un algoritmo de ganancia variable función de la probabilidad de presencia/ausencia de voz.

55 8. El procedimiento de la reivindicación 7, en el que el algoritmo de ganancia variable es un algoritmo de tipo ganancia de amplitud log-espectral modificado optimizado OM-LSA.

SEÑAL CON RUIDO

CÍLCULO DE LA PROBABI-LIDAD DE AUSENCIA DE VOZ

ESTIMACIÓN DE LA VOZ CON ELIMINACIÓN DE RUIDO

SEÑAL CON RUIDO SEÑAL CON RUIDO

ESTIM. RUIDO PSEUDOESTACIONARIO

SEÑAL CON RUIDO

ESTIM. RUIDO PSEUDOESTACIONARIO

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]