PROCEDIMIENTO DE FILTRADO OPTIMIZADO DE LOS RUIDOS NO ESTACIONARIOS CAPTADOS POR UN DISPOSITIVO DE AUDIO MULTIMICRÓFONO, EN PARTICULAR UN DISPOSITIVO TELEFÓNICO "MANOS LIBRES" PARA VEHÍCULO AUTOMÓVIL.

Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por dos micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso,

en particular un dispositivo telefónico "manos libres" para vehículo automóvil, comprendiendo la señal acústica ruidosa un componente útil de voz procedente de una fuente de voz directiva y un componente parásito de ruido, incluyendo este componente de ruido un componente de ruido lateral no estacionario direccional, procedimiento caracterizado por que comprende, en el ámbito de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, las siguientes etapas de procesamiento de la señal:

a) cálculo (18) de una primera referencia de ruido por análisis de coherencia espacial de las señales captadas por los dos micrófonos, comprendiendo este cálculo un filtrado lineal predictivo aplicado a las señales captadas por los dos micrófonos y que comprende una sustracción con compensación del desfase entre la señal captada y la señal de salida del filtro predictivo;

b) cálculo (20) de una segunda referencia de ruido por análisis de las direcciones de incidencia de las señales captadas por los dos micrófonos, comprendiendo este cálculo el bloqueo espacial de las componentes de las señales captadas cuya dirección de incidencia se sitúa en el interior de un cono de referencia definido a ambos lados de una dirección predeterminada de incidencia de la señal útil;

c) estimación (24) de una dirección principal de incidencia (θ(k,l)) de las señales captadas por los dos micrófonos;

d) selección (22) como señal de ruido referente (Ref(k,l)) de una u otra de las referencias de ruido calculadas en las etapas a) y b), en función de la dirección principal estimada en la etapa c);

e) combinación (28) de las señales captadas por los dos micrófonos en una señal combinada ruidosa (X(k,l));

f) cálculo (26) de una probabilidad de ausencia de voz (q(k,l)) en la señal combinada ruidosa, a partir de niveles respectivos de energía espectral de la señal combinada ruidosa (X(k,l)) y de la señal de ruido referente (Ref(k,l));

g) a partir de la probabilidad de ausencia de voz (q(k,l)) calculada en la etapa f) y de la señal combinada ruidosa (X(k,l)), reducción selectiva del ruido (34) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10167065.

Solicitante: PARROT.

Nacionalidad solicitante: Francia.

Dirección: 174 QUAI DE JEMMAPES 75010 PARIS FRANCIA.

Inventor/es: Vitte,Guillaume, Seris,Julie, Pinot,Guillaume.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L21/02 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00  tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
  • H04B1/12 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04B TRANSMISION.H04B 1/00 Detalles de los sistemas de transmision, no cubiertos por uno de los grupos H04B 3/00 - H04B 13/00; Detalles de los sistemas de transmisión no caracterizados por el medio utilizado para la transmisión. › Montajes de neutralización, de equilibrado o de compensación.
  • H04R3/00 H04 […] › H04R ALTAVOCES, MICROFONOS, CABEZAS DE LECTURA PARA GRAMOFONOS O TRANSDUCTORES ACUSTICOS ELECTROMECANICOS ANALOGOS; APARATOS PARA SORDOS; SISTEMAS PARA ANUNCIOS EN PUBLICO (producción de sonidos cuya frecuencia no está determinada por la frecuencia de alimentación G10K). › Circuitos para transductores (disposiciones para producir una reverberación sonora o un eco G10K 15/08; amplificadores H03F).

PDF original: ES-2375844_T3.pdf

 


Fragmento de la descripción:

Procedimiento de filtrado optimizado de los ruidos no estacionarios captados por un dispositivo de audio multimicrófono, en particular un dispositivo telefónico “manos libres” para vehículo automóvil.

La invención se refiere al tratamiento de la voz en un medio ruidoso.

Se refiere en particular, pero de manera no limitativa, al tratamiento de las señales de voz captadas por dispositivos de telefonía para vehículos automóviles.

Estos aparatos incluyen un micrófono (“micro”) sensible que capta no sólo la voz de usuario, sino también el ruido ambiental, ruido que constituye un elemento perturbador que puede ir, en algunos casos, hasta hacer incomprensibles las palabras del hablante. Ocurre lo mismo si se quiere aplicar técnicas de reconocimiento de voz ya que es muy difícil llevar a cabo un reconocimiento de forma en palabras sumergidas en un nivel de ruido elevado.

Esta dificultad ligada a los ruidos ambientales es particularmente molesta en el caso de los dispositivos “manos libres”. En particular, la distancia importante en el micro y el hablante implica un nivel relativo de ruido elevado que dificulta la extracción de la señal útil sumergida en el ruido. Además, el medio muy ruidoso típico del entorno del automóvil presenta características espectrales no estacionarias, es decir que evolucionan de manera imprevisible en función de las condiciones de conducción: paso sobre calzadas deformadas o adoquinadas, autorradio en funcionamiento, etc.

Algunos de estos dispositivos prevén el uso de varios micros, generalmente dos micros, y utilizan la media de las señales captadas, o de otras operaciones más complejas, para obtener una señal con un nivel menor de perturbaciones. En particular, una técnica denominada beamforming permite crear por medios de software una directividad que mejora la relación señal/ruido, pero los rendimientos de esta técnica son muy limitados cuando se usan sólo dos micros (concretamente, se estima que tal procedimiento sólo proporciona buenos resultados si se dispone de una red de al menos ocho micros) .

Por otra parte, las técnicas clásicas se adaptan sobre todo al filtrado de los ruidos difusos, estacionarios, que proceden de los alrededores del dispositivo y que se encuentran a niveles comparables en las señales captadas por los dos micros.

Por el contrario, un ruido no estacionario o “transitorio”, es decir un ruido que evoluciona de manera imprevisible en función del tiempo, no se discriminará de la voz y, por consiguiente, no se atenuará.

Ahora bien, en el entorno del automóvil, estos ruidos no estacionarios y directivos son muy frecuentes: toque de bocina, paso de una motocicleta, adelantamiento de un coche, etc.

Una dificultad del filtrado de estos ruidos no estacionarios se debe a que sus características temporales y espaciales están muy próximas a las de la voz, de ahí la dificultad por una parte para estimar la presencia de una voz (ya que el hablante no está hablando todo el tiempo) y por otra parte de extraer la señal útil de voz en un entorno muy ruidoso tal como un habitáculo de vehículo automóvil.

Uno de los objetivos de la presente invención es proponer un dispositivo manos libres multimicrófono, en particular, un sistema que aplica sólo dos micrófonos, que permite:

- distinguir de manera eficaz los ruidos no estacionarios de la voz; y -adaptar la eliminación de ruido a la presencia y a las características de los ruidos no estacionarios detectados, sin modificar la voz eventualmente presente, con el fin de procesar la señal ruidosa de la manera más eficaz.

El punto de partida de la invención consiste en asociar (i) un análisis de coherencia espacial de la señal captada por los dos micros a (ii) un análisis de la dirección de incidencia de estas señales. La invención se basa en efecto en dos constataciones, a saber que:

- la voz presenta generalmente una coherencia espacial superior al ruido; y además que -la dirección de incidencia de la voz está generalmente bien definida, y se puede suponer que conocida (en el

caso de un vehículo automóvil, se define por la posición del conductor, hacia el cual está orientado el micro) .

Estas dos propiedades se utilizarán para calcular dos referencias de ruido según procedimientos diferentes:

- una primera referencia de ruido calculada en función de la coherencia espacial de las señales captadas – tal

referencia será interesante en la medida en que integra los ruidos no estacionarios poco directivos (fallos en el ronroneo del motor, etc.) , y -una segunda referencia de ruido calculada en función de la dirección principal de incidencia de las señales – esta característica se puede determinar en efecto cuando se usa una red de varios micros (al menos dos) , que conducen a una referencia de ruido que integra sobre todo los ruidos no estacionarios directivos (toques de bocina, paso de una motocicleta, adelantamiento de un coche, etc.) .

Estas dos referencias de ruido se utilizarán de manera alterna según la naturaleza del ruido presente, en función de la dirección de incidencia de las señales:

- de manera general, la primera referencia de ruido (la calculada por coherencia espacial) se utilizará por defecto;

- por el contrario, cuando la dirección principal de incidencia de la señal estará alejada de la de la señal útil (la dirección del hablante, supuestamente conocida a priori) – es decir en presencia de un ruido directivo bastante potente – la segunda referencia de ruido se utilizará para introducir mayoritariamente en esta última los ruidos no estacionarios directivos y potentes.

Una vez que la referencia de ruido se ha seleccionado de esta manera, se utilizará esta referencia para, por una parte, calcular una probabilidad de ausencia/presencia de voz y, por otra parte, para eliminar el ruido de la señal captada por los micros.

Más concretamente, la invención se refiere, de manera general, a un procedimiento de eliminación de ruido de una señal acústica ruidosa captada por dos micrófonos de un dispositivo de audio mutimicrófono que opera en un medio ruidoso, en particular un dispositivo telefónico “manos libres” para vehículo automóvil. La señal acústica ruidosa comprende una componente útil de voz procedente de una fuente de voz directiva y una componente parásita de ruido, incluyendo esta componente de ruido una componente de ruido lateral no estacionaria directiva.

Tal procedimiento se divulga, por ejemplo, por I. Cohen y B. Berdugo, “Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio”, Proc. ICASSP 2003, Hong-Kong, páginas 233-236, abril de 2003.

De manera característica de la invención, este procedimiento consta, en el ámbito de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, de las siguientes etapas de procesamiento de señal:

a) cálculo de una primera referencia de ruido por análisis de coherencia espacial de las señales captadas por los dos micrófonos, comprendiendo este cálculo un filtrado lineal predictivo aplicado a las señales captadas por los dos micrófonos y que comprende una sustracción con compensación del desfase entre la señal captada y la señal de salida del filtro predictivo; b) cálculo de una segunda referencia de ruido por análisis de las direcciones de incidencia de las señales captadas por los dos micrófonos, comprendiendo este cálculo el bloqueo espacial de las componentes de las señales captadas cuya dirección de incidencia se sitúa en el interior de un cono de referencia definido a ambos lados de una dirección predeterminada de incidencia de la señal útil; c) estimación de una dirección principal de incidencia de las señales captadas por los dos micrófonos; d) selección como señal de ruido referente de una u otra de las referencias de ruido calculadas en las etapas a) y b) en función de la dirección principal estimada en la etapa c) ; e) combinación de las señales captadas por los dos micrófonos en una señal combinada ruidosa; f) cálculo de una probabilidad de ausencia de voz en la señal combinada ruidosa, a partir de los niveles respectivos de energía espectral de la señal combinada ruidosa y de la señal de ruido referente; g) a partir de la probabilidad de ausencia de voz calculada en la etapa f) y de la señal combinada ruidosa, reducción... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por dos micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso, en particular un dispositivo telefónico “manos libres” para vehículo automóvil, comprendiendo la señal acústica ruidosa un componente útil de voz procedente de una fuente de voz directiva y un componente parásito de ruido, incluyendo este componente de ruido un componente de ruido lateral no estacionario direccional, procedimiento caracterizado por que comprende, en el ámbito de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, las siguientes etapas de procesamiento de la señal:

a) cálculo (18) de una primera referencia de ruido por análisis de coherencia espacial de las señales captadas por los dos micrófonos, comprendiendo este cálculo un filtrado lineal predictivo aplicado a las señales captadas por los dos micrófonos y que comprende una sustracción con compensación del desfase entre la señal captada y la señal de salida del filtro predictivo; b) cálculo (20) de una segunda referencia de ruido por análisis de las direcciones de incidencia de las señales captadas por los dos micrófonos, comprendiendo este cálculo el bloqueo espacial de las componentes de las señales captadas cuya dirección de incidencia se sitúa en el interior de un cono de referencia definido a ambos lados de una dirección predeterminada de incidencia de la señal útil;

c) estimación (24) de una dirección principal de incidencia (eˆ (k, l) ) de las señales captadas por los dos micrófonos; d) selección (22) como señal de ruido referente (Ref (k, l) ) de una u otra de las referencias de ruido calculadas en las etapas a) y b) , en función de la dirección principal estimada en la etapa c) ; e) combinación (28) de las señales captadas por los dos micrófonos en una señal combinada ruidosa (X (k, l) ) ; f) cálculo (26) de una probabilidad de ausencia de voz (q (k, l) ) en la señal combinada ruidosa, a partir de niveles respectivos de energía espectral de la señal combinada ruidosa (X (k, l) ) y de la señal de ruido referente (Ref (k, l) ) ; g) a partir de la probabilidad de ausencia de voz (q (k, l) ) calculada en la etapa f) y de la señal combinada ruidosa (X (k, l) ) , reducción selectiva del ruido (34) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

2. El procedimiento de la reivindicación 1, en el que el filtrado predictivo comprende la aplicación de un algoritmo de predicción lineal de tipo mínimos cuadrados medios LMS.

3. El procedimiento de la reivindicación 1, en el que la estimación (24) de la dirección principal de incidencia de la etapa c) comprende las siguientes subetapas sucesivas:

c1) partición del espacio en una pluralidad de sectores angulares; c2) para cada sector, evaluación de un estimador de dirección de incidencia a partir de las dos señales captadas por los dos micrófonos correspondientes; y c3) a partir de los valores de estimadores calculados en la etapa c2) , estimación de dicha dirección principal de incidencia.

4. El procedimiento de la reivindicación 1, en el que la selección (22) de la etapa d) es una selección de la segunda referencia de ruido como señal de ruido referente si la dirección principal estimada en la etapa c) se sitúa fuera de un cono de referencia definido a ambos lados de una dirección predeterminada de incidencia de la señal útil.

5. El procedimiento de la reivindicación 1, en el que la combinación (28) de la etapa e) comprende un prefiltrado de tipo fixed beamforming.

6. El procedimiento de la reivindicación 1, en el que el cálculo (26) de probabilidad de ausencia de voz de la etapa f) comprende la estimación (30, 32) de componentes de ruido pseudoestacionario respectivos contenidos en la señal combinada ruidosa y en la señal de ruido referente, calculándose asimismo la probabilidad de ausencia de voz (q (k, l) ) a partir de estos componentes de ruido pseudoestacionario respectivos.

7. El procedimiento de la reivindicación 1, en el que la reducción selectiva del ruido (34) de la etapa g) es un procesamiento mediante aplicación de una ganancia de amplitud espectral logarítmica modificada optimizada OM-LSA.

 

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .