Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil.

Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso,

en particular un dispositivo telefónico manos libres"para vehículo automóvil, comprendiendo la señal acústica ruidosa una componente útil de voz procedente de una fuente de voz direccional y una componente parásita de ruido, incluyendo esta componente de ruido en sí misma una componente de ruido lateral no estacionaria direccional, procedimiento caracterizado por que consta, en el dominio de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, de las siguientes etapas de procesamiento de la señal:

a) combinación (12) de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa (X (k, l) ) ;

b) a partir de la señal combinada ruidosa, estimación (14) de una componente de ruido pseudoestacionaria (V (k, l) ) contenida en esta señal combinada ruidosa;

c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo (16) de una probabilidad de presencia de transitorios (pTransitorio (k, l) ) en la señal combinada ruidosa;

d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapac), estimación (18) de una dirección principal de llegada de los transitorios ( (k, l) ) ;

e) a partir de la dirección principal de llegada de los transitorios estimados en la etapa d) , cálculo (20) de una probabilidad de presencia de voz con respecto a un criterio espacial (pssp (k, l) ), adecuado para distinguir entre voz útil y ruido lateral entre los transitorios;

f) a partir de la probabilidad de presencia de voz calculada en la etapa

e) y de la señal combinada ruidosa, reducción selectiva del ruido (22) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10166119.

Solicitante: PARROT.

Nacionalidad solicitante: Francia.

Dirección: 174 QUAI DE JEMMAPES 75010 PARIS FRANCIA.

Inventor/es: Pinto,Guillaume, Vitte,Guillaume, Seris,Julie.

Fecha de Publicación: 22 de Marzo de 2012.

Clasificación Internacional de Patentes:

G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
H04R1/40 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04R ALTAVOCES, MICROFONOS, CABEZAS DE LECTURA PARA GRAMOFONOS O TRANSDUCTORES ACUSTICOS ELECTROMECANICOS ANALOGOS; APARATOS PARA SORDOS; SISTEMAS PARA ANUNCIOS EN PUBLICO (producción de sonidos cuya frecuencia no está determinada por la frecuencia de alimentación G10K). › H04R 1/00 Detalles de los transductores (membranas H04R 7/00; caracterizado por la naturaleza del transductor, ver el grupo correspondiente de los grupos principales H04R 9/00 - H04R 23/00; montajes adaptados especialmente para equipos telefónicos H04M 1/02). › por combinación de varios transductores idénticos.
H04R3/00 H04R […] › Circuitos para transductores (disposiciones para producir una reverberación sonora o un eco G10K 15/08; amplificadores H03F).

PDF original: ES-2377056_T3.pdf

Fragmento de la descripción:

Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil. 5 La invención se refiere al procesamiento de la voz en un medio ruidoso.

Se refiere en particular, pero de manera no limitativa, al procesamiento de las señales de voz captadas por dispositivos de telefonía para vehículos automóviles.

Estos aparatos constan de un micrófono ("micro") sensible que capta no sólo la voz de usuario, sino también el ruido ambiental, ruido que constituye un elemento perturbador que puede ir, en algunos casos, hasta hacer incomprensibles las palabras del hablante. Ocurre lo mismo si se quieren aplicar técnicas de reconocimiento de voz, ya que es muy difícil llevar a cabo un reconocimiento de forma en palabras sumergidas en un nivel de ruido elevado.

Esta dificultad ligada a los ruidos ambientales es particularmente molesta en el caso de los dispositivos "manos libres". En particular, la distancia importante entre el micro y el hablante implica un nivel relativo de ruido elevado que dificulta la extracción de la señal útil sumergida en el ruido. Además, el medio muy ruidoso típico del entorno automóvil presenta características espectrales no estacionarias, es decir que evolucionan de manera imprevisible en función de las condiciones de conducción: paso sobre calzadas deformadas o con adoquinadas, autorradio en funcionamiento, etc.

Algunos de estos dispositivos prevén el uso de varios micros, generalmente dos micros, y utilizan la media de las señales captadas, u otras operaciones más complejas, para obtener una señal con un nivel menor de perturbaciones. En particular, una técnica denominada conformación de haz permite crear por medios de software una directividad que mejora la relación señal/ruido, pero los rendimientos de esta técnica son muy limitados cuando se usan sólo dos micrófonos.

Por otra parte, las técnicas clásicas se adaptan sobre todo al filtrado de los ruidos difusos, estacionarios, que proceden de los alrededores del dispositivo y que se encuentran a niveles comparables en las señales captadas por los dos micros.

Por el contrario, un ruido no estacionario, es decir que evoluciona de manera imprevisible en función del tiempo, no 35 se discriminará de la voz y por lo tanto no se atenuará.

Ahora bien, en el entorno automóvil, estos ruidos no estacionarios y directivos son muy frecuentes: toque de bocina, paso de una motocicleta, adelantamiento de un coche, etc.

Una de las dificultades del filtrado de estos ruidos no estacionarios se debe a que sus características temporales y espaciales están muy próximas de las de la voz, de ahí la dificultad, por una parte, de estimar la presencia de una voz (ya que el hablante no está hablando todo el tiempo) y, por otra parte, de extraer la señal útil de voz en un entorno muy ruidoso tal como un habitáculo de vehículo automóvil.

45 Uno de los objetivos de la invención es aprovechar la estructura multimicrófono del dispositivo para llevar a cabo una detección espacial de estos ruidos no estacionarios y, a continuación, discriminar entre todas las componentes no estacionarias (en lo sucesivo, "transitorios") , las que son componentes de ruido no estacionario de las que son componentes de voz y, finalmente, tratar la señal captada para eliminar el ruido de la misma de manera eficaz minimizando a la vez las distorsiones introducidas por este procesamiento.

En lo sucesivo se denominará "ruido lateral" un ruido no estacionario directivo cuya dirección de llegada está alejada de la de la señal útil, y se denominará "cono privilegiado" la dirección o sector angular del espacio donde se encuentra la fuente de señal útil (la voz del hablante) respecto de la red de micros. Cuando una fuente sonora se manifieste fuera del cono privilegiado, se tratará por lo tanto de un ruido lateral, que se intentará atenuar.

55 El punto de partida de la invención consiste en asociar las propiedades de no estacionalidad temporal y frecuencial, por una parte, y de directividad espacial, por otra parte, para detectar un tipo de ruido que es normalmente difícil de discriminar de la voz y, a continuación, para deducir una probabilidad de presencia de la voz que servirá para atenuar este ruido.

Más concretamente, la invención tiene por objeto un procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso. La señal acústica ruidosa comprende una componente útil de voz procedente de una fuente de voz directiva y una componente parásita de ruido, incluyendo esta componente de ruido una componente de ruido 65 lateral no estacionaria directiva.

Tal procedimiento se divulga, por ejemplo, por 1. Cohen, Analysis of Two-Channel Generalized Sidelobe Canceller

(GSC) with Post-Filtering", IEEE Transactions on Speech and Audio Processing, Vol. 11, nº 6, noviembre de 2003, páginas 684-699.

Esencialmente, y de manera característica de la invención, el procedimiento consta de las siguientes etapas de 5 procesamiento, ejecutadas en el dominio de frecuencia:

a) combinación de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa; b) a partir de la señal combinada ruidosa, estimación de una componente de ruido pseudoestacionaria contenida en esta señal combinada ruidosa; c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo de una probabilidad de presencia de transitorios en la señal combinada ruidosa; d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapa c) , estimación de una dirección principal de llegada de los transitorios; e) a partir de la dirección principal de llegada de los transitorios estimada en la etapa d) , cálculo de una probabilidad de presencia de voz con respecto a un criterio espacial, propio para distinguir entre voz útil y ruido lateral entre los transitorios; f) a partir de la probabilidad de presencia de voz calculada en la etapa e) y de la señal combinada ruidosa, reducción selectiva del ruido mediante aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

Según diversas formas de puesta en práctica subsidiarias ventajosas:

- el procesamiento de la etapa a) es un procesamiento de prefiltrado de tipo conformación fija de haz;

- el procesamiento de la etapa d) comprende las siguientes subetapas sucesivas: d1) partición del espacio en una pluralidad de sectores angulares; d2) para cada sector, evaluación de un estimador de dirección de llegada a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos; d3) ponderación de cada estimador por la probabilidad de presencia de transitorios calculada en la etapa c) ; d4) a partir de los valores de estimadores ponderados calculados en la etapa d3) , estimación de una dirección principal de llegada de los transitorios; y d5) validación o invalidación de la estimación de la dirección principal de llegada de los transitorios llevada a cabo en la etapa d4) .

- en la etapa d5) la estimación sólo se valida si el valor del estimador ponderado que corresponde a la dirección estimada es superior a un umbral predeterminado, y/o en ausencia de máximo local del estimador ponderado 35 en el sector angular de origen de la señal de voz útil, y/o si el valor del estimador es creciente de manera monótona en una pluralidad de tramas temporales sucesivas; - el procedimiento comprende además una etapa de mantenimiento de la estimación de la dirección principal de llegada durante un lapso de tiempo mínimo predeterminado;

- la probabilidad de presencia de voz calculada en la etapa e) es o bien una probabilidad binaria, que toma un valor de 1 ó 0 dependiendo de si la dirección principal de llegada de los transitorios estimada en la etapa d) está situada o no en el sector angular de origen de la señal de voz útil, o bien una probabilidad de valores múltiples, función de la desviación angular entre la dirección principal de llegada de los transitorios estimada en la etapa d) y la dirección de origen de la señal de voz útil;

- el procesamiento de la etapa... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso, en particular un dispositivo telefónico "manos libres" para vehículo automóvil, comprendiendo la señal acústica ruidosa una componente útil de voz procedente de una fuente de voz direccional y una componente parásita de ruido, incluyendo esta componente de ruido en sí misma una componente de ruido lateral no estacionaria direccional, procedimiento caracterizado por que consta, en el dominio de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, de las siguientes etapas de procesamiento de la señal:

a) combinación (12) de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa (X (k, l) ) ; 15 b) a partir de la señal combinada ruidosa, estimación (14) de una componente de ruido pseudoestacionaria (Vˆ (k, l) ) contenida en esta señal combinada ruidosa; c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo (16) de una probabilidad de presencia de transitorios (pTransitorio (k, l) ) en la señal combinada ruidosa; d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapa c) , estimación (18) de una dirección principal de llegada de los transitorios ( (k, l) ) ; e) a partir de la dirección principal de llegada de los transitorios estimados en la etapa d) , cálculo (20) de una probabilidad de presencia de voz con respecto a un criterio espacial (pssp (k, l) ) , adecuado para distinguir entre voz útil y ruido lateral entre los transitorios; f) a partir de la probabilidad de presencia de voz calculada en la etapa e) y de la señal combinada ruidosa, reducción selectiva del ruido (22) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

2. El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa a) es un procesamiento de prefiltrado de tipo conformación fija de haz.

3. El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa d) comprende las siguientes subetapas sucesivas:

d1) partición del espacio en una pluralidad de sectores angulares; d2) para cada sector, evaluación de un estimador de dirección de llegada a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos; d3) ponderación de cada estimador por la probabilidad de presencia de transitorios calculada en la etapa c) ; d4) a partir de los valores de estimadores ponderados calculados en la etapa d3) , estimación de una dirección principal de llegada de los transitorios; d5) validación o invalidación de la estimación de la dirección principal de llegada de los transitorios llevada a cabo en la etapa d4) .

4. El procedimiento de la reivindicación 3, en el que, en la etapa d5) , la estimación sólo se valida si el valor del estimador ponderado que corresponde a la dirección estimada es superior a un umbral predeterminado.

5. El procedimiento de la reivindicación 3, en el que, en la etapa d5) , la estimación sólo se valida en ausencia de un máximo local del estimador ponderado en el sector angular de origen de la señal de voz útil.

6. El procedimiento de la reivindicación 3, en el que, en la etapa d5) , la estimación sólo se valida si el valor del estimador es creciente de manera monótona en una pluralidad de tramas temporales sucesivas.

55 7. El procedimiento de la reivindicación 3, que comprende además una etapa de mantenimiento de la estimación de la dirección principal de llegada durante un periodo de tiempo mínimo predeterminado.

8. El procedimiento de la reivindicación 1, en el que la probabilidad de presencia de voz calculada en la etapa e) es una probabilidad binaria, que toma un valor de 1 ó 0 dependiendo de si la dirección principal de llegada de los transitorios estimada en la etapa d) está situada o no en el sector angular de origen de la señal de voz útil.

9. El procedimiento de la reivindicación 1, en el que la probabilidad de presencia de voz calculada en la etapa

e) es una probabilidad de múltiples valores, función de la desviación angular entre la dirección principal de 65 llegada de los transitorios estimada en la etapa d) y la dirección de origen de la señal de voz útil;

10. El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa f) es un procesamiento de reducción selectiva del ruido mediante la aplicación de una ganancia de amplitud espectral logarítmica modificada optimizada OM-LSA.

ptransitorio (k, l)

ESTIMACIÓN RUIDO PSEUDOESTACIONAR. SEÑAL RUIDOSA

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]