METODO Y SISTEMA PARA INCORPORAR INFORMACION ACUSTICA BINAURAL EN UN SISTEMA VISUAL DE REALIDAD AUMENTADA.

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada,

que comprende captar señales acústicas binaurales; digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal; agrupar N muestras consecutivas en tramas; extraer, de cada trama, una pluralidad de características que definen dicha trama; seleccionar un subconjunto de las características extraídas; detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido; estimar la distancia a la que se encuentra la fuente del evento acústico detectado; calcular la dirección en la que se sitúa la fuente del evento acústico; localizar la fuente del evento acústico en la escena; codificar visualmente la información del evento acústico y generar un vídeo a partir de una secuencia de imágenes; superponer la secuencia de vídeo generada con las imágenes captadas por al menos una cámara de vídeo (13); y mostrar la señal visual combinada

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201031215.

Solicitante: UNIVERSIDAD POLITECNICA DE MADRID.

Nacionalidad solicitante: España.

Provincia: MADRID.

Inventor/es: FERREIROS LOPEZ,JAVIER, PARDO MUÑOZ,JOSE MANUEL, DE CORDOBA HERRALDE,RICARDO, MONTERO MARTINEZ,JUAN MANUEL, SAN SEGUNDO HERNANDEZ,RUBEN.

Fecha de Solicitud: 4 de Agosto de 2010.

Fecha de Publicación: .

Fecha de Concesión: 6 de Mayo de 2011.

Clasificación Internacional de Patentes:

  • G06F3/01B
  • H04R25/00D3
  • H04R25/00L2

Clasificación PCT:

  • G06F3/01 FISICA.G06 CALCULO; CONTEO.G06F PROCESAMIENTO ELECTRICO DE DATOS DIGITALES (sistemas de computadores basados en modelos de cálculo específicos G06N). › G06F 3/00 Disposiciones de entrada para la transferencia de datos destinados a ser procesados en una forma utilizable por el computador; Disposiciones de salida para la transferencia de datos desde la unidad de procesamiento a la unidad de salida, p. ej. disposiciones de interfaz. › Disposiciones de entrada o disposiciones combinadas de entrada y salida para la interacción entre el usuario y el computador (G06F 3/16 tiene prioridad).
  • H04R25/00 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04R ALTAVOCES, MICROFONOS, CABEZAS DE LECTURA PARA GRAMOFONOS O TRANSDUCTORES ACUSTICOS ELECTROMECANICOS ANALOGOS; APARATOS PARA SORDOS; SISTEMAS PARA ANUNCIOS EN PUBLICO (producción de sonidos cuya frecuencia no está determinada por la frecuencia de alimentación G10K). › Aparatos para sordos.
METODO Y SISTEMA PARA INCORPORAR INFORMACION ACUSTICA BINAURAL EN UN SISTEMA VISUAL DE REALIDAD AUMENTADA.

Fragmento de la descripción:

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada.

Campo de la invención

La presente invención pertenece al campo técnico de las tecnologías de la información y las comunicaciones para el desarrollo de sistemas que mejoran la calidad de vida de las personas con discapacidad.

Estado de la técnica

En la actualidad hay una gran cantidad de trabajos relacionados con la percepción binaural que abordan tanto el problema de localización de la fuente de los eventos acústicos, como los problemas de clasificación de sonidos o incluso reconocimiento de habla. Sin embargo, en estos trabajos no se plantea el problema de clasificar una gran cantidad de tipos de sonidos sino que se centran en la diferenciación entre voz o no voz para saber qué parte de la señal acústica se debe mandar a un reconocedor de voz.

Las solicitudes WO2007063139 A2 y WO2009072040 A1 contemplan la incorporación de información acústica, obtenida de la percepción binaural, para mejorar un sistema de realidad aumentada de audio (no visual) para personas con deficiencias auditivas. En estas solicitudes no se plantea ningún tipo de clasificación del tipo de ruido sino que se proponen algoritmos generales de mejora de las señales acústicas. Su objetivo consiste en mejorar la percepción del habla, rechazando aquellos tipos de eventos acústicos que no sean habla. Por tanto, dichas patentes no detectan el tipo de evento acústico para informar al usuario, únicamente rechazan lo que no sea habla.

Es por tanto deseable un método y un sistema que integre la información que reciba mediante señales binaurales, de forma que partiendo de la detección de ciertos eventos acústicos, pueda formar una realidad aumentada del audio de dicha escena y mostrarla en forma de video, añadiendo los eventos acústicos como iconos o dibujos superpuestos a la señal de video recogida por una o varias cámaras.

Descripción de la invención

La presente invención resuelve los problemas existentes en el estado de la técnica mediante un método y un sistema capaz de representar de forma visual eventos acústicos en un sistema visual de realidad aumentada.

La invención propuesta consiste en un método y un sistema capaz de captar las señales acústicas recibidas por unos micrófonos situados en la posición de los oídos de una persona (por ejemplo en las patillas de unas gafas), e incorporar, de forma visual, la información acerca de los eventos acústicos detectados (algunos ejemplos de eventos acústicos serían la voz de personas hablando, música, golpes, sirenas, alarmas, pitidos o vehículos en movimiento). El sistema añade esta información de forma complementaria a la visión que se está mostrando a través de un sistema visual de realidad aumentada, por ejemplo, unas gafas de realidad aumentada.

El método y sistema propuesto establecen un marco de integración de tecnologías que aumentan la capacidad de percepción de las personas sordas, mejorando sensiblemente su calidad de vida.

El método para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende las siguientes etapas:

a) captar señales acústicas binaurales de una escena;

b) digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;

c) agrupar N muestras consecutivas en tramas, siendo N un número configurable;

d) extraer, de cada trama, una pluralidad de características que definen dicha trama;

e) seleccionar un subconjunto de las características extraídas;

f) detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

g) estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;

h) calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;

i) localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

j) codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

• seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;

• determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;

• determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;

k) superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo;

l) mostrar la señal visual combinada.

Preferentemente, la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral;

Preferentemente, la selección de un subconjunto de características se realiza mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas en la etapa d. El sistema que implemente el método, de manera preferente, comprenderá una base de datos con ejemplos previamente etiquetados y reglas para aprender, de forma automática, las características que mejor ayudan en la detección de los eventos acústicos que serán aquellas que ofrezcan una mayor capacidad de discriminación.

Preferentemente, el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

Preferentemente, la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal. Conociendo el tipo de evento acústico y la energía que llega a los micrófonos se puede estimar la distancia a la que está la fuente del evento acústico. Por otro lado, la oreja o pabellón auditivo establece un filtro acústico que conforma y atenúa las señales acústicas percibidas dotándolas de una menor energía y una distribución espectral de su energía (distribución de energía en bandas de frecuencia) característica. Es importante saber si la fuente del evento acústico está situada detrás del oyente para adaptar la estimación de la distancia a esta situación: considerando una atenuación adicional debida al pabellón auditivo y no a una mayor distancia a la fuente acústica.

El sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende:

• al menos dos micrófonos omnidireccionales configurados para captar señales acústicas binaurales de una escena;

• un módulo de extracción de características que comprende:

\medcirc un módulo de extracción de características de las señales captadas por un primer micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc un módulo de extracción de características de las señales...

 


Reivindicaciones:

1. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende las siguientes etapas:

a) captar señales acústicas binaurales de una escena;

b) digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;

c) agrupar N muestras consecutivas en tramas, siendo N un número configurable;

d) extraer, de cada trama, una pluralidad de características que definen dicha trama;

e) seleccionar un subconjunto de las características extraídas;

f) detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

g) estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;

h) calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;

i) localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

j) codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

• seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;

• determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;

• determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acús- tico;

k) superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13);

l) mostrar la señal visual combinada.

2. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 1, caracterizado porque la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

3. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la selección de un subconjunto de características se realiza mediante la selección entre:

• aplicar LDA (Linear Discriminant Analysis) a partir de las características extraídas en la etapa d;

• aplicar árboles de decisión a partir de las características extraídas en la etapa d.

4. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

5. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.

6. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende:

• al menos dos micrófonos omnidireccionales (1) configurados para captar señales acústicas binaurales de una escena;

• un módulo de extracción de características (2) que comprende:

\medcirc un módulo de extracción de características de las señales captadas por un primer micrófono (3) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc un módulo de extracción de características de las señales captadas por un segundo micrófono (4) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc un módulo de selección de características (5) configurado para seleccionar un subconjunto de características a partir de las características extraídas;

• un módulo de caracterización de la fuente de sonido (6) que comprende:

\medcirc un módulo de detección del tipo de evento acústico (7) configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

\medcirc un módulo de estimación de la distancia de la fuente (8) configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;

\medcirc un módulo de localización de la fuente del evento acústico (9) configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

• un módulo de realidad aumentada (10) que comprende:

\medcirc un módulo de codificación (11) configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

• seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;

• determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;

• determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;

\medcirc un módulo de combinación (12) configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13) de la escena;

\medcirc un módulo de representación visual (14) configurado para mostrar la señal visual combinada.

7. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 6, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

8. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-7, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

9. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-8, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.

10. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-9, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.

11. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-10, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.

12. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-11, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.

13. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-12, caracterizado porque comprende una base de datos que comprende eventos acústicos previamente etiquetados y una pluralidad de reglas que definen la selección de un dibujo asociado al tipo de evento acústico detectado.

14. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-13, caracterizado porque el módulo de detección del tipo de evento acústico (7) está configurado para realizar un reconocimiento de patrones, comprendiendo dicho reconocimiento, calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

15. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-14, caracterizado porque el módulo de estimación de la distancia de la fuente (8) está configurado para estimar la distancia a la que se encuentra la fuente del evento acústico a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.


 

Patentes similares o relacionadas:

Imagen de 'SISTEMA Y METODO PARA SU FUNCIONAMIENTO EN EL ESPACIO VIRTUAL…'SISTEMA Y METODO PARA SU FUNCIONAMIENTO EN EL ESPACIO VIRTUAL 3D, del 21 de Marzo de 2011, de 3D FOR ALL SZÁMÍTASTECHNIKAI FEJLESZTO KFT: Sistema para la realización de una operación en un espacio tridimensional virtual, comprendiendo el - un sistema de visualización para visualizar el espacio tridimensional […]

Imagen de 'DISPOSITIVO INTERACTIVO'DISPOSITIVO INTERACTIVO, del 17 de Enero de 2011, de UNIVERSITAT POMPEU FABRA: El dispositivo interactivo de la invención, que comprende una superficie de proyección de entornos y objetos virtuales dinámicos , al menos […]

Imagen de 'SISTEMA DE INMERSION VISUAL INTERACTIVA'SISTEMA DE INMERSION VISUAL INTERACTIVA, del 29 de Noviembre de 2010, de CUATIC INTERACCION FISICA, S.L.U: Este sistema que comprende una pantalla de visualización conectada a un sistema informático para generar una animación interactiva con un usuario […]

Imagen de 'DISPOSITIVO INTERACTIVO'DISPOSITIVO INTERACTIVO, del 4 de Febrero de 2010, de COMPONOSOLLERTIA, S.A.L.: Dispositivo interactivo. La presente invención se refiere a un dispositivo interactivo para la visualización de contenidos multimedia con un accionamiento mediante […]

Imagen de 'DISPOSITIVO DE CONTROL DE EQUIPOS UNIDIMENSIONALES, BIDIMENSIONALES…'DISPOSITIVO DE CONTROL DE EQUIPOS UNIDIMENSIONALES, BIDIMENSIONALES O TRIDIMENSIONALES PARA LA ASISTENCIA A PERSONAS CON DISCAPACIDAD, del 1 de Octubre de 2008, de FUNDACION FATRONIK: Dispositivo de control de equipos unidimensionales, bidimensionales o tridimensionales para la asistenta a personas con discapacidad.#El […]

Procesamiento de señales de audio para el tratamiento de acúfenos, del 24 de Junio de 2020, de Sonormed GmbH: Procedimiento para procesar señales de audio , en particular para un tratamiento de acúfenos subjetivos con una frecuencia de acúfeno individual, que comprende las […]

Método y dispositivo para configurar un sistema auditivo específico para un usuario, del 3 de Junio de 2020, de audiosus GmbH: Método de configuración de un sistema auditivo específico para un usuario, comprendiendo el sistema auditivo una unidad receptora para recibir eventos sonoros, una […]

Fijación a la apófisis corta del yunque para un transductor flotante implantable, del 6 de Mayo de 2020, de Med-El Elektromedizinische Geraete GmbH: Un elemento de acoplamiento de prótesis de oído medio que comprende: un elemento de acoplamiento de transductor adaptado para acoplarse a un transductor mecánico […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .