METODO Y SISTEMA PARA INCORPORAR INFORMACION ACUSTICA BINAURAL EN UN SISTEMA VISUAL DE REALIDAD AUMENTADA.

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada,

que comprende captar señales acústicas binaurales; digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal; agrupar N muestras consecutivas en tramas; extraer, de cada trama, una pluralidad de características que definen dicha trama; seleccionar un subconjunto de las características extraídas; detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido; estimar la distancia a la que se encuentra la fuente del evento acústico detectado; calcular la dirección en la que se sitúa la fuente del evento acústico; localizar la fuente del evento acústico en la escena; codificar visualmente la información del evento acústico y generar un vídeo a partir de una secuencia de imágenes; superponer la secuencia de vídeo generada con las imágenes captadas por al menos una cámara de vídeo (13); y mostrar la señal visual combinada

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201031215.

Solicitante: UNIVERSIDAD POLITECNICA DE MADRID.

Nacionalidad solicitante: España.

Provincia: MADRID.

Inventor/es: FERREIROS LOPEZ,JAVIER, PARDO MUÑOZ,JOSE MANUEL, DE CORDOBA HERRALDE,RICARDO, MONTERO MARTINEZ,JUAN MANUEL, SAN SEGUNDO HERNANDEZ,RUBEN.

Fecha de Solicitud: 4 de Agosto de 2010.

Fecha de Publicación: 18 de Mayo de 2011.

Fecha de Concesión: 6 de Mayo de 2011.

Clasificación Internacional de Patentes:

G06F3/01B
H04R25/00D3
H04R25/00L2

Clasificación PCT:

G06F3/01 FISICA. › G06 CALCULO; CONTEO. › G06F PROCESAMIENTO ELECTRICO DE DATOS DIGITALES (sistemas de computadores basados en modelos de cálculo específicos G06N). › G06F 3/00 Disposiciones de entrada para la transferencia de datos destinados a ser procesados en una forma utilizable por el computador; Disposiciones de salida para la transferencia de datos desde la unidad de procesamiento a la unidad de salida, p. ej. disposiciones de interfaz. › Disposiciones de entrada o disposiciones combinadas de entrada y salida para la interacción entre el usuario y el computador (G06F 3/16 tiene prioridad).
H04R25/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04R ALTAVOCES, MICROFONOS, CABEZAS DE LECTURA PARA GRAMOFONOS O TRANSDUCTORES ACUSTICOS ELECTROMECANICOS ANALOGOS; APARATOS PARA SORDOS; SISTEMAS PARA ANUNCIOS EN PUBLICO (producción de sonidos cuya frecuencia no está determinada por la frecuencia de alimentación G10K). › Aparatos para sordos.

METODO Y SISTEMA PARA INCORPORAR INFORMACION ACUSTICA BINAURAL EN UN SISTEMA VISUAL DE REALIDAD AUMENTADA.

Fragmento de la descripción:

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada.

Campo de la invención

La presente invención pertenece al campo técnico de las tecnologías de la información y las comunicaciones para el desarrollo de sistemas que mejoran la calidad de vida de las personas con discapacidad.

Estado de la técnica

En la actualidad hay una gran cantidad de trabajos relacionados con la percepción binaural que abordan tanto el problema de localización de la fuente de los eventos acústicos, como los problemas de clasificación de sonidos o incluso reconocimiento de habla. Sin embargo, en estos trabajos no se plantea el problema de clasificar una gran cantidad de tipos de sonidos sino que se centran en la diferenciación entre voz o no voz para saber qué parte de la señal acústica se debe mandar a un reconocedor de voz.

Las solicitudes WO2007063139 A2 y WO2009072040 A1 contemplan la incorporación de información acústica, obtenida de la percepción binaural, para mejorar un sistema de realidad aumentada de audio (no visual) para personas con deficiencias auditivas. En estas solicitudes no se plantea ningún tipo de clasificación del tipo de ruido sino que se proponen algoritmos generales de mejora de las señales acústicas. Su objetivo consiste en mejorar la percepción del habla, rechazando aquellos tipos de eventos acústicos que no sean habla. Por tanto, dichas patentes no detectan el tipo de evento acústico para informar al usuario, únicamente rechazan lo que no sea habla.

Es por tanto deseable un método y un sistema que integre la información que reciba mediante señales binaurales, de forma que partiendo de la detección de ciertos eventos acústicos, pueda formar una realidad aumentada del audio de dicha escena y mostrarla en forma de video, añadiendo los eventos acústicos como iconos o dibujos superpuestos a la señal de video recogida por una o varias cámaras.

Descripción de la invención

La presente invención resuelve los problemas existentes en el estado de la técnica mediante un método y un sistema capaz de representar de forma visual eventos acústicos en un sistema visual de realidad aumentada.

La invención propuesta consiste en un método y un sistema capaz de captar las señales acústicas recibidas por unos micrófonos situados en la posición de los oídos de una persona (por ejemplo en las patillas de unas gafas), e incorporar, de forma visual, la información acerca de los eventos acústicos detectados (algunos ejemplos de eventos acústicos serían la voz de personas hablando, música, golpes, sirenas, alarmas, pitidos o vehículos en movimiento). El sistema añade esta información de forma complementaria a la visión que se está mostrando a través de un sistema visual de realidad aumentada, por ejemplo, unas gafas de realidad aumentada.

El método y sistema propuesto establecen un marco de integración de tecnologías que aumentan la capacidad de percepción de las personas sordas, mejorando sensiblemente su calidad de vida.

El método para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende las siguientes etapas:

a) captar señales acústicas binaurales de una escena;

b) digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;

c) agrupar N muestras consecutivas en tramas, siendo N un número configurable;

d) extraer, de cada trama, una pluralidad de características que definen dicha trama;

e) seleccionar un subconjunto de las características extraídas;

f) detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

g) estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;

h) calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;

i) localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

j) codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

• seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;

• determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;

• determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;

k) superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo;

l) mostrar la señal visual combinada.

Preferentemente, la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral;

Preferentemente, la selección de un subconjunto de características se realiza mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas en la etapa d. El sistema que implemente el método, de manera preferente, comprenderá una base de datos con ejemplos previamente etiquetados y reglas para aprender, de forma automática, las características que mejor ayudan en la detección de los eventos acústicos que serán aquellas que ofrezcan una mayor capacidad de discriminación.

Preferentemente, el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

Preferentemente, la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal. Conociendo el tipo de evento acústico y la energía que llega a los micrófonos se puede estimar la distancia a la que está la fuente del evento acústico. Por otro lado, la oreja o pabellón auditivo establece un filtro acústico que conforma y atenúa las señales acústicas percibidas dotándolas de una menor energía y una distribución espectral de su energía (distribución de energía en bandas de frecuencia) característica. Es importante saber si la fuente del evento acústico está situada detrás del oyente para adaptar la estimación de la distancia a esta situación: considerando una atenuación adicional debida al pabellón auditivo y no a una mayor distancia a la fuente acústica.

El sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende:

• al menos dos micrófonos omnidireccionales configurados para captar señales acústicas binaurales de una escena;

• un módulo de extracción de características que comprende:

\medcirc un módulo de extracción de características de las señales captadas por un primer micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc un módulo de extracción de características de las señales...

Reivindicaciones:

1. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende las siguientes etapas: