Identificación de personas usando múltiples tipos de entradas.
Un procedimiento para detección de hablantes que comprende:
identificar (310) una serie de características (410,
470) que comprende al menos una característica (420, 430,450) de un primer tipo de entrada y al menos una característica (420, 430, 450) de un segundo tipo de entradadonde el segundo tipo es diferente del primer tipo, en el cual el primer tipo de entrada o el segundo tipo deentrada incluye un entrada de audio (120) y en el cual se calcula una característica para cuantificar algúnelemento del tipo correspondiente de entrada en un tiempo particular; y
generar (315) un clasificador (785, 855) para la detección de hablantes usando un algoritmo de aprendizaje(745), en el cual el clasificador está constituido por un subconjunto de características, siendo denominado elsubconjunto de características como nodo del clasificador y seleccionado por el algoritmo de aprendizaje,asegurándose también de que los nodos que requieren menos cálculo están situados en el clasificador de talmanera que son evaluados antes que los nodos que requieren más calculo ponderando los nodos mientras segenera el clasificador.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2007/003715.
Solicitante: MICROSOFT CORPORATION.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: ONE MICROSOFT WAY REDMOND, WA 98052-6399 ESTADOS UNIDOS DE AMERICA.
Inventor/es: ZHANG,CHA, VIOLA,PAUL A, YIN,PEI, CUTLER,ROSS G, SUN,XINDING, RUI,YONG.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G06K9/46 FISICA. › G06 CALCULO; CONTEO. › G06K RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES DE REGISTROS; MANIPULACION DE SOPORTES DE REGISTROS (impresión per se B41J). › G06K 9/00 Métodos o disposiciones para la lectura o el reconocimiento de caracteres impresos o escritos o el reconocimiento de formas, p. ej. de huellas dactilares (métodos y disposiciones para la lectura de grafos o para la conversión de patrones de parámetros mecánicos, p.e. la fuerza o la presencia, en señales eléctricas G06K 11/00; reconocimiento de la voz G10L 15/00). › Extracción de elementos o de características de la imagen.
- G06K9/62 G06K 9/00 […] › Métodos o disposiciones para el reconocimiento que utilizan medios electrónicos.
- G10L11/02
- G10L17/00 G […] › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Identificación o verificación de la persona que habla.
- G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
- H04N7/14 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas de doble vía (H04N 7/173 tiene prioridad).
- H04N7/15 H04N 7/00 […] › Sistemas para conferencias.
PDF original: ES-2390295_T3.pdf
Fragmento de la descripción:
Identificación de personas usando múltiples tipos de entradas
Antecedentes
Existe una gran diversidad de situaciones en la cuales es deseable identificar personas, incluyendo personas que están
hablando, usando sistemas que están, al menos, automatizados. Algunos sistemas existentes que identifican hablantes usan audio-por ejemplo, podrían usar localización de fuentes sonoras”, que incluye procesar la entrada a partir de múltiples micrófonos en diferentes localizaciones para intentar identificar la dirección o las direcciones a partir de las cuales se origina el habla. Algunos otros sistemas intentan mejorar la precisión de procedimientos similares a la localización de la fuente de sonido llevando a cabo “la fusión del nivel de decisión”, donde se combinan los datos
procedentes de múltiples entradas en el punto en que se toman las decisiones acerca de la detección de personas o hablantes.
El documento US 204/263636 A1 se refiere a un sistema y un procedimiento para realizar teleconferencias y grabar reuniones. Una matriz de micrófonos puede estar integrada con una cámara de 360 grados. El sistema puede entonces capturar la señal de audio de toda de la sala de reuniones, usar localización de fuente sonora (SSL) para encontrar la
dirección del hablante, y el sistema de reunión distribuido puede usar tanto SSL basado en audio como seguimiento de personas basado en visión para detectar hablantes. Asimismo se describe el seguimiento multiseñal para el seguimiento y detección de personas.
Sumario
Un objeto de la presente invención es proporcionar un procedimiento y un sistema para la identificación de personas, 20 incluyendo hablantes.
Este objeto se resuleve por la materia objeto de las reivindicaciones independientes.
Se proporcionan realizaciones en las reivindicaciones dependientes.
Identificación de personas usando múltiples tipos de entradas
En lo sucesivo se presenta un sumario simplificado de la divulgación con el fin de proporcionar una comprensión básica 25 al lector. Este sumario no es una visión general de la divulgación y no identifica elementos clave o críticos de la invención
o delimita el alcance de la invención. Su único propósito es presentar algunos conceptos divulgados en el presente documento de una forma simplificada como un preludio de la descripción más detallada que se presentará más tarde.
En el presente documento se describen varias tecnologías y técnicas dirigidas a la identificación de personas, incluyendo los hablantes. Tales tecnologías y técnicas incluyen la identificación de un grupo de “características“ de identificación a
partir de múltiples tipos de entrada, o modalidades (trayectorias a través de las cuales un sistema informático puede reconocer la entrada) , que incluye tanto entrada de audio como de vídeo; y la generación de un “clasificador” que incluye un subconjunto de características del grupo de características donde el subconjunto de características es seleccionado de manera que el clasificador identifica eficientemente regiones donde las personas o hablantes pueden existir.
Descripción de los dibujos
La figura 1 ilustra un diagrama ejemplar generalizado que muestra un sistema en el que se puede llevar a cabo la detección de personas. La figura 2 ilustra una representación gráfica de una imagen ejemplar así como regiones ejemplares que se pueden identificar por contener personas o hablantes. La figura 3 ilustra un flujo operativo ejemplar generalizado que incluye varias operaciones que se puede llevar a
cabo cuando se identifica una persona. La figura 4 ilustra un diagrama ejemplar generalizado que muestra algunas características ejemplares que pueden ser identificadas y usadas en algunas implementaciones. La figura 5 ilustra algunas características ejemplares de vídeo. La figura 6 ilustra un rectángulo de características ejemplares representativas que incluye algunas
45 características ejemplares de vídeo. La figura 7 ilustra un diagrama ejemplar generalizado que muestra un sistema en el que se puede llevar a cabo la generación de un clasificador para detección de personas o hablantes. La figura 8 ilustra un diagrama ejemplar generalizado que muestra un sistema en el que se puede llevar a cabo la detección de personas o hablantes.
50 La figura 9 ilustra algunas representaciones ejemplares de ventanas de detección que se pueden usar como parte del procedimiento de detección de personas o hablantes. La figura 10 ilustra un dispositivo informático ejemplar en el que se pueden aplicar las diversas tecnologías descritas en el presente documento
Descripción detallada
La presente invención se extiende a varias tecnologías y técnicas dirigidas a la identificación de personas incluidos hablantes. Mas en particular, en el presente documento se describen, entre otras cosas, procedimientos y sistemas que facilitan la identificación de personas usando múltiples tipos de entradas donde los múltiples tipos de entradas son considerados un principio del procedimiento de detección, en lugar de combinarse al final del procedimiento de detección.
Volviendo ahora a la figura 1, en la misma se ilustra un diagrama ejemplar generalizado que muestra un sistema 100 en el que se puede llevar a cabo la detección de personas. Esta descripción de la figura 1 se hace con referencia a la figura
10. Sin embargo, cabe entender que los elementos descritos con referencia a la figura 1 no están destinados a limitarse a ser usados con los elementos descritos con referencia a esta otra figura. Asimismo, aunque el diagrama ejemplar de la figura 1 indica elementos particulares, en algunas implementaciones no todos estos elementos pueden existir, y en algunas implementaciones pueden existir elementos adicionales.
Incluido en la figura 1 se encuentran uno o más dispositivos de entrada de vídeo 110, uno o más dispositivos de entrada de audio 120, uno o u otros más dispositivos de entrada 130, datos de vídeo 140, datos de audio 150, otros datos 160, un detector de personas 170 aplicado en un dispositivo detector 165, un dispositivo auxiliar 175, y la salida del detector de personas, cualesquiera personas o hablantes 180 detectados.
El detector 170 acepta la entrada, que puede entonces usar para intentar identificar una o más personas 180, incluyendo personas que están hablando, o “hablantes”. El detector puede usar una variedad de mecanismos para intentar identificar personas incluyendo los mencionados más en detalle en el presente documento. En algunas implementaciones, el detector puede utilizar mecanismos de detección determinados en otro lugar, mientras que en otras implementaciones el detector puede tanto determinar cómo ejecutar los mecanismos de detección. El detector puede usar una variedad de entradas, incluyendo datos de vídeo 140, datos de audio 150, y otros datos 160.
El o los dispositivos de entrada de vídeo 110 pueden comprender una variedad de dispositivos de entrada de vídeo, incluyendo una variedad de cámaras y tipos de cámaras con una gama de funcionalidad. En una implementación, los dispositivos de entrada de vídeo 110 pueden incluir múltiples cámaras situadas en una disposición circular para de este modo proporcionar una visión de 360º. En otras implementaciones, la misma visión de 360º se puede proporcionar por una única cámara, quizás con una sola lente. En otras implementaciones adicionales, el o los dispositivos de entrada de vídeo pueden proporcionar una visión que cubre un intervalo inferior a 360º.
Al menos parte de la salida del o los dispositivos de entrada de vídeo 110 son los datos de vídeo 140. Estos datos pueden incluir múltiples tramas individuales de datos de vídeo, donde cada trama comprende una imagen constituida por múltiples píxeles. Por ejemplo, una cámara que es capaz de producir vídeo a una velocidad de 30 tramas de vídeo por segundo puede producir como salida 30 imágenes cada segundo. En algunas implementaciones, cada imagen producida por la cámara puede ser conocida como la “imagen de base” (para diferenciarla de otras imágenes calculadas, como las imágenes diferenciales de corto plazo y las imágenes promedio de largo plazo explicadas en lo sucesivo) . Obsérvese que... [Seguir leyendo]
Reivindicaciones:
1. Un procedimiento para detección de hablantes que comprende:
identificar (310) una serie de características (410, 470) que comprende al menos una característica (420, 430, 450) de un primer tipo de entrada y al menos una característica (420, 430, 450) de un segundo tipo de entrada donde el segundo tipo es diferente del primer tipo, en el cual el primer tipo de entrada o el segundo tipo de entrada incluye un entrada de audio (120) y en el cual se calcula una característica para cuantificar algún elemento del tipo correspondiente de entrada en un tiempo particular; y generar (315) un clasificador (785, 855) para la detección de hablantes usando un algoritmo de aprendizaje (745) , en el cual el clasificador está constituido por un subconjunto de características, siendo denominado el subconjunto de características como nodo del clasificador y seleccionado por el algoritmo de aprendizaje, asegurándose también de que los nodos que requieren menos cálculo están situados en el clasificador de tal manera que son evaluados antes que los nodos que requieren más calculo ponderando los nodos mientras se genera el clasificador.
2. El procedimiento de la reivindicación 1, que comprende, además:
evaluar (320) el clasificador para detectar una persona (320) .
3. El procedimiento de la reivindicación 1 en el cual la serie de características incluye una característica de audio (420) asociad a una localización de fuente sonora, SSL, entrada que proporciona una función de probabilidad SSL, y en el que la característica de audio (420) es calculada con una función seleccionada a partir de las siguientes funciones:
en las que Lgmax es el valor máximo de la función de probabilidad SSL en toda la función de probabilidad SSL, Lgmin es el valor mínimo de la función de probabilidad SSL en toda la función de probabilidad SSL, y para cada ventana de detección, Llmax es el valor máximo de la función de probabilidad SSL en la ventana de detección, Llmin es el valor mínimo de la función de probabilidad SSL en la ventana de detección, Llavg es el valor medio de la función de probabilidad SSL en la ventana de detección, Llmid es el valor de la función de probabilidad SSL en el punto medio de la ventana de detección,
y Lrest
max es el valor máximo de la función de probabilidad SSL fuera de la ventana de detección.
4. El procedimiento de la reivindicación 1 en el cual el primer tipo de entrada o el segundo tipo de entrada incluye una entrada de vídeo (110) y la serie de características incluye una característica de vídeo (430) definida por un rectángulo.
5. El procedimiento de la reivindicación 1 en el cual el algoritmo de aprendizaje (745) comprende el algoritmo AdaBoost.
6. Un medio legible por ordenador que almacena instrucciones ejecutables por ordenador que, cuando se aplican por un procesador, hacen que el procesador lleve a cabo el procedimiento de una de las reivindicaciones 1 a 5.
7. Un sistema para la detección de hablantes que comprende:
un dispositivo de entrada de vídeo (110) que produce datos de vídeo (140) ; un dispositivo de entrada de audio (120) que produce datos de audio (150) ; y un dispositivo detector (165) que incluye un detector (170) configurado para aceptar los datos de vídeo y los datos de audio y evaluar un clasificador para detectar una persona donde el clasificador ha sido creado:
identificando una serie de características (310) que comprende al menos una característica asociada a una primera entrada que corresponde a los datos de vídeo y al menos una característica asociada a una segunda entrada que corresponde a los datos de audio, en el cual una característica se calcula en un tiempo particular para cuantificar algún elemento del tipo correspondiente de entrada; y generando el clasificador usando un algoritmo de aprendizaje en el cual el clasificador está constituido por un subconjunto de características de la serie de características, siendo el subconjunto de características denominado como nodos del clasificador y siendo seleccionado por el algoritmo de aprendizaje, incluyendo asegurar también que los nodos que requieren menos cálculo están situados
en el clasificador de tal manera que son evaluados antes que los nodos que requieren más calculo ponderando los nodos mientras se genera el clasificador.
8. El sistema de la reivindicación 7 que comprende, además:
un dispositivo auxiliar (175) que proporciona almacenamiento para al menos una porción de los datos de vídeo
o al menos una porción de los datos de audio.
9. El sistema de la reivindicación 7 en el que los datos de audio incluyen datos de localización de fuente sonora y la serie de características incluye una característica de audio (420) asociada a una función seleccionada a partir de las siguientes funciones:
en las que Lgmax es el valor máximo de la función de probabilidad SSL en toda la función de probabilidad SSL, Lgmin es el valor mínimo de la función de probabilidad SSL en toda la función de probabilidad SSL, y para cada ventana de detección, Llmax es el valor máximo de la función de probabilidad SSL en la ventana de detección, Llmin es el valor mínimo de la función de probabilidad SSL en la ventana de detección, Llavg es el valor medio de la función de probabilidad SSL en la ventana de detección, Llmid es el valor de la función de probabilidad SSL en el punto medio de la ventana de
detección, y Lrest max es el valor máximo de la función de probabilidad SSL fuera de la ventana de detección.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]