Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.

Procedimiento para el control en tiempo real basado es gestos de un modelo de cuerpo virtual en un entorno de video comunicación, con las etapas:

a) registro de una secuencia de vídeo de una persona en una instalación terminal

(10);

b) segmentación global de la imagen actual de la secuencia de vídeo en varias regiones;

c) cálculo de regiones preferidas de la imagen actual de la secuencia de vídeo;

d) transmisión de datos de al menos una parte de cada región calculada desde la instalación terminal (10) hacia una instalación de procesamiento (20) a través de una red de comunicación (40);

e) generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región calculada;

f) transmisión de los parámetros de movimiento desde la instalación de procesamiento (20) a través de la red de comunicación o de otra red de comunicación hacia una instalación de destino (30);

g) activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento en la instalación de destino (30).

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08003745.

Solicitante: DEUTSCHE TELEKOM AG.

Nacionalidad solicitante: Alemania.

Dirección: FRIEDRICH-EBERT-ALLEE 140 53113 BONN ALEMANIA.

Inventor/es: ENGLERT,ROMAN, KASPAR,BERNHARD, FELDES,STEFAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Sistemas de televisión (detalles H04N 3/00, H04N... > H04N7/15 (Sistemas para conferencias (disposiciones para conferencias por comunicación telefónica H04M 3/56))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Sistemas de televisión (detalles H04N 3/00, H04N... > H04N7/14 (Sistemas de doble vía (H04N 7/173 tiene prioridad))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > COMUNICACIONES TELEFONICAS (circuitos para el control... > Equipos de subestaciones, p. ej. para utilización... > H04M1/64 (Disposiciones automáticas para responder a las llamadas; Disposiciones automáticas para registrar mensajes para abonados ausentes; disposiciones para grabar conversaciones (sistemas de dictado centralizado H04M 11/10))

PDF original: ES-2494926_T3.pdf

 

google+ twitter facebookPin it
Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.
Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.

Fragmento de la descripción:

Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar La invención se refiere a un procedimiento así como a un sistema de video comunicación basado en un avatar para el control en tiempo real basado en gestos de un modelo de cuerpo virtual. Por lo demás, la invención se refiere a una instalación terminal móvil para el empleo de un sistema de video comunicación basado en avatar de este tipo.

Se conoce el control en tiempo real basado en gestos de avatares sobre la base de ordenadores de altas prestaciones. En un avatar se trata de una figura representativa virtual, que representa una persona natural. A través de la representación avatar se pueden desplazar personas naturales implicadas a otros papeles, Los movimientos de la cabeza, de las mano y de los dedos de una persona natural son convertidor en este caso en tiempo real en movimientos de un modelo Avatar 3D. Con esta finalidad se representan secuencias de vídeo de la persona natural a través de una cámara. Por medio de análisis automático se extraen movimientos a partir de la secuencia de vídeo. Los movimientos son transmitidos codificados y se utilizan en el lado de recepción para la activación del avatar móvil. El control en tiempo real basado en gestos de avatares se conoce, por ejemplo, a partir del documento DE 10 2004 059 051 A1.

La tecnología de avatar encuentra cada vez más aplicación también en sistemas de vídeo de telecomunicaciones. Una arquitectura ejemplar para la video comunicación basada en avatar se representa en la figura 1. La figura 1 muestra un usuario A con un terminal 10â? así como un usuario B con un terminal 30, que se pueden conectar entre sí, por ejemplo, a través de una red-IP 40, que puede ser Internet, Solamente con objeto de una representación sencilla, se muestra el terminal 10 como instalación de emisión, en cambio el terminal 30 del usuario B solamente se representa como aparato de recepción. Evidentemente, en la práctica, tanto el terminal 10 presenta una instalación de recepción como también el terminal 30 presenta una instalación de emisión correspondiente.

La instalación de emisión del terminal 10 está constituida por una cámara de vídeo 11 convencional, un seguidor de vídeo 15, un micrófono 12 y un codificador de audio 13. Las secuencias de vídeo suministradas por la cámara 11, analizadas con el seguidor de vídeo 15 y con un seguidor de móvil o un seguidor de movimiento, son convertidas en parámetros de movimiento en parámetros de textura. Unos procedimientos de estimación especiales, que son realizados por el seguidor de vídeo 15, encuentran la persona a registrar, siguen la posición de la persona sobre el tiempo, identifican partes del cuerpo como cabeza, cuello, hombros, ojos y manos y similares y siguen también su movimiento sobre el tiempo. La información obtenida es convertida entonces en una forma de parámetros correspondiente. Tales procedimientos de estimación han sido descritos, por ejemplo, por Eisert, Peter en la ponencia "MPEG 4 Facial Animation in Video Analysis and Synthesis", en International Journal of Imaging Systems and Technology Springer, vol. 13, no. 5, páginas 245-256, Marzo 2003 y por Schreer y col. en la ponencia "VisionBased-Skin-Colour Segmentation of Moving Hands for Real-Time Applications", en Proc. of 1st European Conf. On Visual Media Production (CVMP 2004) , Londres, Reino Unido, Marzo de 2004.

En los datos de movimiento se puede tratar de parámetros de animación de la cara y del cuerpo según la Norma-MPEG-4, que se conocen también en inglés como Body Animation Parameters (BAP) y Facial Animation Parameters (FAP) . Los parámetros necesarios para la animación son transmitidos a través de la red de comunicaciones 40 hacia el terminal 30. Adicionalmente también la señal de voz registrada a través del micrófono del usuario A se puede transmitir al terminal 30. Los parámetros de voz pueden contener también informaciones, que describen los llamados visemas. Las informaciones de los visemas permiten la animación de la cara, en particular de la parte de la boca, de manera que se puede generar en el terminal 30 un movimiento de los labios adaptado a la señal de la voz. Las señales de vídeo y las señales de voz recibidas son reproducidas a través de un reproductor de avatar 32 conocido en sí en una pantalla 32, mientras que las señales de voz transmitidas pueden ser reproducidas acústicamente a través de una instalación de altavoz 33 correspondiente. El usuario B ve de esta manera en lugar del usuario real A su representante virtual.

Un inconveniente del sistema de video comunicación basado en avatar conocido se puede ver en que en los terminales deben estar implementados ordenadores de altas prestaciones y, por lo tanto, caros, que asumen los procesos costosos de cálculo y costosos de recursos, que son necesarios para el análisis de imágenes, es decir, segmentación, detección de objetos y seguimiento de objetos.

La invención tiene el cometido de proporcionar un procedimiento así como un sistema de video comunicación basado en avatar de un modelo de cuerpo virtual, que posibilita el empleo de terminales menos complejos y, por lo tanto, económicos.

La publicación US 2004/114731 A1 publica un sistema telefónico, en el que modelos de un usuario, de los que se sintetiza una secuencia de vídeo, son transmitidos a un receptor.

La publicación WO 99/57900 A publica un sistema de video teléfono con un sistema de reproducción de imágenes definido por el usuario, que recibe informaciones sensoriales desde los usuarios.

La publicación WO 03/058518 A publica un procedimiento para un sistema de interfaces de usuario de avatar, en el que un Avatar-Hosting-Server y un Session-Server están conectados a través de una red de comunicaciones.

La idea básica de la invención se puede ver en preparar una arquitectura distribuida para un sistema de video comunicación basado en avatar, en el que se lleva a cabo un análisis previo aproximado de la secuencia de vídeo registrada de una persona natural en un terminal, mientras que el análisis fino para la generación de los parámetros de movimiento y de los parámetros de textura, que son necesarios para la activación y animación de una modelo de cuerpo virtual, se realiza en una instalación de procesamiento central. En el terminal, la imagen actual de la secuencia de vídeo se divide en regiones globales. Solamente las regiones características de la imagen actual, las llamadas Regiones de Interés (RoI) , que son necesarias para la generación de datos de control, son seleccionadas a continuación y son transmitidas a la instalación de procesamiento central. El resto de la imagen se desecha. Las regiones características necesarias para el control de un avatar de una imagen contienen la cabeza y las dos manos. La cabeza y las manos se pueden identificar, por ejemplo, a través del reconocimiento del color de la piel. Segmentación global significa en este caso que no se describen los contornos de la mano o de la cabeza exactamente y entonces se transmiten los datos correspondientes. En su lugar, por ejemplo, se transmite un bloque rectangular, que contiene las manos. El análisis fino, que contiene una segmentación fina de las regiones transmitidas, se realiza en la instalación de procesamiento evacuada. Allí se realizan, además de la segmentación más fina, toda las otras etapas de análisis necesarias, como por ejemplo la descomposición de una zona transmitida en objetos parciales, por ejemplo los dedos de la mano, la determinación de la orientación del objeto (por ejemplo, la alineación de la cabeza en dirección horizontal y en dirección vertical) y del estado de objetos parciales (por ejemplo, el grado de apertura de los ojos) , de la orientación... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para el control en tiempo real basado es gestos de un modelo de cuerpo virtual en un entorno de video comunicación, con las etapas:

a) registro de una secuencia de vídeo de una persona en una instalación terminal (10) ;

b) segmentación global de la imagen actual de la secuencia de vídeo en varias regiones;

c) cálculo de regiones preferidas de la imagen actual de la secuencia de vídeo;

d) transmisión de datos de al menos una parte de cada región calculada desde la instalación terminal (10) hacia una instalación de procesamiento (20) a través de una red de comunicación (40) ;

e) generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región calculada;

f) transmisión de los parámetros de movimiento desde la instalación de procesamiento (20) a través de la red de comunicación o de otra red de comunicación hacia una instalación de destino (30) ;

g) activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento en la instalación de destino (30) .

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado por que la etapa c) comprende la determinación de la región de la cabeza y de las regiones de la mano y/o de los brazos y la etapa e) comprende la generación de parámetros de textura.

3. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que antes de la realización de la tapa e) , se descompone el contenido de la imagen, contenido en las regiones preferidas transmitidas hacia la instalación de procesamiento, en objetos parciales y se determina la orientación de los objetos parciales y/o el estado de los objetos parciales.

4. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por las etapas: registro de señales acústicas; generación de parámetros de voz; transmisión de los parámetros de voz a través de la instalación de procesamiento (20) hacia la instalación de destino (30) o transmisión de los parámetros de voz sin intercalación de la instalación de procesamiento hacia la instalación de destino

5. Sistema de video comunicación basado en avatar para la activación en tiempo real basada en gestos de un modelo de cuerpo virtual, que comprende al menos una red de comunicación (40) , varias instalaciones terminales (10, 30) , que pueden ser accionadas como instalación de emisión y/o instalación de recepción y que se pueden conectar entre sí a través de la red de comunicación (40) , y un servidor de procesamiento (20) , que se puede conectar con la red de comunicación (40) , en el que al menos una de las instalaciones terminales (10) presenta una instalación de emisión con las siguientes características: una instalación (11) para el registro de una secuencia de vídeo de una persona natural; una instalación (14) para la segmentación global de la imagen actual de la secuencia de vídeo en varias regiones y para la determinación de regiones preferidas de la imagen actual de la secuencia de vídeo; una instalación para la transmisión de datos al menos de una parte de cada región determinada hacia el servidor de procesamiento (20) al menos a través de la red de comunicación (40) , y en el que el servidor de procesamiento (20) presenta: una instalación (21) para la generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región recibida; una instalación para la transmisión de los parámetros de movimiento a través de la red de comunicación o a través de otra red de comunicación hacia una instalación de destino (30) , que presenta una instalación (31) para la activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento.

6. Sistema de video comunicación basado en avatar de acuerdo con la reivindicación 5, en el que la instalación (14) para la segmentación global está configurada para la determinación de la región de la cabeza y de las regiones de las manos y/o de los brazos de la persona registrada y la instalación de generación está configurada para la generación de parámetros de textura.

7. Sistema de video comunicación basado en avatar de acuerdo con la reivindicación 5 ó 6, en el que el servidor de procesamiento (20) presenta una instalación que está configurada para la descomposición del contenido de la imagen contenido en las regiones determinadas en objetos parciales y para la determinación de la orientación de los objetos parciales y/o del estado de los objetos parciales.

8. Sistema de video comunicación basado en avatar de acuerdo con una de las reivindicaciones 5 a 7, en el que la al menos una instalación de emisión es un micrófono (12) y un codificador de audio (13) para la generación de parámetros de voz y la instalación de destino (30) presenta una instalación de reproducción audiovisual (32, 33) , de 7

manera que la instalación de activación (31) de la instalación de destino (30) es un reproductor de avatar.

9. Sistema de video comunicación basado en avatar de acuerdo con una de las reivindicaciones 5 a 8, en el que la instalación terminal que puede ser activada como instalación de emisión comprende un terminal móvil y la red de comunicación (40) comprende una red de telefonía móvil o una red local sin hilos.

10. Instalación terminal móvil (10) para el empleo en un sistema de video comunicación basada en avatar, que comprende una instalación (11) para el registro de una secuencia de vídeo de una persona natural; una instalación (14) para la segmentación global de la imagen actual de la secuencia de vídeo en varias regiones y para la determinación de regiones predeterminadas de la imagen actual de la secuencia de vídeo; una instalación para la transmisión de datos de al menos una parte de cada región determinada hacia un servidor de procesamiento (20) a través de al menos una red de comunicación (40) .