Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.

Procedimiento para el control en tiempo real basado es gestos de un modelo de cuerpo virtual en un entorno de video comunicación,

con las etapas:

a) registro de una secuencia de vídeo de una persona en una instalación terminal (10);

b) segmentación global de la imagen actual de la secuencia de vídeo en varias regiones;

c) cálculo de regiones preferidas de la imagen actual de la secuencia de vídeo;

d) transmisión de datos de al menos una parte de cada región calculada desde la instalación terminal (10) hacia una instalación de procesamiento (20) a través de una red de comunicación (40);

e) generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región calculada;

f) transmisión de los parámetros de movimiento desde la instalación de procesamiento (20) a través de la red de comunicación o de otra red de comunicación hacia una instalación de destino (30);

g) activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento en la instalación de destino (30).

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08003745.

Solicitante: DEUTSCHE TELEKOM AG.

Nacionalidad solicitante: Alemania.

Dirección: FRIEDRICH-EBERT-ALLEE 140 53113 BONN ALEMANIA.

Inventor/es: ENGLERT,ROMAN, KASPAR,BERNHARD, FELDES,STEFAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • H04M1/64 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 1/00 Equipos de subestaciones, p. ej. para utilización por el abonado (servicios de abonado o instalaciones proporcionadas en las centrales H04M 3/00; aparatos con fichas de pago previo H04M 17/00; disposiciones de suministro de corriente H04M 19/08). › Disposiciones automáticas para responder a las llamadas; Disposiciones automáticas para registrar mensajes para abonados ausentes; disposiciones para grabar conversaciones (sistemas de dictado centralizado H04M 11/10).
  • H04N7/14 H04 […] › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas de doble vía (H04N 7/173 tiene prioridad).
  • H04N7/15 H04N 7/00 […] › Sistemas para conferencias.

PDF original: ES-2494926_T3.pdf

 

Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.
Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar.

Fragmento de la descripción:

Procedimiento y sistema de video comunicación para el control en tiempo real basado en gestos de un avatar La invención se refiere a un procedimiento así como a un sistema de video comunicación basado en un avatar para el control en tiempo real basado en gestos de un modelo de cuerpo virtual. Por lo demás, la invención se refiere a una instalación terminal móvil para el empleo de un sistema de video comunicación basado en avatar de este tipo.

Se conoce el control en tiempo real basado en gestos de avatares sobre la base de ordenadores de altas prestaciones. En un avatar se trata de una figura representativa virtual, que representa una persona natural. A través de la representación avatar se pueden desplazar personas naturales implicadas a otros papeles, Los movimientos de la cabeza, de las mano y de los dedos de una persona natural son convertidor en este caso en tiempo real en movimientos de un modelo Avatar 3D. Con esta finalidad se representan secuencias de vídeo de la persona natural a través de una cámara. Por medio de análisis automático se extraen movimientos a partir de la secuencia de vídeo. Los movimientos son transmitidos codificados y se utilizan en el lado de recepción para la activación del avatar móvil. El control en tiempo real basado en gestos de avatares se conoce, por ejemplo, a partir del documento DE 10 2004 059 051 A1.

La tecnología de avatar encuentra cada vez más aplicación también en sistemas de vídeo de telecomunicaciones. Una arquitectura ejemplar para la video comunicación basada en avatar se representa en la figura 1. La figura 1 muestra un usuario A con un terminal 10â? así como un usuario B con un terminal 30, que se pueden conectar entre sí, por ejemplo, a través de una red-IP 40, que puede ser Internet, Solamente con objeto de una representación sencilla, se muestra el terminal 10 como instalación de emisión, en cambio el terminal 30 del usuario B solamente se representa como aparato de recepción. Evidentemente, en la práctica, tanto el terminal 10 presenta una instalación de recepción como también el terminal 30 presenta una instalación de emisión correspondiente.

La instalación de emisión del terminal 10 está constituida por una cámara de vídeo 11 convencional, un seguidor de vídeo 15, un micrófono 12 y un codificador de audio 13. Las secuencias de vídeo suministradas por la cámara 11, analizadas con el seguidor de vídeo 15 y con un seguidor de móvil o un seguidor de movimiento, son convertidas en parámetros de movimiento en parámetros de textura. Unos procedimientos de estimación especiales, que son realizados por el seguidor de vídeo 15, encuentran la persona a registrar, siguen la posición de la persona sobre el tiempo, identifican partes del cuerpo como cabeza, cuello, hombros, ojos y manos y similares y siguen también su movimiento sobre el tiempo. La información obtenida es convertida entonces en una forma de parámetros correspondiente. Tales procedimientos de estimación han sido descritos, por ejemplo, por Eisert, Peter en la ponencia "MPEG 4 Facial Animation in Video Analysis and Synthesis", en International Journal of Imaging Systems and Technology Springer, vol. 13, no. 5, páginas 245-256, Marzo 2003 y por Schreer y col. en la ponencia "VisionBased-Skin-Colour Segmentation of Moving Hands for Real-Time Applications", en Proc. of 1st European Conf. On Visual Media Production (CVMP 2004) , Londres, Reino Unido, Marzo de 2004.

En los datos de movimiento se puede tratar de parámetros de animación de la cara y del cuerpo según la Norma-MPEG-4, que se conocen también en inglés como Body Animation Parameters (BAP) y Facial Animation Parameters (FAP) . Los parámetros necesarios para la animación son transmitidos a través de la red de comunicaciones 40 hacia el terminal 30. Adicionalmente también la señal de voz registrada a través del micrófono del usuario A se puede transmitir al terminal 30. Los parámetros de voz pueden contener también informaciones, que describen los llamados visemas. Las informaciones de los visemas permiten la animación de la cara, en particular de la parte de la boca, de manera que se puede generar en el terminal 30 un movimiento de los labios adaptado a la señal de la voz. Las señales de vídeo y las señales de voz recibidas son reproducidas a través de un reproductor de avatar 32 conocido en sí en una pantalla 32, mientras que las señales de voz transmitidas pueden ser reproducidas acústicamente a través de una instalación de altavoz 33 correspondiente. El usuario B ve de esta manera en lugar del usuario real A su representante virtual.

Un inconveniente del sistema de video comunicación basado en avatar conocido se puede ver en que en los terminales deben estar implementados ordenadores de altas prestaciones y, por lo tanto, caros, que asumen los procesos costosos de cálculo y costosos de recursos, que son necesarios para el análisis de imágenes, es decir, segmentación, detección de objetos y seguimiento de objetos.

La invención tiene el cometido de proporcionar un procedimiento así como un sistema de video comunicación basado en avatar de un modelo de cuerpo virtual, que posibilita el empleo de terminales menos complejos y, por lo tanto, económicos.

La publicación US 2004/114731 A1 publica un sistema telefónico, en el que modelos de un usuario, de los que se sintetiza una secuencia de vídeo, son transmitidos a un receptor.

La publicación WO 99/57900 A publica un sistema de video teléfono con un sistema de reproducción de imágenes definido por el usuario, que recibe informaciones sensoriales desde los usuarios.

La publicación WO 03/058518 A publica un procedimiento para un sistema de interfaces de usuario de avatar, en el que un Avatar-Hosting-Server y un Session-Server están conectados a través de una red de comunicaciones.

La idea básica de la invención se puede ver en preparar una arquitectura distribuida para un sistema de video comunicación basado en avatar, en el que se lleva a cabo un análisis previo aproximado de la secuencia de vídeo registrada de una persona natural en un terminal, mientras que el análisis fino para la generación de los parámetros de movimiento y de los parámetros de textura, que son necesarios para la activación y animación de una modelo de cuerpo virtual, se realiza en una instalación de procesamiento central. En el terminal, la imagen actual de la secuencia de vídeo se divide en regiones globales. Solamente las regiones características de la imagen actual, las llamadas Regiones de Interés (RoI) , que son necesarias para la generación de datos de control, son seleccionadas a continuación y son transmitidas a la instalación de procesamiento central. El resto de la imagen se desecha. Las regiones características necesarias para el control de un avatar de una imagen contienen la cabeza y las dos manos. La cabeza y las manos se pueden identificar, por ejemplo, a través del reconocimiento del color de la piel. Segmentación global significa en este caso que no se describen los contornos de la mano o de la cabeza exactamente y entonces se transmiten los datos correspondientes. En su lugar, por ejemplo, se transmite un bloque rectangular, que contiene las manos. El análisis fino, que contiene una segmentación fina de las regiones transmitidas, se realiza en la instalación de procesamiento evacuada. Allí se realizan, además de la segmentación más fina, toda las otras etapas de análisis necesarias, como por ejemplo la descomposición de una zona transmitida en objetos parciales, por ejemplo los dedos de la mano, la determinación de la orientación del objeto (por ejemplo, la alineación de la cabeza en dirección horizontal y en dirección vertical) y del estado de objetos parciales (por ejemplo, el grado de apertura de los ojos) , de la orientación de objetos parciales (por ejemplo, la dirección de la mirada) , del movimiento de objetos parciales (por ejemplo la boca o las cejas) , así como la identificación de gestos de dirección (por ejemplo, la alineación de los dedos) .

En este lugar hay que indicar todavía que o bien se transmite el contenido completo de las regiones halladas en la segmentación global, es decir, los puntos de la imagen de la región hacia la instalación de procesamiento o solamente se transmiten conjuntos de parámetros sobre el contenido de la imagen de la región respectiva. En el último caso, se puede reducir adicionalmente la velocidad de transmisión de los datos.

El problema técnico mencionado anteriormente se soluciona, por una parte, por medio de un procedimiento para el control en tiempo real basado en gestos de un modelo de cuerpo virtual en un entorno de video comunicación. A continuación se registra una secuencia de vídeo de una persona natural en una instalación... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para el control en tiempo real basado es gestos de un modelo de cuerpo virtual en un entorno de video comunicación, con las etapas:

a) registro de una secuencia de vídeo de una persona en una instalación terminal (10) ;

b) segmentación global de la imagen actual de la secuencia de vídeo en varias regiones;

c) cálculo de regiones preferidas de la imagen actual de la secuencia de vídeo;

d) transmisión de datos de al menos una parte de cada región calculada desde la instalación terminal (10) hacia una instalación de procesamiento (20) a través de una red de comunicación (40) ;

e) generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región calculada;

f) transmisión de los parámetros de movimiento desde la instalación de procesamiento (20) a través de la red de comunicación o de otra red de comunicación hacia una instalación de destino (30) ;

g) activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento en la instalación de destino (30) .

2. Procedimiento de acuerdo con la reivindicación 1, caracterizado por que la etapa c) comprende la determinación de la región de la cabeza y de las regiones de la mano y/o de los brazos y la etapa e) comprende la generación de parámetros de textura.

3. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que antes de la realización de la tapa e) , se descompone el contenido de la imagen, contenido en las regiones preferidas transmitidas hacia la instalación de procesamiento, en objetos parciales y se determina la orientación de los objetos parciales y/o el estado de los objetos parciales.

4. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por las etapas: registro de señales acústicas; generación de parámetros de voz; transmisión de los parámetros de voz a través de la instalación de procesamiento (20) hacia la instalación de destino (30) o transmisión de los parámetros de voz sin intercalación de la instalación de procesamiento hacia la instalación de destino

5. Sistema de video comunicación basado en avatar para la activación en tiempo real basada en gestos de un modelo de cuerpo virtual, que comprende al menos una red de comunicación (40) , varias instalaciones terminales (10, 30) , que pueden ser accionadas como instalación de emisión y/o instalación de recepción y que se pueden conectar entre sí a través de la red de comunicación (40) , y un servidor de procesamiento (20) , que se puede conectar con la red de comunicación (40) , en el que al menos una de las instalaciones terminales (10) presenta una instalación de emisión con las siguientes características: una instalación (11) para el registro de una secuencia de vídeo de una persona natural; una instalación (14) para la segmentación global de la imagen actual de la secuencia de vídeo en varias regiones y para la determinación de regiones preferidas de la imagen actual de la secuencia de vídeo; una instalación para la transmisión de datos al menos de una parte de cada región determinada hacia el servidor de procesamiento (20) al menos a través de la red de comunicación (40) , y en el que el servidor de procesamiento (20) presenta: una instalación (21) para la generación de parámetros de movimiento y, en concreto, como reacción a los datos de al menos una parte de cada región recibida; una instalación para la transmisión de los parámetros de movimiento a través de la red de comunicación o a través de otra red de comunicación hacia una instalación de destino (30) , que presenta una instalación (31) para la activación de un modelo de cuerpo virtual utilizando los parámetros de movimiento.

6. Sistema de video comunicación basado en avatar de acuerdo con la reivindicación 5, en el que la instalación (14) para la segmentación global está configurada para la determinación de la región de la cabeza y de las regiones de las manos y/o de los brazos de la persona registrada y la instalación de generación está configurada para la generación de parámetros de textura.

7. Sistema de video comunicación basado en avatar de acuerdo con la reivindicación 5 ó 6, en el que el servidor de procesamiento (20) presenta una instalación que está configurada para la descomposición del contenido de la imagen contenido en las regiones determinadas en objetos parciales y para la determinación de la orientación de los objetos parciales y/o del estado de los objetos parciales.

8. Sistema de video comunicación basado en avatar de acuerdo con una de las reivindicaciones 5 a 7, en el que la al menos una instalación de emisión es un micrófono (12) y un codificador de audio (13) para la generación de parámetros de voz y la instalación de destino (30) presenta una instalación de reproducción audiovisual (32, 33) , de 7

manera que la instalación de activación (31) de la instalación de destino (30) es un reproductor de avatar.

9. Sistema de video comunicación basado en avatar de acuerdo con una de las reivindicaciones 5 a 8, en el que la instalación terminal que puede ser activada como instalación de emisión comprende un terminal móvil y la red de comunicación (40) comprende una red de telefonía móvil o una red local sin hilos.

10. Instalación terminal móvil (10) para el empleo en un sistema de video comunicación basada en avatar, que comprende una instalación (11) para el registro de una secuencia de vídeo de una persona natural; una instalación (14) para la segmentación global de la imagen actual de la secuencia de vídeo en varias regiones y para la determinación de regiones predeterminadas de la imagen actual de la secuencia de vídeo; una instalación para la transmisión de datos de al menos una parte de cada región determinada hacia un servidor de procesamiento (20) a través de al menos una red de comunicación (40) .


 

Patentes similares o relacionadas:

Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple, del 20 de Abril de 2020, de LÓPEZ FERNÁNDEZ, Luis: Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple. Un sistema y […]

Método y sistema para mejorar y ampliar la funcionalidad de una videollamada, del 12 de Febrero de 2020, de DEUTSCHE TELEKOM AG: Método para mejorar la funcionalidad de una videollamada utilizando una red de telecomunicaciones, en donde la videollamada representa un […]

Imagen de 'Sistema de conferencias para la formación de intérpretes'Sistema de conferencias para la formación de intérpretes, del 29 de Enero de 2020, de Televic Education NV: Un sistema de conferencias adecuado para la formación de intérpretes, comprendiendo el sistema de conferencias: - una unidad central , - una unidad de […]

Sistema de conferencia, método para operar la unidad de delegado y programa informático, del 14 de Noviembre de 2019, de ROBERT BOSCH GMBH: Sistema de conferencia que comprende al menos una unidad de delegado , comprendiendo la unidad de delegado un micrófono , un medio de señalización (6, […]

INTERFAZ DE SERVICIO DEL USUARIO Y PLATAFORMA DE GESTIÓN PARA VIDEOCONFERENCIA Y ACTIVIDADES DE COLABORACIÓN, del 23 de Mayo de 2019, de LATIN TELECOMUNICACIONES S.A: Un método, sistema y plataforma son presentados para permitir una interacción más completa y profunda entre usuarios en una sala de reunión y multiples fuente […]

Cámara para comunicar una transmisión continua multimedia a un Cliente Remoto, del 8 de Mayo de 2019, de Librestream Technologies Inc: Una Cámara Móvil de Transmisión Continua , operable por un operador para comunicarse con al menos un Cliente Remoto que comprende: una carcasa […]

Procedimiento, dispositivo y sistema para establecer concatenación entre controladores multipunto, del 25 de Abril de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento para establecer una cascada de servidores de control multipunto , que comprende: predefinir y almacenar información de conferencia en una […]

COMUNICADOR PARA ENFERMERIA, del 25 de Abril de 2017, de BUSCATEL COMUNICACIONES S.L: 1. Comunicador para enfermería, actividades hospitalarias o residenciales similares que, comprendiendo una pluralidad de terminales de habitación y […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .