MÉTODO Y SISTEMA PARA SEGMENTACIÓN DE PRIMER PLANO DE IMÁGENES EN TIEMPO REAL.

Método y sistema para segmentación de primer plano de imágenes en tiempo real.



La invención se refiere, en general, en un primer aspecto, a un método para segmentación de primer plano de imágenes en tiempo real, basándose en la aplicación de un conjunto de funciones de coste y, más en particular, a un método que comprende aprovechar una estructura espacial local y global de una o más imágenes. Un segundo aspecto de la invención se refiere a un sistema adaptado para implementar el método del primer aspecto, preferiblemente mediante procesamiento paralelo.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201001263.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: CIVIT,JAUME, DIVORRA,ÓSCAR.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06T7/00 FISICA.G06 CALCULO; CONTEO.G06T TRATAMIENTO O GENERACIÓN DE DATOS DE IMAGEN, EN GENERAL.Análisis de imagen.
MÉTODO Y SISTEMA PARA SEGMENTACIÓN DE PRIMER PLANO DE IMÁGENES EN TIEMPO REAL.

Fragmento de la descripción:

MÉTODO Y SISTEMA PARA SEGMENTACIÓN DE PRIMER PLANO DE IMÁGENES EN

TIEMPO REAL

Campo de la técnica La presente invención se refiere, en general, en un primer aspecto, a un método para segmentación de primer plano de imágenes en tiempo real, basándose en la aplicación de un conjunto de funciones de coste y, más en particular, a un método que comprende aprovechar una estructura espacial local y global de una o más imágenes.

Un segundo aspecto de la invención se refiere a un sistema adaptado para implementar el método del primer aspecto, preferiblemente mediante procesamiento paralelo.

Estado de la técnica anterior Hay varios sistemas o marcos que requieren segmentación de primer plano de imágenes en tiempo real robusta y buena, siendo

las videoconferencias de inmersión y la captura de objetos en 3D digitales dos marcos de casos de uso principales, que se describirán a continuación.

videoconferencias de inmersión:

En los últimos años se ha realizado un trabajo importante para llevar las comunicaciones y los medios visuales a un nivel superior. Una vez alcanzada una cierta madurez por lo que respecta a las cuestiones de definición y calidad visual en 20, 3D parece ser la siguiente fase por lo que respecta a la experiencia visual y de realidad. Después de que varias tecnologías, tales como Internet de banda ancha, compresión de vídeo de alta calidad HD con poco retardo, hayan madurado lo suficiente, diversos productos han logrado irrumpir en el mercado dando un paso firme hacia delante hacia soluciones de telepresencia prácticas. Entre ellas se encuentran los sistemas de videoconferencia de gran formato de proveedores principales tales como Cisco Telepresence, HP Halo, Polycom, etc. Sin embargo, los sistemas actuales todavía sufren imperfecciones fundamentales que se sabe que van en detrimento del proceso de comunicación. Al comunicarnos, el contacto visual con los ojos y las miradas son elementos esenciales de la comunicación visual, y son importantes para indicar atención, y controlar el flujo de la conversación [1, 2]. No obstante, los sistemas de telepresencia actuales hacen difícil que un usuario, principalmente en conversaciones entre muchos participantes, realmente sienta que alguien le está mirando (en lugar de a algún otro) o no, o a quién/dónde va dirigido realmente un gesto dado. En resumen, el lenguaj e corporal se transmite todavía de manera pobre mediante los sistemas de comunicación de hoy en día. Se espera que las comunicaciones entre muchos participantes se beneficien

enormemente de la madura tecnología 3D autoestereoscópico; permitiendo a la gente participar en encuentros remotos más naturales, con mejor contacto visual con los ojos y mejor sensación de espacialidad. De hecho, la espacialidad 3D, el

volumen de los objetos y las personas y la naturaleza con múltiples perspectivas, y la profundidad, son indicaciones muy importantes que faltan en los sistemas actuales. La telepresencia es por tanto un campo que espera soluciones maduras para vídeo en 3D en tiempo real con un punto de vista libre (o múltiples perspectivas) (por ejemplo basado en diversos conjuntos de datos Vista+Profundidad) .

Dado el estado de la técnica actual, la generación de profundidad en 3D de alta calidad y precisa en tiempo real sigue siendo una tarea difícil. A menudo es necesario algún tipo de segmentación de primer plano en la adquisición con el fin de generar mapas de profundidad en 3D con una resolución suficientemente alta y límites de objeto precisos. Para ello, es necesaria una segmentación de primer plano sin parpadeo, con precisión en los bordes, flexible a los cambios de ruido y sombras de primer plano, así como capaz de funcionar en tiempo real en arquitecturas de correcto rendimiento tales como GPGPU.

Captura de objetos en 3D digitales:

Otro marco de casos de uso es el relativo a la generación de volúmenes digitales en 3D de obj etos o personas. Esto se encuentra a menudo en aplicaciones para la captura de avatares de personas en 3D, o captura en 3D con múltiples vistas usando técnicas conocidas tal como la envolvente visual (Visual Hull) . En este marco de aplicación, es necesario recuperar múltiples siluetas (varias desde diferentes puntos de vista) de un sujeto u objeto. Estas siluetas se combinan entonces y se usan para representar el volumen en 3D. La segmentación de primer plano es necesaria como herramienta para generar estas siluetas.

Segundo plano de la técnica! Tecnología existente La segmentación de primer plano se ha estudiado desde una serie de puntos de vista (véanse las referencias [3, 4, 5, 6, 7] ) , cada uno con sus ventaj as y desventaj as en cuanto a la robustez y las posibilidades para adecuarse apropiadamente a una GPGPU. Los modelos de clasificación locales, basados en píxeles y basados en umbrales [3, 4] pueden aprovechar las capacidades paralelas de arquitecturas de GPU ya que pueden adecuarse muy fácilmente a éstas. Por otro lado, carecen de robustez frente al ruido y sombras. Enfoques más elaborados que incluyen un postprocesamiento morfológico [5], aunque son más robustos, puede que no les resulte fácil aprovechar las GPU debido a su naturaleza de procesamiento secuencial. Además, utilizan suposiciones fuertes con respecto a la estructura de los objetos, lo que se convierte en una mala segmentación cuando el objeto de primer plano incluye huecos cerrados. Enfoques más globales pueden adecuarse mejor tal como en el documento [6]. Sin embargo, el marco estadístico propuesto es demasiado simple y lleva a inestabilidades temporales del resultado segmentado. Finalmente, modelos de segmentación muy elaborados que incluyen seguimiento temporal [7] pueden ser demasiado complejos para adecuarse a sistemas en tiempo real.

• [3]: Se trata de un modelo de segundo plano no paramétrico y un enfoque de sustracción de segundo plano. El modelo pretende abordar situaciones en las que el segundo plano de la escena está emborronado y no es completamente estático sino que contiene pequeños movimientos tales como ramas de árboles y arbustos. El modelo estima la probabilidad de

observar valores de intensidad de píxel basándose en una muestra de valores de intensidad para cada píxel. El modelo pretende adaptarse rápidamente a cambios en la escena lo que pretende una detección sensible de objetivos en movimiento. El modelo puede usar información de color para suprimir la detección de sombras.

• [4J: Se trata de un algoritmo para detectar objetos en movimiento a partir de una escena de segundo plano estática que contiene sombreado y sombras usando imágenes en color. Se basa en la sustracción de segundo plano que pretende hacer frente a cambios de iluminación local, tales como sombras y zonas iluminadas, así como cambios de iluminación global. El algoritmo se basa en un modelo de color computacional propuesto que separa el brillo de la componente de cromaticidad.

• [5J: Este esquema realiza detección de sombras (zonas iluminadas) usando indicaciones tanto de color como de textura. La técnica incluye también el uso de etapas de reconstrucción morfológica con el fin de reducir el ruido y una incorrecta clasificación. Esto se hace suponiendo que las formas de los objetos están adecuadamente definidas por la mayor parte de sus contornos después de la detección inicial, y considerando que los objetos son contornos cerrados sin huecos en su interior.

• [6J: Propone un método global que clasifica cada píxel encontrando la mejor clase posible (primer plano, segundo plano, sombra) según un esquema de modelado píxel a píxel que se optimiza globalmente mediante propagación de creencias (Belief Propagation) La optimización global reduce la necesidad de un postprocesamiento adicional.

• [7J: Utiliza un modelo extremadamente complejo para el primer plano y el segundo plano con seguimiento de movimiento incluido, que ayuda a mejorar el rendimiento de

la clasificación de segmentos para el primer plano/segundo plano, al tiempo que aprovecha en cierta medida la estructura de los objetos de la imagen.

Problemas con las soluciones existentes En general, las soluciones actuales presentan problemas a la hora de integrar una segmentación de primer plano buena, robusta y flexible con eficacia computacional. O bien los métodos disponibles son demasiado simples, o bien son demasiado complejos, intentando tener en cuenta demasiados factores en la decisión de si cierta cantidad de datos de imagen es de primer plano o de segundo plano. Éste es el caso...

 


Reivindicaciones:

1. Método para segmentación de primer plano de imágenes en tiempo real, que comprende: -generar un conjunto de funciones de coste para modelos o clases de segmentación de primer plano, de segundo plano y de sombra, en el que los costes de segmentación de segundo plano y de sombra se basan en distorsión cromática y distorsión de brillo y color, y en el que dichas funciones de coste están relacionadas con medidas de probabilidad de que una región o un píxel dado pertenezca a cada una de dichas clases de segmentación; y

aplicar a los píxeles de una imagen dicho conjunto de funciones de coste generadas; estando dicho método caracterizado porque comprende, además de un modelado local de clases de primer plano, de segundo plano y de sombra llevado a cabo por dichas funciones de coste, aprovechar la estructura espacial de contenido de al menos dicha imagen de una manera local así como más global; esto se realiza de modo que la estructura espacial local se aprovecha estimando costes de píxeles como un promedio respecto a regiones de color homogéneo, y la estructura espacial global se aprovecha usando un algoritmo de optimización de regularización.

2. Método según la reivindicación 1, que comprende aplicar una operación logarítmica a las expresiones de probabilidad obtenidas según una formulación bayesiana, o funciones de coste, generadas con el fin de derivar costes aditivos.

3. Método según la reivindicación 1 ó 2, que comprende definir dicha distorsión de brillo como:

Cr . Crm + Cg . Cgm + Cb . C bm

BD (C)

Cr?n + Cg;n + Cb;n donde e= {Cr ) C) Cb } es un color de segmento o píxel con

g

componentes rgb, y Cm = {Crm , Cgm , Cbm } es la media entrenada correspondiente para el color de segmento o píxel en un modelo de segundo plano entrenado.

4. Método según la reivindicación 3, que comprende dicha distorsión cromática como: CD (C) = J ( (Cr -BD (C) . Crm ) 2 + (Cg -BD (C) . definir . . . Cgm ) 2 + (Cb - BD (C) . Cbm ) 2) . 5 5. Método según dicha función segundo plano la reivindicación de coste para la como: 4, que comprende definir clase de segmentación de CostBC (C) - -+ ..... 2 .... 2IIC Cm!! CD (C) 5 . (J2 . !{l + 5 . (Jc2 D . !{2rn 1n 10 15 6. donde Kl Y K2 son constantes de proporcionalidad aj ustable correspondientes a las distancias en uso en dicha función de coste de segundo plano, (J2 representa la varianza de ese m 2píxel O segmento en el segundo plano, y (JCDm es la correspondiente a la distorsión cromática. Método según la reivindicación 5, que comprende definir dicha función de coste para la clase de segmentación de primer plano como: CostFC (C) 16.64· K3 5 20 7. donde K3 es una constante de proporcionalidad ajustable correspondiente a las distancias en uso en dicha función de coste de primer plano. Método según la reivindicación 6, que comprende definir dicha función de coste para la clase de sombra como: - > CostSH (C) = -2CD (C) 2 K 5· O"CDm' 2 + 5· K4 -2 BD (C) ... loo' (1 _ 1::> - -;::::===1~) V2 .7r • O"~ • K 1 25 donde K4 es una correspondiente a coste de sombra. constante de las distancias proporcionalidad en uso en dicha ajustable función de 8. Método según cualquiera de las reivindicaciones anteriores,

en el que dicha estimación de costes de píxeles se lleva a cabo mediante las siguientes acciones secuenciales: i) sobresegmentar la imagen usando un criterio de color homogéneo basado en un enfoque de k-medias; ii) forzar una correlación temporal sobre centroides de color de k-medias, con el fin de garantizar la estabilidad y consistencia temporal de segmentos homogéneos, iii) calcular dichas funciones de coste por segmento de color; y dicha estructura espacial global se aprovecha: i v) usando un algoritmo de optimización para encontrar la mejor solución global posible optimizando costes.

9. Método según la reivindicación 8, en el que dicho algoritmo de optimización es un algoritmo de algoritmo de propagación de creencias jerárquica.

10. Método según la reivindicación 8 ó 9, que comprende, después de que dicha etapa i v) se haya llevado a cabo, tomar la decisión final píxel a píxel o región a región sobre costes promediados finales calculados sobre regiones de color uniforme para refinar adicionalmente los límites de primer plano.

11. Método según la reivindicación 8, 9 ó 10, en el que dicho enfoque de k-medias es una segmentación basada en agrupamiento de k-medias modificada para adaptarse a una arquitectura de unidad de procesamiento gráfico, o GPU.

12. Método según la reivindicación 11, en el que modificar dicha segmentación basada en agrupamiento de k-medias comprende restringir el conjunto de asignación inicial

( , , (1) " di) )

n ~ a la arquitectura paralela de la GPU por medio de un número de conj untos que también dependen del tamaño de la imagen, mediante la división de la entrada en una rejilla de n x n cuadrados, donde n se refiere al tamaño de bloque usado en la ej ecución de núcleos de proceso dentro (MxN)

de la GPU, logrando agrupamientos, donde N y M son nlas dimensiones de imagen, y Pi es la media de puntos en el 13.

14.

15.

16.

conjunto de muestras y calcular la etapa de actualización inicial de dicha segmentación basada en agrupamiento de k-medias a partir de los píxeles en dichas regiones cuadradas, de manera que un algoritmo que implementa dicha segmentación basada en agrupamiento de kmedias modificada converge en un número inferior de iteraciones. Método según la reivindicación 12, en el que modificar dicha segmentación basada en agrupamiento de k-medias comprende además, en la etapa de asignación de dicha segmentación basada en agrupamiento de k-medias, restringir los agrupamientos a los que cada píxel puede cambiar la asignación de agrupamiento a un agrupamiento de k-medias estrictamente vecino, de manera que se garantiza la continuidad espacial. Método según la reivindicación 13, en el que dichas restricciones llevan a la siguiente etapa de asignación modificada:

donde N (i) es el vecindario del agrupamiento i, y Xj es un vector que representa una muestra de píxel (R, G, B, x, y) , donde R, G, B representan componentes de color en cualquier espacio de color seleccionado y x, y son la posición espacial de dicho píxel en una de dichas imágenes. Método según cualquiera de las reivindicaciones anteriores, en el que se aplica a una pluralidad de imágenes correspondientes a fotogramas diferentes y consecutivos de una secuencia de vídeo. Método según la reivindicación 15, cuando depende de la reivindicación 14, en el que para secuencias de vídeo en las que hay una fuerte correlación temporal de un fotograma a otro, el método comprende usar centroides resultantes finales después de la segmentación de k-medias de un fotograma para inicializar la sobresegmentación del siguiente, consiguiendo así dicho forzado de una correlación temporal sobre centroides de color de k-medias, con el fin de garantizar la estabilidad y consistencia temporal de segmentos homogéneos.

17 . Método según la reivindicación 16, que comprende usar los resultados de la etapa iv) para llevar a cabo una clasificación basándose o bien de píxel a píxel o de región a región con una reproyección en el espacio de segmentación con el fin de mejorar la precisión de los límites de dicho primer plano.

18. Sistema para segmentación de primer plano de imágenes en tiempo real, que comprende al menos una cámara, medios de procesamiento conectados a dicha cámara para recibir imágenes adquiridas por la misma y para procesarlas con el fin de llevar a cabo una segmentación de primer plano de imágenes en tiempo real, caracterizado porque dichos medios de procesamiento están previstos para llevar a cabo dicha segmentación de primer plano mediante elementos de hardware y/o software que implementan al menos las etapas i) a iv) del método según cualquiera de las reivindicaciones 8 a 17.

19. Sistema según la reivindicación 18, que comprende una pantalla conectada a la salida de dichos medios de procesamiento, estando previstos estos últimos también para generar imágenes tridimensionales reales y/o virtuales, a partir de siluetas generadas a partir de dicha segmentación de primer plano de imágenes, y visualizarlas a través de dicha pantalla.

20. Sistema según la reivindicación 19, caracterizado porque constituye o forma parte de un sistema de telepresencia.

 

Patentes similares o relacionadas:

Método, sistema y producto del programa informático para determinar la presencia de microorganismos e identificar dichos microorganismos, del 29 de Julio de 2020, de BIOMERIEUX: Un método para determinar la presencia de al menos un microorganismo determinado en una placa de Petri que comprende una o más colonias de microorganismos y un medio de […]

Detección de daño de pantalla para dispositivos, del 8 de Julio de 2020, de Hyla, Inc: Un procedimiento para identificar una condición de una o más pantallas de un dispositivo electrónico, comprendiendo el procedimiento: recibir una solicitud […]

PROCEDIMIENTO DE IDENTIFICACIÓN DE IMÁGENES ÓSEAS, del 29 de Junio de 2020, de UNIVERSIDAD DE GRANADA: Procedimiento de identificación de imágenes óseas. La presente invención tiene por objeto un procedimiento para asistir en la toma de decisiones a un experto forense […]

Procedimientos, sistemas y dispositivos para analizar datos de imágenes pulmonares, del 27 de Mayo de 2020, de Pulmonx Corporation: Procedimiento para analizar datos de tomografía computarizada de un pulmón, comprendiendo el procedimiento: recibir mediante un dispositivo […]

Distribución controlada de muestras sobre sustratos, del 27 de Mayo de 2020, de Roche Diagnostics Hematology, Inc: Un procedimiento para distribuir una muestra de líquido sobre un sustrato , comprendiendo el procedimiento: obtener una […]

Sistema y procedimiento de control de calidad de platos preparados, del 14 de Mayo de 2020, de BEABLOO, S.L: Sistema y procedimiento de control de calidad de platos preparados. El sistema comprende medios de detección para detectar los ingredientes […]

Registro de imagen de catéter del seno coronario, del 13 de Mayo de 2020, de Biosense Webster (Israel), Ltd: Un aparato que comprende: un catéter cardíaco adaptado para su introducción en un seno coronario de un corazón de un sujeto vivo; una pantalla ; un dispositivo […]

Sistema y aplicación para visualizar la realidad exterior mientras se utilizan teléfonos y dispositivos móviles, del 11 de Mayo de 2020, de YAGÜE HERNANZ, Ricardo: 1. Sistema y aplicación para ver en los teléfonos y terminales móviles la realidad exterior a la vez que se usan y se visualizan sus […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .