Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.

Un método para la generación de un mapa de profundidad binario desde dos cuadros en una secuencia de vídeo 2D, comprendiendo el método:

la estimación

(2) de un vector de movimiento global y de los vectores de movimiento de bloque para el primer cuadro; la proyección (3) de los vectores de movimiento de bloque en el vector de movimiento global para obtener los parámetros de correlación;

el cálculo (4,5) de una métrica para el número de bloques estáticos en el primer cuadro;

la determinación (6) de si el fondo es estático o dinámico de acuerdo con los vectores de movimiento, el número de bloques estáticos y los parámetros de correlación; y,

el cálculo de un mapa (7) de profundidad binario clasificando las partes de la imagen como fondo o primer plano de acuerdo con los vectores de movimiento, el número de bloques estáticos, los parámetros de correlación y la determinación de si el fondo es estático o dinámico.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12164975.

Solicitante: VESTEL ELEKTRONIK SANAYI VE TICARET A.S.

Nacionalidad solicitante: Turquía.

Dirección: ORGANIZE SANAYI BÖLGESI 45030 MANISA TURQUIA.

Inventor/es: OZDEMIR,HUSEYIN, BASTUG,AHMET, OZER,NURI.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > TRATAMIENTO O GENERACION DE DATOS DE IMAGEN, EN GENERAL... > Análisis de imagen, p. ej. desde un mapeado binario... > G06T7/20 (Análisis del movimiento)

PDF original: ES-2546775_T3.pdf

 

google+ twitter facebookPin it
Ilustración 1 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Ilustración 2 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Ilustración 3 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Ilustración 4 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Ilustración 5 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Ilustración 6 de Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.
Método y aparato para la generación de un mapa de profundidad y un vídeo 3D.

Fragmento de la descripción:

Método y aparato para la generación de un mapa de profundidad y un vídeo 3D

La presente invención se refiere a un método y aparato para la generación de un mapa de profundidad a partir de dos cuadros en una secuencia de vídeo 2D y un método y aparato para la generación de un vídeo 3D.

Las realizaciones preferidas de la presente invención pueden encontrar una aplicación en 3D compatible con televisores de pantalla plana de LCDs, LED y plasma los cuales requieren la reproducción de contenido (3D) desde una fuente de vídeo o imagen (2D) mono. Se pueden encontrar otros posibles usos en los dispositivos tales como monitores, proyectores, decodificadores. Las realizaciones preferidas de la presente invención pueden encontrar aplicaciones en la industria de fabricación de televisores, el campo de gráficas por ordenador, el sector de cine y aplicaciones médicas (tales como generación de imágenes médicas) .

El principal problema de los productores de televisión en 3D han encontrado y continuarán encontrando por algún tiempo por venir, es la insuficiencia de los contenidos 3D debido a que es muy costoso rodar una película 3D y preparar la difusión 3D (vídeo estéreo) . La solución de este problema es crear un contenido 3D desde contenidos de vídeo 2D (mono) calculando el mapa de profundidad de los cuadros. Se reproduce una segunda secuencia de vídeo desde la primera utilizando un perfil de profundidad estimado en la primera secuencia de vídeo. Las secuencias de vídeo estéreo generadas pueden ser visualizadas en una pantalla 3D una después de la otra en una forma de tiempo compartido o con dos vistas diferentes de una forma intercalada espacialmente. De esta forma, las diferentes vistas de una escena son alimentadas separadamente a los ojos izquierdo y derecho. El problema básico de calcular el mapa de profundidad es separar el fondo y el primer plano (segmentación) .

Un ejemplo de la estimación de profundidad es dado en el documento técnico "On Creating Depth maps from Monoscopic Vídeo using Structure from Motion": Ping Li, Dirk Farin, Rene Klein Gunnewiek, Peter H. N. de With en el 27 Simposio de Teoría de la Información en Benelux, vol. p. 508-515, Junio 2016. Este documento divulga una técnica llamada Estructura desde el Movimiento (SFM) se discute como una de las dos partes importantes de su esquema para la estimación de la profundidad. Este método utiliza un Flujo Óptico (OF) para la Estimación del Movimiento (ME) . El campo del vector del movimiento generado desde es OF es escaso. Por lo tanto este obtiene un campo denso utilizando una técnica de triangulación Delaunay sofisticada. El campo del vector obtenido es utilizado para estimar un número de parámetros de cámara y la estructura de la escena desde la cual se estima un mapa de profundidad multinivel.

Como también se reporta en la técnica anterior, las técnicas SFM tienen problemas en las escenas no estáticas con objetos en movimiento o deformables. Por esta razón para fortalecer el método también se utiliza otra técnica involucrando el uso de señales monoculares. El método Delaunay reporta también que falla en grandes áreas suaves y en los límites alrededor de los objetos. Además, el método SFM es complejo computacionalmente. La razón de su complejidad es que es muy agresivo en la obtención de un mapa de profundidad continuo desde la estimación de toda la estructura en el cuadro. Lo que es necesario, es una técnica para estimar la profundidad la cual es robusta y menos compleja y costosa en términos de esfuerzo computacional.

Se conocen otros esquemas para la creación de vídeo 3D desde un vídeo 2D. Por ejemplo, la US-A-2007/024614 enseña la generación de mapas de profundidad desde una fuente de imagen 2D y suavizarlos asimétricamente. Cada mapa de profundidad contiene valores de profundidad enfocados en los bordes de las regiones locales en la fuente de la imagen donde el valor de profundidad asignado a cada píxel en el mapa indica la profundidad del borde correspondiente. Una aproximación al proceso de análisis del borde con base en la estimación de los niveles de desenfoque (opuesto a nitidez) en las regiones locales de la fuente de la imagen 2D, y utilizando el principio de si los bordes y las líneas son gruesas son consideradas desenfocadas, y nítidas si estas son delgadas. Alternativamente, el mapa de profundidad puede ser generado desde la fuente de la imagen estimando la ubicación de los bordes y los límites de los objetos utilizando técnicas de detección de bordes/líneas. En una alternativa adicional, el mapa de profundidad es generado con base en la estimación de la distribución de intensidad de la luminancia en cada región local. El mapa de profundidad es utilizado para procesar la fuente de la imagen por una imagen de profundidad con base en el algoritmo de reproducción para crear al menos una imagen desviada, la cual forma con la fuente de la imagen un grupo de imágenes 2D. El mapa de profundidad es utilizado para formar imágenes 3D. Así, esta técnica utiliza una sola imagen 2D para generar una imagen 3D.

La US-B-7161614 divulga un dispositivo y métodos para convertir un vídeo bidimensional en un vídeo tridimensional calculando un mapa de profundidad. Se divulgan diversos métodos para calcular el mapa de profundidad. En un primer

método, una pantalla está dividida en varias áreas. Se obtiene la información relacionada a las frecuencias altas y los contrastes de la luminancia, y el componente de crominancia de cada una de estas áreas. Se encuentra entonces una estimación de profundidad para cada una de las áreas desde esta información. En un segundo método, se genera un vector de movimiento comparando una imagen en el campo actual con una imagen en el campo anterior, para extraer como un vector de movimiento la cantidad de movimiento y la dirección del movimiento de un sujeto en la imagen. La imagen es segmentada en áreas de características y estas áreas están agrupadas con base en la información de crominancia de las áreas. A continuación se obtienen diversos mapas de profundidad considerando para cada área el movimiento detectado, la frecuencia alta y la información de luminancia y contraste, y el componente de crominancia, así como la forma en la cual están agrupadas las áreas. A continuación se obtiene un mapa de profundidad compuesto desde los diferentes mapas. Un tercer método calcula un vector de movimiento entre las dos imágenes en un vídeo y utiliza este, junto con otros factores, en la creación de un mapa de profundidad. Estos métodos generalmente confían en el uso de las "señales" visuales para determinar la profundidad.

La US-B-6996267 enseña un sistema de imagen visual el cual opera en una señal de imagen visual tridimensional para controlar el grado tridimensional de la imagen estereoscópica para intentar reducir la fatiga ocular del usuario.

La US-B-6377625 se relaciona con la generación de imágenes estereoscópicas desde un vídeo MPEG (2D) . Un generador de vector de movimiento genera vectores de movimiento individualmente correspondientes a los macrobloques en la imagen. Se analiza el campo del vector de movimiento para determinar el tipo de movimiento de la imagen actual y utiliza esta información en la generación de la imagen estereoscópica. En particular, este incluye la determinación si la actual imagen es una imagen fija, una imagen de movimiento horizontal, una imagen de movimiento no horizontal, o una imagen de movimiento rápido. Esta determinación es utilizada en la generación de una imagen estereoscópica apropiada al tipo de movimiento.

La US-A-2011/007136 se relaciona con el procesamiento de un vídeo 3D para interpolar los cuadros o para mejorar la calidad de la imagen. Se calculan los vectores de movimiento X-Y desde... [Seguir leyendo]

 


Reivindicaciones:

1. Un método para la generación de un mapa de profundidad binario desde dos cuadros en una secuencia de vídeo 2D, comprendiendo el método:

la estimación (2) de un vector de movimiento global y de los vectores de movimiento de bloque para el primer cuadro; la proyección (3) de los vectores de movimiento de bloque en el vector de movimiento global para obtener los parámetros de correlación;

el cálculo (4, 5) de una métrica para el número de bloques estáticos en el primer cuadro;

la determinación (6) de si el fondo es estático o dinámico de acuerdo con los vectores de movimiento, el número de bloques estáticos y los parámetros de correlación; y, el cálculo de un mapa (7) de profundidad binario clasificando las partes de la imagen como fondo o primer plano de 15 acuerdo con los vectores de movimiento, el número de bloques estáticos, los parámetros de correlación y la determinación de si el fondo es estático o dinámico.

2. Un método de acuerdo con la reivindicación 1, en donde la determinación de si el fondo es estático o dinámico comprende jerárquicamente la aplicación de reglas sí/no a los vectores de movimiento, el número de bloques estáticos y 20 los parámetros de correlación y/o la determinación de un mapa de profundidad binario que comprende jerárquicamente la aplicación de reglas si/no a los vectores de movimiento, el número de bloques estáticos, los parámetros de correlación y la determinación de si el fondo es estático o dinámico en una base por bloque para llegar a una decisión binaria de si el bloque es el fondo o el primer plano.

3. Un método de acuerdo con la reivindicación 1 o la reivindicación 2, en donde el fondo está determinado para ser 30 dinámico si 1) el vector de movimiento global no es cero y 2) hay una gran cantidad de buenos ajustes de los parámetros de correlación aplicados en todos los bloques del cuadro, siendo los buenos ajustes cuando al menos el 70% de los bloques tienen correlaciones de al menos el 75% con el vector de movimiento global.

4. Un método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde el fondo está determinado para ser estático si

1) hay un gran número de bloques estáticos o 2) los vectores de movimiento más dominantes en el cuadro no tienen suficiente dominancia.

5. Un método de acuerdo con cualquiera de las reivindicaciones 1 a 4, en donde si el fondo no está clasificado por cualquier otra regla, el fondo está determinado para ser dinámico por defecto.

6. Un método de acuerdo con cualquiera de las reivindicaciones 1 a 5, en donde un bloque está determinado para estar en la región del primer plano si las métricas de error en el emparejamiento del bloque en un vecindario de bloques son 50 altas Y las variaciones del vector son altas.

7. Un método de acuerdo con la reivindicación 6, en donde, en el caso de que el fondo esté determinado para ser dinámico, el bloque está determinado para ser el fondo si 11

1) el parámetro de correlación o

2) la correlación de los vectores de movimiento de bloque con el vector de movimiento global es alta.

8. Un método de acuerdo con la reivindicación 6 o la reivindicación 7, en donde, en el caso de que el fondo esté determinado para ser estático, el bloque está determinado para ser el fondo si

1) el número de bloques estáticos da un muy buen ajuste o 2) el vector es el vector cero o 3) el vector es muy pequeño y tiene una pequeña diferencia métrica.

9. Un método de acuerdo con la reivindicación 6, en donde se determina un bloque para estar en una región del primer plano si las métricas de error de emparejamiento del bloque en un vecindario de bloques son altas Y las variaciones del vector son altas; además en el caso de que se determina el fondo para ser dinámico, se determina el bloque para ser el fondo si

1) el parámetro de correlación o 2) la correlación de los vectores de movimiento de los bloques con el vector de movimiento global es alta; y en el caso de que se determine el fondo para ser estático, se determina el bloque para ser el fondo si 1) el número de bloques estáticos da un muy buen ajuste

o 2) el vector es el vector cero 40 o 3) el vector es muy pequeño y tiene una pequeña diferencia métrica.

10. Un método de acuerdo con la reivindicación 6 o a la reivindicación 7, en donde si el bloque no está clasificado como 45 el fondo o el primer plano por cualquier regla precedente, se determina el bloque para ser el primer plano.

11. Un método de acuerdo con cualquiera de las reivindicaciones 1 a 10, que comprende aplicar morfología espacial y/o temporal al mapa de profundidad, lo cual comprende preferiblemente:

determinar el bloque para ser el primer plano si la suma de las decisiones de profundidad binarias es muy baja, representando 0 el primer plano y representando 1 el fondo, en el bloque y bloques en su vecindario, en el cuadro presente Ft o en el cuadro anterior Ft-1; y/o determinar el bloque para ser el fondo si la suma de las decisiones de profundidad binarias es muy alta, representando 0 55 el primer plano y representando 1 el fondo, en el bloque y bloques en su vecindario, en el cuadro presente Ft o en el cuadro anterior Ft-1.

12. Un método para la generación de vídeo 3D desde vídeo 2D, que comprende para al menos un cuadro de una entrada de vídeo 2D, la generación (9) de una imagen 3D de acuerdo con el mapa de profundidad que se proporciona por el método de cualquiera de una o más de las reivindicaciones 1 a 11.

13. Un método de acuerdo con la reivindicación 12, que comprende impedir la generación de 3D para un cuadro de entrada si a) el número de bloques estáticos es alto el cuadro es alto y/o 10 b) hay ambos una gran cantidad de buenos ajustes de la operación de proyección en un vector de movimiento global diferente de cero y el emparejamiento del bloque con el vector cero da una gran cantidad de buenos ajustes, un buen ajuste es cuando al menos el 70% de los bloques tiene correlaciones de al menos el 75% con el vector de movimiento global.

14. Un aparato para la generación de un mapa de profundidad, estando dispuesto el aparato para llevar a cabo el 20 método de cualquiera de las reivindicaciones 1 a 11.

Un aparato de acuerdo con la reivindicación 14, estando dispuesto el aparato para llevar a cabo el método de cualquiera de las reivindicaciones 12 a 13 para la generación de un vídeo 3D desde una entrada de vídeo 2D.