Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes.

Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes. El procedimiento para generar dicho flujo comprende imágenes compuestas

(C) con información sobre una imagen derecha (R) y una imagen izquierda (L), y un mapa de profundidad. Se seleccionan píxeles de la imagen derecha e izquierda, y se introducen en una imagen compuesta (C) de dicho flujo, estando previsto introducir todos los píxeles de las imágenes derecha e izquierda en la imagen compuesta (C) dejando una de ellas sin cambiar y descomponiendo la otra en regiones (R1, R2, R3) con píxeles, que se introducen en esa región de la imagen compuesta que no está ocupada por píxeles de las imágenes derecha e izquierda. La invención se refiere también a un procedimiento para reconstruir las imágenes derecha e izquierda empezando por una imagen compuesta, y a dispositivos que permiten implementar dichos procedimientos.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201331307.

Solicitante: S.I.SV.EL. SOCIETA ITALIANA PER LO SVILUPPO DELL'ELETTRONICA S.P.A.

Nacionalidad solicitante: Italia.

Dirección: Via Sestriere 100 I-10060 None, Torino ITALIA.

Inventor/es: D\'AMATO, PAOLO, BALLOCCA,Giovanni, BUSHLANOV,Fedor, POLYAKOV,Alexey.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > H04N13/00 (Sistemas de televisión estereoscópica; Sus detalles (adaptados especialmente para televisión en color H04N 15/00))
google+ twitter facebookPin it
Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes.

Fragmento de la descripción:

Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes.

Campo de la invención La presente invención se refiere a la generación, almacenamiento, transmisión, recepción y reproducción de flujos de vídeo estereoscópicos, es decir flujos de vídeo que, cuando se procesan apropiadamente en un dispositivo de visualización, producen secuencias de imágenes que se perciben por un espectador como tridimensionales.

Antecedentes de la técnica Tal como se conoce, la percepción de tridimensionalidad puede obtenerse reproduciendo dos imágenes, una para el ojo derecho del espectador y la otra para el ojo izquierdo del espectador.

Por tanto un flujo de vídeo estereoscópico transporta información sobre dos secuencias de imágenes, correspondientes a las perspectivas derecha e izquierda de un objeto o una escena. Un flujo de este tipo también puede transportar información complementaria.

La solicitud de patente internacional PCT/IB2010/055918, publicada el 30 de junio de 2011 como WO 2011/077343A1, describe un procedimiento de multiplexación de imágenes izquierda/derecha y un procedimiento de demultiplexación (así como dispositivos relacionados) que permiten conservar el equilibrio entre resolución horizontal y vertical, ofreciendo así ventajas sobre las técnicas conocidas tales como “de lado a lado” y “encima y debajo”.

Según dicho procedimiento de multiplexación, los píxeles de la primera imagen (por ejemplo la imagen izquierda) se introducen en la imagen compuesta sin cambiar, mientras que la segunda imagen se divide en regiones cuyos píxeles están dispuestos en áreas libres de la imagen compuesta, tal como se muestra en la figura 1, que muestra el caso en el que dos denominadas imágenes a 720p se introducen en un fotograma contenedor de 1080p.

En la recepción, se reconstruye la imagen dividida en regiones y a continuación se envía a la pantalla. Por ejemplo, se conocen pantallas que funcionan según el denominado principio de “fotograma alterno”, es decir que muestran las dos imágenes L y R en sucesión temporal. Para la visión estereoscópica, deben llevarse las denominadas gafas “activas”, es decir gafas que, sincronizadas con la sucesión de imágenes L y R, tapan una lente y mantienen la lente del otro ojo abierta, de modo que cada ojo sólo puede ver la imagen prevista para él.

Se conoce que la visión estereoscópica a través de tales pantallas puede resultar molesta para algunos espectadores, para los que sería deseable ofrecer la posibilidad de variar (disminuir) la profundidad de las imágenes para adaptarlas a sus preferencias subjetivas y al tamaño de la pantalla. Para ello, es necesario proporcionar, dentro de la pantalla, una síntesis de imágenes intermedias entre las que se transmiten, que a continuación se visualizarán en el lugar de las imágenes transmitidas en realidad. Una reconstrucción de este tipo puede realizarse, utilizando las técnicas conocidas, si están disponibles uno o más mapas de profundidad asociados con las imágenes transmitidas.

Además, recientemente han empezado a aparecer en el mercado las denominadas pantallas autoestereoscópicas, que no requieren la utilización de gafas. Además tales pantallas llevan a cabo una síntesis de imágenes no transmitidas, y requieren por tanto al menos un mapa de profundidad que proporcione la información necesaria para tal síntesis.

Por tanto se ha vuelto necesario introducir un nuevo formato para generar, transportar y reconstruir flujos estereoscópicos, formato que puede utilizarse para dispositivos de recepción y reproducción 2D tradicionales y para dispositivos de recepción y reproducción 3D estereoscópicos de dos vistas actuales (con o sin ajuste de profundidad) , así como para dispositivos autoestereoscópicos futuros que utilizan más de dos vistas, mientras que al mismo tiempo conservan la mayor compatibilidad del formato con las infraestructuras y dispositivos de producción y distribución de flujo de vídeo actualmente en uso.

Breve descripción de la invención Por tanto, el objetivo de la presente invención es proponer un procedimiento para generar, transmitir y recibir imágenes estereoscópicas, y dispositivos relacionados, previstos para cumplir con los requisitos descritos anteriormente.

La invención se refiere a un procedimiento y un dispositivo para multiplexar las dos imágenes relativas a las perspectivas derecha e izquierda (denominadas posteriormente en la presente memoria imagen derecha e imagen izquierda) , así como uno o más mapas de profundidad, dentro de un único fotograma compuesto.

La invención se refiere también a un procedimiento y un dispositivo para demultipelxar dicha imagen compuesta, es decir para extraer de la misma las imágenes derecha e izquierda y el/los mapa (s) de profundidad introducidos por el dispositivo de multiplexación.

Tal como puede observarse en la figura 1a, relativa a la solicitud de patente internacional mencionada anteriormente (el denominado “formato de baldosa”) , en la imagen compuesta existe una región no utilizada (C5) cuyas dimensiones son la mitad, tanto horizontalmente como verticalmente, de las de las dos imágenes L y R. Según una posible realización de la invención, puede introducirse al menos un mapa de profundidad (DM) en dicha región no utilizada, tal como se muestra en la figura 1b.

Un mapa de profundidad relativo a una imagen x ha de entenderse como una imagen en escala de grises en la que cada píxel presenta un valor de luminancia que es proporcional a la profundidad, es decir la coordenada “z”, del propio píxel, suponiendo por convención que el valor z=0 corresponde a la posición sobre la pantalla, y los valores positivos de z corresponden a píxeles colocados por detrás de la pantalla, mientras que los valores negativos corresponden a píxeles colocados por delante de la pantalla. Puesto que la región no utilizada de la imagen compuesta presenta unas dimensiones horizontal y vertical que son la mitad de las dimensiones de las imágenes L y R, en una realización de la presente invención es posible introducir en tal región un mapa de profundidad (relativo a una de las dos imágenes L y R) que presenta una resolución horizontal y vertical igual a la mitad de la imagen correspondiente. Se ha observado que una pérdida de resolución de este tipo no es perjudicial porque, dada la inexactitud con la que en general pueden calcularse o medirse los mapas de profundidad, es preferible someter los mapas de resolución completa a operaciones de submuestreo realizando interpolaciones entre los valores de píxel, donde tales operaciones pueden reducir la componente de ruido, dando como resultado imágenes reconstruidas de calidad superior.

Según otras realizaciones de la invención, es posible introducir dos mapas de profundidad en dicha región no utilizada (C5) .

La solicitud de patente internacional mencionada anteriormente también describe otras formas de multiplexación y demultiplexación de las imágenes estereoscópicas L y R, a las que también puede aplicarse el procedimiento de la presente invención, aunque de manera menos eficaz debido a que el espacio que se deja disponible para introducir el mapa de profundidad es menor. Por consiguiente, habrá una reducción adicional de la resolución de dicho mapa. Mientras se encuentren todavía dentro de los principios generales de la presente invención, tales implementaciones alternativas no se describirán en la presente memoria.

Un objetivo particular de la presente invención es proporcionar un procedimiento para generar, transmitir y recibir imágenes estereoscópicas,...

 


Reivindicaciones:

1. Procedimiento para generar un flujo de vídeo estereoscópico (101) que comprende imágenes compuestas (C) , comprendiendo dichas imágenes compuestas (C) información sobre una imagen derecha (R) y una imagen izquierda (L) de un contenido de vídeo tridimensional, en el que se seleccionan píxeles de dicha imagen derecha (R) y píxeles de dicha imagen izquierda (L) , y

se introducen dichos píxeles seleccionados en una imagen compuesta (C) de dicho flujo de vídeo estereoscópico,

estando el procedimiento caracterizado porque todos los píxeles de dicha imagen derecha (R) y todos los píxeles de dicha imagen izquierda (L) se introducen en dicha imagen compuesta (C) dejando una de dichas dos imágenes sin cambiar, descomponiendo la otra en varias regiones (R1, R2, R3) que presentan un área total igual a la de dicha otra imagen (R) , e introduciendo dichas regiones en dicha imagen compuesta (C) ,

en el que dicha imagen compuesta (C) presenta dimensiones superiores a las necesarias para introducir todos los píxeles de dichas imagen izquierda (L) e imagen derecha (R) ,

y en el que, en los píxeles de la imagen compuesta (C) que permanecen después de dicha entrada, se introduce al menos un mapa de profundidad o disparidad (DM) que se refiere a la profundidad o disparidad de los píxeles de dicho contenido de vídeo tridimensional, estando dichos mapas destinados a reconstruir, en la recepción, las imágenes que no se transmiten en dicho flujo estereoscópico.

2. Procedimiento según la reivindicación 1, en el que dicho al menos un mapa de profundidad o disparidad (DM) está codificado como una imagen en escala de grises.

3. Procedimiento según la reivindicación 2, en el que el contenido de información de vídeo de dicho al menos un mapa de profundidad o disparidad se transporta mediante una única señal de luminancia, sin utilizar señales de crominancia.

4. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) presenta una resolución inferior a una versión original del mismo, siendo la resolución de este último igual a la de dicha imagen izquierda (L) e imagen derecha (R) .

5. Procedimiento según la reivindicación 4, en el que dicho al menos un mapa de profundidad o disparidad (DM) se obtiene sometiendo dicho mapa de profundidad original a un submuestreo de 4 a 1.

6. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) es un mapa de profundidad o disparidad asociado con una de las dos imágenes derecha (R) o izquierda (L) , o asociado con un punto de vista intermedio entre L y R.

7. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) comprende un mapa de profundidad o disparidad asociado con una imagen derecha

(R) y un mapa de profundidad o disparidad asociado con una imagen izquierda (L) .

8. Procedimiento según la reivindicación 7, en el que dichos mapas de profundidad o disparidad asociados con una imagen derecha (R) y una imagen izquierda (L) se introducen en dichos píxeles restantes de la imagen compuesta (C) por medio de técnicas de empaquetado de fotogramas.

9. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que, si dicho número de regiones es tres, dichas regiones se obtienen a través de las etapas siguientes:

- dividir dicha otra imagen (R) en dos partes que presentan la misma dimensión horizontal (R1, R2, R3) ;

- dividir una de dichas dos partes (R2, R3) en dos partes que presentan la misma dimensión vertical (R2, R3) .

10. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la información de señalización que identifica el tipo de flujo de vídeo generado se introduce como metadatos en dicha imagen compuesta (C) o dicho flujo de vídeo estereoscópico.

11. Procedimiento según la reivindicación 10, en el que dicha información de señalización está adaptada de modo que permita distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:

- fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;

- fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.

12. Dispositivo para generar un flujo de vídeo estereoscópico (101) que comprende imágenes compuestas (C) , comprendiendo dichas imágenes compuestas (C) información sobre una imagen derecha (R) , una imagen izquierda (L) , caracterizado porque comprende unos medios para implementar las etapas del procedimiento según cualquiera de las reivindicaciones anteriores.

13. Procedimiento para reconstruir al menos un par de imágenes de un flujo de vídeo estereoscópico empezando por una imagen compuesta (C) , caracterizado porque dicha imagen compuesta (C) comprende información sobre una imagen derecha (R) , una imagen izquierda (L) , y porque dicho procedimiento comprende las etapas siguientes:

- generar una primera imagen de dichas imágenes derecha (R) e izquierda (L) copiando un único grupo de píxeles contiguos a partir de una primera región (C1) de dicha imagen compuesta,

- generar la imagen restante de dichas imágenes derecha (R) e izquierda (L) copiando otros grupos de píxeles contiguos a partir de varias regiones distintas (C2, C3, C4) de dicha imagen compuesta, siendo dichas varias regiones distintas diferentes de dicha primera región (C1) ;

- generar al menos un mapa de profundidad o disparidad (DM) copiando al menos un grupo de píxeles contiguos a partir de una región adicional (C5) de dicha imagen compuesta, diferente de dicha primera región y de dichas varias regiones distintas.

14. Procedimiento según la reivindicación 13, en el que, si dichas varias regiones son tres:

- una (C2) de dichas regiones de la imagen compuesta (C) presenta la misma dimensión vertical que dicha primera región (C1) y la mitad de su dimensión horizontal;

- las dos restantes (C3, C4) de dichas regiones de la imagen compuesta (C) presentan iguales dimensiones horizontal y vertical, y la mitad de la dimensión vertical de dicha primera región (C1) .

15. Procedimiento según la reivindicación 13, en el que dicho al menos un mapa de profundidad o disparidad (DM) se genera empezando por una imagen en escala de grises derivada de una señal de luminancia contenida en los píxeles contiguos de dicha región adicional (C5) .

16. Procedimiento según la reivindicación 15, que comprende la etapa de aumentar las dimensiones horizontal y vertical de dicho al menos un mapa de profundidad o disparidad (DM) hasta una dimensión igual a la de dichas imágenes derecha (R) e izquierda (L) .

17. Procedimiento según la reivindicación 13, que comprende la etapa de obtener, a partir de dicha imagen compuesta (C) o a partir del flujo de vídeo, información de señalización adaptada para reconocer el tipo de flujo de vídeo que se genera.

18. Procedimiento según la reivindicación 17, en el que dicha información de señalización está adaptada de modo que permita distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:

- fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;

- fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.

19. Dispositivo para reconstruir al menos un par de imágenes de un flujo de vídeo estereoscópico empezando por una imagen compuesta (C) , caracterizado porque dicha imagen compuesta (C) comprende información sobre una imagen derecha (R) , una imagen izquierda (L) , y porque dicho dispositivo comprende:

- unos medios para generar una primera imagen de dichas imágenes derecha (R) e izquierda (L) copiando un único grupo de píxeles contiguos a partir de una primera región (C1) de dicha imagen compuesta,

- unos medios para generar la imagen restante de dichas imágenes derecha (R) e izquierda (L) copiando otros

grupos de píxeles contiguos a partir de varias regiones distintas (C2, C3, C4) de dicha imagen compuesta, siendo dichas varias regiones distintas diferentes de dicha primera región (C1) ;

- unos medios para generar al menos un mapa de profundidad o disparidad (DM) copiando al menos un grupo de píxeles contiguos a partir de una región adicional (C5) de dicha imagen compuesta, diferente de dicha primera región y de dichas varias regiones distintas.

20. Dispositivo según la reivindicación 19, en el que, si dichas varias regiones son tres:

- una (C2) de dichas regiones de la imagen compuesta (C) presenta la misma dimensión vertical que dicha primera región (C1) y la mitad de su dimensión horizontal;

- las dos restantes (C3, C4) de dichas regiones de la imagen compuesta (C) presentan iguales dimensiones horizontal y vertical, y la mitad de la dimensión vertical de dicha primera región (C1) .

21. Dispositivo según la reivindicación 19, en el que dichos medios para generar al menos un mapa de profundidad o disparidad (DM) utilizan una imagen en escala de grises derivada de una señal de luminancia contenida en los píxeles contiguos de dicha región adicional (C5) .

22. Dispositivo según la reivindicación 21, que comprende unos medios para aumentar las dimensiones horizontal y vertical de dicho al menos un mapa de profundidad o disparidad (DM) hasta una dimensión igual a la de dichas imágenes derecha (R) e izquierda (L) .

23. Dispositivo según la reivindicación 19, que comprende unos medios adaptados para reconocer el tipo de flujo de vídeo que se recibe basándose en la información de señalización que identifica dicho tipo de flujo, contenida en dicha imagen compuesta (C) o en dicho flujo de vídeo.

24. Dispositivo según la reivindicación 23, en el que dicha información de señalización permite distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:

- fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;

- fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;

- fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.

25. Dispositivo según la reivindicación 24, que comprende unos medios que, basándose en dicha información útil para distinguir un tipo de fotograma compuesto, están adaptados para emitir:

- sólo dicha primera imagen de dichas imágenes derecha (R) e izquierda (L) ; o

- dicha primera y dicha segunda de dichas imágenes derecha (R) e izquierda (L) ; o

- dicha primera y dicha segunda de dichas imágenes derecha (R) e izquierda (L) y dicho al menos un mapa de profundidad o disparidad (DM) .

26. Dispositivo según la reivindicación 23, que comprende unos medios adaptados para llevar a cabo una o más de las siguientes operaciones, basándose en dicha información de señalización:

- reconocer el tipo de fotograma que se recibe, con el fin de reconstruir apropiadamente las dos imágenes derecha e izquierda del contenido de vídeo tridimensional;

- reconocer la presencia de uno o dos mapas de profundidad o disparidad y el tipo de configuración de los mismos;

- en el caso de dos mapas de profundidad o disparidad, obtener cada uno de los dos mapas;

- realizar, sobre dichos mapas de profundidad o disparidad, operaciones adaptadas para llevar las dimensiones de los mapas a valores iguales a los de las imágenes del contenido de vídeo.

27. Dispositivo según la reivindicación 19, que comprende unos medios diseñados para generar imágenes adicionales correspondientes a unas vistas adicionales empezando por dichas imágenes derecha (R) e izquierda (L) y utilizando dichos mapas de profundidad.

28. Dispositivo según la reivindicación 27, que comprende unos medios adaptados para visualizar dos secuencias de imágenes, de las cuales al menos una comprende imágenes sintetizadas empezando desde al menos una de las vistas transmitidas y desde al menos un mapa de profundidad.

29. Dispositivo según la reivindicación 28, que comprende unos medios adaptados para dar al espectador la

posibilidad de elegir secuencias de imágenes relativas a puntos de vista más o menos próximos, para variar la percepción de profundidad.

30. Dispositivo según la reivindicación 27, que comprende una pantalla autoestereoscópica, y que comprende unos medios adaptados para utilizar dichas imágenes adicionales correspondientes a vistas adicionales para permitir que los espectadores colocados en puntos diferentes en el espacio vean secuencias de imágenes diferentes.

31. Flujo de vídeo estereoscópico (1101) caracterizado porque comprende al menos una imagen compuesta (C) generada por medio del procedimiento según cualquiera de las reivindicaciones 1 a 11.