Gestión de subtítulos en visualización en 3D.

Método para crear una señal de vídeo tridimensional que comprende:

- recibir una primera componente de vídeo que comprende primeras imágenes,

- recibir una segunda componente de vídeo que comprende segundas imágenes, representando lasrespectivas primeras imágenes y correspondientes segundas imágenes pares estéreo,

- recibir una primera componente de texto y una segunda componente de texto, comprendiendo la primeracomponente de texto subtítulos basados en texto y comprendiendo la segunda componente de textoimágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeotridimensional,

- recibir una componente de ubicación Z compartida que comprende información de ubicación Z quedescribe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y lasimágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de textocomo de la segunda componente de texto usando valores de profundidad o valores de disparidad, y

- crear una señal de vídeo tridimensional que comprende la primera componente de vídeo, la segundacomponente de vídeo, ambos componentes de texto y la componente de ubicación Z compartida, yen el que la información de ubicación Z es precisa en cuanto al fotograma y está comprendida en la señalde vídeo tridimensional en mensajes de señalización [SEI] que son paquetes incrustados en una secuenciabásica de MPEG de contenido audiovisual, llevando los paquetes parámetros que pueden usarse por undecodificador para decodificar el contenido.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11164109.

Solicitante: KONINKLIJKE PHILIPS N.V.

Nacionalidad solicitante: Países Bajos.

Dirección: High Tech Campus 5 5656 AE Eindhoven PAISES BAJOS.

Inventor/es: DE HAAN, WIEBE, NEWTON,PHILIP,S, VAN DER HEIJDEN,GERARDUS,W.,T, BOLIO,DENNIS D. R. J, SCALORI,FRANCESCO, VAN DOVEREN,HENRICUS F. P. M, MOLL,HENDRIK F.

Fecha de Publicación: 11 de Septiembre de 2013.

Clasificación Internacional de Patentes:

H04N13/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › Sistemas de video estereoscópico; Sistemas de video multivista; Sus detalles.
H04N13/02

PDF original: ES-2435669_T3.pdf

Fragmento de la descripción:

Gestión de subtítulos en visualización en 3D.

Campo de la invención Esta invención se refiere a la creación y a la presentación de una señal de imagen tridimensional (3D) . En una realización, la invención proporciona un posicionamiento óptimo automático de subtítulos en una visualización en 3D que reduce la fatiga del espectador.

Antecedentes de la invención Actualmente, existe un renovado interés en la televisión en 3D, esto se relaciona con un avance reciente en la tecnología de visualización que permite una buena reproducción de vídeo en 3D para múltiples espectadores. Una de éstas es la pantalla lenticular 3D autoestereoscópica, aunque también hay otros tipos de pantallas, tales como las pantallas basadas en barreras autoestereoscópicas y las pantallas estéreo multiplexadas en el tiempo basadas en tecnología de retroproyección. Normalmente estos tipos de pantallas usan uno de dos formatos de vídeo básicos como entrada para crear una impresión en 3D al espectador. Las pantallas basadas en estéreo usan un entrelazado secuencial en el tiempo y gafas para visualizar dos vistas separadas, una para cada ojo, y por tanto esperan un vídeo estéreo como entrada. Ejemplos de éstas son las pantallas estéreo basadas en retroproyección multiplexadas en el tiempo y este tipo de sistema también se usa en el cine 3D. La alternativa principal a esto son las pantallas autoestereoscópicas de múltiples vistas, que no requieren gafas y a menudo usan un formato de entrada conocido como imagen + profundidad como entrada para generar una impresión en 3D. Puede encontrarse más información sobre tecnología de visualización en 3D en el capítulo 13 de “3D video communication - Algorithms, concepts and real time systems in human centered communication” por Oliver Shreer et al. (Wiley 2005) .

El formato de vídeo estéreo es sencillo puesto que proporciona dos imágenes, una para cada ojo. Normalmente estas dos imágenes se entrelazan, o bien espacialmente o bien de una manera secuencial en el tiempo y luego se alimentan a la pantalla. El formato alternativo, denominado imagen + profundidad, es diferente porque es una combinación de una imagen en 2D con una denominada “profundidad”, o mapa de disparidad. Esto es normalmente una imagen en escala de grises, donde el valor de la escala de grises de un píxel indica la cantidad de disparidad (o profundidad en caso de un mapa de profundidad) para el correspondiente píxel en la imagen en 2D asociada. La pantalla, cuando presenta la imagen en 3D usa la disparidad o mapa de profundidad para calcular las vistas adicionales tomando la imagen en 2D como entrada. Esto puede realizarse de diversas maneras, en la manera más simple se trata de desplazar píxeles a la izquierda o derecha dependiendo del valor de disparidad asociado a esos píxeles. El artículo titulado “Depth image based rendering, compression and transmission for a new approach on 3D TV” por Christoph Fen proporciona una perspectiva general de la tecnología.

Un problema con las pantallas 3D autoestereoscópicas y estéreo (basadas en secuencias en el tiempo) es lo que se denomina desajuste de acomodación-convergencia. Éste es un problema en el que los ojos del espectador convergen en la ubicación virtual de los objetos que se visualizan, mientras que al mismo tiempo los ojos se acomodan (para ver la imagen nítida) en la superficie de la propia pantalla. Este desajuste puede provocar dolores de cabeza y otros síntomas asociados con mareos. Además cualquier diferencia geométrica (especialmente cualquier paralaje vertical) , así como eléctrica (brillo, contraste, etc.) entre las vistas para los ojos izquierdo y derecho puede provocar adicionalmente fatiga visual. Sin embargo, si la cantidad de disparidad se mantiene pequeña, es decir menor que un grado, entonces estos problemas son menos graves y los usuarios pueden visualizar el contenido sin ningún problema significativo. Véase “Two factors in visual fatigue caused by stereoscopic HDTV images”, Sumio Yano et al. Displays 2004 páginas 141 a 150 Elsevier, para más detalle.

Puede producirse un problema similar a los problemas anteriores cuando el dispositivo de presentación está visualizando texto tal como subtítulos o subtitulado codificado. Si el texto no está situado de manera apropiada en la pantalla, lo que depende del tipo y ajustes de la pantalla, el texto puede aparecer borroso, por ejemplo debido a una diafonía entre las vistas de los ojos izquierdo y derecho, y el espectador puede sentirse cansado. También se da el caso de que la visión borrosa puede afectar a la legibilidad del texto. Según E. Legge (véase “Psychophysics of Reading: I. Normal Vision”, Gordon E. Legge et. al. Vision Research, vol. 25, n.º 2, páginas 239 a 252, 1985) la lectura se ve afectada si el ancho de banda del texto está por debajo de dos ciclos por carácter. La visión borrosa es un problema con las pantallas autoestereoscópicas, puesto que normalmente se sacrifica la resolución para generar múltiples vistas, y para pantallas estéreo en general existe un problema con la separación subóptima entre las dos vistas, que puede añadirse a la visión borrosa de la imagen. Además según Yano (mencionado anteriormente) , el movimiento de profundidad aumenta la fatiga visual.

Otro problema que se prevé, es que los espectadores pueden ajustar la cantidad de disparidad y posición relativa del plano de profundidad en una televisión en 3D (a través de, por ejemplo, algunos botones en su mando a distancia) . Estos ajustes significan que el texto puede volverse borroso, cuando se aleja de una posición neutra de profundidad, o aumenta en “profundidad” de manera que provoca fatiga visual.

La publicación de solicitud de patente estadounidense US 2005/0140676 da a conocer un método para visualizar datos de texto de múltiples niveles en un mapa tridimensional. En el sistema descrito en esta publicación, se visualiza un mapa tridimensional en una pantalla, y se visualizan datos de texto con diferentes niveles de densidad según distancias desde un punto de vista del mapa tridimensional visualizado a nodos donde se visualizarán los datos de texto, mejorando así la legibilidad de los datos de texto. Además, es posible visualizar los datos de texto ajustando localmente la densidad de los datos de texto en la pantalla. El mapa tridimensional se visualiza en la pantalla de un panel de visualización convirtiendo los datos de mapa con coordenadas bidimensionales en aquéllos con coordenadas tridimensionales por medio de un método de proyección de perspectiva. Los datos de texto que van a visualizarse junto con el mapa tridimensional se convierten en aquéllos en un sistema de coordenadas tridimensional con un origen definido por el punto de vista del mapa tridimensional. Los datos de texto convertidos se proyectan en un plano bidimensional para su conversión en aquéllos con coordenadas de pantalla. Luego, se clasifican las distancias desde el punto de vista del mapa tridimensional visualizado a los nodos donde se visualizarán los datos de texto. Las distancias clasificadas se determinan para los datos de texto convertidos con las coordenadas de pantalla. Los datos de texto de niveles correspondientes a las distancias determinadas se visualizan en la pantalla del panel de visualización en la que se visualiza el mapa tridimensional.

Aunque en el contexto de la representación de un mapa tridimensional en un dispositivo de visualización bidimensional, la gestión de los datos de texto según esta publicación se dispone y ajusta a escala de una manera significativa para el usuario, no aborda ninguno de los problemas identificados anteriormente, en relación con la visualización de texto en un dispositivo de visualización tridimensional.

El documento JP 2004-274125 describe una generación de señal en 3D. Un multiplexor multiplexa dos componentes de imagen y datos de texto, que se superpondrán en el extremo de recepción. La señal de imagen en 3D tiene una única secuencia de datos de texto (componente D) . Se incluye un correspondiente parámetro de profundidad (componente E) en la señal para permitir el posicionamiento de la secuencia de texto en el extremo de recepción.

El documento WO2008/044191 describe la creación de datos de gráficos en 3D. Se describe una secuencia de datos multiplexados que comprende vídeo y gráficos. La secuencia de datos comprende dos secuencias diferentes de datos gráficos (secuencia de gráficos de presentación y secuencia de gráficos interactivos) , que se presentan en un decodificador en respectivos planos de gráficos separados. En la secuencia para cada objeto gráfico (segmento de definición de objeto que contiene gráficos en 2D) hay una... [Seguir leyendo]

Reivindicaciones:

1. Método para crear una señal de vídeo tridimensional que comprende:

- recibir una primera componente de vídeo que comprende primeras imágenes,

- recibir una segunda componente de vídeo que comprende segundas imágenes, representando las respectivas primeras imágenes y correspondientes segundas imágenes pares estéreo,

- recibir una primera componente de texto y una segunda componente de texto, comprendiendo la primera componente de texto subtítulos basados en texto y comprendiendo la segunda componente de texto imágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeo tridimensional,

- recibir una componente de ubicación Z compartida que comprende información de ubicación Z que describe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y las imágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de texto como de la segunda componente de texto usando valores de profundidad o valores de disparidad, y

- crear una señal de vídeo tridimensional que comprende la primera componente de vídeo, la segunda componente de vídeo, ambos componentes de texto y la componente de ubicación Z compartida, y

en el que la información de ubicación Z es precisa en cuanto al fotograma y está comprendida en la señal de vídeo tridimensional en mensajes de señalización [SEI] que son paquetes incrustados en una secuencia básica de MPEG de contenido audiovisual, llevando los paquetes parámetros que pueden usarse por un decodificador para decodificar el contenido.

2. Método según la reivindicación 1, en el que los subtítulos basados en texto se prevén en secuencias de subtítulos y en el que la información de ubicación Z compartida comprende valores Z enumerados para todas las secuencias de subtítulos.

3. Método para presentar una señal de vídeo tridimensional que comprende:

- recibir una señal de vídeo tridimensional que comprende una primera componente de vídeo que comprende primeras imágenes, una segunda componente de vídeo que comprende segundas imágenes, representando las respectivas primeras imágenes y correspondientes segundas imágenes pares estéreo, una primera componente de texto y una segunda componente de texto, comprendiendo la primera componente de texto subtítulos basados en texto y comprendiendo la segunda componente de texto imágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeo tridimensional, y

- presentar la primera componente de vídeo y la segunda componente de vídeo para proporcionar un vídeo tridimensional, incluyendo la presentación presentar los subtítulos basados en texto o imágenes de mapa de bits basadas en gráficos de presentación en el vídeo tridimensional,

y en el que la señal de vídeo tridimensional comprende además una componente de ubicación Z compartida que comprende información de ubicación Z que describe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y las imágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de texto como de la segunda componente de texto usando valores de profundidad o valores de disparidad, y

en el que la presentación de los subtítulos basados en texto o imágenes de mapa de bits basadas en gráficos de presentación incluye ajustar la posición de profundidad de los subtítulos basados en texto o imágenes de mapa de bits basadas en gráficos de presentación de una manera precisa en cuanto al fotograma basándose en la componente de ubicación Z compartida.

4. Método según la reivindicación 3, en el que los subtítulos basados en texto se prevén en secuencias de subtítulos y en el que la información de ubicación Z compartida comprende valores Z enumerados para todas las secuencias de subtítulos.

5. Dispositivo para crear una señal de vídeo tridimensional que comprende:

- un receptor dispuesto para recibir una primera componente de vídeo que comprende primeras imágenes, una segunda componente de vídeo que comprende segundas imágenes, representando las respectivas primeras imágenes y correspondientes segundas imágenes pares estéreo, una primera componente de texto y una segunda componente de texto, comprendiendo la primera componente de texto subtítulos basados en texto y comprendiendo la segunda componente de texto imágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeo tridimensional, y

en el que el receptor está dispuesto además para recibir una componente de ubicación Z compartida que comprende información de ubicación Z que describe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y las imágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de texto como de la segunda componente de texto usando valores de profundidad o valores de disparidad, y

comprendiendo además el dispositivo:

- un multiplexor dispuesto para crear una señal de vídeo tridimensional que comprende la primera componente de vídeo, la segunda componente de vídeo, la componente de texto y la componente de ubicación Z compartida y

6. Dispositivo para presentar una señal de vídeo tridimensional que comprende:

- un receptor (18) dispuesto para recibir una señal de vídeo tridimensional que comprende una primera componente de vídeo que comprende primeras imágenes, una segunda componente de vídeo que comprende segundas imágenes, representando las respectivas primeras imágenes y correspondientes segundas imágenes pares estéreo, una primera componente de texto y una segunda componente de texto, comprendiendo la primera componente de texto subtítulos basados en texto y comprendiendo la segunda componente de texto imágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeo tridimensional, y

- un presentador (24) dispuesto para presentar la primera componente de vídeo y la segunda componente de vídeo para proporcionar un vídeo tridimensional, incluyendo la presentación presentar los subtítulos basados en texto o imágenes de mapa de bits basadas en gráficos de presentación en el vídeo tridimensional, y

en el que la señal de imagen tridimensional comprende además una componente de ubicación Z compartida que comprende información de ubicación Z que describe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y las imágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de texto como de la segunda componente de texto usando valores de profundidad o valores de disparidad y

7. Método según la reivindicación 6, en el que los subtítulos basados en texto se prevén en secuencias de subtítulos y en el que la información de ubicación Z compartida comprende valores Z enumerados para todas las secuencias de subtítulos.

8. Señal de imagen tridimensional que comprende una primera componente de vídeo que comprende primeras imágenes, una segunda componente de vídeo que comprende segundas imágenes, representando las respectivas primeras imágenes y correspondientes segundas imágenes pares estéreo, una primera componente de texto y una segunda componente de texto, comprendiendo la primera componente de texto subtítulos basados en texto y comprendiendo la segunda componente de texto imágenes de mapa de bits basadas en gráficos de presentación para su inclusión en el vídeo

tridimensional, y

en la que la señal de vídeo tridimensional comprende además una componente de ubicación Z compartida que comprende información de ubicación Z que describe la posición de profundidad dentro del vídeo tridimensional de los subtítulos basados en texto y las imágenes de mapa de bits basadas en gráficos de presentación tanto de la primera componente de texto como de la segunda componente de texto usando valores de profundidad o valores de disparidad y

en la que la información de ubicación Z es precisa en cuanto al fotograma y está comprendida en la señal

de vídeo tridimensional en mensajes de señalización [SEI] que son paquetes incrustados en una secuencia básica de MPEG de contenido audiovisual, llevando los paquetes parámetros que pueden usarse por un decodificador para decodificar el contenido.

9. Señal de vídeo tridimensional según la reivindicación 8, en la que los subtítulos basados en texto se prevén en secuencias de subtítulos y en la que la información de ubicación Z compartida comprende valores Z enumerados para todas las secuencias de subtítulos.

10. Disco para un sistema de reproducción tridimensional, comprendiendo el disco (16) la señal de vídeo tridimensional según la reivindicación 8 ó 9. 20

11. Producto de programa informático en un medio legible por ordenador, comprendiendo el producto instrucciones para realizar las etapas de uno cualquiera de los métodos según una cualquiera de las reivindicaciones 1 a 4 cuando el programa informático se ejecuta en un ordenador.

Patentes similares o relacionadas:

SISTEMA PARA ACOPLAR UN DISPOSITIVO DE DIGITALIZACIÓN DE IMÁGENES A UN INSTRUMENTO ÓPTICO, del 21 de Noviembre de 2019, de Spotlab, S.L: 1. Sistema para acoplar un dispositivo de digitalización de imágenes, que comprende al menos una lente, a un instrumento óptico que comprende […]

Seguimiento tridimensional de un dispositivo de control del usuario en un volumen, del 30 de Octubre de 2019, de zSpace, Inc: Un método que comprende: recibir múltiples imágenes capturadas de al menos un punto visualmente indicado de un dispositivo de control del usuario […]

Procedimiento de compresión de información de vídeo, del 30 de Octubre de 2019, de Broadmedia GC Corporation: Un procedimiento de compresión de información de vídeo, que comprende las etapas de: - proyectar puntos de una imagen siguiente en puntos proyectados […]

Predicción residual avanzada simplificada para la 3d-hevc, del 14 de Junio de 2019, de QUALCOMM INCORPORATED: Un procedimiento de codificación de datos de vídeo, el procedimiento que comprende: determinar que un bloque actual (Actual) de una primera vista se codifica utilizando […]

Generación y codificación de imágenes integrales residuales, del 22 de Mayo de 2019, de Orange: Procedimiento de codificación de al menos una imagen integral actual (IIj) capturada por un dispositivo de captura de imágenes, que comprende las etapas siguientes: […]

Dispositivo de visualización auto-estereoscópico, del 27 de Marzo de 2019, de KONINKLIJKE PHILIPS N.V: Un dispositivo de visualización auto-estereoscópico que comprende: un medio de formación de la imagen que tiene una matriz bidimensional de píxeles de visualización […]

Dispositivo móvil de visualización 3D sin gafas, procedimiento de configuración del mismo, y procedimiento de uso del mismo, del 20 de Marzo de 2019, de SAMSUNG ELECTRONICS CO., LTD.: Un dispositivo de visualización tridimensional (3D) sin gafas que comprende: un dispositivo de visualización que comprende un monitor […]

Síntesis de visualización en vídeo 3D, del 6 de Marzo de 2019, de QUALCOMM INCORPORATED: Un procedimiento de descodificación de datos de vídeo de múltiples visualizaciones, el procedimiento que comprende: determinar si un índice […]