Procedimiento y sistema para codificar y decodificar una señal de video en 3D.

Procedimiento para codificar una señal de datos de video en 3D que comprende por lo menos un señal de datos de video primaria y una secundaria, caracterizado porque las señales de datos de video primaria y secundaria se combinan en una señal de datos de video combinada, siendo comprimida dicha señal de datos de video combinada comprendiendo que la señal de datos de video secundaria se predice temporalmente a partir de la señal de datos de video primaria, comprimiéndose la señal de datos de video primaria de un modo autocontenido, lo que significa que la predicción temporal para sus imágenes se puede realizar tan solo a partir de imágenes de su propia señal de datos primaria, para proporcionar un único flujo de bits de video comprimido, donde a continuación la única señal de datos de video comprimida se divide en flujos de bits separados, comprendiendo los flujos de bits de video separados un flujo de bits de video primario que comprende datos para la señal de datos de video primaria y un flujo de bits de video secundario que comprende datos para la señal de datos de video secundaria, donde a continuación los flujos de bits de video primario y secundario se multiplexan

(MUX) en una señal multiplexada, donde se asignan códigos distintos (0 × 1B, 0 × 20) a los flujos de bits primario y secundario, siendo el código asignado al flujo de video primario un código (0 × 1B) descifrable por un decodificador de video en 2D, siendo el código asignado al flujo de video secundario un código diferente, permitiendo así que un decodificador de video en 2D extraiga y decodifique tan solo el flujo de bits de video primario.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2008/053739.

Solicitante: KONINKLIJKE PHILIPS N.V.

Inventor/es: BRULS,WILHELMUS,H.,A, BOURGE,ARNAUD P. H.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • H04N7/26
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > H04N13/00 (Sistemas de televisión estereoscópica; Sus detalles (adaptados especialmente para televisión en color H04N 15/00))

PDF original: ES-2536776_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procedimiento y sistema para codificar y decodificar una señal de video en 3D CAMPO DE LA INVENCIÓN

La invención se refiere al campo de la codificación y decodificación de video. Presenta un procedimiento y un sistema para codificar una señal de datos de vídeo. La invención se refiere asimismo a una señal de datos de video codificada. La invención se refiere asimismo a un procedimiento para decodificar y a un sistema para decodificar una señal de datos de video.

ANTECEDENTES DE LA INVENCIÓN

Recientemente ha habido mucho interés en proporcionar posibilidades de vídeo aumentadas, por ejemplo imágenes en 3D en monitores de imagen en 3D. Se cree que la generación de imágenes en 3D será, tras la generación de imágenes en color, la siguiente gran innovación en la generación de imágenes. Nos encontramos en los inicios de la introducción de monitores auto-estereoscópicos para el mercado de consumo.

Básicamente se puede crear una impresión tridimensional utilizando pares estereoscópicos, es decir, dos imágenes ligeramente diferentes dirigidas a los dos ojos del observador.

Cualquiera que sea el tipo de dispositivo de visualización utilizado, la información de imagen en 3D tiene que ser suministrada al dispositivo de visualización. Esto se realiza habitualmente en forma de una señal de datos de video que comprende datos digitales, comprendiendo a menudo datos para una vista de izquierda y una de derecha o para varias vistas, cuando se generan múltiples vistas.

Otro ejemplo de posibilidades de vídeo aumentadas es proporcionar una señal de datos de video capaz de proporcionar un video de alta frecuencia, por ejemplo video con el doble de la frecuencia estándar de presentación de fotogramas.

Aún otro ejemplo es proporcionar una señal de datos de video de resolución mejorada.

Debido a las cantidades ingentes de datos inherentes a la generación de imágenes digitales, el procesamiento y/o la transmisión de señales de imagen digital constituye un problema significativo. En muchas circunstancias, la potencia de procesamiento disponible y/o la capacidad de transmisión es insuficiente para procesar y/o transmitir señales de datos de video de alta calidad. Más concretamente, cada fotograma de imagen digital es una imagen estática formada por una matriz de píxeles. Este problema existe para cualquier video pero aumenta para imágenes de video en 3D, y el mismo aumento en el problema tiene lugar cuando se va a generar una señal de datos de video de doble frecuencia o se va a generar una señal de datos de video de resolución mejorada.

Las cantidades de información digital en bruto son habitualmente ingentes, lo que requiere una gran potencia de procesamiento y/o grandes velocidades de transmisión, lo que no siempre se encuentra disponible. Se han propuesto diversos procedimientos de compresión para reducir la cantidad de datos que se va a transmitir, incluyendo, por ejemplo, MPEG-2, MPEG-4 y H.263.

Los procedimientos de compresión conocidos se han establecido originariamente para imágenes en 2D estándares.

El documento EP 1524859 da a conocer un flujo de bits con un fotograma de video actual codificado con dos campos entrelazados, en un estándar MPEG-2, MPEG-4, o H.264, decodificar un campo de fotograma actual superior e inferior; y presentar los campos decodificados superior e inferior como una imagen de fotograma en 3D. El procedimiento presenta los campos decodificados superior e inferior como una imagen en vista estereoscópica, y acepta comandos de selección en 2D como respuesta a un disparo tal como la recepción de un mensaje de información de mejora suplementaria (SEI). A continuación, solo uno de los campos entrelazados de fotograma actual se decodifica, y se presenta una imagen de fotograma en 2D.

El documento US2002/0009137 describe un procedimiento para codificar imágenes en 3D. Una vista se puede codificar en un flujo de bits de capa de base, y la otra vista en una capa de mejora. La salida del codificador se forma mediante dos flujos de bits distintos.

Si, por ejemplo, se genera información en 3D en el lado de adquisición, esta información necesita ser transmitida y con el fin de tener un menor coste extra en términos de velocidad binaria, se requiere la compresión de la información en 3D. Preferiblemente, la compresión (o codificación) de la información en 3D se realiza de tal modo que la compresión de información en 3D se puede implementar utilizando estándares de compresión existentes con tan solo ajustes relativamente pequeños. Cuando la señal de datos de video se mejora en el sentido de que comprende información sobre la señal de doble frecuencia o resolución mejorada se aplica esto mismo.

Además, la señal de video mejorada es preferiblemente compatible retroactivamente, es decir, un aparato de video estándar convencional debería poder mostrar preferiblemente una "buena" imagen de video a partir de la señal de video mejorada. Por ejemplo, la señal estereoscópica en 3D es preferiblemente compatible con 2D retroactivamente, es decir, un aparato de 2D convencional debería ser capaz de mostrar preferiblemente una "buena" imagen en 2D a partir de la señal de 3D. Una señal de datos de video de 100 Hz de alta frecuencia debe poder ser mostrada en un aparato de video estándar de 50 Hz incluso aunque el propio aparato no sea capaz de mostrar señales de 100 Hz. Igualmente, una señal de datos de video de resolución mejorada (HDTV, televisión de alta definición) debe poder ser mostrada en un aparato de televisión estándar.

La simple compresión de una Imagen estereoscópica como dos separadas conduce a un gran aumento en la velocidad binaria. Codificar separadamente las vistas izquierda (L) y derecha (R) de un par estereoscópico conduce prácticamente a doblar la velocidad binaria en comparación con un sistema mono (una única vista) si se quiere garantizar la misma calidad. Así pues, tal procedimiento, aunque garantiza que un dispositivo de 2D puede mostrar una imagen, requiere doblar la velocidad binaria.

La cantidad de datos aumenta todavía más cuando se utiliza un sistema multivisión en el que se generan más de dos vistas.

Lo mismo se aplica cuando una señal de datos de video se mejora incluyendo información de señales de datos de video de más alta frecuencia. Doblar la frecuencia doblaría los datos. Aumentar la resolución crea el mismo problema.

Un procedimiento mejor, en lo relativo a la eficiencia de codificación, es comprimir conjuntamente las dos vistas estereoscópicas (izquierda y derecha) o más o comprimir conjuntamente señales de datos de video de alta frecuencia y de baja frecuencia o comprimir conjuntamente señales de datos de video de baja resolución y de alta resolución. Esta solución, para un fotograma izquierdo y derecho, conduce típicamente, cuando se comprimen conjuntamente dos vistas, a utilizar un 50% más de ancho de banda que el caso de la vista individual (en comparación con aproximadamente un 100% más de ancho de banda en el caso de codificar vistas separadas). Esto se puede conseguir utilizando codificadores de compresión de video en 2D convencionales entrelazando fotogramas izquierdo y derecho para cada vista estereoscópica para formar una secuencia en 2D "falsa". En el lado de recuperación, los fotogramas en 2D se desentrelazan y cada vista se recupera y muestra. Por ejemplo, las dos vistas (L y R) se pueden entrelazar como fotogramas antes de entrar en un codificador de video.

Sin embargo, aunque utilizando técnicas estándar, por ejemplo para video en estéreo se puede comprimir más eficientemente (1,5*gananc¡a) de modo conjunto que comprimiendo las vistas separadas y el flujo de bits resultante se podría visualizar en un dispositivo de 3D adecuado, los... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para codificar una señal de datos de video en 3D que comprende por lo menos un señal de datos de video primarla y una secundaria, caracterizado porque las señales de datos de video primarla y secundarla se combinan en una señal de datos de video combinada, siendo comprimida dicha señal de datos de video combinada comprendiendo que la señal de datos de video secundarla se predice temporalmente a partir de la señal de datos de video primaria, comprimiéndose la señal de datos de video primarla de un modo autocontenldo, lo que significa que la predicción temporal para sus imágenes se puede realizar tan solo a partir de Imágenes de su propia señal de datos primaria, para proporcionar un único flujo de bits de video comprimido, donde a continuación la única señal de datos de video comprimida se divide en flujos de bits separados, comprendiendo los flujos de bits de video separados un flujo de bits de video primario que comprende datos para la señal de datos de video primarla y un flujo de bits de video secundario que comprende datos para la señal de datos de video secundarla, donde a continuación los flujos de bits de video primario y secundario se multlplexan (MUX) en una señal multlplexada, donde se asignan códigos distintos (0 * 1E3, 0 * 20) a ¡°s flujos de bits primarlo y secundarlo, siendo el código asignado al flujo de video primarlo un código (0 * 1E3) descifrable por un decodlflcador de video en 2D, siendo el código asignado al flujo de video secundario un código diferente, permitiendo así que un decodlflcador de video en 2D extraiga y decodlflque tan solo el flujo de bits de video primario.

2. Procedimiento para codificar señales de datos de video de acuerdo con la reivindicación 1, donde se codifica una señal de datos de video, comprendiendo la señal de datos de video un primer (L, R) y por lo menos un segundo conjunto (R, L) de fotogramas, donde los fotogramas del conjunto primero y el segundo se entrelazan (VI) para formar una secuencia de video entrelazada (comb L + R), o donde se recibe una señal de datos de video entrelazada (100 Hz) que comprende un primer y un segundo conjunto de fotogramas, donde la secuencia de video entrelazada se comprime en un único flujo de bits de video comprimido, donde los fotogramas del primer conjunto se codifican y comprimen sin utilizar fotogramas del segundo conjunto, y los fotogramas del segundo conjunto se codifican y comprimen utilizando fotogramas del primer conjunto, y donde el único flujo de bits de video comprimido se divide (BSS) subsiguientemente en un flujo de bits primarlo y por lo menos uno secundario, comprendiendo cada flujo de bits fotogramas, donde el flujo de bits primario comprende fotogramas comprimidos para el primer conjunto, y el flujo de bits secundarlo para el segundo conjunto, formando los flujos de bits primario y secundario flujos de bits separados, donde a continuación los flujos de bits primarlo y secundario se multiplexan (MUX) en una señal multlplexada, donde se asignan códigos distintos (0 x 1B, 0 * 20) a ios fiujos de bits primario y secundario, siendo el código asignado al flujo de video primario un código (0 x 1B) descifrable por un decodificador de video en 2D, siendo el código asignado al flujo de video secundario un código diferente, permitiendo así que un decodificador de video en 2D extraiga y decodifique tan solo el fiujo de bits de video primario.

3. Procedimiento de acuerdo con la reivindicación 2, donde la señal de datos de video se codifica de tal modo que el flujo de bits primario comprende datos para fotogramas en una de las vistas (L, R) de una señal de datos de video en 3D, el flujo de bits secundario comprende datos para fotogramas de la otra vista (R, L) de la señal de datos de

video en 3D.

4. Procedimiento de acuerdo con la reivindicación 2, donde la señal de datos de video se codifica de tal modo que el flujo de bits primario comprende datos para fotogramas de una de tres o más vistas desde distintos puntos de vista, y se genera más de un flujo de bits secundario, comprendiendo los flujos de bits secundarios datos para fotogramas de una de las otras vistas.

5. Sistema de codificación para codificar una señal de datos de video en 3D, que comprende un receptor para recibir por lo menos un señal de datos de video primaria y una secundaria, caracterizado porque el sistema de codificación comprende un combinador para combinar la señal de datos de video primaria y la secundaria en una señal de datos de video combinada, un compresor para comprimir la señal de datos de video combinada, disponiéndose el compresor para predecir temporalmente la segunda señal de datos de video a partir de la señal de datos de video primaria, disponiéndose el compresor para comprimir la señal de datos de video primaria de un modo autocontenido, lo que significa que la predicción temporal para sus imágenes se puede realizar tan solo a partir de imágenes de su propia señal de datos primaria, disponiéndose el compresor para proporcionar un único flujo de bits de video comprimido, donde el sistema comprende un divisor (BSS) para dividir la única señal de datos de video comprimido en flujos de bits separados, comprendiendo los flujos de bits de video separados un flujo de bits de video primario que comprende datos para la señal de datos de video primaria y un flujo de bits de video secundario que comprende datos para la señal de datos de video secundaria, y un multiplexor (MUX) para multiplexar los flujos de bits de video primario y secundario en una señal multiplexada, y para asignar códigos distintos (0 x 1B, 0 x 20) a los fiujos de bits primario y secundario, siendo el código asignado al fiujo de video primario un código (0 x 1B) descifrable por un decodificador de video en 2D, siendo el código asignado al flujo de video secundario un código diferente, permitiendo así que un decodificador de video en 2D extraiga y decodifique tan solo el flujo de bits de video primario.

6. Sistema de codificación para codificar una señal de datos de video de acuerdo con la reivindicación 5, que comprende un dispositivo de entrelazado (VI) para entrelazar fotogramas a partir de una primera y una segunda vista para formar una secuencia de video entrelazada, o que comprende un receptor para recibir una secuencia de

video entrelazada que comprende un primer y un segundo conjunto de fotogramas, comprendiendo el sistema un codificador para codificar la secuencia de video entrelazada, donde el codificador comprende un compresor para comprimir los fotogramas de la primera de las vistas sin utilizar fotogramas de la segunda vista, y para comprimir los fotogramas de la segunda vista utilizando fotogramas de la primera vista, en un único flujo de bits de video comprimido y el sistema comprende un divisor (BSS) para dividir el único flujo de bits comprimido en un flujo de bits primario y uno secundario, comprendiendo los flujos de bits primario y secundario fotogramas, donde el flujo de bits primario comprende fotogramas comprimidos para el primer conjunto, y el flujo de bits secundario para el segundo conjunto, formando los flujos de bits primario y secundario flujos de bits separados, comprendiendo además el sistema de codificación un multiplexor (MUX) para multiplexar los flujos de bits primario y secundario, y para asignar códigos distintos (0 * 1B, 0 * 20) a los flujos de bits primario y secundario, siendo el código asignado al flujo de video primario un código (0 x 1B) descifrable por un decodificador de video en 2D, siendo el código asignado al flujo de video secundario un código diferente, permitiendo así que un decodificador de video en 2D extraiga y decodifique tan solo el flujo de bits de video primario.

7. Sistema de codificación de acuerdo con la reivindicación 6, donde el dispositivo de entrelazado se dispone para entrelazar una vista izquierda y una derecha de un par de vistas estereoscópicas.

8. Sistema de codificación de acuerdo con la reivindicación 7, donde el dispositivo de entrelazado se dispone para entrelazar fotogramas de más de dos vistas.

9. Dispositivo de grabación que comprende un sistema de codificación de acuerdo con cualquiera de las reivindicaciones 5 a 8 anteriores.

10. Producto de programa de ordenador que comprende medios de código de programa almacenados en un medio legible por ordenador para realizar un procedimiento de codificación de acuerdo con cualquiera de las reivindicaciones 1 a 4.

11. Procedimiento para decodificar una señal de datos de video en 3D en el que se recibe una señal multiplexada, comprendiendo la señal multiplexada por lo menos dos flujos de bits de video, caracterizado porque los flujos de bits comprenden códigos distintos (0 x 01, 0 x 1B, 0 x 20), donde un primer flujo de bits de video (0 x 01, 0 x 1B) es una señal de datos de video autocontenida, lo que significa que la predicción temporal para sus imágenes se puede realizarían solo a partir de imágenes de su propia señal de datos primaria, estando provisto dicho primer flujo de bits de video con un código descifrable por un decodificador de video en 2D y por lo menos un segundo flujo de bits de video (0 x 20) no es autocontenido, lo que significa que se predice temporalmente a partir del flujo de bits de video primario, teniendo dicho segundo flujo de bits de video un código distinto al del primer flujo de bits de video, donde a continuación los dos flujos de bits de video se demultiplexan y combinan (BSM) en un flujo de bits de video combinado y el flujo de bits de video combinado se decodifica y descomprime, donde en la descompresión del flujo de bits de video autocontenido solo se utilizan datos del flujo de bits de video autocontenido, y en la descompresión del segundo flujo de bits de video se utilizan datos del primer flujo de bits de video.

12. Procedimiento para decodificar de acuerdo con la reivindicación 11, donde la señal combinada forma un conjunto entrelazado de fotogramas y tras la descompresión los fotogramas se desentrelazan (VDI).

13. Procedimiento para decodificar de acuerdo con la reivindicación 11, donde se forman una vista izquierda y una derecha.

14. Procedimiento para decodificar de acuerdo con la reivindicación 11, donde se forman más de una vista de una multivisión.

15. Sistema de decodificación para decodificar una señal de datos de video en 3D que comprende un receptor para recibir una señal multiplexada, comprendiendo la señal multiplexada por lo menos dos flujos de bits de datos de video, caracterizado porque los flujos de bits comprenden códigos distintos (0 x 01, 0 x 1B, 0 x 20), donde un primer flujo de bits de video (0 x 01, 0 x 1B) es un flujo de bits de video autocontenido, lo que significa que la predicción temporal para sus imágenes se puede realizar tan solo a partir de imágenes de su propia señal de datos primaria, estando provisto dicho primer flujo de bits de video con un código descifrable por un decodificador de video en 2D y por lo menos un segundo flujo de bits de video (0 x 20) no es autocontenido, lo que significa que se predice temporalmente a partir del flujo de bits de video primario, un demultiplexor para demultiplexar la señal multiplexada y un concentrador (BSM) para combinar los por lo menos dos flujos de bits de video demultiplexados en un flujo de bits de video combinado, un decodificador para decodificar y descomprimir el flujo de bits de video combinado, donde el decodificador se dispone de tal modo que en la descompresión del flujo de bits de video autocontenido solo se utilizan datos del flujo de bits de video autocontenido, y en la descompresión del segundo flujo de bits de video se utilizan datos del primer flujo de bits de video.

16. Sistema de decodiflcación de acuerdo con la reivindicación 15, donde la señal combinada forma un conjunto entrelazado de fotogramas y el sistema comprende un dispositivo de desentrelazado (VDI) para desentrelazar tras la descompresión de los fotogramas.

17. Dispositivo de visualización que comprende un sistema de decodificación de acuerdo con ia reivindicación 15 o 16.

5 18. Producto de programa de ordenador que comprende medios de código de programa almacenados en un medio

legible por ordenador para realizar un procedimiento de decodificación de acuerdo con una cualquiera de las reivindicaciones 11 a 14.