Método y aparato para codificar una señal de vídeo digital.

Un método de codificación de una secuencia de vídeo digital, comprendiendo dicha secuencia de vídeo digital un conjunto de imágenes que incluye una imagen de referencia y un mapa de disparidad asociado con la misma, teniendo dicho mapa de disparidad un valor de disparidad asignado a cada píxel del mapa de disparidad, caracterizado por que dicho método comprende las etapas de:

- convertir mediante cálculo dicho mapa de disparidad en un mapa de disparidad de valores enteros, comprendiendo dicho mapa de disparidad de valores enteros unos valores enteros que representan valores de disparidad correspondientes del mapa de disparidad, el cálculo de acuerdo con un tipo que designa una representación de los valores de disparidad mediante los valores enteros de entre una pluralidad de posibles representaciones, en el que la pluralidad de posibles representaciones comprende por lo menos una de: una representación afín;

una representación logarítmica;

una representación polinómica; y

una representación por partes;

- codificar

(1) dicho tipo de cálculo que va a aplicarse para convertir mediante cálculo los valores enteros del mapa de disparidad de valores enteros en unos valores de disparidad respectivos que van a usarse para la reconstrucción de una imagen del conjunto de imágenes sobre la base de la imagen de referencia; y

- codificar (3) dicho mapa de disparidad de valores enteros.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2003/003063.

Solicitante: KONINKLIJKE PHILIPS N.V.

Inventor/es: AUBERGER, STEPHANE, PICARD, YANN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > H04N13/00 (Sistemas de televisión estereoscópica; Sus detalles (adaptados especialmente para televisión en color H04N 15/00))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Sistemas de televisión estereoscópica; Sus detalles... > H04N13/02 (Generadores de señales de imagen)

PDF original: ES-2515090_T3.pdf

 

google+ twitter facebookPin it
Método y aparato para codificar una señal de vídeo digital.

Fragmento de la descripción:

Método y aparato para codificar una señal de vídeo digital

La presente invención se refiere a un método de codificación de una secuencia de vídeo digital, comprendiendo dicha secuencia de vídeo digital algunos conjuntos de imágenes que incluyen mapas de disparidad, usándose un mapa de disparidad para reconstruir una imagen de un conjunto de imágenes a partir de una imagen de referencia de dicho conjunto de imágenes. La invención también se refiere a un codificador, ¡mplementando dicho codificador dicho método.

Un método de este tipo puede usarse en, por ejemplo, un sistema de comunicación de vídeo para aplicaciones de vídeo de 3D dentro de las normas de MPEG.

ANTECEDENTES DE LA INVENCIÓN

Un sistema de comunicación de vídeo comprende por lo general un transmisor con un codificador y un receptor con un descodificador. Un sistema de este tipo recibe una secuencia de vídeo digital de entrada, codifica dicha secuencia por medio del codificador, transmite la secuencia codificada al receptor, a continuación descodifica la secuencia transmitida por medio del descodificador, dando como resultado una secuencia de vídeo digital de salida, que es la secuencia reconstruida de la secuencia de vídeo digital de entrada. A continuación, el receptor visualiza dicha secuencia de vídeo digital de salida. Una secuencia de vídeo digital de 3D comprende algunos conjuntos de imágenes con objetos, por lo general un primer conjunto de imágenes de textura junto con otro conjunto de imágenes que se denominan imágenes de disparidad o mapas de disparidad. Una imagen comprende algunos píxeles.

Cada imagen de la señal de vídeo digital se codifica a lo largo de diferentes esquemas de codificación generales, que ya se han propuesto dentro del ámbito de MPEG. Por ejemplo, la norma de MPEG2 con referencia Draft amendment N°3 to 13818-2 Multi-view profile - JTC1/SC29A/VG11N188' editada por ISO/IEC en noviembre de 1995 durante la Reunión del MPEG de Dallas (Texas), ha establecido la base para la codificación de diferentes vistas de una misma secuencia de vídeo. El principio fundamental no solo tiene como fin, al igual que en la mayor parte de los esquemas de codificación de vídeo tradicionales, el uso de redundancias temporales y espaciales dentro de una secuencia de vídeo, sino también el uso de redundancias entre los diferentes puntos de vista dentro de una secuencia de vídeo, en la que cada punto de vista es una imagen, una imagen izquierda y una imagen derecha que se capturan respectivamente, por ejemplo, por una cámara izquierda y una cámara derecha. Debido a que los objetos de una secuencia de vídeo que se observan a partir de dos puntos de vista ligeramente diferentes no difieren mucho, es posible predecir una gran parte de puntos de vista a partir de unos puntos de vista de referencia en virtud de unos vectores de predicción que también se denominan vectores de disparidad.

Debido a que siempre es posible tener vectores de disparidad que se encuentran, la totalidad de ellos, a lo largo de la misma dirección, a menudo esto suponía que solo hubiera vectores de disparidad horizontales. En este caso, un vector de disparidad se define por un único valor, que se denomina valor de disparidad. El mapa de disparidad es una imagen en la que un valor de disparidad está asignado a cada píxel.

Estos valores de disparidad se codifican mediante el codificador y se transmiten al descodificador. También se envía una imagen de referencia al descodificador, por ejemplo la izquierda. Dicho descodificador usará, entre otros parámetros, los valores de disparidad para reconstruir la imagen derecha a partir de la imagen de referencia.

Hay diversos esquemas de codificación bien conocidos por el experto en la materia, como esquemas basados en malla o de codificación de longitud de ejecución sin pérdida basada en DCT, que pueden usarse para codificar una imagen. En la totalidad de estos esquemas de codificación, los valores de disparidad se codifican por lo general en valores enteros n, a menudo en datos de 8 bits que representan 256 niveles de gris.

Un inconveniente de estos esquemas de codificación es que, en el lado del receptor, no se sabe exactamente cómo traducir el mapa de disparidad de una imagen de textura únicamente a partir de estos datos de niveles de gris.

De hecho, dependiendo de un contenido de secuencia de vídeo, puede cambiar de forma drástica el mapa de disparidad de una imagen de textura y, por lo tanto, la traducción.

Si la secuencia de vídeo contiene solo objetos filmados a muy corta distancia, puede ser necesario que la disparidad sea bastante precisa, con una precisión por debajo de un píxel. Por el contrario, si la cámara enfoca objetos muy lejanos, una precisión por debajo de un píxel podría no ser de interés, mientras que podría haber algunos valores de disparidad muy grandes. Por último, podría darse una situación mixta, con diferentes regiones de interés en la escena y una necesidad de un conjunto variable no lineal de valores de disparidad.

Por lo tanto, debido a este problema de traducción del mapa de disparidad de la técnica anterior, en el lado del receptor, hay a menudo un ajuste manual del visualizador de 3D con el fin de:

- ver correctamente en 3D la secuencia de vídeo reconstruida, de tal modo que una imagen reconstruida es igual a, o tiene pocas distorsiones en comparación con, la original, y / o

- ver correctamente en 3D una segunda secuencia de vídeo de 3D después de una secuencia de vídeo de 3D previa, enviada por 2 difusores diferentes, por ejemplo, si estas dos secuencias de vídeo tienen valores de disparidad totalmente diferentes asignados a las mismas.

Si el ajuste manual ha de hacerse muy a menudo, este dará lugar a molestias para un observador de una secuencia de vídeo de 3D.

El documento Advanced Rate Control Technologies for 3D-HDTV Digital Coding Based on MPEG-2 Multi-view Profile", Sei Nato y Shuichi Matsumoto, Image Processing, 1999. ICIP 99. Proceedings International Conference en Kobe, Japón, del 24 al 28 de oct. De 1999, IEEE, págs. 281 -285, divulga una tecnología para controlar la tasa de un tren de 3D-HDTV. Se introduce un control de memoria intermedia común para lograr un efecto de multiplexación estadística a la vez que se mantiene bien equilibrada la calidad de las imágenes tanto derecha como izquierda. A continuación, se divulga una asignación de bits discriminatoria para mejorar la calidad de la imagen izquierda sin deterioro alguno de la imagen derecha. Esta asignación de bits se aplica a la cuantificación de DCT de la imagen izquierda y al movimiento y a la compensación de disparidad de la imagen derecha.

La solicitud de patente WO 1/1348 divulga un método para codificar un mapa de profundidad mediante la identificación y el perfilado de un objeto dentro de una imagen, la asignación de un símbolo de identificación de objeto al objeto, usando el símbolo de objeto asignado para representar la forma del objeto y la asignación al objeto de una profundidad.

OBJETO Y SUMARIO DE LA INVENCIÓN

Por consiguiente, un objeto de la invención es la provisión de un método y un codificador tal como se define en las reivindicaciones adjuntas para codificar una secuencia de vídeo digital, comprendiendo dicha secuencia de vídeo digital algunos conjuntos de imágenes que incluyen mapas de disparidad, usándose un mapa de disparidad para reconstruir una imagen de un conjunto de imágenes a partir de una imagen de referencia de dicho conjunto de imágenes, que permiten una traducción precisa del mapa de disparidad.

Para este fin, el método comprende las etapas de:

- codificar un tipo del mapa de disparidad que va a usarse para la reconstrucción de una imagen, y

- codificar... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de codificación de una secuencia de vídeo digital, comprendiendo dicha secuencia de vídeo digital un conjunto de imágenes que incluye una imagen de referencia y un mapa de disparidad asociado con la misma, teniendo dicho mapa de disparidad un valor de disparidad asignado a cada píxel del mapa de disparidad, caracterizado por que dicho método comprende las etapas de:

- convertir mediante cálculo dicho mapa de disparidad en un mapa de disparidad de valores enteros, comprendiendo dicho mapa de disparidad de valores enteros unos valores enteros que representan valores de disparidad correspondientes del mapa de disparidad, el cálculo de acuerdo con un tipo que designa una representación de los valores de disparidad mediante los valores enteros de entre una pluralidad de posibles representaciones, en el que la pluralidad de posibles representaciones comprende por lo menos una de:

una representación afín; una representación logarítmica; una representación polinómlca; y una representación por partes;

-codificar (1) dicho tipo de cálculo que va a aplicarse para convertir mediante cálculo los valores enteros del mapa de disparidad de valores enteros en unos valores de disparidad respectivos que van a usarse para la reconstrucción de una imagen del conjunto de imágenes sobre la base de la imagen de referencia; y

- codificar (3) dicho mapa de disparidad de valores enteros.

2. Un método de codificación de una secuencia de vídeo digital tal como se reivindica en la reivindicación 1, caracterizado por que la codificación del tipo de cálculo que va a aplicarse se realiza por medio de una bandera.

3. Un método de codificación de una secuencia de vídeo digital tal como se reivindica en la reivindicación 1, caracterizado por que la codificación del tipo de cálculo que va a aplicarse va seguida por un conjunto de parámetros de una fórmula de acuerdo con los cuales se realiza el cálculo.

4. Un producto de programa informático para un codificador (ENC), que comprende un conjunto de instrucciones que, cuando se cargan en dicho codificador (ENC), da lugar a que el codificador (ENC) lleve a cabo el método que se reivindica en las reivindicaciones 1 a 3.

5. Un producto de programa informático para un ordenador, que comprende un conjunto de instrucciones que, cuando se cargan en dicho ordenador, da lugar a que el ordenador lleve a cabo el método que se reivindica en las reivindicaciones 1 a 3.

6. Un codificador (ENC) configurado para codificar una secuencia de vídeo digital, comprendiendo dicha secuencia de vídeo digital un conjunto de imágenes que incluye una imagen de referencia y un mapa de disparidad asociado con la misma, teniendo dicho mapa de disparidad un valor de disparidad asignado a cada píxel del mapa de disparidad, caracterizado por que el codificador comprende:

- unos medios de cálculo adaptados para convertir mediante cálculo dicho mapa de disparidad en un mapa de disparidad de valores enteros, comprendiendo dicho mapa de disparidad de valores enteros unos valores enteros que representan valores de disparidad correspondientes del mapa de disparidad, el cálculo de acuerdo con un tipo que designa una representación de los valores de disparidad mediante los valores enteros de entre una pluralidad de posibles representaciones, en el que la pluralidad de posibles representaciones comprende por lo menos una de:

una representación afín; una representación logarítmica; una representación polinómica; y una representación por partes;

- unos primeros medios de codificación adaptados para codificar dicho tipo de cálculo que va a aplicarse para convertir mediante cálculo los valores enteros del mapa de disparidad de valores enteros en unos valores de disparidad respectivos que van a usarse para la reconstrucción de una imagen del conjunto de imágenes sobre la base de la imagen de referencia; y

- unos segundos medios de codificación adaptados para codificar dicho mapa de disparidad de valores enteros.

7. Un descodificador (DEC) configurado para descodificar una secuencia de vídeo digital codificada, comprendiendo dicha secuencia de vídeo digital codificada una imagen de referencia que es una de un conjunto de imágenes y un mapa de disparidad de valores enteros codificado asociado con la imagen de referencia, comprendiendo el descodificador:

- unos primeros medios de descodificación para descodificar el mapa de disparidad de valores enteros codificado dando como resultado un mapa de disparidad de valores enteros que tiene un valor entero asignado a cada pixel,

- unos segundos medios de descodificación para descodificar un tipo de cálculo que va a aplicarse para convertir

mediante cálculo los valores enteros del mapa de disparidad de valores enteros en unos valores de disparidad

correspondientes que van a usarse para la reconstrucción de una imagen del conjunto de imágenes sobre la base de la imagen de referencia; y

- unos medios de cálculo dispuestos para convertir mediante cálculo los valores enteros del mapa de disparidad de valores enteros en los valores de disparidad respectivos basándose en dicho tipo;

en el que dicho tipo designa una representación de los valores de disparidad mediante los valores enteros de

entre una pluralidad de posibles representaciones, y en el que la pluralidad de posibles representaciones comprende por lo menos una de:

- una representación afín;

- una representación logarítmica;

- una representación polinómica; y

- una representación por partes.

8. Un sistema de comunicación de vídeo, que es capaz de recibir una secuencia de vídeo digital, que comprende un 2 codificador (ENC) tal como se reivindica en la reivindicación 6 para codificar dicha secuencia de vídeo digital con el fin de obtener una señal de vídeo codificada, un canal de transmisión para transmitir la señal de vídeo codificada y un descodificador (DEC) tal como se reivindica en la reivindicación 7 para descodificar dicha señal de vídeo codificada.