Escalabilidad de profundidad de bits.

Codificador para codificar datos fuente de imagen o vídeo (160) en un flujo de datos de calidad escalable

(112), que comprende:

un medio de codificación base (102) para codificar los datos fuente de imagen o vídeo (160) en un flujo de datos de codificación base que representa una representación de los datos fuente de imagen o vídeo con una primera profundidad de bits de muestras de imagen;

un medio de correlación (104) para correlacionar muestras de la representación de los datos fuente de imagen o vídeo (160) que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a una segunda profundidad de bits de muestras de imagen mayor que la primera profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en los datos fuente de imagen o vídeo (160) o que varían en una primera granularidad, y una función de correlación local que modifica localmente la una o más funciones de correlación global en una segunda granularidad más fina que la primera granularidad para obtener una predicción de los datos fuente de imagen o vídeo que presentan la segunda profundidad de bits de muestras de imagen;

un medio de codificación residual (106) para codificar un residuo de predicción de la predicción en un flujo de datos de capa de mejora de profundidad de bits; y

un medio de combinación (108) para formar el flujo de datos de calidad escalable en función del flujo de datos de codificación base, la función de correlación local y el flujo de datos de capa de mejora de profundidad de bits, de modo que la función de correlación local puede obtenerse a partir del flujo de datos de calidad escalable.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/003047.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: WIEGAND, THOMAS, WINKEN,MARTIN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • H04N7/26

PDF original: ES-2527932_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Escalabilidad de profundidad de bits

[1] La presente invención se refiere a la codificación de imágenes y/o vídeo y, en particular, a una codificación de calidad escalable que permite la escalabilidad de profundidad de bits usando flujos de datos de calidad escalable.

[2] El Equipo Mixto de Vídeo (JVT, Joint Video Team) del Grupo de Expertos de Imágenes en Movimiento (MPEG, Moving Pictures Experts Group) de ISO/IEC y el Grupo de Expertos de Codificación de Vídeo (VCEG, Video Coding Experts Group) de ITU-T han finalizado recientemente una extensión escalable de la norma de codificación de vídeo de última generación H.264/AVC denominada Codificación de Vídeo Escalable (SVC, Scalable Video Coding). SVC soporta la codificación temporal, espacial y escalable en SNR de secuencias de vídeo o cualquier combinación de las mismas.

[3] La norma H.264/AVC descrita en el documento "Advanced Video Coding for Generic Audiovisual Services", de ITU-T Rec. & ISO/IEC 14496-1 AVC, versión 3, 25, especifica un códec de vídeo híbrido en el que señales de predicción de macrobloque se generan en el dominio temporal mediante predicción compensada por movimiento, o en el dominio espacial mediante intra-predicción, donde ambas predicciones van seguidas de una codificación residual. La codificación H.264/AVC sin la extensión de escalabilidad se conoce como codificación H.264/AVC de capa única. Una relación velocidad/distorsión comparable con H.264/AVC de capa única significa que normalmente se consigue la misma calidad de reproducción visual a una velocidad binaria del 1%. A partir de lo anterior, la escalabilidad se considera una funcionalidad para la eliminación de partes del flujo de bits consiguiendo al mismo tiempo una relación velocidad/distorsión en cualquier resolución espacial, temporal o SNR soportada que sea comparable con la codificación H.264/AVC de capa única en esa resolución particular.

[4] El diseño básico de la codificación de vídeo escalable (SVC) puede clasificarse como un códec de vídeo estratificado. En cada capa, los conceptos básicos de la predicción compensada por movimiento y la intra- predicción se utilizan como en H.264/AVC. Sin embargo, mecanismos adicionales de predicción entre capas se han integrado con el fin de aprovechar la redundancia entre varias capas espaciales o SNR. La escalabilidad SNR se consigue básicamente mediante cuantificación residual, mientras que para la escalabilidad espacial se utiliza una combinación de predicción compensada por movimiento y una descomposición piramidal sobremuestreada. Se mantiene el enfoque de escalabilidad temporal de H.264/AVC.

[5] En general, la estructura del codificador depende del espacio de escalabilidad requerido por una aplicación. A modo de ilustración, la Fig. 8 muestra una estructura de codificador 9 típica con dos capas espaciales 92a, 92b. En cada capa se utiliza una estructura de predicción compensada por movimiento jerárquica e independiente 94a,b con parámetros de movimiento específicos de capa 96a,b. La redundancia entre capas 92a,b consecutivas es aprovechada por los conceptos de predicción entre capas 98 que incluyen mecanismos de predicción para parámetros de movimiento 96a,b, así como datos de textura 91a,b. Una representación base 912a,b de las imágenes de entrada 914a,b de cada capa 92a, b se obtiene mediante codificación de transformada 916a,b similar a la de H.264/AVC, donde las unidades NAL (Capa de Abstracción de Red, Network Abstraction Layer) correspondientes contienen información de movimiento y datos de textura; las unidades NAL de la representación base de la capa más baja, es decir, 912a, son compatibles con H.264/AVC de capa única.

[6] Los flujos de bits resultantes proporcionados por la codificación de capa base 916a,b y la codificación de textura de refinamiento SNR progresivo 918a,b de las capas respectivas 92a,b, respectivamente, se multiplexan por un multiplexor 92 con el fin de obtener el flujo de bits escalable 922. Este flujo de bits 922 puede escalarse en el tiempo, en el espacio y en calidad SNR.

[7] En resumen, según la extensión escalable anterior de la norma de codificación de vídeo H.264/AVC, la escalabilidad temporal se proporciona usando una estructura de predicción jerárquica. Para esta estructura de predicción jerárquica, una de las normas H.264/AVC de capa única puede usarse sin modificaciones. Para la escalabilidad espacial y SNR tienen que añadirse herramientas adicionales a H.264/MPEG4.AVC de capa única como se describe en la extensión SVC de H.264/AVC. Los tres tipos de escalabilidad pueden combinarse para generar un flujo de bits que soporte, en gran medida, una escalabilidad combinada.

[8] Surgen problemas cuando una señal fuente de vídeo tiene un intervalo dinámico diferente al requerido por el descodificador o reproductor, respectivamente. En la norma SVC actual mencionada anteriormente, las herramientas de escalabilidad solo se especifican para el caso en que tanto la capa base como la capa de mejora representan una fuente de vídeo dada con la misma profundidad de bits de las disposiciones correspondientes de muestras de luminancia y/o crominancia. Por tanto, considerando diferentes descodificadores y reproductores, respectivamente, que requieren diferentes profundidades de bits, varios flujos de codificación dedicados para cada una de las profundidades de bits tendrían que proporcionarse por separado. Sin embargo, desde el punto de vista de

la relación velocidad/dlstorsión, esto supone una mayor sobrecarga y una menor eficiencia, respectivamente.

[9] Se ha propuesto añadir a la norma SVC una escalabilidad en lo que respecta a la profundidad de bits. Por ejemplo, Shan Liu et al. describen en un documento de JVT, concretamente el JVT-X75, la posibilidad de obtener una predicción entre capas a partir de una representación de profundidad de bits inferior de una capa base mediante la utilización de una correlación de tonos inversa según la cual un valor de píxel p predicho entre capas o correlacionado con tonos de manera inversa se calcula a partir de un valor de píxel de capa base pb mediante la expresión p = pb escala + desfase, donde cabe señalar que la predicción entre capas se lleva a cabo en macrobloques o en tamaños de bloque más pequeños. En el documento JVT-Y67, Shan Liu presenta resultados para este esquema de predicción entre capas. Asimismo, Andrew Segall et al. proponen en el documento JVT-X71 una predicción entre capas para la escalabilidad de profundidad de bits según la cual se usa una operación de ganancia más desfase para la correlación de tonos inversa. Los parámetros de ganancia se indexan y se transmiten en el flujo de bits de capa de mejora bloque a bloque. La señalización de los factores de escala y de los factores de desfase se consigue mediante una combinación de predicción y refinamiento. Además, se describe que una sintaxis de alto nivel soporta granularidades más toscas que la transmisión bloque a bloque. También se hace referencia al documento "Scalable Coding of High Dynamic Range Video", de Andrew Segall en ICIP 27, 1-1 a I-4 y a los documentos JVT-X67 y JVT-W113 de JVT, elaborados asimismo por Andrew Segall.

[1] Aunque las propuestas mencionadas anteriormente para usar una correlación de tonos inversa con el fin de obtener una predicción a partir de una capa base de profundidad de bits inferior elimina parte de la redundancia entre la información de profundidad de bits inferior y la información de profundidad de bits superior, sería beneficioso obtener una eficacia aún mayor a la hora de proporcionar tal flujo de bits de profundidad de bits escalable, especialmente en lo que respecta a la relación velocidad/distorsión.

[11] El objeto de la presente invención es proporcionar un... [Seguir leyendo]

 


Reivindicaciones:

(16) en un flujo de datos de calidad

de imagen o video (16) en un flujo de datos fuente de imagen o vídeo con una

representación de los datos fuente de imagen o vídeo (16) que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a una segunda profundidad de bits de muestras de imagen mayor que la primera profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en los datos fuente de imagen o vídeo (16) o que varían en una primera granularidad, y una función de correlación local que modifica localmente la una o más funciones de correlación global en una segunda granularidad más fina que la primera granularidad para obtener una predicción de los datos fuente de imagen o vídeo que presentan la segunda profundidad de bits de muestras de imagen;

un medio de codificación residual (16) para codificar un residuo de predicción de la predicción en un flujo de datos de capa de mejora de profundidad de bits; y

un medio de combinación (18) para formar el flujo de datos de calidad escalable en función del flujo de datos de codificación base, la función de correlación local y el flujo de datos de capa de mejora de profundidad de bits, de modo que la función de correlación local puede obtenerse a partir del flujo de datos de calidad escalable.

2. Descodificador para descodificar un flujo de datos de calidad escalable en el que están codificados datos fuente de imagen o vídeo, comprendiendo el flujo de datos de calidad escalable un flujo de datos de capa base que representa los datos fuente de imagen o vídeo con una primera profundidad de bits de muestras de imagen, representando un flujo de datos de capa de mejora de profundidad de bits un residuo de predicción con una segunda profundidad de bits de muestras de imagen que es mayor que la primera profundidad de bits de muestras de imagen, y una función de correlación local definida en una segunda granularidad, comprendiendo el descodificador:

un medio (24) para descodificar el flujo de datos de capa base en datos de imagen o vídeo reconstruidos con profundidad de bits inferior;

un medio (28) para descodificar el flujo de datos de mejora de profundidad de bits en el residuo de predicción;

un medio (26) para correlacionar muestras de los datos de imagen o vídeo reconstruidos con profundidad de bits inferior que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a la segunda profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en el vídeo o que varían en una primera granularidad, y una función de correlación local que modifica localmente la una o más funciones de correlación global en la segunda granularidad que es más pequeña que la primera granularidad, para obtener una predicción de los datos fuente de imagen o vídeo que presentan la segunda profundidad de bits de muestras de imagen; y

un medio (21) para reconstruir la imagen con la segunda profundidad de bits de muestras de imagen en función de la predicción y el residuo de predicción.

3. Descodificador según la reivindicación 2, en el que el medio de correlación (26) está adaptado para correlacionar las muestras de datos de imagen o vídeo reconstruidos con profundidad de bits inferior que presentan la primera profundidad de bits de muestras de imagen mediante la utilización de una función de correlación combinada que es una combinación aritmética de una de las una o más funciones de correlación global y la función de correlación local.

4. Descodificador según la reivindicación 3, en el que el medio de correlación (26) usa más de una función de correlación global y el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para identificar la una de las más de una función de correlación global a partir del flujo de datos de mejora de profundidad de bits.

5. Descodificador según la reivindicación 3 ó 4, en el que la combinación aritmética comprende una operación de suma.

6. Descodificador según cualquiera de las reivindicaciones 2 a 5, en el que el medio (28) para

1. Codificador para codificar datos fuente de imagen o vídeo

escalable (112), que comprende:

un medio de codificación base (12) para codificar los datos fuente datos de codificación base que representa una representación de los primera profundidad de bits de muestras de imagen; un medio de correlación (14) para correlacionar muestras de la

descodificar el flujo de datos de mejora de profundidad de bits y el medio de correlación (14) están adaptados de modo que la segunda granularidad subdivide los datos fuente de imagen o vídeo (16) en una pluralidad de bloques de imagen (17) y el medio de correlación (26) está adaptado de modo que la función de correlación local es m s + n, donde m y n varían en la segunda granularidad y el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para obtener m y n a partir del flujo de datos de mejora de profundidad de bits para cada bloque de imagen (17) de los datos fuente de imagen o vídeo (16) de modo que m y n pueden ser diferentes entre la pluralidad de bloques de imagen.

7. Descodificador según cualquiera de las reivindicaciones 2 a 6, en el que el medio de correlación (26) está adaptado de modo que la segunda granularidad varía en los datos fuente de imagen o vídeo (16), y el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para obtener la segunda granularidad a partir del flujo de datos de mejora de profundidad de bits.

8. Descodificador según cualquiera de las reivindicaciones 2 a 7, en el que el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits y el medio de correlación (26) están adaptados de modo que la segunda granularidad divide los datos fuente de imagen o vídeo (16) en una pluralidad de bloques de imagen (17), y el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para obtener un residuo de función de correlación local (Am, An) a partir del flujo de datos de mejora de profundidad de bits para cada bloque de imagen (17), y obtener la función de correlación local de un bloque de imagen predeterminado de los datos fuente de imagen o vídeo (16) mediante la utilización de una predicción espacial y/o temporal a partir de uno o más bloques de imagen vecinos o un bloque de imagen correspondiente de una imagen de los datos fuente de imagen o vídeo anterior a una imagen a la que pertenece el bloque de imagen predeterminado, y el residuo de función de correlación local del bloque de imagen predeterminado.

9. Descodificador según cualquiera de las reivindicaciones 2 a 8, en el que el medio de correlación (26) está adaptado de modo que al menos una de las una o más funciones de correlación global no es lineal.

1. Descodificador según cualquiera de las reivindicaciones 2 a 9, en el que el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para obtener al menos una de las una o más funciones de correlación global a partir del flujo de datos de mejora de profundidad de bits.

11. Descodificador según cualquiera de las reivindicaciones 2 a 1, en el que el medio de correlación (26) está adaptado de modo que al menos una de las funciones de correlación global se define como

2m-n-k x + 2m-i _ 2n-i-k donde x es una muestra de \a representación de los datos fuente de imagen o vídeo con la primera profundidad de bits de muestras de imagen, N es la primera profundidad de bits de muestras de imagen, M es la segunda profundidad de bits de muestras de imagen y K es un parámetro de correlación, 2M'w'Kx + D, donde N es la primera profundidad de bits de muestras de imagen, M es la segunda profundidad de bits de muestras de imagen, vKyD son parámetros de correlación,

redondeo_defecto(2M'w'K x + 2"'2N'k x + D), donde redondeo_defecto(a) redondea al entero inferior más próximo, N es la primera profundidad de bits de muestras de imagen, M es la segunda profundidad de bits de muestras de imagen, y K y D son parámetros de correlación,

una función lineal orientada a fragmentos para correlacionar las muestras desde el primer intervalo dinámico hasta el segundo intervalo dinámico con información de puntos de interpolación que define la correlación lineal orientada a fragmentos, o

una tabla de consulta para indexarse mediante la utilización de muestras del primer intervalo dinámico y para proporcionar a continuación muestras del segundo intervalo dinámico.

12. Descodificador según la reivindicación 11, en el que el medio (28) para descodificar el flujo de datos de mejora de profundidad de bits está adaptado para obtener el (los) parámetro(s) de correlación, información de puntos de interpolación o la tabla de consulta a partir del flujo de datos de mejora de profundidad de bits.

13. Procedimiento para codificar datos fuente de imagen o vídeo (16) en un flujo de datos de calidad escalable (112), que comprende:

codificar los datos fuente de imagen o vídeo (16) en un flujo de datos de codificación base que representa una representación de los datos fuente de imagen o vídeo con una primera profundidad de bits de muestras de imagen;

correlacionar muestras de la representación de los datos fuente de imagen o vídeo (16) que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a una segunda profundidad de bits de muestras de imagen mayor que la primera profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en los datos fuente de imagen o vídeo (16) o que varían en una

primera granularidad, y una función de correlación local que modifica localmente las una o más funciones de correlación global en una segunda granularidad más fina que la primera granularidad para obtener una predicción de los datos fuente de imagen o vídeo que presentan la segunda profundidad de bits de muestras de imagen;

codificar un residuo de predicción de la predicción en un flujo de datos de capa de mejora de profundidad de bits; y

formar el flujo de datos de calidad escalable en función del flujo de datos de codificación base, la función de correlación local y el flujo de datos de capa de mejora de profundidad de bits, de modo que la función de correlación local puede obtenerse a partir del flujo de datos de calidad escalable.

14. Procedimiento para descodificar un flujo de datos de calidad escalable en el que están codificados datos fuente de imagen o vídeo, comprendiendo el flujo de datos de calidad escalable un flujo de datos de capa base que representa los datos fuente de imagen o vídeo con una primera profundidad de bits de muestras de imagen, representando un flujo de datos de capa de mejora de profundidad de bits un residuo de predicción con una segunda profundidad de bits de muestras de imagen que es mayor que la primera profundidad de bits de muestras de imagen, y una función de correlación local definida en una segunda granularidad, comprendiendo el procedimiento:

descodificar el flujo de datos de capa base en datos de imagen o vídeo reconstruidos con profundidad de bits inferior;

descodificar el flujo de datos de mejora de profundidad de bits en el residuo de predicción; correlacionar muestras de los datos de imagen o vídeo reconstruidos con profundidad de bits inferior que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a la segunda profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en el vídeo o que varían en una primera granularidad, y una función de correlación local que modifica localmente las una o más funciones de correlación global en la segunda granularidad que es más pequeña que la primera granularidad, para obtener una predicción de los datos fuente de imagen o vídeo que presentan la segunda profundidad de bits de muestras de imagen; y

reconstruir la imagen con la segunda profundidad de bits de muestras de imagen en función de la predicción y el residuo de predicción.

15. Flujo de datos de calidad escalable en el que están codificados datos fuente de imagen o vídeo, comprendiendo el flujo de datos de calidad escalable:

un flujo de datos de capa base que representa los datos fuente de imagen o vídeo con una primera profundidad de bits de muestras de imagen,

un flujo de datos de capa de mejora de profundidad de bits que representa un residuo de predicción con una segunda profundidad de bits de muestras de imagen que es mayor que la primera profundidad de bits de muestras de imagen, y

una función de correlación local definida en una segunda granularidad,

en el que una reconstrucción de la imagen con la segunda profundidad de bits de muestras de imagen puede obtenerse a partir del residuo de predicción y una predicción obtenida correlacionando muestras de los datos de imagen o vídeo reconstruidos con profundidad de bits inferior que presentan la primera profundidad de bits de muestras de imagen desde un primer intervalo dinámico correspondiente a la primera profundidad de bits de muestras de imagen hasta un segundo intervalo dinámico mayor que el primer intervalo dinámico y correspondiente a la segunda profundidad de bits de muestras de imagen, mediante la utilización de una o más funciones de correlación global que son constantes en el vídeo o que varían en una primera granularidad, y una función de correlación local que modifica localmente las una o más funciones de correlación global en la segunda granularidad que es más pequeña que la primera granularidad.

16. Programa informático que presenta un código de programa para llevar a cabo, cuando se ejecuta en un ordenador, un procedimiento según la reivindicación 13 ó 14.