Codificación, descodificación y representación de imágenes de alto rango dinámico.

Un método para codificar datos (12) de imagen de alto rango dinámico que tienen un rango dinámico inicial,

comprendiendo el método:

obtener datos (15) de mapa de tono correspondientes a los datos (12) de imagen de alto rango dinámico, teniendolos datos (15) de mapa de tono un rango dinámico reducido más bajo que el rango dinámico inicial;

calcular datos de relación (57), comprendiendo los datos de relación (57) relaciones de valores en los datos (12) deimagen de alto rango dinámico y valores correspondientes en los datos (15) de mapa de tono;

generar información (16B) de alto rango dinámico en base a los datos de relación (57);

generar información (16A) de mapa de tono en base a los datos (15) de mapa de tono; y

almacenar la información (16B) de alto rango dinámico y la información (16A) de mapa de tono en una estructura(16) de datos.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CA2004/002199.

Solicitante: DOLBY LABORATORIES LICENSING CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 POTRERO AVENUE SAN FRANCISCO, CA 94103-4813 ESTADOS UNIDOS DE AMERICA.

Inventor/es: WARD, GREGORY, J., SIMMONS,MARYANN.

Fecha de Publicación: 6 de Marzo de 2013.

Clasificación Internacional de Patentes:

G06T5/00 FISICA. › G06 CALCULO; CONTEO. › G06T TRATAMIENTO O GENERACIÓN DE DATOS DE IMAGEN, EN GENERAL. › Perfeccionamiento o restauración de imagen.
G06T9/00 G06T […] › Codificación de imagen, (reducción del ancho de banda o de la redundancia para imagenes estáticas H04N 1/41; codificación o descodificación de señales de imagenes de color estáticas H04N 1/64; métodos o disposiciones para la codificación, descodificación, compresión o descompresión de señales de video digital H04N 19/00).
H04N7/26

PDF original: ES-2397341_T3.pdf

Fragmento de la descripción:

Codificación, descodificación y representación de imágenes de alto rango dinámico

Campo técnico La presente solicitud reivindica beneficio de la solicitud de EE.UU. nº 60/564.608 depositada el 23 de abril de 2004.

Campo técnico

La invención se refiere a imágenes digitales de alto rango dinámico. La invención se refiere específicamente a métodos y aparatos para codificar y descodificar imágenes de alto rango dinámico, y a estructuras de datos que contienen imágenes digitales de alto rango dinámico.

Antecedentes La visión humana está capacitada para apreciar relaciones de contraste de hasta 1:10.000. Es decir, una persona puede apreciar una escena en la que algunas partes de la escena son 10.000 veces más brillantes que otras partes de la escena y ver detalles tanto en las partes más brillantes como en las más oscuras de la escena. Además, la visión humana puede adaptar su sensibilidad a las escenas más brillantes o a las más oscuras sobre 6 órdenes de magnitud adicionales.

Los formatos de imagen digital más convencionales (los llamados formatos de 24 bits) utilizan hasta 24 bits para almacenar información de color y de luminancia para cada píxel de una imagen. Por ejemplo, cada valor rojo, verde 25 y azul (RGB) de un píxel puede ser almacenado en un byte (8 bits) . Algunos formatos son capaces de representar variaciones de brillo sobre solamente aproximadamente dos órdenes de magnitud (cada byte puede almacenar uno de 256 valores posibles) . Existe un número de formatos estándar para representar imágenes digitales (que incluyen tanto imágenes fijas como de video) . Éstos incluyen JPEG (Grupo de Expertos Fotográficos Unidos) , MPEG (Grupo de Expertos de Imágenes en Movimiento) , AVI (Intercalación de Audio y Video) , TIFF (Formato de Archivo de Imagen Etiquetada) , BMP (Mapa de Bits) , PNG (Gráficas de Red Portátil) , GIF (Formato de Intercambio Gráfico) , y otros. Tales formatos pueden ser denominados “estándares referidos de salida” puesto que no intentan conservar información de imagen más allá de la que pueda ser reproducida por visualizadores electrónicos de los tipos disponibles más usualmente. Hasta hace poco, visualizadores tales como visualizadores de ordenador, televisiones, proyectores de imágenes digitales en movimiento y similares, han sido incapaces de reproducir fielmente imágenes que tengan relaciones de contraste mejores de 1:1.000 o de ese orden.

Las tecnologías de visualización que han sido desarrolladas por la cesionaria, y por otros, están capacitadas para reproducir imágenes que tienen un alto rango dinámico (HDR) . Tales visualizadores pueden reproducir imágenes que representan de forma más fidedigna escenas del mundo real que los visualizadores convencionales. Existe una necesidad de formatos para almacenar imágenes de HDR, para su reproducción en estos visualizadores y en otros visualizadores de HDR que puedan estar disponibles en el futuro.

Se ha propuesto un número de formatos para almacenar imágenes de HDR como datos digitales. Todos estos formatos tienen diversas desventajas. Un número de estos formatos producen archivos de imagen prohibitivamente 45 grandes que pueden ser vistos solamente con el uso de software especializado. Algunos fabricantes de cámaras digitales proporcionan formatos RAW de pertenencia. Estos formatos tienden a ser específicos de la cámara y a ser excesivos en cuanto a términos de requisitos de almacenamiento de datos.

Existe una necesidad de un marco conveniente para almacenar, intercambiar y reproducir imágenes de alto rango dinámico. Existe una necesidad particular de un marco de ese tipo que sea compatible retrospectivamente con la tecnología de visores de imagen existentes. Existe una necesidad particular de una compatibilidad retrospectiva en casos en los que pueda ser necesario que una imagen sea reproducida mediante dispositivos heredados, tales como reproductores de DVD, que tengan decodificadores de imagen basados en hardware.

Durand et al., Filtrado bilateral rápido para la visualización de imágenes de alto rango dinámico (ACM TRANSACTIONS ON GRAPHICS, ACM, vol. 21, núm. 3, julio de 2002, páginas 257-266) presenta un técnica para la visualización de imágenes de alto rango dinámico, que reduce el contraste mientras conserva los detalles. La técnica se basa en una descomposición de dos escalas de la imagen en una capa de base, codificación de variaciones a gran escala, y una capa de detalle. Solamente la capa de base tiene su contraste reducido, conservando con ello el detalle. La capa de base se obtiene utilizando un filtro no lineal de conservación de borde, donde el peso de cada píxel es computado con la utilización de una Gaussiana en el dominio espacial multiplicada por una función de influencia en el dominio de la intensidad que reduce el peso de los píxeles con gran intensidad.

Erdem et al., Compresión de video de 10 bits utilizando las herramientas de MPEG-2 (SIGNAL PROCESSING.

IMAGE COMMUNICATION, vol. 7, núm. 1, marzo de 1995, páginas 27-56) dirige el problema de comprimir 10 bits por píxel de video utilizando las herramientas del estándar MPEG-2, que está principalmente objetivado en 8 bits por píxel de video. Los autores demuestran que se puede desarrollar un esquema de compresión escalable en amplitud utilizando sintaxis y herramientas de MPEG-2.

La patente US 6301393 B1, del 9 de octubre de 2001, presenta un método para representar una imagen digital que tiene valores de color con gama de color ampliada en un espacio de color de almacenamiento que tiene una gama de color limitada que comprende las etapas de: ajustar los valores de color de la imagen digital de gama de color ampliada para que se acople dentro de la gama de color limitada para formar una imagen digital de gama de color limitada; representar la imagen digital de gama de color limitada en el espacio de color de almacenamiento; determinar una imagen digital de gama de color limitada recortada en la que han sido recortadas regiones altamente cuantificadas en la imagen digital de gama de color limitada; determinar una imagen residual que representa una diferencia entre la imagen digital de gama de color ampliada y la imagen digital de gama de color limitada recortada; y asociar la imagen residual con la imagen digital de gama de color limitada en el espacio de color de almacenamiento de tal modo que la imagen residual asociada y la imagen digital de gama de color limitada estén en el espacio de almacenamiento adaptadas para ser usadas de modo que formen una imagen digital de gama de color

ampliada reconstruida.

Los inventores de la patente anteriormente mencionada, Spaulding et al., describen también en Spaulding, Kevin E et al., “Extender la gama de color y el rango dinámico de una imagen sRGB utilizando una imagen residual”, Color Research & Application, vol. 28, núm. 4, pp. 251 – 266, http://dx.doi.org/10.1002/col.10160, agosto de 2003, una 20 solución que ha sido desarrollada para mantener la compatibilidad con los formatos de archivo y las aplicaciones de software ya existentes, mientras que conserva simultáneamente la información de rango dinámico y de gama de color asociados a las escenas originales. Con esta alternativa, la conversión de película en señales eléctricas o la imagen de cámara digital primaria de entrada, se transforma en la codificación de color ERIMM RGB de la escena mencionada. A continuación, se forma una imagen convertida de la manera habitual y se almacena en un archivo de 25 imagen convencional (por ejemplo, un archivo IPEG estándar) . Una imagen residual que representa la diferencia entre la imagen de rango dinámico ampliada original y la imagen convertida final, se forma y se almacena en el archivo de imagen utilizando etiquetas de metadatos de pertenencia. Esto proporciona un mecanismo para conseguir la información de rango dinámico ampliado/gama de color que normalmente se desecha durante el proceso de conversión, sin sacrificar la inter-operatividad. Aplicaciones habilitadas adecuadamente pueden 30 descodificar los metadatos de imagen residual y utilizarlos para reconstruir la imagen ERIMM RGB, mientras que las aplicaciones que no tengan conocimiento de los metadatos la ignorarán y solamente tendrán acceso a la imagen sRGB. La imagen residual se forma de tal modo que tendrá valores de píxel despreciables para aquellas porciones de imagen que caigan dentro de la gama de sRGB, y por lo tanto será más fácilmente comprimible. Las pruebas sobre imágenes de 950 consumidores reales han demostrado que la información de escena de rango dinámico ampliado puede ser almacenada con una sobrecarga media del tamaño de archivo de alrededor de un 8% en comparación con las imágenes de sRGB... [Seguir leyendo]

Reivindicaciones:

1. Un método para codificar datos (12) de imagen de alto rango dinámico que tienen un rango dinámico inicial, comprendiendo el método:

obtener datos (15) de mapa de tono correspondientes a los datos (12) de imagen de alto rango dinámico, teniendo los datos (15) de mapa de tono un rango dinámico reducido más bajo que el rango dinámico inicial;

calcular datos de relación (57) , comprendiendo los datos de relación (57) relaciones de valores en los datos (12) de 10 imagen de alto rango dinámico y valores correspondientes en los datos (15) de mapa de tono;

generar información (16B) de alto rango dinámico en base a los datos de relación (57) ;

generar información (16A) de mapa de tono en base a los datos (15) de mapa de tono; y

almacenar la información (16B) de alto rango dinámico y la información (16A) de mapa de tono en una estructura (16) de datos.

2. Un método de acuerdo con la reivindicación 1, en el que la estructura (16) de datos comprende un campo de imagen y un campo de extensión de aplicación, y almacenar la información (16B) de alto rango dinámico y la información (16A) de mapa de tono comprende almacenar la información (16B) de alto rango dinámico en el campo de extensión de aplicación y almacenar la información (16A) de mapa de tono en el campo de imagen.

3. Un método de acuerdo con la reivindicación 1, en el que generar la información (16A) de mapa de tono 25 comprende codificación JPEG de los datos (15) de mapa de tono.

4. Un método de acuerdo con la reivindicación 3, en el que la estructura (16) de datos comprende una estructura de datos JFIF.

5. Un método de acuerdo con la reivindicación 4, que comprende almacenar la información (16B) de alto rango dinámico en una extensión de aplicación de la estructura de datos JFIF.

6. Un método de acuerdo con la reivindicación 4, que comprende almacenar la información (16B) de alto rango dinámico en un campo de comentario de la estructura de datos JFIF.

7. Un método de acuerdo con la reivindicación 6, que comprende codificar la información (16B) de alto rango dinámico como texto antes de almacenar la información (16B) de alto rango dinámico en el campo de comentario.

8. Un método de acuerdo con la reivindicación 4, en el que generar la información (16B) de alto rango dinámico 40 comprende comprimir los datos de relación (57) .

9. Un método de acuerdo con la reivindicación 8, en el que comprimir los datos de relación (57) comprende realizar un muestreo descendente de los datos de relación (57) .

10. Un método de acuerdo con la reivindicación 8, en el que comprimir los datos de relación (57) comprende codificar en JPEG los datos de relación (57) .

11. Un método de acuerdo con la reivindicación 1, en el que generar la información (16A) de mapa de tono comprende codificar en MPEG los datos (15) de mapa de tono.

12. Un método de acuerdo con la reivindicación 11, en el que la estructura (16) de datos comprende una estructura de datos de MPEG.

13. Un método de acuerdo con la reivindicación 12, que comprende almacenar la información (16B) de alto rango 55 dinámico en una extensión de aplicación de la estructura de datos de MPEG.

14. Un método de acuerdo con la reivindicación 12, que comprende almacenar la información (16B) de alto rango dinámico en un campo de comentario de la estructura de datos de MPEG.

15. Un método de acuerdo con la reivindicación 13 o la reivindicación 14, que comprende almacenar la información (16B) de alto rango dinámico para cada trama de un video de MPEG.

16. Un método de acuerdo con la reivindicación 13 o la reivindicación 14, que comprende almacenar la información (16B) de alto rango dinámico solamente para tramas clave de un video de MPEG para lo que se utilizan técnicas de 65 interpolación de trama clave de MPEG convencional para crear tramas de inter-trama clave.

17. Un método de acuerdo con la reivindicación 11, en el que generar la información (16B) de alto rango dinámico comprende comprimir los datos de relación (57) .

18. Un método de acuerdo con la reivindicación 17, en el que comprimir los datos de relación (57) comprende 5 realizar un muestreo descendente de los datos de relación (57) .

19. Un método de acuerdo con la reivindicación 17, en el que comprimir los datos de relación (57) comprende codificación de MPEG de los datos de relación (57) .

20. Un método de acuerdo con la reivindicación 1, en el que los datos (15) de mapa de tono son codificados mediante codificación disipativa, y el método comprende descodificar los datos (15) de mapa de tono y calcular a continuación los datos de relación (57) a partir de los datos (15) de mapa de tono descodificados.

21. Un método de acuerdo con la reivindicación 20, que comprende codificar los datos (15) de mapa de tono mediante el método de codificación disipativa con anterioridad a la descodificación de los datos (15) de mapa de tono.

22. Un método de acuerdo con la reivindicación 20 o la reivindicación 21, en el que almacenar la información (16A) de mapa de tono comprende almacenar los datos (15) de mapa de tono codificados.

23. Un método de acuerdo con la reivindicación 22, en el que generar la información (16B) de alto rango dinámico comprende comprimir los datos de relación (57) para producir datos de relación (57) comprimidos.

24. Un método de acuerdo con la reivindicación 23, en el que comprimir los datos de relación (57) comprende 25 realizar una compresión disipativa de los datos de relación (57) .

25. Un método de acuerdo con la reivindicación 24, en el que comprimir los datos de relación (57) comprende realizar un muestreo descendente de los datos de relación (57) .

26. Un método de acuerdo con la reivindicación 24 o la reivindicación 25, en el que comprimir los datos de relación

(57) comprende codificar en JPEG los datos de relación (57) .

27. Un método de acuerdo con la reivindicación 24 o la reivindicación 25, en el que comprimir los datos de relación

(57) comprende codificar en MPEG los datos de relación (57) .

28. Un método de acuerdo con una cualquiera de las reivindicaciones 23 a 27, en el que generar la información (16A) de mapa de tono comprende reconstruir los datos de relación (57) a partir de los datos de relación (57) comprimidos, y dividir los datos (12) de imagen de alto rango dinámico por los datos de relación (57) reconstruidos.

29. Un método de acuerdo con una cualquiera de las reivindicaciones 23 a 27, en el que generar la información (16B) de alto rango dinámico comprende aplicar a los datos de relación (57) una función de corrección, estando la función de corrección basada en los datos (15) de mapa de tono.

30. Un método de acuerdo con la reivindicación 29, en el que la función de corrección comprende una relación de 45 L (TM) respecto a L (TMR) donde L (TM) es la luminancia para un píxel en los datos (15) de mapa de tono, y L (TMR) es la luminancia para un píxel correspondiente de datos (15) de mapa de tono que ha sido sometido a muestreo descendente.

31. Un método de acuerdo con la reivindicación 29, en el que la función de corrección es de la forma:

o un equivalente matemático de la misma, donde σ es un parámetro numérico.

32. Un método de acuerdo con la reivindicación 31, en el que σ es una medición de varianza en la relación de L (TM) respecto a L (TMR) .

33. Un método de acuerdo con la reivindicación 32, en el que σ se calcula de acuerdo con:

34. Un método de acuerdo con una cualquiera de las reivindicaciones 1 a 33, en el que generar la información (16B) de alto rango dinámico comprende calcular una función matemática de los datos de relación (57) .

35. Un método de acuerdo con la reivindicación 34, en el que la función matemática comprende el cálculo de un logaritmo.

36. Un método de acuerdo con la reivindicación 1, en el que obtener los datos (15) de mapa de tono comprende generar los datos (15) de mapa de tono con un mapeador de tono (17) sin recortar valores de color o de luminancia.

37. Un método de acuerdo con la reivindicación 1, en el que obtener los datos (15) de mapa de tono comprende genera los datos (15) de mapa de tono con un mapeador de tono (17) que mantiene las relaciones de color y luminancia para cada píxel de los datos (15) de mapa de tono.

38. Una estructura (16) de datos para representar una imagen de alto rango dinámico que tiene un rango dinámico inicial, comprendiendo la estructura (16) de datos una porción (16A) de mapa de tono y una porción (16B) de información de alto rango dinámico; conteniendo la porción (16A) de mapa de tono información de mapa de tono que representa la imagen, teniendo la porción (16A) de mapa de tono un rango dinámico reducido menor que el rango dinámico inicial; conteniendo la porción (16B) de información de alto rango dinámico información que describe relaciones de valores de la porción (16A) de mapa de tono con respecto a valores correspondientes de la imagen de alto rango dinámico.

39. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que los valores de la porción (16A) de mapa de tono son valores de luminancia.

40. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que la información (16A) de mapa de tono está codificada en JPEG.

41. Una estructura (16) de datos de acuerdo con la reivindicación 40, en la que la estructura (16) de datos constituye una estructura de datos JFIF.

42. Una estructura (16) de datos de acuerdo con la reivindicación 41, en la que la porción (16B) de información de alto rango dinámico comprende al menos una extensión de aplicación en JFIF.

43. Una estructura (16) de datos de acuerdo con la reivindicación 41, en la que la porción (16B) de información de alto rango dinámico comprende un campo de comentario JFIF.

44. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que la información (16A) de mapa de tono está codificada en MPEG.

45. Una estructura (16) de datos de acuerdo con la reivindicación 44, en la que la estructura (16) de datos constituye una estructura de datos MPEG.

46. Una estructura (16) de datos de acuerdo con la reivindicación 45, en la que la porción (16B) de información de 45 alto rango dinámico comprende al menos una extensión de aplicación en MPEG.

47. Una estructura (16) de datos de acuerdo con la reivindicación 17, en la que la porción (16B) de información de alto rango dinámico comprende un campo de comentario de MPEG.

48. Una estructura (16) de datos de acuerdo con la reivindicación 46 o la reivindicación 47, en la que la porción (16B) de alto rango dinámico está asociada a una trama de un video de MPEG.

49. Una estructura (16) de datos de acuerdo con la reivindicación 46 o la reivindicación 47, en la que la porción (16B) de alto rango dinámico está asociada a una trama clave de un video de MPEG para lo que se utilizan técnicas 55 de interpolación de trama clave de MPEG convencional para crear tramas de inter-trama clave.

50. Una estructura (16) de datos de acuerdo con una cualquiera de las reivindicaciones 38 a 49, en la que la información (16A) de mapa de tono especifica valores distintos de cero para todos los píxeles.

51. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que la información (16B) de alto rango dinámico está comprimida.

52. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que la información (16B) de alto rango dinámico está codificada en JPEG.

53. Una estructura (16) de datos de acuerdo con la reivindicación 38, en la que la información (16B) de alto rango dinámico está codificada en MPEG.

54. Una estructura (16) de datos de acuerdo con la reivindicación 52 o la reivindicación 53, en la que la información (16A) de mapa de tono tiene un tamaño de imagen mayor que el tamaño de imagen de la información (16B) de alto 5 rango dinámico.

55. Aparato (50) para codificar datos (12) de imagen de alto rango dinámico que tienen un rango dinámico inicial, comprendiendo el aparato (50) :

medios para calcular datos de relación (57) , comprendiendo los datos de relación (57) relaciones de valores de los datos (12) de imagen de alto rango dinámico con respecto a valores correspondientes de los datos (15) de mapa de tono correspondientes a los datos (12) de imagen de alto rango dinámico, teniendo los datos (15) de mapa de tono un rango dinámico reducido más bajo que el rango dinámico inicial;

medios para generar información (16B) de alto rango dinámico en base a los datos de relación (57) ;

medios para generar información (16A) de mapa de tono en base a los datos (15) de mapa de tono; y

medios para almacenar la información (16B) de alto rango dinámico y la información (16A) de mapa de tono en una 20 estructura (16) de datos.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Método para el movimiento de diente como una bandada, del 24 de Junio de 2020, de ULAB SYSTEMS, INC: Método de control de movimientos de diente para corregir maloclusiones, que comprende: recibir una pluralidad de modelos de diente digitales […]

Procedimiento de codificación de imágenes, procedimiento de descodificación de imágenes, aparato de codificación de imágenes, aparato de descodificación de imágenes y aparato de codificación / descodificación de imágenes, del 27 de Mayo de 2020, de Sun Patent Trust: Un procedimiento de codificación de imágenes que comprende: dividir (S201) una imagen en mosaicos; codificar (S202) los mosaicos para […]

Procedimiento de decodificación de imágenes y aparato de decodificación de imágenes, del 18 de Marzo de 2020, de KABUSHIKI KAISHA TOSHIBA: Un procedimiento de decodificación que comprende: determinar, mediante una unidad de decodificación, un modo de predicción según un modo […]

Método y aparato para representar granularidad de imagen mediante uno o más parámetros, del 26 de Febrero de 2020, de DOLBY INTERNATIONAL AB: Un método para simular grano de película, que comprende: recibir un flujo de vídeo codificado; recibir información codificada de grano de película, […]

Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para compresión de imágenes de video usando predicción en modo directo, que incluye: proporcionar una secuencia de cuadros predichos […]

Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método de compresión de imágenes de video que comprende: proporcionar una secuencia de cuadros referenciables (I, P) y predichos bidireccionales […]

Codificación de imagen usando unidades de transformación grandes, del 13 de Noviembre de 2019, de SAMSUNG ELECTRONICS CO., LTD.: Un aparato de codificación de imagen que comprende: un procesador configurado para: generar información acerca de una unidad de codificación máxima, usada […]