PROCESO PARA DESCOMPRESION DE VIDEOS CON BASE EN EL OBJETO EMPLEANDO CARACTERISTICAS CONFORMADAS ARBITRARIAMENTE.

Un método de descodificar objetos de vídeo plurales en una secuencia de vídeo,

para usar en un descodificador de vídeo basados en objetos, donde el método abarca:

la recepción de datos codificados para los objetos de vídeo plurales en la secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, y en donde los datos codificados incluyen:

datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales;

una o más máscaras que definen la forma del primer objeto de vídeo;

uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite;

datos intracodificados para el segundo objeto de vídeo;

una o más máscaras que definen la forma del segundo objeto de vídeo;

por lo menos uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y

una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales;

la descodificación del sprite para el primer objeto de vídeo;

la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez;

la descodificación del segundo objeto de. vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y

la descodificación del segundo objeto de vídeo la segunda vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de movimiento para el segundo objeto de vídeo la segunda vez para calcular los valores del píxel para los píxeles del segundo objeto de vídeo la segunda vez del segundo objeto de vídeo descodificado la primera vez, e incluyendo también la combinación de los valores del píxel calculados para los píxeles del segundo objeto de vídeo la segunda vez con una señal de error para el segundo objeto de vídeo la segunda vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la segunda vez

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E05013280.

Solicitante: MICROSOFT CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: ONE MICROSOFT WAY,REDMOND, WA 98052.

Inventor/es: LEE,MING-CHIEH, POWELL,III,WILLIAM CHAMBERS.

Fecha de Publicación: 11 de Marzo de 2010.

Fecha Solicitud PCT: 4 de Octubre de 1996.

Fecha Concesión Europea: 19 de Agosto de 2009.

Clasificación Internacional de Patentes:

G06F17/15M
H04N7/26
H04N7/26A6C8
H04N7/26H50
H04N7/26J2
H04N7/26J4
H04N7/26J6B
H04N7/26M2N2
H04N7/26M2N4
H04N7/26M4P
H04N7/26M6E
H04N7/30B

Clasificación PCT:

H04N7/26
H04N7/30

Clasificación antigua:

H04N7/30

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Finlandia.

PROCESO PARA DESCOMPRESION DE VIDEOS CON BASE EN EL OBJETO EMPLEANDO CARACTERISTICAS CONFORMADAS ARBITRARIAMENTE.

Fragmento de la descripción:

Proceso para descompresión de vídeos con base en el objeto empleando características conformadas arbitrariamente.

Campo de la invención

La presente invención se refiere a los procesos para comprimir señales de vídeo digital y, más concretamente, a un proceso de codificación de vídeo digital basado en objetos con un feedback de error para aumentar la precisión.

Antecedentes de la invención

Las pantallas de vídeo dinámicas basadas en señales de vídeo analógicas llevan tiempo disponibles bajo la forma de televisión. Las pantallas de vídeo dinámicas basadas en señales de vídeo digital proliferan cada vez más en el mercado, debido a que son más asequibles, así como a un aumento de las capacidades de procesado de los ordenadores. Los sistemas de vídeo digital pueden proporcionar mejoras significativas con respecto a los sistemas de vídeo analógicos convencionales a la hora de crear, modificar, transmitir, almacenar y reproducir secuencias de vídeo dinámicas.

Las pantallas de vídeo digital incluyen una gran cantidad de cuadros de imagen que se reproducen o renderizan sucesivamente a una frecuencia de entre 30 Hz y 75 Hz. Cada cuadro de imagen es una imagen fija formada a partir de una matriz de píxeles según la resolución de pantalla de un sistema concreto. A modo de ejemplo, los sistemas basados en VHS tienen resoluciones de pantalla de 320x480 píxeles, los sistemas basados en NTSC tienen resoluciones de pantalla de 720x486 píxeles y los sistemas de televisión de alta definición (HDTV) que están todavía en desarrollo disponen de resoluciones de pantalla de 1360x1024 píxeles.

Las cantidades de información digital nativa incluida en las secuencias de vídeo son enormes. El almacenamiento y transmisión de estas cantidades de información de vídeo no es factible con un ordenador personal convencional. En cuanto a una forma digitalizada de un formato de imagen VHS de resolución relativamente baja con una resolución de 320x480 píxeles, una imagen en movimiento de una duración de dos horas podría corresponder a 100 gigabytes de información de vídeo digital. En comparación, los discos ópticos compactos convencionales tienen capacidades de casi 0,6 gigabytes, los discos duros magnéticos tienen capacidades de 1-2 gigabytes, y los discos ópticos en desarrollo disponen de capacidades de hasta 8 gigabytes.

En respuesta a las limitaciones a la hora de almacenar o transmitir tales enormes cantidades de información de vídeo digital, se han establecido diversos estándares o procesos de compresión de vídeo como es el caso del MPEG-1, MPEG-2. y H.26X. Estas técnicas convencionales de compresión de vídeo se sirven de las similitudes entre los cuadros de imagen sucesivos, denominadas correlación intercuadros o temporal para ofrecer la compresión intercuadros en que las representaciones basadas en píxeles de los cuadros de imagen se convierten en representaciones de movimiento. Además, las técnicas de compresión de vídeo convencionales se sirven de similitudes dentro de los cuadros de imagen, conocidas como correlación intracuadros o correlación espacial, para proporcionar la compresión intracuadros en la cual las representaciones de movimiento dentro de un cuadro de imagen se comprimen aún más. La compresión intracuadros se basa en los procesos convencionales para comprimir imágenes fijas, tales como la codificación de la transformada de coseno discreta (DCT).

Aunque difieran en implementaciones específicas, los estándares de compresión de vídeo MPEG-1, MPEG-2 y H.26X comparten algunos aspectos parecidos. La siguiente descripción del estándar de compresión de vídeo MPEG-2 se puede aplicar normalmente al resto.

MPEG-2 ofrece compresión intercuadros y una compresión intracuadros basada en bloques cuadrados o matrices de píxeles en imágenes de vídeo. Una imagen de vídeo se divide en bloques de transformación que tienen dimensiones de 16x16 píxeles. Para cada bloque de transformación T_N en un cuadro de imagen N se realiza una búsqueda a través de la imagen de un cuadro de imagen N-1 inmediatamente precedente o también un cuadro de vídeo sucesivo N+1 posterior (es decir, bidireccional) para identificar los bloques de transformación T_N o T_N+1 más parecidos.

Idealmente, y por lo que respecta a una búsqueda del siguiente cuadro de imagen sucesivo, los píxeles en los bloques de transformación T_N y T_N+1 son idénticos, incluso si los bloques de transformación tienen diversas posiciones en sus respectivos cuadros de imagen. Bajo esas circunstancias, la información del píxel en el bloque de transformación T_N es redundante con respecto a la del bloque de transformación T_N. La compresión se alcanza sustituyendo la traslación posicional entre los bloques de transformación T_N y T_N-1 para la información del píxel en el bloque de transformación T_N-1. En este ejemplo simplificado, se designa un solo vector de traslación (?X, ?Y) para la información de vídeo asociada a los 256 píxeles en el bloque de transformación T_N-1.

Con frecuencia, la información de vídeo (es decir, píxeles) en los correspondientes bloques de transformación T_N y T_N-1 no son idénticos. La diferencia entre ellos se designa un error de bloque de transformación E, que a menudo es significativo. Aunque se comprima mediante un proceso de compresión convencional como la codificación de la transformada de coseno discreta (DCT), el error de bloque de transformación E es incómodo y limita el grado (cociente) y la precisión que permite la compresión de las señales de vídeo.

Los errores graves del bloque de transformación E se presentan en métodos de compresión de vídeo basados en bloques por diversas razones. La valoración de movimiento basada en bloques representa solamente el movimiento de traslación entre sucesivos cuadros de imagen. El único cambio entre los correspondientes bloques de transformación T_N y T_N-1 que se puede representar son los cambios en las posiciones relativas de los bloques de transformación. Una desventaja de dichas representaciones es que las secuencias de vídeo dinámicas incluyen con frecuencia movimientos complejos diferentes de la traslación, como rotación, ampliación y recortado. La representación de dichos movimientos complejos con aproximaciones de traslación simples da lugar a errores significativos.

Otro aspecto de las pantallas de vídeo es que normalmente incluyen múltiples objetos o características de imagen que se mueven o cambian unos con respecto a otros. Los objetos pueden ser distintos personajes, artículos, o escenarios dentro de una pantalla de vídeo. Por lo qué respecta a una escena en una imagen en movimiento, por ejemplo, cada uno de los personajes (es decir, actores) y de los artículos (es decir, atrezzo) en la escena podría ser un objeto diferente.

El movimiento relativo entre los objetos en una secuencia de vídeo es otra fuente de los errores bloque de transformación E significativos en los procesos de compresión de vídeo convencionales. Debido a la configuración y tamaño habitual de los bloques de transformación, muchos de ellos abarcan partes de diversos objetos. El movimiento relativo entre los objetos durante cuadros de imagen sucesivos puede dar lugar a una correlación extremadamente baja (es decir, elevados errores de transformación E) entre los correspondientes bloques de transformación. Igualmente, el aspecto de las partes de los objetos en los sucesivos cuadros de imagen (por ejemplo, cuando un personaje se da la vuelta) también presenta elevados errores de transformación E.

Los métodos convencionales de compresión de vídeo aparecen estar intrínsecamente limitados debido al tamaño de los errores de transformación E. Con el aumento de la demanda de las capacidades de visualización de vídeo digital, se requieren procesos de compresión de vídeo digital mejorados.

Resumen de la invención

La presente invención incluye un proceso codificador de compresión de vídeo para comprimir señales de vídeo digitalizadas que representan el movimiento en secuencias de vídeo de múltiples cuadros de imagen. El proceso codificador utiliza la compresión de vídeo basada en objetos para mejorar la precisión y versatilidad de las características de imagen intracuadros y de movimiento intercuadros de codificación. La información de vídeo se comprime en relación con los objetos de configuraciones arbitrarias, en vez de fijas, matrices de píxeles habituales como...

Reivindicaciones:

1. Un método de descodificar objetos de vídeo plurales en una secuencia de vídeo, para usar en un descodificador de vídeo basados en objetos, donde el método abarca:

la recepción de datos codificados para los objetos de vídeo plurales en la secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, y en donde los datos codificados incluyen:

datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales;

una o más máscaras que definen la forma del primer objeto de vídeo;

uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite;

datos intracodificados para el segundo objeto de vídeo;

una o más máscaras que definen la forma del segundo objeto de vídeo;

por lo menos uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y

una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales;

la descodificación del sprite para el primer objeto de vídeo;

la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez;

la descodificación del segundo objeto de. vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y

la descodificación del segundo objeto de vídeo la segunda vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de movimiento para el segundo objeto de vídeo la segunda vez para calcular los valores del píxel para los píxeles del segundo objeto de vídeo la segunda vez del segundo objeto de vídeo descodificado la primera vez, e incluyendo también la combinación de los valores del píxel calculados para los píxeles del segundo objeto de vídeo la segunda vez con una señal de error para el segundo objeto de vídeo la segunda vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la segunda vez.

2. El método de la reivindicación 1 abarca además:

la descodificación del primer objeto de vídeo la segunda vez, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la segunda vez para calcular los valores de píxel para los píxeles del primer objeto de vídeo la segunda vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la segunda vez.

3. El método de la reivindicación 2 abarca además:

la composición del primer objeto de vídeo descodificado y el segundo objeto de vídeo descodificado la primera vez; y

la composición del primer objetó de vídeo descodificado y el segundo objeto de vídeo descodificado la segunda vez.

4. El método de la reivindicación 2 en donde los datos codificados incluyen además una o más señales de error para el primer objeto de vídeo, y en donde el método también abarca:

durante la descodificación del primer objeto de vídeo la primera vez, la combinación de los píxeles calculados del primer objeto de vídeo la primera vez con una señal de error para el primer objeto de vídeo la primera vez; y

durante la descodificación del primer objeto de vídeo la segunda vez, la combinación de los píxeles calculados del primer objeto de vídeo la segunda vez con una señal de error para el primer objeto de Vídeo la segunda vez.

5. El método de la reivindicación 1 en donde el descodificador de vídeo basado en objetos comienza a descodificar los primeros y segundos objetos de vídeo por primera vez antes de terminar la recepción de los datos codificados por segunda vez.

6. Un método de procesamiento de datos codificados para objetos de vídeo plurales en una secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, donde el método abarca:

el procesamiento de datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales;

el procesamiento de una o más máscaras que definen la forma del primer objeto de vídeo;

el procesamiento de uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite;

el procesamiento de datos intracodificados para el segundo objeto de vídeo;

el procesamiento de una o más máscaras que definen la forma del segundo objeto de vídeo;

el procesamiento de, al menos de uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y

el procesamiento de una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales;

en donde los datos codificados son formateados para ser descodificados por un descodificador de vídeo basado en objetos mediante:

la descodificación del sprite para el primer objeto de vídeo;

la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde 1 a o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez;

la descodificación del segundo objeto de vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y

7. El método de la reivindicación 6 en donde la descodificación por un descodificador de vídeo basado en objetos abarca además:

8. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo y la o las máscaras que definen la forma del segundo objeto de vídeo son máscaras binarias.

9. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo y la o las máscaras que definen la forma del segundo objeto de vídeo son máscaras alphachannel de múltiples bits.

10. El método de cualquier reivindicación precedente, en donde el primer objeto de vídeo representa el fondo en la secuencia de vídeo y el segundo objeto de vídeo representa un objeto de primer plano en la secuencia de vídeo.

11. El método de cualquier reivindicación precedente, en donde el segundo objeto de vídeo se divide en bloques, y en donde el o los parámetros de movimiento están dirigidos a los bloques del segundo objeto de vídeo.

12. El método de cualquier reivindicación precedente, en donde el o los parámetros de movimiento para el segundo objeto de vídeo son parámetros de trayectoria.

13. El método de cualquier reivindicación precedente, en donde los datos intracodificados para el segundo objeto de vídeo incluyen un sprite para el segundo objeto de vídeo, y en donde la descodificación del segundo objeto de vídeo la primera vez incluye la descodificación del sprite para el segundo objeto de vídeo.

14. El método de cualquier reivindicación precedente, en donde el o los parámetros de trayectoria para el primer objeto de vídeo se codifican en términos de coordenadas del píxel.

15. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo están en términos de sprite para el primer objeto de vídeo.

16. Un programa de ordenador que abarca medios de código de programas de ordenador adaptados para realizar todos los pasos de cualquiera de las reivindicaciones precedentes cuando el programa se ejecuta en un ordenador.

17. Un programa de ordenador de acuerdo con la reivindicación 16, que se plasma en un medio legible por ordenador.

Patentes similares o relacionadas:

Sistema y método para codificación y decodificación aritmética, del 29 de Abril de 2020, de NTT DOCOMO, INC.: Método de decodificación aritmética para convertir una secuencia de información compuesta por una secuencia de bits en una secuencia de eventos binarios compuesta […]

Filtro de desbloqueo condicionado por el brillo de los píxeles, del 25 de Marzo de 2020, de DOLBY INTERNATIONAL AB: Método para desbloquear datos de píxeles procesados con compresión de vídeo digital basado en bloque, incluyendo los pasos: - recibir […]

Método para codificar y descodificar imágenes B en modo directo, del 19 de Febrero de 2020, de Godo Kaisha IP Bridge 1: Un método para generar y descodificar una secuencia de bits de una imagen B objetivo, en donde generar la secuencia de bits de la imagen B objetivo incluye las siguientes […]

Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para compresión de imágenes de video usando predicción en modo directo, que incluye: proporcionar una secuencia de cuadros predichos […]

Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método de compresión de imágenes de video que comprende: proporcionar una secuencia de cuadros referenciables (I, P) y predichos bidireccionales […]

Capa de sectores en códec de vídeo, del 27 de Noviembre de 2019, de Microsoft Technology Licensing, LLC: Un procedimiento de decodificación de vídeo e imágenes, que comprende: decodificar una imagen de un flujo de bits codificado que tiene una jerarquía […]

Transformación solapada condicional, del 20 de Noviembre de 2019, de Microsoft Technology Licensing, LLC: Un método para codificar un flujo de bits de vídeo utilizando una transformación solapada condicional, en donde el método comprende: la señalización de un modo de filtro […]

Técnica para una simulación del grano de película exacta de bits, del 4 de Septiembre de 2019, de InterDigital VC Holdings, Inc: Un procedimiento para simular un grano de película en un bloque de imagen que comprende: calcular el promedio de los valores de luminancia de píxeles dentro del bloque de […]