Método de codificación y método de descodificación de vídeo, aparatos para los mismos, programas para los mismos y medios de almacenamiento que almacenan los programas.
Un aparato de codificación de vídeo (100) para codificar una imagen de vídeo dividiendo una imagen completa enáreas,
generando una imagen predicha para cada área de la imagen dividida en función de información de imagende una pluralidad de cuadros ya codificados, y codificando información diferencial entre una 5 imagen de un áreaobjetivo de codificación en un cuadro objetivo de codificación y la imagen predicha, comprendiendo el aparato decodificación de vídeo:
- un dispositivo de establecimiento de correspondencias (106, 107) para:
presuponer secuencialmente que cada uno de los cuadros ya codificados es un cuadro objetivo de vector dereferencia;
presuponer secuencialmente que cada uno de los cuadros ya codificados, excepto uno que se tomó como el cuadroobjetivo de vector de referencia, es un cuadro de referencia;
presuponer secuencialmente que cada una de las áreas del cuadro objetivo de vector de referencia supuesto,presentando cada una el mismo tamaño que el área objetivo de codificación, es un área objetivo de vector dereferencia;
determinar un vector, que se extiende desde el área objetivo de codificación hasta el área objetivo de vector dereferencia supuesta, como un vector de referencia;
para cada una de las combinaciones formadas por el cuadro objetivo de vector de referencia, el cuadro de referenciay el área objetivo de vector de referencia que se obtienen mediante las suposiciones anteriores, establecer un áreade referencia como un área que pertenece al cuadro de referencia y que tiene información de imagencorrespondiente a información de imagen del área objetivo de vector de referencia debido a una correspondenciaentre bloques;
calcular un coste de distorsión de velocidad evaluado durante la codificación de información de imagen del áreaobjetivo de codificación usando el cuadro objetivo de vector de referencia, el cuadro de referencia, el vector dereferencia y el área de referencia; y
someter cada una de dichas combinaciones al cálculo anterior del coste de distorsión de velocidad y seleccionar elcuadro objetivo de vector de referencia, el cuadro de referencia, el área objetivo de vector de referencia y el área dereferencia para la combinación mediante la cual se minimiza el coste de distorsión de velocidad;
- un dispositivo de codificación de información de designación de cuadro objetivo de vector de referencia (109) paracodificar información que designa el cuadro objetivo de vector de referencia;
- un dispositivo de codificación predictiva de vector de referencia (113, 114) para codificar de manera predictiva elvector de referencia que indica el área objetivo de vector de referencia;
- un dispositivo de codificación de información de designación de cuadro de referencia (109) para codificarinformación que designa el cuadro de referencia;
- un dispositivo de generación de imagen predicha (102) para generar la imagen predicha usando la información deimagen del área de referencia en el cuadro de referencia; y
- un dispositivo de codificación de información diferencial (103) para codificar información diferencial entre lainformación de imagen del área objetivo de codificación y la imagen predicha generada
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12173486.
Solicitante: NIPPON TELEGRAPH AND TELEPHONE CORPORATION.
Nacionalidad solicitante: Japón.
Dirección: 3-1 Otemachi 2-chome Chiyoda-ku Tokyo 100-8116 JAPON.
Inventor/es: KIMATA,Hideaki, SHIMIZU,Shinya, KAMIKURA,Kazuto, YASHIMA,Yoshiyuki.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- H04N7/26
- H04N7/32
PDF original: ES-2439444_T3.pdf
Fragmento de la descripción:
Método de codificación y método de descodificación de vídeo, aparatos para los mismos, programas para los mismos y medios de almacenamiento que almacenan los programas 5
Campo técnico La presente invención se refiere a un método de codificación de vídeo para codificar una imagen de vídeo usando un método de codificación predictivo intercuadro y un aparato correspondiente; a un método de descodificación de vídeo para descodificar datos codificados generados por el método de codificación de vídeo y un aparato correspondiente; a un programa de codificación de vídeo para implementar el método de codificación de vídeo y a un medio de almacenamiento legible por ordenador que almacena el programa; y a un programa de descodificación de vídeo para implementar el método de descodificación de vídeo y a un medio de almacenamiento legible por ordenador que almacena el programa.
Se reivindica la prioridad de la solicitud de patente japonesa nº. 2006-293901, presentada el 30 de octubre de 2006.
Técnica anterior
Las imágenes de vídeo de múltiples puntos de visualización son una pluralidad de imágenes de vídeo obtenidas fotografiando el mismo objeto y el fondo del mismo usando una pluralidad de cámaras. En lo sucesivo, una imagen de vídeo obtenida mediante una única cámara se denominará "imagen de vídeo bidimensional" y un conjunto de múltiples imágenes de vídeo bidimensionales obtenidas fotografiando el mismo objeto y el fondo del mismo se denominará “imagen de vídeo de múltiples puntos de visualización”.
Existe una gran correlación temporal en la imagen de vídeo bidimensional de cada cámara, la cual está incluida en una imagen de vídeo de múltiples puntos de visualización. Además, cuando las cámaras están sincronizadas entre sí, las imágenes (tomadas por las cámaras) correspondientes al mismo instante de tiempo capturan el objeto y el fondo del mismo exactamente en el mismo estado desde diferentes posiciones, de manera que hay una gran correlación entre las cámaras. La eficacia de codificación de la codificación de vídeo puede mejorarse usando esta correlación.
En primer lugar, se mostrarán técnicas convencionales relacionadas con la codificación de imágenes de vídeo bidimensionales.
En muchos métodos conocidos de codificación de imágenes de vídeo bidimensionales, tales como MPEG-2 y H.264 (que son normas de codificación de vídeo internacionales) , y similares, se obtiene una alta eficacia de codificación mediante una codificación predictiva intercuadro que usa una correlación temporal. La codificación predictiva intercuadro ejecutada para codificar imágenes de vídeo bidimensionales usa una variación temporal en una imagen de vídeo, es decir, un movimiento. Por lo tanto, el método usado en la codificación predictiva intercuadro se denomina generalmente "compensación de movimiento". Por consiguiente, la codificación predictiva intercuadro a lo largo de un eje temporal se denominará en lo sucesivo "compensación de movimiento”. Además, un “cuadro” es una imagen que constituye una imagen de vídeo y se obtiene en un instante de tiempo específico.
Generalmente, la codificación de vídeo bidimensional tiene los siguientes modos de codificación para cada cuadro: "cuadro I" codificado sin usar una correlación intercuadro, "cuadro P” codificado mientras se realiza una compensación de movimiento basada en un cuadro ya codificado, y "cuadro B" codificado mientras se realiza una compensación de movimiento basada en dos cuadros ya codificados.
Con el fin de mejorar adicionalmente la eficacia de la predicción de imágenes de vídeo, en H.263 y H.264, las imágenes descodificadas de una pluralidad de cuadros (es decir, dos cuadros o más) se almacenan en una memoria de imágenes de referencia, y una imagen de referencia se selecciona de entre las imágenes de la memoria para llevar a cabo la predicción. La imagen de referencia puede seleccionarse para cada bloque, y la información de designación de imagen de referencia para designar la imagen de referencia puede codificarse para llevar a cabo la 55 descodificación correspondiente. Para un "cuadro P", un elemento de información de designación de imagen de referencia se codifica para cada bloque. Para un “cuadro B”, dos elementos de información de designación de imagen de referencia se codifican para cada bloque.
En la compensación de movimiento, además de la información de designación de imagen de referencia, se codifica un vector para indicar una posición en la imagen de referencia, donde un bloque objetivo se codifica usando la posición, y el vector se denomina “vector de movimiento". De manera similar a la información de designación de imagen de referencia, un vector de movimiento se codifica para un "cuadro P", y dos vectores de movimiento se codifican para un "cuadro B".
En la codificación de vectores de movimiento en MPEG-4 o H.264, se genera un vector predicho usando un vector de movimiento de un bloque adyacente a un bloque objetivo de codificación y solamente un vector diferencial entre el vector predicho y el vector de movimiento usado en la compensación de movimiento aplicada al bloque objetivo. Según este método, cuando hay continuidad de movimiento entre los bloques adyacentes pertinentes, el vector de movimiento puede codificarse con un alto nivel de eficacia de codificación.
El documento 1, que no es una patente, da a conocer un proceso de generación de un vector predicho en H.264, cuya explicación general se presenta a continuación.
En H.264, como se muestra en la figura 13A, en función de los vectores de movimiento (mv_a, mv_b y mv_c) usados en un bloque en el lado izquierdo (véase “a” en la figura 13A) , un bloque en el lado superior (véase “b” en la figura 13A) y un bloque en el lado superior derecho (véase “c” en la figura 13A) de un bloque objetivo de codificación, se obtienen componentes horizontales y verticales calculando la mediana de cada dirección.
Puesto que H.264 utiliza una compensación de movimiento de tamaño de bloque variable, el tamaño de bloque para la compensación de movimiento puede no ser el mismo entre el bloque objetivo y los bloques periféricos del mismo.
En tal caso, como se muestra en la figura 13B, el bloque "a" se establece como el bloque situado más arriba de entre los bloques del lado izquierdo adyacentes al bloque objetivo, el bloque "b" se establece como el bloque más a la izquierda de entre los bloques del lado superior adyacentes al bloque objetivo y el bloque "c" se establece como el bloque superior izquierdo más próximo. Como una excepción, si el tamaño del bloque objetivo es de 8x16 píxeles, como se muestra en la figura 13C, en lugar de la mediana se usa el bloque "a" y el bloque "c", respectivamente, para predecir el bloque izquierdo y el bloque derecho. Asimismo, si el tamaño del bloque objetivo es de 16x8 píxeles, como se muestra en la figura 13D, en lugar de la mediana se usa el bloque "a" y el bloque "b", respectivamente, para predecir el bloque inferior y el bloque superior.
Tal y como se ha descrito anteriormente, en H.264 se selecciona un cuadro de referencia para cada bloque entre 25 una pluralidad de cuadros ya codificados y se usa para la compensación de movimiento.
Generalmente, el movimiento del objeto captado en imágenes no es uniforme y depende del cuadro de referencia. Por lo tanto, en comparación con un vector de movimiento en la compensación de movimiento realizada usando un cuadro de referencia diferente al del bloque objetivo, un vector de movimiento en la compensación de movimiento realizada usando el mismo cuadro de referencia que el del bloque objetivo debe ser similar a un vector de movimiento usado para el bloque objetivo. Por lo tanto, en H.264, si solo hay un bloque (de entre los bloques a, b y c) cuyo cuadro de referencia sea el mismo que el del bloque objetivo de codificación; entonces, en lugar de la mediana se usa el vector de movimiento del bloque pertinente como un vector predicho para generar un vector predicho que tiene un nivel de fiabilidad relativamente superior.
A continuación se explicarán métodos de codificación convencionales para imágenes de vídeo de múltiples puntos de visualización.
Generalmente, la codificación de vídeo de múltiples puntos de visualización usa una correlación entre cámaras, obteniéndose un alto nivel de eficacia de codificación usando “compensación de disparidad", donde la compensación de movimiento se aplica a cuadros que se obtienen al mismo tiempo usando diferentes cámaras.
Por ejemplo, el perfil de multivisión de MPEG-2 o el documento 2, que... [Seguir leyendo]
Reivindicaciones:
1. Un aparato de codificación de vídeo (100) para codificar una imagen de vídeo dividiendo una imagen completa en áreas, generando una imagen predicha para cada área de la imagen dividida en función de información de imagen de una pluralidad de cuadros ya codificados, y codificando información diferencial entre una imagen de un área objetivo de codificación en un cuadro objetivo de codificación y la imagen predicha, comprendiendo el aparato de codificación de vídeo:
- un dispositivo de establecimiento de correspondencias (106, 107) para:
presuponer secuencialmente que cada uno de los cuadros ya codificados es un cuadro objetivo de vector de referencia;
presuponer secuencialmente que cada uno de los cuadros ya codificados, excepto uno que se tomó como el cuadro 15 objetivo de vector de referencia, es un cuadro de referencia;
presuponer secuencialmente que cada una de las áreas del cuadro objetivo de vector de referencia supuesto, presentando cada una el mismo tamaño que el área objetivo de codificación, es un área objetivo de vector de referencia;
determinar un vector, que se extiende desde el área objetivo de codificación hasta el área objetivo de vector de referencia supuesta, como un vector de referencia;
para cada una de las combinaciones formadas por el cuadro objetivo de vector de referencia, el cuadro de referencia y el área objetivo de vector de referencia que se obtienen mediante las suposiciones anteriores, establecer un área de referencia como un área que pertenece al cuadro de referencia y que tiene información de imagen correspondiente a información de imagen del área objetivo de vector de referencia debido a una correspondencia entre bloques;
calcular un coste de distorsión de velocidad evaluado durante la codificación de información de imagen del área objetivo de codificación usando el cuadro objetivo de vector de referencia, el cuadro de referencia, el vector de referencia y el área de referencia; y
someter cada una de dichas combinaciones al cálculo anterior del coste de distorsión de velocidad y seleccionar el
cuadro objetivo de vector de referencia, el cuadro de referencia, el área objetivo de vector de referencia y el área de referencia para la combinación mediante la cual se minimiza el coste de distorsión de velocidad;
- un dispositivo de codificación de información de designación de cuadro objetivo de vector de referencia (109) para
codificar información que designa el cuadro objetivo de vector de referencia; 40
- un dispositivo de codificación predictiva de vector de referencia (113, 114) para codificar de manera predictiva el vector de referencia que indica el área objetivo de vector de referencia;
- un dispositivo de codificación de información de designación de cuadro de referencia (109) para codificar 45 información que designa el cuadro de referencia;
- un dispositivo de generación de imagen predicha (102) para generar la imagen predicha usando la información de imagen del área de referencia en el cuadro de referencia; y
- un dispositivo de codificación de información diferencial (103) para codificar información diferencial entre la información de imagen del área objetivo de codificación y la imagen predicha generada.
2. Un aparato de descodificación de vídeo (200) para descodificar una imagen de vídeo dividiendo una imagen completa en áreas, generando una imagen predicha para cada área de la imagen dividida en función de información 55 de imagen de una pluralidad de cuadros ya descodificados, y descodificando información diferencial entre la imagen predicha y una imagen de un área objetivo de descodificación en un cuadro objetivo de descodificación, comprendiendo el aparato de descodificación de vídeo:
un dispositivo de descodificación de información de designación de cuadro objetivo de vector de referencia (203)
para descodificar, a partir de los datos codificados, información que designa un cuadro objetivo de vector de referencia que se selecciona de entre los cuadros ya descodificados;
un dispositivo de descodificación de vector de referencia (202, 206) para descodificar, a partir de los datos codificados, un vector de referencia que se ha codificado mediante codificación predictiva y que indica un área 65 objetivo de vector de referencia que pertenece al cuadro objetivo de vector de referencia; un dispositivo de descodificación de información de designación de cuadro de referencia (203) para descodificar, a partir de los datos codificados, información que designa un cuadro de referencia seleccionado de entre los cuadros ya descodificados, donde el cuadro de referencia no es idéntico al cuadro objetivo de vector de referencia;
un dispositivo de establecimiento de área de cuadro de referencia (209) para establecer un área de referencia en el cuadro de referencia de tal manera que la información de imagen del área de referencia en el cuadro de referencia corresponde a información de imagen del área objetivo de vector de referencia debido a una correspondencia entre bloques; y
un dispositivo de generación de imagen predicha (204) para generar la imagen predicha usando información de imagen del cuadro de referencia, que corresponde al área de referencia.
Patentes similares o relacionadas:
Sistema y método para codificación y decodificación aritmética, del 29 de Abril de 2020, de NTT DOCOMO, INC.: Método de decodificación aritmética para convertir una secuencia de información compuesta por una secuencia de bits en una secuencia de eventos binarios compuesta […]
Filtro de desbloqueo condicionado por el brillo de los píxeles, del 25 de Marzo de 2020, de DOLBY INTERNATIONAL AB: Método para desbloquear datos de píxeles procesados con compresión de vídeo digital basado en bloque, incluyendo los pasos: - recibir […]
Método para codificar y descodificar imágenes B en modo directo, del 19 de Febrero de 2020, de Godo Kaisha IP Bridge 1: Un método para generar y descodificar una secuencia de bits de una imagen B objetivo, en donde generar la secuencia de bits de la imagen B objetivo incluye las siguientes […]
Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método de compresión de imágenes de video que comprende: proporcionar una secuencia de cuadros referenciables (I, P) y predichos bidireccionales […]
Interpolación mejorada de cuadros de compresión de vídeo, del 4 de Diciembre de 2019, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para compresión de imágenes de video usando predicción en modo directo, que incluye: proporcionar una secuencia de cuadros predichos […]
Capa de sectores en códec de vídeo, del 27 de Noviembre de 2019, de Microsoft Technology Licensing, LLC: Un procedimiento de decodificación de vídeo e imágenes, que comprende: decodificar una imagen de un flujo de bits codificado que tiene una jerarquía […]
Transformación solapada condicional, del 20 de Noviembre de 2019, de Microsoft Technology Licensing, LLC: Un método para codificar un flujo de bits de vídeo utilizando una transformación solapada condicional, en donde el método comprende: la señalización de un modo de filtro […]
Técnica para una simulación del grano de película exacta de bits, del 4 de Septiembre de 2019, de InterDigital VC Holdings, Inc: Un procedimiento para simular un grano de película en un bloque de imagen que comprende: calcular el promedio de los valores de luminancia de píxeles dentro del bloque de […]