Sistema y procedimiento para implementar una administración eficiente de memoria intermedia decodificada en codificación de video de vistas múltiples.

Un procedimiento de codificación de una pluralidad de vistas de una escena en un flujo de bits de vídeo codificado

, conteniendo cada vista de dicha pluralidad de vistas una pluralidad de imágenes, comprendiendo el procedimiento:

proporcionar un elemento de señalización para cada imagen de una vista, indicando el elemento de señalización si la imagen correspondiente de dicha vista se utiliza o no como referencia para cualquier otra imagen que pertenece a una vista diferente, en donde el elemento de señalización es una señal y se señaliza en una encabezado de unidad de capa de abstracción de red de una unidad de capa de abstracción de red que contiene datos de vídeo codificados de dicha imagen correspondiente de dicha vista.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2007/054200.

Solicitante: NOKIA CORPORATION.

Nacionalidad solicitante: Finlandia.

Dirección: Karakaari 7 02610 Espoo FINLANDIA.

Inventor/es: HANNUKSELA, MISKA, WANG,YE-KUI, CHEN,YING.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • H04N7/26

PDF original: ES-2492923_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Sistema y procedimiento para implementar una administración eficiente de memoria intermedia decodificada en codificación de video de vistas múltiples

Campo de la invención

La presente invención se refiere en general con la codificación de video. Más específicamente, la presente invención se refiere a la administración de la memoria intermedia de imágenes codificadas en la codificación de video de vistas múltiples.

Antecedentes de la invención

En la codificación de video de vistas múltiples, las secuencias de video producidas desde diferentes cámaras, cada una correspondiendo a diferentes vistas de una escena, son codificadas en un solo flujo de bits. Después de la decodificación, para mostrar cierta vista, las imágenes decodificadas que pertenecen a esa vista son reconstruidas y visualizadas. También es posible que más de una vista sea reconstruida y visualizada.

La codificación de video de vistas múltiples procesa una amplia variedad de aplicaciones, incluyendo video/televisión de punto de vista libre, TV tridimensional (3D) y aplicaciones de sondeo. Actualmente, el Equipo de Video Conjunto (JVT) de la Organización Internacional para la Estandarización (ISO)/Grupo de Expertos de Imágenes en Movimiento (MPEG) del Consorcio Internacional de Ingeniería (IEC) y el Grupo de Expertos en Codificación de Video de la Unión de Telecomunicación Internacional (ITU)-T está trabajando para desarrollar un estándar de codificación de video de vistas múltiples (MVC), el cual se está convirtiendo en una extensión del estándar ITU-T H.264, también conocido como ISÓ/IEC MPEG-4 Parte 1. Estos estándares borradores se mencionan en el presente documento como MVC y AVC, respectivamente. El último borrador del estándar MVC se describe en JVT- T28, "Joint Multiview Video Model (JMVM) 1.", 2a Reunión de la JVT, Klagenfurt, Austria, Julio de 26, puede encontrarse en ftp3.itu.ch/av-arch/ivt-site/26/7_Klagenfurt/JVT-T28.zip.

En JMVM 1., para cada grupo de imágenes (GOP), las imágenes de cualquier vista son contiguas en orden de decodificación. Esto se ¡lustra en la figura 1, donde la dirección horizontal indica el tiempo (siendo cada instante de tiempo representado por Tm) y la dirección vertical indica la vista (estando cada vista representada por Sn). Las imágenes de cada vista son agrupadas en GOPs, por ejemplo, las imágenes T1 a T8 en la figura 1 para cada vista forman un GOP. Esta disposición de orden de decodificación se llama como codificación de la primera vista. Debe indicarse que para las imágenes en una vista y en un GOP, a pesar de que su orden de decodificación es continuo sin ninguna otra imagen para insertarse entre cualquiera de las dos imágenes, su orden de decodificación puede cambiar internamente.

También es posible tener un orden de decodificación diferente al descrito para la codificación de la primera vista. Por ejemplo, las imágenes pueden disponerse de tal manera que las imágenes de cualquier ubicación temporal sean contiguas en el orden de decodificación. Esta disposición se muestra en la figura 2. Esta disposición de orden de decodificación se denomina codificación de primero el tiempo. También debe indicarse que el orden de decodificación de las unidades de acceso puede no ser idéntico al orden temporal.

Una estructura de predicción típica (que incluye predicción entre imágenes en cada vista y predicción entre vistas) para la codificación de video de vistas múltiples se muestra en la figura 2, donde las predicciones se indican mediante flechas, y el objeto apuntado-a utiliza el objeto apuntado-desde para referencia de predicción. La predicción entre imágenes dentro de una vista también se denomina predicción temporal, predicción entre vistas, o simplemente, interpredicción.

Una imagen de Actualización Instantánea de Decodificación (IDR) es una imagen intracodificada que hace que el proceso de decodificación marque todas las imágenes de referencia como "no usadas para referencia" inmediatamente después de decodificar la imagen IDR. Después de decodificar una imagen IDR, todas las siguientes imágenes codificadas en el orden de decodificación pueden decodificarse sin interpredicción de cualquier imagen decodificada antes que la imagen IDR.

En AVC y MVC, los parámetros de codificación que se mantienen sin cambios a través de una secuencia de video codificada se incluyen en un conjunto de parámetros de secuencias. Además de los parámetros que son esenciales para el proceso de decodificación, el conjunto de parámetros de secuencias puede contener opcionalmente información de utilización de video (VUI), la cual incluye parámetros que son importantes para almacenamiento temporal, sincronización de la salida de imágenes, representación, y reserva de recursos. Existen dos estructuras especificadas para llevar conjuntos de parámetros de secuencias - la unidad NAL del conjunto de parámetros de secuencias que contiene todos los datos para imágenes AVC en la secuencia, y la extensión del conjunto de parámetros de secuencias para MVC. Un conjunto de parámetros de imagen contiene los parámetros que probablemente no cambiarán en varias imágenes codificadas. Frecuentemente, el cambio de datos del nivel de imagen se repite en cada encabezado de líneas, y los conjuntos de parámetros de imágenes llevan los parámetros

de nivel de imagen restantes. La sintaxis H.264/AVC permite muchas instancias de conjuntos de parámetros de secuencias e imágenes, y cada instancia está identificada con un identificador único. Cada encabezado de línea incluye el identificador del conjunto de parámetros de imágenes que está activo para la decodificación de la imagen que contiene la línea, y cada conjunto de parámetros de imágenes contiene el identificador del conjunto de parámetros de secuencias activo. En consecuencia, la transmisión de los conjuntos de parámetros de imágenes y secuencias no tiene que sincronizarse con precisión con la transmisión de las líneas. Más Bien, es suficiente que los conjuntos de parámetros de secuencias e imágenes activos sean recibidos en cualquier momento antes de que sean referenciados, lo cual permite la transmisión de conjuntos de parámetros usando un mecanismo de transmisión más fiable comparado con los protocolos usados para los datos de líneas. Por ejemplo, conjuntos de parámetros pueden incluirse como un parámetro MIME en la descripción de la sesión para las sesiones del Protocolo en Tiempo Real (RTP) de H.264/AVC. Se recomienda usar un mecanismo de transmisión fiable fuera de banda siempre que sea posible en la aplicación en uso. Si se transmiten conjuntos de parámetros dentro de la banda, estos pueden repetirse para mejorar la robustez de errores.

Como se describe en el presente documento, una imagen ancla es una imagen codificada en la cual todas las líneas solo hacen referencia a líneas con el mismo índice temporal, es decir, solo líneas en otras vistas y no líneas en imágenes anteriores de la vista actual. Una imagen ancla se señaliza estableciendo un anchor_pic_flag en 1. Después de decodificar la imagen ancla, todas las imágenes codificadas posteriores en el orden de visualización son capaces de decodificarse sin interpredicción de ninguna imagen decodificada antes de la imagen ancla. Si una imagen en una vista es una imagen ancla, entonces todas las imágenes con el mismo índice temporal en otras vistas son también imágenes ancla. En consecuencia, la decodificación de cualquier vista puede iniciarse desde un índice temporal que corresponde a imágenes ancla.

La sincronización de la salida de imágenes, tal como registro de tiempo de salida, no se incluye en la parte integral de flujos de bits de AVC o MVC. Sin embargo, un valor de conteo de orden de imágenes (POC) se... [Seguir leyendo]

 


Reivindicaciones:

1. Un procedimiento de codificación de una pluralidad de vistas de una escena en un flujo de bits de vídeo codificado, conteniendo cada vista de dicha pluralidad de vistas una pluralidad de imágenes, comprendiendo el procedimiento:

proporcionar un elemento de señalización para cada imagen de una vista, indicando el elemento de señalización si la imagen correspondiente de dicha vista se utiliza o no como referencia para cualquier otra imagen que pertenece a una vista diferente, en donde el elemento de señalización es una señal y se señaliza en una encabezado de unidad de capa de abstracción de red de una unidad de capa de abstracción de red que contiene datos de vídeo codificados de dicha imagen correspondiente de dicha vista.

2. Un procedimiento de decodificación de un flujo de bits de vídeo codificado, una representación codificada de una pluralidad de vistas de una escena, conteniendo cada vista de dicha pluralidad de vistas una pluralidad de imágenes, comprendiendo el procedimiento:

recuperar un elemento de señalización para cada imagen de una vista desde el flujo de bits de vídeo codificado, indicando el elemento de señalización si la imagen correspondiente de dicha vista se utiliza o no como referencia para cualquier otra imagen que pertenece a una vista diferente, en donde el elemento de señalización es una señal y se recupera de un encabezado de unidad de capa de abstracción de red de una unidad de capa de abstracción de red que contiene datos de vídeo codificados de dicha imagen correspondiente de dicha vista.

3. Un procedimiento de acuerdo con la reivindicación 2, comprendiendo además el procedimiento:

si el elemento de señalización indica que la imagen de la vista no se utiliza como una referencia para cualquier otra imagen que pertenece a una vista diferente y si la imagen no se utiliza como referencia para cualquier otra imagen que pertenece a la misma vista, omitir la transmisión de una parte de la corriente de bits codificada correspondiente a la imagen.

4. Un procedimiento de acuerdo con la reivindicación 2, comprendiendo además el procedimiento:

si el elemento de señalización indica que la imagen de la vista no se utiliza como referencia para cualquier otra imagen que pertenece a una vista diferente y si la imagen no se utiliza como referencia para cualquier otra imagen que pertenece a la misma vista, omitir la decodificación de una parte de la corriente de bits codificada correspondiente a la imagen.

5. Un aparato para codificar una pluralidad de vistas de una escena en un flujo de bits de vídeo codificado, conteniendo cada vista de dicha pluralidad de vistas una pluralidad de imágenes, comprendiendo el aparato:

medios para proporcionar un elemento de señalización para cada imagen de una vista, indicando el elemento de señalización si la imagen correspondiente de dicha vista se utiliza o no como referencia para cualquier otra imagen que pertenece a una vista diferente, en donde el elemento de señalización es una señal y se señaliza en una encabezado de unidad de capa de abstracción de red de una unidad de capa de abstracción de red que contiene datos de vídeo codificados de dicha imagen correspondiente de dicha vista.

6. Un aparato para decodificar un flujo de bits de vídeo codificado, una representación codificada de una pluralidad de vistas de una escena, conteniendo cada vista de dicha pluralidad de vistas una pluralidad de imágenes, comprendiendo el aparato:

medios para recuperar un elemento de señalización para cada imagen de una vista desde el flujo de bits de vídeo codificado, indicando el elemento de señalización si la imagen correspondiente de dicha vista se utiliza o no como referencia para cualquier otra imagen que pertenece a una vista diferente, en el que el elemento de señalización es una señal y se recupera de un encabezado de unidad de capa de abstracción de red de una unidad de capa de abstracción de red que contiene datos de vídeo codificados de dicha imagen correspondiente de dicha vista.

7. Un aparato de acuerdo con la reivindicación 6, comprendiendo además el aparato:

medios para omitir la transmisión de una parte de la corriente de bits codificada correspondiente a la imagen si el elemento de señalización indica que la imagen de la vista no se utiliza como una referencia para cualquier otra imagen que pertenece a una vista diferente y si la imagen no se utiliza como referencia para cualquier otra imagen que pertenece a la misma vista.

8. Un aparato de acuerdo con la reivindicación 6, comprendiendo además el aparato:

medios para omitir la decodificación de una parte de la corriente de bits codificada correspondiente a la 5 imagen si el elemento de señalización indica que la imagen de la vista no se utiliza como referencia para

cualquier otra imagen que pertenece a una vista diferente y si la imagen no se utiliza como una referencia para cualquier otra imagen que pertenece a la misma vista.