Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo.

Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:

(1a) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación;

(1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;

(1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);

en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.

en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena SIsc, que denota el tamaño medio de fotograma I por cada escena, en el que,

preferiblemente, el primer fotograma I de la primera escena se ignora;

en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SI

sc sobre las escenas sc multiplicado por un coeficiente, y

en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SIsc más bajo: wsc se

establece a un valor mayor que 1, por ejemplo wsc ≥ 16, y para el resto de las escenas: wsc se establece a un valor igual a 1

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12181015.

Solicitante: DEUTSCHE TELEKOM AG.

Nacionalidad solicitante: Alemania.

Dirección: FRIEDRICH-EBERT-ALLEE 140 53113 BONN ALEMANIA.

Inventor/es: ARGYROPOULOS,SAVVAS, FEITEN,BERNHARD, GARCIA,MARIE-NEIGE, LIST,PETER, RAAKE,ALEXANDER.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION > H04B17/00 (Seguimiento; Pruebas (de sistemas de líneas de transmisión H04B 3/46; disposiciones para el seguimiento o prueba de los sistemas de transmisión empleando ondas electromagnéticas diferentes de las ondas de radio H04B 10/07))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > H04N17/00 (Diagnóstico, prueba o medida, o sus detalles, para los sistemas de televisión)
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Distribución selectiva de contenido, p. ej. televisión... > H04N21/442 (Seguimiento de procesos o recursos, p. ej. detección de fallos de un dispositivo de grabación, seguimiento del ancho de banda del flujo de bajada, número de veces que una película ha sido vista o espacio de almacenamiento disponible de un disco duro interno)
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Métodos o disposiciones para la codificación, decodificación,... > H04N19/154 (Calidad visual medida o estimada subjetivamente después de la decodificación, p. ej medida de la distorsión (utilización de criterios tasa de distorsión H04N 19/147))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Métodos o disposiciones para la codificación, decodificación,... > H04N19/177 (siendo la unidad un grupo de imágenes [GOP])
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Métodos o disposiciones para la codificación, decodificación,... > H04N19/48 (utilizando técnicas de procesamiento de dominio comprimidos que no sea la descodificación, p. ej modificación de coeficientes de transformación, codigos de longitud variable de datos [VLC] de datos o datos de "run-length" (estimación del movimiento en un dominio de la transformada H04N 19/547; procesamiento de los vectores de movimiento descodificados H04N 19/513))

PDF original: ES-2526080_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo

La invención se refiere a un procedimiento y un aparato para estimar la calidad percibida de una señal de vídeo digital, preferiblemente en el contexto de los servicios de transmisión de vídeo, tales como televisión bajo protocolo de Internet (Internet Protocol Televisión, IPTV) o vídeo bajo demanda (Vídeo on Demand, VoD) y, en particular, para estimaciones dependientes del contenido de la calidad percibida de una señal de vídeo digital proporcionando parámetros relacionados con la complejidad del contenido, y controlando los procedimientos de estimación de calidad de vídeo basados en parámetros, existentes o futuros, mediante los parámetros proporcionados relacionados con la complejidad del contenido. La invención está diseñada para secuencias de vídeo codificadas, pero funciona también sobre secuencias de vídeo no codificadas.

Con el propósito de garantizar un alto grado de satisfacción para el usuario de los servicios de vídeo, tal como transmisión de vídeo no interactiva (IPTV, VoD), la calidad de vídeo percibida de esos servicios debe ser estimada. El mantenimiento de la calidad de su servicio representa una importante responsabilidad del proveedor de difusión tanto con respecto al proveedor de contenidos como con respecto al cliente. En las grandes redes IPTV, solo las sondas de supervisión de la calidad, completamente automatizadas, pueden cumplir este requisito.

Con este propósito, se han desarrollado modelos de calidad de vídeo que proporcionan estimaciones de la calidad de vídeo tal como es percibida por el usuario. Esos modelos pueden proporcionar, por ejemplo, el grado de similitud entre el vídeo recibido en el lado del usuario y el vídeo no degradado original. Además, y de una manera más sofisticada, puede modelarse el sistema visual humano (Human Visual System, HVS). Por último, la salida del modelo puede ser asignada a los resultados de extensos ensayos subjetivos de la calidad, para proporcionar finalmente una estimación de la calidad percibida.

Los modelos de calidad de vídeo y, de esta manera, los sistemas de medición se clasifican generalmente de la manera siguiente:

Tipos de modelos de calidad

Referencia completa (Full Reference, FR): se requiere una señal de referencia.

Referencia reducida (Reduced Reference, RR): se requiere información parcial extraída de la señal de

origen.

Sin referencia (No Reference, NR): no se requiere señal de referencia.

Tipos de parámetros de entrada

Basados en señal/medio: se requiere la imagen decodificada (información de píxel).

Basados en parámetros: se requiere información a nivel de secuencias de bits. La información puede ser información de cabecera de un paquete, que requiere un análisis sintáctico de las cabeceras de los paquetes, análisis de la secuencia de bits incluyendo la carga útil, es decir, la información de codificación, y la decodificación parcial o total de la secuencia de bits.

Tipo de aplicación

Planificación de la red: el modelo o el sistema de medición se usa antes de la implementación de la red con el propósito de planificar la mejor implementación posible.

Supervisión de servicio: el modelo se usa durante la operación del servicio.

La información relacionada de los tipos de modelos de calidad de vídeo puede encontrarse en la bibliografía [1-3].

Se han descrito varios modelos paramétricos de calidad de vídeo, basados en paquetes, en la bibliografía [4 - 6], Sin embargo, una desventaja importante de estos modelos es que no tienen en cuenta el impacto sobre la calidad del contenido. En otros términos, y tal como se ha informado en estudios anteriores [7-12], la calidad de vídeo percibida depende de las características espacio-temporales del vídeo. Por ejemplo, es bien sabido que la pérdida de paquetes es ocultada generalmente mejor cuando no hay movimientos complejos en el vídeo, tal como en la transmisión de noticias. Cuando no hay pérdida de paquetes y para tasas de bit bajas y medias, el contenido con una baja complejidad espacio-temporal consigue una mejor calidad que el contenido espacio-temporalmente complejo.

Además, la técnica anterior tiene por objeto también incluir el impacto sobre la calidad del contenido en unos

modelos paramétricos de calidad de vídeo basados en parámetros, tanto para los casos con pérdida de paquetes como para los casos sin pérdida de paquetes, véanse las referencias [13a, 13b, 14, 15, 16].

Por ejemplo, en las referencias [13a, 13b, 14], la complejidad de los contenidos se determina para cada fotograma de vídeo comparando el tamaño del fotograma actual con un umbral adaptatlvo. Dependiendo de si el tamaño del fotograma actual es mayor, igual o menor que este umbral se producirá un aumento o una disminución de la calidad estimada asociada con el fotograma actual. Sin embargo, debido al uso de un valor de umbral y a si es mayor, Igual o menor que este valor, el procedimiento descrito en estas referencias sólo proporciona una consideración relativamente aproximada del contenido de vídeo. En otras palabras, no hay una medida suave o continua de la complejidad de los fotogramas dentro de una ventana de medición determinada. Además, debido a que el umbral adaptativo se calcula sobre la totalidad o una parte de la ventana de medición, la complejidad de cada fotograma se determina en relación a la complejidad de otros fotogramas en la misma secuencia de vídeo, pero no en relación a la complejidad de otros contenidos.

En la referencia [15], se propone una solución para la Inserción de parámetros relacionados con el contenido, es decir, parámetros que reflejan la complejidad espacio-temporal del contenido, tal como un parámetro de cuantificación y vectores de movimiento, en un modelo de calidad de vídeo basado en parámetros. Sin embargo, estos parámetros relacionados con el contenido no pueden ser extraídos de una secuencia de bits codificada, de manera que la referencia [15] no puede ser usada de la misma manera que la presente Invención.

La referencia [16] presenta una solución para la estimación de la calidad de vídeo percibida en caso de pérdida de paquetes con un único parámetro, que representa la magnitud de la degradación de la señal debida a la pérdida de paquetes. Esta solución prevé la inclusión de un factor de corrección para ajustar la magnitud estimada de la degradación de la señal basada en la complejidad temporal o espacio-temporal del contenido. Sin embargo, no se propone ninguna solución para calcular este factor de corrección, por ejemplo en caso de vídeo codificado.

Por consiguiente, todavía hay una necesidad de un procedimiento para estimar la calidad percibida de una señal de vídeo digital. Por un lado, dicho procedimiento debería permitir una consideración bastante precisa del impacto sobre la calidad del contenido de la señal de vídeo y, por otro lado, debería ser aplicable también a un vídeo codificado, Incluyendo tanto el caso de la degradación de codificación con y sin pérdida de paquetes. Asimismo, existe una necesidad de un aparato configurado para realizar un procedimiento con estas características.

Estos objetivos se consiguen mediante el procedimiento y el aparato con las características descritas en las reivindicaciones presentadas en la presente memoria.

La invención está dirigida a su uso con modelos de calidad de vídeo basados en parámetros en el caso de vídeo codificado, es decir, cuando sólo está disponible la información de cabecera de los paquetes. La invención funciona también en el caso de vídeo no codificado, pero puede ser, por diseño, menos precisa que un modelo... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:

(la) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación;

(lb) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;

(lc) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);

en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.

en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena s'Sc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;

en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fc de impacto que depende de un parámetro qi dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena s'Sc sobre las escenas se multiplicado por un coeficiente, y

en el que cada escena se tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor s'Sc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1

2. Procedimiento según la reivindicación 1, en el que:

el coeficiente es proporcional al número de píxeles por fotograma de vídeo nx y el número fr de fotogramas de vídeo por segundo.

3. Procedimiento según la reivindicación 2, en el que el parámetro qi dependiente del contenido viene determinado por

4. Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que los parámetros GOP/complejidad de la escena se calculan por cada grupo de imagen (GOP) o por cada escena de vídeo.

5. Procedimiento según una cualquiera de las reivindicaciones 1 a 4, en el que cada una de las funciones de impacto usadas en la etapa (1b) depende además de:

características técnicas de codificación o de red, por ejemplo, la tasa de bits, el número de fotogramas por segundo, el porcentaje de pérdida de paquetes o la proporción de pérdida en un GOP o una escena, y/o

coeficientes asociados con la función de impacto.

6. Procedimiento según una cualquiera de las reivindicaciones 1 a 5, en el que el conjunto de parámetros q dependientes del contenido es derivado además desde al menos uno de los parámetros GOP/complejidad de la escena siguientes:

SPg0p, que denota el tamaño medio de fotograma P por cada GOP;

**(Ver fórmula)**

nxx fr X 1000

SBg0p, que denota los tamaños medios (de referencia) de fotograma B por cada GOP;

^gop, que denota los tamaños medios de fotograma b no de referencia por cada GOP;

Snolgop, que denota los tamaños medios conjuntos de los fotogramas P, B y b por cada GOP;

Bsc, que denota la tasa de bits de los fotogramas I calculada por cada escena;

BPsc, que denota la tasa de bits de los fotogramas P calculada por cada escena;

BbSc, que denota la tasa de bits de los fotogramas B calculada por cada escena;

Bbsc, que denota la tasa de bits de los fotogramas b calculada por cada escena;

Bnolsc, que denota la tasa de bits de los fotogramas P, B y b calculada por cada escena.

7. Procedimiento según la reivindicación 6, en el que el conjunto q de parámetros es derivado a partir de al menos uno de los parámetros GOP/complejidad de la escena siguientes:

oP!\ - qP / ql

O O gopl Ose

s

s

s

B

B

B

B

bl I _ Qb # q/

o gop I O SC

b/P _ Qb , QP

O gopl O gop

noll\ _ qíioI i q/

o gop I O se

P/l _ pP / p/

D sel o se

bl\ _ Pb j rjl

D sel o se

b/P _ p> # r^P

D sel ld se

noliI _ onol , q/

d sel O se

8. Procedimiento según una cualquiera de las reivindicaciones 1 a 7, en el que la función íif de impacto que depende del parámetro q = qi dependiente del contenido viene determinada por

fiFÍP, <!,«)- £í|Xe*P(í*iXA> + «3X?I +«4 »

en la que, preferiblemente, p = pi es un parámetro que describe el número de bits por píxel y viene determinado, más preferiblemente, por

tasa ífe bits x 106

donde a = (ai, a2, era, 0/4) os es el conjunto de coeficientes asociados a la función de impacto.

9. Procedimiento según una cualquiera de las reivindicaciones 1 a 8, en el que se usa una función íif de impacto, preferiblemente para estimar el impacto sobre la calidad debido a los artefactos de transmisión, que depende de un conjunto de parámetros dependientes del contenido q = (qi, <72), en el que cada componente qj con j {1, 2} del conjunto que se obtiene mediante una suma ponderada de los parámetros faj dependientes de los parámetros GOP/complejidad de la escena, en el que la suma ponderada para cada j {1,2} es calcula preferiblemente según

w

ffjf ~ C&J x^k,j

k=i

con pesos Rkj.

10. Procedimiento según la reivindicación 9, en el que las ponderaciones vienen determinadas por

RJt = E 2}

en la que Tk es la duración de la pérdida de GOP k, t¡ es la ubicación en el GOP de un evento de pérdida / y r, denota la extensión espacial del evento de pérdida /, y en el que preferiblemente:

en caso de un sector por fotograma,

rrap

r = y

np

en el caso de más de un sector por fotograma,

nlp.. 1

rf - me x -

np 2xmi

donde np es el número de paquetes en el fotograma, nap es el número de paquetes de secuencias de transporte afectados (TS) en el fotograma afectado, nip es el número de paquetes perdidos en el fotograma, nle es el número de eventos de pérdida en el fotograma y nsl es el número de sectores en el fotograma

11. Procedimiento según las reivindicaciones 9 o 10, en el que:

el parámetro fSk,i depende del parámetro GOP/complejidad de la escena Sno///; y/o el parámetro [3k,2 depende del parámetro GOP/complejidad de la escena Sb/P

12. Procedimiento según una cualquiera de las reivindicaciones 9 a 11, en el que los parámetros ¡Sk,i para cada k {1,..., v} se obtienen mediante las etapas siguientes:

(12a) establecer pk, 1 = Sno///;

(12b) en el caso /Sk,i ^ 0,5, establecer Pk,i a un valor 2x fik,i]

(12c) en el caso /Sk,i > 0.5, establecer /3/c, 1 a un valor 1.

13. Procedimiento según una cualquiera de las reivindicaciones 9 a 12, en el que los parámetros (3k,2 para cada k {1,..., v} se obtienen como fSk,2 = max(0, -Sb/P +1).

14. Procedimiento según una cualquiera de las reivindicaciones 9 a 13, en el que la función fc de impacto dependiente del conjunto de parámetros q = (qi, qi) dependientes del contenido viene determinada por

q>«) xiog(i+~xqi +r£}x`fr) ,

en el que, preferiblemente, pi es un parámetro que describe el impacto sobre la calidad debido a los artefactos de compresión, preferiblemente, p2 es el número de GOPs en la ventana de medición o la duración de la ventana de medición, y a = (ai, 02, 03) es el conjunto de coeficientes asociados con la función de impacto.

15. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que la señal de vídeo es al menos parte de una secuencia de datos no interactiva, preferiblemente una secuencia de vídeo o audiovisual no interactiva, o al menos parte de una secuencia de datos interactiva, preferiblemente una secuencia de vídeo o audiovisual interactiva.

16. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos para estimar el impacto sobre la calidad de percepción de una señal de vídeo digital por otros deterioros diferentes a la compresión y/o la transmisión, en el que la combinación es realizada preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimiento a

combinar.

17. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos diferentes para estimar la calidad de la percepción de un vídeo digital debida a la compresión y/o la transmisión, en el que la combinación se realiza, preferiblemente, usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.

18. Procedimiento para supervisar la calidad de una señal de vídeo digital transmitida con las etapas de:

(18a) transmitir la señal de vídeo desde un servidor al cliente;

(18b) en el lado del cliente, ejecutar el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital según una cualquiera de las reivindicaciones 1 a 17;

(18c) transferir el resultado de la estimación de la etapa (18b) al servidor;

(18d) en el lado del servidor, supervisar la estimación de la calidad de la señal de vídeo transmitida; y

en el que el procedimiento comprende preferiblemente las etapas adicionales de:

(18e) analizar la calidad supervisada de la señal de vídeo transmitida, preferiblemente dependiendo de los parámetros de transmisión; y opcionalmente

(18f) cambiar los parámetros de transmisión en base al análisis de la etapa (18e) con el propósito de aumentar la calidad de la señal de vídeo transmitida.

19. Aparato para estimar la calidad de la percepción de una señal de vídeo digital, en el que el aparato comprende:

unos medios configurados para extraer información desde una secuencia de bits de vídeo capturada antes de la decodificación;

al menos un estimador de impacto;

un estimador de calidad configurado para estimar la calidad de percepción Qv de la señal de vídeo:

en el que el aparato está caracterizado por que cada uno de los estimadores de impacto está configurado para estimar el impacto sobre la calidad debido a un factor de deterioro por medio de una función de deterioro que acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden derivarse a partir de la información de la cabecera del paquete y, de esta manera, están disponibles en el caso de secuencias de bits de vídeo codificado;

en el que el conjunto de parámetros q dependientes del contenido es derivado al menos a partir de un parámetro GOP/ complejidad de la escena SsC, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;

en el que para estimar al menos uno de los factores de deterioro, preferiblemente el impacto sobre la calidad debido a los artefactos de compresión, se usa una función fip de impacto que depende de un parámetro qi dependiente del contenido que se calcula a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena s'Sc a través de las escenas se multiplicado por un coeficiente; y

en el que cada escena se tiene un peso de wSc x Nsc, donde Nsc es el número de GOPs por escena y wsc es un factor de ponderación, en el que para las escenas que tienen el valor s'sc más bajo: se establece a un

valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1.

20. Aparato según la reivindicación 19, que además está configurado para estimar la calidad de percepción de una señal de vídeo digital usando un procedimiento según una cualquiera de las reivindicaciones 2 a 17.

21. Decodificador conectable a un receptor para recibir una señal de vídeo digital, en el que el decodificador comprende el aparato según las reivindicaciones 19 o 20.

22. Sistema para supervisar la calidad de una señal de vídeo digital transmitida, en el que el sistema comprende un servidor y un cliente, y el sistema está configurado para ejecutar el procedimiento según la reivindicación 18.

23. Sistema según la reivindicación 22, en el que:

el cliente está configurado como el aparato según la reivindicación 19 o 20; y /o

el cliente comprende un aparato según la reivindicación 19 o 20.

24. Sistema según la reivindicación 22, que comprende además el decodificador según la reivindicación 21, en el que el decodificador está conectado al cliente.