MÉTODO PARA LA CLASIFICACIÓN DE VIDEOS.

Método para la clasificación de vídeos.

Un método para clasificar un vídeo respecto a una característica subjetiva,

comprendiendo el método:

- medir una pluralidad de características básicas (11) por fotograma obteniendo así una pluralidad de mediciones de características básicas;

- crear una pluralidad de características de segundo nivel agrupando (12) dichas mediciones de características básicas (11) usando una pluralidad de estadísticas de dichas mediciones de características básicas en un periodo de tiempo determinado de metraje;

- crear una pluralidad de características de vídeo agrupando (13) dicha pluralidad de características de segundo nivel usando una pluralidad de estadísticas de dichas características de segundo nivel a lo largo de la duración del vídeo;

- elegir al menos una característica de vídeo de dicha pluralidad de características de vídeo para clasificar un vídeo respecto a una característica subjetiva.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201031019.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: OLIVER RAMÍREZ,NURIA, MOORTY,Anush, OBRADOR,Pere.

Fecha de Publicación: 15 de Octubre de 2012.

Clasificación Internacional de Patentes:

G06K9/00 FISICA. › G06 CALCULO; CONTEO. › G06K RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES DE REGISTROS; MANIPULACION DE SOPORTES DE REGISTROS (impresión per se B41J). › Métodos o disposiciones para la lectura o el reconocimiento de caracteres impresos o escritos o el reconocimiento de formas, p. ej. de huellas dactilares (métodos y disposiciones para la lectura de grafos o para la conversión de patrones de parámetros mecánicos, p.e. la fuerza o la presencia, en señales eléctricas G06K 11/00; reconocimiento de la voz G10L 15/00).
G06K9/03 G06K […] › G06K 9/00 Métodos o disposiciones para la lectura o el reconocimiento de caracteres impresos o escritos o el reconocimiento de formas, p. ej. de huellas dactilares (métodos y disposiciones para la lectura de grafos o para la conversión de patrones de parámetros mecánicos, p.e. la fuerza o la presencia, en señales eléctricas G06K 11/00; reconocimiento de la voz G10L 15/00). › Detección o corrección de errores, p. ej. por una segunda exploración.
G06K9/62 G06K 9/00 […] › Métodos o disposiciones para el reconocimiento que utilizan medios electrónicos.

Fragmento de la descripción:

MÉTODO PARA LA CLASIFICACIÓN DE VÍDEOS

CAMPO TÉCNICO

La presente invención se refiere a la valoración y evaluación de vídeos. Más particularmente la presente invención se refiere a la clasificación de vídeos basándose en sus características técnicas.

DESCRIPCIÓN DE LA TÉCNICA ANTERIOR

En el mundo digital de hoy en día existe el reto de desarrollar herramientas eficaces de gestión de datos multimedia que permitan a los usuarios organizar y buscar contenido multimedia a partir de repositorios cada vez mayores de medios digitales. Las capacidades de almacenamiento crecientes a precios bajos combinado con dispositivos generalizados para capturar imágenes digitales y vídeos permiten la generación y el archivado de cantidades sin precedentes de contenido multimedia personal. Por ejemplo, en mayo de 2009, se cargaron aproximadamente 20 horas de metraje de vídeo (la mayoría generado por usuarios) en el popular sitio de vídeos compartidos YouTube cada minuto [R. Junee, "20 hours of Vídeo Uploaded Ever y minute!", htt¡;:l/yputube-gjobal.bloqsoot.coml, 2009]. Además, se espera que el número de creadores de vídeos generados por usuarios crezca en los EE.UU. en un 77% desde 2008 hasta 2013 [P.

Verna, "A spotlíght on UGC Partícípants", httQ:I/www.emarketer.com/Article.asg_x?R=1006914, 2009].

Los planteamientos de búsqueda de vídeos e imágenes basada en consultas de texto se basan en gran medida en la similitud entre la consulta textual introducida y los metadatos textuales (por ejemplo: etiquetas, comentarios, etc.) que se han añadido previamente al contenido por los usuarios. La relevancia ciertamente es crítica para la satisfacción de los usuarios con los resultados de su búsqueda, aunque no suficiente. Por ejemplo, cualquier persona que visite YouTube avalará el hecho de que los resultados de búsqueda más relevantes incluyen hoy en día una gran cantidad de datos generados por los usuarios de calidad estética variable (entendiendo estética como la creación y apreciación de la belleza) ; el filtrado y la nueva clasificación de estos datos con una medida de su valor estético probablemente mejoraría las experiencias y satisfacción de los usuarios. Además de mejorar los resultados de búsqueda, otro reto al que se enfrentan los sitios de vídeos compartidos es el de atraer publicidad al contenido generado por usuarios, particularmente dado que parte del mismo se considera que no se

puede ver [B. Wayne, httpJíwww.busínessinsíder.com/es-voutube-doomed-2009-4, 2009] , y los publicistas se muestran reacios normalmente a colocar las marcas de sus clientes cerca de cualquier material que pueda dañar la reputación de sus clientes [P. Messarís, "Visual Persuasíon: the role of ímages in advertísíng", Sage Publícatíons lnc. 1997J. El 5 análisis estético de vídeos de este tipo será probablemente una de las herramientas usadas para identificar automáticamente el material que es "digno de llevar publicidad" frente al que no. Además, las herramientas de gestión de vídeos que incluyen modelos de atractivo estético pueden demostrar ser útiles para ayudar a los usuarios a navegar en sus colecciones personales de vídeos cada vez más grandes. 1O Obsérvese que la valoración estética de vídeos difiere de la valoración de la calidad de los vídeos (VQA) [Wang, Z., Sheíkh, H.R. y Bovík, A.C., "Objectíve vídeo Qualíty assessment", The Handbook of Vídeo Databases: Desígn and Applícatíons, 1041- 1078, 2003] en que la primera trata de evaluar un atractivo integral de un vídeo y, por tanto, engloba a la segunda. Por ejemplo, un vídeo de baja calidad con una intensa 15 distorsión por bloques tendrá bajo atractivo estético. Sin embargo, un vídeo sin distorsiones con escasa luminosidad, con colores apagados puede tener alta calidad pero también ser poco atractivo estéticamente. Aunque la valoración estética de imágenes ha recibido recientemente la atención de la comunidad investigadora [Datta, R., Joshí, 0., U, J. y Wang, J.Z. , "Studyíng Aesthetícs in photographíc ímages usíng a computatíonal 20 approach", Vol. 3953, 288, Lec. Notes. in Comp. Scí. Sprínger, año 2006], [Ke, Y., Tang, X. y Jíng, F., ''The desígn of hígh-level features for photo qualíty assessment", IEEE Conf. Comp. Vis. Pat. Recog., 2006], [Luo, Y. y Tang, X., "Photo and Vídeo qualíty evaluatíon: Focusíng on the subject", Eur. Conf, . Comp. Vis., 386-399, Sprínger-Verlag Berlín Heidelberg, 2008], [Obrador, P., "Regían based ímage appeal metríc for consumer 25 photos", IEEE Work. Mult. Síg. Proc., 696-701, 2008], [Tong, H., U, M, Zhang, H.J., He, J. y Zhang, C., "Ciassífícatíon of digital photos taken by photographers or home users", Lec. Notes. in Comp. Scí., 198-205, Sprínger, 2004], la valoración estética de vídeos todavía no se ha explorado mucho. La mayor parte del trabajo previo en el área del atractivo estético visual se ha 30 realizado con imágenes fijas. Uno de los trabajos iniciales en este campo es el de Savakis et al [Savakís, A.E., Etz, S.P. y Louí, A.C., "Evaluatíon of ímage appeal in consumer photography", SPIE Proc., Human Vis. Elec. lmg, 111-121, 2000] en el que realizaron un estudio a gran escala de las posibles características que podrían influir en la clasificación estética de una imagen. Sin embargo, los autores no propusieron ningún 35

algoritmo para determinar automáticamente el atractivo estético de la imagen.

En [Tong, H., U, M, Zhang, H.J., He, J., Zhang, C., "Ciassífícatíon of digital photos taken by photographers or home users", 2004], Tong et al utilizaron un planteamiento basado en características en el que se extrajeron muchas características, incluyendo medidas de color, energía, textura y forma, de las imágenes y se propuso un clasificador de dos clases (alto frente a bajo atractivo estético) y se evaluó usando una gran base de datos de imágenes con fotos de COREL y Microsoft Office Online (alto atractivo estético) y del personal en Microsoft Research Asia (bajo atractivo estético) . Un inconveniente de este planteamiento es que algunas de las características seleccionadas carecían de justificación fotográfica/perceptiva.

Además, su conjunto de datos suponía que los usuarios domésticos son peores fotógrafos que los profesionales, lo que puede no ser siempre cierto.

En un intento por tender un puente entre los planteamientos centrados en datos y centrados en la fotografía, Datta et al propusieron un algoritmo de estética computacional para imágenes que extrajo un gran conjunto de características basándose en reglas fotográficas. Usando un conjunto de datos de una comunidad de imágenes compartidas online, los autores extrajeron las 15 características principales en cuanto a su rendimiento de validación cruzada con respecto a las clasificaciones de imágenes. El vector de características global se formó usando un planteamiento basado en filtrar y envolver (tí/ter and wrapper) . Los autores notificaron una clasificación (alta frente a baja precisión de atractivo estético del 70, 12%.

Ke et al utilizaron un planteamiento descendente, en el que se extrajo un pequeño conjunto de características basándose en reglas fotográficas (por ejemplo, distribución de bordes, recuento de tonalidades, borrosidad) . Se usó un conjunto de datos obtenido rastreando en DPChallenge.com y se utilizó la clasificación promedio de la foto como realidad de campo. En su trabajo, Luo y Tang promovieron el planteamiento propuesto en el trabajo de Ke et al mediante la extracción de la zona del objeto principal (usando un mapa de nitidez) en la fotografía. Se sometió a prueba un pequeño conjunto de características en la misma base de datos que en la contribución de Ke, y se demostró que su planteamiento tenía un mejor rendimiento que el de Datta et al y Ke et al.

Finalmente, Obrador propuso recientemente un planteamiento basado en la región de interés para calcular el atractivo estético de imágenes en el que se extrae la región de interés usando una combinación de nitidez, contraste y colorido. El tamaño de la región de interés, su aislamiento del fondo y su exposición se calcularon entonces para cuantificar el atractivo estético con buenos resultados en un conjunto de datos de fotos creado por el autor.

Sólo el trabajo de Luo y Tang ha abordado...

Reivindicaciones:

1. Un método para clasificar un vídeo respecto a una característica subjetiva, comprendiendo el método:

• medir una pluralidad de características básicas (11) por fotograma obteniendo así una pluralidad de mediciones de características básicas;

• crear una pluralidad de características de segundo nivel agrupando (12) dichas mediciones de características básicas (11) usando una pluralidad de estadísticas de dichas mediciones de características básicas en un periodo de tiempo determinado de metraje;

• crear una pluralidad de características de vídeo agrupando (13) dicha pluralidad de características de segundo nivel usando una pluralidad de estadísticas de dichas características de segundo level a lo largo de la duración del vídeo;

• elegir al menos una característica de vídeo de dicha pluralidad de características de vídeo para clasificar un vídeo respecto a una característica subjetiva.

2. El método según la reivindicación 1 , en el que dicha pluralidad de mediciones de características básicas (11) comprende al menos una de las siguientes mediciones de características:

• al menos una de las siguientes mediciones de características de movimiento: razón de movimiento y razón de tamaño, en el que dicha razón de movimiento es la razón de las magnitudes de movimiento entre las zonas en primer plano y en segundo plano del vídeo y dicha razón de tamaño es la razón de los tamaños de dichas zonas en primer plano y en segundo plano;

• una medición del enfoque de la región de interés;

• una medición del colorido;

• una medición de la luminancia;

• una medición de la armonía de color, en el que dicha medición considera el efecto que tiene la combinación de diferentes colores sobre el valor de cada fotograma;

• una medición de la calidad de distorsión por bloques, en el que dicha distorsión por bloques es la consecuencia de que partes de un fotograma se dividen en pequeños cuadrados;

• una medición de la regla de los tercios, en el que dicha característica de la regla de los tercios da cuenta de cómo deben situarse elementos

composicionales importantes de la imagen.

3. El método según la reivindicación 2, en el que dichas características de movimiento se calculan de la siguiente manera:

• realizar una estimación de movimiento, mediante filtrado paso bajo del fotograma de vídeo y submuestreo de dicho fotograma de vídeo en un factor de 2;

• calcular para cada ubicación de píxel en dicho fotograma, la magnitud del vector de movimiento;

• ejecutar un algoritmo de k-medias con 2 agrupamientos para segregar los vectores de movimiento en dos clases;

• obtener un histograma, dentro de cada una de dichas clases, de las magnitudes de los vectores de movimiento y elegir la magnitud del vector de movimiento que corresponde al máximo del histograma;

• la razón de movimiento se calcula como f2 = (mb+ 1) / (m, + 1) , en el que m, y mb indican la magnitud de los vectores de movimiento para cada una de dichas clases;

• la razón de tamaño se calcula como f3 = (sb+ 1 ) / (s, + 1 ) , donde s, y sb indican el tamaño (en píxeles) de cada una de dichas zonas en primer plano y en segundo plano respectivamente.

4. El método según la reivindicación 2, en el que dicha medición del enfoque sobre la región de interés se calcula mediante la extracción de dicha región de interés y el ajuste de la mediana del nivel de enfoque de dicha región de interés.

5. El método según la reivindicación 2, en el que se usan los valores de rojo, verde y azul (RGB) del fotograma en las siguientes expresiones: a=R-8, ~=0, 5x (R+G) -B, ¡..ta=E[a], ¡..t~=E[~], cr2a=E[ (a-¡..ta) 2], y cr2~=E[ (~-¡..t~) 2] donde, E es el operador esperanza, 11 es la media y a la desviación estándar, para calcular dicha medición de la característica de colorido como: fs= \}aza + Q"2~ + 0, 3 X \}¡..t2a+¡..t2~;

6. El método según la reivindicación 2, en el que dicha medición de la luminancia se calcula como el valor medio de la luminancia dentro de un fotograma.

7. El método según la reivindicación 2, en el que dicha medición de la armonía de color se calcula de la siguiente manera:

• calcular el histograma de tonalidades normalizado de cada fotograma;

• realizar una convolución de dicho histograma de tonalidades con cada una de siete plantillas armónicas sobre el canal de tonalidad en el espacio de

1O.

11.

12.

13.

14.

tonalidad, saturación, valor (HSV) ;

• seleccionar el máximo de dicha convolución como una medida de la similitud del histograma del fotograma con respecto a una de dichas plantillas particulares;

• seleccionar el valor máximo de dichas medidas de la similitud como el valor de

la característica de armonía de color. El método según la reivindicación 2, en el que dicha medición de la calidad de distorsión por bloques se calcula buscando artefactos de distorsión por bloques. El método según la reivindicación 2, en el que dicha medición de la regla de los tercios se calcula como la distancia mínima del centroide de la región de interés a una de las cuatro intersecciones de las líneas que dividen la imagen en nueve rectángulos iguales. El método según cualquier reivindicación anterior, en el que dicha pluralidad de estadísticas de mediciones de características básicas (11) usadas para crear dichas características de segundo nivel comprende al menos uno de los siguientes: media, mediana, mínimo, máximo, primer cuartil y tercer cuartil. El método según cualquier reivindicación anterior, en el que dicha pluralidad de estadísticas de mediciones de características de segundo nivel usadas para crear características de vídeo comprende el promedio y la desviación estándar. El método según cualquier reivindicación anterior, en el que se crea una característica de vídeo adicional midiendo la tasa de fotogramas real de dicho vídeo. El método según la reivindicación 12, en el que dicha tasa de fotogramas real se calcula usando un algoritmo de índice de similitud estructural (SSIM) como una medida de la similitud entre fotogramas. El método según las reivindicaciones 1 a 13, en el que se seleccionan la tasa de fotogramas real junto con las siguientes características de vídeo para caracterizar un vídeo como de alto/bajo atractivo, haciéndose referencia a dichas características de vídeo siguientes como estadística de característica-estadística de segundo nivel de característica-básica:

• Media -tercer cuartil -colorido

• Desviación estándar-mediana-regla de los tercios

• Media-primer cuartil -enfoque de la región de interés

• Media-máximo -luminancia

• Media-primer cuartil -calidad de distorsión por bloques

• Desviación estándar-mediana -enfoque de la región de interés 15. Un sistema que comprende medios adaptados para realizar el método según cualquier reivindicación anterior. 16. Un programa informático que comprende medios de código de programa 5 informático adaptados para realizar el método según cualquiera de las reivindicaciones 1 a 19, cuando se ejecuta dicho programa en un ordenador, un procesador de señal digital, una disposición de puertas programables en campo, un circuito integrado de aplicación específica, un microprocesador, un microcontrolador, o cualquier otra forma de hardware programable.

Patentes similares o relacionadas:

Método y aparato de autentificación de identidad, terminal y servidor, del 29 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un método de autenticación de identidad, en donde el método comprende: adquirir información de rasgos faciales de un usuario y utilizar la información […]

Sistema de generación de marcador y método, del 29 de Julio de 2020, de NEC CORPORATION: Un sistema de generación de marcador que comprende: medios de entrada de imagen de vídeo para proporcionar como entrada una imagen de vídeo; […]

Dispositivo de procesamiento de imágenes, método de procesamiento de imágenes y programa, del 29 de Julio de 2020, de RAKUTEN, INC: Dispositivo de procesamiento de imágenes, que comprende: medios de obtención de imágenes captadas para la lectura de datos […]

PROCEDIMIENTO Y DISPOSITIVO DE REGISTRO AUTOMÁTICO DE LA LOCOMOCIÓN DE NEMATODOS U ORGANISMOS PEQUEÑOS DE TAMAÑOS SIMILARES POR INTERFEROMETRÍA TEMPORAL DE MICROHACES DE LUZ, del 23 de Julio de 2020, de PHYLUMTECH S.A: Procedimiento y dispositivo de registro automático de la locomoción de nematodos u organismos pequeños de tamaños similares por interferometría temporal de microhaces […]

MÉTODO PARA LA ELIMINACIÓN DEL SESGO EN SISTEMAS DE RECONOCIMIENTO BIOMÉTRICO, del 2 de Julio de 2020, de UNIVERSIDAD AUTONOMA DE MADRID: Método para eliminación del sesgo (por edad, etnia o género) en sistemas de reconocimiento biométrico, que comprende definir un conjunto de M muestras de Y personas […]

Método, dispositivo de generación de imagen y sistema para generar una medición de autenticidad de un objeto, del 1 de Julio de 2020, de SICPA HOLDING SA: Un método, llevado a cabo por un dispositivo de generación de imagen , para generar una medición de autenticidad de un objeto o para contribuir en la generación […]

Cámara inteligente para compartir fotografías automáticamente, del 1 de Julio de 2020, de QUALCOMM INCORPORATED: Un procedimiento para compartir una imagen final utilizando un dispositivo, en el que el procedimiento es realizado por un servidor y comprende: […]

Estimación de una postura basada en la silueta, del 24 de Junio de 2020, de VIZRT AG: Un método implementado por ordenador para estimar una postura de un modelo de objeto articulado , en el que el modelo de objeto articulado […]