MÉTODO Y SISTEMA PARA LA IDENTIFICACIÓN RÁPIDA Y ROBUSTA DE PRODUCTOS ESPECÍFICOS EN IMÁGENES.

Método y sistema para la identificación rápida y robusta de productos específicos en imágenes.

Identificación de objetos en imágenes. Se escanean todas las imágenes para detectar puntos clave y se calcula un descriptor para cada zona. Se agrupa un gran número de ejemplos de descriptores en un vocabulario de palabras visuales. Una estructura de archivo invertido se extiende para soportar agrupamiento de correspondencias en el espacio de posición. Tiene una lista de coincidencias para cada palabra visual, que almacena todas las apariciones de la palabra en todas las imágenes de referencia. Cada coincidencia almacena un identificador de la imagen de referencia en la que se ha detectado el punto clave y su escala y orientación. El reconocimiento empieza asignando puntos clave de la imagen de consulta a las palabras visuales más próximas. Entonces, cada emparejamiento del punto clave y una de sus coincidencias de la lista arroja un voto a un acumulador de posición correspondiente a la imagen de referencia en la que se encontró la coincidencia. Cada par punto clave/coincidencia predice una orientación y escala específica del modelo representado por la imagen de referencia.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201030985.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: ADAMEK,TOMASZ, RODRÍGUEZ BENITO,JAVIER.

Fecha de Publicación: 16 de Julio de 2012.

Clasificación Internacional de Patentes:

G06K9/46 FISICA. › G06 CALCULO; CONTEO. › G06K RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES DE REGISTROS; MANIPULACION DE SOPORTES DE REGISTROS (impresión per se B41J). › G06K 9/00 Métodos o disposiciones para la lectura o el reconocimiento de caracteres impresos o escritos o el reconocimiento de formas, p. ej. de huellas dactilares (métodos y disposiciones para la lectura de grafos o para la conversión de patrones de parámetros mecánicos, p.e. la fuerza o la presencia, en señales eléctricas G06K 11/00; reconocimiento de la voz G10L 15/00). › Extracción de elementos o de características de la imagen.

PDF original: ES-2384928_A1.pdf

Fragmento de la descripción:

MÉTODO Y SISTEMA PARA LA IDENTIFICACiÓN RÁPIDA Y ROBUSTA DE PRODUCTOS ESPECíFICOS EN IMÁGENES

ANTECEDENTES DE LA INVENCiÓN 5 CAMPO TÉCNICO

La presente invención se refiere al campo de la recuperación de información multimedia basada en contenido [LSDJ06] y de la visión artificial. Más específicamente, la invención contribuye a las áreas de la recuperación de información multimedia basada en contenido relativas al problema de realizar búsquedas en grandes colecciones de imágenes basándose en su contenido, y también al área del reconocimiento de objetos que, en la visión artificial, es la tarea de encontrar un objeto dado en una imagen o una secuencia de vídeo.

DESCRIPCiÓN DE LA TÉCNICA RELACIONADA

La identificación de un objeto particular (idéntico) en una colección de imágenes está ahora alcanzando una cierta madurez [SZ03]. El problema sigue siendo un reto porque la apariencia visual de los objetos puede ser diferente debido a cambios en el punto de vista, condiciones de iluminación, o debido a un ocultamiento parcial, sin embargo ya existen soluciones con un rendimiento relativamente bueno con pequeñas colecciones. En la actualidad, las mayores dificultades que todavía existen parecen ser la correspondencia parcial, que permitan el reconocimiento de pequeños objetos "enterrados" dentro de fondos complejos, y la posibilidad de ampliar a escala los sistemas necesaria para afrontar colecciones realmente grandes. A continuación se comentarán recientes avances relevantes en el campo del rendimiento del reconocimiento, específicamente en el contexto de una rápida identificación de múltiples objetos pequeños en escenas complejas basándose en una gran colección de imágenes de referencia de alta calidad.

A finales de la década de los noventa, David Lowe fue pionero en un nuevo enfoque del reconocimiento de objetos al proponer la transformada de características 30 invariante a escala (conocida de manera generalizada como SIFT) [LOW99] (patente estadounidense 6711293) . La idea básica que subyace al enfoque de Lowe es bastante simple. Objetos de la escena se caracterizan mediante descriptores locales que representan la apariencia de estos objetos en algunos puntos de interés (parches de imagen destacados) . Los puntos de interés se extraen de una manera invariante respecto 35 a la escala y la rotación de los objetos presentes en la escena. La figura 1 muestra ejemplos de puntos clave de interés 81FT [LOW99, LOW04] detectados en dos fotografías de la misma escena tomadas desde puntos de vista significativamente diferentes. Los puntos de interés están representados mediante círculos. Los centros de los círculos representan ubicaciones de puntos clave y sus radios representan sus 5 escalas. Una interpretación intuitiva de los puntos de interés 81FT es que corresponden a estructuras a modo de gota o a modo de esquina y sus escalas corresponden estrechamente al tamaño de estas estructuras. Debe observarse que, independiente de los ángulos de visión, la mayor parte de los puntos clave se detectan en la misma posición en la escena. Las imágenes originales pertenecen al conjunto de datos creado por Mikolajczyk et aL, [M804].

Los descriptores extraídos de una única imagen de entrenamiento de un objeto de referencia pueden usarse después para identificar instancias del objeto en nuevas imágenes (consultas) . Los sistemas que se basan en los puntos 81FT pueden identificar de manera robusta objetos en escenas agrupadas, independientemente de su escala, orientación, ruido y también, hasta cierto punto, de cambios del punto de vista y la iluminación. El método de Lowe ha encontrado numerosas aplicaciones, entre las que se incluyen recuperación y clasificación de imágenes, reconocimiento de objetos, localización robotizada, formación de imágenes panorámicas (stítchíng) y otras muchas.

Animados por el rendimiento del método 81FT, muchos investigadores centraron su trabajo en ampliar adicionalmente las capacidades del enfoque. Por ejemplo, Mikolajczyk y 8mith [M804] propusieron detectores covariantes afines que permitían una robustez sin precedentes para cambios en los ángulos de visión. Matas et al. [MCUP02] propusieron un método alternativo para extraer puntos característicos denominados zonas extremas de máxima estabilidad que extrae puntos de interés diferentes a los seleccionados por el detector 81FT. Muy recientemente, Bay et al. [BTG06] propusieron una versión eficaz desde el punto de vista computacional del método 81FT denominada características robustas aceleradas (8URF) . De manera sorprendente, el detector 8URF no sólo es tres veces más rápido que el detector 81FT, sino que también, en algunas aplicaciones, puede proporcionar un mayor rendimiento de reconocimiento. Uno de los ejemplos más interesantes de la aplicación de 8URF es el reconocimiento de objetos de arte en un museo interior que contiene más de 200 artefactos, dando una tasa de reconocimiento del 85, 7%.

En muchas áreas de aplicación, el éxito de los enfoques de puntos característicos ha sido realmente espectacular. 8in embargo, hasta hace poco, seguía siendo imposible 35 construir sistemas que pudieran reconocer de manera eficaz objetos en grandes colecciones de imágenes. Esta situación mejoró cuando Sivic y Zisserman propusieron usar puntos característicos imitando a los sistemas de recuperación textual [SZ03, SIV06]. En su enfoque, que denominaron "Video Google", se cuantifican los puntos característicos de [MS04] y [MCUP02] mediante agrupamiento por k-medias en un 5 vocabulario de lo que se denomina palabras visuales. Como resultado, cada zona destacada puede correlacionarse fácilmente con la palabra visual más próxima, es decir, los puntos clave se representan mediante palabras visuales. Una imagen se representa entonces como una "bolsa de palabras visuales" (BoW) , y éstas se introducen en un índice para su posterior consulta y recuperación. El enfoque permite un reconocimiento eficaz en colecciones de imágenes muy grandes. Por ejemplo, la identificación de una pequeña zona seleccionada por el usuario en una colección de cuatro mil imágenes tarda 0, 1 segundos.

Aunque los resultados de "Video Google" eran muy admirables, especialmente en comparación con otros métodos disponibles en aquel momento, la búsqueda en escenas 15 completas o incluso en zonas grandes seguía siendo prohibitivamente lenta. Por ejemplo, correlacionar escenas representadas usando imágenes con un tamaño de 720x576 píxeles en la colección de cuatro mil imágenes tardaba aproximadamente 20 segundos [SIV06]. Esta limitación la paliaron hasta cierto punto Nister y Stewenius [NS06] quienes propusieron un motor de búsqueda basado en imágenes muy optimizado que podía realizar reconocimiento de imágenes casi en tiempo real en colecciones más grandes. En particular, su sistema podía proporcionar buenos resultados de reconocimiento de 40.000 carátulas de CD en tiempo real.

Finalmente, hace muy poco, Philbin et al. [PCI+07, PCI+08] propusieron una variante mejorada del enfoque de "Video Google" y demostraron que podía recuperar 25 rápidamente las imágenes de 11 "monumentos" de Oxford diferentes de una colección de cinco mil imágenes de alta resolución (1024 x 768) recopiladas de Flickr [FU].

Los recientes avances espectaculares en el área del reconocimiento visual de objetos están empezando a atraer mucho el interés de la industria. En la actualidad, varias empresas ofrecen tecnologías y servicios basados, al menos en parte, en los avances anteriormente mencionados. Kooaba [KOO], una empresa escindida de ETH Zurich fundada a finales de 2006 por los inventores del enfoque SURF [BTG06], usa la tecnología de reconocimiento de objetos para proporcionar acceso y realizar búsquedas de contenido digital de teléfonos móviles. Se accede a los resultados de búsqueda de Kooaba enviando una imagen como consulta. Defienden su tecnología diciendo que permite literalmente "hacer clic" en objetos del mundo real tales como pósters de películas, artículos enlazados en periódicos o revistas y, en el futuro, incluso en lugares de interés turístico. Evolution Robotics en Pasadena, Calif, [EVO] ha desarrollado un motor de búsqueda visual que puede reconocer de qué tomó una foto el usuario, y entonces los publicistas pueden usar eso para enviar contenido relevante al teléfono móvil del usuario. Predicen que en los próximos 10 años se podrá tomar el teléfono móvil y etiquetará visualmente todo lo que tenga delante. Uno de los asesores de Evolution Robotics es el Dr. David Lowe, el inventor del enfoque 81FT [LOW99].

8uperWise... [Seguir leyendo]

Reivindicaciones:

1. Método de identificación de objetos en imágenes, caracterizado porque comprende las siguientes fases:

(i) una fase de extracción de características que incluye las siguientes etapas para: tanto imágenes de referencia, es decir imágenes que representan, cada una, al menos un objeto de referencia individual, como al menos una imagen de consulta, es decir una imagen que representa objetos desconocidos que han de identificarse:

(a) identificación de puntos clave, es decir zonas de imagen destacadas;

(b) postprocesamiento de puntos clave en la que se eliminan los puntos clave que no son útiles para el proceso de identificación;

(ii) una fase de indexación de imágenes de referencia que incluye las siguientes etapas:

(a) extracción de puntos clave;

(b) postprocesamiento de puntos clave en la que se eliminan los puntos clave que no son útiles para el proceso de identificación;

(c) asignación de puntos clave a palabras visuales de un vocabulario de palabras visuales creado a partir de una colección de imágenes de entrenamiento, en la que las palabras visuales son centros de agrupamientos de descriptores de puntos clave;

(d) adición de puntos clave a una estructura de archivo invertido, en la que la estructura de archivo invertido comprende una lista de coincidencias para cada palabra visual que almacena todas las apariciones de la palabra en las imágenes de referencia y en la que cada coincidencia almacena un identificador de la imagen de referencia en la que se ha detectado el punto clave; y

(iii) una fase de reconocimiento de objetos presentes en la imagen de consulta que incluye las siguientes etapas:

(a) extracción de puntos clave;

(b) postprocesamiento de puntos clave en la que se eliminan los puntos clave que no son útiles para el proceso de identificación;

(d) para cada emparejamiento de un punto clave de la imagen de consulta y una de las coincidencias asignadas a la misma palabra visual, agregar un voto en un acumulador correspondiente a la imagen de referencia de la coincidencia; e

(e) identificación de las puntuaciones de correspondencia correspondientes a las imágenes de referencia basándose en los votos de los acumuladores.

2. Método según la reivindicación 1, en el que la fase de reconocimiento (iii) de objetos comprende la etapa adicional de seleccionar un objeto u objetos que son relevantes para la consulta según sus puntuaciones de correspondencia.

3. Método según la reivindicación 1 ó 2, en el que el postprocesamiento comprende: normalizar escalas de puntos clave según el tamaño de los objetos de referencia; y eliminar puntos clave que no pueden contribuir de manera eficaz al proceso de identificación basándose en sus escalas normalizadas.

4. Método según la reivindicación 1, 2 ó 3, en el que el postprocesamiento incluye la detección automática de zonas de interés basándose en las ubicaciones de puntos clave detectados.

5. Método según la reivindicación 4, en el que, en el caso de imágenes de referencia, el centro de una zona de interés se considera como el centro de la masa del conjunto de todas las ubicaciones de puntos clave detectadas, su ancho y su alto inicial se calculan de manera independiente en las direcciones horizontal y vertical en función de la desviación estándar de las ubicaciones de puntos clave, y en el que el ancho y el alto inicial se encogen siempre que la zona de interés abarca áreas sin puntos clave.

6. Método según la reivindicación 4 ó 5, en el que las escalas de los puntos clave se normalizan en función del tamaño de la zona de interés, y se eliminan los puntos clave ubicados fuera de la zona de interés y los puntos clave con una escala normalizada inferior a un valor predeterminado.

7. Método según la reivindicación 1, en el que las fases (ii) y (iii) incluyen asociar un factor de ponderación a cada punto clave que refleje su importancia en el proceso de reconocimiento de objetos.

8. Método según la reivindicación 7, en el que el factor de ponderación se basa en la escala del punto clave detectado y el número de puntos clave de la misma imagen

10.

11.

12.

13.

14.

15.

asignados a la misma palabra visual como el punto clave considerado y con orientación y escala similares. Método según la reivindicación 7 u 8, en el que, en la etapa (iii) (d) , el factor de ponderación se usa en el proceso de agregación de votos. Método según la reivindicación 1 ó 2, en el que, en la etapa (ii) (d) , cada coincidencia almacena, además del identificador de la imagen de referencia en la que se ha detectado el punto clave, información acerca de su escala y orientación y cada coincidencia tiene una fuerza asociada de la evidencia con la que puede confirmar una existencia del correspondiente objeto en respuesta a una aparición de la palabra visual en una imagen de entrada. Método según la reivindicación 10, en el que, en la etapa (iii) (d) , el acumulador correspondiente a la imagen de referencia de la coincidencia se implementa como una tabla bidimensional en la que una dimensión del acumulador corresponde a la rotación del objeto de referencia y la otra dimensión al ajuste a escala del objeto de referencia, de modo que cada celda corresponde a una rotación y ajuste a escala particular del objeto de referencia y en el que un voto es para la apariencia del objeto de referencia con una transformación de rotación y ajuste a escala específica. Método según la reivindicación 11, en el que, en la etapa (iii) (e) , se identifica la celda con el máximo número de votos en cada acumulador. Método según la reivindicación 12, en el que, en la etapa (iii) (f) , la imagen de referencia correspondiente a la mayor puntuación de correspondencia se selecciona como el objeto más relevante. Método según la reivindicación 2, en el que, en la etapa (iii) (f) , se selecciona un objeto u objetos que son relevantes para la consulta según sus puntuaciones de correspondencia usando aplicación de umbral dinámico avanzada que comprende la clasificación de imágenes de referencia según puntuaciones de correspondencia y la separación dinámica de la lista en imágenes de referencia relevantes e irrelevantes. Método según la reivindicación 11, en el que se escanean los acumuladores con el fin de identificar grupos con el máximo número de votos y los votos acumulados en estos máximos se toman como las puntuaciones de correspondencia finales, es decir puntuaciones que indican en qué medida las imágenes de referencia

correspondientes a los acumuladores en los que se encontraron estos máximos corresponden a la imagen de consulta. 16. Programa informático que comprende medios de código de programa informático adaptados para realizar las etapas según una cualquiera de las reivindicaciones 1 5 a 15 cuando dicho programas se ejecuta en un ordenador. 17. Sistema que comprende medios adaptados para realizar las etapas según una cualquiera de las reivindicaciones 1 a 15.

Patentes similares o relacionadas:

Sistema de generación de marcador y método, del 29 de Julio de 2020, de NEC CORPORATION: Un sistema de generación de marcador que comprende: medios de entrada de imagen de vídeo para proporcionar como entrada una imagen de vídeo; […]

PROCEDIMIENTO DE IDENTIFICACIÓN DE IMÁGENES ÓSEAS, del 2 de Julio de 2020, de UNIVERSIDAD DE GRANADA: La presente invención tiene por objeto un procedimiento para asistir en la toma de decisiones a un experto forense de cara a la identificación de […]

DISPOSITIVO UNIVERSAL DE CAPTURA INALÁMBRICA DE DATOS DE SEÑALES VIALES SEMÁFOROS EN TIEMPO REAL, AUTÓNOMO SOLAR, del 2 de Julio de 2020, de GALVEZ RENDON, Walter Rolando: La presente invención proporciona un dispositivo universal en forma de U, de alta eficiencia energética, bajo consumo, bajo peso, reducido tamaño, fácil […]

Método para transformar un descriptor de imágenes con base en un histograma de gradientes y un aparato de procesamiento de imágenes relativo, del 24 de Junio de 2020, de New Luck Global Limited: Método para transformar un descriptor de imágenes (H), con base en una pluralidad de histogramas de gradiente (h), cada uno de los cuales comprende una […]

Captación de corredor, del 29 de Abril de 2020, de nearmap australia pty, ltd: Un método para crear un ortomosaico de un área de corredor que consiste en una faja de tierra o de agua a lo largo de una trayectoria arbitraria , área […]

Sistema y método para codificación y decodificación aritmética, del 29 de Abril de 2020, de NTT DOCOMO, INC.: Método de decodificación aritmética para convertir una secuencia de información compuesta por una secuencia de bits en una secuencia de eventos binarios compuesta […]

Clasificación y modelado 3D de estructuras dentomaxilofaciales 3D usando métodos de aprendizaje profundo, del 29 de Abril de 2020, de Promaton Holding B.V: Un método implementado por ordenador para el procesamiento de datos 3D que representan una estructura dentomaxilofacial que comprende: recibir datos 3D , incluyendo […]

Un sistema implementado por ordenador y procedimiento para extraer y reconocer caracteres alfanuméricos de señales de tráfico, del 15 de Abril de 2020, de Tata Consultancy Services Limited: Un sistema implementado por ordenador que tiene: (i) un repositorio configurado para almacenar una plantilla predeterminada que tiene secciones, caracteres alfanuméricos […]