Aprendizaje de imagen, anotación automática, método de recuperación y dispositivo.

Un método de anotación automática de imagen para hacer una anotación en una segunda imagen de entrada

, comprendiendo el método de anotación automática de imagen una etapa de aprendizaje, una etapa de procesamiento preliminar, una etapa de actualización de gráfico y una etapa de anotación;

en el que la etapa de aprendizaje incluye:

realizar una operación de segmentación en una primera imagen que tiene anotaciones para segmentar la primera imagen en una o más primeras regiones de imagen;

extraer primeros vectores característicos de imagen a partir de todas las primeras regiones de imagen para obtener una primera matriz característica de imagen;

establecer primeros enlaces entre las primeras regiones de imagen;

establecer segundos enlaces entre la primera imagen y las primeras regiones de imagen basándose en un resultado de la operación de segmentación;

establecer terceros enlaces entre la primera imagen y las anotaciones basándose en la primera imagen que tiene las anotaciones;

calcular pesos de todos los enlaces; y

obtener un gráfico que muestra una realización triangular entre la primera imagen, las primeras regiones de imagen y las anotaciones basándose en todos los enlaces y los pesos de los enlaces que corresponden a los enlaces; en el que la etapa de procesamiento preliminar incluye:

recibir la segunda imagen;

realizar la operación de segmentación en la segunda imagen para segmentar la segunda imagen en una o más segundas regiones de imagen; y

extraer segundos vectores característicos de imagen a partir de todas las segundas regiones de imagen para obtener una segunda matriz característica de imagen de la segunda imagen;

en el que la etapa de actualización de gráfico incluye:

establecer quintos enlaces entre los segundos nodos de región de imagen de la segunda imagen y los primeros nodos de región de imagen en el gráfico;

establecer sextos enlaces entre la segunda imagen y los segundos nodos de región de imagen basándose en un resultado de la operación de segmentación;

determinar pesos de los enlaces de los quintos enlaces y los sextos enlaces; y

actualizar el gráfico basándose en los quintos enlaces y los sextos enlaces y los pesos de los enlaces que corresponden a los quintos enlaces y a los sextos enlaces, y

en el que la etapa de anotación incluye:

generar un vector de reinicio que corresponde a la segunda imagen;

obtener un número predeterminado de anotaciones más estrechamente relacionadas con la segunda imagen con un recorrido aleatorio con reinicio; y

hacer las anotaciones en la segunda imagen usando palabras clave que corresponden al número predeterminado de anotaciones.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E09251342.

Solicitante: RICOH COMPANY, LIMITED.

Nacionalidad solicitante: Japón.

Dirección: 3-6 NAKAMAGOME 1-CHOME OHTA-KU TOKYO 143-8555 JAPON.

Inventor/es: BAILLOEUL,TIMOTHEE, ZHU,CAIZHI, XU,YINGHUI.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > TRATAMIENTO DE DATOS DIGITALES ELECTRICOS (computadores... > Equipo o métodos de tratamiento de datos o de cálculo... > G06F17/30 (Recuperación de la información; Estructura de bases de datos a este efecto)

PDF original: ES-2524789_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Aprendizaje de imagen, anotación automática, método de recuperación y dispositivo ANTECEDENTES DE LA INVENCIÓN

1. Campo de la invención

La presente invención se refiere a tecnologías de procesamiento de imagen y, en particular, a aprendizaje de imagen, anotación automática, un método de recuperación y un dispositivo.

2. Descripción de la técnica relacionada

Con el rápido desarrollo de las redes y el uso extendido de los teléfonos móviles y cámaras digitales de uso doméstico que tienen sensores de imagen digital, se generan grandes cantidades de recursos de imágenes digitales.

Para manejar grandes cantidades de datos de imagen, se demandan sistemas de recuperación de imagen eficaces y prácticos. Por lo tanto, en un campo de recuperación de imagen basado en contenido (CBIR), se ha realizado un estudio basado en un contenido para extraer un contenido del significado de la palabra definitivo a partir de una imagen para acceder y recuperar imágenes de usuario.

El estudio anterior está basado en la recuperación en la que la CBIR usa similitud de imagen en una etapa inicial. En otras palabras, cuando se introducen imágenes, colores o vistas esquemáticas por el usuario, los resultados de la recuperación son también imágenes similares a las imágenes, los colores o las vistas esquemáticas de entrada. Sin embargo, una CBIR de este tipo apenas es práctica. Los siguientes dos puntos se consideran como razones principales.

En primer lugar, se requiere que el usuario tenga una imagen o se requiere que tenga una capacidad para seleccionar apropiadamente colores o describir vistas esquemáticas. Estos requisitos representan una barrera para el usuario, limitando por lo tanto el uso extendido del sistema anterior.

Adicionalmente, la recuperación de imagen basada en similitud de imagen depende de comparación en similitud entre imágenes de capa inferior. Sin embargo, hay una diferencia en significados de palabra entre las características de la capa inferior y la información de imagen de una capa superior. Por lo tanto, como resultado de la recuperación, es probable que las imágenes de capa inferior sean enormemente diferentes en significados de palabra aunque sean visualmente similares. Esto da como resultado un enorme impacto en la precisión en el resultado de la recuperación.

Para resolver los problemas anteriores en la CBIR, los investigadores han propuesto un sistema de recuperación basado en anotación de imagen. En este sistema de recuperación, las anotaciones se realizan en información de texto para datos de imagen para realizar recuperación de imagen basada en textos. Puesto que este método permite al usuario realizar recuperación únicamente con la entrada de una palabra clave, se reducen los requisitos anteriores sobre la capacidad del usuario.

Como anotación automática de imagen actual se conocen los siguientes métodos.

Método 1:

Se realiza anotación automática basada en datos originales (tal como tiempo, información de GPS, un nombre de imagen asociado con una imagen tomada mediante una cámara digital, un texto asociado con una imagen en un formato digital, etc.).

Método 2:

Después de la estimación de una asociación complicada entre un carácter y una imagen usando tecnología visual informática y tecnología de aprendizaje por máquina en una etapa de aprendizaje, se realiza anotación automática en imágenes que no aparecen en la etapa de aprendizaje basada en la asociación.

Sin embargo, el método 1 anterior basado en los datos originales tiene los siguientes problemas.

En otras palabras, los datos originales de una imagen pueden no asociarse con un contenido de imagen. Por lo tanto, la calidad de la anotación de imagen es pobre.

Puesto que el método anterior se aplica únicamente a una imagen con un texto, su alcance de aplicación es enormemente limitado.

El método 1 tiene un defecto inevitable. Por lo tanto, el método 2 se ha propuesto como una modificación del método 1. Los detalles del método 2 son como sigue.

El método 2 incluye las siguientes etapas.

Etapa A:

Una Imagen se segmenta en regiones con un método de segmentación de región, y se calculan los vectores característicos de las respectivas regiones.

Etapa B:

En la etapa de aprendizaje, las respectivas regiones y las k regiones más cercanas a las respectivas regiones se enlazan entre sí, y la imagen y las anotaciones reales relacionadas se enlazan entre sí.

Etapa C:

En una etapa de anotación automática, se buscan todos los gráficos creados con un recorrido aleatorio con reinicio (RWR) para obtener anotaciones correspondientes.

El método anterior se denomina específicamente como GCap: leyendas de imagen automáticas basadas en gráficos en 20 Proc. Of the 4o International Workshop on Multimedia Data and Document Engineering (MDDE), junto con Computer Vision Pattern Recognition Conference (CVPR' 04), 2004 por J. Y. Pan, H. J. Yany, C. Faloutsos y P. Duygulu.

El algoritmo GCap está basado teóricamente en el hecho de que un tiempo de acceso al nodo de una imagen anotada (imagen medida) es mayor que un tiempo de acceso a otro nodo. Por lo tanto, confirmando el tiempo de acceso al nodo anotado, es posible encontrar la anotación que tiene la correlación más fuerte.

Sin embargo, existe una probabilidad de producir regiones de imagen que se enlazan erróneamente entre sí en el gráfico obtenido en la etapa de aprendizaje mediante el método anterior, que da como resultado precisión pobre en la anotación.

SUMARIO DE LA INVENCIÓN

La presente invención puede tener un objeto de proporcionar una anotación automática y un método de recuperación.

De acuerdo con la presente invención, se proporciona un método de anotación automática de imagen que comprende las características de la reivindicación 1.

Se definen realizaciones adicionales de la invención mediante las reivindicaciones dependientes.

Otros objetos, características y ventajas de la presente invención se harán más evidentes a partir de la siguiente descripción detallada cuando se lee junto con los dibujos adjuntos.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La Figura 1 es un diagrama que muestra la configuración de un dispositivo de aprendizaje de imagen de acuerdo con una realización de la presente invención;

La Figura 2 es un diagrama que muestra un estado en el que se segmenta una imagen original en diversos bloques rectangulares en la realización de la presente invención;

La Figura 3 es un diagrama que muestra un estado en el que se segmenta una imagen original en sub-bloques de árbol cuádruple de multi-resolución en la realización de la presente invención;

La Figura 4 es un diagrama que muestra un estado en el que se segmenta una imagen original en diversas regiones homogéneas en la realización de la presente invención;

La Figura 5 es un diagrama que muestra un ejemplo de una matriz característica de texto Y en la realización de la presente invención;

Las Figuras 6 a 9 son diagramas de flujo que muestran la implementación de un algoritmo para establecer enlaces y determinar los pesos de los enlaces en la realización de la presente invención;

La Figura 10 es un gráfico obtenido mediante el aprendizaje de imagen de acuerdo con la realización de la presente invención;

La Figura 11 es una matriz gráfica obtenida mediante el dispositivo de aprendizaje de imagen de acuerdo con la realización de la presente invención;

La Figura 12 es una matriz gráfica actualizada en la realización de la presente invención;

La Figura 13 es un diagrama que muestra un vector de reinicio de acuerdo... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de anotación automática de imagen para hacer una anotación en una segunda imagen de entrada, comprendiendo el método de anotación automática de imagen una etapa de aprendizaje, una etapa de procesamiento preliminar, una etapa de actualización de gráfico y una etapa de anotación;

en el que la etapa de aprendizaje incluye:

realizar una operación de segmentación en una primera imagen que tiene anotaciones para segmentar la primera imagen en una o más primeras regiones de imagen;

extraer primeros vectores característicos de imagen a partir de todas las primeras regiones de imagen para obtener una primera matriz característica de imagen;

establecer primeros enlaces entre las primeras regiones de imagen;

establecer segundos enlaces entre la primera imagen y las primeras regiones de imagen basándose en un resultado de la operación de segmentación;

establecer terceros enlaces entre la primera imagen y las anotaciones basándose en la primera imagen que tiene las anotaciones;

calcular pesos de todos los enlaces; y

obtener un gráfico que muestra una realización triangular entre la primera imagen, las primeras regiones de imagen y las anotaciones basándose en todos los enlaces y los pesos de los enlaces que corresponden a los enlaces;

en el que la etapa de procesamiento preliminar incluye:

recibir la segunda imagen;

realizar la operación de segmentación en la segunda imagen para segmentar la segunda imagen en una o más segundas regiones de imagen; y

extraer segundos vectores característicos de imagen a partir de todas las segundas regiones de imagen para obtener una segunda matriz característica de imagen de la segunda imagen;

en el que la etapa de actualización de gráfico incluye:

establecer quintos enlaces entre los segundos nodos de región de imagen de la segunda imagen y los primeros nodos de región de imagen en el gráfico;

establecer sextos enlaces entre la segunda imagen y los segundos nodos de región de imagen basándose en un resultado de la operación de segmentación;

determinar pesos de los enlaces de los quintos enlaces y los sextos enlaces; y

actualizar el gráfico basándose en los quintos enlaces y los sextos enlaces y los pesos de los enlaces que corresponden a los quintos enlaces y a los sextos enlaces, y

en el que la etapa de anotación incluye:

generar un vector de reinicio que corresponde a la segunda imagen;

obtener un número predeterminado de anotaciones más estrechamente relacionadas con la segunda imagen con un recorrido aleatorio con reinicio; y

hacer las anotaciones en la segunda imagen usando palabras clave que corresponden al número predeterminado de anotaciones;

CARACTERIZADO POR QUE:

la etapa de aprendizaje incluye adicionalmente:

extraer vectores característicos de texto a partir de todas las primeras regiones de imagen para obtener una matriz característica de texto;

proyectar la primera matriz característica de imagen y la matriz característica de texto en un sub-espacio maximizando una covarianza entre una característica de imagen y una característica de texto, obteniendo de esta manera la primera matriz característica de imagen proyectada y la matriz característica de texto proyectada;

almacenar la primera matriz característica de imagen proyectada y la matriz característica de texto proyectada;

en el que se establecen dichos primeros enlaces basándose en la primera matriz característica de Imagen proyectada;

establecer cuartos enlaces entre las anotaciones basándose en la matriz característica de texto proyectada; en el que la etapa de procesamiento preliminar incluye adicionalmente

proyectar la segunda matriz característica de imagen en el sub-espacio para obtener una segunda matriz característica de imagen proyectada de la segunda imagen;

en el que la etapa de actualización de gráfico incluye adicionalmente

establecer dichos quintos enlaces basándose en la primera matriz característica de imagen proyectada y la segunda matriz característica de imagen proyectada;

en el que los pesos w de los primeros enlaces se calculan de acuerdo con:

para cada uno de los primeros enlaces, en el que d¡m es una distancia característica en el subespacio proyectado

entre las regiones de imagen enlazadas mediante un enlace individual, d«» es una distancia media entre una región de imagen enlazada mediante el enlace y un número predeterminado de regiones de imagen más cercanas de dicha región de imagen y A representa un parámetro de amplitud.

2. El método de acuerdo con la reivindicación 1, en el que en la operación de segmentación de la etapa de aprendizaje, la primera imagen se segmenta en bloques rectangulares, sub-bloques de árbol cuádruple de multi- resolución o regiones homogéneas no solapantes con un algoritmo de segmentación de imagen.

3. El método de acuerdo con la reivindicación 1 o 2, en el que en la etapa de aprendizaje los primeros vectores característicos de imagen de todas las primeras regiones de imagen se extraen mediante un algoritmo basándose en una característica de patrón binario local que comprende colores mezclados e información de patrón.

4. El método de acuerdo con la reivindicación 1, 2 o 3, en el que el sub-espacio es un sub-espacio de covarianza canónica.

5. El método de acuerdo con cualquier reivindicación anterior, en el que la primera imagen, las primeras regiones de imagen y las anotaciones se representan mediante nodos en el gráfico, el gráfico se representa mediante una matriz de adyacencia, los enlaces entre los nodos se representan mediante los pesos de los enlaces en el gráfico y un valor de un peso correspondiente representa 0 si no hay enlace entre los nodos.

6. El método de acuerdo con la reivindicación 5, caracterizado por que,

en los terceros enlaces, cuanto mayor es el número de apariciones del nodo de anotación que corresponde al subenlace, más pequeño se hace el valor de peso del sub-enlace, y/o

en los cuartos enlaces, cuanto mayor es una similitud en texto entre los nodos de anotación que corresponden al sub-enlace, más pequeño se hace el valor de peso del sub-enlace.

7. El método de acuerdo con cualquier reivindicación anterior, en el que en la operación de segmentación de la etapa de procesamiento preliminar, la primera imagen y la segunda imagen se segmentan en bloques rectangulares, sub-bloques de árbol cuádruple de multi-resolución, o regiones homogéneas no solapantes con un algoritmo de segmentación de imagen.

8. El método de acuerdo con cualquier reivindicación anterior, en el que en la etapa de procesamiento preliminar los vectores característicos de imagen de todas las reglones de Imagen se extraen mediante un algoritmo basándose en una característica de patrón binario local que comprende colores mezclados e Información de patrón.

9. El método de anotación automática de imagen de acuerdo con la reivindicación 1, 2, 3, 7 u 8, en el que la primera imagen, la segunda imagen, las regiones de imagen y las anotaciones se representan mediante nodos en el gráfico, el gráfico se representa mediante una matriz de adyacencia, los enlaces entre los nodos se representan mediante los pesos de los enlaces en el gráfico y un valor de un peso correspondiente representa 0 si no hay enlace entre los nodos.

10. El método de acuerdo con la reivindicación 9, en el que:

en los terceros enlaces, cuanto mayor es el número de apariciones de los nodos de anotación que corresponden al sub-enlace, más pequeño se hace el valor de peso del sub-enlace, y/o

en los cuartos enlaces, cuanto mayor es la similitud en texto entre los nodos de anotación que corresponden al sub- enlace, más pequeño se hace el valor de peso de los sub-enlaces.

11. El método de acuerdo con la reivindicación 9 o 10, que comprende adicionalmente una etapa de aplicar normalización a la matriz de adyacencia actualizada antes de realizar la etapa de anotación basándose en la matriz de adyacencia sometida a la normalización.

12. Un método de recuperación de imagen basándose en una segunda imagen de entrada, comprendiendo el método de recuperación de imagen una etapa de aprendizaje, una etapa de procesamiento preliminar, una etapa de actualización de gráfico, una etapa de anotación y una etapa de recuperación en el que las etapas de aprendizaje, procesamiento preliminar, actualización de gráfico y anotación son de acuerdo con la reivindicación 1 caracterizado por que

la etapa de recuperación incluye:

generar un vector de reinicio que corresponde a la segunda imagen; y

adquirir y emitir un número predeterminado de anotaciones más estrechamente relacionadas con la segunda imagen

con un recorrido aleatorio con reinicio.

13. El método de recuperación de imagen de acuerdo con la reivindicación 12, caracterizado por que se introduce adicionalmente una palabra clave, y en la etapa de recuperación, se generan el vector de reinicio que corresponde a la segunda imagen y la palabra clave y se adquiere un número predeterminado de imágenes más estrechamente relacionadas con la segunda imagen y la palabra clave y se emiten basándose en el gráfico actualizado.