Método y sistema para la clasificación de datos utilizando un mapa auto-organizativo.

Un método (220) implementado en un ordenador, de etiquetar datos para el entrenamiento de un clasificador, quecomprende:

obtener datos, comprendiendo los datos datos etiquetados

(410) y datos no etiquetados (420);

generar (225) un mapa auto-organizativo de los datos; y

y etiquetar (230) al menos algunos de los datos no etiquetados (510) sobre la base de la proximidad de los datos noetiquetados (510) a los datos etiquetados (501, 502, 503) dentro del mapa auto-organizativo (540) para generardatos auto-etiquetados (520);

donde el etiquetado (230) comprende etiquetar datos no etiquetados asociados con cada uno de una pluralidad denodos (513, 511) en el mapa auto-organizativo (540) con una etiqueta de datos etiquetados asociados con el nodorespectivo (513, 511);

el etiquetado (230) comprende también, para cada vecindad alrededor de un nodo asociado con datos etiquetados,determinar (320) si los datos asociados con nodos dentro de una profundidad de vecindad predeterminada tienendiferentes etiquetas y, si no, etiquetar (325) todos los datos no etiquetados asociados con nodos en la respectivavecindad con la etiqueta de los datos etiquetados en esa vecindad.;

donde el etiquetado (230) comprende también, donde se determina que los nodos dentro de una misma vecindad deprofundidad uno tienen datos etiquetados de manera diferente, no etiquetar (335) datos no etiquetados dentro de losnodos que están dentro de la citada vecindad de profundidad uno,

y si no, si se determina que los nodos dentro de una misma vecindad de profundidad uno no tienen datosetiquetados de manera diferente, entonces donde se determina que los nodos dentro de una misma vecindad que noes de profundidad uno tienen datos etiquetados de manera diferente, etiquetar (340) datos no etiquetados dentro denodos que son adyacentes sólo a uno de los nodos dentro de la misma vecindad que no es de profundidad uno quese ha determinado que tiene datos etiquetados, de manera que a los datos no etiquetados se les asigna la etiquetade los datos etiquetados dentro de un nodo adyacente.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E06119599.

Solicitante: Motorola Mobility LLC .

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 600 North US Highway 45 Libertyville, IL 60048 ESTADOS UNIDOS DE AMERICA.

Inventor/es: DARA,ROZITA A, KHAN,MOHAMMAD TAUSEEF, AZIM,JAWAD, CICCHELLO,ORLANDO, CORT,GARY P.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES... > Métodos o disposiciones para la lectura o el reconocimiento... > G06K9/62 (Métodos o disposiciones para el reconocimiento que utilizan medios electrónicos)

PDF original: ES-2452735_T3.pdf

 

google+ twitter facebookPin it
Método y sistema para la clasificación de datos utilizando un mapa auto-organizativo.

Fragmento de la descripción:

Método y sistema para la clasificación de datos utilizando un mapa auto-organizativo La presente descripción se refiere en general a métodos y sistemas para la clasificación de datos utilizando un mapa auto-organizativo. En particular, algunas realizaciones utilizan un mapa auto-organizativo para etiquetar al menos algunos datos no etiquetados dentro de un conjunto de datos.

Se ha mostrado que los algoritmos que aprenden de máquinas resultan ser métodos prácticos para problemas de reconocimiento del mundo real. Se ha probado también que son eficientes en dominios que son altamente dinámicos con respecto a muchos valores y condiciones. Algunos algoritmos que aprenden de máquinas son adecuados para clasificación (o modelización predictiva) , mientras que otros han sido desarrollados para propósitos de agrupamiento (o modelización descriptiva) . El agrupamiento se utiliza para generar una visión global de la relación de los registros de datos. La salida de tales algoritmos pueden ser varios grupos, donde cada grupo contiene un conjunto de registros homogéneos. Tal como se aplica a la gestión de relación de abonado (CRM Customer Relationship Management, en inglés) analítica, por ejemplo, los grupos pueden comprender grupos de registros de abonado con características similares. Para agrupamiento, no se necesita ningún dato etiquetado. En clasificación, por otro lado, se necesita un conjunto de categorías conocidas, fijas y un grupo de registros etiquetados (conocidos como datos de entrenamiento) para construir un modelo de clasificación. Los modelos de clasificación pueden ser ampliamente utilizados en los sistemas de CRM analíticos para organizar en categorías los registros de usuario en clases predefinidas.

Uno de los obstáculos para la clasificación es la falta de datos etiquetados disponibles. Un problema que aparece en varios dominios de aplicación es la disponibilidad de grandes cantidades de datos no etiquetados en comparación con los relativamente escasos datos etiquetados. Recientemente, se ha propuesto un aprendizaje semi-supervisado con la promesa de resolver este problema y de acelerar la capacidad de los algoritmos de aprendizaje. El aprendizaje semi-supervisado utiliza datos tanto etiquetados como no etiquetados y puede ser aplicado para mejorar el rendimiento del algoritmo de clasificación y de agrupamiento.

Los datos no etiquetados pueden ser recogidos mediante un medio automatizado de varias bases de datos, mientras que los datos etiquetados pueden requerir la introducción de expertos humanos u otros recursos de categorización limitados o costosos. El hecho de que los datos no etiquetados estén fácilmente disponibles, o no sean costosos de recoger, puede resultar atractivo y puede ser deseable el utilizarlos. No obstante, a pesar del natural atractivo de utilizar datos no etiquetados, no es obvio cómo pueden los registros sin etiquetas ayudar a desarrollar un sistema para el propósito de predecir las etiquetas.

Se presta atención a un artículo titulado "A SOM/MLP Hybrid Network that uses Unlabeled Data to Improve Classification Performance", por Stacey et al publicado en Smart Engineering System Design: Neural Networks, Fuzzy Logic, Evolutionar y Programming, data Mining and Complex Systems Proceedings of the Artificial Neural Networks in Engineering Conference, XX, XX, vol 10, 5 Noviembre de 2000 páginas 179-184, XP008073219. Este documento describe un planteamiento para utilizar datos no etiquetados para ayudar en el entrenamiento de una red neural supervisada, que implica el uso de un mapa auto-organizativo (SOM Self Organizing Map, en inglés) . Los datos son asignados a nodos utilizando el SOM y donde todos los datos etiquetados asignados a un grupo tienen la misma etiqueta, y entonces a los datos no etiquetados asignados al mismo grupo se les da la misma etiqueta. En el caso de nodos ambiguos, los nodos vecinos pueden ser consultados.

DESCRIPCIÓN DE REALIZACIONES PREFERIDAS

Las realizaciones descritas en esta memoria se refieren en general a sistemas y métodos para generar datos de entrenamiento utilizando un mapa auto-organizativo. Los datos de entrenamiento pueden entonces ser utilizados para entrenar a un clasificador para la clasificación de datos. Los datos utilizados para rellenar el mapa autoorganizativo consisten en una pequeña cantidad de datos etiquetados y en una relativamente mucho mayor cantidad de datos no etiquetados. Mediante proximidad de los datos no etiquetados a los datos etiquetados en nodos del mapa auto-organizativo, pueden asignarse etiquetas a los datos no etiquetados. Las realizaciones implementan un modelo de red neural híbrido para combinar un gran conjunto de datos no etiquetados con un pequeño conjunto de registros etiquetados para su uso en clasificación. Pueden aplicarse realizaciones a CRM analítica o en sistemas que rastrean grandes cantidades de datos de usuario, por ejemplo para funciones de auto-rellenado o autoselección.

Pueden aplicarse también realizaciones a varios usos que pueden ser categorizados como aplicaciones de predicción, regresión o modelización. Pueden utilizarse realizaciones en campos en medicina, previsión (por ejemplo, negocios o el tiempo) , ingeniería de software (por ejemplo predicción de defectos de software o modelización de fiabilidad de software) , fabricación (por ejemplo optimización y resolución de problemas) y extracción de datos. Pueden también utilizarse realizaciones en áreas financieras, tal como para calificación crediticia y detección de fraude. Pueden también utilizarse realizaciones en campos de bioinformática, tales como análisis de alineamiento de estructura proteica, estudios de genoma y análisis de micro-matriz.

Algunos usos específicos de realizaciones en el campo de la medicina pueden incluir: localización de características comunes relacionadas con la salud en grandes cantidades de datos; previsión mejorada de resultados sobre la base de los datos existentes, tal como tiempo de recuperación de un paciente o cambios en los ajustes de un dispositivo; predicción de la progresión probable de datos médicos a lo largo del tiempo, tal como el crecimiento de una célula o la dispersión de una enfermedad; identificación de características específicas en imágenes médicas, tal como detección de características de ultrasonidos o de rayos-X; y agrupamiento de datos médicos sobre la base de características claves, tales como condiciones demográficas y pre-existentes.

Ciertas realizaciones pueden referirse a un método de etiquetar datos para entrenamiento de un clasificador, que comprende obtención de datos, comprendiendo los datos datos etiquetados y datos no etiquetados; generar un mapa auto-organizativo de los datos; y etiquetar al menos algunos de los datos no etiquetados sobre la base de la proximidad de los datos no etiquetados a datos etiquetados dentro del mapa auto-organizativo para generar datos auto-etiquetados; donde el etiquetado comprende etiquetar datos no etiquetados asociados con cada uno de una pluralidad de nodos en el mapa auto-organizativo con una etiqueta de datos etiquetados asociados con el nodo respectivo; donde el etiquetado comprende también, para cada vecindad alrededor de un nodo asociado con datos etiquetados, determinar si los datos asociados con nodos dentro de una profundidad de vecindad predeterminada tienen diferentes etiquetas; donde el etiquetado comprende también, donde se determina que los nodos dentro de una misma vecindad de profundidad uno están asociados con diferentes datos etiquetados, no etiquetando datos no etiquetados asociados con nodos que son adyacentes a cualquiera de los nodos dentro de la misma vecindad de profundidad uno que se ha determinado que están asociados con los datos etiquetados; donde el etiquetado comprende también, si... [Seguir leyendo]

 


Reivindicaciones:

1. Un método (220) implementado en un ordenador, de etiquetar datos para el entrenamiento de un clasificador, que comprende:

obtener datos, comprendiendo los datos datos etiquetados (410) y datos no etiquetados (420) ;

generar (225) un mapa auto-organizativo de los datos; y

y etiquetar (230) al menos algunos de los datos no etiquetados (510) sobre la base de la proximidad de los datos no etiquetados (510) a los datos etiquetados (501, 502, 503) dentro del mapa auto-organizativo (540) para generar datos auto-etiquetados (520) ;

donde el etiquetado (230) comprende etiquetar datos no etiquetados asociados con cada uno de una pluralidad de nodos (513, 511) en el mapa auto-organizativo (540) con una etiqueta de datos etiquetados asociados con el nodo respectivo (513, 511) ;

el etiquetado (230) comprende también, para cada vecindad alrededor de un nodo asociado con datos etiquetados, determinar (320) si los datos asociados con nodos dentro de una profundidad de vecindad predeterminada tienen diferentes etiquetas y, si no, etiquetar (325) todos los datos no etiquetados asociados con nodos en la respectiva vecindad con la etiqueta de los datos etiquetados en esa vecindad.;

donde el etiquetado (230) comprende también, donde se determina que los nodos dentro de una misma vecindad de profundidad uno tienen datos etiquetados de manera diferente, no etiquetar (335) datos no etiquetados dentro de los nodos que están dentro de la citada vecindad de profundidad uno,

y si no, si se determina que los nodos dentro de una misma vecindad de profundidad uno no tienen datos etiquetados de manera diferente, entonces donde se determina que los nodos dentro de una misma vecindad que no es de profundidad uno tienen datos etiquetados de manera diferente, etiquetar (340) datos no etiquetados dentro de nodos que son adyacentes sólo a uno de los nodos dentro de la misma vecindad que no es de profundidad uno que se ha determinado que tiene datos etiquetados, de manera que a los datos no etiquetados se les asigna la etiqueta de los datos etiquetados dentro de un nodo adyacente.

2. El método de la reivindicación 1, que comprende también entrenar a un clasificador basándose en datos etiquetados y auto-etiquetados.

3. El método de la reivindicación 1 ó la reivindicación 2, en el que el etiquetado (230) se basa en una relación de proximidad de datos no etiquetados y etiquetados dentro de una vecindad de nodos del mapa auto-organizativo.

4. El método de la reivindicación 1 ó la reivindicación 2, en el que la cantidad de datos etiquetados se incrementa añadiendo (350) los datos auto-etiquetados a los datos etiquetados (410) y el etiquetado (230) se repite.

5. El método de la reivindicación 4, donde la generación (225) y/o el etiquetado (230) se repite o repiten hasta que se satisface una condición de terminación predeterminada.

6. El método de una cualquiera de las reivindicaciones 1 a 4, donde la generación y/o el etiquetado (230) se repite o repiten hasta que se satisface una condición de terminación predeterminada.

7. El método de una cualquiera de las reivindicaciones 1 a 5, que comprende también auto-rellenar un campo de datos o una selección de usuario utilizando un clasificador.

8. El método de la reivindicación 3, en el que el etiquetado (230) comprende asignar una clase a los datos autoetiquetados sobre la base de los datos etiquetados en la misma vecindad.

9. El método de cualquiera de las reivindicaciones precedentes, en el que el etiquetado (230) comprende también, para cada vecindad alrededor de un nodo asociado con datos etiquetados, si se determina que los datos asociados con nodos dentro de una profundidad de vecindad predeterminada no tienen etiquetas diferentes, etiquetar (325) todos los datos no etiquetados asociados con nodos en la respectiva vecindad con la etiqueta de los datos etiquetados en esa vecindad.

10. El método de la reivindicación 9, en el que la profundidad de vecindad predeterminada es uno.

11. El método de la reivindicación 9, en el que la profundidad de vecindad predeterminada es dos.

12. El método de una cualquiera de las reivindicaciones 1 a 11, donde los datos etiquetados (410) se generan (220) a partir de los datos no etiquetados (1105) sobre la base de reglas difusas.

13. El método de la reivindicación 12, en el que la generación (220) de los datos etiquetados (410) a partir de datos no etiquetados (1105) comprende:

seleccionar (1110) un conjunto de datos de entrenamiento a partir de datos no etiquetados (1105) ;

establecer (1120) las reglas difusas como un conjunto de reglas para determinar cómo etiquetar los datos de entrenamiento no etiquetados (1110) ; y

asignar (1125) etiquetas a los datos de entrenamiento no etiquetados (1110) basándose en las reglas difusas para 5 generar con ello los datos etiquetados (410) .

14. Un sistema (100) para etiquetar datos para su uso en la clasificación configurado para llevar a cabo el método de cualquiera de las reivindicaciones 1 a 13.

15. Almacén legible por un ordenador que almacena instrucciones de programa de ordenador (180) las cuales,

cuando son ejecutadas por al menos un procesador (130) , hacen que el al menos un procesador (130) ejecute el 10 método de una cualquiera de las reivindicaciones 1 a 13.