Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto.

Procedimiento para el tratamiento de datos, puestos en ejecución mediante ordenador

, en vistas a la determinación de los atributos principales de un producto, para su indexación y su acceso mediante motores de búsqueda, con una pertinencia incrementada, definido mediante una descripción que incluye un pluralidad de palabras, en el cual:

- para cada palabra, se determina si ésta pertenece a un glosario predeterminado;

- para cada palabra que pertenece a un glosario:

• se asigna, a la citada palabra, una pluralidad de codificaciones elaborados en función del glosario predeterminado, al cual pertenece la citada palabra y los glosarios a los cuales pertenecen las otras palabras de descripción,

• se analiza, con un categorizador bi-clase, el conjunto de codificaciones elaborados para la citada palabra, para determinar el hecho de si, la citada palabra, es un atributo principal del producto retenido, con el fin de mejorar la pertinencia de indexación

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2006/050076.

Solicitante: SIGHT'UP.

Nacionalidad solicitante: Francia.

Dirección: 104 ROUTE DU RAPOUX 38690 TORCHEFELON FRANCIA.

Inventor/es: BIGALET,FRANCK.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > TRATAMIENTO DE DATOS DIGITALES ELECTRICOS (computadores... > Equipo o métodos de tratamiento de datos o de cálculo... > G06F17/30 (Recuperación de la información; Estructura de bases de datos a este efecto)

PDF original: ES-2461562_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto Sector técnico La presente invención, se refiere a un procedimiento para el tratamiento de datos representativos de un producto, en vistas a su acceso mediante motores de búsqueda (buscadores) , con una pertinencia acrecentada.

La invención, encuentra aplicación, de una forma particular, aunque no de una forma limitativa, en el tratamiento de datos representativos de los productos puestos a la venta, mediante sitios comerciales, en la red de Internet. Mediante “producto”, se entenderá, por supuesto, no únicamente los productos fabricados, sino, igualmente, los servicios que puedan ser objeto de una oferta comercial y en donde, la compra, pueda igualmente realizarse por vía telemática.

En la parte que sigue de la descripción, la invención, se describirá en relación con los ejemplos ligados a esta aplicación específica, sin encontrarse no obstante limitada.

Técnicas correspondientes al arte anterior

El documento “Extracting salient keywords in a document that belong to a specific context”, - “Palabras clave destacadas en un documento que pertenece a un contexto específico” -, RESEARCH DISCLOSURE, KENNET MASON PUBLICATIONS WESTBOURNE, GB, volumen 465, nº 13, Enero del 2003 (2003 –01) , describe un procedimiento para extraer palabras clave principales de un documento, utilizando glosarios específicos para contextos diferentes.

Hoy en día, los sitos comerciales que proponen la venta de productos y de servicios, en la red de Internet, encuentran un interés en cuanto al hecho de relevar sus ofertas, mediante motores de búsqueda especializados, puestos a disposición mediante sitos de referencia. Estos motores de búsqueda o buscadores, especializados,

proponen, al comprador, diferentes categorías de productos y servicios, y permiten, al comprador potencial, el efectuar una búsqueda, a partir de las palabras clave correspondientes a las características del producto.

Con objeto de realizar este cometido, el sitio de referencia, recolecta los datos representativos de los productos comercializados por los diferentes sitos comerciales, y determina las características principales que podrán ser

objeto de búsqueda mediante la palabra clave.

Se concibe el hecho de que, este tratamiento, es una operación relativamente compleja, debido a que, ésta, depende eminentemente de la lengua empleada para la descripción del producto, del vocabulario relativo a una categoría de artículos, así como de la sintaxis empleada.

Así, de este modo, hoy en día, la extracción de los atributos o características de un producto, se realizan mediante un análisis manual y sistemático del conjunto de ofertas. Este tratamiento, permite caracterizar cada producto mediante los atributos, permitiendo la clasificación de estos productos, en diferentes categorías. Los diferentes productos, se catalogan, a continuación, en las bases de datos que permiten su acceso mediante la selección de los 45 diferentes campos de la base de datos.

De una forma más precisa, algunos sitios comerciales que explotan bases de datos particulares, permiten afinar la elección del comprador, autorizando la elección de los criterios opcionales dependientes de los criterios ya recolectados.

Se concibe el hecho de que, estas técnicas de extracción de las características, son particularmente fastidiosos, puesto que, éstas, necesitan un análisis individual y manual de cada uno de los productos cuya oferta se expone, por parte del sitio comercial. Adicionalmente, además, la clasificación de los diferentes productos, en las bases de datos, no es técnicamente realmente satisfactoria. En efecto, la estructuración de las ofertas en las bases de datos,

se adapta, de una forma relativa, a los productos de carácter técnico, como por ejemplo, en el sector informático, debido al hecho de que, cada producto presenta unas características, en un número limitado, las cuales pueden declinarse o no reconocerse, en una elección relativamente limitada.

Como contraste de ello, esta clasificación en bases de datos, no es susceptible de poderse adaptar a los productos 60 que pertenezcan a sectores en donde, la oferta, sea extremadamente variada y difusa. Se puede citar, de una forma particular y a título de ejemplo, el sector del vestir. La estructuración en bases de datos que estereotipan, de algún modo, las características potenciales de un producto, no convierten a este mecanismo en adaptable a los mercados en gran evolución.

Así, de este modo, en la siguiente descripción: “couverture 75 x 100, en laine polaire uni, livrée dans un sac PVC

100% poliéster”, - “manta de 75 x 100 en lana polar uniforme (de un solo color) , suministrada en un saco de PVC 100% de poliéster” -, los términos “cobertura” y “saco”, corresponden, ambos, a una definición potencial del tipo de artículos. El producto de esta forma descrito, se considera, por lo tanto, mediante las técnicas actuales, como siendo, a la vez, una “manta”, o un “saco”. Este resultado, no es por supuesto pertinente, ya que, el artículo de este modo descrito, es una manta y no un saco, el cual constituye un accesorio de la venta. Se obtiene el mismo tipo de razonamiento, mediante la descripción de artículos tales como “vestido negro con un cinturón rojo”, en la cual, los procedimientos actuales, determinan como palabras clave, los términos “cinturón” y “rojo”, los cuales corresponden a características de un accesorio del artículo principal, la cual es un “vestido negro”.

Dicho de otro modo, las técnicas existentes, presentan una deficiencia en términos de pertinencia.

Un objeto de la invención, es el de permitir la mejora de la pertinencia de indexación, procediendo a tratar, de la forma más apropiada, los casos de las figuras en donde, la descripción de un producto, comprende varias palabras, las cuales pertenecen a un mismo tipo de atributo, y en el cual, únicamente una de estas palabras, es representativa de una característica importante del producto.

Otro objeto de la invención, es la de proporcionar un procedimiento que pueda adaptarse de una forma sencilla a las diferentes lenguas que conciernen a la descripción de los productos.

Exposición de la invención La presente invención, se refiere, por lo tanto, a un procedimiento para la determinación de las características principales de un producto definido por una descripción que combina una pluralidad de palabras.

Este procedimiento, combina una pluralidad de etapas sucesivas.

En primer lugar, para cada palabra de la descripción, se determina el hecho de si, ésta, pertenece a un glosario predeterminado. Adicionalmente, además, para cada una de estas palabras que pertenecen a un glosario, se efectúan las siguientes operaciones.

En una primera etapa, se asignan, a esta palabra, una pluralidad de codificaciones. Estas codificaciones, se elaboran en función del glosario predeterminado, al cual pertenece la palabra considerada, así como, eventualmente y dado el caso, los glosarios a los cuales pertenecen las otras palabras de la descripción.

En una segunda etapa, se procede a analizar, mediante un categorizador bi-clase, el conjunto de estas codificaciones elaboradas para la palabra en cuestión, de forma que se determine el hecho de si la palabra considerada, es un atributo principal del producto.

Así, de este modo, la extracción de los atributos o características de un producto, se realiza mediante comparación de las palabras de su descripción,... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para el tratamiento de datos, puestos en ejecución mediante ordenador, en vistas a la determinación de los atributos principales de un producto, para su indexación y su acceso mediante motores de 5 búsqueda, con una pertinencia incrementada, definido mediante una descripción que incluye un pluralidad de palabras, en el cual:

- para cada palabra, se determina si ésta pertenece a un glosario predeterminado;

- para cada palabra que pertenece a un glosario: 10

· se asigna, a la citada palabra, una pluralidad de codificaciones elaborados en función del glosario predeterminado, al cual pertenece la citada palabra y los glosarios a los cuales pertenecen las otras palabras de descripción,

· se analiza, con un categorizador bi-clase, el conjunto de codificaciones elaborados para la citada palabra, para 15 determinar el hecho de si, la citada palabra, es un atributo principal del producto retenido, con el fin de mejorar la pertinencia de indexación.

2. Procedimiento, según la reivindicación 1, el cual comporta una etapa consistente en sustituir, en la descripción, las palabras pertenecientes a un glosario, por el nombre del citado glosario y, a continuación, la elaboración de las 20 codificaciones mediante el análisis de la descripción, después de la sustitución.

.3. Procedimiento, según la reivindicación 1, en el cual, para cada palabra que pertenece a uno o varios glosarios: · se asigna, a la citada palabra, una pluralidad de codificaciones complementarias, elaboradas en función del glosario predeterminado, al cual pertenece la citada palabra, y las otras palabras de la descripción, 25 · se analiza, con un categorizador bi-clase, el conjunto de codificaciones complementarias elaboradas para la citada palabra, para determinar si la citada palabra, es un atributo principal del producto.

4. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, éste, comporta una etapa de 30 selección de un número restringido de codificaciones, entre un grupo de codificaciones principales.

5. Procedimiento, según la reivindicación 4, en el cual, las codificaciones seleccionadas, dependen del glosario al cual pertenece la citada palabra.

6. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, el categorizador bi-clase, se programa mediante autoaprendizaje.

7. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (Zn) , asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que 40 encuentran hasta n emplazamientos después o antes de la citada palabra dada, en la descripción.

8. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (Znm) , asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que encuentran hasta n emplazamientos después de la citada palabra dada, y las palabras o los glosarios a los cuales 45 pertenecen las palabras que se encuentran hasta m emplazamientos, antes de la citada palabra dada, en la descripción.

9. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (A) , asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que 50 encuentran situadas entre la citada palabra dada, y la primera palabra que pertenece al mismo glosario, situada después de la palabra dada en la descripción.

10. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (X) , asignada a una palabra dada, consiste en enumerar el número de casos de la palabra dada, en la descripción del producto.

5.

11. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (N) , asignada a una palabra dada, consiste en enumerar el número de palabras en la descripción que pertenece al mismo glosario que aquél al que pertenece la citada palabra dada, y que son diferentes de la citada palabra dada.

12. Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (P) , asignada a una palabra dada, consiste en identificar la posición, en la descripción de la citada palabra dada, con relación a las otra palabras que pertenecen al mismo glosario, en la descripción.

Descripción El vestido rojo con un cinturón negro

Descripción sustituida El ARTÍCULO COLOR con un ARTÍCULO COLOR

Codificaciones

Z4antes El El ARTÍCULO COLOR

ARTÍCULO COLOR con

con un

un ARTÍCULO

A4después COLOR con COLOR Ø

con un

P 1 1 2 2

X 1 1 1 1

N 2 No representativo 2 No representativo

Resultado RETENIDO RETENIDO RECHAZADO RECHAZADO

Atributos retenidos VESTIDO ROJO

FIGURA 1