UN MÉTODO PARA LA INDEXACIÓN AUTOMÁTICA DE DOCUMENTOS.

Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda,

a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E01120429.

Solicitante: BDGB Enterprise Software Sàrl.

Nacionalidad solicitante: Suiza.

Dirección: Av. Du Vignoble 2 3rd Floor West 2009 Neuchâtel SUIZA.

Inventor/es: GOERKE, ALEXANDER, RABALD, MATTHIAS.

Fecha de Publicación: .

Fecha Solicitud PCT: 27 de Agosto de 2001.

Clasificación PCT:

  • G06F17/30 SECCION G — FISICA.G06 COMPUTO; CALCULO; CONTEO.G06F TRATAMIENTO DE DATOS DIGITALES ELECTRICOS (computadores en los que una parte del cálculo se efectúa hidráulica o neumáticamente G06D, ópticamente G06E; sistemas de computadores basados en modelos de cálculo específicos G06N). › G06F 17/00 Equipo o métodos de tratamiento de datos o de cálculo digital, especialmente adaptados para funciones específicas. › Recuperación de la información; Estructura de bases de datos a este efecto.

Clasificación antigua:

  • G06F17/30 G06F 17/00 […] › Recuperación de la información; Estructura de bases de datos a este efecto.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2375403_T3.pdf

 

  • Fb
  • Twitter
  • G+
  • 📞

Fragmento de la descripción:

La presente invención se refiere al procesamiento de documentos de texto, y en particular, a la indexación automática de documentos de texto. Antecedentes de la invención Un modo típico de estructurar grandes volúmenes de datos de modo que puedan accederse fácilmente es indexar los documentos. Esto significa que un documento o un grupo de documentos se referencia por un término de indexación. Una colección de tales términos de indexación forma entonces un índice. Esto se muestra en forma de ejemplo en la Fig. 4. En la Fig. 4 los documentos de dirección 410, 420, 430 contienen datos de las direcciones sobre personas individuales. Los documentos pueden caracterizarse por los elementos individuales que contienen, uno de ellos es el nombre de familia de las personas a las que se refieren los documentos. Esta información puede usarse a continuación para construir un índice 440 mostrado en la parte izquierda de la Fig. 4. Este índice contiene una lista de los nombres de la familia que están contenidos en los documentos, y cada uno de los elementos del índice se refiere a un documento individual como puede verse en la Fig. 4. Este es un modo muy clásico y típico de organizar la información de un modo estructurado de modo que la información deseada o los documentos deseados que contienen un elemento de información buscado y deseado pueden recuperarse y accederse a partir de un gran volumen de documentos. Los índices pueden construirse para varios elementos tales como el nombre de la familia, el nombre de pila, el nombre de la calle, etc. Lo que tienen en común los índices es que los elementos de un índice tiene todos en algún sentido el mismo "significado", tal como el "nombre de la familia", el "nombre de pila", o similares. Usando una terminología más rigurosa puede decirse que dichos índices pertenecen a una categoría común respectiva que está relacionada con un cierto significado para el ser humano. En lo siguiente, los términos "tener un cierto significado" y "pertenecer a una cierta categoría" se usan de forma sinónima. Por lo tanto, los elementos individuales que se usan para construir un índice son de algún modo consistentes con respecto a la información que contienen cuando se ven desde un nivel más abstracto. En otras palabras, todos los elementos del índice tienen el mismo "significado". Otro enfoque más general para el ordenamiento de documentos es caracterizar sólo uno o más documentos por un cierto término, y a continuación construir un índice a partir de los términos individuales usados de ese modo. En tal caso los elementos del índice no tienen que tener un "significado" consistente, aunque puede considerarse que tienen todos, el mismo significado, en el sentido de que cada uno de los elementos caracteriza o describe uno o más documentos a los que se refiere. Después de que se ha construido un índice, puede usarse para preguntar y acceder al conjunto de documentos ordenados o estructurados por el índice construido de este modo. Puede introducirse directamente uno cualquiera de los términos de búsqueda, y si está contenido en el índice, a continuación se recuperan el documento o los documentos referenciados por el término del índice. Otra posibilidad es "navegar" por el índice, lo cual significa representar los elementos individuales del índice en algún orden (típicamente alfabético), como se muestra en el elemento 440 de la Fig. 4. Esto tiene la ventaja de que un usuario puede tener una visión rápida de qué elementos de índice se usan en total para organizar o "indexar" el conjunto de documentos. Otro enfoque algo más sofisticado es usar una búsqueda llamada tolerante a fallos, lo que significa que se introduce un término de búsqueda y se recuperan los documentos en los que el valor del índice correspondiente es idéntico o al menos similar (en alguna medida, dependiendo del algoritmo de búsqueda tolerante a fallos utilizado) al termino de búsqueda. En cualquier caso, la construcción de un índice es un trabajo muy difícil y tedioso, que es el trabajo preparatorio que tiene que hacerse para hacer factible el acceso a grandes conjuntos de documentos de un modo ordenado y significativo. Los índices típicamente se crean "manualmente", al menos en el caso de documentos a indexar que están "sin estructurar" tal como los documentos de texto simples. Si los documentos a indexar están "estructurados", tal como en el caso de las tablas de bases de datos relacionales, entonces es relativamente fácil construir un índice. Sin embargo, si no se conoce el "significado" individual que tiene un elemento en un documento no estructurado, 2 E01120429 11-01-2012   entonces es extremadamente difícil y cansado seleccionar los elementos que pueden usarse para indexar este documento. El documento "Extracción de información de HTML: aplicación de un enfoque general de aprendizaje de una máquina' de FREITAG D PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL (AAAI-98). DÉCIMA CONFERENCIA EN APLICACIONES INNOVADORAS DE INTELIGENCIA ARTIFICIAL, PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL, MADISON, WI, Estados Unidos, páginas 517-523, documento XP002197239 1998, Menlo Parck, CA, Estados Unidos, Prensa AAAI, Prensa MIT, Estados Unidos ISBN: 0-262-51098-7 desvela un método para realizar la extracción de información de páginas Web. La extracción de información se causa como un problema de aprendizaje de una máquina estándar y se describe la implementación de un aprendiz de relación de propósito general para la extracción de información. En consecuencia, es altamente deseable mejorar el proceso de indexación de documentos. Sumario de la invención De acuerdo con la primera realización de la presente invención se proporciona un método para recuperar ciertos documentos a partir de un conjunto de documentos en base a un término de búsqueda introducido y en base también al "significado" correspondiente del término de búsqueda, como se define en la reivindicación 1. En primer lugar se buscan los documentos que contienen el término de búsqueda. A continuación, se evalúan los documentos encontrados (llamados documentos base) para ver si en esos documentos el término de búsqueda contenido en los mismos tiene un cierto significado. Esta evaluación comprende la generación de un documento (o disposición) de texto que representa el término de búsqueda y sus elementos circundantes y su correspondiente posición absoluta o relativa con respecto al término de búsqueda o dentro del documento base. Este documento de texto se introduce a continuación en un aparato de clasificación ejercitable que se ha entrenado para juzgar si el documento de texto introducido pertenece a una cierta categoría o no. Por lo tanto el juicio tiene que determinar si el término de búsqueda tiene el cierto "significado" deseado (es decir, si el documento de texto pertenece a la categoría entrenada) o si no lo tiene (el documento no pertenece a la categoría entrenada). En base a este juicio puede comprobarse si en los documentos base encontrados los términos buscados tienen el cierto "significado" deseado. Los términos de búsqueda y los significados correspondientes pueden usarse para construir un índice para los documentos base. Esto puede ser a continuación de utilidad para acceder a una gran reserva de documentos base en un modo ordenado. De acuerdo con una realización particular dichas etapas de búsqueda, clasificación e indexación se repiten para una pluralidad de términos de búsqueda. Si esto se realiza para cada uno de los documentos base, a continuación puede determinarse para cada uno de los documentos, el valor individual correspondiente que tiene un cierto "significado" y que está contenido en este documento. Por ejemplo, para todos los documentos base de una pila de cartas puede determinarse o "extraerse" la fecha de envío y a continuación los elementos extraídos de este modo junto con su "significado" "fecha de envío" podrían usarse para formar un índice que referencia el conjunto de documentos base. Si esto se realiza para varios "significados" diferentes, tales como el destinatario, la dirección de origen, el número de referencia y así sucesivamente, a continuación podría generarse también una base de datos relacional que mapea el "contenido de información" del conjunto de documentos dentro de las tablas de la base de datos relacional. De acuerdo con una realización adicional la búsqueda realizada puede comprender una búsqueda asociativa y/o una búsqueda difusa. Esto devolverá también documentos en los cuales los términos de búsqueda están mal escritos o que contienen cualesquiera otros errores de mecanografía. El entrenamiento del aparato de clasificación puede realizarse seleccionando para el entrenamiento un conjunto de documentos... [Seguir leyendo]

 


Reivindicaciones:

1. Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base. 2. El método de la reivindicación 1, en el que los elementos de dicho documento de texto son codificaciones de dichas posiciones absolutas o relativas de dichos elementos de alrededor por las correspondientes cadenas de caracteres de texto. 3. El método de la reivindicación 1, que comprende además: - repetir dichas etapas de búsqueda, entrada y clasificación e indexación para una pluralidad de términos de búsqueda, generándose dichos términos de búsqueda automáticamente de acuerdo con una norma predefinida. 4. El método de una de las reivindicaciones de 1 a 3, en el que dicha búsqueda de dichos documentos base comprende una búsqueda asociativa; y/o una búsqueda difusa en base a dicho término de búsqueda. 5. El método de la reivindicación 1, que comprende además: - comprobar todos los términos de búsqueda de dichos documentos base, o - comprobar sólo los términos de búsqueda de dichos documentos base que coinciden con uno o más criterios predefinidos. 6. El método de reivindicaciones 1 ó 5, que comprende además - generar una base de datos relacional a partir del término de búsqueda del índice y su categoría correspondiente. 7. El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento: a) buscar los documentos base en los que el término de búsqueda pertenece a cierta categoría; b) seleccionar dicho término de búsqueda por el usuario; - repetir las operaciones a) y b) hasta que se ha seleccionado el conjunto suficiente de documentos base para generar una muestra de entrenamiento: - generar los documentos de texto para los documentos base respectivos; - usar dichos documentos de texto generados como un conjunto de entrenamiento para entrenar dicho aparato de clasificación corriendo dicho aparato de clasificación en el modo de entrenamiento. 8. El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento: 8 E01120429 11-01-2012   - usar un conjunto de documentos base para los cuales los términos de búsqueda que pertenecen a la categoría predefinida deseada son ya conocidos para generar automáticamente documentos de texto como muestras de entrenamiento para entrenar dicho aparato de clasificación. 9. Un programa de ordenador que comprende un código de programa de ordenador para posibilitar que un ordenador realice un método de acuerdo con una de las reivindicaciones anteriores de 1 a 8 cuando dicho programa se corre sobre un ordenador. 9 E01120429 11-01-2012   E01120429 11-01-2012   11 E01120429 11-01-2012   12 E01120429 11-01-2012   13 E01120429 11-01-2012

 

Patentes similares o relacionadas:

Procedimiento de asignación de direcciones lógicas a puertos de conexión de equipos de un clúster de servidores, programa de ordenador y clúster de servidores correspondientes, del 12 de Diciembre de 2018, de Bull SAS: Procedimiento para asignar direcciones lógicas a puertos de conexión de equipos de un clúster de servidores , que comprende las siguientes etapas: […]

EQUIPO Y MÉTODO PARA GENERAR AUTOMATICAMENTE VIDEOS PERSONALIZADOS, del 30 de Noviembre de 2018, de VALADIÉ, Julien: Equipo y método para generar automáticamente vídeos personalizados, que comprende: cámara de grabación de video en continuo en la instalación […]

Sistema de gestión de datos y método, del 30 de Noviembre de 2018, de LIFESCAN SCOTLAND LIMITED: Un sistema de gestión de datos que comprende: - una primera sección de memoria no volátil dividida en una pluralidad de ubicaciones […]

PROCEDIMIENTO Y SISTEMA PARA REPRESENTAR FUERA DE LÍNEA ANUNCIOS A PARTIR DE RECURSOS ALMACENADOS EN CACHÉ, del 29 de Noviembre de 2018, de TELEFONICA DIGITAL ESPAÑA, S.L.U: La presente invención se refiere a un procedimiento y a un sistema para representar un anuncio en un dispositivo de comunicación móvil que comprende: registrar, instalar […]

Sistemas y métodos para generar una matriz de productos cruzados en una sola pasada a través de datos utilizando nivelación de una sola pasada, del 27 de Noviembre de 2018, de SAS Institute Inc: Un método implementado por computadora para generar una matriz X'X de productos cruzados, donde la matriz X es representativa de un modelo lineal que involucra variables […]

Control de acceso basado en datos de caducidad de operación, del 26 de Noviembre de 2018, de Microsoft Technology Licensing, LLC: Un procedimiento implementado por ordenador para controlar el acceso a una entidad de sistema de ficheros basándose en la localización del […]

Procesamiento de transacción usando detección de escrituras incompletas, del 23 de Noviembre de 2018, de Microsoft Technology Licensing, LLC: Un procedimiento para llevar a cabo una transacción en una base de datos que incluye una colección de registros en un sistema persistente […]

Aparato y método para gestionar un canal personal, del 15 de Noviembre de 2018, de FUNKE Digital TV Guide GmbH: Aparato para gestionar un canal personal de un usuario que contiene un número de piezas de metadatos que pertenecen a al menos un artículo […]