UN MÉTODO PARA LA INDEXACIÓN AUTOMÁTICA DE DOCUMENTOS.

Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda,

a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E01120429.

Solicitante: BDGB Enterprise Software Sàrl.

Nacionalidad solicitante: Suiza.

Dirección: Av. Du Vignoble 2 3rd Floor West 2009 Neuchâtel SUIZA.

Inventor/es: GOERKE, ALEXANDER, RABALD, MATTHIAS.

Fecha de Publicación: 29 de Febrero de 2012.

Fecha Solicitud PCT: 27 de Agosto de 2001.

Clasificación PCT:

G06F17/30

Clasificación antigua:

G06F17/30

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2375403_T3.pdf

Fragmento de la descripción:

La presente invención se refiere al procesamiento de documentos de texto, y en particular, a la indexación automática de documentos de texto. Antecedentes de la invención Un modo típico de estructurar grandes volúmenes de datos de modo que puedan accederse fácilmente es indexar los documentos. Esto significa que un documento o un grupo de documentos se referencia por un término de indexación. Una colección de tales términos de indexación forma entonces un índice. Esto se muestra en forma de ejemplo en la Fig. 4. En la Fig. 4 los documentos de dirección 410, 420, 430 contienen datos de las direcciones sobre personas individuales. Los documentos pueden caracterizarse por los elementos individuales que contienen, uno de ellos es el nombre de familia de las personas a las que se refieren los documentos. Esta información puede usarse a continuación para construir un índice 440 mostrado en la parte izquierda de la Fig. 4. Este índice contiene una lista de los nombres de la familia que están contenidos en los documentos, y cada uno de los elementos del índice se refiere a un documento individual como puede verse en la Fig. 4. Este es un modo muy clásico y típico de organizar la información de un modo estructurado de modo que la información deseada o los documentos deseados que contienen un elemento de información buscado y deseado pueden recuperarse y accederse a partir de un gran volumen de documentos. Los índices pueden construirse para varios elementos tales como el nombre de la familia, el nombre de pila, el nombre de la calle, etc. Lo que tienen en común los índices es que los elementos de un índice tiene todos en algún sentido el mismo "significado", tal como el "nombre de la familia", el "nombre de pila", o similares. Usando una terminología más rigurosa puede decirse que dichos índices pertenecen a una categoría común respectiva que está relacionada con un cierto significado para el ser humano. En lo siguiente, los términos "tener un cierto significado" y "pertenecer a una cierta categoría" se usan de forma sinónima. Por lo tanto, los elementos individuales que se usan para construir un índice son de algún modo consistentes con respecto a la información que contienen cuando se ven desde un nivel más abstracto. En otras palabras, todos los elementos del índice tienen el mismo "significado". Otro enfoque más general para el ordenamiento de documentos es caracterizar sólo uno o más documentos por un cierto término, y a continuación construir un índice a partir de los términos individuales usados de ese modo. En tal caso los elementos del índice no tienen que tener un "significado" consistente, aunque puede considerarse que tienen todos, el mismo significado, en el sentido de que cada uno de los elementos caracteriza o describe uno o más documentos a los que se refiere. Después de que se ha construido un índice, puede usarse para preguntar y acceder al conjunto de documentos ordenados o estructurados por el índice construido de este modo. Puede introducirse directamente uno cualquiera de los términos de búsqueda, y si está contenido en el índice, a continuación se recuperan el documento o los documentos referenciados por el término del índice. Otra posibilidad es "navegar" por el índice, lo cual significa representar los elementos individuales del índice en algún orden (típicamente alfabético), como se muestra en el elemento 440 de la Fig. 4. Esto tiene la ventaja de que un usuario puede tener una visión rápida de qué elementos de índice se usan en total para organizar o "indexar" el conjunto de documentos. Otro enfoque algo más sofisticado es usar una búsqueda llamada tolerante a fallos, lo que significa que se introduce un término de búsqueda y se recuperan los documentos en los que el valor del índice correspondiente es idéntico o al menos similar (en alguna medida, dependiendo del algoritmo de búsqueda tolerante a fallos utilizado) al termino de búsqueda. En cualquier caso, la construcción de un índice es un trabajo muy difícil y tedioso, que es el trabajo preparatorio que tiene que hacerse para hacer factible el acceso a grandes conjuntos de documentos de un modo ordenado y significativo. Los índices típicamente se crean "manualmente", al menos en el caso de documentos a indexar que están "sin estructurar" tal como los documentos de texto simples. Si los documentos a indexar están "estructurados", tal como en el caso de las tablas de bases de datos relacionales, entonces es relativamente fácil construir un índice. Sin embargo, si no se conoce el "significado" individual que tiene un elemento en un documento no estructurado, 2 E01120429 11-01-2012 entonces es extremadamente difícil y cansado seleccionar los elementos que pueden usarse para indexar este documento. El documento "Extracción de información de HTML: aplicación de un enfoque general de aprendizaje de una máquina' de FREITAG D PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL (AAAI-98). DÉCIMA CONFERENCIA EN APLICACIONES INNOVADORAS DE INTELIGENCIA ARTIFICIAL, PROCEDIMIENTOS DE LA CONFERENCIA NACIONAL DECIMOQUINTA SOBRE INTELIGENCIA ARTIFICIAL, MADISON, WI, Estados Unidos, páginas 517-523, documento XP002197239 1998, Menlo Parck, CA, Estados Unidos, Prensa AAAI, Prensa MIT, Estados Unidos ISBN: 0-262-51098-7 desvela un método para realizar la extracción de información de páginas Web. La extracción de información se causa como un problema de aprendizaje de una máquina estándar y se describe la implementación de un aprendiz de relación de propósito general para la extracción de información. En consecuencia, es altamente deseable mejorar el proceso de indexación de documentos. Sumario de la invención De acuerdo con la primera realización de la presente invención se proporciona un método para recuperar ciertos documentos a partir de un conjunto de documentos en base a un término de búsqueda introducido y en base también al "significado" correspondiente del término de búsqueda, como se define en la reivindicación 1. En primer lugar se buscan los documentos que contienen el término de búsqueda. A continuación, se evalúan los documentos encontrados (llamados documentos base) para ver si en esos documentos el término de búsqueda contenido en los mismos tiene un cierto significado. Esta evaluación comprende la generación de un documento (o disposición) de texto que representa el término de búsqueda y sus elementos circundantes y su correspondiente posición absoluta o relativa con respecto al término de búsqueda o dentro del documento base. Este documento de texto se introduce a continuación en un aparato de clasificación ejercitable que se ha entrenado para juzgar si el documento de texto introducido pertenece a una cierta categoría o no. Por lo tanto el juicio tiene que determinar si el término de búsqueda tiene el cierto "significado" deseado (es decir, si el documento de texto pertenece a la categoría entrenada) o si no lo tiene (el documento no pertenece a la categoría entrenada). En base a este juicio puede comprobarse si en los documentos base encontrados los términos buscados tienen el cierto "significado" deseado. Los términos de búsqueda y los significados correspondientes pueden usarse para construir un índice para los documentos base. Esto puede ser a continuación de utilidad para acceder a una gran reserva de documentos base en un modo ordenado. De acuerdo con una realización particular dichas etapas de búsqueda, clasificación e indexación se repiten para una pluralidad de términos de búsqueda. Si esto se realiza para cada uno de los documentos base, a continuación puede determinarse para cada uno de los documentos, el valor individual correspondiente que tiene un cierto "significado" y que está contenido en este documento. Por ejemplo, para todos los documentos base de una pila de cartas puede determinarse o "extraerse" la fecha de envío y a continuación los elementos extraídos de este modo junto con su "significado" "fecha de envío" podrían usarse para formar un índice que referencia el conjunto de documentos base. Si esto se realiza para varios "significados" diferentes, tales como el destinatario, la dirección de origen, el número de referencia y así sucesivamente, a continuación podría generarse también una base de datos relacional que mapea el "contenido de información" del conjunto de documentos dentro de las tablas de la base de datos relacional. De acuerdo con una realización adicional la búsqueda realizada puede comprender una búsqueda asociativa y/o una búsqueda difusa. Esto devolverá también documentos en los cuales los términos de búsqueda están mal escritos o que contienen cualesquiera otros errores de mecanografía. El entrenamiento del aparato de clasificación puede realizarse seleccionando para el entrenamiento un conjunto de documentos... [Seguir leyendo]

Reivindicaciones:

1. Un método para recuperar en base a un término de búsqueda junto con una cierta categoría a la que pertenece el término de búsqueda, a partir de un conjunto de documentos base, los documentos base que contienen dicho término de búsqueda y en los que dicho cierto término de búsqueda pertenece a dicha cierta categoría para posibilitar la construcción de un índice sobre dichos documentos recuperados, comprendiendo dicho método: - buscar (110) en los documentos base de entre dicho conjunto de documentos base los que contienen dicho cierto término de búsqueda; - evaluar (120) los documentos base encontrados para ver si dicho término de búsqueda contenido en dichos documentos base encontrados, pertenecen, respectivamente a dicha cierta categoría o no, comprendiendo dicha evaluación: - generar (200) un documento de texto para representar los elementos en el documento base encontrado alrededor del término de búsqueda y los elementos correspondientes a la posición absoluta o relativa con respecto a dicho término de búsqueda, codificando los elementos de dicho documento de texto, dichas posiciones absolutas o relativas de dichos elementos de alrededor. - introducir (210) dicho documento de texto en un aparato de clasificación ejercitable, que se ha entrenado para reconocer si dicho término de búsqueda en un documento de texto introducido, pertenece a cierta categoría o no, mientras que dicho entrenamiento se ha realizado en base a una muestra de entrenamiento de documentos de texto que se han generado para documentos de texto en los que el término de búsqueda rodeado por los elementos de alrededor pertenecen a dicha cierta categoría; y - clasificar dicho documento de texto introducido para juzgar (220) si dicho término de búsqueda pertenece a dicha cierta categoría introducida o no, e - indexar una pluralidad de dichos documentos base usando dicho término de búsqueda y dicha categoría correspondiente para construir un índice para dichos documentos base. 2. El método de la reivindicación 1, en el que los elementos de dicho documento de texto son codificaciones de dichas posiciones absolutas o relativas de dichos elementos de alrededor por las correspondientes cadenas de caracteres de texto. 3. El método de la reivindicación 1, que comprende además: - repetir dichas etapas de búsqueda, entrada y clasificación e indexación para una pluralidad de términos de búsqueda, generándose dichos términos de búsqueda automáticamente de acuerdo con una norma predefinida. 4. El método de una de las reivindicaciones de 1 a 3, en el que dicha búsqueda de dichos documentos base comprende una búsqueda asociativa; y/o una búsqueda difusa en base a dicho término de búsqueda. 5. El método de la reivindicación 1, que comprende además: - comprobar todos los términos de búsqueda de dichos documentos base, o - comprobar sólo los términos de búsqueda de dichos documentos base que coinciden con uno o más criterios predefinidos. 6. El método de reivindicaciones 1 ó 5, que comprende además - generar una base de datos relacional a partir del término de búsqueda del índice y su categoría correspondiente. 7. El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento: a) buscar los documentos base en los que el término de búsqueda pertenece a cierta categoría; b) seleccionar dicho término de búsqueda por el usuario; - repetir las operaciones a) y b) hasta que se ha seleccionado el conjunto suficiente de documentos base para generar una muestra de entrenamiento: - generar los documentos de texto para los documentos base respectivos; - usar dichos documentos de texto generados como un conjunto de entrenamiento para entrenar dicho aparato de clasificación corriendo dicho aparato de clasificación en el modo de entrenamiento. 8. El método de acuerdo con una de las reivindicaciones anteriores de 1 a 6, que comprende el entrenamiento del aparato de clasificación, comprendiendo dicho entrenamiento: 8 E01120429 11-01-2012 - usar un conjunto de documentos base para los cuales los términos de búsqueda que pertenecen a la categoría predefinida deseada son ya conocidos para generar automáticamente documentos de texto como muestras de entrenamiento para entrenar dicho aparato de clasificación. 9. Un programa de ordenador que comprende un código de programa de ordenador para posibilitar que un ordenador realice un método de acuerdo con una de las reivindicaciones anteriores de 1 a 8 cuando dicho programa se corre sobre un ordenador. 9 E01120429 11-01-2012 E01120429 11-01-2012 11 E01120429 11-01-2012 12 E01120429 11-01-2012 13 E01120429 11-01-2012

Patentes similares o relacionadas:

Composiciones y métodos para modelar el metabolismo de Saccharomyces cerevisiae, del 3 de Junio de 2020, de THE REGENTS OF THE UNIVERSITY OF CALIFORNIA: Un metodo implementado por computadora para proporcionar a un usuario una simulacion de una funcion fisiologica de levadura relacionada con un gen heterologo […]

Procedimiento de visualización de páginas por medio de un navegador de un equipo como una caja descodificadora Proveedor de Servicios de Internet, del 10 de Enero de 2020, de FREEBOX (100.0%): Un procedimiento de visualización de páginas por un equipo cliente equipado de un sistema cerrado, conectado a un servidor remoto , integrando […]

Procedimiento implementado por ordenador y controlado por ordenador, producto de programa informático y plataforma para disponer datos para su procesamiento y almacenamiento en un motor de almacenamiento de datos, del 4 de Noviembre de 2019, de Dynactionize N.V: Un procedimiento implementado por ordenador y controlado por ordenador de disposición de datos para procesamiento y almacenamiento de los mismos en un […]

MÉTODO DE DOBLAJE Y LOCUCIONES DE AUDIO, del 11 de Julio de 2019, de TANGO VOZ, S.L: Se describe en este documento un método que permite gestionar la producción de doblajes y locuciones de audio destinados a medios audiovisuales de tal manera que no se […]

Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, del 21 de Mayo de 2019, de IG Knowhow Limited: Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, la unidad de procesamiento de datos recibiendo una primera […]

Dispositivo de procesamiento de información, método de procesamiento de información, programa de procesamiento de información y soporte de registro, del 1 de Mayo de 2019, de RAKUTEN, INC: Dispositivo de procesamiento de información que comprende: un medio (12b) de memoria de palabra de área local que almacena una palabra de área […]

Método para proporcionar una estructura de índice en una base de datos, del 1 de Mayo de 2019, de Capish International AB: Metodo para proporcionar una estructura de indice en una base de datos que comprende una pluralidad de tipos de objetos, donde cada tipo de objetos […]

SISTEMA PARA LA DETECCIÓN REMOTA DEL USO DEL CINTURÓN DE SEGURIDAD EN UN VEHÍCULO, del 18 de Abril de 2019, de CASANOVA RENT VOLKS, S.A. DE C.V: La presente invención se refiere a la industria automotriz, particularmente está relacionada con los cinturones de seguridad con que están equipados los vehículos, […]