Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales.

Método implementado en ordenador, que comprende:

identificar uno o más nombres en un documento;



seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;

definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;

determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;

identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;

comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;

calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y

definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2002/041144.

Solicitante: THOMSON REUTERS GLOBAL RESOURCES.

Inventor/es: DOZIER,Christopher C.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06F12/00 FISICA.G06 CALCULO; CONTEO.G06F PROCESAMIENTO ELECTRICO DE DATOS DIGITALES (sistemas de computadores basados en modelos de cálculo específicos G06N). › Acceso, direccionamiento o asignación en sistemas o arquitecturas de memoria (entrada digital a partir de, o salida digital hacia soportes de registro, p. ej. hacia unidades de almacenamiento de disco G06F 3/06).
  • G06F17/20
  • G06F17/27
  • G06F17/30

PDF original: ES-2378653_T3.pdf

 


Fragmento de la descripción:

Sistemas, métodos, y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales.

La presente invención se refiere a sistemas, métodos y software para establecer hipervínculos de nombres en documentos.

En los últimos años, el fantástico crecimiento de Internet y otras redes informáticas ha provocado un crecimiento igualmente fantástico en los datos accesibles a través de estas redes. Uno de los modos seminales de interaccionar con estos datos es mediante el uso de hipervínculos dentro de documentos electrónicos.

Los hipervínculos son elementos seleccionabas por el usuario, tales como texto resaltado o iconos, que vinculan una parte de un documento electrónico a otra parle del mismo documento o a otros documentos de una base de datos o red informática. Con un equipo informático y un acceso a la red adecuados, un usuario puede seleccionar o invocar un hipervínculo y ver casi instantáneamente el otro documento, que puede hallarse en casi cualquier parte del mundo. Además, el otro documento mismo puede incluir hipervínculos a otros documentos más que incluyan hipervínculos, permitiendo al usuario "brincar" por todo el mundo de documento en documento en documento buscando la información pertinente a voluntad.

Más recientemente se ha despertado el interés en establecer hipervínculos de unos documentos a otros basándose en los nombres de personas que aparecen en los documentos. Por ejemplo, para facilitar las investigaciones legales, la West Publishing Company de St. Paul, Minnesota, proporciona miles de resoluciones judiciales electrónicas con hipervínculos de los nombres de abogados y jueces a sus entradas biográficas en línea en el West Legal Directory, un directorio registrado de aproximadamente 1.000.000 de abogados estadounidenses y 20.000 jueces. Estos hipervínculos permiten a los usuarios acceder a resoluciones judiciales para lograr rápidamente el contacto y otra información específica de letrados y jueces mencionados en las resoluciones.

Los hipervínculos de estas resoluciones judiciales se generan automáticamente, utilizando un sistema que maneja nombres de pila, segundos nombres de pila y apellidos; nombre, ciudad y estado del bufete de abogados; e información del tribunal como indicaciones para vincular los abogados y jueces mencionados a sus correspondientes entradas en el directorio profesional. Véase Christopher Dozier y Robert Haschart, "Automatic Extraction and Linking of Person Names in Legal Text" (Proceedings of RIAO 2000: Content Based Multimedia Information Access. París, Francia. Páginas 1.305-1.321. Abril de 2000).

Aunque el sistema automatizado es muy eficaz, el presente inventor percibió que adolece de como mínimo dos limitaciones. En primer lugar, el sistema aprovecha características estructurales (organizativas) de las resoluciones judiciales, tales como los encabezamientos de caso, que no son comunes a otros documentos y limitan así su aplicación general a otros tipos de nombres y documentos. En segundo lugar, el sistema trata todos los nombres como igualmente ambiguos, o igualmente comunes, cuando, de hecho, algunos nombres son más o menos ambiguos que otros. Por ejemplo, el nombre David Smith es más común que el nombre Seven Drake y por lo tanto más ambiguo, o tiene mayor probabilidad de identificar a más de una persona.

Por consiguiente, el presente inventor ha identificado una necesidad de otros métodos para generar hipervínculos para nombres, o más en general de asociar datos que incluyan nombres.

Para abordar ésta y otras necesidades, el inventor ha ideado sistemas, métodos y software que facilitan el establecimiento de hipervínculos, o la asociación, de nombres que aparecen en documentos, tales como artículos informativos, a nombres que aparecen en otras estructuras de datos, tales como registros en directorios profesionales.

De acuerdo con un aspecto de la presente invención, se proporciona un método implementado en ordenador según lo reivindicado en la reivindicación 1.

De acuerdo con otro aspecto de la invención, se proporciona un sistema para añadir un hipervínculo a un documento según lo reivindicado en la reivindicación 8.

Un ejemplo de sistema incluye un módulo de descriptores y un módulo de vinculación. El módulo de descriptores desarrolla modelos descriptivos para seleccionar información que aparezca conjuntamente en el documento, útil para reconocer asociaciones entre nombres y categorías profesionales. El módulo de vinculación etiqueta nombres en un documento de entrada, extrae información que aparece conjuntamente utilizando los modelos descriptivos, clasifica cada nombre como perteneciente a una profesión concreta e intenta encontrar entradas correspondientes en directorios profesionales.

Para encontrar las entradas correspondientes, el módulo de vinculación determina una calificación en cuanto a la rareza (singularidad o ambigüedad) de cada nombre e introduce en una red de inferencia bayesiana esta calificación junto con el nombre y la información que aparece conjuntamente en el documento seleccionada. La red de inferencia mide las probabilidades de que el nombre se refiera a registros (o entradas) candidatos(as) concretos(as) en un directorio profesional determinado. El módulo de vinculación clasifica los registros candidatos basándose en las mediciones de probabilidad y define un hipervínculo (u otra asociación lógica) basándose en el registro clasificado en la posición más elevada que sobrepase un umbral determinado.

El inventor ha ideado también sistemas, métodos y software que facilitan la búsqueda de datos que incluyan términos potencialmente ambiguos, tales como nombres de personas u otras entidades. Por ejemplo, un método implica recibir una consulta de un usuario, identificar uno o más nombres en la consulta, evaluar la ambigüedad o singularidad de los nombres y, si la ambigüedad es suficientemente grande, obtener información adicional y actualizar o complementar la consulta para ayudar a resolver o reducir la ambigüedad. La información adicional, que por ejemplo incluye un título profesional, una localización o una organización, puede obtenerse directamente del usuario o mediante una búsqueda suplementaria automática.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un ejemplo de un sistema 100 que incorpora enseñanzas de la presente invención.

La figura 2 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de definir expresiones o descriptores para el uso en la clasificación y vinculación de nombres.

La figura 3 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de definir un hipervínculo entre nombres que aparecen en un documento y nombres que aparecen en una base de datos, basado en la red de inferencia bayesiana formada según la figura 5.

La figura 4 es un diagrama de bloques de un ejemplo de un sistema de inferencia bayesiana utilizado para operar el sistema 100 con el fin de definir hipervínculos.

La figura 5 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de formar una red de inferencia bayesiana para el uso en la medición de la probabilidad de que un nombre que aparece en un documento y un nombre que aparece en una base de datos se refieran a la misma persona.

La figura 6 es un organigrama de un ejemplo de un método de búsqueda que incorpora enseñanzas de la presente invención.

La siguiente descripción detallada, que alude a las figuras 1-6 y las incorpora, describe e ilustra uno o más ejemplos de realización de la invención. Estas realizaciones, ofrecidas no para limitar sino sólo para ejemplificar y enseñar la invención, se muestran y describen con un detalle suficiente para permitir a los técnicos en la materia llevar a cabo y utilizar la invención. Así, cuando resulte apropiado para no ofuscar la invención, la descripción puede omitir cierta información ya conocida por el técnico en la materia.

La descripción incluye muchos términos con significados derivados de su uso en la técnica o de su uso dentro del contexto de la descripción. Como ayuda adicional se ofrecen las siguientes definiciones de términos.

Los términos "un" y "una" se refieren a como mínimo uno o una.

El término "o" se utiliza en su sentido lógico booleano, a no ser que se utilice... [Seguir leyendo]

 


Reivindicaciones:

1. Método implementado en ordenador, que comprende:

identificar uno o más nombres en un documento;

seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;

definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;

determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;

identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;

comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;

calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y

definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.

2. Método implementado en ordenador según la reivindicación 1, en el que el indicador de rareza es una cantidad basada en un tamaño de una población humana, una probabilidad de sacar una primera parte de palabra del nombre al azar y una probabilidad de sacar una segunda parte de palabra del nombre al azar del conjunto de nombres de muestra representativos de una población humana pertinente.

3. Método implementado en ordenador según la reivindicación 2, en el que la primera parte es una parte de nombre de pila del nombre y la segunda parte es una parte de apellido del nombre.

4. Método implementado en ordenador según la reivindicación 1, en el que el cálculo de una o más cantidades, basada cada una en el indicador de rareza del nombre de persona candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos, incluye la utilización de un motor de inferencia bayesiana.

5. Método implementado en ordenador según la reivindicación 1, en el que la definición del hipervínculo basándose en la o las cantidades calculadas comprende:

comparar las cantidades con un umbral; y

definir el hipervínculo basándose en la mayor de las cantidades que sobrepasen el umbral.

6. Método implementado en ordenador según la reivindicación 5, en el que la definición del hipervínculo basándose en la mayor de las cantidades que sobrepasan el umbral comprende definir un hipervínculo para designar el registro candidato correspondiente a la mayor de las cantidades.

7. Medio legible por máquina que comprende instrucciones ejecutables por máquina para llevar a cabo el método implementado en ordenador según la reivindicación 1.

8. Sistema para añadir un hipervínculo a un documento que incluye un nombre de persona, comprendiendo el sistema:

como mínimo un procesador;

una memoria conectada al procesador, incluyendo la memoria instrucciones para:

identificar uno o más nombres en un documento;

seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;

definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;

determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;

identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;

comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;

calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y

definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.

9. Sistema según la reivindicación 8, en el que el indicador de rareza es una cantidad basada en un tamaño de una población humana, una probabilidad de sacar una primera parte de palabra del nombre al azar y una probabilidad de sacar una segunda parte de palabra del nombre al azar del conjunto de nombres de muestra representativos de una población humana pertinente.


 

Patentes similares o relacionadas:

Composiciones y métodos para modelar el metabolismo de Saccharomyces cerevisiae, del 3 de Junio de 2020, de THE REGENTS OF THE UNIVERSITY OF CALIFORNIA: Un metodo implementado por computadora para proporcionar a un usuario una simulacion de una funcion fisiologica de levadura relacionada con un gen heterologo […]

Procedimiento de visualización de páginas por medio de un navegador de un equipo como una caja descodificadora Proveedor de Servicios de Internet, del 10 de Enero de 2020, de FREEBOX (100.0%): Un procedimiento de visualización de páginas por un equipo cliente equipado de un sistema cerrado, conectado a un servidor remoto , integrando […]

Procedimiento implementado por ordenador y controlado por ordenador, producto de programa informático y plataforma para disponer datos para su procesamiento y almacenamiento en un motor de almacenamiento de datos, del 4 de Noviembre de 2019, de Dynactionize N.V: Un procedimiento implementado por ordenador y controlado por ordenador de disposición de datos para procesamiento y almacenamiento de los mismos en un […]

MÉTODO DE DOBLAJE Y LOCUCIONES DE AUDIO, del 11 de Julio de 2019, de TANGO VOZ, S.L: Se describe en este documento un método que permite gestionar la producción de doblajes y locuciones de audio destinados a medios audiovisuales de tal manera que no se […]

Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, del 21 de Mayo de 2019, de IG Knowhow Limited: Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, la unidad de procesamiento de datos recibiendo una primera […]

Dispositivo de procesamiento de información, método de procesamiento de información, programa de procesamiento de información y soporte de registro, del 1 de Mayo de 2019, de RAKUTEN, INC: Dispositivo de procesamiento de información que comprende: un medio (12b) de memoria de palabra de área local que almacena una palabra de área […]

Método para proporcionar una estructura de índice en una base de datos, del 1 de Mayo de 2019, de Capish International AB: Metodo para proporcionar una estructura de indice en una base de datos que comprende una pluralidad de tipos de objetos, donde cada tipo de objetos […]

SISTEMA PARA LA DETECCIÓN REMOTA DEL USO DEL CINTURÓN DE SEGURIDAD EN UN VEHÍCULO, del 18 de Abril de 2019, de CASANOVA RENT VOLKS, S.A. DE C.V: La presente invención se refiere a la industria automotriz, particularmente está relacionada con los cinturones de seguridad con que están equipados los vehículos, […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .