Léxico con datos divididos en secciones y procedimiento de uso del mismo.

Un medio de almacenamiento legible por ordenador que tiene una pluralidad de léxicos (180-183) paraalmacenar información de palabras y adaptado para su uso en un analizador (20) de textos en un sistema (10)de tratamiento del lenguaje,

comprendiendo cada léxico:

una sección (162) de lista de palabras para almacenar una pluralidad de palabras;

un conjunto de secciones (168A -168P; 190 - 195) de datos que se corresponde con cada palabra de la listade palabras, almacenando las secciones de datos información seleccionada diferente sobre lacorrespondiente palabra de la lista de palabras; y

para cada palabra de la lista de palabras, una pluralidad de punteros almacenados en una tabla (166) deíndices aparte de los conjuntos de secciones de datos, apuntando cada uno de los punteros a una secciónde datos diferente relacionada con información diferente sobre la palabra correspondiente, incluyendo cadauno de los punteros una primera indicación de a qué sección de datos acceder, una segunda indicación deun valor de desplazamiento relacionado con la información almacenada en el mismo y una terceraindicación de una clasificación de la palabra;

en el que las secciones (190-195) de datos de cada uno de los léxicos (180-183) que tienen informaciónsimilar son accesibles selectivamente para obtener información de las mismas, y en el que dicha pluralidadde léxicos que tienen secciones de datos con información similar permite:

obtener la información de palabras de al menos dos secciones (195180, 195181, 195182) de datos quetienen información similar para combinar la información (195180-181+182) obtenida de palabras, siendodichas al menos dos secciones (195180, 195181, 195182) de datos de al menos dos léxicos diferentes(180-182), u

obtener la información de palabras (192182) de al menos dos secciones (192182, 192183) de datos quetienen información similar y luego usar solo la información de palabras obtenida de una sección (192182)de datos, siendo dichas al menos dos secciones (192182, 192183) de datos de al menos dos léxicosdiferentes (182-183).

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E03008804.

Solicitante: MICROSOFT CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: ONE MICROSOFT WAY REDMOND, WASHINGTON 98052-6399 ESTADOS UNIDOS DE AMERICA.

Inventor/es: Finnegan,James P, Huttenhower,Curis E, Potter,Douglas W, Powell,Kevin R.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06F17/27
  • G06F17/28

PDF original: ES-2386631_T3.pdf

 


Fragmento de la descripción:

Léxico con datos divididos en secciones y procedimiento de uso del mismo

Antecedentes de la invención

La presente invención versa acerca del tratamiento del lenguaje o de textos. Más en particular, la presente invención versa acerca de una estructura de datos mejorada para almacenar un léxico y de un procedimiento mejorado de uso del mismo.

El tratamiento del lenguaje o de textos abarca muchos tipos de sistemas. Por ejemplo, analizadores sintácticos, verificadores ortográficos, verificadores gramaticales, divisores silábicos, procesadores de lenguaje natural o sistemas de comprensión y sistemas de traducción automática son solo algunos de los tipos de sistemas que se encuentran dentro de esta amplia categoría.

Un componente común e importante de muchos sistemas de tratamiento del lenguaje o de textos es el léxico. Generalmente, el léxico es una estructura de datos que contiene información sobre palabras. Por ejemplo, el léxico puede almacenar indicaciones de información sintáctica y semántica. Ejemplos incluyen si la palabra es un sustantivo, un verbo, un adjetivo, etc. Además, en el léxico pueden guardarse diferentes tipos de información lingüística. A menudo es útil almacenar otra información útil para el tipo particular de tratamiento del lenguaje, tal como almacenar información sobre la palabra que contribuya a su análisis sintáctico. En otros léxicos distintos, pueden resultar útiles indicaciones de si la palabra es un nombre propio, una ubicación geográfica, etc.

En operación, tras recibir una cadena de palabras de entrada, el sistema de tratamiento del lenguaje o de textos accede al léxico para obtener la información almacenada con respecto a cada una de las palabras. Habiendo recogido la información sobre cada una de las palabras de la cadena de entrada, el sistema de tratamiento del lenguaje o de textos procesa la cadena de entrada, lo que puede incluir resolver cualquier ambigüedad que pueda existir con base en la información de las palabras. Por ejemplo, en un sistema de tratamiento de lenguaje natural, el léxico asigna partes de la oración a cada una de las palabras de la cadena de entrada. A continuación, un analizador sintáctico decide cuáles de las asignaciones de partes de la oración son apropiadas y construye una estructura a partir de la cadena de entrada, que puede pasarse entonces a un componente semántico para su interpretación.

Comúnmente, cada entrada del léxico comprende un solo objeto binario grande. Aunque la información es accesible, este formato no permite fácilmente un acceso localizado a información léxica usada comúnmente sin tener que leer la entrada completa. Si hay que leer del léxico toda la información perteneciente a una entrada de palabra, hacen falta más memoria y tiempo de procesamiento, particularmente si solo se necesita una parte pequeña de la información para la entrada de la palabra.

También resulta difícil modificar información léxica o añadirla. Específicamente, para modificar la información del léxico o añadir información adicional, el autor del léxico debe replicar todos los bits, los atributos u otra información dentro de cada entrada, luego modificar la información deseada o añadir a la misma mientras se mantiene la integridad y la organización de una estructura de datos muy compleja.

Existe, así, la necesidad de una estructura mejorada de datos de léxico que aborde una, algunas o todas las desventajas presentadas en lo que antecede.

El documento EP-A2-0 539 965 da a conocer un diccionario electrónico usado típicamente en sistemas de traducción. El diccionario electrónico incluye un fichero de cabeceras, un fichero de punteros que tiene una porción de almacenamiento de banderas de corrección y una porción de almacenamiento de punteros, un fichero de información de palabras y un fichero de corrección de la información de palabras.

El documento US-A-6 138 087 da a conocer un sistema para almacenar y recuperar experiencia y conocimiento de lenguaje natural a través de procedimientos y un aparato. El diccionario está organizado de tal forma que cada palabra almacenada contiene: una entrada de texto que corresponde a la palabra; un número de representación que se usa para representar la palabra de texto; un conjunto de conjuntos de palabras de sintaxis, cada uno con una parte asociada de la oración; una dirección para un proceso de selección de función del conjunto de palabras y un código de función asociado; una lista de anomalías gramaticales asociadas divididas por conjuntos de palabras; punteros a tablas comunes para seleccionar códigos de inflexión y/o a otras tablas comunes relacionadas con un conjunto de palabras, tales como preposiciones de modificación de un sustantivo concreto.

C. J. WELLS, L. J. EVETT, P. E. WHITBY Y R. J. WHITROW: “Fast dictionar y look-up for contextual word recognition” PATTERN RECOGNITION [en línea], vol. 23, nº 5, 1990, páginas 501-508, XP002407899 Gran Bretaña, recuperado de Internet: URL: http://portal.acm.org/citation.cfm?id=83050> se refiere a una consulta rápida de diccionario para el reconocimiento contextual de palabras en la que el léxico está representado como un trie.

A. NTOULAS ET AL.: “Use of a morphosyntactic lexicon as the basis for the implementation of the Greek Wordnet”, LECTURE NOTES IN COMPUTER SCIENCE, 2000, XP002407900 Springer Berlín/Heidelberg se refiere al uso de

un léxico morfosintáctico como base para la implementación de la WordNet Griega, en la que el léxico está representado como un trie.

FREDKIN E: “TRIE MEMORY”, COMMUNICATIONS OF THE ASSOCIATION FOR COMPUTING MACHINERY, ACM, NUEVA YORK, NY, EE. UU., vol. 3, nº 9, agosto de 1960 (1960-08) , páginas 490-499, XP002271883 ISSN: 0001-0782 se refiere a memoria de tipo trie como forma de almacenar y recuperar información.

El objeto de la presente invención es proporcionar un procedimiento mejorado de obtención de información de palabras accediendo a un léxico, así como un correspondiente medio legible por ordenador.

Este objeto se resuelve por medio de la materia de las reivindicaciones independientes.

Las reivindicaciones dependientes definen realizaciones preferentes.

Un aspecto de la presente invención es un léxico de palabras almacenado en un medio legible por ordenador que tiene información de palabras adaptada para su uso en un sistema de tratamiento del lenguaje. El léxico incluye una sección de lista de palabras para almacenar una pluralidad de palabras y una pluralidad de secciones de datos para almacenar información de palabras de la pluralidad de palabras. Las varias secciones de datos están separadas entre sí y de la sección de lista de palabras. Para acceder a la información de palabras, se proporciona una sección de índices que almacena punteros que apuntan a datos en la pluralidad de secciones de datos. Una identificación de qué puntero usar es una función de la correspondiente palabra en la sección de lista de palabras.

La estructura mejorada del léxico permite flexibilidad y eficiencias no disponibles previamente. La sección de índices y la pluralidad de secciones de datos permiten que el léxico se adapte para amoldarse a las necesidad de un sistema de tratamiento del lenguaje según los recursos disponibles del ordenador. En una realización adicional, la estructura del léxico permite que la información de palabras se clasifique o agrupe con base en una clasificación. Por ejemplo, la clasificación puede basarse en la parte de la oración de la entrada de la palabra, tal como si la entrada de la palabra puede ser un sustantivo, un verbo, un adjetivo, etc. La información de la palabra puede ser objeto de acceso selectivo en función de la clasificación. En el aspecto ejemplar, se proporcionan indicadores en punteros para indicar la clasificación de la correspondiente información de la palabra.

Otros aspectos de la presente invención incluyen un procedimiento implementado por ordenador para almacenar información de palabras en una pluralidad de secciones de datos, para almacenar información de punteros en la sección de índices y para almacenar la lista de palabras en la sección de lista de palabras, teniendo información la lista de palabras para identificar los correspondientes punteros relacionados con la palabra seleccionado. De forma similar, otro aspecto es acceder a la información de palabras... [Seguir leyendo]

 


Reivindicaciones:

1. Un medio de almacenamiento legible por ordenador que tiene una pluralidad de léxicos (180-183) para almacenar información de palabras y adaptado para su uso en un analizador (20) de textos en un sistema (10) de tratamiento del lenguaje, comprendiendo cada léxico:

una sección (162) de lista de palabras para almacenar una pluralidad de palabras; un conjunto de secciones (168A -168P; 190 - 195) de datos que se corresponde con cada palabra de la lista de palabras, almacenando las secciones de datos información seleccionada diferente sobre la correspondiente palabra de la lista de palabras; y para cada palabra de la lista de palabras, una pluralidad de punteros almacenados en una tabla (166) de

índices aparte de los conjuntos de secciones de datos, apuntando cada uno de los punteros a una sección de datos diferente relacionada con información diferente sobre la palabra correspondiente, incluyendo cada uno de los punteros una primera indicación de a qué sección de datos acceder, una segunda indicación de un valor de desplazamiento relacionado con la información almacenada en el mismo y una tercera indicación de una clasificación de la palabra;

en el que las secciones (190-195) de datos de cada uno de los léxicos (180-183) que tienen información similar son accesibles selectivamente para obtener información de las mismas, y en el que dicha pluralidad de léxicos que tienen secciones de datos con información similar permite:

obtener la información de palabras de al menos dos secciones (195180, 195181, 195182) de datos que tienen información similar para combinar la información (195180-181+182) obtenida de palabras, siendo

dichas al menos dos secciones (195180, 195181, 195182) de datos de al menos dos léxicos diferentes (180-182) , u obtener la información de palabras (192182) de al menos dos secciones (192182, 192183) de datos que tienen información similar y luego usar solo la información de palabras obtenida de una sección (192182) de datos, siendo dichas al menos dos secciones (192182, 192183) de datos de al menos dos léxicos

diferentes (182-183) .

2. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que la sección de lista de palabras es una estructura de datos trie.

3. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que la identificación es un valor de desplazamiento almacenado en la sección de lista de palabras.

4. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que cada léxico comprende, además, una sección (164) de tabla índice para almacenar cada una de las identificaciones correlacionadas con palabras de la sección de lista de palabras, teniendo cada palabra de la sección de lista de palabras una entrada correspondiente en la sección de la tabla índice.

5. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que una sección de la pluralidad 35 de secciones de datos almacena información relacionada con la verificación ortográfica.

6. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que una sección de la pluralidad de secciones de datos almacena información relacionada con la morfología.

7. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que una sección de la pluralidad de secciones de datos almacena información relacionada con la lingüística.

8. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que una sección de la pluralidad de secciones de datos almacena información que indica que una palabra pertenece a una expresión de múltiples palabras.

9. El medio de almacenamiento legible por ordenador de la reivindicación 1 en el que dos secciones de datos de la pluralidad de secciones de datos almacenan por separado información seleccionada del grupo que consiste

45 en información de verificación ortográfica, información morfológica, información lingüística e información de expresiones de múltiples palabras.

10. Un procedimiento implementado por ordenador para obtener información de palabras accediendo a una pluralidad de léxicos (180-183) , estando adaptado cada léxico para ser usado con un analizador (20) de textos en un sistema (10) de tratamiento del lenguaje, en el que cada léxico almacena información de una palabra

50 perteneciente a una pluralidad de palabras, comprendiendo cada léxico:

una sección (162) de lista de palabras que almacena la pluralidad de palabras; conjuntos de secciones (168A -168P; 190 - 195) de datos, correspondiéndose cada conjunto de secciones de datos con una palabra individual en la sección de lista de palabras, almacenando cada sección de datos entre un conjunto de secciones de datos información seleccionada diferente sobre la correspondiente

55 palabra de la lista de palabras; y

una sección (166) de índices que almacena una pluralidad de punteros aparte de los conjuntos de secciones de datos, correspondiéndose cada pluralidad de punteros con una palabra individual, apuntando cada puntero a datos en una sección de datos, incluyendo cada uno de los punteros una primera indicación de a qué sección de datos acceder, una segunda indicación de un valor de desplazamiento relacionado con

la información almacenada en el mismo y una tercera indicación de una clasificación de la palabra, comprendiendo el procedimiento:

acceder selectivamente a secciones (190-195) de datos de cada uno de los léxicos (180-183) que tienen información similar y obtener información de los mismos, en el que dicha pluralidad de léxicos que tienen secciones de datos con información similar permite:

obtener la información de palabras de al menos dos secciones (195180, 195181, 195182) de datos que tienen información similar para combinar la información (195180+181+182) obtenida de palabras, siendo dichas al menos dos secciones (195180, 195181, 195182) de datos de al menos dos léxicos diferentes (180-182) , u obtener la información de palabras (192182) de al menos dos secciones (192182, 192183) de datos que

tienen información similar y luego usar solo la información de palabras obtenida de una sección (192182) de datos, siendo dichas al menos dos secciones (192182, 192183) de datos de al menos dos léxicos diferentes (182-183) ; acceder a la sección de lista de palabras de al menos un léxico de dicha pluralidad de léxicos en función de dicha palabra para determinar una identificación de puntero para la sección de índices usando la identificación de puntero de dicho al menos un léxico para obtener un puntero en la

sección de índices; usar el puntero de dicho al menos un léxico para determinar qué sección de datos de la pluralidad de secciones de datos tiene información sobre la palabra dada y del lugar en el que la información está localizada en la sección de datos.

11. El procedimiento implementado por ordenador de la reivindicación 10 en el que la identificación es un valor de 25 desplazamiento almacenado en la sección de lista de palabras.

12. El procedimiento implementado por ordenador de la reivindicación 10 en el que cada léxico incluye una sección

(164) de tabla índice que almacenada cada una de las identificaciones correlacionadas con palabras de la sección de lista de palabras, y en el que acceder a la sección de lista de palabras en función de dicha palabra para determinar una identificación de puntero para la sección de índices incluye, además, el uso de la sección

de lista de palabras para encontrar una entrada correspondiente en la sección de la tabla índice que tenga la identificación correspondiente.

13. El procedimiento implementado por ordenador de la reivindicación 13 en el que el acceso selectivo incluye obtener la información de palabras de secciones de datos similares de cada léxico hasta que se localiza un indicador de parada.

14. El procedimiento implementado por ordenador de la reivindicación 13 en el que el acceso selectivo a las secciones de datos incluye el acceso secuencial a los léxicos en un orden seleccionado.


 

Patentes similares o relacionadas:

Dispositivo de traducción con sistema automático de conmutación de salida de audio, del 10 de Mayo de 2017, de OCHOA VALEZ, Rómulo Antonio: 1. Dispositivo de traducción con sistema automático de conmutación de salida de audio; caracterizado porque comprende: - un cuerpo acoplable a […]

Procedimientos, aparatos y productos para el procesamiento semántico de texto, del 16 de Noviembre de 2016, de cortical.io GmbH: Procedimiento implementado por ordenador para generar un diccionario legible por ordenador para traducir texto en una forma legible por una red neuronal, que comprende: […]

Gestión de gráficos multilingües para retransmisiones televisivas, del 12 de Octubre de 2016, de INSTITUT FUR RUNDFUNKTECHNIK GMBH: Aparato de gráficos sobreimpresionados en pantalla para inserción de gráficos en una señal de televisión con: - una entrada para […]

Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas, del 7 de Septiembre de 2016, de Microsoft Technology Licensing, LLC: Un procedimiento implementado por ordenador para calcular correspondencias de traducción entre palabras, que comprende: calcular puntuaciones de asociación de palabras […]

SISTEMA, MÉTODO Y MEDIO LEGIBLE POR COMPUTADORA DE INTERFAZ DE LENGUAJE, del 13 de Agosto de 2015, de ALVAREZ HEINEMEYER, Marco: Se describe un sistema y método de interfaz de lenguaje para ser usado, preferiblemente, por las personas sordas, con discapacidad auditiva, mudas o con discapacidad visual. […]

Procedimiento, servidor y sistema para la transcripción de lengua hablada, del 25 de Diciembre de 2013, de VerbaVoice GmbH: Un procedimiento de transcripción para la transcripción de lengua hablada en texto continuo para un usuario (U) que comprende las etapas de: (a) introducir una lengua […]

Procedimiento y dispositivo para la adaptación de ficheros digitales, del 23 de Octubre de 2013, de AMADEUS S.A.S.: Procedimiento de adaptación de ficheros digitales que consiste en determinar cadenas de caracteresdenominadas fuentes en un fichero de programa que se va a […]

Imagen de 'Traducción automática usando formas lógicas'Traducción automática usando formas lógicas, del 31 de Julio de 2013, de MICROSOFT CORPORATION: Un procedimiento implementado por ordenador de descodificación durante un tiempo de ejecución de unatraducción, de una estructura semántica […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .