SISTEMA DE ANOTACIÓN AUTOMÁTICA DE DATOS DE ADIESTRAMIENTO PARA UN SISTEMA DE COMPRENSIÓN DEL LENGUAJE NATURAL.

Un procedimiento para la generación de datos de adiestramiento anotados para adiestrar un sistema de comprensión del lenguaje natural,

NLU, que incorpora uno o más modelos, comprendiendo el procedimiento: la generación (390) de una anotación propuesta con el sistema NLU para cada unidad de datos de adiestramiento no anotados; la presentación de las anotaciones propuestas para la verificación o la corrección de usuario para obtener una anotación confirmada por un usuario; el adiestramiento del sistema NLU con la anotación confirmada por un usuario; la presentación de una indicación de un volumen de datos de adiestramiento utilizados para adiestrar una pluralidad de porciones diferentes de los uno o más modelos del sistema de comprensión del lenguaje natural; en el que la presentación de la anotación propuesta para la verificación o corrección del usuario comprende: la recepción de una entrada de usuario indicativa de una porción identificada por un usuario de la anotación propuesta; y la presentación de una pluralidad de anotaciones alternativas propuestas para la porción identificada por el usuario; en el que los uno o más modelos imponen unas restricciones del modelo y en el que la presentación de una o más anotaciones alternativas propuestas comprende la presentación de una anotación alternativa propuesta para la porción identificada por el usuario, solo si la anotación alternativa propuesta puede conducir a una anotación global para la unidad que sea compatible con las restricciones de modelo; en el que la anotación propuesta incluye unos nodos padres e hijos y en el que la presentación de una pluralidad de anotaciones alternativas propuestas incluye la presentación de una entrada de nodo de borrado accionable por el usuario, la cual, cuando es accionada, borra un nodo hijo, y una entrada de nodo de adición accionable por el usuario, la cual, cuando es accionada, añade un nodo hijo, y la presentación de la pluralidad de anotaciones de alternativas propuestas en respuesta al borrado por parte del usuario de un nodo hijo asociado con la porción identificada por el usuario de la anotación propuesta; en el que la presentación de una pluralidad de anotaciones alternativas propuestas comprende la presentación de una porción de la unidad no cubierta por la anotación propuesta; y la presentación de anotaciones alternativas propuestas para la porción no cubierta por la anotación propuesta; en el que el usuario es habilitado para seleccionar un segmento de la porción de la unidad no cubierta por la anotación propuesta y en el que la presentación de las anotaciones alternativas propuestas, comprende la presentación de una o más anotaciones alternativas propuestas para el segmento seleccionado por el usuario; y en el que el usuario es habilitado para seleccionar una de las anotaciones alternativas propuestas entre la pluralidad de anotaciones alternativas propuestas, y la anotación alternativa propuesta seleccionada por el usuario es incorporada en los datos de adiestramiento anotados

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E03008805.

Solicitante: MICROSOFT CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: ONE MICROSOFT WAY REDMOND, WASHINGTON 98052-6399 ESTADOS UNIDOS DE AMERICA.

Inventor/es: Acero,Alejandro, Wang,Ye-Yi, Wong,Leon.

Fecha de Publicación: .

Fecha Solicitud PCT: 23 de Abril de 2003.

Clasificación Internacional de Patentes:

  • G06F17/24A
  • G06F17/27S

Clasificación PCT:

  • G06F17/24
  • G06F17/27

Clasificación antigua:

  • G06F17/27

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2368213_T3.pdf

 


Fragmento de la descripción:

Sistema de anotación automática de datos de adiestramiento para un sistema de comprensión del lenguaje natural Antecedentes de la invención La presente invención se refiere a la comprensión del lenguaje natural. Más concretamente, la presente invención se refiere a la anotación de datos de adiestramiento para el adiestramiento de un sistema de comprensión del lenguaje natural. La comprensión del lenguaje natural es un proceso mediante el cual un usuario de computadora puede suministrar una entrada a una computadora en un lenguaje natural (como por ejemplo mediante una entrada textual o una entrada de voz o por medio de alguna otra interacción con la computadora). La computadora procesa dicha entrada y genera una comprensión de las intenciones que el usuario ha expresado. Con el fin de adiestrar los sistemas de comprensión del lenguaje natural convencionales, se requiere una gran cantidad de datos de adiestramiento anotados. Sin unos datos de adiestramiento suficientes, los sistemas resultan adiestrados de manera insuficiente y el rendimiento se ve afectado. Sin embargo, con el fin de generar unos datos de adiestramiento anotados, los sistemas convencionales se basan en anotaciones manuales. Este sistema presenta una pluralidad de inconvenientes significativos. La anotación manual puede ser costosa, retardataria, monótona y propensa al error. Así mismo, pueden incluso resultar difíciles anotaciones de corrección. Si las anotaciones son casi correctas, es bastante difícil detectar errores. El documento de publicación posterior WO 031096217 A, aplicable solo con arreglo al apartado 3 del Art. 54 del CPE describe una herramienta de desarrollo integrada para construir una aplicación de comprensión del lenguaje natural. La técnica descrita incluye la determinación de la información de la interpretación de NLU a partir de un cuerpo de texto de adiestramiento de NLU utilizando una técnica de procesamiento de múltiples pasadas. La alteración de una pasada puede alterar de forma automática una entrada de una pasada posterior. La información de interpretación de NLU puede especificar una interpretación de al menos parte del cuerpo de texto de adiestramiento de NLU. Los elementos seleccionados de la información de interpretación de NLU pueden ser presentados en un editor gráfico. La información de interpretación de NLU se presenta como un árbol de significados que incluye unos nodos terminales y no terminales. Indicando una probabilidad si puede ser determinada una porción del árbol de significados. Esa porción del árbol de significados puede ser visualmente identificada. El árbol de significados puede ser completado de forma automática de acuerdo con unos datos de anotación predeterminados o con un modelo que especifique unas interpretaciones del texto. Puede llevarse a cabo una determinación acerca de si un único elemento de datos del diccionario de elementos de datos está asociado con una palabra del cuerpo de texto de adiestramiento de NLU. Si es así, el único elemento de datos puede ser asignado a la palabra. Los elementos seleccionados de la información de interpretación de NLU pueden ser representados en forma de sugerencia y una probabilidad que indique si el árbol de significados presentado es una interpretación correcta. La técnica puede, así mismo, incluir la búsqueda de la información de la interpretación de NLU para una estructura específica de árbol de significados. Una intersección de los elementos de datos puede ser identificada y presentada como selecciones para la anotación de una palabra específica para el usuario del cuerpo de texto de adiestramiento de NLU. El documento: Aprendizaje para generar una Anotación Semántica para Sentencias Específicas de Dominioo [Learning to Generate Semantic Annotation for Domain Specific Sentences] de Jianming Li, Lei Zhang, Yong Yu, con fecha 21 de octubre de 2001, se refiere al aprendizaje para generar anotaciones semánticas para sentencias específicas de dominio. Las palabras abiertas son anotadas como conceptos en la sentencia, y las palabras cerradas son marcadas para su tratamiento ulterior. En la fase de adiestramiento, todas las palabras abiertas son seleccionadas una por una. Una interfaz de adiestramiento proporciona una lista de posibles conceptos, y el apropiado es elegido entre la lista. Un vector de contexto es generado para cada palabra abierta en la estructura de enlace de las sentencias. El documento Comprensión del Lenguaje Natural de Base Estocástica a Través de Tareas y Lenguajes [Stochastically-Based Natural Language Understanding Across Tasks and Languages] de Minker W., con fecha 22 de septiembre de 1997, describe una comprensión del lenguaje natural de base estocástica a través de tareas y lenguajes. Los parámetros del modelo son estimados mediante un procedimiento estocástico que requiere unos cuerpos anotados de forma semántica. Se utiliza una técnica iterativa, semiautomática, para anotar los datos. Manualmente se determinan unos análisis sintácticos para una pluralidad de sentencias. A continuación, se inicia un procedimiento iterativo: utilizando el modelo y anotando la consulta en el subconjunto siguiente. Para la corrección de datos, cada etiqueta semántica de la secuencia tiene que ser verificada. Los conjuntos anotados fueron fusionados y los parámetros del modelo fueron recalculados. Estas etapas fueron reiteradas hasta que el completo conjunto de adiestramiento fue anotado y corregido semánticamente. Constituye un objetivo de la presente invención proporcionar un sistema de comprensión del lenguaje natural mejorado. 2   Este objetivo se consigue mediante la materia objeto de las reivindicaciones independientes. Formas de realización preferentes se definen en las reivindicaciones dependientes. Sumario de la invención La presente invención utiliza un sistema de comprensión del lenguaje natural que está siendo actualmente adiestrado para ayudar a la anotación de los datos de adiestramiento para el adiestramiento de ese sistema de comprensión del lenguaje natural. El sistema es inicialmente, de manera opcional, adiestrado utilizando algunos datos iniciales de adiestramiento anotados. A continuación, se proporcionan al sistema unos datos adicionales de adiestramiento no anotados y el sistema propone unas anotaciones a los datos de adiestramiento. Al usuario se le ofrece una oportunidad para confirmar o corregir las anotaciones propuestas, y el sistema es adiestrado con las anotaciones corregidas o verificadas. En un ejemplo, cuando el usuario interactúa con el sistema, solo se presentan alternativas legales a la anotación propuesta para su selección por parte del usuario. En otra forma de realización, el sistema de comprensión del lenguaje natural calcula una métrica de confianza, asociada con las anotaciones propuestas. La métrica de confianza puede ser utilizada para marcar unos datos en la anotación propuesta en los cuales el sistema menos confía. Ello atrae la atención del usuario hacia los datos en los que el sistema menos confía. En otra forma de realización, con el fin de incrementar la velocidad y precisión con las que el sistema propone anotaciones, el usuario puede limitar los tipos de anotaciones propuestos por el sistema de comprensión del lenguaje natural para un subconjunto predeterminado posible de aquellos. Por ejemplo, el usuario puede seleccionar unas categorías o tipos de interpretaciones lingüísticas para su uso por el sistema. Al delimitar de esta forma las posibles anotaciones propuestas por el sistema, se incrementan la velocidad y la precisión del sistema. En otra forma de realización, el sistema de comprensión del lenguaje natural recibe un conjunto de anotaciones. El sistema, a continuación, examina las anotaciones para determinar si el sistema ha sido ya adiestrado de manera incoherente con las anotaciones. Esto puede ser utilizado para detectar cualquier tipo de incoherencias, incluso estilo de anotación diferentes utilizados por diferentes anotadores (humanos o máquinas). El sistema puede señalizar esto al usuario en un intento por reducir los errores de usuario o las incoherencias de anotación al anotar los datos. En otro ejemplo, el sistema jerarquiza las anotaciones propuestas en base a la métrica de confianza en orden ascendente (o descendente). Ello identifica para el usuario los datos de adiestramiento en los cuales el sistema menos confía y prioritiza los datos para su procesamiento por el usuario. El sistema puede, así mismo, escoger las anotaciones propuestas mediante cualquier tipo prediseñado. Ello permite que el usuario procese (por ejemplo, corrija o verifique) todas las anotaciones propuestas de un tipo determinado, de una vez. Ello hace posible una anotación más rápida y estimula un trabajo de anotación más coherente y más preciso. El sistema actual puede, así mismo, emplear una... [Seguir leyendo]

 


Reivindicaciones:

1.- Un procedimiento para la generación de datos de adiestramiento anotados para adiestrar un sistema de comprensión del lenguaje natural, NLU, que incorpora uno o más modelos, comprendiendo el procedimiento: la generación (390) de una anotación propuesta con el sistema NLU para cada unidad de datos de adiestramiento no anotados; la presentación de las anotaciones propuestas para la verificación o la corrección de usuario para obtener una anotación confirmada por un usuario; el adiestramiento del sistema NLU con la anotación confirmada por un usuario; la presentación de una indicación de un volumen de datos de adiestramiento utilizados para adiestrar una pluralidad de porciones diferentes de los uno o más modelos del sistema de comprensión del lenguaje natural; en el que la presentación de la anotación propuesta para la verificación o corrección del usuario comprende: la recepción de una entrada de usuario indicativa de una porción identificada por un usuario de la anotación propuesta; y la presentación de una pluralidad de anotaciones alternativas propuestas para la porción identificada por el usuario; en el que los uno o más modelos imponen unas restricciones del modelo y en el que la presentación de una o más anotaciones alternativas propuestas comprende la presentación de una anotación alternativa propuesta para la porción identificada por el usuario, solo si la anotación alternativa propuesta puede conducir a una anotación global para la unidad que sea compatible con las restricciones de modelo; en el que la anotación propuesta incluye unos nodos padres e hijos y en el que la presentación de una pluralidad de anotaciones alternativas propuestas incluye la presentación de una entrada de nodo de borrado accionable por el usuario, la cual, cuando es accionada, borra un nodo hijo, y una entrada de nodo de adición accionable por el usuario, la cual, cuando es accionada, añade un nodo hijo, y la presentación de la pluralidad de anotaciones de alternativas propuestas en respuesta al borrado por parte del usuario de un nodo hijo asociado con la porción identificada por el usuario de la anotación propuesta; en el que la presentación de una pluralidad de anotaciones alternativas propuestas comprende la presentación de una porción de la unidad no cubierta por la anotación propuesta; y la presentación de anotaciones alternativas propuestas para la porción no cubierta por la anotación propuesta; en el que el usuario es habilitado para seleccionar un segmento de la porción de la unidad no cubierta por la anotación propuesta y en el que la presentación de las anotaciones alternativas propuestas, comprende la presentación de una o más anotaciones alternativas propuestas para el segmento seleccionado por el usuario; y en el que el usuario es habilitado para seleccionar una de las anotaciones alternativas propuestas entre la pluralidad de anotaciones alternativas propuestas, y la anotación alternativa propuesta seleccionada por el usuario es incorporada en los datos de adiestramiento anotados. 2.- El procedimiento de la reivindicación 1, y que así mismo comprende: la inicialización de uno o más modelos del sistema NLU. 3.- El procedimiento de la reivindicación 1, en el que la presentación de una indicación de un volumen de datos de adiestramiento comprende: la presentación de una representación de los uno o más modelos; y la contrastación visual de porciones de los uno o más modelos que han sido adiestrados con un volumen de umbral de datos de adiestramiento. 4.- El procedimiento de la reivindicación 3, en el que el volumen de umbral de los datos de adiestramiento es dinámico, en base a uno o más criterios de rendimiento para los uno o más modelos. 5.- El procedimiento de la reivindicación 1, en el que la presentación de la anotacion propuesta para su verificación o corrección comprende: la generación de una métrica de confianza para la anotación propuesta; y la contrastación visual de una porción de la anotación propuesta presentada en base a la métrica de confianza. 6.- El procedimiento de la reivindicación 5, en el que la contrastación visual comprende: 13   la contrastación visual de la porción de la anotación presentada que tiene una métrica de confianza que está por debajo de un nivel de umbral. 7.- El procedimiento de la reivindicación 1 y que así mismo comprende: antes de la generación de una anotación propuesta, la recepción de una indicación de usuario limitativa; y la limitación del procesamiento de comprensión del lenguaje natural utilizado para generar la anotación propuesta en base a la indicación de usuario limitativa. 8.- El procedimiento de la reivindicación 7, en el que la limitación del procesamiento de comprensión del lenguaje natural, comprende: la limitación del procesamiento de comprensión del lenguaje natural a la utilización de solo porciones identificadas por el usuario de los uno o más modelos. 9.- El procedimiento de la reivindicación 1 y que comprende así mismo: la identificación de las incoherencias entre la anotación confirmada por el usuario y las anotaciones anteriores. 10.- El procedimiento de la reivindicación 9 y comprende así mismo: si se identifica una incoherencia, la presentación de la anotación confirmada por el usuario que contrasta visualmente con las porciones incoherentes de la anotación confirmada por el usuario. 11.- El procedimiento de la reivindicación 1, en el que la presentación de las anotaciones propuestas comprende: la generación de una métrica de enseñanza para cada anotación propuesta; la presentación de las anotaciones propuestas en un orden en base a la métrica de confianza. 12.- El procedimiento de la reivindicación 1, en el que la presentación de las anotaciones propuestas comprende: la elección de las anotaciones propuestas en base al tipo de anotación. 13.- El procedimiento de la reivindicación 12, en el que la presentación de las anotaciones propuestas comprende: la presentación de tipos similares de anotaciones estrechamente próximas entre sí. 14.- El procedimiento de la reivindicación 12, en el que la presentación de las anotaciones propuestas comprende: la provisión de una entrada accionable por el usuario, la cual, cuando es accionada, permite que el usuario corrija o verifique tipos similares de anotaciones de manera secuencial. 15.- El procedimiento de la reivindicación 1, en el que la generación de anotaciones propuestas por el sistema NLU comprende: la generación de una pluralidad de anotaciones para cada unidad que utiliza una pluralidad de sistemas NLU diferentes. 16.- El procedimiento de la reivindicación 15, en el que la generación de las anotaciones propuestas comprende así mismo: la elección de una de las anotaciones propuestas para cada unidad que va a ser presentada. 17.- Un entorno informático que comprende un procesador, estando el entorno informático configurado para ejecutar una interfaz de usuario adaptada para llevar a cabo el procedimiento de acuerdo con lo definido en una de las reivindicaciones 1 a 16. 14     16   17   18   19     21   22   23   24

 

Patentes similares o relacionadas:

Representación de información de documentos, del 25 de Diciembre de 2019, de Financial & Risk Organisation Limited: Un sistema para extracción automática de datos no estructurados introduce un formato de datos estructurado que comprende: un servidor que incluye […]

MÉTODO DE ANÁLISIS DE SENTIMIENTO EN UN TEXTO BASADO EN MODELO LÉXICON, del 27 de Junio de 2019, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, […]

Procedimiento, sistema y producto de programa informático para proporcionar una descripción de un programa a un equipo de usuario, del 18 de Enero de 2019, de TV Control Ltd: Un procedimiento para proporcionar una descripción de un programa a un equipo de usuario, que comprende: - mantener, para un usuario y/o un equipo […]

METODO Y SISTEMA PARA COMUNICACION ENTRE DISPOSITIVOS A TRAVES DE LENGUAJE NATURAL USANDO APLICACIONES DE MENSAJERIA INSTANTANEA E IDENTIFICADORES PUBLICOS INTEROPERABLES, del 16 de Agosto de 2018, de GONZALO VACA, Antonio: Sistema y un método para comunicación entre dispositivos a través de lenguaje natural usando aplicaciones de mensajería instantánea e identificadores públicos interoperables […]

MODELO LÉXICO PARA EL ANÁLISIS DE SENTIMIENTOS EN UN TEXTO, del 21 de Junio de 2018, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, el modelo […]

Dispositivo contador, programa de conteo, medio de memoria y procedimiento de conteo, del 20 de Septiembre de 2017, de RAKUTEN, INC: Dispositivo contador, que comprende: una parte de entrada para introducir una primera oración y una segunda oración; una parte de […]

Dispositivo de registro de palabras relacionadas, dispositivo de procesamiento de información, método de registro de palabras relacionadas, programa para dispositivo de registro de palabras relacionadas, y medio de almacenamiento, del 30 de Agosto de 2017, de RAKUTEN, INC: Un dispositivo de registro de palabras relacionadas que comprende: un medio de recepción configurado para recibir una consulta de búsqueda […]

Un método para la extracción de patrones de relación a partir de artículos, del 7 de Junio de 2017, de THE EUROPEAN UNION, REPRESENTED BY THE EUROPEAN COMMISSION: Un método para formar relaciones de implicación; comprendiendo proporcionar un dispositivo informático y a) proporcionar a dicho dispositivo informático […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .