Métodos y sistemas para seleccionar un idioma para segmentación de texto.

Un método implementado en ordenador (200), que comprende:

recibir (204) una cadena de cadena de caracteres que no tiene interrupciones de delimitación deidentificadores;



identificar (206) al menos un primer idioma candidato y un segundo idioma candidato para la cadena decaracteres;

determinar (208) al menos un primer resultado segmentado que comprende una primera pluralidad deidentificadores asociados con el primer idioma candidato que incluye la cadena de caracteres y un segundoresultado segmentado que comprende una segunda pluralidad de identificadores asociados con el segundoidioma candidato que incluye la cadena de caracteres;

determinar (210, 212) una primera frecuencia de suceso del primer resultado segmentado en al menos uno deíndices o registros del motor de búsqueda de las solicitudes de búsqueda recibidas por un motor de búsqueda(156) y una segunda frecuencia de suceso del segundo resultado segmentado en al menos uno de un índice oregistros de motor de búsqueda de solicitudes de búsqueda recibidas por un motor de búsqueda (156); eidentificar (214) un idioma operable del primer idioma candidato y el segundo idioma candidato en base almenos en parte a la primera frecuencia de suceso y la segunda frecuencia de suceso.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2005/035010.

Solicitante: GOOGLE INC..

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 1600 AMPHITHEATRE PARKWAY MOUNTAIN VIEW, CA 94043 ESTADOS UNIDOS DE AMERICA.

Inventor/es: ELBAZ,GILAD ISRAEL, MANDELSON,JACOB LEON.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06F17/27

PDF original: ES-2395168_T3.pdf

 


Fragmento de la descripción:

Métodos y sistemas para seleccionar un idioma para segmentación de texto

CAMPO DE LA INVENCIÓN

La presente invención generalmente se refiere a segmentación de texto y, más particularmente, a seleccionar un idioma para segmentación de texto.

ANTECEDENTES DE LA INVENCIÓN

Existen métodos y sistemas de procesamiento de textos que intentan interpretar datos que representan texto. El procesamiento de textos se vuelve más difícil cuando se recibe texto que comprende una cadena de caracteres que no tiene interrupciones indicando palabras u otros identificadores. Cuando se procesan dichas cadenas de caracteres utilizando métodos y sistemas existentes, los caracteres pueden ser segmentados en identificadores a fin de interpretar la cadena. Identificadores pueden ser palabras, acrónimos, abreviaturas, nombres propios, nombres geográficos, símbolos de denominación abreviada del mercado de valores, u otros identificadores. Generalmente, una cadena de caracteres puede estar segmentada en múltiples combinaciones de cadenas segmentadas de caracteres usando métodos y sistemas existentes. Seleccionar el idioma correcto a usar cuando se segmenta el texto puede producir resultados más significativos.

US 6272456 revela un método de identificación de un idioma de una entrada de texto en la cual se utilizan múltiples conjuntos de perfiles de idioma n-grama. La clasificación de cada idioma está en base a parámetros de frecuencia de secuencias apareadas de letras de referencia n-gram a la entrada de texto.

RESUMEN

La presente invención puede definirse por las reivindicaciones 1 y 14.

Realizaciones de ejemplo son tratadas en la Descripción Detallada, y se proporciona allí una descripción adicional de la invención. Ventajas ofrecidas por las diversas realizaciones de la presente invención pueden además entenderse al examinar esta especificación.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Estas y otras características, aspectos, y ventajas de la presente invención se comprenden mejor cuando se lee la siguiente Descripción Detallada con referencia a los dibujos acompañantes, donde:

La Figura 1 ilustra un diagrama de un sistema adecuado para implementar un método de identificación de un idioma para segmentación de textos; y

La Figura 2 ilustra un diagrama de flujo de un método de identificación de un idioma para segmentación de textos.

DESCRIPCIÓN DETALLADA

Introducción

Las realizaciones de la presente invención comprenden métodos de selección de un idioma para segmentación de textos. Existen múltiples realizaciones de la presente invención. A modo de introducción y ejemplo, las realizaciones de la presente invención proporcionan un método de mejora de la segmentación de una cadena de caracteres, tales como un nombre de dominio, en múltiples identificadores o palabras seleccionando el idioma correcto para la cadena de caracteres. Puede seleccionarse una serie de idiomas potenciales o candidatos para la cadena de caracteres en base a una variedad de señales, tales como linguística asociada con la cadena de caracteres, una dirección IP asociada con el usuario, un conjunto de caracteres utilizado para la cadena de caracteres, configuración del navegador de un programa de aplicación del navegador asociado con el usuario, y cualquier dominio de primer nivel asociado con la cadena de caracteres. La cadena de caracteres puede segmentarse en muchos resultados segmentados usando cada idioma candidato. Cada resultado segmentado puede ser una combinación particular de palabras u otros identificadores. Por ejemplo, la cadena de caracteres “usedrugs” puede segmentarse en los siguientes resultados segmentados para el idioma Inglés: "used rugs", "use drugs", "us ed rugs", etc. A partir de esta serie de resultados segmentados para cada idioma candidato, puede identificarse un resultado segmentado operable y un idioma operable en base al número de documentos o solicitudes de búsqueda en el idioma operable que contienen el resultado operable segmentado.

Por ejemplo, pueden seleccionarse para cada idioma candidato resultados segmentados con la mayor probabilidad de ser el mejor resultado segmentado operable. Un motor de búsqueda puede determinar el número de documentos o solicitudes de búsqueda que contienen un resultado segmentado seleccionado y pueden hacer esto para cada resultado segmentado seleccionado en cada idioma candidato. En una realización, el resultado segmentado que sucede con mayor frecuencia en documentos o solicitudes de búsqueda en el particular idioma puede identificarse como el mejor resultado segmentado operable. El idioma asociado con el mejor resultado segmentado operable puede

identificarse como el mejor resultado segmentado operable. Las señales de idioma usadas para determinar los idiomas candidatos pueden también usarse para seleccionar el idioma operable. El resultado segmentado operable y el idioma operable pueden usarse para una variedad de funciones, incluyendo seleccionar anuncios en base a el idioma y el resultado.

Esta introducción se da para presentar al lector el objeto general de la solicitud. La invención no está limitada de forma alguna a dicho objeto. Realizaciones de ejemplo se describen más adelante.

Arquitectura del Sistema.

Pueden construirse diversos sistemas con la presente invención. La Figura 1 es un diagrama que ilustra un sistema de ejemplo en el que las realizaciones de ejemplo de la presente invención pueden operar. La presente invención puede operar, y ser realizada en, otros sistemas también.

Haciendo referencia ahora a los dibujos en los que número similares indican elementos similares en las diversas figuras, la Figura 1 es un diagrama que ilustra un entorno de ejemplo para la implementación de una realización de la presente invención. El sistema 100 mostrado en la Figura 1 comprende múltiples dispositivos cliente 102a-n en comunicación con un dispositivo servidor 104 y un dispositivo servidor 150 en una red 106. En un ejemplo la red 106 mostrada comprende la Internet. En otros ejemplos, pueden utilizarse otras redes, tal como una intranet, WAN, o LAN. Es más, los métodos según la presente invención pueden operar en un único ordenador.

Cada uno de los dispositivos cliente 102a-n mostrados en la Figura 1 comprende un medio legible por ordenador, como una memoria de acceso aleatorio (RAM) 108 acoplada a un procesador 110. El procesador 110 ejecuta instrucciones de un programa informático ejecutable almacenadas en la memoria 108. Dichos procesadores pueden comprender un microprocesador, un ASIC, y máquinas de estado. Dichos procesadores comprenden, o pueden estar en comunicación con, medios, por ejemplo medios legibles por ordenador, que almacenan instrucciones que, cuando se ejecutan por el procesador, hacen que el procesador realice los pasos aquí descritos. Realizaciones de medios legibles por ordenador incluyen, pero no están limitados a, un dispositivo electrónico, óptico, magnético, o otro de almacenamiento o transmisión capaz de proporcionar a un procesador tal como el procesador 110 del cliente 102a, instrucciones legibles por ordenador. Otros ejemplos de medios adecuados incluyen, pero no están limitados a, un disquette, CD-ROM, DVD, disco magnético, chip de memoria, ROM, RAM, un ASIC, un procesador configurado, todos los medios ópticos, todas las cintas magnéticas u otros medios magnéticos, o cualquier otro medio adecuado del que un procesador informático pueda leer instrucciones. También, otras diversas formas de medios legibles por ordenador pueden transmitir o llevar instrucciones a un ordenador, incluyendo un router, una red privada o pública, u otro dispositivo o canal de transmisión, tanto por cable como inalámbrico. Las instrucciones pueden comprender códigos de cualquier idioma de programación informática adecuado, incluyendo, por ejemplo, , C, C++, C#, Visual Basic®, Java®, Python™, Perl®, y JavaScript ®.

Los dispositivos cliente 102a-n pueden también comprender una serie de dispositivos externos o internos tales como un ratón, un CD-ROM, DVD, un teclado, una pantalla, u otros dispositivos de entrada o salida. Ejemplos de dispositivos cliente 102a-n son ordenadores peronales, asistentes digitales, agendas electrónicas, teléfonos celulares, teléfonos móviles, teléfonos inteligentes, buscas, tabletas digitales, ordenadores portátiles, ordenadores de red, y otros dispositivos en base a procesadores. En general, un dispositivo cliente 102a puede ser un tipo adecuado de plataforma en base a un procesador que está conectada a una red 106 y que interactúa con uno o más programas de aplicación. Los dispositivos cliente 102a-n pueden operar en cualquier sistema operativo... [Seguir leyendo]

 


Reivindicaciones:

1. Un método implementado en ordenador (200) , que comprende:

recibir (204) una cadena de cadena de caracteres que no tiene interrupciones de delimitación de identificadores;

identificar (206) al menos un primer idioma candidato y un segundo idioma candidato para la cadena de caracteres;

determinar (208) al menos un primer resultado segmentado que comprende una primera pluralidad de identificadores asociados con el primer idioma candidato que incluye la cadena de caracteres y un segundo resultado segmentado que comprende una segunda pluralidad de identificadores asociados con el segundo idioma candidato que incluye la cadena de caracteres;

determinar (210, 212) una primera frecuencia de suceso del primer resultado segmentado en al menos uno de índices o registros del motor de búsqueda de las solicitudes de búsqueda recibidas por un motor de búsqueda (156) y una segunda frecuencia de suceso del segundo resultado segmentado en al menos uno de un índice o registros de motor de búsqueda de solicitudes de búsqueda recibidas por un motor de búsqueda (156) ; e

identificar (214) un idioma operable del primer idioma candidato y el segundo idioma candidato en base al menos en parte a la primera frecuencia de suceso y la segunda frecuencia de suceso.

2. El método implementado en ordenador (200) de la reivindicación 1, donde identificar (206) el primer idioma candidato comprende Identificar el primer idioma candidato en base al menos a una señal de idioma seleccionada del grupo compuesto de una dirección IP de un usuario asociado con la cadena de caracteres, un conjunto de caracteres asociado con la cadena de caracteres, una configuración de navegador de un programa de aplicación del navegador asociado con un usuario asociado con la cadena de caracteres, y un dominio de primer nivel asociado con la cadena de caracteres.

3. El método implementado en ordenador (200) de la reivindicación 2, donde identificar (206) el idioma operable se basa al menos en parte en al menos una señal de idioma.

4. El método implementado en ordenador (200) de la reivindicación 1, donde determinar (212) la primera frecuencia de suceso del primer resultado segmentado en el índice del motor de búsqueda comprende normalizar la primera frecuencia en base a una serie de entradas de índice del motor de búsqueda correspondientes al primer idioma candidato y determinar la primera frecuencia de suceso del primer resultado segmentado en registros de solicitudes de búsqueda recibidas por el motor de búsqueda comprende normalizar la primera frecuencia en base a una serie de solicitudes de búsqueda en los registros correspondientes al primer idioma candidato.

5. El método implementado en ordenador (200) de la reivindicación 1, que además comprende suministrar un anuncio seleccionada en base al idioma operable.

6. El método implementado en ordenador (200) de la reivindicación 1, donde determinar (212) el primer resultado segmentado comprende:

determinar una pluralidad de resultados segmentados en el primer idioma candidato a partir de la cadena de caracteres, donde cada resultado segmentado contiene una pluralidad diferente de identificadores que cada uno de los otros resultados segmentados; e identificar el primer resultado segmentado a partir de la pluralidad de resultados segmentados en base a un valor de probabilidad asociado con cada una de la pluralidad de resultados segmentados.

7. El método implementado en ordenador (200) de la reivindicación 6, donde un primer valor de probabilidad asociado con el primer resultado segmentado está basado al menos en parte en una frecuencia de cada identificador en cada primer resultado segmentado.

8. El método implementado en ordenador (200) de la reivindicación 1, que además comprende suministrar un anuncio seleccionado en base al idioma operable.

9. El método implementado en ordenador (200) de la reivindicación 1, donde determinar (212) la primera frecuencia de suceso comprende emplear el motor de búsqueda (156) para identificar una serie de artículos en el primer idioma candidato que responden a una primera solicitud que contiene el primer resultado segmentado y determinar la segunda frecuencia de suceso que comprende el empleo del motor de búsqueda (156) para identificar una serie de artículos en el segundo idioma candidato que responden a una segunda solicitud que contiene el segundo resultado segmentado.

10. El método implementado en ordenador (200) de la reivindicación 9, donde determinar (212) la primera frecuencia comprende normalizar la primera frecuencia en base a un número de artículos totales en el primer idioma candidato que están indizados por el motor de búsqueda.

11. El método implementado en ordenador (200) de la reivindicación 9, donde emplear el motor de búsqueda (156) para identificar el número de artículos en el primer idioma candidato comprende ejecutar en el motor de búsqueda una solicitud de búsqueda que contiene el primer resultado segmentado y determinar una serie de identificadores de artículo

en un conjunto de resultados generado por el motor de búsqueda como resultado de la ejecución de la solicitud de búsqueda.

12. El método implementado en ordenador (200) de la reivindicación 9, donde emplear el motor de búsqueda (156) para identificar el número de artículos en el primer idioma candidato comprende determinar una serie de entradas en un índice (160) asociado con el motor de búsqueda (156) que corresponde a uno o más de la primera pluralidad de identificadores.

13. El método implementado en un ordenador (200) de la reivindicación 1, que comprende:

seleccionar un anuncio en base al menos en parte al idioma operable, donde el anuncio incluye texto en el idioma operable; y

causar una visualización del anuncio en asociación con una página web asociada con un nombre de dominio.

14. Un medio legible por ordenador que contiene código de programa adaptado, cuando dicho programa se carga en un ordenador, para hacer que el ordenador ejecute el procedimiento (200) de cualquiera de las reivindicaciones 1 a 13.


 

Patentes similares o relacionadas:

Representación de información de documentos, del 25 de Diciembre de 2019, de Financial & Risk Organisation Limited: Un sistema para extracción automática de datos no estructurados introduce un formato de datos estructurado que comprende: un servidor que incluye […]

MÉTODO DE ANÁLISIS DE SENTIMIENTO EN UN TEXTO BASADO EN MODELO LÉXICON, del 27 de Junio de 2019, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, […]

Procedimiento, sistema y producto de programa informático para proporcionar una descripción de un programa a un equipo de usuario, del 18 de Enero de 2019, de TV Control Ltd: Un procedimiento para proporcionar una descripción de un programa a un equipo de usuario, que comprende: - mantener, para un usuario y/o un equipo […]

METODO Y SISTEMA PARA COMUNICACION ENTRE DISPOSITIVOS A TRAVES DE LENGUAJE NATURAL USANDO APLICACIONES DE MENSAJERIA INSTANTANEA E IDENTIFICADORES PUBLICOS INTEROPERABLES, del 16 de Agosto de 2018, de GONZALO VACA, Antonio: Sistema y un método para comunicación entre dispositivos a través de lenguaje natural usando aplicaciones de mensajería instantánea e identificadores públicos interoperables […]

MODELO LÉXICO PARA EL ANÁLISIS DE SENTIMIENTOS EN UN TEXTO, del 21 de Junio de 2018, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, el modelo […]

Dispositivo contador, programa de conteo, medio de memoria y procedimiento de conteo, del 20 de Septiembre de 2017, de RAKUTEN, INC: Dispositivo contador, que comprende: una parte de entrada para introducir una primera oración y una segunda oración; una parte de […]

Dispositivo de registro de palabras relacionadas, dispositivo de procesamiento de información, método de registro de palabras relacionadas, programa para dispositivo de registro de palabras relacionadas, y medio de almacenamiento, del 30 de Agosto de 2017, de RAKUTEN, INC: Un dispositivo de registro de palabras relacionadas que comprende: un medio de recepción configurado para recibir una consulta de búsqueda […]

Un método para la extracción de patrones de relación a partir de artículos, del 7 de Junio de 2017, de THE EUROPEAN UNION, REPRESENTED BY THE EUROPEAN COMMISSION: Un método para formar relaciones de implicación; comprendiendo proporcionar un dispositivo informático y a) proporcionar a dicho dispositivo informático […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .