SEGMENTACIÓN AUTOMÁTICA DE TEXTOS QUE COMPRENDEN FRAGMENTOS SIN SEPARADORES.
Procedimiento implementado por ordenador de segmentación en fragmentos,
sintagmas de un texto escrito que incluyen elementos individuales, sin separadores, estando dichos fragmentos compuestos por cadenas incluyendo al menos uno de dichos elementos individuales, incluyendo el procedimiento las etapas de: - Proporcionar un léxico que incluye un conjunto de cadenas, estando cada cadena compuesta de por lo menos uno de dichos elementos, en donde las cuerdas en dicho léxico son al menos parcialmente, representativas de dichos fragmentos, comprendiendo dicho léxico un léxico estático como un conjunto predeterminado de cadenas y un léxico dinámico, - Buscar el sintagma que se segmenta sobre una base de elemento por elemento (INDX) mediante la búsqueda dentro de dicho léxico estático de cadenas correspondientes a cualquiera de dichos fragmentos, en el que, en el caso de un resultado positivo de búsqueda (312), el fragmento localizado correspondiente se almacena en una memoria intermedia (C) asociada a un coste correspondiente (CM), - Comprobar si el fragmento localizado ya estaba presente en el léxico dinámico (SLEX) y: a) en el caso de que el fragmento localizado ya estaba presente, reduciendo los costes asociados al mismo; b) en el caso de que el fragmento localizado no existía previamente en el léxico dinámico, controlar (440) si el léxico dinámico está lleno y i) si el léxico dinámico no está lleno, almacenar el fragmento localizado en el léxico dinámico con los costes respectivos (CM, CF) disminuidos en un valor constante (DCI), ii) si el léxico dinámico está lleno, buscar cualquier fragmento almacenado que tenga un coste asociado mayor que un umbral de coste dado y, si se localizara dicho fragmento, sustituir el fragmento nuevo (450) por dicho fragmento; - Almacenar, como resultado de dicha búsqueda, una pluralidad de secuencias de segmentación candidatas, cada una correspondiente a un modelo de segmentación respectivo y teniendo un coste devengado asociado correspondiente, y - Seleccionar como el resultado final de la segmentación la secuencia candidata con el menor coste asociado acumulado
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2003/005627.
Solicitante: LOQUENDO SPA.
Nacionalidad solicitante: Italia.
Dirección: VIA ARRIGO OLIVETTI 6 10100 TORINO ITALIA.
Inventor/es: BADINO,Leonardo.
Fecha de Publicación: .
Fecha Solicitud PCT: 28 de Mayo de 2003.
Clasificación Internacional de Patentes:
G06F17/27R2
Clasificación PCT:
G06F17/27
Clasificación antigua:
G06F17/27
G06F17/28
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre.
[0001] La invención se refiere a la segmentación de los textos en lenguajes que comprende fragmentos escritos sin separadores, como por ejemplo, espacios, guiones o similares. Ejemplo de un lenguaje como tal es el lenguaje chino mandarín, donde los fragmentos son normalmente representados por ideogramas. [0002] Como es bien sabido por los expertos en técnica de la síntesis de voz, mediante "fragmentos" de un elemento de expresión se prevé que con mayor frecuencia corresponde a una palabra. Además del mandarín chino existen otros lenguajes en que, sin embargo, una sola palabra puede de hecho comprender varios fragmentos: un ejemplo típico de esto es el Alemán, donde existen palabras complejas, tales como "Patentübereinkommen" que, a pesar de que comprende dos bloques distintos, a saber "Patent" y " Übereinkommen" se escriben como una sola palabra sin separadores. [0003] El resto de esta descripción sin embargo, se hará (sin que esto tenga que ser interpretado como una limitación del ámbito de aplicación de la invención) con referencia al chino mandarín, ya que este es uno de los lenguajes en que la invención puede ser aplicada de forma más beneficiosa. Descripción de la técnica relacionada [0004] La forma escrita del lenguaje representa una dificultad básica para los profanos que deseen aprender el lenguaje chino. De hecho, el conjunto de las "letras" para el chino incluye alrededor de 45 mil ideogramas ("hanzhi" en chino). Una buena parte de estos ideogramas son palabras (palabras compuestas de una sola letra) en relación con los objetos que ya no existen y que, por lo tanto, se han vuelto prácticamente inútiles. Una estimación actual es que con el fin de estar en condiciones de leer un periódico chino puede ser suficiente el conocimiento de cerca de 4.000 ideogramas. [0005] Ya se trate de 4.000 o 40.000 ideogramas, el orden de magnitud es, en cualquier caso, mucho mayor que el conjunto de caracteres de los lenguajes indoeuropeos. [0006] A partir de esto, surge una dificultad básica en el desarrollo de sistemas para la síntesis de texto a voz del chino. De hecho, para los lenguajes indoeuropeos la codificación de un solo carácter por medio de un dígito binario incluyendo ocho bits (es decir, un byte) de acuerdo con la norma ISO por lo general bastará. Por el contrario, para los chinos son necesarios por lo menos dos bytes para la codificación de cada ideograma individual. [0007] La norma ISO no prevé este tipo de codificación, pero existen otras técnicas de codificación que lo pueden resolver, por ejemplo, como se demuestra por las técnicas de codificación conocidas como Unicode, GB y BIG5. [0008] Recurrir al "pinyin" de alguna manera puede paliar el problema de la codificación. El pinyin es una forma de transcripción fonética/transliteración basada en caracteres latinos que muestran cómo se pronuncian las palabras en chino. La transcripción pinyin se proporciona en los libros de enseñanza de los fundamentos del lenguaje chino y en los diccionarios chinos y, como tal, es conocida para una buena cantidad de hablantes de chino. [0009] Otra de las características básicas del lenguaje chino mandarín es que los ideogramas (es decir, los fragmentos de que se compone el lenguaje) se escriben sin separadores. En consecuencia, la identificación de cada palabra dentro de una frase no es nada fácil ya que cada palabra puede constar en realidad de uno o más hanzhis. [0010] Uno puede ser llevado a creer erróneamente que este problema podría evitarse fácilmente con sólo la trascripción de un carácter (es decir, un ideograma) a la vez, sin preocuparse de donde termina una palabra determinada, y comienza una nueva. [0011] En realidad, a fin de lograr una calidad aceptable en la síntesis de voz, es necesario que (incluso si los ideogramas se transcriben en forma pinyin) el texto debe ser descompuesto en palabras individuales. [0012] Esta necesidad está determinada por una serie de factores, - cada ideograma individual puede tener diferentes formas de pronunciación en función de las palabras a las que pertenece; - ciertas reglas fonológicas y fonéticas dependen de la separación correcta de las palabras: por ejemplo, una regla fonológica llamada de tonos sandhi establece que en presencia de dos sílabas cada una transmite un tercer tono, la primera va a cambiar su tono, si las dos sílabas pertenecen a la misma palabra; y 2 - la información relativa a cada palabra es necesaria para permitir un correcto análisis gramatical y sintáctico-prosódico. [0013] En resumen, un arreglo eficaz para segmentar el texto en partes es un requisito básico para una síntesis de voz verdaderamente satisfactoria de texto a voz del lenguaje chino mandarín. [0014] La solución conocida para segmentar en fragmentos el texto en chino mandarín puede ser esencialmente dividida en tres categorías, a saber: - algoritmos puramente estadísticos, como los llevados a cabo a través del llamado árbol de clasificación y regresión (CART), - algoritmos basados en reglas léxicas, y - algoritmos que combinan las dos soluciones anteriores. [0015] Una primera aproximación (a veces conocida como la segmentación coincidente máxima o MMS), prevé que una frase se segmente en palabras sobre la base de un léxico dado mediante el intento de resolver lo mejor posible cualquier ambigüedad en relación con una frase dada estando adaptada a ser descompuesta en varias formas, extrayendo así palabras diferentes. [0016] Para resolver esa ambigüedad, se utilizan con frecuencia las soluciones heurísticas como el criterio de máxima coincidencia posible perfeccionado además por otros criterios. La correspondencia máxima se basa en el reconocimiento del hecho de que, como regla general, la probabilidad de que una determinada secuencia de ideogramas pertenezca a una sola palabra en el léxico es más alta que la probabilidad de que dicha secuencia corresponda a una pluralidad de palabras más cortas concatenadas en el texto. [0017] En las versiones más fáciles, el algoritmo busca, a partir del comienzo de la frase, y recurriendo a su propio léxico, la palabra compuesta por el mayor número de ideogramas. Después de localizar dicha palabra, el algoritmo analiza el ideograma inmediatamente próximo a la palabra acabada de encontrar y comienza la búsqueda de nuevo. [0018] Los enfoques mixtos proporcionan un coste fijo que se asocia a cada palabra. Este coste se asigna siguiendo una métrica que puede estar relacionada con la frecuencia de aparición de la palabra en un lenguaje determinado o la probabilidad de que la categoría gramatical a la que la palabra pertenece pueda aparecer en el contexto sintáctico de la frase. [0019] Entre los diferentes tipos de segmentaciones definido para una frase dada, la que tiene un coste mínimo es la seleccionada. [0020] Los ejemplos de tales enfoques de la técnica anterior son, por ejemplo el artículo de R. Sproat et al. "A Stochastic Finite-State Word-Segmentation Algorithm for Chinese", Computacional Linguístics, Volumen 22, Número 3, 1997 páginas 378-402 y US-A-6 173 252. [0021] En concreto, el acuerdo descrito en el artículo de Sproat et al. prevé una función de costes que se aplica que es inversamente proporcional a la frecuencia de aparición de una determinada palabra en el vocabulario correspondiente. [0022] Por el contrario, la disposición de US-A-6173252 es esencialmente del tipo basado en sintaxis, es decir, de la clase, donde las funciones de coste/peso son las relacionadas por ejemplo con las cadenas de error habitualmente cometidos, nombres de personas, lugares y organizaciones, números, y combinaciones de los números y las palabras como unidades de medida comunes a lo largo de la segmentación de palabras en un diccionario tradicional. [0023] El artículo de Jiansheng Yu Yu y Shiewn "Some problems of Chinese segmentation", Institute of Computational Linguistics, Universidad de Pekín, Beijing, República Popular de China, 22 de marzo de 2003, analiza los principales problemas de la segmentación del chino, resumiendo los algoritmos existentes con las comparaciones teóricas, introduciendo de un léxico dinámica y discutiendo cómo el tamaño del léxico influye en la calidad de un proceso de segmentación. [0024] El documento US-A-5.806.021 describe un segmentador automático que aplica dos procedimientos estadísticos para la segmentación de un texto continuo, un primer procedimiento de coincidencia adelante-atrás, adecuado para aplicaciones donde la velocidad es una preocupación, y un segundo procedimiento de búsqueda estadística de la pila, que es más preciso y requiere más tiempo de ejecución. 3 [0025] En el artículo de Jian-Yun Nie et al. "Unknown word detection and segmentation of Chinese using statistical and heuristic knowledge", Communications of colips, Chinese and Oriental Languages Information Processing Society, SG,... [Seguir leyendo]
Reivindicaciones:
1. Procedimiento implementado por ordenador de segmentación en fragmentos, sintagmas de un texto escrito que incluyen elementos individuales, sin separadores, estando dichos fragmentos compuestos por cadenas incluyendo al menos uno de dichos elementos individuales, incluyendo el procedimiento las etapas de: - Proporcionar un léxico que incluye un conjunto de cadenas, estando cada cadena compuesta de por lo menos uno de dichos elementos, en donde las cuerdas en dicho léxico son al menos parcialmente, representativas de dichos fragmentos, comprendiendo dicho léxico un léxico estático como un conjunto predeterminado de cadenas y un léxico dinámico, - Buscar el sintagma que se segmenta sobre una base de elemento por elemento (INDX) mediante la búsqueda dentro de dicho léxico estático de cadenas correspondientes a cualquiera de dichos fragmentos, en el que, en el caso de un resultado positivo de búsqueda (312), el fragmento localizado correspondiente se almacena en una memoria intermedia (C) asociada a un coste correspondiente (CM), - Comprobar si el fragmento localizado ya estaba presente en el léxico dinámico (SLEX) y: a) en el caso de que el fragmento localizado ya estaba presente, reduciendo los costes asociados al mismo; b) en el caso de que el fragmento localizado no existía previamente en el léxico dinámico, controlar (440) si el léxico dinámico está lleno y i) si el léxico dinámico no está lleno, almacenar el fragmento localizado en el léxico dinámico con los costes respectivos (CM, CF) disminuidos en un valor constante (DCI), ii) si el léxico dinámico está lleno, buscar cualquier fragmento almacenado que tenga un coste asociado mayor que un umbral de coste dado y, si se localizara dicho fragmento, sustituir el fragmento nuevo (450) por dicho fragmento; - Almacenar, como resultado de dicha búsqueda, una pluralidad de secuencias de segmentación candidatas, cada una correspondiente a un modelo de segmentación respectivo y teniendo un coste devengado asociado correspondiente, y - Seleccionar como el resultado final de la segmentación la secuencia candidata con el menor coste asociado acumulado. 2. Procedimiento según la reivindicación 1, caracterizado por el hecho de que, en presencia de dos secuencias candidatas que tengan el mismo coste asociado, se incluye la etapa de selección, como resultado de la segmentación de la secuencia candidata seleccionada del grupo que consiste en: - La secuencia que tiene el primer fragmento más largo, y - La secuencia que tiene la variación de longitud inferior. 3. Procedimiento según la reivindicación 1, caracterizado por el hecho de que al menos un sintagma en el texto de dicho ha sido previamente segmentado, caracterizado porque incluye las etapas de la determinación de al menos uno de: - el número (NOL) de fragmentos situados en el sintagma instantáneo en que ya estaban presentes en dicho al menos un sintagma previamente segmentado, y - la cantidad (NW) de fragmentos ya encontrados en el proceso de segmentación. 4. Procedimiento según la reivindicación 3, caracterizado por el hecho de que dicha secuencia que tiene el mínimo coste asociado es seleccionada sobre la base de una función de costes incluyendo al menos uno de dicho número de fragmentos (NOL), y dicha cantidad (NW). 5. Procedimiento según la reivindicación 3, caracterizado por el hecho de que dicha secuencia con el mínimo coste asociado es seleccionada sobre la base de una función de costes incluyendo la relación de dicho número de fragmentos (NOL), y dicha cantidad (NW). 6. Procedimiento según la reivindicación 1, caracterizado por el hecho de que incluye la etapa de aumento de dicho coste asociado (CM) por un valor constante en cada nueva etapa (INDX) en dicha búsqueda sobre una base de elemento por elemento. 7. Procedimiento según la reivindicación 6, caracterizado por el hecho de que incluye la etapa de prescindir de los fragmentos que tienen un coste mayor que un umbral dado (CM), cuando dicho coste asociado (CM) es mayor. 8. Procedimiento según la reivindicación 1, caracterizado por el hecho de que incluye, en el caso de un resultado positivo 11 de búsqueda (312), la etapa de reducir la cadena de búsqueda mediante la eliminación de uno de los elementos de sus extremos, repitiéndose entonces la búsqueda sobre la base de dicha cadena reducida. 9. Procedimiento según la reivindicación 8, caracterizado por el hecho de que incluye la etapa de reducción de dicha cadena, eliminando el elemento más a la derecha de la misma. 10. Procedimiento según la reivindicación 1, caracterizado por el hecho de que incluye las etapas de: - definir al menos una parte de dicho conjunto de cadenas en dicho léxico (LEX) como representativas de fragmentos especiales que corresponden a reglas definidas, - buscar el sintagma que está siendo segmentado sobre una base de elemento por elemento (INDX) mediante la búsqueda dentro de dicho léxico, al menos una de: - (A) la cadena más larga correspondiente de cualquiera de dichos fragmentos especiales, en donde, en el caso de un resultado positivo de búsqueda (312), el fragmento correspondiente localizado se almacena en dicha memoria intermedia (C) con una primera capa asociada (CF), - (B) la cadena más larga que corresponde a cualquiera de las otras cadenas en dicho léxico, en que, en el caso de un resultado positivo de búsqueda (324) el fragmento correspondiente localizado se almacena en dicha memoria intermedia (C) con un segundo coste asociado (CM), siendo dicho segundo coste (CM) mayor que dicho coste inicial (CF), en el que si ninguna de dichas dos búsquedas (A) y (B) conducen a un resultado positivo, el elemento individual que se utilice como elemento de partida de la búsqueda se almacena en dicha memoria intermedia (C) con una tercera capa asociada (CS), siendo dicho tercer coste (CS) mayor que dicho segundo coste (CM). 11. Procedimiento según la reivindicación 10, caracterizado por el hecho de que incluye la etapa de aumento de dicho primer (CP), segundo (CM) y tercer (CS) coste mediante un valor constante en cada nueva etapa (INDX) en dicha al menos una búsqueda (A, B) sobre una base de elemento por elemento. 12. Procedimiento según la reivindicación 11, caracterizado por el hecho de que incluye la etapa de prescindir de los fragmentos que tienen un coste más alto que un umbral dado (CM), cuando dichos costes (CF, CM, CS) se incrementan. 13. Procedimiento según la reivindicación 12 caracterizado por el hecho de que dicho umbral determinado se selecciona igual a dicho segundo coste (CM). 14. Procedimiento según la reivindicación 10, en el que al menos un sintagma en dicho texto ha sido segmentado, caracterizado por el hecho de que incluye las etapas de: - determinar el número (NOL) de fragmentos situado en el sintagma instantáeo en que ya estaban presentes en dicho al menos un sintagma previamente segmentado y el recuento (NW) de los fragmentos ya se encuentra en el proceso de segmentación, - seleccionar dicha secuencia con el mínimo coste asociado es seleccionada sobre la base de una función de costes definida de la siguiente manera: - i) si el fragmento localizado no se había incluido previamente en dicho léxico - ii) en caso contrario en el que el cfs es igual a dicho segundo coste (CM) o dicho coste inicial (CF), dependiendo de si la palabra considerada se localizó por medio de dicha segunda búsqueda (B) o de dicha primero búsqueda (A), K es un valor constante, CSLEX es el coste asociado al fragmento Wi,j en dicho léxico, y NOL y NO son dicho número y dicha cantidad, respectivamente. 15. Procedimiento según la reivindicación 1, caracterizado por el hecho de que incluye la etapa de codificación de dichos elementos individuales a cadenas de bits utilizando al menos uno del estándar ISO, o técnicas de codificación Unicode, GB o BIG5. 12 16. Procedimiento según la reivindicación 1, caracterizado por el hecho de que dichos elementos individuales se corresponden con los ideogramas. 17. Procedimiento según la reivindicación 16, caracterizado por el hecho de que dichos ideogramas son ideogramas del lenguaje chino mandarín. 18. Procedimiento según la reivindicación 17, caracterizado por el hecho de que incluye la etapa de transcribir dichos ideogramas en la transliteración fonética pinyin, antes que dichos sintagmas sean segmentados. 19. Procedimiento según la reivindicación 10, caracterizado por el hecho de que dichos fragmentos especiales son seleccionados del grupo formado por las fechas, horas y números. 20. Segmentador (10) para segmentar en fragmentos sintagmas de un texto escrito como elementos individuales, sin separadores, estando dichos fragmentos compuestos de cadenas incluyendo al menos uno de dichos elementos individuales, incluyendo el segmentador una estructura de procesamiento de datos (10, A, B, C, RET) configurada para llevar a cabo el procedimiento de cualquiera de las reivindicaciones 1 a 19. 21. Sistema de síntesis texto a voz (20), que incluye: - Una fuente de texto (30) para generar al menos un sintagma de texto a ser segmentado en partes, incluyendo dicho sintagma elementos individuales por escrito sin separadores, estando dichos fragmentos compuestos de cadenas incluyendo al menos uno de dichos elementos individuales, - Un segmentador (10) para recibir dicho al menos un sintagma de texto, incluyendo el segmentador una estructura de procesamiento de datos (10, A, B, C, RET) configurada para llevar a cabo el procedimiento de cualquiera de las reivindicaciones 1 a 19, generando así el resultado final de la segmentación teniendo dicha secuencia candidata el menor coste asociado, y - Un generador de señal de voz (40, 50) para la conversión de dicha secuencia resultante de la segmentación en una señal de audio de voz correspondiente. 22. Producto de programa informático, que se puede cargar en la memoria de un ordenador e incluye porciones de código de software para llevar a cabo los pasos del procedimiento de cualquiera de las reivindicaciones 1 a 19. 13 14 16 17
Patentes similares o relacionadas:
Representación de información de documentos, del 25 de Diciembre de 2019, de Financial & Risk Organisation Limited: Un sistema para extracción automática de datos no estructurados introduce un formato de datos estructurado que comprende:
un servidor que incluye […]
MÉTODO DE ANÁLISIS DE SENTIMIENTO EN UN TEXTO BASADO EN MODELO LÉXICON, del 27 de Junio de 2019, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, […]
Procedimiento, sistema y producto de programa informático para proporcionar una descripción de un programa a un equipo de usuario, del 18 de Enero de 2019, de TV Control Ltd: Un procedimiento para proporcionar una descripción de un programa a un equipo de usuario, que comprende:
- mantener, para un usuario y/o un equipo […]
METODO Y SISTEMA PARA COMUNICACION ENTRE DISPOSITIVOS A TRAVES DE LENGUAJE NATURAL USANDO APLICACIONES DE MENSAJERIA INSTANTANEA E IDENTIFICADORES PUBLICOS INTEROPERABLES, del 16 de Agosto de 2018, de GONZALO VACA, Antonio: Sistema y un método para comunicación entre dispositivos a través de lenguaje natural usando aplicaciones de mensajería instantánea e identificadores públicos interoperables […]
MODELO LÉXICO PARA EL ANÁLISIS DE SENTIMIENTOS EN UN TEXTO, del 21 de Junio de 2018, de ZARAGOZA SICRE, Sergio Jesús: El general de un lexicón que se presenta para el análisis de sentimientos que permite integrar técnicas de aprendizaje automático al análisis basado en lexicones, el modelo […]
Dispositivo contador, programa de conteo, medio de memoria y procedimiento de conteo, del 20 de Septiembre de 2017, de RAKUTEN, INC: Dispositivo contador, que comprende:
una parte de entrada para introducir una primera oración y una segunda oración;
una parte de […]
Dispositivo de registro de palabras relacionadas, dispositivo de procesamiento de información, método de registro de palabras relacionadas, programa para dispositivo de registro de palabras relacionadas, y medio de almacenamiento, del 30 de Agosto de 2017, de RAKUTEN, INC: Un dispositivo de registro de palabras relacionadas que comprende:
un medio de recepción configurado para recibir una consulta de búsqueda […]
Un método para la extracción de patrones de relación a partir de artículos, del 7 de Junio de 2017, de THE EUROPEAN UNION, REPRESENTED BY THE EUROPEAN COMMISSION: Un método para formar relaciones de implicación; comprendiendo proporcionar un dispositivo informático y
a) proporcionar a dicho dispositivo informático […]
Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .