Un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla,
comprendiendo el procedimiento:
generar (302) un Modelo de Lenguaje de n - gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres;
construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico;
que se caracteriza por extraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter;
crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y
compilar (310) el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E05109732.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: ONE MICROSOFT WAY REDMOND, WASHINGTON 98052-6399 ESTADOS UNIDOS DE AMERICA.
Inventor/es: WU,QIANG, Chelba,Ciprian I, Mowatt,David, Chambers,Robert L.
Fecha de Publicación: .
Fecha Solicitud PCT: 19 de Octubre de 2005.
Clasificación PCT:
G10L15/18FISICA. › G10INSTRUMENTOS MUSICALES; ACUSTICA. › G10LANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › utilizando una modelización del lenguaje natural.
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.
La presente invención se refiere en general a las aplicaciones de software de reconocimiento de voz y más en particular, a un procedimiento para manipular los caracteres de una frase por medio de una aplicación de reconocimiento de voz. Antecedentes de la invención El lenguaje es quizá la forma más antigua de comunicación humana y muchos científicos creen ahora que la capacidad de comunicarse a través del lenguaje existe inherentemente en la biología del cerebro humano. Por lo tanto, ha sido un objetivo largamente buscado permitir a los usuarios comunicarse con los ordenadores utilizando una Interfaz de Usuario Natural (NUI), tal como el lenguaje. De hecho, se han realizado grandes avances recientemente en la obtención de este objetivo. Por ejemplo, algunos ordenadores incluyen ahora aplicaciones de reconocimiento del habla que permiten a un usuario introducir verbalmente comandos para operar el ordenador así como dictado para que se convierta en texto. Estas aplicaciones típicamente operan registrando periódicamente muestras de sonido que se toman por medio de un micrófono, analizando las muestras para reconocer los fonemas que son dictados por el usuario e identificando las palabras formadas por los fonemas dictados. Aunque el reconocimiento del habla es cada vez más común, todavía hay algunas desventajas en el uso convencional de las aplicaciones de reconocimiento del habla que tienden a frustrar al usuario experimentado y alienar al usuario principiante. Una desventaja de este tipo implica la interacción entre el orador y el ordenador. Por ejemplo, con interacción humana, las personas tienden a controlar su habla en base a la reacción que perciben en un oyente. Por lo tanto, durante una conversación, un oyente puede proporcionar retroinformación asintiendo con la cabeza o dando respuestas vocales, tales como "sí" o "ajá", para indicar que él o ella entiende lo que se le dice. Además, si el oyente no entiende lo que se le está diciendo, el oyente puede adoptar una expresión burlona, inclinarse hacia adelante, o dar otras pistas vocales o no vocales. En respuesta a esta retroinformación, el orador cambiará por lo gene- ral la forma en que él o ella está hablando y en algunos casos, el orador puede hablar más despacio, más fuerte, hacer pausas más a menudo, o incluso repetir una exposición, por lo general sin que el oyente ni siquiera se de cuenta de que el orador está cambiando la forma en que interactúa con el oyente. Por lo tanto, la retroinformación durante una conversación es un elemento muy importante que informa al orador si está, o no, siendo entendido por el oyente. Lamentablemente, sin embargo, las aplicaciones convencionales de reconocimiento del habla todavía no pueden ofrecer este tipo de respuesta de retroinformación de "Interfaz de Usuario Natural (NUI)" a las entradas / comandos vocales facilitados por una interfaz persona - máquina. Actualmente, las aplicaciones de reconocimiento de voz han alcanzado una tasa de precisión de aproximadamente el 90% al 98%. Esto significa que cuando un usuario dicta en un documento utilizando una aplicación de reconocimiento del habla típica, sus dictados serán reconocidos con precisión por la aplicación de reconocimiento del habla aproximadamente del 90% al 98% del tiempo. Por lo tanto, por cada cien (100) letras registradas por la aplicación de reconocimiento del habla, aproximadamente de dos (2) a diez (10) letras tienen que ser corregidas. En particular, las aplicaciones de reconocimiento del habla existentes tienden a tener dificultades para reconocer algunas letras, tales como la "s" (por ejemplo, ess) y "f" (por ejemplo, eff). Uno de los enfoques que las aplicaciones de reconocimiento del habla actuales utilizan para solucionar este problema consiste en dar al usuario la posibilidad de utilizar reglas nemotécnicas predefinidas para aclarar la letra que se está pronunciando. Por ejemplo, un usuario tiene la capacidad de decir "a como en apple" o "b como en boy" al dictar. Lamentablemente, sin embargo, este enfoque tiene desventajas asociadas con el mismo que tienden a limitar la facilidad de uso de la aplicación de reconocimiento del habla. Una desventaja implica el uso de la regla nemotécnica predefinida para cada letra, que tiende a ser el alfabeto militar estándar (por ejemplo, alfa, bravo, charlie,....). Esto se debe a que, aunque un usuario puede tener una lista de reglas nemotécnicas para decirlas cuando dicta, (por ejem- plo, "I como en iglú"), los usuarios tienden a formar su propio alfabeto nemotécnico (por ejemplo, "I, como en India") e ignorar el alfabeto nemotécnico predefinido. Como era de esperar, puesto que las aplicaciones de reconocimiento del habla no reconocen reglas nemotécnicas no predefinidas, los errores de reconocimiento de letras llegan a ser algo común. Otra desventaja implica el hecho de que aunque algunas letras tienen un pequeño conjunto de reglas nemotécnicas predominantes (por ejemplo, superior al 80%) asociadas a ellas (A, como en Apple, A como en Adán o D como en Dog, D como en David o Z como en Zebra, Z como en Zulú), otras letras no tienen reglas nemotécnicas predominantes asociadas a ellas (por ejemplo, L, P, R y S). Esto hace que la creación de un Modelo de Lenguaje genérico adecuado, no sólo sea muy difícil, sino que es virtualmente imposible. Debido a esto, el lenguaje de comunicación para una aplicación de software de reconocimiento del habla sigue produciendo un número relativamente elevado de errores y no sólo estos errores tienden a crear frustración en los usuarios frecuentes, sino que también tienden a desalentar a los usuarios principiantes, haciendo posiblemente que el usuario rehúse seguir empleando la aplicación de reconocimiento del habla. 2 El documento US 6.694.296 B1 se refiere a un reconocedor de palabras que incluye un Modelo de Lenguaje de dictado que proporciona una salida de modelo de dictado indicativo de una secuencia de palabras probables que se reconocen en base a una expresión introducida. Un Modelo de Lenguaje de deletreo proporciona una salida del modelo de deletreo que es indicativa de una secuencia de letras probables reconocidas en base a la expresión de entrada. Un modelo acústico proporciona una salida de modelo acústico indicativo de una unidad de habla probable reconocida en base a las pronunciaciones de entrada. Un componente de reconocimiento del habla está configurado para acceder al Modelo de Lenguaje de dictado, al Modelo de Lenguaje de deletreo y al modelo acústico. El documento US 6.321.196 B1 se refiere a un aparato de reconocimiento del habla que incluye un medio para determinar cuando un orador desea deletrear una primera palabra. El orador puede pronunciar entonces una secuen- cia de palabras seleccionadas de un amplio vocabulario, sin estar restringido a un alfabeto fonético pre especificado. El aparato reconoce las palabras habladas, las letras asociadas con estas palabras y entonces dispone las letras para formar la primera palabra. ]El documento US 2003/167166 A1 se refiere a un procedimiento para realizar el reconocimiento del habla con el fin de determinar un carácter alfabético particular, incluyendo la recepción de la entrada hablada acústica que incluye un carácter alfabético único y una asociación de palabras con el carácter único, de tal manera que el primer carácter de la palabra pretende ser el mismo que el carácter alfabético único. La entrada acústica puede ser procesada usando un sistema de reconocimiento de vocabulario de palabras para reconocer el carácter alfabético único y la palabra. Un intento para que coincida el carácter alfabético único con el primer carácter de la palabra puede ser realizado. El documento US 2002/184035 A1 se refiere a un procedimiento de deletreo por voz. Sumario de la invención El de objetivo de la presente invención es proporcionar un procedimiento y un sistema para la creación de un modelo de lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla. Este de objetivo se resuelve por medio del sujeto de las reivindicaciones independientes. Las realizaciones se dan en las reivindicaciones dependientes. Se proporciona un procedimiento para la creación de un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el procedimiento incluye la generación de un Modelo de Lenguaje de n - gramas que contiene un cuerpo grande predefinido de caracteres, por ejemplo, letras, números, símbolos, etc., en el que el Modelo de Lenguaje de n - gramas incluye al menos un carácter del cuerpo grande pre- definido de caracteres. El procedimiento incluye, además, construir un unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de los al menos un carácter y extraer pronunciaciones para cada uno de los al menos un carácter que responde a un diccionario... [Seguir leyendo]
Reivindicaciones:
1. Un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla, comprendiendo el procedimiento: generar (302) un Modelo de Lenguaje de n - gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres; construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico; que se caracteriza por extraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter; crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y compilar (310) el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter. 2. El procedimiento de la reivindicación 1, en el que el citado cuerpo grande de caracteres predefinido incluye al menos uno de entre letras minúsculas, letras mayúsculas, números y carácter gráficos predefinidos. 3. El procedimiento de la reivindicación 2, en el que al menos uno de entre el citado cuerpo grande de caracteres predefinidos, el citado diccionario de pronunciaciones predefinidas y el citado diccionario de pronunciaciones alternativas responde al idioma Inglés. 4. El procedimiento de la reivindicación 1, en el que la citada construcción incluye la construcción de una unidad lexical nueva del Modelo de Lenguaje para cada uno de los citados al menos un carácter que responde a un deletreo mnemotécnico para el citado cada uno de los citados al menos un carácter. 5. El procedimiento de la reivindicación 1, en el que la citada creación incluye, además, añadir un silencio largo "sil" a la citada representación de pronunciación del carácter para formar la citada pronunciación alternativa. 6. El procedimiento de la reivindicación 1, en el que si el citado al menos un carácter es un carácter en mayúsculas, la citada creación incluye anteponer, además, "k ae p ih t I hacha" al citado Modelo de Lenguaje nuevo. 7. El procedimiento de la reivindicación 1, en el que la compilación del Modelo de Lenguaje de n - gramas se compila usando una herramienta estándar de compilación. 8. El procedimiento de la reivindicación 7, en el que la herramienta estándar de compilación es herramienta de compilación Justo a Tiempo, JIT. 9. El procedimiento de la reivindicación 1, en el que Modelo de Lenguaje de n - gramas es generado utilizando un formato predefinido. 10. El procedimiento de la reivindicación 9, en el que el citado formato predefinido es el formato ARPA. 11. Un sistema adaptado para implementar el procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla de acuerdo con una de las reivindicaciones 1 a 10, en el que el sistema comprende: un dispositivo de almacenamiento (106, 216) para almacenar la Aplicación de Software de Reconocimiento del habla y al menos una aplicación de software de objetivo; un dispositivo de entrada (104, 235) para introducir vocalmente datos y comandos en el sistema; un dispositivo de visualización (247, 248), en el que el dispositivo de visualización incluye la pantalla para la visualización de los citados datos introducidos, y un dispositivo de procesamiento (102, 204), en el que el citado dispositivo de procesamiento comunica con el citado dispositivo de almacenamiento, con el citado dispositivo de entrada y con el citado dispositivo de pantalla, de manera que el citado dispositivo de procesamiento recibe instrucciones para hacer que la Aplicación de Software de Re- 9 conocimiento del habla muestre los datos introducidos en la pantalla y manipule los datos introducidos en respuesta a los citados comandos introducidos. 12. El sistema de la reivindicación 11, que incluye, además, un módulo de software de modelo acústico (110) y un módulo de software de Modelo de Lenguaje (112), en el que el citado módulo de software de modelo acústico y el citado módulo de software de Modelo de Lenguaje están dispuestos en el citado dispositivo de almacenamiento. 13. El sistema de la reivindicación 11, que incluye además un compilador, en el que el citado compilador es una herramienta de compilación estándar capaz de compilar en formato ARPA. 14. El sistema de la reivindicación 11, en el que el citado dispositivo de almacenamiento es al menos uno de entre un dispositivo de medios ópticos y un dispositivo de medios magnéticos, un dispositivo de almacenamiento interno, un dispositivo de almacenamiento externo, un dispositivo de almacenamiento removible y un dispositivo de almacenamiento no removible. 15. El sistema de la reivindicación 11, en el que el citado dispositivo de entrada es un micrófono. 16. El sistema de la reivindicación 11, en el que el dispositivo de visualización es al menos uno de entre un CRT, un LCD y un dispositivo de pantalla de plasma. 17. Un código de programa informático legible por máquina, incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye una Aplicación de Software de Reconocimiento del habla, comprendiendo el procedimiento: generar un Modelo de Lenguaje de n - gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres; construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico, que se caracteriza por extraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres; crear por lo menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva de Modelo de Lenguaje del carácter dado a una pronunciación extraída de una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y compilar el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla por medio de la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter. 18. Un medio codificado con un código de programa informático legible por máquina , incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización, en el que el dispositivo de almacenamiento incluye una Aplicación de Software de reconocimiento del habla, comprendiendo el procedimiento: generar un Modelo de Lenguaje de n - gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres; construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico; que se caracteriza por extraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres; crear al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y compilar, el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter. 11 12 13 14 Tabla de Fonemas de Inglés Americano símbolo Ejemplo ID Fonema - Syllable Boundary (hyphen) Límite de sílaba (guión) 1 ! Sentence terminator (exclamation mark) Finalizador de sentencia (símbolo de exclamación & Word Boundary (límite de palabra) 3 , Sentence terminator (coma) (Finalizador de Sentencia (coma)) 4 . Sentence terminator (period) (Finalizador de Sentencia (punto)) 5 ? Sentence terminator (question mark) (Finalizador de sentencia (interrogación)) _ Silence ( underscore) (Silencio (subrayado)) 7 1 Primary Stress (Énfasis Primario) 8 2 Secondary Stress (Énfasis Secundario) 9 aa father (padre) 10 ae cat (gato) 11 ah cut (corte) 12 ao dog (perro) 13 aw foul (sucio) 14 ax ago (ago) 15 ay bite (mordisco) 16 b big (grande) 17 ch chin (barbilla) 18 d dig (cavar) 19 dh then (entonces) 20 eh pet (mascota) 21 er fur (pieles) 22 ey ate (comer) 23 f fork (tenedor) 24 g gut (tripa) 25 h help (ayuda) 26 ih fill (llenar) 27 iy feel (sentir) 28 jh joy (alegría) 29 k cut (cortar) 30 FIGURA 4 2 6 símbolo Ejemplo ID Fonema l lid (tapa) 31 m mat (estera) 32 n no (no) 33 ng sing (cantar) 34 ow go (ir) 35 oy toy (juguete) 36 p put (poner) 37 r red (rojo) 38 s sit (sentar) 39 sh she (ella) 40 t talk (hablar) 41 th thin (delgado) 42 uh book (libro) 43 uw too (también) 44 v vat (cuba) 45 w with (con) 46 y yard (yarda) 47 z zap (borrar) 48 zh pleasure (placer) 49 FIGURA 4 (continuación) 16
Patentes similares o relacionadas:
Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]
Análisis lingüístico basado en una selección de palabras y dispositivo de análisis lingüístico, del 31 de Julio de 2019, de PRECIRE Technologies GmbH: Procedimiento para el análisis lingüístico automatizado basado en una selección de palabras, que comprende los pasos: a) la preparación de un sistema […]
Creación de una base de datos de referencia de parámetros de habla para clasificar expresiones del habla, del 24 de Enero de 2018, de VOICESENSE LTD.: Un método implementado por ordenador de creación de una base de datos de referencia de parámetros de habla para clasificar expresiones del habla según diversas características […]
Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas, del 7 de Junio de 2017, de Rovi Guides, Inc: Un aparato para corregir automáticamente los errores del reconocimiento del habla, el aparato comprende:
medios para recibir una entrada verbal del usuario que […]
SISTEMA DE MENSAJERÍA INSTANTÁNEA, del 9 de Febrero de 2017, de PROYECTOS Y SOLUCIONES TECNOLÓGICAS AVANZADAS, S.L.P: Sistema de mensajería instantánea comprendiendo una aplicación de mensajería instantánea para la comunicación entre usuarios y máquinas mediante lenguaje […]
Sistema de mensajería instantánea, del 7 de Febrero de 2017, de PROYECTOS Y SOLUCIONES TECNOLÓGICAS AVANZADAS, S.L.P: Sistema de mensajería instantánea comprendiendo una aplicación de mensajería instantánea para la comunicación entre usuarios y máquinas mediante lenguaje natural, […]
Método para descubrir y reconocer patrones, del 18 de Febrero de 2015, de Aalto-Korkeakoulusäätiö: Método para reconocer un concepto en una señal, por ejemplo una señal de voz, mediante un aparato, comprendiendo el método:
recibir , […]
Procedimiento, sistema y programa informático para recoger múltiples fragmentos de información durante un diálogo de usuario, del 17 de Septiembre de 2014, de 24/7 Customer, Inc: Un procedimiento implementado en ordenador para construir y procesar un diálogo multifranja con un usuario, que comprende las etapas de:
activación de todas las […]
Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .