CONTROL DE VEHÍCULOS.

Un procedimiento implementado por ordenador para controlar un vehículo, que comprende: recibir una o más instrucciones emitidas como voz; analizar la voz utilizando software de reconocimiento de voz para proporcionar una secuencia de palabras y una medida de confianza de palabras para cada palabra así reconocida; analizar la secuencia de palabras para identificar un concepto semántico correspondiente a una instrucción basándose en el análisis y en un nivel de confianza semántica para el concepto semántico identificado

, obtenido al menos en parte con referencia a las medidas de confianza de palabras de las palabras asociadas con el concepto semántico; proporcionar una confirmación hablada del concepto semántico así identificado basándose en el nivel de confianza semántica; y utilizar el concepto semántico así identificado para proporcionar una entrada de control para el vehículo

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E07380260.

Solicitante: THE BOEING COMPANY.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 NORTH RIVERSIDE PLAZA CHICAGO, IL 60606-2016 ESTADOS UNIDOS DE AMERICA.

Inventor/es: FERREIROS LOPEZ,JAVIER, SAN SEGUNDO HERNANDEZ,RUBEN, Scarlatti,David, Pérez Villar,Victor, Molina,Roberto.

Fecha de Publicación: .

Fecha Solicitud PCT: 21 de Septiembre de 2007.

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Reconocimiento de la voz (G10L 17/00 tiene prioridad) > G10L15/22 (Procedimientos utilizados durante el proceso de reconocimiento de la voz, p. ej. diálogo hombre-máquina)
  • G10L15/18U

Clasificación PCT:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Reconocimiento de la voz (G10L 17/00 tiene prioridad) > G10L15/22 (Procedimientos utilizados durante el proceso de reconocimiento de la voz, p. ej. diálogo hombre-máquina)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Reconocimiento de la voz (G10L 17/00 tiene prioridad) > G10L15/18 (utilizando una modelización del lenguaje natural)

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2363037_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Campo de la invención

La presente invención se refiere a control de vehículos activado por voz, y al control de UAV (vehículos aéreos no tripulados) utilizando voz en particular.

Antecedentes de la invención

Actualmente la tecnología de voz ha alcanzado un alto nivel de rendimiento y esto ha llevado a su mayor utilización en muchos sistemas críticos. Las investigaciones realizadas por compañías aeronaúticas e instituciones reguladoras en colaboración con grupos de expertos en tecnología de voz han presenciado el desarrollo de grandes bases de datos de voz y texto, junto con los nuevos modelos de procesamiento de voz y texto que se adaptan a los requisitos específicos del campo. Un área importante de aplicación crítica que puede beneficiarse de estas capacidades es el control de vehículos aéreos. En particular se benefician el control del tráfico aéreo (ATC) y las interfaces para UAV . Los UAV son de particular interés para la presente invención.

Cuando se desarrolla una interfaz de control UAV, es habitual incluir los siguientes módulos de reconocimiento de voz: un reconocedor de voz para convertir habla natural en una secuencia de palabras, un módulo de comprensión del lenguaje natural que extrae los conceptos semánticos principales del texto (los comandos que van a ejecutarse y sus datos correspondientes para control UAV), y un módulo de generación de respuestas para crear una respuesta natural para el piloto que se convertirá en voz mediante un sintetizador de voz. La respuesta confirma el comando recibido.

El software de reconocimiento de voz que se ha desarrollado hasta ahora se basa en dos fuentes de conocimiento, modelado acústico y modelado de lenguaje. En relación con el modelado acústico, los sistemas actuales de reconocimiento de voz se basan en modelos ocultos de Markov (HMM). Para cada alófono (una pronunciación característica de un fonema), se calcula un modelo HHM como resultado de un proceso de entrenamiento llevado a cabo utilizando una base de datos de voz. Una base de datos de voz consiste en varias horas de habla transcrita (compuesta de archivos con voz y texto combinado, en los que es posible correlacionar la señal de voz con las palabras pronunciadas por la persona). El tamaño de la base de datos determina la versatilidad y robustez del reconocimiento de voz. La adquisición de la base de datos es un proceso muy costoso porque requiere expertos en lingüística para transcribir a mano el habla pronunciada por diferentes hablantes.

El modelado de lenguaje complementa al modelado acústico con la información acerca de las secuencias de palabras más probables. Existen varias técnicas para el modelado de lenguaje incluyendo modelado de lenguaje basado en la gramática y modelado de lenguaje estadístico (N-gramas).

El modelado de lenguaje basado en la gramática consiste en definir todas las frases posibles que el sistema puede reconocer. Cualquier otra secuencia de palabras, no prevista en estas frases, se rechaza. Este modelo es más fácil de generar por una persona no experta, pero es muy estricto y no trata bien el habla espontánea o enfatizada que se produce en situaciones de la vida real.

El modelado de lenguaje estadístico consiste en calcular la probabilidad de una palabra, dadas las N-1 palabras anteriores. Por ejemplo, un modelo de 3-gramas consiste en las probabilidades de cada palabra posible precedida por cualquier combinación de dos palabras. El modelo estadístico se genera automáticamente a partir de algún texto orientado a la aplicación (conjunto de frases), considerando un proceso de suavizado para secuencias no vistas. Este suavizado significa que en cierta se permiten todas las secuencias de palabras medida (no hay secuencias de palabras prohibidas), satisfaciendo el papel de un factor de robustez fundamental. Este hecho es muy importante cuando se modela habla espontánea puesto que contiene repeticiones de palabras, dudas, etc.

Hasta ahora, todos los sistemas de reconocimiento de voz incorporados en interfaces UAV son programas comerciales tales como los proporcionados por MicrosoftTM y NuanceTM. El desarrollador de la interfaz UAV, normalmente un experto en la asignación de tareas UAV y en pilotaje pero que no es necesariamente un experto en tecnología de voz, integra estos reconocedores de voz. Aunque estos sistemas de reconocimiento de voz están evolucionando a motores de software más fáciles de utilizar y más robustos, todavía hay importantes limitaciones en su configuración que afectan drásticamente al rendimiento del reconocimiento de voz. Un aspecto importante es el modelado de lenguaje: los motores comerciales de reconocimiento ofrecen la posibilidad de definir un modelo basado en la gramática (fácil de definir por una persona no experta), pero esta configuración no es lo suficientemente flexible para habla espontánea o enfatizada que aparece a menudo en interfaces de control UAV.

Para entender comandos hablados, se debe extraer la información semántica o “significado” (dentro del dominio de aplicación específica) de la salida del reconocedor de voz (es decir, la secuencia de palabras que proporciona). La información semántica puede representarse por medio de una trama que contiene algunos conceptos semánticos. Un concepto semántico consiste en un identificador o atributo y un valor. Por ejemplo, un concepto podría ser“CÓDIGO_PUNTO_DE_REFERENCIA” mientras que el valor es “A01”. Normalmente, la compresión del lenguaje natural se realiza mediante técnicas basadas en reglas. Estas relaciones entre conceptos semánticos y secuencias de palabras y otros conceptos se definen a mano por un experto. Las técnicas basadas en reglas pueden clasificarse en dos tipos, estrategias descendentes (top-down) y ascendentes (bottom-up).

En una estrategia descendente, las reglas buscan conceptos semánticos a partir de un análisis global de la frase completa. Esta estrategia intenta hacer corresponder todas las palabras de la frase con una secuencia de conceptos semánticos. Esta técnica no es lo suficientemente flexible y robusta para tratar errores en la secuencia de palabras proporcionadas por el reconocedor de voz. Incluso un único error puede provocar que falle el análisis semántico. La mayoría de intentos anteriores en interfaces de voz para mando y control UAV utilizan técnicas basadas en reglas con estrategia descendente.

En una estrategia ascendente, el análisis semántico se realiza empezando por cada palabra de manera individual y extendiendo el análisis a palabras de contexto vecinas y otras islas conceptuales ya construidas. Esta extensión se realiza para encontrar combinaciones específicas de palabras y/o conceptos (bloques) que generan un concepto semántico de nivel superior. Las reglas implementadas por el experto definen estas relaciones. Esta estrategia es más robusta frente a los errores de reconocimiento de voz y es necesaria cuando se utiliza un modelo de lenguaje estadístico en el software de reconocimiento de voz.

El módulo de generación de respuestas traduce los conceptos entendidos a una frase del lenguaje natural utilizada para confirmar el comando de vuelta al piloto. Estas frases puede ser fijas o pueden construirse utilizando plantillas con algunos campos variables. Estos campos se rellenan con la información obtenida de la interpretación semántica de la frase anterior. Ambos tipos de módulos de generación de respuestas se han utilizado en el pasado para el mando y control UAV. Finalmente, la frase de lenguaje natural se convierte en voz por medio de un sistema de conversión de texto a voz que utiliza un sintetizador... [Seguir leyendo]

 


Reivindicaciones:

1. Un procedimiento implementado por ordenador para controlar un vehículo, que comprende: recibir una o más instrucciones emitidas como voz; analizar la voz utilizando software de reconocimiento de voz para proporcionar una secuencia de palabras y una medida de confianza de palabras para cada palabra así reconocida; analizar la secuencia de palabras para identificar un concepto semántico correspondiente a una instrucción basándose en el análisis y en un nivel de confianza semántica para el concepto semántico identificado, obtenido al menos en parte con referencia a las medidas de confianza de palabras de las palabras asociadas con el concepto semántico; proporcionar una confirmación hablada del concepto semántico así identificado basándose en el nivel de confianza semántica; y utilizar el concepto semántico así identificado para proporcionar una entrada de control para el vehículo.

2. El procedimiento según la reivindicación 1, en el que analizar la voz para proporcionar una secuencia de palabras comprende utilizar modelos ocultos de Markov (continuos).

3. El procedimiento según la reivindicación 1 o la reivindicación 2, en el que analizar la voz para proporcionar una secuencia de palabras comprende utilizar un modelo de lenguaje que proporciona información acerca de las secuencias de palabras más probables que esperan encontrarse.

4. El procedimiento según la reivindicación 3, que comprende utilizar el modelo de lenguaje para proporcionar un modelo estadístico de 2-gramas.

5. El procedimiento según cualquier reivindicación anterior, que comprende analizar la secuencia de palabras y los niveles de confianza de palabras asociados para identificar el uno o más conceptos semánticos.

6. El procedimiento según cualquier reivindicación anterior, en el que el concepto semántico comprende un identificador y un valor.

7. El procedimiento según cualquier reivindicación anterior, que comprende analizar la secuencia de palabras para identificar el uno o más conceptos semánticos utilizando un enfoque ascendente que empieza con un análisis de cada palabra identificada de manera individual y luego extendiendo el análisis a palabras vecinas.

8. El procedimiento según cualquier reivindicación anterior, que comprende analizar la secuencia de palabras para identificar el uno o más conceptos semánticos etiquetando cada palabra según su tipo, por ejemplo comando, dígito

o letra, y buscando patrones conocidos a partir de la secuencia de etiquetas, permitiendo así la deducción de un concepto semántico.

9. El procedimiento según cualquier reivindicación anterior, en el que proporcionar una confirmación hablada del concepto semántico así identificado incluye una indicación de que la instrucción no se entendió cuando el nivel de confianza semántica está por debajo de un umbral.

10. El procedimiento según cualquier reivindicación anterior, que comprende proporcionar una confirmación hablada del concepto semántico así identificado basándose en el nivel de confianza semántica y un nivel de verbosidad indicado.

11. El procedimiento según la reivindicación 10, que comprende proporcionar una confirmación hablada del concepto semántico identificado con una velocidad y/o tono de habla que se aumenta a medida que disminuye el nivel de verbosidad indicado.

12. El procedimiento según cualquier reivindicación anterior, que comprende proporcionar una confirmación hablada del concepto semántico identificado basándose en el nivel de confianza semántica y en un nivel de urgencia, disminuyendo la verbosidad de la confirmación hablada con el aumento del nivel de urgencia.

13. El procedimiento según la reivindicación 12, que comprende proporcionar una confirmación hablada del concepto semántico identificado con una velocidad y/o tono de habla que se aumenta a medida que aumenta el nivel de urgencia.

14. El procedimiento según cualquier reivindicación anterior, que comprende utilizar el concepto semántico así identificado para proporcionar una entrada de control para el vehículo sólo cuando el nivel de confianza semántica supera un umbral.

15. Un aparato para controlar un vehículo, que comprende:

una entrada dispuesta para recibir una o más instrucciones emitidas como habla; una memoria dispuesta para almacenar el habla recibida; un módulo de reconocimiento de voz dispuesto para analizar la voz para proporcionar una secuencia de palabras y una medida de confianza de palabras para cada palabra así reconocida; un módulo de comprensión del lenguaje natural dispuesto para recibir la secuencia de palabras y las medidas de confianza de palabras, y analizar la secuencia de palabras para identificar un concepto semántico correspondiente a una instrucción basándose en el análisis y en un nivel de confianza semántica para el concepto semántico identificado, obtenido al menos en parte con referencia a las medidas de confianza de palabras de las palabras asociadas con el concepto semántico; un módulo de generación de respuestas dispuesto para proporcionar una confirmación hablada del concepto semántico así identificado basándose en el nivel de confianza semántica; y un módulo de generación de comandos dispuesto para utilizar el concepto semántico así identificado para proporcionar una entrada de control para el vehículo.

16. El aparato según la reivindicación 15, que comprende además una base de datos de modelos acústicos acoplados de manera operable al módulo de reconocimiento de voz, y en el que la base de datos de modelos acústicos presenta modelos ocultos de Markov almacenados en la misma, opcionalmente modelos ocultos de Markov continuos almacenados en la misma.

17. El aparato según la reivindicación 15 o la reivindicación 16, que comprende además una base de datos de modelos de lenguaje acoplada de manera operable al módulo de reconocimiento de voz, en el que la base de datos de modelos de lenguaje presenta datos almacenados en la misma que proporcionan información acerca de las secuencias de palabras más probables que esperan encontrarse.

18. El aparato según la reivindicación 17, en el que la base de datos de modelos de lenguaje presenta un modelo estadístico de 2-gramas almacenado en la misma.

19. El aparato según cualquiera de las reivindicaciones 15 a 18, en el que el módulo de comprensión del lenguaje natural está dispuesto para analizar la secuencia de palabras y los niveles de confianza de palabras asociados para identificar el uno o más conceptos semánticos.

20. El aparato según cualquiera de las reivindicaciones 15 a 19, en el que el módulo de comprensión del lenguaje natural está dispuesto para proporcionar el concepto semántico como un identificador y un valor.

21. El aparato según cualquiera de las reivindicaciones 15 a 20, en el que el módulo de comprensión del lenguaje natural está dispuesto para analizar la secuencia de palabras para identificar el uno o más conceptos semánticos utilizando un enfoque ascendente que empieza con un análisis de cada palabra identificada de manera individual y luego extendiendo el análisis a palabras vecinas.

22. El aparato según cualquiera de las reivindicaciones 15 a 21, en el que el módulo de comprensión del lenguaje natural está dispuesto para analizar la secuencia de palabras para identificar el uno o más conceptos semánticos etiquetando cada palabra según su tipo, por ejemplo, comando, dígito o letra, y para buscar patrones conocidos de la secuencia de etiquetas, permitiendo así la deducción de un concepto semántico.

23. El aparato según cualquiera de las reivindicaciones 15 a 22, en el que el módulo de generación de respuestas está dispuesto para proporcionar una confirmación hablada del concepto semántico así identificado que incluye una indicación de que la instrucción no se entendió cuando el nivel de confianza semántica está por debajo de un umbral.

24. El aparato según cualquiera de las reivindicaciones 15 a 23, en el que el módulo de generación de respuestas está dispuesto para proporcionar una confirmación hablada del concepto semántico así identificado basándose en el nivel de confianza semántica y un nivel de verbosidad indicado.

25. El aparato según la reivindicación 24, en el que el módulo de generación de respuestas está dispuesto para proporcionar una confirmación hablada del concepto semántico identificado con una velocidad y/o tono de habla que se aumenta a medida que disminuye el nivel de verbosidad indicado.

26. El aparato según cualquiera de las reivindicaciones 15 a 25, en el que el módulo de generación de respuestas está dispuesto para proporcionar una confirmación hablada del concepto semántico identificado basándose en el nivel de confianza semántica y en un nivel de urgencia, disminuyendo la verbosidad de la confirmación hablada con el aumento del nivel de urgencia.

27. El aparato según la reivindicación 26, en el que el módulo de generación de respuestas está dispuesto para proporcionar una confirmación hablada del concepto semántico identificado con una velocidad y/o tono de habla que

se aumenta a medida que aumenta el nivel de urgencia.

28. El aparato según cualquiera de las reivindicaciones 15 a 27, en el que la unidad de generación de respuestas

presenta asociada con la misma una base de datos que contiene plantillas de respuesta para utilizar al construir la 5 confirmación hablada.

29. El aparato según cualquiera de las reivindicaciones 15 a 18, en el que el módulo de generación de comandos está dispuesto para utilizar el concepto semántico así identificado para proporcionar una entrada de control para el vehículo sólo cuando el nivel de confianza semántica supera un umbral.

30. Un programa informático que comprende instrucciones de programa que, cuando se ejecutan, provocan que un ordenador opere según el procedimiento de cualquiera de las reivindicaciones 1 a 14.

31. Un producto de programa informático que contiene el programa informático de la reivindicación 30.