PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Un dispositivo móvil operable en una red de comunicaciones inalámbricas que comprende:

- un medio de entrada de voz para recibir voz y convertir la voz en una señal digital (616) de voz representativa, - un medio de entrada de control para comunicar una orden de edición relativa a la señal digital (608) de voz, - un medio de procesamiento para llevar a cabo una tarea de edición de la señal digital de voz en respuesta a la orden (602) de edición recibida, - al menos parte de un motor de reconocimiento de voz para llevar a cabo tareas de conversión (612) a texto de la señal digital de voz, y - un transceptor para intercambiar información relativa a la señal digital de voz y la conversión de la misma de voz a texto con una entidad externa conectada funcionalmente a dicha red (614) de comunicaciones inalámbricas, en el que dicho dispositivo móvil está configurado opcionalmente para transmitir a otra entidad el texto resultante de la conversión de voz a texto para una tarea ulterior de procesamiento seleccionada del grupo constituido por: revisión ortográfica, traducción automática, traducción humana, verificación de la traducción y síntesis de texto a voz

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FI2006/000135.

Solicitante: Mobiter Dicta Oy.

Nacionalidad solicitante: Finlandia.

Dirección: Topeliuksenkaut 3a a5 00260 Helsinki FINLANDIA.

Inventor/es: KURKI-SUONIO,Risto.

Fecha de Publicación: 23 de Mayo de 2011.

Fecha Solicitud PCT: 27 de Abril de 2006.

Clasificación Internacional de Patentes:

G10L15/28D

Clasificación PCT:

G10L15/26 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Sistemas de síntesis de texto a partir de la voz (G10L 15/08 tiene prioridad).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2359430_T3.pdf

Ilustración 1 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Ilustración 2 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Ilustración 3 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Ilustración 4 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Ilustración 5 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Ilustración 6 de PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

PROCEDIMIENTO, SISTEMA Y DISPOSITIVO PARA LA CONVERSIÓN DE LA VOZ.

Fragmento de la descripción:

CAMPO DE LA INVENCIÓN

La presente invención versa en general acerca de dispositivos móviles y redes de comunicaciones. En particular, la invención se ocupa de una conversión interactiva de voz a texto y de servicios de traducción de idioma.

ANTECEDENTES DE LA INVENCIÓN

La actual tendencia en los terminales portátiles, por ejemplo de mano, conduce la evolución totalmente hacia interfaces de usuario intuitivas y naturales. Además de texto, en un terminal pueden grabarse imágenes y sonido (por ejemplo, voz), ya sea para la transmisión o para controlar una funcionalidad preferida local o remota (es decir, basada en la red). Además, puede transferirse información de carga útil por las redes celulares y fijas adyacentes como Internet como datos binarios que representan el texto, el sonido, las imágenes y el vídeo subyacentes. Así, los artilugios modernos en miniatura, como los terminales móviles o las PDA (agendas electrónicas) pueden tener medios versátiles de entrada de control, como un teclado o una botonera, un micrófono, diferentes sensores de movimiento o presión, etc., para proporcionar a los usuarios de los mismos una IU (interfaz de usuario) verdaderamente capaz de soportar el almacenamiento de datos muy diversificado y mecanismos de comunicaciones.

A pesar de que el salto en curso en la tecnología de las comunicaciones y la información, también algunas soluciones más tradicionales de almacenamiento de datos, como los dictáfonos, parecen mantener un considerable valor de facilidad de empleo, en especial en campos especializados como la ley y las ciencias médicas en los que se crean documentos regularmente en base, por ejemplo, a discusiones y encuentros verbales. Es probable que la comunicación verbal siga siendo el procedimiento más rápido y más cómodo de expresión para la mayoría de la gente, y dictar una nota en vez de mecanografiarla puede lograr ahorros de tiempo considerables. Este asunto también tiene un aspecto dependiente del idioma; por ejemplo, escribir en chino o japonés consume más tiempo, obviamente, que escribir en la mayoría de los idiomas occidentales. Además, los dictáfonos y los homólogos modernos de los mismos, como sofisticados terminales móviles y PDA con opción de grabación del sonido, pueden utilizarse hábilmente en conjunción con otras tareas, por ejemplo mientras se tiene una reunión o se conduce un coche, mientras que el mecanografiado manual normalmente requiere una parte importante de la atención de la persona que la realiza y, desde luego, no puede llevarse a cabo si se está conduciendo un coche, etc.

Hasta hace pocos años, los aparatos de dictado no han servido tan bien todas las necesidades públicas; sin duda, la información puede ser almacenada fácilmente incluso en tiempo real con solo grabar la señal de voz por medio de un micrófono, pero, a menudo, la forma final de archivo es textual y se encarga a alguien, por ejemplo a una secretaria, que manualmente limpie y convierta la señal de sonido grabado sin tratar en un registro final en un medio diferente. Desgraciadamente, tal acomodo requiere mucho trabajo adicional de conversión (consumo de tiempo). Otro problema importante asociado con los dictáfonos surge de sus antecedentes analógicos y de su IU simplista; modificar voz ya almacenada es engorroso y, dado que muchos dispositivos siguen utilizando cinta magnética como medio de almacenamiento, no pueden realizarse ciertas operaciones de edición, como insertar una porción de voz completamente nueva dentro de la señal almacenada originalmente. Por otra parte, los dictáfonos modernos que utilizan chips/tarjetas de memoria pueden incorporar opciones limitadas de edición de voz, pero la posible utilización sigue estando disponible únicamente a través de una IU más bien de difícil manejo que comprende únicamente una pantalla de LCD (pantalla de cristal líquido) de tamaño y calidad mínimos, etc. Transferir los datos almacenados de voz a otro dispositivo requiere a menudo un trasteo manual; es decir, el medio de almacenamiento (casete/tarjeta de memoria) debe ser movido físicamente.

Los sistemas informatizados de reconocimiento de voz llevan ya bastante tiempo a la disposición de una persona versada en la técnica. Típicamente, estos sistemas están implementados como características internas específicas a aplicaciones (integradas en un tratamiento de texto; por ejemplo, Microsoft Word, versión XP), aplicaciones dedicadas o módulos de aplicaciones conectables a un ordenador ordinario de sobremesa. El proceso de reconocimiento de voz implica varias etapas que están básicamente presentes en todos los algoritmos existentes; para una ilustración, véase la Figura 1. Concretamente, la fuente de voz emitida por una persona que habla es capturada 102, en primer lugar, por medio de un micrófono o un correspondiente transductor y convertida a forma digital con un necesario preprocesamiento 104 que puede referirse, por ejemplo, a un procesamiento de la dinámica. A continuación, la señal digitalizada es introducida en un motor 106 de reconocimiento de voz que divide la señal en elementos menores, como fonemas, en base a sofisticados procedimientos de extracción y análisis de características. El soporte lógico de reconocimiento también puede adaptarse 108 a cada usuario; es decir, las configuraciones del soporte lógico son específicas al usuario. Por últimos, los elementos reconocidos que forman la salida del motor de reconocimiento de voz, por ejemplo la información de control y/o el texto, son usados como entrada 110 para otros fines; puede simplemente mostrarse en la pantalla, almacenarse en una base de datos, traducirse a otro idioma, usarse para ejecutar una funcionalidad predeterminada, etc.

La publicación US6266642 da a conocer una unidad portátil dispuesta para llevar a cabo una traducción de lenguaje hablado para facilitar la comunicación entre dos entidades que no tienen ninguna lengua común. O bien el propio dispositivo contiene todos los soportes físicos y lógicos para ejecutar todo el proceso de traducción o meramente actúa como interfaz remota que canaliza inicialmente la voz de entrada, utilizando una llamada ya sea de teléfono o de videoconferencia, a la unidad de traducción para su procesamiento, y después recibe el resultado de la traducción para la síntesis local de voz. La solución también comprende una etapa de procesamiento durante la cual se minimizan los errores de reconocimiento creando varios reconocimientos candidatos o hipótesis de entre las cuales el usuario puede seleccionar, por medio de una IU, la correcta o simplemente confirmar la selección predefinida.

La publicación US2003/0182113 da a conocer una disposición en la que un terminal móvil actúa como una sección de entrada de un sistema de reconocimiento de voz que consiste en el terminal móvil y al menos una entidad remota, como un ordenador de sobremesa conectado a la red, un ordenador central, un servidor de web o una pluralidad de ordenadores interconectados.

La publicación EP 1215659 da a conocer un sistema de reconocimiento de voz para permitir una conversión de (mensajes de) voz a texto. Se proporciona un medio de reconocimiento preliminar, como una red neural, según se integra en un dispositivo móvil que proporciona un código que representa los resultados del reconocimiento preliminar a una entidad remota por medio de una conexión inalámbrica.

A pesar de los muchos avances en las disposiciones mencionadas anteriormente y de que otras de la técnica anterior sugieren la superación de dificultades encontradas en el reconocimiento de voz y/o en los procesos de traducción automática, algunos problemas siguen sin resolver, especialmente en relación con los dispositivos móviles. Los problemas asociados con los dictáfonos tradicionales se ya describieron en lo que antecede del presente documento. Además, los dispositivos móviles como los terminales móviles y las PDA son, a menudo, aparatos de un tamaño relativamente pequeño y ligeros que no pueden incluir una pantalla de gran tamaño, una IU versátil, una capacidad/memoria de proceso de primera ni un transceptor de la más alta velocidad disponible, que están por lo común presentes en muchos dispositivos mayores, como los ordenadores de sobremesa. Tales características, aunque no son absolutamente necesarias para realizar el propósito original de un dispositivo portátil, o sea, transferir voz o almacenar información de calendario u otra información personal, serían beneficiosas desde el punto de vista de las conversiones de voz a texto y de la traducción automática. Las conversiones de formato de datos... [Seguir leyendo]

Reivindicaciones:

1. Un dispositivo móvil operable en una red de comunicaciones inalámbricas que comprende:

 un medio de entrada de voz para recibir voz y convertir la voz en una señal digital (616) de voz representativa,

 un medio de entrada de control para comunicar una orden de edición relativa a la señal digital (608) de voz,

 un medio de procesamiento para llevar a cabo una tarea de edición de la señal digital de voz en respuesta a la orden (602) de edición recibida,

 al menos parte de un motor de reconocimiento de voz para llevar a cabo tareas de conversión (612) a texto de la señal digital de voz, y

 un transceptor para intercambiar información relativa a la señal digital de voz y la conversión de la misma de voz a texto con una entidad externa conectada funcionalmente a dicha red (614) de comunicaciones inalámbricas, en el que dicho dispositivo móvil está configurado opcionalmente para transmitir a otra entidad el texto resultante de la conversión de voz a texto para una tarea ulterior de procesamiento seleccionada del grupo constituido por: revisión ortográfica, traducción automática, traducción humana, verificación de la traducción y síntesis de texto a voz.

2. El dispositivo móvil según la reivindicación 1 que, además, comprende un medio de visualización para visualizar al menos parte de la señal digital de voz, tras lo cual dicho medio de entrada de control está configurado para comunicar una orden de edición relativa a dicha parte visualizada, en el que la visualización de la señal comprende opcionalmente al menos un elemento seleccionado del grupo constituido por: una representación del dominio temporal de la señal, una representación del dominio frecuencial de la señal, una parametrización de la señal, una operación de acercamiento y alejamiento dirigida a la señal visualizada, un valor numérico determinado a partir de una porción de la señal definida por el usuario, un puntero a una ubicación definida por el usuario en la señal visualizada, y el resalte de una subzona de la señal visualizada definida por el usuario, y en el que dicho dispositivo móvil está configurado opcionalmente, además, para visualizar al menos una porción del texto resultante de la conversión según alinea en relación con la porción correspondiente visualizada de la señal.

3. El dispositivo móvil según la reivindicación 1 en el que dicha tarea de edición está seleccionada del grupo constituido por: una supresión de una porción de la señal, una inserción de una porción de voz en la señal, la regrabación de una porción de la señal, la sustitución de una porción de la señal, el cambio en la amplitud de la señal, el cambio en el contenido espectral de la señal, el cambio de la dinámica de la señal y la ejecución de un algoritmo de reducción de ruido.

4. El dispositivo móvil según la reivindicación 1 en el que dicha al menos parte del motor de reconocimiento de voz comprende un elemento seleccionado del grupo constituido por: un preprocesador para dividir la señal digital de voz en tramas de una longitud predeterminada, un codificador de audio para comprimir la señal digital de voz, un analizador cepstral, un clasificador acústico, un clasificador de red neural, un decodificador de trayectoria óptima, un decodificador HMM (modelo oculto de Márkov), un modelo léxico de lenguaje, un modelo gramatical de lenguaje, un modelo léxico de lenguaje dependiente del contexto, un modelo gramatical de lenguaje dependiente del contexto, configuraciones específicas del usuario y vocabulario.

5. El dispositivo móvil según la reivindicación 1 en el que dicho información intercambiada incluye un elemento seleccionado del grupo constituido por: voz en forma digital, voz digital codificada, información de estado del dispositivo, reconocimiento de mensajes, información de control, orden de edición, datos de negociación de compartición de tareas, el valor de un parámetro relacionado con la compartición de tareas, estado de tareas, aviso de interrupción del servicio, cifra de carga, resultado intermedio de la conversión de voz a texto.

6. El dispositivo móvil según la reivindicación 1 en el que dicha información se intercambia utilizando al menos una práctica se comunicación seleccionada del grupo constituido por: un mensaje SMS (servicio de mensajes cortos), un mensaje MMS (servicio de mensajes multimedia), un correo electrónico, una llamada de datos, una conexión GPRS (servicio general de radiotransmisión por paquetes) y una llamada de voz.

7. El dispositivo móvil según la reivindicación 1 configurado para compartir la ejecución de tareas requeridas para llevar a cabo la conversión de voz a texto con la entidad externa, estando además configurado dicho dispositivo móvil, opcionalmente, para compartir la ejecución de tareas para optimizar un factor según criterios predeterminados, seleccionándose dicho factor del grupo constituido por: tiempo de ejecución de la conversión de voz a texto, costo de la conversión, cantidad de la transferencia de datos requerida, carga de procesamiento y carga de memoria.

8. El dispositivo móvil según la reivindicación 7 en el que la información intercambiada incluye al menos un elemento del grupo constituido por: data para asignar o llevar a cabo las tareas de la conversión de voz a texto, carga de procesamiento, carga de memoria, un estado de batería, una capacidad de batería, información sobre las tareas que se ejecutan con prioridad más elevada, ancho de banda disponible para la transmisión, tasa de transmisión de

los datos, costo del uso de la entidad externa por tamaño o duración de los datos de voz, tamaño o duración de la señal digital de voz, procedimiento disponible de codificación/decodificación, estado de la conversión, estado de la tarea, aviso de falta de disponibilidad del dispositivo, resultado intermedio de la conversión de voz a texto, voz digital, voz digital codificada, parámetro del reconocimiento de voz, y texto.

9. El dispositivo móvil según la reivindicación 7 configurado para utilizar resultados intermedios de la conversión de voz a texto, proporcionados tanto por el dispositivo como por la entidad externa para producir el texto.

10. El dispositivo móvil según la reivindicación 7 configurado para transmitir resultados intermedios de la conversión de voz a texto a otra entidad, por ejemplo a dicha entidad externa, para habilitar a otra entidad para que lleve a cabo al menos una de las opciones siguientes: combinar los resultados intermedios adquiridos del dispositivo móvil con los resultados obtenidos localmente para producir el texto, someter los resultados intermedios a un procesamiento adicional para producir el texto.

11. Un servidor operable en una red de comunicaciones que comprende:

 un medio de entrada de datos para recibir una señal digital de datos enviada por un dispositivo móvil, representando dicha señal digital de datos voz o, al menos, parte de la misma (714), y para recibir una orden de edición de la voz a través del dispositivo móvil,

 al menos parte de un motor de reconocimiento de voz para llevar a cabo tareas de conversión (712) a texto de una señal digital de datos,

 una unidad de control para intercambiar información de control con el dispositivo móvil, llevando a cabo una tarea de edición de la señal digital de voz en respuesta a la orden de edición recibida, y para determinar, en base a la información de control, las tareas que deben llevarse a cabo en la señal digital de datos recibida por dicha al menos parte del motor (702) de reconocimiento de voz, y

 un medio de salida de datos para comunicar al menos parte de la salida de las tareas llevadas a cabo a una entidad externa (718).

12. Un sistema para convertir voz a texto que comprende un dispositivo móvil (202) operable en una red de comunicaciones inalámbricas y un servidor (208) conectado funcionalmente a dicha red de comunicaciones inalámbricas, en el que:

 dicho dispositivo móvil (202) está configurado para recibir voz y convertir la voz en una señal digital de voz representativa, para recibir una orden de edición relativa a la señal digital de voz, para procesar la señal digital de voz según la orden de edición, para intercambiar información relativa a la señal digital de voz y la conversión de voz a texto de la misma con el servidor (208), y para ejecutar parte de las tareas requeridas para llevar a cabo una conversión a texto de la señal digital de voz, y

 dicho servidor (208) está configurado para recibir información relativa a la señal digital de voz y la conversión de voz a texto de la misma, y para ejecutar, en base a la información intercambiada, la parte restante de las tareas requeridas para llevar a cabo una conversión a texto de la señal digital de voz.

13. Un procedimiento para convertir voz en texto que tiene las etapas de:

 recibir, en un dispositivo móvil operable en una red inalámbrica, una fuente de voz, y convertir la fuente de voz en una señal digital (304) de voz representativa,

 recibir una orden de edición relativa a la señal digital (308) de voz por parte del dispositivo móvil,

 procesar la señal digital de voz según la orden (310) de edición,

 intercambiar información relativa a la señal digital de voz y la conversión de voz a texto de la misma (312), y

 ejecutar, en base a la información intercambiada, al menos parte de las tareas requeridas para llevar a cabo una conversión de voz a texto de la señal digital (314) de voz, comprendiendo el procedimiento además, opcionalmente, visualizar al menos parte de la señal digital de voz en una pantalla del dispositivo móvil, tras lo cual la orden de edición recibida se relaciona adicionalmente, de forma opcional, con dicha parte visualizada.

14. Un programa ejecutable en ordenador que comprende medios de código adaptados, cuando se ejecutan en un ordenador, para llevar a cabo las etapas del procedimiento tal como se definen en la reivindicación 13.

15. Un medio de soporte que comprende el programa ejecutable en ordenador de la reivindicación 14, en el que dicho medio de soporte incluye opcionalmente al menos un elemento seleccionado del grupo constituido por: una tarjeta de memoria, un disquete flexible, un CD-ROM y un disco duro.

Patentes similares o relacionadas:

PROCEDIMIENTO Y SISTEMA PARA EDITAR TEXTO EN UN DISPOSITIVO ELECTRONICO DE MANO, del 17 de Marzo de 2010, de NOKIA CORPORATION: Un procedimiento de modificación de texto , controlada por la voz, en un dispositivo electrónico de mano, en una sesión de edición, incluyendo […]

SISTEMA DE RECONOCIMIENTO DE VOZ DISTRIBUIDO, del 13 de Enero de 2010, de FRANCE TELECOM: Sistema de reconocimiento de voz distribuido, que comprende al menos un terminal de usuario y al menos un servidor adecuados para comunicarse entre […]

PROCEDIMIENTO PARA PERSONALIZAR UN SERVICIO, del 15 de Diciembre de 2009, de SWISSCOM MOBILE AG: Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de: generar modelos de lenguaje que dependen del usuario […]

Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]

Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición, del 5 de Diciembre de 2018, de Guedon, Christophe: Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas […]

Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento, del 4 de Abril de 2018, de Orange: Procedimiento de sincronización entre, por una parte, una operación de procesamiento por reconocimiento automático de la voz de una secuencia […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 7 de Diciembre de 2017, de XESOL I MAS D MAS I, S.L: Se describe en este documento un procedimiento y un dispositivo que permiten llevar a cabo interacción mediante voz para comunicación durante […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 30 de Noviembre de 2017, de XESOL I MAS D MAS I, S.L: Método de interacción mediante voz para comunicación durante conducción de vehículos y dispositivo que lo implementa. Se describe en este documento un procedimiento […]