Procedimiento y dispositivo de conversión de voz.

Dispositivo electrónico para facilitar un procedimiento de conversión de voz a texto,

que comprende:

- unos medios de entrada de voz para obtener una señal de voz digital,

- unos medios de entrada de control para comunicar un comando de control relativo a la señal de vozdigital, mientras se obtiene la señal de voz digital,

- unos medios de procesamiento para asociar temporalmente el comando de control con un instante detiempo sustancialmente correspondiente en la señal de voz digital a la que se dirige el comando decontrol,

en el que el comando de control determina uno o más signos de puntuación, símbolos u otros elementos decontrol que implican la manipulación del texto, para colocarse físicamente, tal como por ejemplo en el caso dedichos signos de puntuación y símbolos, o al menos lógicamente, a través de la manipulación del texto en elcaso de dichos otros elementos de control, en una ubicación del texto correspondiente al instante decomunicación relativo a la señal de voz digital, para procurar el procedimiento de conversión de voz a texto anivel local, en cuyo caso el dispositivo también comprende un motor de reconocimiento de voz para realizartareas de conversión de voz a texto, o de forma remota, en cuyo caso el dispositivo electrónico tambiéncomprende unos medios de transferencia de datos para el envío de datos digitales que representan la señal devoz digital y el comando de control a una entidad remota para la conversión, o mediante un procedimiento deconversión compartida entre el dispositivo electrónico y la entidad remota, en cuyo caso el dispositivoelectrónico también comprende al menos parte del motor de reconocimiento de voz y dichos medios detransferencia de datos.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/058611.

Solicitante: Mobiter Dicta Oy.

Nacionalidad solicitante: Finlandia.

Dirección: Topeliuksenkaut 3a a5 00260 Helsinki FINLANDIA.

Inventor/es: KURKI-SUONIO,Risto, COTTON,Andrew.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L15/26 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Sistemas de síntesis de texto a partir de la voz (G10L 15/08 tiene prioridad).
  • G10L15/28 G10L 15/00 […] › Detalles estructurales de sistemas de reconocimiento de la voz.
  • G11B27/031 G […] › G11 REGISTRO DE LA INFORMACION.G11B REGISTRO DE LA INFORMACION BASADO EN UN MOVIMIENTO RELATIVO ENTRE EL SOPORTE DE REGISTRO Y EL TRANSDUCTOR (registro de valores medidos según un procedimiento que no necesita el uso de un transductor para la reproducción G01D 9/00; aparatos de registro o de reproducción que utilizan una banda marcada por un procedimiento mecánico, p. ej. una banda de papel perforada, o que utilizan soportes de registro individuales, p. ej. fichas perforadas o fichas magnéticas G06K; transferencia de datos de un tipo de soporte de registro a otro G06K 1/18; circuitos para el acoplamiento de la salida de un dispositivo de reproducción a un receptor radio H04B 1/20; cabezas de lectura para gramófonos o transductores acústicos electromecánicos o sus circuitos H04R). › G11B 27/00 Montaje; Indexación; Direccionamiento; Temporización o sincronización; Monitorización; Medida del avance de una cinta. › Montaje electrónico de señales de información analógicas digitalizadas, p. ej. de señales audio, vídeo.
  • H04M3/42 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Sistemas que proporcionan servicios o funciones especiales a los abonados (especialmente adaptada para redes de comunicación inalámbricas H04W 4/00).

PDF original: ES-2386673_T3.pdf

 

Procedimiento y dispositivo de conversión de voz.

Fragmento de la descripción:

Procedimiento y dispositivo de conversión de voz

Campo de la invención

La presente invención se refiere, en general, a dispositivos electrónicos y redes de comunicaciones. En particular, aunque no exclusivamente, la invención se refiere a aplicaciones de conversión de voz en texto.

Antecedentes de la invención

La tendencia actual en terminales portátiles, por ejemplo, manuales, impulsa la evolución fuertemente hacia interfaces de usuario intuitivas y naturales. Además de texto, imágenes y sonido (por ejemplo, la voz) se pueden grabar en un terminal, ya sea para transmisión o para controlar una funcionalidad preferida local o remota (es decir, basada en la red) . Además, la información de carga útil puede ser transferida a través de las redes celulares y fijas adyacentes tales como Internet, como datos binarios que representan el texto, sonido, imágenes y vídeo subyacente. Aparatos de módem en miniatura, tales como terminales móviles o PDAs (Asistentes Digitales Personales) pueden así llevar medios de entrada de control versátiles tales como una pantalla/teclado, un micrófono, diferentes sensores de movimiento o presión, etc. para proporcionar a los usuarios de los mismos una UI (interfaz de usuario) realmente capaz de soportar los mecanismos de almacenamiento y comunicación de datos muy diversificados.

A pesar del salto en la tecnología de comunicación e información en curso, también algunas soluciones de almacenamiento de datos más tradicionales, tales como aparatos de dictado parecen mantener un valor de uso considerable, especialmente en campos especializados como el derecho y las ciencias médicas, en las que los documentos se crean regularmente sobre la base de las discusiones verbales y reuniones, por ejemplo. Es probable que la comunicación verbal siga siendo el procedimiento más rápido y conveniente de expresión para la mayoría de la gente, y dictando una nota en lugar de escribirla puede lograrse un ahorro de tiempo considerable. Este tema también tiene un aspecto de dependencia del idioma; la escritura china o japonesa, obviamente, requieren más tiempo para escribir que la mayoría de los idiomas occidentales, por ejemplo. Además, las máquinas de dictar y sus homólogas modernas, tales como sofisticados terminales móviles y PDAs con opción de grabación de sonido pueden utilizarse hábilmente junto con otras tareas, por ejemplo, mientras se tiene una reunión o se conduce un coche, mientras que la escritura manual requiere normalmente una parte importante de la atención de la persona que la realiza y definitivamente no se puede realizar si se conduce un coche, etc.

Hasta los últimos pocos años, sin embargo, los aparatos de dictado no han servido para todas las necesidades del público tan bien; es cierto que la información puede ser fácilmente almacenada, incluso en tiempo real con sólo grabar la señal de voz a través de un micrófono, pero a menudo la forma de archivo final es textual y alguien, por ejemplo, una secretaria, ha recibido la orden de limpiar manualmente y convertir la señal grabada de sonido en bruto en un registro final en un medio diferente. Esta disposición, lamentablemente, requiere una gran cantidad de trabajo adicional de conversión que consume tiempo. Otro problema importante asociado con las máquinas de dictado surge de su origen analógico e interfaz de usuario simple; la modificación de la voz que ya está almacenada es muy complicada y con muchos dispositivos, todavía utilizando cinta magnética como medio de almacenamiento, ciertas operaciones de edición, tal como la inserción de una porción de voz completamente nueva dentro de la señal original almacenada no pueden realizarse. Mientras tanto, las máquinas modernas de dictado que utilizan chips/tarjetas de memoria pueden comprender opciones de edición de la voz limitadas, pero la posible utilización todavía está disponible sólo a través de una interfaz de usuario bastante incómoda que comprende sólo una pantalla LDC (Pantalla de Cristal Líquido) de mínimo tamaño y calidad, etc. La transferencia de datos de voz almacenados a otro dispositivo, requiere a menudo manipulación, es decir, el medio de almacenamiento (cinta/tarjeta de memoria) debe moverse físicamente.

Sistemas computarizados de reconocimiento de la voz han estado disponibles para una persona experta en la materia desde hace algún tiempo. Estos sistemas están normalmente implementados como características internas de aplicaciones específicas (incorporadas en un procesador de texto, por ejemplo, Microsoft Word versión XP) , aplicaciones en solitario, o plugins de aplicación para un ordenador de escritorio normal. El proceso de reconocimiento de la voz implica una serie de etapas que están básicamente presentes en todos los algoritmos existentes, véase la figura 1 para ilustración de un ejemplo particular. A saber, la señal de origen de la voz emitida por una persona que habla primero es capturada 102 a través de un micrófono o un transductor correspondiente y es convertida en forma digital con un procesamiento previo necesario 104 que puede referirse a procesamiento dinámico, por ejemplo. A continuación, la señal digitalizada se entra a un motor de reconocimiento de la voz 106 que divide la señal en elementos más pequeños como fonemas basados en la

extracción de características sofisticadas y procedimientos de análisis. El software de reconocimiento también puede estar adaptado a cada usuario 108, es decir, la configuración del software es específica para el usuario. Finalmente, los elementos reconocidos que forman la salida del motor de reconocimiento de voz, por ejemplo, información y/o texto de control, se utilizan como entrada 110 para otros fines; simplemente se puede mostrar en la pantalla, almacenar en una base de datos, traducir a otro idioma, usar para ejecutar una funcionalidad predeterminada, etc., tal como se describe en la publicación EP0664636, "Sistema de conferencia de audio",

R.A. Sharman et al., 26.07.1995.

La publicación US6266642 divulga una unidad portátil dispuesta para realizar la traducción del idioma hablado para facilitar la comunicación entre dos entidades que no tienen ningún idioma común. El propio dispositivo contiene todo el hardware y el software necesarios para ejecutar el proceso de traducción o simplemente actúa como una interfaz remota que, inicialmente, dirige, mediante la utilización de un teléfono o una videoconferencia, la voz de entrada en la unidad de traducción para su procesamiento, y más tarde recibe el resultado de la traducción para síntesis de la voz local. La solución también comprende una etapa de procesamiento en la que se minimizan los fallos de reconocimiento de la voz mediante la creación de una serie de reconocimientos candidatos o hipótesis de que el usuario puede, a través de una interfaz de usuario, seleccionar la opción correcta, o simplemente confirmar la selección predefinida.

A pesar de los muchos avances de las disposiciones antes mencionadas y otras sugerencias de disposiciones de la técnica anterior para superar las dificultades encontradas en el reconocimiento de la voz y/o los procesos de traducción automática, algunos problemas siguen sin resolverse, especialmente en relación con los dispositivos móviles. Los problemas asociados con las máquinas tradicionales de dictado ya fueron descritos anteriormente. Además, muchos grupos de usuarios especiales, tal como las personas con discapacidad, incluidos los usuarios ciegos, han sido muy comúnmente olvidados en el diseño de la interfaz de usuario de los dispositivos de reconocimiento de voz más sofisticados, conversión de voz a texto, o de traducción y servicios asociados a las interfaces de usuario, dependiendo generalmente en gran medida en la orientación de procesos y características de visualización de datos en una pantalla de bajo contraste/baja resolución de tamaño pequeño, por ejemplo.

Aún más, muchas aplicaciones capaces de registro y reconocimiento de voz se han adaptado para capturar y procesar de manera totalmente autónoma la señal de entrada de audio en un objetivo predeterminado después de recibir una petición de procesamiento inicial que puede referirse a una señal creada presionando un botón de iniciación correspondiente en la interfaz de usuario del dispositivo asociado, por ejemplo. Sin embargo, aunque varias funcionalidades totalmente automatizadas en general son bienvenidas, ya que pueden superar la necesidad de ajustes manuales más exhaustivos o de control continuo, las soluciones automatizadas no siempre proporcionan una precisión... [Seguir leyendo]

 


Reivindicaciones:

1. Dispositivo electrónico para facilitar un procedimiento de conversión de voz a texto, que comprende:

- unos medios de entrada de voz para obtener una señal de voz digital,

- unos medios de entrada de control para comunicar un comando de control relativo a la señal de voz digital, mientras se obtiene la señal de voz digital,

- unos medios de procesamiento para asociar temporalmente el comando de control con un instante de tiempo sustancialmente correspondiente en la señal de voz digital a la que se dirige el comando de control,

en el que el comando de control determina uno o más signos de puntuación, símbolos u otros elementos de control que implican la manipulación del texto, para colocarse físicamente, tal como por ejemplo en el caso de dichos signos de puntuación y símbolos, o al menos lógicamente, a través de la manipulación del texto en el caso de dichos otros elementos de control, en una ubicación del texto correspondiente al instante de comunicación relativo a la señal de voz digital, para procurar el procedimiento de conversión de voz a texto a nivel local, en cuyo caso el dispositivo también comprende un motor de reconocimiento de voz para realizar tareas de conversión de voz a texto, o de forma remota, en cuyo caso el dispositivo electrónico también comprende unos medios de transferencia de datos para el envío de datos digitales que representan la señal de voz digital y el comando de control a una entidad remota para la conversión, o mediante un procedimiento de conversión compartida entre el dispositivo electrónico y la entidad remota, en cuyo caso el dispositivo electrónico también comprende al menos parte del motor de reconocimiento de voz y dichos medios de transferencia de datos.

2. Dispositivo electrónico según la reivindicación 1, en el que el comando de control también determina una o más acciones predeterminadas, tales como una pausa de grabación de longitud predeterminada, que se realiza en respuesta a la obtención del comando de control.

3. Dispositivo electrónico según cualquier reivindicación anterior, que además comprende un motor de reconocimiento de voz para realizar tareas de conversión de voz a texto, adaptado para aplicar la información proporcionada por el comando de control en la producción del resultado de la conversión.

4. Dispositivo electrónico según cualquier reivindicación anterior, en el que dichos medios de control de entrada comprenden una serie de elementos de entrada, cada uno asociado con al menos uno de dichos uno o más signos de puntuación, símbolos u otros elementos de control que implican la manipulación del texto.

5. Dispositivo electrónico según cualquier reivindicación anterior, que comprende un sintetizador de texto a voz y unos medios de salida de audio, y que se configura para, al obtener al menos un resultado parcial de la conversión de voz a texto que incluye una porción convertida, tal como una o más palabras o frases, que comprende múltiples, dos o más, opciones del resultado de la conversión seleccionables por el usuario, para reproducir, a través de dichos medios de salida de audio, una o más de dichas opciones para dicha porción, y para comunicar, a través de dichos medios de control de entrada, una selección de un usuario de dichas múltiples opciones seleccionables por el usuario para permitir la confirmación de un resultado de conversión deseado para dicha porción.

6. Servidor para realizar al menos una parte de la conversión de voz a texto, siendo el servidor operable en una red de comunicaciones, comprendiendo el servidor:

- unos medios de entrada de datos para recibir datos digitales enviados por un dispositivo de terminal, representando dichos datos digitales la señal de voz, y uno o más comandos de control, cada comando asociado temporalmente con un cierto instante de tiempo en los datos digitales y determinando uno o más signos de puntuación, símbolos u otros elementos de control que implican la manipulación del texto, y

- al menos parte de un motor de reconocimiento de voz para llevar a cabo las tareas de conversión de los datos digitales a texto, en el que el motor está adaptado para posicionar físicamente, como por ejemplo en el caso de dichos signos de puntuación y símbolos, o al menos lógicamente, a través de la manipulación del texto en el caso de dichos otros elementos de control, cada una de dichos signos de puntuación, símbolos u otros elementos de control impliquen la manipulación del texto en una ubicación del texto correspondiente al relación instante de tiempo determinado relativo a la señal de voz

representada por los datos digitales recibidos para cultivar el procedimiento de conversión de voz a texto al menos parcialmente adquiridos por el servidor.

7. Servidor según la reivindicación 6, que también comprende unos medios de salida de datos para transmitir 5 por lo menos parte de la salida de las tareas realizadas a una entidad externa.

8. Servidor según cualquiera de las reivindicaciones 6-7, en el que dicha al menos parte de un motor de reconocimiento de voz está configurada para producir un resultado de conversión de voz a texto que incluye una porción convertida, tal como una o más palabras o frases, que comprende múltiples, dos o más , opciones del 10 resultado de la conversión, cuando la corrección del resultado de la conversión se considera como incierto para la porción de acuerdo con el criterio predeterminado, y unos medios de salida de datos para comunicar el resultado de la conversión y al menos una indicación de las opciones al terminal u otro dispositivo remoto y, opcionalmente, activar el terminal que comprende un sintetizador de texto a voz y unos medios de salida de audio, u otro dispositivo remoto, para reproducir una forma audible una o más de dichas opciones para permitir

la confirmación de un resultado de la conversión deseada para la porción por parte del usuario del terminal u otro dispositivo remoto en respuesta a la reproducción audible.

9. Procedimiento para la conversión de voz en texto, que comprende:

- obtener una señal de voz digital y un comando de control relativo a la misma de una manera de superposición temporal, en el que el comando de control determina uno o más signos de puntuación, símbolos u otros elementos de control que implican la manipulación del texto,

- asociar el comando de control con un instante de tiempo que corresponde sustancialmente en la 25 señal de voz digital a la que se dirige el comando de control, y

- realizar una conversión de voz a texto, en la que cada signo de puntuación, símbolo u otro elemento de control implican la manipulación del texto determinado por el comando de control está físicamente posicionado, como por ejemplo en el caso de dicho signos de puntuación y símbolos, o al menos

lógicamente, a través de la manipulación del texto en el caso de dichos otros elementos de control, en una ubicación del texto correspondiente al instante de comunicación relativo a la señal de voz para procurar el procedimiento de conversión de voz a texto.

10. Procedimiento según la reivindicación 9, que además comprende:

- obtener un resultado de la conversión de voz a texto que incluye una porción convertida, tal como una

o más palabras o frases, que comprende múltiples, dos o más, opciones del resultado de la conversión,

- reproducir audiblemente una o más de dichas opciones,

- obtener una confirmación del usuario de una de dichas una o más opciones, y

- seleccionar la conversión respecto a la porción convertida de acuerdo con la confirmación obtenida.

45 11. Programa ejecutable en un ordenador que comprende medios de código adaptados, cuando se ejecutan en un ordenador, para realizar las acciones del procedimiento tal como se definen en la reivindicación 9 ó 10.

12. Medio portador que comprende el programa ejecutable en un ordenador según la reivindicación 11.

50 13. Dispositivo electrónico según la reivindicación 1, que comprende un terminal móvil, una máquina de dictado,

o un asistente digital personal (PDA) .

14. Dispositivo electrónico o servidor según la reivindicación 1 ó 6, que además está configurado para, en respuesta a una entrada del usuario recibida, recibir una nueva voz o texto correspondiente y asociar dicha

55 nueva voz o dicho texto correspondiente con los datos de voz o texto existentes convertidos a partir de los mismos, respectivamente, de manera que el resultado de la conversión obtenida comprende dicho texto correspondiente situado de acuerdo con la entrada del usuario.


 

Patentes similares o relacionadas:

Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]

Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición, del 5 de Diciembre de 2018, de Guedon, Christophe: Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas […]

Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento, del 4 de Abril de 2018, de Orange: Procedimiento de sincronización entre, por una parte, una operación de procesamiento por reconocimiento automático de la voz de una secuencia […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 7 de Diciembre de 2017, de XESOL I MAS D MAS I, S.L: Se describe en este documento un procedimiento y un dispositivo que permiten llevar a cabo interacción mediante voz para comunicación durante […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 30 de Noviembre de 2017, de XESOL I MAS D MAS I, S.L: Método de interacción mediante voz para comunicación durante conducción de vehículos y dispositivo que lo implementa. Se describe en este documento un procedimiento […]

Procedimiento y sistema para obtener información relevante de una comunicación por voz, del 6 de Abril de 2016, de TELEFONICA, S.A.: Procedimiento para obtener información relevante de una comunicación por voz proporcionada entre al menos dos usuarios, en el que la comunicación por voz comprende […]

Imagen de 'Sistema y método para realizar consultas textuales en comunicaciones…'Sistema y método para realizar consultas textuales en comunicaciones de voz, del 6 de Enero de 2016, de JaJah Ltd: Un sistema para realizar consultas textuales en comunicaciones de voz, comprendiendo el sistema: un servicio de índices para almacenar […]

Imagen de 'Mezclador de pistas de audio semántico'Mezclador de pistas de audio semántico, del 16 de Diciembre de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Mezclador de audio para mezclar una pluralidad de pistas de audio para dar una senal de mezcla (MS), comprendiendo el mezclador de audio: […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .