DISPOSITIVO Y PROCEDIMIENTO DE EDICIÓN DIFERENCIADA DE VOZ.
Dispositivo de edición diferenciada de voz (1) que puede unirse con un primer sistema (31) y al menos con otro sistema (32,
33 a 3N), estando asociada a la edición de voz del primer sistema (31) una primera característica de la voz y estando asociada a la edición de voz adicional del otro sistema (32, 33 a 3N) otra característica de la voz que se diferencia audiblemente de la primera característica de la voz, caracterizado por un dispositivo de síntesis de voz (10) que recibe parámetros de control que presentan una primera clase de parámetros dinámicos y una segunda clase de parámetros estáticos, controlando los parámetros dinámicos la articulación correspondiente al movimiento de un tracto vocal y controlando los parámetros estáticos las propiedades características de la voz, estando almacenados los parámetros estáticos para los sistemas como juegos de parámetros asociados en una memoria (20) del dispositivo de edición de voz y empleándose, en función de una señal de selección de un sistema, un juego de parámetros asociado por parte del dispositivo de síntesis de voz (10) para la edición de voz, y estando almacenados los parámetros dinámicos con arreglo a la secuencia de palabras, frases y series de frases en cada sistema
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2001/013488.
Solicitante: BAYERISCHE MOTOREN WERKE AKTIENGESELLSCHAFT.
Nacionalidad solicitante: Alemania.
Dirección: PETUELRING 130 80809 MÜNCHEN ALEMANIA.
Inventor/es: OBERT, GEORG, BENGLER,Klaus.
Fecha de Publicación: .
Fecha Solicitud PCT: 21 de Noviembre de 2001.
Clasificación Internacional de Patentes:
- G10L13/02E
Clasificación PCT:
- G10L13/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 13/00 Síntesis de la voz; Sistemas de síntesis de la voz a partir de texto. › Métodos de producción de voz sintética; Sintetizadores de voz.
Clasificación antigua:
- G10L13/02 G10L 13/00 […] › Métodos de producción de voz sintética; Sintetizadores de voz.
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Finlandia, Chipre.
PDF original: ES-2357700_T3.pdf
Fragmento de la descripción:
La presente invención concierne a un dispositivo de edición o generación diferenciadas de voz y a un procedimiento correspondiente, a sistemas para uso con el dispositivo de edición de voz y a combinaciones de un 5 dispositivo de edición de voz con al menos dos sistemas, especialmente para uso en un vehículo.
En los vehículos se utilizan sistemas individuales que disponen de una interfaz acústica hombre-máquina para la edición de voz. En estos sistemas está siempre asociado directamente un módulo de edición de voz. Los procedimientos de producción de voz empleados se basan casi siempre en modulación de código de impulsos (= PCM), en donde se puede conectar una compresión subsiguiente (por ejemplo, MPEG). Otros sistemas emplean 10 procedimientos de síntesis de voz que forman principalmente palabras y frases (manipulación de señales) a través del ensamble de segmentos de sílabas (fonemas).
En los procedimientos de edición de voz citados existe también una dependencia del hablante que requiere que, al ampliar el volumen de palabras o de texto, se soliciten tomas una y otra vez al mismo hablante humano. Además, los procedimientos PCM, exactamente igual que una síntesis de fonemas de alto valor cualitativo, requieren, debido a la 15 manipulación de señales, un espacio de memoria considerable para archivar textos o segmentos de sílabas. En ambos procedimientos el espacio de memoria aumenta aún considerablemente cuando se deben editar diferentes idiomas nacionales.
Asimismo, se conocen procedimientos que se basan en una síntesis completa de la voz. Se conocen especialmente procedimientos que convierten el tracto vocal humano en el equivalente eléctrico y trabajan con un 20 generador de sonido y varios filtros pospuestos (modelo fuente-filtro). Un aparato que trabaja según este procedimiento es un llamado sintetizador de formantes (por ejemplo, KLATTALK). Este sintetizador de formantes tiene la ventaja de que se puede influir sobre las propiedades características de la voz.
El documento EP-A-0 901 000 describe un dispositivo de tratamiento de mensajes con medios de recepción para recibir mensajes enviados, una memoria para almacenar una pluralidad de articulaciones diferentes (tono de voz o 25 tono vocal) y medios de asignación para asignar una articulación de la pluralidad de articulaciones a al menos un mensaje recibido. Otra articulación es asignada a otro mensaje recibido y unos medios de edición editan el primer mensaje con una primera articulación y el segundo mensaje con una segunda articulación.
RUTLEDGE J C ET AL: "SYNTHESIZING STYLED SPEECH USING THE KLATT SYNTHESIZER", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS; SPEECH; AND SIGNAL PROCESSING 30 (ICASSP): DETROIT; 9-12 DE MAYO DE 1995. SPEECH, NUEVA YORK, IEEE, US, Vol. 1, 9 de Mayo de 1995 (09-05-1995), páginas 648-651, XP000658077 ISBN: 0-7803-2432-3, se ocupan en general del funcionamiento y los conocimientos experimentales en la construcción de sintetizadores de la voz basados en el tracto vocal (sintetizador Klatt) para la síntesis de diferentes estilos de voz con diferentes características de la voz.
La invención se basa especialmente en el problema de proporcionar un dispositivo de edición de voz central con 35 un gran número de sistemas en el que se active por los sistemas un único generador de voz con una pequeña memoria de parámetros.
Este problema se resuelve según la invención con las características de la reivindicación 1. Ejecuciones ventajosas son objeto de las reivindicaciones subordinadas.
La invención tiene la ventaja de que con un único dispositivo de edición de voz o dispositivo de síntesis de voz 40 son posibles ediciones de voz para sistemas diferentes, pudiendo identificarse cada sistema por diferencias características de la voz.
Según una forma de realización preferida de la invención, se ha asociado a cada sistema un juego de parámetros que es empleado por el dispositivo de síntesis de voz para realizar una edición de voz desde este sistema. Por ejemplo, se proporciona un primer juego de parámetros para un ordenador de a bordo, un segundo juego de 45 parámetros para un sistema de navegación, un tercer juego de parámetros para informaciones del tráfico, un cuarto juego de parámetros para un sistema TTS (sistema de texto a voz), tal como correo electrónico, y uno o más juegos de parámetros adicionales para sistemas adicionales.
Dependiendo del juego de parámetros asociado, el dispositivo de síntesis de voz genera la edición de voz, por ejemplo con una suave voz femenina, por ejemplo para ediciones de voz de un sistema de navegación, o con una fuerte 50 voz de bajo masculino, por ejemplo para la edición de voz de avisos del tráfico.
Según una forma de realización preferida de la invención, se emplean un procedimiento y un dispositivo para una síntesis de voz completa, preferiblemente un sintetizador de formantes. En este caso, se dividen en clases los parámetros de control para el sintetizador. Una clase de parámetros dinámicos controla la articulación, tal como el movimiento del tracto vocal al hablar. Una segunda clase de parámetros estáticos controla propiedades características 55 del hablante, tales como la frecuencia fundamental del generador y los formantes fijos que, en el caso de un niño, una mujer o un hablante masculino, son formados por la diferente dimensión geométrica del tracto vocal.
En un modelo ampliado del sintetizador de formantes es posible una generación separada de sonidos con voz y sin voz. En este caso, se pueden intercalar mediante otros parámetros resonadores o miembros de amortiguación adicionales o bien se puede influir sobre los parámetros dinámicos para la articulación. 60
El dispositivo según la invención y el procedimiento según la invención se pueden utilizar especialmente en
sistemas de un vehículo. Cada sistema tiene, por cada edición de voz, dos posibilidades de controlar la edición de voz. La primera posibilidad de edición de voz comprende la emisión de una secuencia de órdenes de control para la articulación de voz, estando almacenada en el sistema la secuencia de los parámetros de control para palabras, frases y series de frases. La segunda posibilidad de control de la edición de voz se efectúa a través de una segunda edición que conmuta un juego de parámetros que es determinante de la característica del hablante. 5
Como alternativa o adicionalmente, es posible también almacenar este juego de datos paramétricos directamente en el sistema y cargar el juego de datos paramétricos en el dispositivo de síntesis de voz en caso de una edición de voz necesaria.
Según otra forma de realización preferida, que se puede utilizar como alternativa o adicionalmente a las formas de realización anteriores, se pueden variar, además, dinámicamente los parámetros del generador y de los formantes 10 para diferenciar las fuentes de información, es decir, los sistemas que realizan una edición de voz. Se pueden conseguir así diferencias audibles en la prosodia, tales como la duración y/o la acentuación de segmentos de sílabas y/o la melodía de las frases. En especial, se puede utilizar una modulación prosódica en función, por ejemplo, de una condición de tráfico o una situación de tráfico para la edición de voz de textos de anuncios. Por último, la importancia de una información puede expresarse por modulación de la voz. 15
La invención tiene la ventaja de que, por ejemplo, en un vehículo solamente un único generador de voz con una pequeña memoria de parámetros puede ser activado desde varias fuentes de información. Las fuentes de información pueden equiparse aquí con características de voz diferentes.
Cuando se utiliza un dispositivo de síntesis completa, por ejemplo un dispositivo de síntesis de tracto vocal, se tiene que el procedimiento es independiente del hablante y no se necesitan grabaciones de estudio de alto valor. 20
En un sintetizador de formantes ampliado se puede incorporar también según la invención una expresión emocional en la voz.
Con ayuda de plantillas de parámetros prefabricadas se puede variar muy fácilmente la característica de la voz. El procedimiento es adecuado también para la conversión de textos libres en voz (texto a voz), por ejemplo para la lectura del correo electrónico. 25
Se explica seguidamente la invención con más detalle ayudándose de un... [Seguir leyendo]
Reivindicaciones:
1. Dispositivo de edición diferenciada de voz (1) que puede unirse con un primer sistema (31) y al menos con otro sistema (32, 33 a 3N), estando asociada a la edición de voz del primer sistema (31) una primera característica de la voz y estando asociada a la edición de voz adicional del otro sistema (32, 33 a 3N) otra característica de la voz que se diferencia audiblemente de la primera característica de la voz, caracterizado por un dispositivo de síntesis de voz (10) que recibe parámetros de control que presentan una primera clase de parámetros dinámicos y una segunda clase de 5 parámetros estáticos, controlando los parámetros dinámicos la articulación correspondiente al movimiento de un tracto vocal y controlando los parámetros estáticos las propiedades características de la voz, estando almacenados los parámetros estáticos para los sistemas como juegos de parámetros asociados en una memoria (20) del dispositivo de edición de voz y empleándose, en función de una señal de selección de un sistema, un juego de parámetros asociado por parte del dispositivo de síntesis de voz (10) para la edición de voz, y estando almacenados los parámetros dinámicos 10 con arreglo a la secuencia de palabras, frases y series de frases en cada sistema.
2. Dispositivo según la reivindicación 1, en el que los parámetros estáticos presentan una frecuencia fundamental de generador y/o formantes fijos que corresponden preferiblemente a la diferente dimensión geométrica del tracto vocal en un niño, una mujer o un hablante varón.
3. Dispositivo según la reivindicación 2, en el que se pueden variar parámetros de generador y/o parámetros de 15 formantes para la edición de voz de sistemas diferentes y se producen preferiblemente diferencias audibles en la prosodia, tales como la duración y/o la acentuación de segmentos de sílabas y/o la melodía de las frases.
4. Dispositivo según cualquiera de las reivindicaciones 1 a 3, en el que el dispositivo de síntesis de voz (10) es un sintetizador de formantes con el que se puede influir sobre las propiedades características de la voz.
5. Dispositivo según la reivindicación 4, en el que el sintetizador de formantes es adecuado para generar por 20 separado sonidos con voz y sin voz, y en el que especialmente se pueden intercalar por medio de otros parámetros resonadores o miembros de amortiguación adicionales y/o se puede influir sobre los parámetros dinámicos para la articulación.
6. Dispositivo según cualquiera de las reivindicaciones 1 a 5, en el que el dispositivo de síntesis de voz (10) está unido con un amplificador (12) y se efectúa una edición de voz a través de una salida de audio (14) del amplificador 25 (12).
7. Sistema para uso con un dispositivo según cualquiera de las reivindicaciones 1 a 6, con una primera salida para la emisión de parámetros dinámicos y una segunda salida para la emisión de una señal de selección para conmutar un juego de parámetros en el dispositivo de edición de voz (10).
8. Sistema para uso con un dispositivo según cualquiera de las reivindicaciones 1 a 6, con una salida para la 30 emisión de parámetros dinámicos y parámetros estáticos enviados preferiblemente como un juego de parámetros al dispositivo de edición de voz (10).
9. Combinación de un dispositivo según cualquiera de las reivindicaciones 1 a 6 con al menos un primer sistema y un sistema adicional, tales como un ordenador (31) de a bordo, un sistema de navegación (32), un sistema de información de tráfico (33), un sistema de correo electrónico (34) o un sistema de información (3N), preferiblemente para 35 uso en un vehículo.
10. Procedimiento de edición diferenciada de voz empleando un dispositivo según cualquiera de las reivindicaciones 1 a 6.
Patentes similares o relacionadas:
DIFERENCIACION DEL HABLA, del 18 de Mayo de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Procedimiento para la diferenciación entre tres o más voces, comprendiendo el procedimiento las etapas de 1) analizar propiedades de señal de cada […]
SINTESIS DE SEÑAL DE AUDIO, del 26 de Enero de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Dispositivo de síntesis de señal para sintetizar una señal (r'') de audio, comprendiendo el dispositivo: - una unidad de síntesis sinusoidal […]
PROCEDIMIENTO Y SISTEMA DE DIALOGO DE VOZ, del 14 de Diciembre de 2009, de MOTOROLA, INC.: Un método para diálogo de voz, incluyendo: recibir una frase vocal que incluye una frase de petición que incluye una variable instanciada; […]
Codificación, modificación y síntesis de segmentos de voz, del 17 de Diciembre de 2014, de TELEFONICA, S.A.: Procedimiento de análisis, modificación y síntesis de señales de voz que comprende: -a. una fase de localización de ventanas de análisis mediante […]
CODIFICACIÓN, MODIFICACIÓN Y SÍNTESIS DE SEGMENTOS DE VOZ, del 28 de Diciembre de 2012, de TELEFONICA, S.A.: Método de análisis, modificación y síntesis de señal de voz que comprende una fase de localización de ventanas de análisis mediante un proceso iterativo de determinación […]
PROCEDIMIENTO PARA LA SINTESIS DE DIFONEMAS Y/O POLIFONEMAS A PARTIR DE LA ESTRUCTURA FRECUENCIAL REAL DE LOS FONEMAS CONSTITUYENTES, del 7 de Junio de 2012, de UNIVERSITAT POLITECNICA DE CATALUNYA: La presente invención se refiere al procedimiento para la generación de la señal acústica de voz sintética de sonidos a partir de una mínima información previa de […]
ANIMACION DE PERSONAJES., del 1 de Mayo de 2005, de ANANOVA LIMITED: Aparato para la generación de una representación animada de un personaje, comprendiendo el aparato un sistema de procesado provisto de: una entrada […]
PROCEDIMIENTO Y DISPOSITIVO PARA LA EMISION DE MENSAJES DE TRAFICO CODIFICADOS DIGITALMENTE POR MEDIO DE VOZ GENERADA SINTETICAMENTE., del 16 de Diciembre de 2002, de ROBERT BOSCH GMBH: EN UN PROCEDIMIENTO Y UN EQUIPO PARA EL SUMINISTRO DE INDICACIONES DE TRAFICO CODIFICADAS DIGITALES POR MEDIO DE LENGUAJE GENERADOS SINTETICAMENTE, DONDE […]