Sistema y procedimiento de diálogo audiovisual.

Sistema audiovisual de diálogo (1) que comprende:

un dispositivo de entrada de audio (21);



un dispositivo de salida de audio (31);

un dispositivo de salida visual (32); y

un procesador (5), estando el procesador dispuesto para:

recibir (72) una señal de entrada de audio que representa una voz fuente desde el dispositivo de entrada de audio;

realizar (73) una conversión sustancialmente en tiempo real de la conversión de la voz en la señal de entrada de audio para producir una señal de salida de audio que representa una voz de interés, en la que la señal de salida de audio es proporcionada al dispositivo de salida de audio, y en la que el proceso de conversión de la voz en tiempo real incluye:

i) descomponer la señal de entrada de audio en un conjunto de características de filtrado variables con el tiempo y una señal residual de excitación;

ii) transformar espectralmente las características de filtrado variables con el tiempo, y/o modificar el tono de la señal residual de excitación; y

iii) sintetizar la señal de salida de audio dependiendo de las características de filtrado variables con el tiempo transformadas y/o de la señal residual de excitación con el tono modificado;

generar (71) un avatar, en el que el avatar es presentado visualmente en el dispositivo de salida visual; y

animar facialmente el avatar generado (74), en el que la animación está sincronizada con la señal de salida de audio;

en el que el procesador está dispuesto además para personalizar la conversión de la voz en tiempo real, comprendiendo la personalización:

1) seleccionar una de una pluralidad de voces de interés predefinidas, en que las voces de interés predefinidas están representadas por un conjunto de las respectivas transformaciones lineales que incluyen un conjunto de características de filtrado variables con el tiempo y un factor de escalado del tono; y

2) ajustar (82) las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida, seleccionada para proporcionar los parámetros personalizados a la voz de interés,

en el que las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida seleccionada, son ajustados utilizando una pluralidad de controles deslizantes (A, B, C, D) dispuestos en la interfaz del usuario, los cuales cuando son activados por el usuario establecen una magnitud de cambio mediante la cual se ajustan las características de filtrado variables con el tiempo y/o el factor de escalado del tono.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/GB2014/052544.

Solicitante: UCL BUSINESS PLC.

Nacionalidad solicitante: Reino Unido.

Dirección: The Network Building 97 Tottenham Court Road London W1T 4TP REINO UNIDO.

Inventor/es: LEFF,JULIAN, WILLIAMS,GEOFFREY, HUCKVALE,MARK.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L13/10 SECCION G — FISICA.G10 INSTRUMENTOS DE MUSICA; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACION O DESCODIFICACION DEL AUDIO O LA VOZ.G10L 13/00 Síntesis de la voz; Sistemas de síntesis de la voz a partir de texto. › Reglas de prosodia derivadas del texto; Acento o entonación.

PDF original: ES-2728708_T3.pdf

 

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .