PROPORCIONAR SINTESIS DEL HABLA EN TERMINALES DE USUARIO EN UNA RED DE COMUNICACIONES.

Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2),

estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de:

- iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla;

- extraer (42) información de contexto asociada a dicha información textual;

- seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto;

- proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN);

- gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y

- continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2005/005818.

Solicitante: TELECOM ITALIA S.P.A..

Nacionalidad solicitante: Italia.

Dirección: PIAZZA DEGLI AFFARI 2,20123 MILANO.

Inventor/es: TUROLLA, MAURA, CERVONE,ALESSIO, COLLOTTA,IVANO SALVATORE, COPPO,PAOLO, ETTORRE,DONATO, FODRINI,MAURIZIO.

Fecha de Publicación: 15 de Abril de 2010.

Fecha Concesión Europea: 18 de Noviembre de 2009.

Clasificación Internacional de Patentes:

G10L13/04A

Clasificación PCT:

G10L13/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Síntesis de la voz; Sistemas de síntesis de la voz a partir de texto.

PROPORCIONAR SINTESIS DEL HABLA EN TERMINALES DE USUARIO EN UNA RED DE COMUNICACIONES.

Fragmento de la descripción:

Proporcionar síntesis del habla en terminales de usuario en una red de comunicaciones.

Campo de la invención

La presente invención se refiere a un procedimiento y a un sistema para proporcionar síntesis del habla a un terminal de usuario a través de una red de telecomunicaciones. En particular, la presente invención se refiere a una arquitectura de servicios para proporcionar síntesis del habla en terminales de usuarios con memoria disponible limitada, como teléfonos móviles, PDAs (Asistente Personal Digital), organizadores personales y cámaras digitales.

La invención se ha desarrollado prestando atención particular a su posible utilización en redes de telecomunicaciones inalámbricas, para proporcionar servicios de texto a voz (TTS) a terminales móviles que tienen incorporado un módulo sintetizador del habla basado en la concatenación de formas de onda del habla almacenadas en una base de datos. Descripción de la técnica relacionada.

La síntesis del habla basada en la técnica de concatenación es muy conocida en la técnica, es decir, por la solicitud de patente WO 00/30069 o de la publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units", NHK (Nippon Hoso Kyokai; Japan Broadcasting Corp.) Science and Technical Research Laboratories, 5th ISCA Speech Synthesis Workshop, Pittsburgh, USA, June 2004.

El documento WO 00/30069 describe un sintetizador del habla basado en la concatenación de unidades de habla tomadas digitalmente desde una gran base de datos.

La publicación "A concatenative speech synthesis method using context dependent phoneme sequences with variable length as search units" proporciona un procedimiento de división de un texto de entrada en una secuencia de fonemas dependientes de contexto y un procedimiento de selección de una forma de onda de voz apropiada desde una base de datos de habla estática. La calidad del habla aumenta cuando se utiliza una base de datos de habla grande.

El solicitante ha observado que la calidad de tal sistema de síntesis del habla, cuando está incorporado en un terminal móvil, está limitado intrínsicamente por el tamaño máximo de la base de datos, que no puede aumentarse según se desee en un terminal de recursos limitados.

El documento EP 1.471.499 A1 ilustra un procedimiento de síntesis del habla distribuido que realiza una conversión texto a voz basada en un procesamiento distribuido entre un servidor remoto y un terminal de usuario. En particular, la síntesis de segmentos de habla es realizada por el servidor. El terminal de usuario descarga segmentos de habla sintetizados y los concatena mediante las reglas del servidor. Además, el terminal de usuario realiza un mecanismo de memoria caché según las reglas proporcionadas por el servidor.

El solicitante ha observado que, aunque la síntesis del habla de alta calidad puede lograrse utilizando un sistema de síntesis del habla distribuido, en tales sistemas no es factible realizar síntesis del habla sin una conexión de red activa, limitando así la eficacia de algunos terminales de usuario, por ejemplo, PDAs.

La patente EP-A1-1.431.958 describe la descarga de diferentes voces de hablantes.

El documento US 2004/0054534 ilustra un ejemplo de personalización de síntesis del habla basada en preferencias del usuario. El usuario selecciona los criterios de voz en un terminal de usuario local. Los criterios de voz representan las características que el usuario desea para una voz sintetizada. Los criterios de voz se comunican a un servidor. El servidor genera una serie de reglas de voz sintetizada basada en los criterios de voz y los envía al terminal de usuario local. Las reglas de voz sintetizada representan aspectos prosódicos de la voz sintetizada.

El solicitante ha observado que la calidad de síntesis del habla de los sistemas de síntesis del habla arriba mencionados está, como normal general, directamente relacionada con el tamaño de la base de datos de las formas de onda utilizadas.

El solicitante ha abordado el problema de obtener un aumento significativo de la calidad de la síntesis del habla en sistemas que están incorporados en terminales móviles, sin afectar demasiado a los requisitos de memoria de la base de datos de formas de onda del habla. En particular, el solicitante ha abordado el problema de personalizar dinámicamente un sistema de síntesis del habla basado en la técnica de concatenación, logrando la misma calidad que una solución estática basada en una base de datos de formas de onda tan grande que no puede almacenarse en terminales de usuarios portátiles.

Objeto y resumen de la invención

El solicitante ha hallado que este problema se puede solucionar proporcionando una arquitectura de sistema de red capaz de descargar dinámicamente bases de datos incrementales de formas de onda del habla e información de indexación relacionada que, integradas en el módulo de síntesis del habla en el terminal móvil, mejoran una base de datos reducida en el terminal.

Un objeto particular de la presente invención es proporciona una arquitectura de servicio para proporcionar síntesis del habla de alta calidad en terminales de usuario móviles con baja memoria disponible.

El objeto de la invención es, por tanto, responder satisfactoriamente a las necesidades anteriores.

Según la presente invención, ese objeto se alcanza por medio de un procedimiento que tiene las características expuestas en la reivindicación 1. La invención también se refiere a una arquitectura de servicio, reivindicada en la reivindicación 10, así como a un producto de programa informático relacionado, reivindicado en la reivindicación 21. Las realizaciones preferidas se exponen en las reivindicaciones dependientes.

La referencia a "al menos un ordenador" está destinada evidentemente a subrayar la posibilidad de que la presente invención se implemente de forma distribuida/modular.

Las reivindicaciones son una parte integrante de la descripción de la invención aquí descrita.

La solución de síntesis del habla dinámica aquí propuesta puede lograr la misma calidad que una solución estática basada en una base de datos grande. La solución dinámica trabaja en una gran base de datos virtual utilizando una base de datos estática reducida ubicada dentro del terminal de usuario y descargando las bases de datos incrementales adecuadas solo cuando es necesario. Cada base de datos incremental, que contiene elementos de habla adicionales respecto a la base de datos por defecto, está relacionada con el contexto de la información específica que se va a sintetizar. Al utilizar la base de datos extendida, proporcionada por la base de datos por defecto más la base(s) de datos incremental(es) descargada, la síntesis del habla en el terminal de usuario logra una calidad mejorada.

Cada base de datos incremental dinámica está relacionada con uno o más contextos de información, por ejemplo, economía, deporte, humor, etcétera. La misma base de datos incremental se puede utilizar para mejorar la síntesis de varios contenidos relacionados con el mismo contexto. Un mecanismo de memoria caché se puede implementar en el terminal de usuario para evitar descargas adicionales de la misma base de datos incremental cuando el contexto de información no ha cambiado, o cuando se utiliza frecuentemente el mismo contexto. Además, se pueden utilizar bases de datos incrementales para personalizar la síntesis del habla realizada en un terminal de usuario respecto a reglas de contexto, según el perfil de usuario específico o las preferencias de usuario específicas.

Características y ventajas adicionales de la presente invención se clarificarán a partir de la siguiente descripción detallada de algunos ejemplos de la misma, provista simplemente a modo de ejemplo sin ninguna intención restrictiva. La descripción detallada se referirá a las siguientes figuras, en las que:

- La figura 1 muestra esquemáticamente una arquitectura de servicio para proporcionar síntesis del habla en terminales de usuario, según la presente invención;

- La figura 2 muestra un diagrama de flujo de un procedimiento para proporcionar síntesis del habla en terminales de usuario, según la presente invención;

- La figura 3 muestra un diagrama de flujo de un procedimiento alternativo para proporcionar síntesis del habla en terminales de usuario, según un ejemplo;

- La figura 4 muestra esquemáticamente una...

Reivindicaciones:

1. Procedimiento para generar habla sintetizada a partir de información textual en un terminal de usuario (2), estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) teniendo una base de datos básica (6) de formas de onda de habla, comprendiendo las etapas de:

- iniciar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos básica (6) de formas de onda de habla;
- extraer (42) información de contexto asociada a dicha información textual;
- seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto;
- proporcionar (48) a dicho terminal de usuario (2) dicha base de datos incremental (DB1, ...DBN);
- gestionar (50) la composición de una base de datos ampliada de formas de onda de habla incluyendo dicha bases de datos básica (6) y dicha incremental de formas de onda de habla; y
- continuar (52) la síntesis del habla de dicha información textual utilizando dicha base de datos ampliada de formas de onda de habla.

2. Procedimiento según la reivindicación 1, en el que dicha etapa de proporcionar dicho terminal de usuario con dicha base de datos incremental incluye:

- verificar (46) si dicha base de datos incremental ya está presente en dicho terminal de usuario; y
- descargar (48), a través de una red de comunicaciones (12), dicha base de datos incremental en dicho terminal de usuario, si todavía no está presente.

3. Procedimiento según la reivindicación 2, en el que dicha etapa de descarga de dicha base de datos incremental en dicho terminal de usuario incluye:

- descargar una base de datos incremental de formas de onda de habla (92); y
- actualizar un archivo descriptor (94) de dicha base de datos ampliada de formas de onda de habla.

4. Procedimiento según la reivindicación 1, comprendiendo además la etapa de almacenar dicha base de datos incremental en una memoria caché en dicho terminal de usuario.

5. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto independientes de perfiles de usuario.

6. Procedimiento según la reivindicación 1, en el que dicha etapa de seleccionar (42) una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto se realiza según las reglas de contexto basadas en un perfil de usuario.

7. Procedimiento según la reivindicación 1, en el que dicha información textual es recuperada por dicho terminal de usuario a través de una red de comunicaciones (12).

8. Procedimiento según la reivindicación 1, incluyendo las etapas de:

- reemplazar dicha base de datos estática (6) de formas de onda de habla descargando, a través de una red de comunicaciones (12), una base de datos básica substituta en dicho terminal de usuario (2).

9. Procedimiento según cualquiera de las reivindicaciones 2, 3, 7 u 8, en el que dicha red de comunicaciones es una red de comunicaciones inalámbrica.

10. Arquitectura de servicio incluyendo un terminal de usuario para proporcionar a dicho terminal de usuario (2) síntesis del habla relativa a información textual, estando dicho terminal de usuario provisto de un motor de síntesis del habla (4) y una base de datos básica de formas de onda de habla (6), caracterizada por el hecho de que incluye:

- un servidor de contexto (14) para descargar una base de datos incremental (DB1, ...DBN) de formas de onda de habla en dicho terminal de usuario, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual;
- un gestor de base de datos (26) en dicho terminal de usuario (2) para gestionar la composición de una base de datos ampliada de formas de onda de habla para dicho motor de síntesis del habla incluyendo dicha base de datos básica (6) y dicha incremental (DB1, ...DBN) de formas de onda de habla, estando dicho motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada de formas de onda de habla no esté disponible todavía.

11. Arquitectura de servicio según la reivindicación 10, en la que dicho servidor de contexto (14) incluye:

- un gestor de contexto (22) para extraer información de contexto a partir de dicha información textual;
- un selector de contexto (24) para seleccionar una base de datos incremental (DB1, ...DBN) de formas de onda de habla asociada a dicha información de contexto y para descargar dicha base de datos incremental en dicho terminal de usuario.

12. Arquitectura de servicio según la reivindicación 10, comprendiendo además en dicho terminal de usuario (2) una memoria caché para almacenar temporalmente al menos una base de datos incremental descargada.

13. Arquitectura de servicio según la reivindicación 11, comprendiendo además un servidor de base de datos (8) que almacena una pluralidad de bases de datos incrementales (DB1, ...DBN) seleccionadas por dicho selector de contexto (24).

14. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto independientes de perfiles de usuario.

15. Arquitectura de servicio según la reivindicación 11, en la que dicho selector de contexto (24) funciona según las reglas de contexto basadas en un perfil de usuario.

16. Arquitectura de servicio según la reivindicación 10, comprendiendo además un servidor de contenido (16) para descargar dicha información textual en dicho terminal de usuario.

17. Arquitectura de servicio según cualquiera de las reivindicaciones 10 a 16, en la que dicha red de comunicaciones es una red de comunicaciones inalámbrica.

18. Terminal de usuario (2) para una red de comunicaciones incluyendo:

- una base de datos básica (6) de formas de onda de habla;
- medio (18) para recuperar información textual destinada a convertirse en habla sintetizada,

caracterizado por el hecho de que comprende:

- un gestor de bases de datos (26) para descargar una base de datos incremental de formas de onda de habla (DB1, ...DBN) desde un servidor de bases de datos, estando dicha base de datos incremental asociada a información de contexto asociada a dicha información textual, y para gestionar la composición de una base de datos de formas de onda de habla ampliada para dicho motor de síntesis de habla (4), incluyendo dicha base de datos básica (6) y dicha incremental de formas de onda de habla;
- un motor de síntesis del habla (4) operativo para iniciar la síntesis del habla de dicha información textual utilizando dicha base de datos básica de formas de onda de habla (6) siempre que dicha base de datos ampliada no esté disponible todavía.

19. Terminal de usuario según la reivindicación 18, comprendiendo además una memoria caché (10) para almacenar temporalmente al menos una base de datos incremental descargada.

20. Terminal de usuario según la reivindicación 18, en el que dicho motor de síntesis de habla (4) está basado en una síntesis de habla concatenativa.

21. Producto de programa informático, que se puede cargar en la memoria de al menos un ordenador y que incluye porciones de código de software para realizar el procedimiento de cualquiera de las reivindicaciones 1 a 9.

Patentes similares o relacionadas:

Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Sistema reproductor de mensajería por voz, del 22 de Marzo de 2018, de DEL RIO GARCIA, Victor Manuel: Sistema reproductor de mensajería por voz. Constituido a partir de un dispositivo basado en un microcontrolador y un chip Bluetooth, que recibe las notificaciones de mensajería […]

Codificador paramétrico para codificar una señal de audio multicanal, del 9 de Diciembre de 2015, de HUAWEI TECHNOLOGIES CO., LTD.: Un codificador paramétrico para codificar una señal de audio multicanal que está compuesta por una primera señal de audio y una segunda señal de audio, teniendo el codificador […]

Dispositivo electrónico portatil para conversión automática de texto impreso a voz sintética, del 18 de Junio de 2013, de RUBIO BALLESTER, Belén: 1. Dispositivo electrónico portátil para la conversión automática de texto impreso a voz sintética. El dispositivo se caracteriza por estar […]

METODO Y UN SISTEMA PARA ILUSTRAR SONIDO Y TEXTO, del 1 de Diciembre de 2008, de SONG, JIN K.: Un sistema para ilustrar sonido y texto, que comprende: un libro con páginas que incluyen ilustraciones y/o texto, al menos parte de las […]

METODOS Y APARATOS DE CODIFICACION DE AUDIO MEDIANTE REPLICACION DE BANDA ESPECTRAL Y RECONSTRUCCION DE ALTA FRECUENCIA QUE USAN ADICION ADAPTATIVA DE UN UMBRAL MINIMO DE RUIDO Y LIMITACION DE LA SUSTITUCION DE RUIDO, del 16 de Noviembre de 2008, de CODING TECHNOLOGIES AB: Aparato para mejorar un descodificador de fuente, generando el descodificador de fuente una señal descodificada mediante la descodificación de una […]

PROCEDIMIENTO DE COMPENSACION DE BORRADO DE TRAMAS EN UN CODIFICADOR DE VOZ DE VELOCIDAD DE TRANSMISION VARIABLE, del 1 de Febrero de 2008, de QUALCOMM INCORPORATED: Un procedimiento para compensar un borrado de trama en un codifcador de voz, que comprende: descuantificar un valor de retardo de paso y un primer valor delta para una trama […]