PROCEDIMIENTO PARA LA SINTESIS DE DIFONEMAS Y/O POLIFONEMAS A PARTIR DE LA ESTRUCTURA FRECUENCIAL REAL DE LOS FONEMAS CONSTITUYENTES.

La presente invención se refiere al procedimiento para la generación de la señal acústica de voz sintética de sonidos a partir de una mínima información previa de los fonemas constituyentes,

obtenidos por segmentación de una grabación previa; dicha información mínima consiste en la envolvente espectral correspondiente a un único periodo situado en la zona más estacionaria del fonema.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201000256.

Solicitante: UNIVERSITAT POLITECNICA DE CATALUNYA.

Nacionalidad solicitante: España.

Inventor/es: ALVAREZ FLOREZ,JESUS ANDRES, MORENO EGUILAZ,MANUEL, VILA FUMAS,PERE, MISERACHS TEIXIDOR,JORDI, SANCHEZ ALVIRA,JORDI, AYMERICH CAPDEVILA,NIVARD, ARMISEN MORELL,ALBERT, MUSQUERA MORENO,MARC.

Fecha de Publicación: 7 de Junio de 2012.

Clasificación Internacional de Patentes:

G10L13/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 13/00 Síntesis de la voz; Sistemas de síntesis de la voz a partir de texto. › Métodos de producción de voz sintética; Sintetizadores de voz.
G10L13/06 G10L 13/00 […] › Unidades de voz elementales utilizadas en sintetizadores de voz; reglas de concatenación.
G10L13/08 G10L 13/00 […] › Análisis de texto o generación de parámetros para la síntesis de la voz a partir de texto, p. ej. conversión grafema-fonema, generación de métrica o determinación de la entonación o de la acentuación.

PDF original: ES-2382319_A1.pdf

Fragmento de la descripción:

Procedimiento para la síntesis de difonemas y/o polifonemas a partir de la estructura frecuencial real de los fonemas constituyentes.

Sector de la técnica

Sistemas de síntesis de voz.

Antecedentes de la invención

Los sistemas de síntesis de voz actuales se basan en la concatenación de segmentos de voz natural para lo que es necesario un conjunto de palabras grabadas previamente, denominado corpus. Este corpus ha de ser lo suficientemente grande ya que de él se obtendrán los segmentos de voz a concatenar dependiendo de: su posición relativa, características entonativas y duración. La voz ha de ser segmentada a múltiples niveles: semifonemas, fonemas, difonemas, trifonemas, sílabas y hasta palabras o grupos de palabras.

Los sistemas de síntesis de voz actuales basados en la concatenación de segmentos de voz realizan el proceso de síntesis en las siguientes etapas:

a) Selección de unidades previamente segmentadas.

b) Modificación y ajuste de sus características suprasegmentales para la adaptación prosódica al nuevo contexto.

c) Concatenación de los segmentos de voz mediante suma en el dominio temporal.

Objeto y Resumen de la invención

La presente invención pretende resolver el problema de la generación de la señal acústica de voz sintética sin la necesidad de disponer de un gran corpus, por tanto, con una mejora desde el punto de vista económico y del tiempo de elaboración.

De acuerdo con este objetivo la presente invención se refiere al proceso de generación de señales que reproduzca el tránsito entre estados estacionarios de los fonemas a generar.

La transición entre estados estacionarios de los fonemas a generar es posible debido a que la señal de voz natural está compuesta por una sucesión de estados cuasi estacionarios correspondientes a los fonemas que la componen, y a las transiciones continuas de unos fonemas a otros.

Los fonemas sobre los que se transita para la obtención de señales han de ser obtenidos en una fase previa en la que voces grabadas son segmentadas para la obtención de los fonemas constituyentes.

El proceso de tránsito entre fonemas descrito permite la preasignación de las evolventes de las características prosódicas implícitas en la señal portadora generada, como entonación, intensidad y duración de los fonemas; necesario para la transmisión de un mensaje emocional que se acerque en calidad al habla natural.

El procedimiento para el tránsito permite, además de lo expuesto en el párrafo anterior, evolucionar desde la composición frecuencial del fonema de origen al de destino por caminos en los que en ningún momento la percepción sonora es disonante.

Para poder cumplir con las características mencionadas, durante el tránsito se ha de poder modificar la frecuencia fundamental y la energía de los fonemas constituyentes.

También se ha de producir esta transición sin que durante la misma se produzcan discontinuidades audibles.

En un primer paso se procede a la obtención de los coeficientes de la serie de Fourier de los fonemas sobre los que se aplicará el tránsito.

Cada uno de los fonemas queda caracterizado por una serie de armónicos. Cada armónico es un tono puro en fase, frecuencia y amplitud.

De acuerdo con la realización elegida, el paso entre fonemas se lleva a cabo mediante la transición continua entre parejas de armónicos del mismo orden del estado estacionario del fonema inicial y el estado estacionario del fonema final.

El estado inicial respecto al final, sobre los que se realiza el tránsito, puede contener diferente número de armónicos. Para ello se incorporan armónicos de amplitud cero al estado que se encuentre en minoría hasta completar las parejas de armónicos entre el estado inicial y el final.

Se establecen los puntos temporales de tránsito, tiempo inicial y final, y por tanto su duración.

Con el fin de evitar discontinuidades en la señal generada se ha de imponer que la transición entre el estado inicial y final tenga continuidad en amplitud, continuidad en fase instantánea y continuidad en frecuencia instantánea.

En la transición de cada pareja de armónicos, del fonema inicial y del fonema final, se fuerza una transición de fases en tres tramos.

Un primer tramo lineal para valores temporales inferiores al tiempo inicial de tránsito, cuyo valor de fase corresponde a los componentes del estado inicial.

Un segundo tramo cuadrático para valores temporales comprendidos entre el tiempo inicial y final de tránsito.

El segundo tramo ha de ser cuadrático para asegurar la continuidad de la frecuencia instantánea en el inicio y final de la transición.

Un tercer tramo lineal para valores temporales superiores al tiempo final de tránsito, cuyo valor de fase corresponde a los componentes del estado final.

La transición de frecuencias y fases se puede llevar a cabo componente a componente estableciendo una función de tránsito de frecuencias e imponiendo el valor de fase instantánea al inicio de la transición así como al final.

Preferiblemente, la frecuencia fundamental de la señal de transición se debe situar entre las frecuencias fundamentales de la señal inicial y final; así se evita la generación de ruidos debidos al aumento y después a la disminución (o viceversa), en un breve espacio de tiempo, de la frecuencia de la señal.

En este caso, debido a que la pendiente de la fase corresponde a la frecuencia instantánea, el valor de esta pendiente ha de situarse entre los valores de pendiente de fase del estado inicial y final.

Dependiendo de la evolución de las fases del estado inicial y final, la fase de la señal de transición puede tener una pendiente mayor, menor o situarse en un valor intermedio de la pendiente del estado inicial y final.

En algunas realizaciones, para evitar la obtención de una señal de transición con una frecuencia superior o inferior a las frecuencias de los estados inicial y final se realiza una corrección sumándole o restándole una fase llamada α a la fase del componente del fonema inicial o final.

El valor de esta fase α provoca un retardo o un adelanto en el tiempo de la componente a la que se le ha aplicado la corrección de fase α.

Con el fin de que el efecto de la corrección α afecte a todo el fonema, a cada componente de fase del fonema se le aplica la corrección de fase α.

Para minimizar el recorrido de corrección, la obtención del valor de la fase a se inicia con la corrección previa de \pm 2 π radianes a los componentes de fase del fonema a los que se le suma o resta la fase α.

La fase α es un valor de compromiso de los diferentes componentes del fonema: componentes de fase o componentes de fase y amplitud, en el que se tiene en cuenta tanto el fonema inicial como el final.

Otro aspecto a considerar en el tránsito de los estados inicial y final es la función que sigue la transición.

Esta función de transición ha de proporcionar unos resultados sintéticos que se ajusten al patrón de voz real.

De acuerdo con la realización preferida, el procedimiento de transición, en su conjunto, depende de distintos factores para aplicar de forma específica el tránsito entre los estados inicial y final:

a) Camino de fases a seguir para convertir el fonema 1 en el 2.

b) Función de tránsito.

c) Punto de tránsito.

d) Duración del tránsito.

Breve descripción de los dibujos

Para mayor compresión de cuanto se ha expuesto se acompañan unos dibujos sólo a título de ejemplo no limitativo.

En los dibujos:

La figura 1 es una gráfica que muestra el espectro frecuencial y su envolvente, en módulo, correspondiente al fonema "m" de la palabra "anomena"; El eje de abscisas tiene unidades de frecuencia (Hz); El eje de ordenadas muestra el módulo en escala logarítmica;

La figura 2 es una gráfica... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento para la síntesis de difonemas y/o polifonemas para la generación de voz sintética caracterizado por el hecho de dicha generación se realiza mediante la transición de los fonemas que componen los difonemas y/o polifonemas a generar a partir de un único período de la estructura frecuencial real de los fonemas constituyentes.

2. Procedimiento según la reivindicación 1, caracterizado por el hecho de que el tránsito de los fonemas constituyentes se realiza entre estados estacionarios de los fonemas a generar.

3. Procedimiento según la reivindicación 1, caracterizado por el hecho de que la transición entre fonemas permite la modificación, si es necesario, de la frecuencia fundamental y de la energía de los fonemas constituyentes.

4. Procedimiento según la reivindicación 3, caracterizado por el hecho de que la modificación de la frecuencia fundamental y la energía de los fonemas constituyentes permite, si es necesario, la asignación de características prosódicas a la señal portadora generada.

5. Procedimiento según la reivindicación 1, caracterizado por el hecho de que los fonemas sobre los que se transita se caracterizan como coeficientes de Fourier componiendo a cada fonema en una serie de armónicos.

6. Procedimiento según la reivindicación 1 y 5, caracterizado por el hecho de que la transición entre fonemas se realiza mediante una transición continua entre parejas de armónicos, pareja compuesta por un armónico del fonema inicial y un armónico del fonema final.

7. Procedimiento según la reivindicación 1, 5 y 6, caracterizado por el hecho de que se incorporan armónicos de amplitud cero, si es necesario, al conjunto de armónicos que componen un fonema, si este se encuentra en minoría respecto al otro fonema, hasta completar las parejas de armónicos entre los dos fonemas.

8. Procedimiento según la reivindicación 1 a 7, caracterizado por el hecho de que el proceso de la transición entre fonemas se descompone en al menos tres tramos:

(a) primer tramo temporal previo al inicio del tránsito en el que los valores de la señal generada corresponden a los valores del fonema que inicia la transición;

(b) segundo tramo temporal posterior al inicio del tránsito y anterior al final de la transición; y

(c) tercer tramo temporal posterior al final del tránsito en el que los valores de la señal generada corresponden a los valores del fonema que finaliza la transición.

9. Procedimiento según la reivindicación 1 y 8, caracterizado por el hecho de que el segundo tramo temporal de la transición entre fonemas, la frecuencia fundamental de la señal generada se encuentre en un valor intermedio de las frecuencias del tramo temporal primero y tercero.

10. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica sumándole un valor de fase a las fases de los armónicos del fonema final.

11. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica sumándole un valor de fase a las fases de los armónicos del fonema inicial.

12. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica restándole un valor de fase a las fases de los armónicos del fonema final.

13. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica restándole un valor de fase a las fases de los armónicos del fonema inicial.

14. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica restándole: un valor de fase a las fases de los armónicos del fonema final y otro valor de a las fases de los armónicos del fonema inicial.

15. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica sumándole: un valor de fase a las fases de los armónicos del fonema final y otro valor de fase a las fases de los armónicos del fonema inicial.

16. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica sumándole un valor de fase a las fases de los armónicos del fonema final y restándole un valor de fase a las fases de los armónicos del fonema inicial.

17. Procedimiento según la reivindicación 9, caracterizado por el hecho de que en el caso de tener que corregir la frecuencia fundamental de la señal generada para situarla en un valor intermedio de las frecuencias del tramo temporal primero y tercero, la corrección se aplica restándole un valor de fase a las fases de los armónicos del fonema final y sumándole un valor de fase a las fases de los armónicos del fonema inicial.

18. Procedimiento según la reivindicación 1 a 17, caracterizado por el hecho de que la transición entre parejas de armónicos en el tramo temporal segundo, siga al menos, una función de transición de la componente de fase que conforma la señal generada.

Patentes similares o relacionadas:

Codificación, modificación y síntesis de segmentos de voz, del 17 de Diciembre de 2014, de TELEFONICA, S.A.: Procedimiento de análisis, modificación y síntesis de señales de voz que comprende: -a. una fase de localización de ventanas de análisis mediante […]

DISPOSITIVO Y PROCEDIMIENTO DE SINTESIS DEL HABLA., del 1 de Marzo de 2007, de MATSUSHITA ELECTRIC INDUSTRIAL CO., LTD.: Aparato de síntesis del habla para sintetizar el habla consistente en una pluralidad de segmentos de habla, cada uno de los cuales comprende por lo menos un fonema, […]

IDENTIFICACION DE REGIONES DE SOLAPADO DE UNIDADES PARA UN SISTEMA DE SINTESIS DE HABLA POR CONCATENACION., del 1 de Mayo de 2004, de MATSUSHITA ELECTRIC INDUSTRIAL CO., LTD. FRANK, ARMIN: Un método para identificar una región de solapado de unidades para la síntesis de habla por concatenación, que comprende: la definición de un modelo […]

SINTETIZADOR DE HABLA BASADO EN FOMANTES QUE UTILIZA UNA CONCATENACION DE SEMISILABAS CON TRANSICION INDEPENDIENTE POR FUNDIDO GRADUAL EN LOS DOMINIOS DE LOS COEFICIENTES DE FILTRO Y DE FUENTES., del 16 de Abril de 2004, de MATSUSHITA ELECTRIC INDUSTRIAL CO., LTD.: Un sintetizador de habla concatenativo, que comprende: una base de datos que contiene (a) unos datos de formas de onda de semisílabas asociados con una pluralidad […]

SISTEMA DE SINTESIS DE LA PALABRA Y BASE DE DATOS DE FORMAS DE ONDAS DE REDUNDANCIA REDUCIDA., del 1 de Agosto de 2003, de MATSUSHITA ELECTRIC INDUSTRIAL CO., LTD.: SE REVELA UN SISTEMA DE SINTESIS DEL HABLA QUE UTILIZA UNA BASE DE DATOS DE FORMAS DE ONDA QUE POSEE UNA REDUNDANCIA REDUCIDA. CADA UNA DE LAS FORMAS DE ONDA DE UN CONJUNTO […]

PROCEDIMIENTO Y DISPOSICION PARA LA DETERMINACION DE CARACTERISTICAS ESPECTRALES DE LA VOZ EN UNA EXPRESION VERBAL., del 16 de Noviembre de 2002, de SIEMENS AKTIENGESELLSCHAFT: Bastidor con forma de marco, en especial bastidor de pared lateral para palets, que está compuesto de varios listones de perfil que rodean a una […]

PROCEDIMIENTO Y DISPOSITIVO PARA LA SINTESIS DE SEÑALES VOCALES., del 16 de Octubre de 2002, de MATSUSHITA ELECTRIC INDUSTRIAL CO., LTD.: UN APARATO DE SINTESIS DEL HABLA QUE DEFORMA Y CONECTA LOS TROZOS DEL HABLA PARA SINTETIZAR EL HABLA, TIENE UNA BASE DE DATOS, DE FORMAS DE ONDA […]

PROCEDIMIENTO DE SELECCION DE UNIDADES DE SINTESIS, del 16 de Octubre de 2009, de THALES: Procedimiento de selección de unidades de síntesis de una información que se presenta en forma de un segmento de palabra a codificar y que puede descomponerse en […]