MÉTODO Y SISTEMA PARA LA SÍNTESIS DE SEGMENTOS DE VOZ.

Método y sistema para la síntesis de segmentos de voz.

La presente invención propone un nuevo método y sistema de síntesis de voz.

La invención introduce el uso de ventanas asimétricas en el tiempo de síntesis, facilitando por tanto una mejor adaptación a los cambios prosódicos, y reduciendo la distorsión e incorpora innovaciones en la estrategia de colocación de puntos de inicio y en la estrategia de modificaciones prosódicas.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201131569.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: RODRIGUEZ CRESPO, MIGUEL ANGEL, ESCALADA SARDINA,José Gregorio, ARMENTA LOPEZ DE VICUÑA,Ana.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G01L13/02 FISICA.G01 METROLOGIA; ENSAYOS.G01L MEDIDA DE FUERZAS, TENSIONES, PARES, TRABAJO, POTENCIA MECANICA, RENDIMIENTO MECANICO O DE LA PRESION DE LOS FLUIDOS (pesado G01G). › G01L 13/00 Dispositivos o aparatos para la medida de diferencias entre dos o más valores de la presión de fluidos. › utilizando órganos o pistones elásticamente deformables como elementos sensibles.

PDF original: ES-2401014_A2.pdf

 


Fragmento de la descripción:

Método y sistema para la síntesis de segmentos de voz

CAMPO TÉCNICO

La presente invención se refiere, en general, a tecnologías de voz. Más específicamente, se refiere a técnicas de procesamiento de señales de voz digital que se usan, entre otras aplicaciones, en convertidores de texto a voz.

DESCRIPCIÓN DE LA TÉCNICA ANTERIOR

Muchos sistemas de conversión de texto a voz actuales se basan en la concatenación de unidades acústicas tomadas de grandes bases de datos con multitud de unidades acústicas almacenadas, que se han grabado previamente. Los sistemas de este tipo se conocen como sistemas TTS (Text to Speech) basados en corpus. Este enfoque proporciona el nivel de calidad requerido para el uso de convertidores de texto a voz en muchas aplicaciones comerciales (principalmente en la generación de información hablada a partir de texto en sistemas interactivos telefónicos, pero también en una cantidad creciente de contenidos multimedia generados automáticamente para su difusión y en Internet) .

Como se ha dicho, los sistemas de texto a voz (TTS) basados en corpus se basan en la selección de unidades de grandes bases de datos que contienen muchos ejemplos de diferentes combinaciones de sonidos que difieren en su contexto fonético, prosodia, posición en la palabra y oración. La elección óptima de estas unidades según un criterio de costo mínimo (costos por unidad y costos de concatenación) reduce la necesidad de realizar cambios a las unidades, y mejora enormemente la calidad y naturalidad de voz resultante. Pero no es posible eliminar totalmente la necesidad de modificar y concatenar las unidades de voz grabadas previamente, puesto que los corpus son finitos y no pueden garantizar una cobertura completa para sintetizar de manera natural cualquier oración. Por lo tanto siempre permanecerá la necesidad de concatenar sonidos procedentes de diferentes segmentos de voz.

Las causas posibles de discontinuidad y defectos en la voz sintética son de diversos tipos:

1. La diferencia en las características del espectro de la señal en los puntos de concatenación: frecuencias y anchos de banda de las unidades formantes, forma y amplitud del envolvente espectral.

2. Pérdida de coherencia de fase entre las tramas de voz que están concatenadas. Éstas también pueden verse como desplazamientos relativos inconsistentes de la posición de las tramas de voz (ventanas) en ambos lados de un punto de concatenación. La concatenación entre tramas incoherentes provoca una desintegración o dispersión de la forma de onda que se percibe como una pérdida significativa de calidad. La voz resultante es no natural: mezclada y confundida.

3. Diferencias prosódicas (entonación y duración) entre las unidades grabadas previamente y la prosodia objetivo (deseada) para la síntesis de una unidad de voz.

Aunque la concatenación de unidades acústicas evita el difícil problema de modelar la producción de voz completamente humana, surge otro problema básico: cómo controlar la prosodia de los segmentos seleccionados que van a concatenarse, y cómo realizarlo sin complicaciones.

Por este motivo, los convertidores de texto a voz habitualmente emplean diversos métodos de procesamiento de señal que permiten modificar la prosodia de los segmentos de voz que van a concatenarse, y sintetizar una voz natural continua. Pero esta modificación debe degradar lo menos posible la señal original. La modificación de señal fue indispensable en los primeros sistemas de texto a voz (TTS) , con pequeños segmentos de voz (por ejemplo, difonos) y un número relativamente pequeño de unidades (normalmente una unidad por identidad de difono) . En estos sistemas la necesidad de realizar modificaciones (y grandes modificaciones) a las unidades es muy alta.

Existen diferentes métodos de representación y modificación de la señal de voz que se han usado en TTS.

Los métodos basados en ventanas de solapamiento y adición de la señal de voz en el dominio del tiempo (métodos PSOLA, “Pitch Synchronous Overlap and Add”) disfrutan una amplia aceptación y difusión. El más clásico de estos métodos se describe en “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using dyphones” (E. Moulines y F. Charpentier, Speech Communication, vol. 9, págs. 453-467, diciembre de 1990) . Este tipo de algoritmos se conocen como algoritmos síncronos de “pitch” o de detección de “pitch”, ya que las tramas de señal de voz (ventanas) se obtienen de una manera síncrona con el periodo fundamental (que en este ámbito técnico se asimila al concepto de pitch, similar al concepto de “tono” en español) . La ventanas de análisis deben centrarse en el momento de cierre de la glotis (GCI, “Instantes de cierre glotal”; Glottal Closure Instants) u otros puntos identificados dentro de cada periodo de la señal, que deben etiquetarse cuidadosa y consistentemente, para evitar alteraciones de puntos de unión de fase. El marcado o ubicación de estos puntos es una tarea laboriosa que no puede ser completamente automática (requiere ajustes) , y que afecta al funcionamiento del sistema. La modificación de la duración y frecuencia fundamental (F0) se lleva a cabo por medio de la inserción o borrado de tramas, y el alargamiento o estrechamiento de la misma (cada trama de síntesis es un periodo de la señal, y el desplazamiento o distancia entre dos tramas sucesivas es la inversa de la frecuencia fundamental) . Como en todos los algoritmos síncronos de ”pitch”, también se relacionan las transformaciones de F0 y de duración (una modificación de la F0 implica una modificación en la duración) . El único mecanismo para modificar la duración de alófono independientemente de la F0 (en cierta medida) es la replicación o borrado de trama. Puesto que los métodos PSOLA no incluyen un modelo explícito de la señal de voz, es difícil el trabajo de interpolación de las características espectrales de la señal en el punto de concatenación.

El método MBROLA (solapamiento y adición de resíntesis de multibanda; Multi-Band Resynthesis Overlap and Add) descrito en “Text-to-Speech Synthesis based on a MBE re-synthesis of the segments database” (T. Dutoit y

H. Leich, Speech Communication, vol. 13, págs. 435-440, 1993) trata el problema de la falta de coherencia de fase en las concatenaciones sintetizando una versión modificada de las partes sonoras de la base de datos de voz, forzándolas a tener una fase y F0 determinadas (idénticas en todos los casos) . Pero este proceso afecta la naturalidad de voz.

También se han propuesto métodos LPC (Linear Predictive Coding; codificación predictiva lineal) para síntesis de voz. Estos métodos limitan la calidad de voz que supone un modelo de único polo. El resultado depende en gran parte de si la voz original de referencia se adapta mejor o peor que las presuposiciones del modelo. Estos métodos a menudo presentan un problema con voces femeninas e infantiles.

También se han propuesto modelos de tipo sinusoidal, en los que la señal de voz se representa mediante una suma de componentes sinusoidales. Los parámetros de modelo sinusoidal pueden realizar de forma bastante directa e independiente de ambos la interpolación de parámetros tales como modificaciones prosódicas. En términos de garantizar la consistencia de acierto de puntos de fase, se han elegido algunos modelos para manipular una estimación de los momentos de cierre de la glotis (un proceso que no siempre da buenos resultados) . En otros casos se ha asumido simplificar suposiciones que consideran una fase mínima (lo que afecta la naturalidad de voz en algunos casos, provocándoles percibir más vacío y almacenado en memoria intermedia) .

Modelos sinusoidales han incorporado diferentes enfoques para resolver el problema de coherencia de fase. Por ejemplo, analizar la voz con ventanas que se mueven según la F0 de la señal, pero no necesita enfocarse en GCI. Estas tramas se sincronizan posteriormente en un punto común basado en información desde el espectro de fase de la señal, sin afectar la calidad de voz. Se aplica la propiedad de la transformada de Fourier en que añadir un espectro de componente lineal es equivalente al desplazamiento de fase de la forma de onda en el dominio del tiempo. Se fuerza la primera señal armónica que es un valor de fase resultante 0, y el resultado es que la voz de todas las ventanas está coherentemente enfocada sobre la forma de onda, independientemente de en qué punto particular en un periodo de la señal originalmente enfocada. Por tanto, las tramas corregidas pueden combinarse de manera coherente en la síntesis.

En el 2009,... [Seguir leyendo]

 


Reivindicaciones:

1. Un método para la síntesis de señal de voz, en el que cada alófono que va a reproducirse en la señal de voz sintetizada tiene un valor objetivo deseado de duración y un valor objetivo deseado de frecuencia fundamental, denominado F0 objetivo, y en el que la señal de voz que va a sintetizarse se aparta de las unidades de señal de voz grabadas previamente de un hablante de referencia, estando cada unidad de señal de voz compuesta por una secuencia de tramas de señal de voz, denominadas tramas originales, teniendo cada trama original una frecuencia fundamental F0, denominada F0 original, y en la que, dada la secuencia de alófonos que va a reproducirse, se selecciona una secuencia de tramas de señal de voz originales correspondiente a dicha secuencia de alófonos, comprendiendo el método las siguientes etapas:

a) Asignar una F0 objetivo a cada una de las tramas originales de la secuencia seleccionada de tramas originales, basada en la F0 objetivo del alófono correspondiente, siendo el periodo objetivo asignado a cada trama 1/F0 objetivo de la trama.

b) Generar la señal de voz, comprendiendo esta etapa:

b1) Modificar la secuencia de tramas originales, enventanando dicha secuencia de tramas originales estando las ventanas centradas en el punto de separación entre cada dos tramas consecutivas, siendo las ventanas asimétricas, calculándose la longitud de la ventana de manera independiente para ambas tramas consecutivas situada cada una a un lado del punto donde se centra la ventana, es decir, siendo la longitud del ala derecha de la ventana el periodo objetivo de la trama situada a la derecha del punto en el que se centra la ventana y siendo la longitud del ala izquierda de la ventana, el periodo objetivo de la trama situada a la izquierda del punto en el que se centra la ventana.

2. Un método según la reivindicación 1, en el que la separación entre tramas consecutivas de la secuencia seleccionada de tramas originales viene dada por la ubicación de puntos de tiempos de referencia denominados puntos de inicio que definirán el final de una trama y el principio de la siguiente trama y por consiguiente, la ubicación de los puntos de inicio determinará la longitud de cada trama y en el que la F0 original se calcula como la inversa de la longitud de cada trama

3. Un método según la reivindicación 1, en el que la etapa de asignación de una F0 objetivo a cada una de las tramas originales de la secuencia basada en la F0 objetivo del alófono correspondiente, comprende:

- Calcular una F0 objetivo inicial para cada una de las tramas originales de la secuencia según la F0 objetivo del alófono correspondiente y si la diferencia entre la F0 original y la F0 objetivo calculada es mayor que un primer umbral, dicha F0 objetivo calculada se asigna como la F0 objetivo para la trama y si no, la F0 original de la trama se asigna como la F0 objetivo para la trama;

- Para cada alófono que va a reproducirse, que no es un alófono oclusivo sin voz o en silencio, la duración estimada de alófono se calcula añadiendo la duración estimada de las correspondientes tramas que forman el alófono, siendo la duración estimada de cada trama la inversa de la F0 objetivo asignada a la trama en la etapa anterior; entonces esta duración de estimación se compara con la duración objetivo de alófono y si la diferencia es menor que un segundo umbral, la duración estimada se mantiene (46) y si la diferencia de las duraciones es mayor que el segundo umbral, entonces se cambia la duración del alófono insertando tramas

(46) si la duración estimada es menor que la duración objetivo, o borrando tramas (47) si la duración estimada es mayor que la duración objetivo;

- Como las tramas de cada alófono pueden haber cambiado en la etapa anterior, para cada trama, se calcula de nuevo la F0 objetivo según la F0 objetivo del alófono correspondiente y si la diferencia entre la F0 original y la F0 objetivo recalculada es mayor que un tercer umbral, se asigna dicha F0 objetivo calculada como la F0 objetivo para la trama y si no, se asigna la F0 original de la trama como la F0 objetivo para la trama.

4. Un método según la reivindicación 3, en el que para cada alófono, el valor de los umbrales segundo y tercero depende de si las tramas asignadas al alófono proceden de diferentes realizaciones de voz originales del alófono del hablante de referencia o de la misma realización de voz original del alófono.

5. Un método según la reivindicación 4, en el que el umbral segundo y tercero tienen un valor del 15% para los alófonos cuyas tramas proceden de dos diferentes realizaciones de voz originales del alófono y un valor del 25% para los alófonos cuyas tramas proceden de la misma realización de voz original del alófono.

6. Un método según la reivindicación 3, en el que la etapa de adición de tramas al alófono, si la duración estimada es menor que la duración objetivo, se realiza generando nuevas tramas usando las tramas enventanadas adyacentes al punto en el que desea añadirse una nueva trama y entonces estas tramas generadas se añaden a la secuencia de tramas enventanadas con un algoritmo de solapamiento y adición.

7. Un método según la reivindicación 2, que incluye además previo a la etapa a) , una etapa de ubicación de

los tiempos de inicio en la secuencia de tramas originales, que incluye las siguientes acciones:

- Identificar los tiempos en los que los componentes espectrales sinusoidales de la secuencia de tramas originales están en fase y se toman estos tiempos como la ubicación inicial de los puntos de inicio;

- Obtener una primera estimación de la frecuencia fundamental de cada trama y obtener una primera estimación del periodo fundamental como la inversa de la primera frecuencia fundamental estimada;

- En segmentos sin voz de la secuencia de tramas originales, la separación de los puntos de inicio se dará mediante el periodo fundamental estimado;

- En segmentos con voz en los que la diferencia entre la separación de los puntos de inicio al principio y el primer periodo fundamental estimado está por encima de un cierto cuarto umbral, se detectan el mínimo y el máximo de la señal de voz en una porción de longitud la mitad del periodo estimado alrededor del punto inicio siguiente esperado y:

• Si la distancia entre el mínimo y el máximo está por debajo de un quinto umbral, se selecciona el tiempo de cruce por cero entre el mínimo y máximo como un nuevo tiempo de inicio;

• Si la distancia entre el mínimo y el máximo está por encima del quinto umbral, entonces se selecciona el cruce por cero más cercano al punto inicio siguiente estimado como un nuevo tiempo de inicio.

- En segmentos con voz en los que la diferencia entre la separación de la ubicación inicial de los puntos de inicio y el periodo estimado está por debajo del cuarto umbral, la ubicación inicial de puntos de inicio se toma como la ubicación definitiva de los puntos de inicio.

8. Un método según la reivindicación 7, en el que la primera estimación de la frecuencia fundamental se realiza usando un algoritmo de detección de periodo fundamental.

9. Un método según la reivindicación 7, en el que el cuarto umbral es el 50% y el quinto umbral es el 10%.

10. Un método según la reivindicación 1, en el que la etapa de generación de las señales de voz incluye además:

b2) tras enventanar las tramas, ajustar la separación de las tramas según su periodo objetivo;

b3) añadir las tramas ajustadas enventanadas usando un algoritmo de solapamiento y adición.

11. Un método según la reivindicación 1, en el que la F0 objetivo para el alófono es una F0 de contorno objetivo compuesta por tres valores, en el principio, en el centro y en el final del alófono.

12. Un sistema que comprende medios adaptados para llevar a cabo el método según cualquier reivindicación anterior.

13. Un programa informático que comprende medios de código de programa informático adaptados para llevar a cabo el método según cualquiera de las reivindicaciones 1 a 11 cuando dicho programa se ejecuta en un ordenador, un procesador de señal digital, un disposición de puertas programables en campo, un circuito integrado de aplicación específica, un microprocesador, un microcontrolador, o cualquier otra forma de hardware programable.


 

Patentes similares o relacionadas:

Captador de presión óptico con menos tensiones mecánicas, del 4 de Marzo de 2020, de Opsens Solutions Inc: Sensor óptico de presión , que comprende: - una envolvente del sensor; - una celda óptica de presión de interferómetro de Fabry-Perot montada en el interior […]

Recolocación de diafragma para cápsula de presión utilizando la detección de posición, del 9 de Agosto de 2017, de GAMBRO LUNDIA AB: Un sistema de tratamiento extracorpóreo que incluye un sistema de medición de presión que comprende: un cuerpo cápsula de presión que […]

REPRODUCTOR MULTIMEDIA Y SINTONIZADOR DE TELEVISIÓN ABIERTA O DE PAGO, ACCESIBLE A PERSONAS CON DISCAPACIDAD VISUAL MEDIANTE UNA SÍNTESIS DE VOZ, del 1 de Septiembre de 2016, de BLANCO CAREAGA, Ernesto: 1. Reproductor multimedia y sintonizador de televisión abierta o de pago, accesible a personas con discapacidad visual mediante una síntesis de voz, formado por un […]

Imagen de 'DISPOSITIVO INDICADOR DE PRESIÓN PARA BOTELLAS DE VINOS'DISPOSITIVO INDICADOR DE PRESIÓN PARA BOTELLAS DE VINOS, del 17 de Marzo de 2016, de FIND IT IMPORT EXPORT S.L: 1. Dispositivo indicador de presión para botellas de vinos, tales como vinos tintos, blancos, dulces o espumosos, se caracteriza porque está constituido […]

Imagen de 'Dispositivo de transductor electrónico de presión'Dispositivo de transductor electrónico de presión, del 27 de Septiembre de 2013, de ELBI INTERNATIONAL S.P.A.: Dispositivo de transductor electrónico de presión, que comprende: - una envoltura rígida hueca que muestra unas aberturas primera (8, 8a) […]

TRANSMISOR MANOMETRICO DIFERENCIAL INDUCTIVO., del 16 de Junio de 2004, de MTU MOTOREN- UND TURBINEN-UNION MINCHEN GMBH: La invención se refiere a un indicador de diferencia de presión para un motor de turbina de gas. El indicador de diferencia de presión proporciona […]

MANOMETRO DIFERENCIAL., del 1 de Noviembre de 2002, de WIKA ALEXANDER WIEGAND GMBH & CO.: Manómetro para la medición de sobrepresiones, de vacío y de presiones diferenciales con una estructura (2a, 2b, 2c) de membrana, que subdivide herméticamente […]

Imagen de 'SENSOR DE PRESION CON UN CONDUCTO DE VENTILACION'SENSOR DE PRESION CON UN CONDUCTO DE VENTILACION, del 1 de Febrero de 2008, de NAGANO KEIKI CO., LTD.: Un sensor de presión que comprende: un elemento sensor de presión con una superficie de recepción de presión para el fluido a medir y una superficie de recepción de la presión […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .