CODIFICACIÓN Y DECODIFICACIÓN DEPENDIENTE DE UNA FUENTE DE MÚLTIPLES LIBROS DE CÓDIGOS.

Procedimiento para codificar datos de audio, comprendiendo: - agrupar dichos datos de audio en tramos,

conteniendo cada tramo un número de muestras igual a la anchura de una ventana de análisis correspondiente; - clasificar los tramos en clases; - para cada clase, transformar los tramos pertenecientes a la clase en vectores de parámetro de filtro; - para cada clase, calcular un libro de códigos de filtro (CF) basándose en los vectores de parámetro de filtro pertenecientes a la clase; segmentar cada tramo en sub-tramos, definiendo una segunda ventana de análisis de muestra como un sub-múltiplo de la anchura de la primera ventana de análisis de muestra; y segmentar cada tramo en un número de sub-tramos correlacionados con el ratio entre las anchuras de la primera y la segunda ventana de análisis de muestra; - para cada clase, transformar los sub-tramos pertenecientes a la clase en vectores de parámetros de fuente, que se extraen de los sub-tramos aplicando una transformación por filtrado (T2) basada en el libro de códigos de filtros (CF) calculado para la clase correspondiente; - para cada clase, calcular un libro de códigos de fuente (CS) basándose en los vectores de parámetros de fuente pertenecientes a la clase; y - codificar los datos basándose en los libros de códigos de filtros (CF) y de fuente (CS) calculados.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2006/011431.

Solicitante: LOQUENDO SPA.

Nacionalidad solicitante: Italia.

Dirección: VIA ARRIGO OLIVETTI 6 10100 TORINO ITALIA.

Inventor/es: COPPO,PAOLO, MASSIMINO,Paolo, VECCHIETTI,Marco.

Fecha de Publicación: 21 de Octubre de 2011.

Fecha Solicitud PCT: 29 de Noviembre de 2006.

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2366551_T3.pdf

Fragmento de la descripción:

CAMPO TÉCNICO DE LA INVENCIÓN

La presente invención se refiere en general a la codificación de señales, y en particular a la codificación de señales de voz/audio. Más detalladamente, la presente invención se refiere a la codificación y decodificación de señales de voz/audio a través del modelado de un número variable de libros de códigos, proporcionando la calidad de la señal reconstruida y la ocupación de memoria/ancho de banda de transmisión. La presente invención proporciona una aplicación ventajosa, pero no exclusiva, en la síntesis de voz, en particular en la síntesis de voz basada en corpus, en la que la señal de fuente se conoce a priori, y a la que la siguiente descripción hará referencia sin que implique ninguna pérdida de generalidad.

ANTECEDENTES DE LA TÉCNICA

En el campo de la síntesis de voz, basada en particular en la concatenación de segmentos de sonido para obtener la frase deseada, aumenta la demanda de representar el material de voz utilizado en el proceso de síntesis de forma compacta. El CELP (del ingles, Code Excited Linear Prediction) es una técnica muy conocida para representar una señal de voz de forma compacta, y se caracteriza por la adopción de un procedimiento, conocido como A-b-S (del ingles, Analysis by Synthesis), que consiste en separar la señal de voz en componentes de excitación y de secuencia vocal, codificando los coeficientes de excitación de predicción lineal (LCPs) para el componente de secuencia vocal utilizando un índice que apunta a una serie de representaciones almacenadas en un libro de códigos. La selección del mejor índice para la excitación y para la secuencia vocal se escoge comparando la señal original con la señal reconstruida. Una descripción completa de la técnica CELP se encuentra en Wai C. Chu, “Speech Coding Algorithms”, ISBN 0-471-37312-5, p. 299-324. A su vez, las versiones modificadas del CELP se describen en US 2005/197833, US 2005/096901 y US 2006/206317. [0003] Otros ejemplos de la técnica CELP se describen en Shigeo et A1. "Very low bit rate speech coding based on a phoneme recognition", Procedimientos del simposio internacional sobre teoría de la información (ISIT), Nueva York, IEEE, US, 19 de junio de 1988, páginas 71-72, y en Hernández-Gómez et Al., "Phonetically driven CELP coding using self-organizing maps", Procedimientos de la conferencia internacional sobre acústica, voz y procesamiento de señales (ICASSP Nueva York, IEEE, US, vol. 4, 27 de abril de 1993, páginas 628-631. [0004] El documento WO 99/59137 describe un procedimiento para codificar voz que incluye la división de una señal de voz en una serie de tramos, convirtiendo cada uno de los tramos en una señal codificada que incluye parámetros de filtrado asignando series consecutivas de segmentos, de modo que cada segmento corresponde a una clasificación de una manifestación del lenguaje particular, y cuantificando el tramo o tramos en un segmento mediante la referencia a un libro de códigos específico de la clasificación del segmento. [0005] La figura 1 muestra un diagrama de bloques de la técnica CELP para la codificación de señales de voz, en el que la secuencia vocal y la fuente glotal son modeladas mediante una fuente de impulso (excitación), indicado por F1-1, y por un filtro digital de variante temporal (filtro de síntesis), indicado por F1-2. OBJETO Y RESUMEN DE LAINVENCIÓN. [0006] El solicitante ha observado que, en general, en los procedimientos conocidos, los componentes de excitación y de secuencia vocal son modelados independientemente del hablante, lo que conduce a una codificación de la señal de voz con una ocupación de memoria reducida de la señal original. Por el contrario, el solicitante también ha observado que la aplicación de este tipo de moldeado provoca una reconstrucción imperfecta de la señal original: de hecho, cuanto menor sea la ocupación de la memoria, mayor será la degradación de la señal reconstruida respecto a la señal original. Este tipo de codificación toma el nombre de codificación con pérdidas (en el sentido de pérdida de información). En otras palabras, el solicitante ha observado que el libro de códigos del que se escoge el índice de excitación y el libro de códigos del que se escoge el mejor modelo de secuencia modular no varían sobre la base de la señal de voz que está destinada a ser un código, sino que son fijos e independientes de la señal de voz, porque los libros de códigos utilizados se construyen para trabajar para una multitud de voces y no son optimizados para las características de una sola voz. [0007] El objetivo de la presente invención es por tanto proporcionar una técnica de codificación y decodificación efectiva y eficiente que dependa de la fuente, y que permita una mejor proporción entre la calidad de la señal reconstruida y el ancho de banda de ocupación/transmisión de la memoria que se quiera alcanzar con respecto a las técnicas de codificación y decodificación conocidas independientes de la fuente. [0008] Este objeto se logra mediante la presente invención en que se refiere a un procedimiento de codificación, un procedimiento de decodificación, un codificador y productos de software como se define en las reivindicaciones adjuntas. [0009] La presente invención consigue el objetivo arriba mencionado considerando una definiendo de un grado de aproximación en la representación de la señal original en la forma codificada basándose en la reducción deseada de la ocupación de memoria o el ancho de banda de transmisión disponible. En particular, la presente invención incluye agrupar datos en tramos; clasificar los tramos en clases; para cada clase, transformar los tramos pertenecientes a la clase en vectores de parámetros de filtro; para cada clase, calcular un libro de códigos de filtros basándose en los vectores de parámetros de filtros pertenecientes a la clase; segmentar cada tramo en sub-tramos; para cada clase, transformar los sub-tramos pertenecientes a la clase en vectores de parámetro origen, que se extraen de los sub-tramos aplicando una transformación de filtro asada en el libro de códigos de filtro computado para la clase correspondiente; para cada clase, calcular un libro de códigos de fuente basándose en los vectores de parámetros de fuente pertenecientes a la clase; y codificar los datos basándose en los libros de códigos de origen. [0010] El término clase identifica aquí una categoría de unidades o sub-unidades audibles básicas, como fonemas, demifonemas, difonemas, etc. [0011] Según un primer aspecto, la invención se refiere a un procedimiento para codificar datos de audio, comprendiendo:

• agrupar datos en tramos;

• clasificar los tramos en clases:

• para cada clase, transformar los tramos pertenecientes a la clase en vectores de parámetros de filtro;

• para cada clase, calcular un libro de códigos de filtro basándose en los vectores de parámetros de filtro pertenecientes a la clase;

• segmentar cada tramo en sub-tramos; • para cada clase, transformar los sub-tramos pertenecientes a la clase en vectores de parámetros de fuente, que se extraen de los sub-tramos aplicando una transformación por filtrado basada en el libro de códigos de filtros computado para la clase correspondiente;

• para cada clase, calcular un libro de códigos de fuente basándose en los vectores de parámetros de fuente pertenecientes a la clase; y

• codificar los datos basándose en los libros de códigos de filtros y de fuente computados.

Preferiblemente, los datos son muestras de una señal de voz, y las clases son clases fonéticas, p ej., demifonema o fracciones de clases de demifonema. [0013] Preferiblemente, la clasificación de los tramos en clases incluye:

• si la cardinalidad de una clase satisface cierto criterio de clasificación, asociar los tramos con la clase;

• si la cardinalidad de una clase no satisface dicho criterio de clasificación, asociar los tramos con sub-clases para conseguir una distribución uniforme de la cardinalidad de las sub-clases, en la que el criterio de clasificación está definido por una condición en la que la cardinalidad de la clase está por debajo de un umbral predeterminado y en el que los datos son muestras de una señal de voz, y en el que las clases son clases fonéticas y las sub-clases son clases de demifonemas.

Preferiblemente, los datos son muestras de una señal de voz, los vectores de parámetros de filtro obtenidos de los tramos son tales que pueden modelar una secuencia vocal de un hablante, y los vectores de parámetros de filtro son coeficientes de predicción lineales. [0015] Preferiblemente, transformar los tramos pertenecientes a la clase en vectores... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento para codificar datos de audio, comprendiendo:

• agrupar dichos datos de audio en tramos, conteniendo cada tramo un número de muestras igual a la anchura de una ventana de análisis correspondiente;

• clasificar los tramos en clases; • para cada clase, transformar los tramos pertenecientes a la clase en vectores de parámetro de filtro;

• para cada clase, calcular un libro de códigos de filtro (CF) basándose en los vectores de parámetro de filtro pertenecientes a la clase; segmentar cada tramo en sub-tramos, definiendo una segunda ventana de análisis de muestra como un sub-múltiplo de la anchura de la primera ventana de análisis de muestra; y segmentar cada tramo en un número de sub-tramos correlacionados con el ratio entre las anchuras de la primera y la segunda ventana de análisis de muestra;

• para cada clase, transformar los sub-tramos pertenecientes a la clase en vectores de parámetros de fuente, que se extraen de los sub-tramos aplicando una transformación por filtrado (T2) basada en el libro de códigos de filtros (CF) calculado para la clase correspondiente;

• para cada clase, calcular un libro de códigos de fuente (CS) basándose en los vectores de parámetros de fuente pertenecientes a la clase; y

• codificar los datos basándose en los libros de códigos de filtros (CF) y de fuente (CS) calculados.

2. Procedimiento según la reivindicación 1, en el que los datos son muestras de una señal de voz, y en el que las clases son clases fonéticas.

3. Procedimiento según la reivindicación 1, en el que dicha transformación por filtrado (T2) es una función de filtrado inversa basada en el libro de código de filtro calculado previamente.

4. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la clasificación de los tramos en clases incluye clasificar cada tramo en solo una clase y, si un tramo coincide con diversas clases, se clasifica el tramo en la clase más cercana según una distancia métrica determinada.

5. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la etapa de calcular un libro de códigos de filtro para cada clase basándose en los vectores de parámetro de filtro pertenecientes a la clase incluye:

• calcular vectores de parámetros de filtro específicos que minimizan la distancia global entre ellos y lo vectores de parámetros de filtro en la clase, y basándose en una distancia métrica dada; y

• calcular el libro de códigos de filtro basándose en los vectores de parámetro de filtro específicos.

6. Procedimiento según la reivindicación 5, en el que la distancia métrica depende de la clase a la que cada vector de parámetro de filtro pertenece.

7. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el cálculo de un libro de códigos de fuente para cada basándose en los vectores de parámetro de fuente pertenecientes a la clase incluye:

• calcular vectores de parámetros de fuente específicos que minimizan la distancia global entre ellos y lo vectores de parámetros de fuente en la clase, y basándose en una distancia métrica dada; y

• calcular el libro de códigos de fuente basándose en los vectores de parámetro de fuente específicos.

8. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la codificación de los datos basándose en los libros de códigos de filtros y de fuente calculados incluye:

• asociar a cada tramo los índices que identifican un vector de parámetro de filtro en el libro de códigos de filtro y los vectores de parámetros de fuente en el libro de códigos de fuente que representan las muestras en el tramo y respectivamente en los sub-tramos respectivos.

9. Un codificador configurado para implementar el procedimiento de codificación según cualquiera de las reivindicaciones anteriores.

10. Codificador según la reivindicación 9, en el que las distorsiones de la señal de voz utilizadas más frecuentemente son codificadas utilizando libros de códigos de filtro y/o fuente con mayor cardinalidad, mientras que las distorsiones de la señal de voz utilizadas con menos frecuencia son codificadas utilizando los libros de códigos de filtro y/o fuente con menor cardinalidad.

11. Codificador según la reivindicación 9, en el que una primera porción de la señal de voz se preprocesa para crear dichos libros de códigos de filtro y de fuente, siendo los mismos libros de códigos de filtro y de fuente utilizados en la codificación a tiempo real de la señal de voz y teniendo parámetros acústicos y fonéticos homogéneos con dicha primera porción.

12. Codificador según la reivindicación 11, en el que dicha señal de voz que se va a codificar está sujeta al reconocimiento de voz automático a tiempo real con el fin de obtener una cadena fonética correspondiente necesaria para la codificación.

13. Producto de software que se puede cargar en la memoria de un sistema de procesamiento de un codificador y que comprende porciones de código de software para implementar, cuando el programa se ejecuta en el sistema de procesamiento del codificador, el procedimiento de codificación según cualquiera de las reivindicaciones 1 a 8.

14. Procedimiento para decodificar datos codificados según el procedimiento de codificación de cualquiera de las reivindicaciones anteriores, incluyendo:

• identificar la clase de un tramo que e va a reconstruir basándose en los índices que identifican el vector de parámetro de filtro en el libro de códigos de filtro (CF) y los vectores de parámetro de fuente en el libro de códigos de fuente (CS) que representan las muestras en el tramo y respectivamente en los sub-tramos respectivos:

• identificar los libros de códigos de filtro y de fuente, calculados previamente y almacenados durante el proceso de codificación, asociados con la clase identificada;

• identificar el vector de parámetro de filtro en el libro de códigos de filtro y los vectores de parámetro de fuente en el libros de códigos de fuente identificados por los índices; y

• reconstruir el tramo basándose en el vector de parámetro de filtro identificado en el libro de códigos de filtro y los vectores de parámetro de fuente en el libros de códigos de fuente.

15. Descodificador configurado para implementar el procedimiento de codificación según la reivindicación 14.

16. Producto de software que se puede cargar en la memoria de un sistema de procesamiento de un descodificador y que comprende porciones de código de software para implementar, cuando el programa se ejecuta en el sistema de procesamiento del descodificador, el procedimiento de descodificación según la reivindicación 14.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]