ATENUACION DEL REGISTRO DE TONO EN BUCLE ABIERTO.

Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz,

comprendiendo el procedimiento las etapas siguientes: obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo; realizar las etapas (x, y) siguientes: x) si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes: a) establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y b) si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2; y) si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes: a') establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y b') si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/042096.

Solicitante: MINDSPEED TECHNOLOGIES, INC.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 4000 MACARTHUR BLVD.,NEWPORT BEACH, CA 92660.

Inventor/es: GAO,YANG.

Fecha de Publicación: 4 de Noviembre de 2010.

Fecha Concesión Europea: 21 de Julio de 2010.

Clasificación Internacional de Patentes:

G10L11/04

Clasificación PCT:

G10L11/00
G10L11/04
G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

ATENUACION DEL REGISTRO DE TONO EN BUCLE ABIERTO.

Fragmento de la descripción:

Atenuación del registro de tono en bucle abierto.

Solicitudes relacionadas

La presente solicitud se basa en la solicitud US provisional de número de serie 60/784.384, presentada el 20 de marzo de 2006, y reivindica la prioridad de la misma.

Antecedentes de la invención

1. Campo de la invención

La presente invención se refiere, en general, a la codificación de voz. Más particularmente, la presente invención se refiere al análisis de tono en bucle abierto.

2. Técnica relacionada

La compresión de la voz puede utilizarse para reducir el número de bits que representan la señal de voz, y reducir de ese modo el ancho de banda necesario para la transmisión. No obstante, la compresión de la voz puede provocar la degradación de la calidad de la voz descomprimida. En general, una tasa de bits más alta da por resultado una calidad más alta, mientras que una tasa de bits más baja da por resultado una calidad más baja. Sin embargo, con las técnicas de compresión de voz modernas, tales como las técnicas de codificación, se puede obtener voz descomprimida de una calidad relativamente alta a una tasa de bits relativamente baja. En general, las técnicas de codificación modernas procuran representar las características de la señal de voz que tienen importancia desde el punto de vista perceptivo, sin conservar la forma de onda de voz particular. Los sistemas de compresión de voz, comúnmente denominados códec, comprenden un codificador y un decodificador y pueden utilizase para reducir la tasa de bits de las señales de voz digitales. Se han elaborado numerosos algoritmos para los códecs de voz, que reducen el número de bits necesarios para codificar digitalmente la voz original y al mismo tiempo tratan de mantener una voz reconstruida de alta calidad.

En 1996, el Sector de Telecomunicaciones de la Unión Internacional de Telecomunicaciones (ITU-T) adoptó un algoritmo de codificación de voz de alta calidad que se conoce como Recomendación G.729, titulada "Coding of Speech Signals at 8 kbit/s usign Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP)", y que se describe por ejemplo en la patente US n.º 5732389.

La figura 1 ilustra el flujo de señales de voz en un codificador de predicción lineal con excitación por código algebraico de estructura conjugada (CS-ACELP, por sus siglas en inglés) 100 de la Recomendación G.729 mencionada en la presente memoria. Los números de referencia situados junto a cada bloque de la figura 1 indican los números de sección de la Recomendación G.729 que describen las operaciones y funciones de cada bloque. Como se representa, la señal de voz o las muestras de entrada 105 entran en el bloque de paso alto y reducción de escala (descrito en la Sección 3.1 de la Recomendación G.729), en el que se aplica un preprocesamiento 110 a cada trama de las muestras de entrada 105. A continuación, se aplica un análisis LP 115 y una búsqueda de tono en bucle abierto 120 a cada trama de la señal de voz preprocesada. Después de la búsqueda de tono en bucle abierto 120, se aplica una búsqueda de tono en bucle cerrado 125 y una búsqueda algebraica 130 a cada subtrama de la señal de voz, tal como se representa en la figura 1, obteniéndose como resultado la generación del índice del código 135.

Tal como se ilustra en la figura 1, la búsqueda de tono en bucle abierto 120 comprende la búsqueda del retardo de tono en bucle abierto 124, que se describe en la Sección 3.4 de la Recomendación G.729. Como se describe en dicha sección, para reducir la complejidad de la búsqueda del mejor retardo de libro de códigos adaptativo, el rango de búsqueda se limita en torno a un retardo propuesto T_op, obtenido a partir de un análisis de tono en bucle abierto. Este análisis de tono en bucle abierto se realiza una vez por trama (10 ms). En el cálculo de tono en bucle abierto, se utiliza la señal de voz ponderada sw(n) obtenida en el bloque de cálculo de voz ponderada 122, y el cálculo se implementa de la forma indicada a continuación.

En la primera etapa, se determinan tres máximos de correlación:

siendo,

en los tres rangos siguientes:

i = 1: 80,...,143

i = 2: 40,...,79

i = 3: 20,...,39

Los máximos retenidos R(t_i), i = 1,...,3, se normalizan mediante:

A continuación, se selecciona la mejor de las tres correlaciones normalizadas favoreciendo los retardos cuyos valores se hallan en el rango inferior. Esto se logra ponderando las correlaciones normalizadas correspondientes a los retardos más prolongados. El mejor retardo en bucle abierto T_op se determina de la siguiente manera:

El procedimiento indicado de división del rango de retardos en tres secciones para favorecer los valores menores tiene por objetivo evitar la elección de los múltiplos del tono. El registro de tono en bucle abierto atenuado puede ayudar a estabilizar la calidad perceptiva de la voz. Más particularmente, el registro de tono atenuado puede facilitar la predicción del tono (cálculo del tono para tramas perdidas) cuando se aplica un algoritmo de ocultación de tramas borradas en el decodificador. No obstante, el algoritmo convencional de la Recomendación G.729 descrito anteriormente no proporciona un resultado óptimo y puede perfeccionarse. Por ejemplo, uno de los inconvenientes de dicho algoritmo es que sólo utiliza la información de la trama actual para atenuar el registro de tono en bucle abierto y evitar múltiplos del tono. Sin embargo, se conocen otros algoritmos tales como el descrito en la patente US nº 6199035 que efectúan la estimación del retardo de tono por medio de la ponderación de la función de autocorrelación para acentuar los valores cercanos a los retardos de tono anteriores, o el descrito en la patente US nº 6260010, en el que también se toman en consideración los retardos de tono anteriores.

En consecuencia, se plantea dentro del ámbito de la técnica la necesidad de perfeccionar el análisis de tono en bucle abierto convencional para obtener un registro de tono en bucle abierto más atenuado para estabilizar la calidad perceptiva de la voz.

Sumario de la invención

La presente invención, definida en las reivindicaciones adjuntas, se refiere a un procedimiento para llevar a cabo un análisis de tono en bucle abierto de una señal de voz. El procedimiento comprende la obtención de una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3; la obtención de una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto; y la selección de un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, en la que el valor de correlación de largo plazo max correspondiente a p_max posee el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo.

El procedimiento comprende también la determinación del cumplimiento de p_max2 < p_max. Si esta condición se cumple, el algoritmo comprende el establecimiento de un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y el establecimiento del primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado; y si el valor max multiplicado por el primer valor umbral es inferior a...

Reivindicaciones:

1. Procedimiento para realizar un análisis de tono en bucle abierto de una señal de voz, comprendiendo el procedimiento las etapas siguientes:

obtener una pluralidad de candidatos de tono en bucle abierto que comprenden un primer candidato de tono en bucle abierto p_max1, un segundo candidato de tono en bucle abierto p_max2 y un tercer candidato de tono en bucle abierto p_max3, siendo p_max1 > p_max2 > pmax3;

obtener una pluralidad de valores de correlación de largo plazo, que comprenden un primer valor de correlación max1, un segundo valor de correlación max2 y un tercer valor de correlación max3, para cada una de las correspondientes propuestas de la pluralidad de candidatos de tono en bucle abierto;

seleccionar un tono en bucle abierto inicial p_max de la pluralidad de candidatos de tonos en bucle abierto, presentando el valor de correlación de largo plazo max correspondiente a p_max el valor máximo de correlación de largo plazo de los valores de correlación de largo plazo;

realizar las etapas (x, y) siguientes:

x) si p_max2 es inferior a p_max, realizar las etapas (a, b) siguientes:

a) establecer un primer valor umbral en un primer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max2 es inferior a un primer valor de comparación predeterminado y establecer el primer valor umbral en un segundo valor umbral predeterminado si el valor absoluto del tono anterior menos p_max2 no es inferior al primer valor de comparación predeterminado y b) si el valor max multiplicado por el primer valor umbral es inferior a max2, establecer max en max2 y de p_max en p_max2; y) si p_max3 es inferior a p_max, realizar las etapas (a', b') siguientes:

a') establecer un segundo valor umbral en un tercer valor umbral predeterminado si el valor absoluto de un tono anterior menos p_max3 es inferior a un segundo valor de comparación predeterminado y establecer el segundo valor umbral en un cuarto valor umbral predeterminado si el valor absoluto del tono anterior menos p_max3 no es inferior al segundo valor de comparación predeterminado; y b') si el valor max multiplicado por el segundo valor umbral es inferior a max3, establecimiento de p_max en p_max3.

2. Procedimiento según la reivindicación 1, en el que el primer valor de comparación predeterminado es 10, el primer valor umbral predeterminado es 0,7 y el segundo valor umbral predeterminado es 0,9.

3. Procedimiento según la reivindicación 2, en el que el segundo valor de comparación predeterminado es 5, el tercer valor umbral predeterminado es 0,7 y el cuarto valor umbral predeterminado es 0,9.

4. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una o varias tramas anteriores.

5. Procedimiento según la reivindicación 1, en el que el tono anterior pertenece a una trama inmediatamente anterior.

6. Codificador de voz configurado para realizar un procedimiento según cualquiera de las reivindicaciones 1 a 5.

Patentes similares o relacionadas:

Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información, del 19 de Abril de 2012, de FRANCE TELECOM: Procedimiento de síntesis de una señal digital de audio representada por bloques consecutivos de muestras, en el cual, tras la recepción de tal señal, para sustituir al menos […]

UN METODO Y UN DISPOSITIVO PARA UNA BUSQUEDA ADAPTATIVA DE TONO DE ANCHO DE BANDA AL CODIFICAR SEÑALES DE BANDA ANCHA., del 1 de Mayo de 2004, de VOICEAGE CORPORATION: Un dispositivo de análisis de tono para producir un conjunto óptimo de parámetros de código de cifrado de tono en respuesta a una señal de banda ancha, que comprende: a) […]

PROCEDIMIENTO DE COMPENSACION DE BORRADO DE TRAMAS EN UN CODIFICADOR DE VOZ DE VELOCIDAD DE TRANSMISION VARIABLE, del 1 de Febrero de 2008, de QUALCOMM INCORPORATED: Un procedimiento para compensar un borrado de trama en un codifcador de voz, que comprende: descuantificar un valor de retardo de paso y un primer valor delta para una trama […]

PROCEDIMIENTO Y APARATO PARA CUANTIFICAR DE MANERA PREDICTIVA HABLA SONORA, del 16 de Diciembre de 2007, de QUALCOMM INCORPORATED: Un aparato para generar una trama de salida de cifrador de habla, comprendiendo dicho aparato: medios para extraer componentes de retardo […]

METODO PARA COMPRIMIR DATOS DE DICCIONARIO, del 16 de Noviembre de 2007, de NOKIA CORPORATION: Método para preprocesar un diccionario de pronunciación con vistas a su compresión en un dispositivo de procesado de datos, comprendiendo el diccionario de pronunciación […]

METODOS Y APARATOS PARA LA CLASIFICACION DE VOZ ROBUSTA, del 1 de Julio de 2007, de QUALCOMM INCORPORATED: Método para la aplicación de un motor turbodiesel con inyección electrónica a un vehículo autopropulsado como una motocicleta, un "scooter", un […]

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]