VOCODIFICADOR DE VELOCIDAD VARIABLE.

- Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas,

comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B'); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08016577.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 5775 MOREHOUSE DRIVE SAN DIEGO, CA 92121-1714 ESTADOS UNIDOS DE AMERICA.

Inventor/es: GARDNER, WILLIAM, R., GILHOUSEN, KLEIN, S., JACOBS, PAUL, E., LEE, CHONG U., TSAI, MING-CHANG, LAM,KATHERINE S.

Fecha de Publicación: 2 de Diciembre de 2010.

Fecha Solicitud PCT: 3 de Junio de 1992.

Fecha Concesión Europea: 11 de Agosto de 2010.

Clasificación Internacional de Patentes:

G10L11/02
G10L19/00N
G10L19/12 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Determinación o codificación de una excitación de código, p. ej. en codificadores vocales de predicción lineal excitados por código [CELP].
G10L19/14A1D
G10L19/14A1R
H04B1/66 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04B TRANSMISION. › H04B 1/00 Detalles de los sistemas de transmision, no cubiertos por uno de los grupos H04B 3/00 - H04B 13/00; Detalles de los sistemas de transmisión no caracterizados por el medio utilizado para la transmisión. › para reducir el ancho de banda de las señales; para mejorar la eficacia de la transmisión (H04B 1/68 tiene prioridad).
H04J3/16C1
H04L1/00A7
H04L1/00A8Q
H04L1/00B3
H04L1/00B5B
H04L1/00B7B

Clasificación PCT:

G10L11/02
G10L19/14
H04B1/66 H04B 1/00 […] › para reducir el ancho de banda de las señales; para mejorar la eficacia de la transmisión (H04B 1/68 tiene prioridad).
H04J3/16 H04 […] › H04J COMUNICACIONES MULTIPLEX (peculiar de la transmisión de información digital H04L 5/00; sistemas para transmitir las señales de televisión simultánea o secuencialmente H04N 7/08; en las centrales H04Q 11/00). › H04J 3/00 Time-division multiplex systems (H04J 14/08 takes precedence). › en los cuales el tiempo atribuido a cada uno de los canales en el curso de un ciclo de transmisión es variable, p. ej. para tener en cuenta la complejidad variable de las señales, para adaptar el número de canales transmitidos (H04J 3/17, H04J 3/24 tienen prioridad).
H04L1/00 H04 […] › H04L TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION TELEGRAFICA (disposiciones comunes a las comunicaciones telegráficas y telefónicas H04M). › Disposiciones para detectar o evitar errores en la información recibida.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco.

Fragmento de la descripción:

ANTECEDENTES DE LA INVENCIÓN

I. Campo de la invención

La presente invención se refiere al procesamiento de voz. Específicamente, la presente invención se refiere a un procedimiento y a un sistema nuevo y mejorado para la compresión de voz en los que la cantidad de compresión varía dinámicamente mientras que su incidencia en la calidad de la voz reconstruida es mínima. Además, puesto que los datos de voz comprimidos están destinados a enviarse a través de un canal que puede introducir errores, el procedimiento y el sistema de la presente invención también minimiza el impacto de los errores de canal en la calidad de voz.

II. Descripción de la técnica relacionada

La transmisión de voz mediante técnicas digitales ha tenido una amplia difusión, en particular en las aplicaciones de teléfonos de radio digital. Esto, a su vez, ha suscitado el interés por determinar la cantidad mínima de información que puede ser enviada a través del canal, conservando la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente mediante muestreo y digitalización, se requiere una velocidad de transmisión de datos del orden de 64 kilobits por segundo (Kbit/s) para obtener la calidad de voz del teléfono analógico convencional. Sin embargo, a través de la utilización del análisis de voz, seguido de una correcta codificación, transmisión y resíntesis en el receptor, puede conseguirse una importante reducción de la velocidad de transmisión de datos.

Los dispositivos que emplean técnicas para comprimir voz sonora extrayendo parámetros que se relacionan con un modelo de generación de voz humana habitualmente se denominan vocodificadores. Dichos dispositivos se componen de un codificador que analiza la voz entrante para extraer los parámetros pertinentes, y un decodificador, que resintetiza la voz utilizando los parámetros que recibe a través del canal de transmisión. Para ser preciso, el modelo debe cambiar constantemente. Por lo tanto, la voz se divide en bloques de tiempo, o tramas de análisis, durante los cuales se calculan los parámetros. A continuación, se actualizan los parámetros de cada nueva trama.

Entre los diversos tipos de codificadores de voz existentes, los que efectúan codificación de predicción lineal con excitación por código (CELP), codificación estocástica o codificación de voz con excitación por vector, constituyen una clase. Puede obtenerse un ejemplo de algoritmo de codificación de esta clase particular en el documento "A 4.8 kbps Code Excited Linear Predictive Coder" (Codificador de predicción lineal con excitación por código de 4,8 Kbit/s) de Thomas E. Tremain et al., Proceedings of the Mobile Satellite Conference, 1988.

La función del vocodificador es comprimir la señal de voz digitalizada en una señal de baja velocidad binaria, eliminando todas las redundancias naturales inherentes al habla.

Habitualmente, la voz presenta redundancias de corta duración, debidas sobre todo a la operación de filtrado del tracto vocal, y redundancias de larga duración debidas a la excitación del tracto vocal por las cuerdas vocales. En un codificador CELP, estas operaciones son modelizadas por dos filtros, un filtro de formantes de corta duración y un filtro de tonos de larga duración. Una vez eliminadas estas redundancias, la señal residual resultante puede modelizarse como ruido blanco gaussiano, que asimismo debe codificarse. La base de esta técnica consiste en calcular los parámetros de un filtro, denominado filtro LPC, que lleva a cabo predicción a corto plazo de la forma de onda de la voz utilizando un modelo del tracto vocal humano. Además, se modelizan efectos a largo plazo relacionados con el tono de la voz, calculando los parámetros de un filtro de tonos que, en esencia, modeliza las cuerdas vocales humanas. Por último, estos filtros deben ser excitados, y esto se lleva a cabo determinando qué forma de onda de excitación aleatoria concreta de un grupo contenido en un libro de código da por resultado la aproximación más cercana a la voz original, cuando la forma de onda excita los dos filtros mencionados anteriormente. Por lo tanto, los parámetros transmitidos se refieren a tres elementos: (1) el filtro LPC, (2) el filtro de tonos y (3) la excitación del libro de código.

Aunque la utilización de técnicas de codificación vocal favorecen el objetivo de intentar reducir la cantidad de información enviada a través del canal y a la vez asegurar voz reconstruida de calidad, es necesario emplear otras técnicas para conseguir una mayor reducción. Una técnica utilizada anteriormente para reducir la cantidad de información enviada es la selección de la actividad de las señales vocales. En esta técnica, no se transmite información durante las pausas de voz. Aunque esta técnica consigue el resultado deseado de la reducción de datos, adolece de varias deficiencias.

En muchos casos, la calidad de la voz se reduce debido al recorte de la parte inicial de las palabras. Otro problema de la desconexión del canal durante la inactividad es que los usuarios del sistema perciben la ausencia del ruido de fondo que normalmente acompaña a la voz y la valoración que éstos dan a la calidad del canal es tan baja como la de una llamada telefónica normal. Otro problema en relación con la selección de la actividad es que los ruidos bruscos ocasionales de fondo pueden activar el transmisor cuando no hay voz, ocasionando molestas ráfagas de ruido en el receptor.

Para tratar de mejorar la calidad de la voz sintetizada en los sistemas de selección de actividad de señales vocales, se añade ruido de confort sintetizado durante el proceso de decodificación. Aunque se consigue alguna mejora en calidad al añadir ruido de confort, la mejora de la calidad global no es substancial, puesto que el ruido de confort no modeliza el ruido de fondo real del codificador.

Una técnica más preferida para efectuar la compresión de datos, y que consigue reducir

la información que es necesario enviar, consiste en llevar a cabo la codificación vocal de velocidad variable. Puesto que la voz contiene de forma inherente períodos de silencio, es decir, pausas, la cantidad de datos necesarios para representar dichos períodos puede reducirse. La codificación vocal de velocidad variable explota este hecho de la forma más eficaz reduciendo la velocidad de transmisión de datos para estos periodos de silencio. La reducción de la velocidad de transmisión de datos, a diferencia de la interrupción completa de la transmisión de datos durante períodos de silencio, supera los problemas asociados a la selección de actividad de las señales vocales a la vez que facilita la reducción de la información transmitida.

Por lo tanto, un objetivo de la presente invención es proporcionar un procedimiento y sistema nuevos y mejorados para la compresión de voz utilizando una técnica de codificación vocal de velocidad variable.

Merece especial atención el artículo "Adaptative Pitch Detection Algorithm for Noisy Signals", de Wu S et al., speech processing 1, Glasgow, del 23 al 26 de mayo de 1989, ICASSP'89, Nueva York, IEEE, vol. 1, Conf. 14, 23 de mayo de 1989, páginas 576 a 579, XP000089790. El artículo describe un algoritmo para determinar el tono de una señal en un entorno ruidoso. Se describe para calcular la energía de una trama actual y para calcular la energía con una energía de ruido de referencia. Si la energía de segmento supera la energía de ruido de referencia, la trama actual se define como un "posible" segmento de señal. Después se llevan a cabo una función de correlación cruzada y una función de búsqueda de tono para clasificar un segmento de señal como un segmento de no señal o como un segmento de señal.

También merece especial atención el documento US-A-4.811.404, el cual describe un sistema de supresión de ruido que lleva a cabo una mejora de la calidad de voz sobre la señal de voz más ruido disponible en la entrada para generar una señal de voz limpia en la salida mediante modificación de ganancia espectral. Se considera incluir la suma de un mecanismo de umbral de relación de señal a ruido (SNR) para reducir la fluctuación de ruido de fondo desplazando el aumento de ganancia de las tablas de ganancia hasta que se alcance un determinado umbral SNR, el uso de un calculador métrico de voz para generar estimaciones de ruido de fondo más precisas tomando la decisión de actualización en base a las características globales similares a la voz en los canales y al intervalo...

Reivindicaciones:

1. Un procedimiento de procesamiento de una señal de voz que comprende una

pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B'); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados. 2. El procedimiento según la reivindicación 1, en el que la generación comprende limitar

un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.

3. El procedimiento según la reivindicación 2, en el que la limitación comprende restringir la estimación actual de ruido de fondo (B') a un valor que sea inferior o igual a la función del nivel de energía.

4. El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.

5. El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.

6. El procedimiento según cualquiera de las reivindicaciones 1 a 5, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática. 7. Un procesador de voz configurado para procesar una señal de voz, que comprende

una pluralidad de tramas, comprendiendo el procesador de voz: medios para calcular un nivel de energía de una trama de la señal de voz; medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; medios para generar una estimación actual de ruido de fondo (B'); medios para asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y

medios para codificar la señal de voz en un paquete según los bits asignados.

8. El procesador de voz según la reivindicación 7, en el que los medios de generación comprenden medios para limitar un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.

9. El procesador de voz según la reivindicación 8, en el que los medios de limitación comprenden medios para restringir la estimación actual de ruido de fondo (B') a un valor que sea inferior o igual a la función del nivel de energía.

10. El procesador de voz según la reivindicación 7, en el que: los medios para calcular un nivel de energía de una trama de la señal de voz es un primer circuito configurado para calcular un nivel de energía de una trama de la señal de voz; los medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz son un segundo circuito configurado para calcular una estimación de ruido de fondo (B) en una trama anterior de la señal de voz y para incrementar la estimación de ruido de fondo en una trama anterior de la señal de voz en una cantidad predefinida para generar un valor de estimación incrementado; los medios para generar una estimación actual de ruido de fondo (B') son un primer multiplexor acoplado al primer y al segundo circuito y configurado para recibir el valor de estimación incrementado y el nivel de energía, y para seleccionar o bien el valor de estimación incrementado o bien el nivel de energía como una estimación de ruido de fondo (B') en una trama actual de la señal de voz; y los medios para asignar bits para la trama de la señal de voz son un ensamblador de datos configurado para asignar bits para la trama de la señal de voz, donde se asignan menos bits en base a si una función del nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B). 11. El procesador de voz según la reivindicación 10, que comprende además un primer

limitador acoplado al segundo circuito y configurado para limitar el valor de estimación incrementado a un valor que sea inferior a un nivel predefinido.

12. El procesador de voz según la reivindicación 11, que comprende además un segundo limitador acoplado al primer multiplexor y configurado para limitar la estimación de ruido de fondo en una trama actual de la señal de voz a un valor que sea inferior o igual al nivel de energía.

13. El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.

14. El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.

15. El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática.

Patentes similares o relacionadas:

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y disposición para suavizar ruido estacionario de fondo, del 25 de Diciembre de 2019, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para suavizar ruido de fondo, comprendiendo el método: recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz […]

Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo, del 4 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un decodificador de audio para proporcionar una información de audio decodificada basándose en una información de audio […]

Método de codificación y decodificación de pulso y códec de pulso, del 16 de Octubre de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de pulso, que comprende: obtener (A1) pulsos que estén en las T pistas y que requieran ser codificados, en donde T en un número entero […]

Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo, del 18 de Septiembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Decodificador de audio para proporcionar una información de audio decodificada basándose en una información de audio codificada, comprendiendo […]

Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo, del 31 de Julio de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un decodificador de audio para proporcionar una información de audio decodificada basándose en una información de audio codificada […]

Métodos, codificador y decodificador para codificación y decodificación predictiva lineal de señales de sonido tras transición entre tramas que tienen diferentes tasas de muestreo, del 19 de Junio de 2019, de VOICEAGE CORPORATION: Un método implementado en un codificador de señal de sonido o un decodificador de señal de sonido para convertir parámetros de filtro predictivos […]