Generación de ruido de confort.

Método de generación de parámetros de control de Ruido de Confort, CN, que comprende

almacenar

(S1; 1a) parámetros de CN (**Fórmula** ) para tramas de Descriptores de Inserción de Silencios, SID, y tramas de mantenimiento activas en una memoria intermedia (200) de un tamaño predeterminado (M);

determinar (S2, 1b, 2) un subconjunto de parámetros de CN (QS, ES) relevante para tramas de SID sobre la base de la antigüedad de los parámetros de CN almacenados y de energías residuales;

usar (S3, 3, 4) el subconjunto de parámetros de CN determinado (QS, ES) para determinar los parámetros de control de CN (**Fórmula** ) para una primera trama de SID ("Primera SID") que sucede a una trama de señal activa, actualizando (1a), para tramas de SID y tramas de mantenimiento activas, la memoria intermedia (200) con parámetros de CN nuevos (**Fórmula** ); caracterizado por:

actualizar (1b), para tramas activas que no son de mantenimiento, el tamaño K de un subconjunto restringido en cuanto a antigüedad (QK, EK) de los parámetros de CN almacenados sobre la base del número pA de tramas activas que no son de mantenimiento consecutivas;

seleccionar (2) el subconjunto de parámetros de CN (QS, ES) a partir del subconjunto restringido en cuanto a antigüedad (QK, EK) sobre la base de energías residuales;

determinar (3) parámetros de CN representativos (**Fórmula** ) a partir del subconjunto de parámetros de CN (QS, ES); e interpolar los parámetros de CN representativos (**Fórmula** ) con parámetros de CN decodificados (**Fórmula** ).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2013/059514.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: JANSSON TOFTGÅRD,TOMAS.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/012 (Codificación del ruido de confort o el silencio)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/07 (Codificadores vocales de par de espectro de líneas (line spectrum pair) [LSP])

PDF original: ES-2547457_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Generación de ruido de confort Campo técnico

La tecnología propuesta se refiere en general a la generación de ruido de confort (CN), y en particular a la generación de parámetros de control del ruido de confort.

Antecedentes

En los sistemas de codificación usados para habla conversacional es común utilizar la transmisión discontinua (DTX) para aumentar la eficiencia de la codificación. Esto viene motivado por las grandes cantidades de pausas insertadas en el habla conversacional, por ejemplo, mientras una persona habla la otra escucha. Utilizando la DTX, el codificador de habla puede estar activo sólo aproximadamente el 50 por ciento del tiempo por término medio. Los ejemplos de codees que presentan esta característica son el códec de Banda Estrecha Multi-Velocidad Adaptativa (AMR NB) del 3GPP y el códec G.718 de la ITU-T.

En el funcionamiento DTX, las tramas activas se codifican en los modos de códec normales, mientras que los periodos de señales inactivas entre regiones activas se representan con ruido de confort. Los parámetros que describen la señal se extraen y codifican en el codificador y se transmiten al decodificador en tramas de descripción de inserción de silencios (SID). Las tramas de SID se transmiten con una velocidad de tramas reducida y una velocidad de bits inferior a la utilizada para el(los) modo(s) de codificación de habla activo(s). Entre las tramas de SID no se transmite información sobre las características de la señal. Debido a la baja velocidad de SID, el ruido de confort únicamente puede representar propiedades relativamente estacionarias en comparación con la codificación de tramas de señales activas. En el decodificador, los parámetros recibidos se decodifican y se utilizan para caracterizar el ruido de confort.

Para el funcionamiento DTX de alta calidad, es decir, sin calidad de habla deteriorada, es importante detectar los periodos de habla en la señal de entrada. Esto se realiza utilizando un detector de actividad vocal (VAD) o un detector de actividad sonora (SAD). La Fig. 1 muestra un diagrama de bloques de un VAD generalizado, el cual analiza la señal de entrada en tramas de datos (de entre 5 y 30 ms en función de la implementación), y produce una decisión de actividad para cada trama.

En un detector 12 de voz primario se toma una decisión de actividad preliminar (Decisión de VAD Primaria) mediante la comparación de características correspondientes a la trama actual estimadas por un extractor 10 de características y características de fondo estimadas a partir de tramas de entrada previas mediante un bloque 14 de estimación de fondo. Una diferencia mayor que un umbral especificado provoca la decisión primaria de actividad. En un bloque 16 de adición de periodos de mantenimiento (hangover) la decisión primaria se extiende sobre la base de decisiones primarias pasadas con el fin de formar la decisión de actividad final (Decisión de VAD Final). El motivo principal para usar el mantenimiento (hangover) es reducir el riesgo de recortes de partes centrales y posteriores en segmentos de habla.

Para codees de habla basados en predicción lineal (LP), por ejemplo el G.718, resulta razonable modelar la energía de la envolvente y de las tramas utilizando una representación similar a la de las tramas activas. Esto resulta beneficioso puesto que los requisitos de memoria y la complejidad del códec se pueden reducir mediante una funcionalidad común entre los diferentes modos en el funcionamiento DTX.

Para dichos codees, el ruido de confort se puede representar con sus coeficientes de LP (conocidos también como coeficientes autorregresivos (AR)) y la energía del residuo de LP, es decir la señal que como entrada en el modelo de LP proporciona el segmento de audio de referencia. En el decodificador, en el generador de excitación se genera una señal residual como ruido aleatorio que se conforma por medio de los parámetros de CN para constituir el ruido de confort.

Los coeficientes de LP se obtienen típicamente calculando las autocorrelaciones r[k] de los segmentos de audio enventanados x[n], n = 0,..., N -1 de acuerdo con:

donde P es el orden del modelo pre-definido. A continuación, los coeficientes de LP ak se obtienen a partir de la secuencia de autocorrelación utilizando, por ejemplo, el algoritmo de Levinson-Durbin.

En un sistema de comunicaciones en el que se utiliza un códec del tipo mencionado, los coeficientes de LP se deberían transmitir eficientemente desde el codificador al decodificador. Por este motivo, se utilizan comúnmente representaciones más compactas que pueden resultar menos sensibles al ruido de cuantificación. Por ejemplo, los

**(Ver fórmula)** **(Ver fórmula)**

(1)

coeficientes de LP se pueden transformaren pares espectrales lineales (LSP). En implementaciones alternativas, los coeficientes de LP se pueden convertir en cambio a los dominios de pares espectrales de inmitancia (ISP), frecuencias de espectro de líneas (LSF) o frecuencias espectrales de inmitancia (ISF).

El residuo de LP se obtiene filtrando la señal de referencia a través de un filtro de síntesis de LP inverso A[z] definido

por:

4zH+"^'* (2)

t=í

La señal residual filtrada s[n] viene dada consecuentemente por:

p

A'[fl] = x[n] + ^akx[n -k], a = 0,...*AT-1 (3)

=i

para el cual la energía se define como:

**(Ver fórmula)**

(4)

Debido a la baja velocidad de transmisión de tramas de SID, los parámetros de CN deberían evolucionar lentamente con el fin de no cambiar las características de ruido de manera rápida. Por ejemplo, el códec de G.718 limita el cambio de energía entre tramas de SID e interpola los coeficientes de LSP para gestionar esto.

Para hallar parámetros de CN representativos en las tramas de SID, se calculan coeficientes de LSP y la energía residual para cada trama, incluyendo tramas que no son de datos (así, para tramas que no son de datos los parámetros mencionados se determinan pero no se transmiten). En la trama de SID, se calculan, se codifican y se transmiten al decodificador las medianas de los coeficientes de LSP y la energía residual media. Para que el ruido de confort no sea extrañamente estático, se pueden añadir variaciones aleatorias a los parámetros de ruido de confort, por ejemplo, una variación de la energía residual. Esta técnica se usa, por ejemplo, en el códec G.718.

Adicionalmente, las características del ruido de confort no están siempre bien emparejadas con el ruido de fondo de referencia, y una ligera atenuación del ruido de confort puede reducir la atención del escuchante a este. Consecuentemente, la calidad de audio percibida puede resultar mayor. Adicionalmente, el ruido codificado en tramas de señales activas podría tener una energía menor que el ruido de referencia no codificado. Por tanto, la atenuación también puede ser deseable para una mejor adaptación de energía de la representación de ruido en tramas activas e inactivas. La atenuación está típicamente en el intervalo de 0 a 5 dB, y puede ser fija o dependiente de las velocidades de bits del(de los) modo(s) de codificación activo(s).

En sistemas de DTX de gran eficiencia se podría usar un VAD más agresivo y por consiguiente partes de alta energía de la señal (con respecto al nivel de ruido de fondo) se pueden representar con ruido de confort. En ese caso, la limitación del cambio de energía entre las tramas de SID provocaría una degradación de la percepción. Para gestionar mejor los segmentos de alta energía, el sistema puede permitir mayores cambios instantáneos de parámetros de CN para estas circunstancias.

El filtrado paso bajo o la interpolación de los parámetros de CN se lleva a cabo en las tramas inactivas... [Seguir leyendo]

 


Reivindicaciones:

1. Método de generación de parámetros de control de Ruido de Confort, CN, que comprende

almacenar (S1; 1a) parámetros de CN (qj' Sf1) para tramas de Descriptores de Inserción de Silencios, SID, y tramas de mantenimiento activas en una memoria intermedia (200) de un tamaño predeterminado (M);

determinar (S2, 1b, 2) un subconjunto de parámetros de CN (Qs, Es) relevante para tramas de SID sobre la base de la antigüedad de los parámetros de CN almacenados y de energías residuales;

usar (S3, 3, 4) el subconjunto de parámetros de CN determinado (Qs, Es) para determinar los parámetros de control de CN (q^Fj) para una primera trama de SID ("Primera SID") que sucede a una trama de señal activa, actualizando (1a), para tramas de SID y tramas de mantenimiento activas, la memoria intermedia (200) con parámetros de CN nuevos (q, É); caracterizado por:

actualizar (1b), para tramas activas que no son de mantenimiento, el tamaño K de un subconjunto restringido en cuanto a antigüedad (QK, EK) de los parámetros de CN almacenados sobre la base del número pA de tramas activas que no son de mantenimiento consecutivas;

seleccionar (2) el subconjunto de parámetros de CN (Qs, Es) a partir del subconjunto restringido en cuanto a antigüedad (Q , EK) sobre la base de energías residuales;

determinar (3) parámetros de CN representativos (q, 5) a partir del subconjunto de parámetros de CN (Qs, Es); e Interpolar los parámetros de CN representativos (q, S) con parámetros de CN decodlficados (qw. E-je).

2. Método de la reivindicación 1, caracterizado por actualizar (1b), para tramas activas que no son de mantenimiento, el tamaño K del subconjunto restringido en cuanto a antigüedad (QK, EK) de acuerdo con:

K - Jf j - r, parí i¡ y < < (»j 1) r

donde

K0 es el número de parámetros de CN para tramas de SID y tramas de mantenimiento activas almacenadas en la memoria Intermedia (200),

Y es una constante predeterminada,

r| es un entero no negativo.

3. Método de la reivindicación 1 ó 2, caracterizado por seleccionar (2) el subconjunto de parámetros de CN (Qs, Es) a partir del subconjunto restringido en cuanto a antigüedad (QK, E*) incluyendo solamente parámetros de CN para los cuales:

Yi < Eu < E*fu I Yi para k = ka,...k£-1

donde

es la última energía residual almacenada,

Yi y Y2 son límites inferior y superior predeterminados, respectivamente, para energías residuales que se consideran como representativas de ruido en una transición de tramas activas a inactivas,

k0,..., kK-i se ordenan de tal manera que k0 se corresponde con el último parámetro de CN almacenado y kKA con el más antiguo.

4. Método de la reivindicación 1, 2 ó 3, caracterizado por determinar (3) parámetros de CN representativos q,Sa partir del subconjunto de parámetros de CN (Qs, Es), donde

q es la mediana de los vectores correspondiente a un conjunto Qs de vectores en el subconjunto de parámetros de CN (Qs, Es) que representan coeficientes Autorregresivos, AR, y

E es una energía residual media ponderada de un conjunto £® de energías residuales en el subconjunto de parámetros de CN seleccionados (Q , Es).

5. Método de la reivindicación 4, caracterizado por que la mediana de vectores q representa los coeficientes AR como Pares Espectrales de Líneas.

6. Programa de ordenador para generar parámetros de control de Ruido de Confort, CN, que comprende unidades de código legibles por ordenador las cuales, cuando se ejecutan en un ordenador (60), provocan que el ordenador:

almacene (66; S1; 1a) parámetros de CN (ii"..1?") para tramas de Descriptores de Inserción de Silencios, SID, y tramas de mantenimiento activas en una memoria intermedia (200) de un tamaño predeterminado (M);

determine (68; S2; 1b, 2) un subconjunto de parámetros de CN (Qs, Es) relevante para tramas de SID sobre la base de la antigüedad de los parámetros de CN almacenados y de energías residuales;

use (68; S3; 3, 4) el subconjunto de parámetros de CN determinado (Qs, Es) para determinar los parámetros de control de CN (qÉJFÉ) para una primera trama de SID ("Primera SID") que sucede a una trama de señal activa,

actualice (1a), para tramas de SID y tramas de mantenimiento activas, la memoria intermedia con parámetros de CN nuevos (q; F);

actualice (1b), para tramas activas que no son de mantenimiento, el tamaño K de un subconjunto restringido en cuanto a antigüedad (QK, EK) de los parámetros de CN almacenados sobre la base del número pa de tramas activas que no son de mantenimiento consecutivas;

seleccione (2) el subconjunto de parámetros de CN (Qs, Es) a partir del subconjunto restringido en cuanto a antigüedad (QK, EK) sobre la base de energías residuales;

determine (3) parámetros de CN representativos (q, F) a partir del subconjunto de parámetros de CN (Qs, Es); e Interpole los parámetros de CN representativos (q,5) con parámetros de CN decodificados (jt^. BSIC).

7. Producto de programa de ordenador, que comprende un soporte legible por ordenador y un programa de ordenador de acuerdo con la reivindicación 6 almacenado en el soporte legible por ordenador.

8. Controlador (50) de ruido de confort para generar parámetros de control de Ruido de Confort, CN, que comprende:

una memoria intermedia (200) de un tamaño predeterminado (M) configurada para almacenar parámetros de CN (q^jF^) para tramas de SID y tramas de mantenimiento activas;

un selector (50A; 54, 300) de subconjuntos configurado para determinar un subconjunto de parámetros de CN (Qs, Es) relevante para tramas de Descriptores de Inserción de Silencios, SID, sobre la base de la antigüedad de los parámetros de CN almacenados y de energías residuales;

un extractor (50B; 400, 500) de parámetros de control de ruido de confort configurado para usar el subconjunto de parámetros de CN determinado (Qs, Es) con el fin de determinar los parámetros de control de CN (q.Sj) para una primera trama de SID ("Primera SID") que sucede a una trama de señal activa; caracterizado por:

un módulo (52) de actualización de memorias intermedias de tramas de SID y de mantenimiento, configurado para actualizar, para tramas de SID y tramas de mantenimiento activas, la memoria intermedia (200) con parámetros de CN nuevos (q. F);

un módulo (54) de actualización de memorias intermedias de tramas que no son de mantenimiento configurado para actualizar, para tramas activas que no son de mantenimiento, el tamaño K de un subconjunto restringido en cuanto a antigüedad (QK, EK) de los parámetros de CN almacenados sobre la base del número Pa de tramas activas consecutivas que no son de mantenimiento;

un selector (300) de elementos de memoria intermedia configurado para seleccionar el subconjunto de parámetros de CN (Qs, Es) a partir del subconjunto restringido en cuanto a antigüedad (QK, EK) sobre la base de energías residuales;

un módulo (400) de estimación de parámetros de ruido de confort configurado para determinar (3) parámetros de CN representativos (qj F) a partir del subconjunto de parámetros de CN (Cr, Es);

un módulo (500) de interpolación de parámetros de ruido de confort, configurado para interpolar los parámetros de CN representativos (q,S) con parámetros de CN decodificados (qw. E*/c).

9. Controlador (50) de la reivindicación 8, caracterizado por que el selector (300) de elementos de memoria intermedia está configurado para actualizar, para tramas activas que no son de mantenimiento, el tamaño K del subconjunto restringido en cuanto a antigüedad (QK, EK) de acuerdo con:

K = K} r¡ pora ij - y <pA < (r l) y

donde

Ko es el número de parámetros de CN para tramas de SID y tramas de mantenimiento activas almacenadas en la memoria intermedia (200),

y es una constante predeterminada,

r| es un entero no negativo.

10. Controlador (50) de la reivindicación 8 ó 9, caracterizado por que el selector (300) de elementos de memoria intermedia está configurado para seleccionar el subconjunto de parámetros de CN (Qs, Es) a partir del subconjunto restringido en cuanto a antigüedad (QK, EK) incluyendo solamente parámetros de CN para los cuales:

< Ef; < E£'u I yi para k = fe0,,..fcJE_1

donde

E¡ft es la última energía residual almacenada,

Yi y Y2 son limites inferior y superior predeterminados, respectivamente, para energías residuales que se consideran como representativas de ruido en una transición de tramas activas a inactivas,

ko,..., knA se ordenan de tal manera que ko se corresponde con el último parámetro de CN almacenado y /ck-i con el más antiguo.

11. Controlador (50) de la reivindicación 8, 9 ó 10, caracterizado por que el módulo (400) de estimación de parámetros de ruido de confort está configurado para determinar parámetros de CN representativos q. F a partir del subconjunto de parámetros de CN (Qs, E3), donde

q es la mediana de los vectores correspondiente a un conjunto Qs de vectores en el subconjunto de parámetros de CN (Qs, Es) que representan coeficientes Autorregresivos, AR, y

É es una energía residual media ponderada de un conjunto E3 de energías residuales en el subconjunto de parámetros de CN seleccionados (Q , Es).

12. Decodiflcador (100) que Incluye un controlador (50) de ruido de confort de acuerdo con cualquiera de las reivindicaciones anteriores 8 a 11.

13. Nodo (80) de red que Incluye un decodiflcador (100) de acuerdo con la reivindicación 12.

14. Nodo (80) de red que Incluye un controlador (50) de ruido de confort de acuerdo con cualquiera de las reivindicaciones anteriores 8 a 11.

15. Nodo (80) de red de cualquiera de las reivindicaciones anteriores 13 a 14, en donde el nodo de red es un terminal móvil.