Un detector de voz y un método para suprimir sub-bandas en un detector de voz.

Un detector de voz (30; 51; 61) que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda

(n) de frecuencias, donde dicho detector de voz comprende:

- un primer puerto de entrada configurado para recibir dichas sub-señales,

- un segundo puerto de entrada configurado para recibir una sub-señal de fondo basada en dichas sub-señales y

- medios para calcular (20), para cada sub-banda, un valor SNR (snr[n]) basado en la correspondiente sub-señal y en la sub-señal de fondo;

caracterizado porque dicho detector de voz (30; 51; 61) comprende además:

- medios para calcular (31n, 21) un valor de SNR de potencia para cada sub-banda, donde al menos uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal

- medios para formar (22) un valor único (snr_sum) basado en los valores de potencia calculados, y

- medios para comparar (23) dicho valor único (snr_sum) con un valor umbral dado (vad_thr) para tomar una decisión de actividad de voz (vad_prim) presentado en un puerto de salida.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2007/000118.

Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: SEHLSTEDT,MARTIN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > TRATAMIENTO DE DATOS DIGITALES ELECTRICOS (computadores... > Equipo o métodos de tratamiento de datos o de cálculo... > G06F17/14 (Transformaciones de Fourier, de Walsh o las transformaciones de espacios análogos)
  • G10L11/02

PDF original: ES-2525427_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Un detector de voz y un método para suprimir sub-bandas en un detector de voz Campo técnico

La presente invención está relacionada con un detector de voz, un detector de actividad de la voz (VAD) y un método para suprimir selectivamente las sub-bandas en un detector de voz.

Antecedentes

Una parte importante para reducir la tasa de bits en codificadores del habla de alto rendimiento es el uso del ruido de confort en lugar del silencio o rebajar la tasa de bits de fondo. La función clave que hace posible esto es un detector de actividad de la voz (VAD), que permite la separación entre el habla y el ruido de fondo.

Se han propuesto diversos tipos de detectores de actividad de voz, y en la TS 26.94, véase la referencia [1] se divulga un VAD (aquí denominado AMR VAD 1) y variantes en la referencia [3]. Las características básicas del AMR VAD 1 son:

- detector de la suma de la relación señal-ruido (SNR) de la sub-banda,

- adaptación del umbral basándose en el nivel de la señal,

- adaptación de la estimación del fondo basándose en decisiones previas, y

- análisis de recuperación del estancamiento para aumentos escalonados del nivel de ruido.

Un inconveniente del AMR VAD 1 es que es extra-sensible para algunos tipos de ruido de fondo no estacionario.

Otro VAD (denominado aquí EVRC VAD) se divulga en la C.s14-A, ver referencia [2], como EVRC RDA y la referencia [4], Las principales tecnologías utilizadas son:

- análisis de banda repartida, donde la banda del caso peor se utiliza para la selección de velocidad en un códec de habla de velocidad variable.

- se utiliza el principio de adición de vestigios de ruido adaptativo para reducir los errores principales del detector. La adaptación de ruido vestigial se divulga en la referencia [5], de Hong y otros.

Un Inconveniente del EVRC VAD de banda repartida es que ocasionalmente toma malas decisiones y muestra una sensibilidad de frecuencia demasiado baja.

La detección de la actividad de voz la ha divulgado Freeman, véase la referencia [6], donde se divulga un VAD con espectro de ruido independiente, y Barret, véase la referencia [7], ha divulgado un mecanismo detector de tonos que no caracteriza equivocadamente el ruido de coches de baja frecuencia como tonos de señalización. Un Inconveniente de las soluciones basadas en Freeman/Barret muestra ocasionalmente una sensibilidad demasiado baja (por ejemplo, para la música de fondo).

Otra detección de la actividad de la voz ha sido divulgada por Jenilek y otros, véase la referencia [1].

Sumario

Un objeto de la invención es proporcionar un detector de voz y un detector de actividad de la voz que es más sensible a la actividad de voz sin experimentar los inconvenientes de los dispositivos de la técnica anterior.

Este objeto se consigue con un detector de voz y un detector de actividad de la voz que utilizan un detector de voz en el que se utiliza una señal de entrada, dividida en señales sub-banda que representan n sub-bandas de frecuencias diferentes, para calcular una relación señal-ruido (SNR) para cada sub-banda. Se calcula un valor de la SNR en el dominio de potencias para cada sub-banda, y se calcula al menos uno de los valores de la SNR de la potencia utilizando una función de ponderación no lineal. Se forma un valor único basándose en los valores SNR de la potencia y se compara el valor único con un umbral dado para generar una decisión de actividad de la voz en un puerto de salida del detector de voz. Al introducir una función de ponderación no lineal para una o más sub-bandas, la importancia de las sub-bandas que es probable que introduzcan ruido de la decisión en la métrica de la decisión real, se reduce selectivamente por medio de la función no lineal introducida tras el cálculo de la SNR.

Otro objeto de la invención es proporcionar un método que proporciona un detector de voz que es más sensible a la actividad de voz, sin experimentar los inconvenientes de los dispositivos de la técnica anterior.

Este objeto se consigue con un método para reducir selectivamente la importancia de las sub-bandas adaptativamente, para un detector de suma de SNR de voz de sub-banda, donde una señal de entrada al detector de voz se divide en n sub-bandas de frecuencias diferentes. La suma de SNR está basada en una ponderación no

lineal aplicada a las señales que representan al menos una sub-banda antes de efectuar la suma de SNR.

Una ventaja de la presente invención es que se mantiene la calidad de la voz, o incluso se mejora bajo ciertas condiciones en comparación con las soluciones de la técnica anterior.

Otra ventaja es que la invención reduce la velocidad media en condiciones de ruido no estacionario, tal como las condiciones de murmullos, en comparación con las soluciones de la técnica anterior.

Breve descripción de los dibujos

La figura 1 muestra una solución de la técnica anterior para un VAD.

La figura 2 muestra una descripción detallada de un detector de voz, utilizado en el VAD descrito en conexión con la figura 1.

La figura 3 muestra un primer modo de realización de un detector de voz de acuerdo con la presente invención.

La figura 4 muestra un gráfico que ilustra el rendimiento en actividad de voz para diferentes VAD.

La figura 5 muestra un primer modo de realización de un VAD, de acuerdo con la presente invención.

La figura 6 muestra un segundo modo de realización de un VAD, de acuerdo con la presente invención.

La figura 7 muestra un gráfico que ilustra resultados subjetivos obtenidos por un test de escucha experta de Mushra para diferentes VAD.

La figura 8 muestra un codificador de habla que incluye un VAD de acuerdo con la invención.

La figura 9 muestra un terminal que incluye un VAD de acuerdo con la invención.

Descripción detallada

La figura 1 muestra un detector de actividad de la voz VAD 1, similar al VAD divulgado en la referencia [1] denominado AMR VAD 1, y la figura 2 muestra una descripción detallada de un detector principal de voz utilizado.

El VAD 1 divide la señal entrante "señal de entrada" en tramas de muestras de datos. Estas tramas de muestras de datos se dividen en "n" sub-bandas de frecuencias diferentes por medio de un analizador de sub-bandas (SBA) 11 que calcula también el correspondiente nivel de entrada "level[nj" para cada sub-banda. Estos niveles se utilizan después para estimar el nivel de ruido de fondo "bckr_est[nj" en un estimador de nivel de ruido (NLE) 12, para cada sub-banda, mediante el filtrado en paso bajo de las estimaciones de niveles para tramas sin voz. Así, el NLE genera una condición estimada de ruido o condición de señal de fondo, por ejemplo, música, utilizada en una detector principal de voz (PVD).EI PVD 13 utiliza la información de niveles "level[nj" y el nivel de ruido de fondo estimado "bckr_est[nj" para cada sub-banda "n" para formar una decisión "vad_prim" sobre si la trama de datos en curso contiene o no datos de voz. La decisión "vad_prim" se utiliza en el NLE 12 para determinar tramas sin voz.

La operación básica del PVD 13, que se describe con más detalle con relación a la figura 2, es supervisar cambios en las relaciones de señal-ruido (SNR) de la sub-banda y los cambios suficientemente grandes se considera que son de habla. Esto se obtiene calculando una relación señal-ruido snr[n] en cada sub-banda utilizando una función "Cale. SNR" en el bloque 2.

snr

r i levetln]

[n\ =----------

bckr _ est\n\

(1)

El valor SNR calculado se convierte en potencia tomando el cuadrado del valor de la SNR calculada para cada sub- banda, que se calcula en el bloque 21, y se forma... [Seguir leyendo]

 


Reivindicaciones:

1. Un detector de voz (3; 51; 61) que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda (n) de frecuencias, donde dicho detector de voz comprende:

un primer puerto de entrada configurado para recibir dichas sub-señales,

un segundo puerto de entrada configurado para recibir una sub-señal de fondo basada en dichas sub-señales y

medios para calcular (2), para cada sub-banda, un valor SNR (snr[n]) basado en la correspondiente sub-señal y en la sub-señal de fondo;

caracterizado porque dicho detector de voz (3; 51; 61) comprende además:

medios para calcular (31 n, 21) un valor de SNR de potencia para cada sub-banda,

donde al menos uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal

medios para formar (22) un valor único (snr_sum) basado en los valores de potencia calculados, y

medios para comparar (23) dicho valor único (snr_sum) con un valor umbral dado (vad_thr) para tomar una decisión de actividad de voz (vad_prim) presentado en un puerto de salida.

2. El detector de voz según la reivindicación 1, en el que cada uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal.

3. El detector de voz según la reivindicación 1 o la reivindicación 2, en el que el detector de voz está configurado para aplicar la función de ponderación no lineal al valor SNR, antes de calcular el valor de la SNR de la potencia.

4. El detector de voz según cualquiera de las reivindicaciones 1 - 3, en el que el detector de voz está configurado para usar un valor umbral significativo específico de la sub-banda (sign_thresh) en la función de ponderación no lineal, para suprimir selectivamente las sub-bandas.

5. El detector de voz según la reivindicación 4, en el que el valor umbral significativo específico de la sub-banda (sign_thresh) es diferente para al menos dos sub-bandas.

6. El detector de voz según la reivindicación 4, en el que el valor umbral significativo específico de la sub-banda (sign_thresh) es el mismo para todas las sub-bandas.

7. El detector de voz según cualquiera de las reivindicaciones 4 - 6, en el que el valor umbral significativo específico de la sub-banda tiene un valor mayor que uno (sign_thresh >1), preferiblemente dos o mayor (sign_thresh > 2).

8. El detector de voz según cualquiera de las reivindicaciones 4 - 7, en el que el detector de voz está configurado para tener un valor umbral significativo fijo específico de la sub-banda.

9. El detector de voz según cualquiera de las reivindicaciones 4 - 7, en el que el detector de voz está configurado para ajustar adaptativamente el valor umbral significativo específico de la sub-banda, basándose en el ruido estimado o en la condición de la señal de fondo.

1. El detector de voz según cualquiera de las reivindicaciones 4 - 9, en el que el detector de voz está configurado para sustituir cada valor SNR (snrjnj) que sea menor que el valor umbral significativo fijo específico de la sub-banda (slgn_thresh) por un valor predeterminado en la función de ponderación no lineal.

11. El detector de voz según cualquiera de las reivindicaciones 1 - 1, en el que dicha sub-señal de fondo para cada sub-banda se calcula basándose en decisiones anteriores de la actividad de voz principal (vad_prim) calculados en el detector de voz (51, 61).

12. El detector de voz según cualquiera de las reivindicaciones 1 -11, en el que la señal de entrada contiene nueve sub-bandas de frecuencias.

13. El detector de voz según cualquiera de las reivindicaciones 1 - 12, en el que los medios para calcular los valores SNR de potencia para cada sub-banda están basados además en una función cuadrática implementada en un convertidor (21).

14. El detector de voz según cualquiera de las reivindicaciones 1 - 13, en el que los medios para formar un valor único (snr_sum) comprenden un bloque (22) de suma en el cual se forma el valor medio de todas las SNR de potencia de las sub-bandas.

15. El detector de voz según cualquiera de las reivindicaciones 1 - 14, en el que el detector de voz comprende además un circuito (24) adaptador de umbral, que produce dicho valor umbral (vad_thr) como respuesta a una señal (nivel de ruido) generada mediante la suma de la sub-señal de fondo para todas las sub-bandas.

16. El detector de voz según cualquiera de las reivindicaciones 1 -15, en el que cada sub-señal está basada en un nivel de entrada calculado (level[n]j para cada sub-banda, y cada sub-señal de fondo está basada en un nivel de ruido de fondo estimado (bckr_est[n]) para cada sub-banda.

17. Un detector de actividad de la voz (5; 6; 81; 94) utilizado para determinar si hay datos de voz contenidos en una señal de entrada, caracterizado porque dicho detector de actividad de la voz (5; 6; 81; 94) comprende un detector de voz principal (3; 51; 61) como se define en cualquiera de las reivindicaciones 1-16.

18. El detector de actividad de la voz de acuerdo con la reivindicación 17, que comprende además:

- un analizador (11) de sub-bandas configurado para dividir dicha señal de entrada en tramas de muestras de datos, y para dividir además las tramas de muestras de datos en sub-bandas de frecuencias, configurado además dicho analizador de sub-bandas para calcular un correspondiente nivel de entrada (level[n]) para cada sub-banda, y

- un estimador (16) de nivel de ruido configurado para generar una estimación del nivel de ruido de fondo (bckr_est[n]) para cada sub-banda, basándose en los niveles de entrada (level[n]) calculados.

19. Un nodo de un sistema de telecomunicaciones que comprende un detector de actividad de la voz como se define en cualquiera de las reivindicaciones 17-18.

2. El nodo según la reivindicación 19, en el que el nodo es un terminal (9).

21. Un método de detección de voz de sub-banda de suma de SNR para suprimir selectivamente sub-bandas del detector de voz de sub-banda de suma de SNR, caracterizado porque dicha suma de SNR está basada en una ponderación no lineal para al menos una sub-banda, antes de sumar las SNR.

22. El método según la reivindicación 21, en el que se efectúa una ponderación no-lineal para cada una de dichas sub-bandas, antes de sumar las SNR.

23. El método según cualquiera de las reivindicaciones 21 - 22, en el que el método comprende calcular un valor de SNR de potencia para cada sub-banda, antes de sumar las SNR.

24. El método según cualquiera de las reivindicaciones 21 - 23, en el que la ponderación no lineal está basada en una función no lineal:

thresh[n]

1 r-i í(sign floorln])2 si sign floor[n] < snr\n~\ < sign snr ,

k ^