Un detector de voz y un método para suprimir sub-bandas en un detector de voz.

Un detector de voz (30; 51; 61) que responde a una señal de entrada que se divide en sub-señales,

representando cada una de ellas una sub-banda (n) de frecuencias, donde dicho detector de voz comprende:

- un primer puerto de entrada configurado para recibir dichas sub-señales,

- un segundo puerto de entrada configurado para recibir una sub-señal de fondo basada en dichas sub-señales y

- medios para calcular (20), para cada sub-banda, un valor SNR (snr[n]) basado en la correspondiente sub-señal y en la sub-señal de fondo;

caracterizado porque dicho detector de voz (30; 51; 61) comprende además:

- medios para calcular (31n, 21) un valor de SNR de potencia para cada sub-banda, donde al menos uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal

- medios para formar (22) un valor único (snr_sum) basado en los valores de potencia calculados, y

- medios para comparar (23) dicho valor único (snr_sum) con un valor umbral dado (vad_thr) para tomar una decisión de actividad de voz (vad_prim) presentado en un puerto de salida.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2007/000118.

Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: SEHLSTEDT,MARTIN.

Fecha de Publicación: 24 de Septiembre de 2014.

Clasificación Internacional de Patentes:

G06F17/14 FISICA. › G06 CALCULO; CONTEO. › G06F PROCESAMIENTO ELECTRICO DE DATOS DIGITALES (sistemas de computadores basados en modelos de cálculo específicos G06N). › G06F 17/00 Equipo o métodos de procesamiento de datos o de cálculo digital, especialmente adaptados para funciones específicas (recuperación de la información, estructuras de las bases de datos o estructuras de los sistemas de archivos G06F 16/00). › Transformaciones de Fourier, de Walsh o las transformaciones de espacios análogos.
G10L11/02
G10L19/00 G […] › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

PDF original: ES-2525427_T3.pdf

Fragmento de la descripción:

Un detector de voz y un método para suprimir sub-bandas en un detector de voz Campo técnico

La presente invención está relacionada con un detector de voz, un detector de actividad de la voz (VAD) y un método para suprimir selectivamente las sub-bandas en un detector de voz.

Antecedentes

Una parte importante para reducir la tasa de bits en codificadores del habla de alto rendimiento es el uso del ruido de confort en lugar del silencio o rebajar la tasa de bits de fondo. La función clave que hace posible esto es un detector de actividad de la voz (VAD), que permite la separación entre el habla y el ruido de fondo.

Se han propuesto diversos tipos de detectores de actividad de voz, y en la TS 26.94, véase la referencia [1] se divulga un VAD (aquí denominado AMR VAD 1) y variantes en la referencia [3]. Las características básicas del AMR VAD 1 son:

- detector de la suma de la relación señal-ruido (SNR) de la sub-banda,

- adaptación del umbral basándose en el nivel de la señal,

- adaptación de la estimación del fondo basándose en decisiones previas, y

- análisis de recuperación del estancamiento para aumentos escalonados del nivel de ruido.

Un inconveniente del AMR VAD 1 es que es extra-sensible para algunos tipos de ruido de fondo no estacionario.

Otro VAD (denominado aquí EVRC VAD) se divulga en la C.s14-A, ver referencia [2], como EVRC RDA y la referencia [4], Las principales tecnologías utilizadas son:

- análisis de banda repartida, donde la banda del caso peor se utiliza para la selección de velocidad en un códec de habla de velocidad variable.

- se utiliza el principio de adición de vestigios de ruido adaptativo para reducir los errores principales del detector. La adaptación de ruido vestigial se divulga en la referencia [5], de Hong y otros.

Un Inconveniente del EVRC VAD de banda repartida es que ocasionalmente toma malas decisiones y muestra una sensibilidad de frecuencia demasiado baja.

La detección de la actividad de voz la ha divulgado Freeman, véase la referencia [6], donde se divulga un VAD con espectro de ruido independiente, y Barret, véase la referencia [7], ha divulgado un mecanismo detector de tonos que no caracteriza equivocadamente el ruido de coches de baja frecuencia como tonos de señalización. Un Inconveniente de las soluciones basadas en Freeman/Barret muestra ocasionalmente una sensibilidad demasiado baja (por ejemplo, para la música de fondo).

Otra detección de la actividad de la voz ha sido divulgada por Jenilek y otros, véase la referencia [1].

Sumario

Un objeto de la invención es proporcionar un detector de voz y un detector de actividad de la voz que es más sensible a la actividad de voz sin experimentar los inconvenientes de los dispositivos de la técnica anterior.

Este objeto se consigue con un detector de voz y un detector de actividad de la voz que utilizan un detector de voz en el que se utiliza una señal de entrada, dividida en señales sub-banda que representan n sub-bandas de frecuencias diferentes, para calcular una relación señal-ruido (SNR) para cada sub-banda. Se calcula un valor de la SNR en el dominio de potencias para cada sub-banda, y se calcula al menos uno de los valores de la SNR de la potencia utilizando una función de ponderación no lineal. Se forma un valor único basándose en los valores SNR de la potencia y se compara el valor único con un umbral dado para generar una decisión de actividad de la voz en un puerto de salida del detector de voz. Al introducir una función de ponderación no lineal para una o más sub-bandas, la importancia de las sub-bandas que es probable que introduzcan ruido de la decisión en la métrica de la decisión real, se reduce selectivamente por medio de la función no lineal introducida tras el cálculo de la SNR.

Otro objeto de la invención es proporcionar un método que proporciona un detector de voz que es más sensible a la actividad de voz, sin experimentar los inconvenientes de los dispositivos de la técnica anterior.

Este objeto se consigue con un método para reducir selectivamente la importancia de las sub-bandas adaptativamente, para un detector de suma de SNR de voz de sub-banda, donde una señal de entrada al detector de voz se divide en n sub-bandas de frecuencias diferentes. La suma de SNR está basada en una ponderación no

lineal aplicada a las señales que representan al menos una sub-banda antes de efectuar la suma de SNR.

Una ventaja de la presente invención es que se mantiene la calidad de la voz, o incluso se mejora bajo ciertas condiciones en comparación con las soluciones de la técnica anterior.

Otra ventaja es que la invención reduce la velocidad media en condiciones de ruido no estacionario, tal como las condiciones de murmullos, en comparación con las soluciones de la técnica anterior.

Breve descripción de los dibujos

La figura 1 muestra una solución de la técnica anterior para un VAD.

La figura 2 muestra una descripción detallada de un detector de voz, utilizado en el VAD descrito en conexión con la figura 1.

La figura 3 muestra un primer modo de realización de un detector de voz de acuerdo con la presente invención.

La figura 4 muestra un gráfico que ilustra el rendimiento en actividad de voz para diferentes VAD.

La figura 5 muestra un primer modo de realización de un VAD, de acuerdo con la presente invención.

La figura 6 muestra un segundo modo de realización de un VAD, de acuerdo con la presente invención.

La figura 7 muestra un gráfico que ilustra resultados subjetivos obtenidos por un test de escucha experta de Mushra para diferentes VAD.

La figura 8 muestra un codificador de habla que incluye un VAD de acuerdo con la invención.

La figura 9 muestra un terminal que incluye un VAD de acuerdo con la invención.

Descripción detallada

La figura 1 muestra un detector de actividad de la voz VAD 1, similar al VAD divulgado en la referencia [1] denominado AMR VAD 1, y la figura 2 muestra una descripción detallada de un detector principal de voz utilizado.

El VAD 1 divide la señal entrante "señal de entrada" en tramas de muestras de datos. Estas tramas de muestras de datos se dividen en "n" sub-bandas de frecuencias diferentes por medio de un analizador de sub-bandas (SBA) 11 que calcula también el correspondiente nivel de entrada "level[nj" para cada sub-banda. Estos niveles se utilizan después para estimar el nivel de ruido de fondo "bckr_est[nj" en un estimador de nivel de ruido (NLE) 12, para cada sub-banda, mediante el filtrado en paso bajo de las estimaciones de niveles para tramas sin voz. Así, el NLE genera una condición estimada de ruido o condición de señal de fondo, por ejemplo, música, utilizada en una detector principal de voz (PVD).EI PVD 13 utiliza la información de niveles "level[nj" y el nivel de ruido de fondo estimado "bckr_est[nj" para cada sub-banda "n" para formar una decisión "vad_prim" sobre si la trama de datos en curso contiene o no datos de voz. La decisión "vad_prim" se utiliza en el NLE 12 para determinar tramas sin voz.

La operación básica del PVD 13, que se describe con más detalle con relación a la figura 2, es supervisar cambios en las relaciones de señal-ruido (SNR) de la sub-banda y los cambios suficientemente grandes se considera que son de habla. Esto se obtiene calculando una relación señal-ruido snr[n] en cada sub-banda utilizando una función "Cale. SNR" en el bloque 2.

snr

r i levetln]

[n\ =----------

bckr _ est\n\

(1)

El valor SNR calculado se convierte en potencia tomando el cuadrado del valor de la SNR calculada para cada sub- banda, que se calcula en el bloque 21, y se forma un valor combinado de SNR para snr_sum basado en todas las sub-bandas. La base del valor SNR combinado es el valor medio de todas las SNR de potencia de las sub-bandas formado por el bloque 22 de suma de la figura 2.

snr

sum = k

**(Ver fórmula)**

(2)

donde k es el número de sub-bandas, por ejemplo 9 sub-bandas, como se ilustra en la figura 2.

La decisión de actividad de voz principal "vad_prim" del PVD 13 puede formarse entonces comparando el "snr_sum" calculado con un valor umbral "vad_thr" en el bloque 23. El valor umbral "vad_thr" se obtiene a partir de un circuito de adaptación del umbral (TAC) 24, como se ilustra en la figura 2. El valor umbral "vad_thr" se ajusta de acuerdo con

el nivel de ruido de fondo obtenido mediante la suma de todos los niveles de ruido de fondo de las sub-bandas desde el NLE 12, para aumentar la sensibilidad (disminuir el umbral), y evitar las tramas que faltan que contienen los datos de voz, si el nivel... [Seguir leyendo]

Reivindicaciones:

1. Un detector de voz (3; 51; 61) que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda (n) de frecuencias, donde dicho detector de voz comprende:

un primer puerto de entrada configurado para recibir dichas sub-señales,

un segundo puerto de entrada configurado para recibir una sub-señal de fondo basada en dichas sub-señales y

medios para calcular (2), para cada sub-banda, un valor SNR (snr[n]) basado en la correspondiente sub-señal y en la sub-señal de fondo;

caracterizado porque dicho detector de voz (3; 51; 61) comprende además:

medios para calcular (31 n, 21) un valor de SNR de potencia para cada sub-banda,

donde al menos uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal

medios para formar (22) un valor único (snr_sum) basado en los valores de potencia calculados, y

medios para comparar (23) dicho valor único (snr_sum) con un valor umbral dado (vad_thr) para tomar una decisión de actividad de voz (vad_prim) presentado en un puerto de salida.

2. El detector de voz según la reivindicación 1, en el que cada uno de dichos valores de SNR de potencia se calcula basándose en una función de ponderación no lineal.

3. El detector de voz según la reivindicación 1 o la reivindicación 2, en el que el detector de voz está configurado para aplicar la función de ponderación no lineal al valor SNR, antes de calcular el valor de la SNR de la potencia.

4. El detector de voz según cualquiera de las reivindicaciones 1 - 3, en el que el detector de voz está configurado para usar un valor umbral significativo específico de la sub-banda (sign_thresh) en la función de ponderación no lineal, para suprimir selectivamente las sub-bandas.

5. El detector de voz según la reivindicación 4, en el que el valor umbral significativo específico de la sub-banda (sign_thresh) es diferente para al menos dos sub-bandas.

6. El detector de voz según la reivindicación 4, en el que el valor umbral significativo específico de la sub-banda (sign_thresh) es el mismo para todas las sub-bandas.

7. El detector de voz según cualquiera de las reivindicaciones 4 - 6, en el que el valor umbral significativo específico de la sub-banda tiene un valor mayor que uno (sign_thresh >1), preferiblemente dos o mayor (sign_thresh > 2).

8. El detector de voz según cualquiera de las reivindicaciones 4 - 7, en el que el detector de voz está configurado para tener un valor umbral significativo fijo específico de la sub-banda.

9. El detector de voz según cualquiera de las reivindicaciones 4 - 7, en el que el detector de voz está configurado para ajustar adaptativamente el valor umbral significativo específico de la sub-banda, basándose en el ruido estimado o en la condición de la señal de fondo.

1. El detector de voz según cualquiera de las reivindicaciones 4 - 9, en el que el detector de voz está configurado para sustituir cada valor SNR (snrjnj) que sea menor que el valor umbral significativo fijo específico de la sub-banda (slgn_thresh) por un valor predeterminado en la función de ponderación no lineal.

11. El detector de voz según cualquiera de las reivindicaciones 1 - 1, en el que dicha sub-señal de fondo para cada sub-banda se calcula basándose en decisiones anteriores de la actividad de voz principal (vad_prim) calculados en el detector de voz (51, 61).

12. El detector de voz según cualquiera de las reivindicaciones 1 -11, en el que la señal de entrada contiene nueve sub-bandas de frecuencias.

13. El detector de voz según cualquiera de las reivindicaciones 1 - 12, en el que los medios para calcular los valores SNR de potencia para cada sub-banda están basados además en una función cuadrática implementada en un convertidor (21).

14. El detector de voz según cualquiera de las reivindicaciones 1 - 13, en el que los medios para formar un valor único (snr_sum) comprenden un bloque (22) de suma en el cual se forma el valor medio de todas las SNR de potencia de las sub-bandas.

15. El detector de voz según cualquiera de las reivindicaciones 1 - 14, en el que el detector de voz comprende además un circuito (24) adaptador de umbral, que produce dicho valor umbral (vad_thr) como respuesta a una señal (nivel de ruido) generada mediante la suma de la sub-señal de fondo para todas las sub-bandas.

16. El detector de voz según cualquiera de las reivindicaciones 1 -15, en el que cada sub-señal está basada en un nivel de entrada calculado (level[n]j para cada sub-banda, y cada sub-señal de fondo está basada en un nivel de ruido de fondo estimado (bckr_est[n]) para cada sub-banda.

17. Un detector de actividad de la voz (5; 6; 81; 94) utilizado para determinar si hay datos de voz contenidos en una señal de entrada, caracterizado porque dicho detector de actividad de la voz (5; 6; 81; 94) comprende un detector de voz principal (3; 51; 61) como se define en cualquiera de las reivindicaciones 1-16.

18. El detector de actividad de la voz de acuerdo con la reivindicación 17, que comprende además:

- un analizador (11) de sub-bandas configurado para dividir dicha señal de entrada en tramas de muestras de datos, y para dividir además las tramas de muestras de datos en sub-bandas de frecuencias, configurado además dicho analizador de sub-bandas para calcular un correspondiente nivel de entrada (level[n]) para cada sub-banda, y

- un estimador (16) de nivel de ruido configurado para generar una estimación del nivel de ruido de fondo (bckr_est[n]) para cada sub-banda, basándose en los niveles de entrada (level[n]) calculados.

19. Un nodo de un sistema de telecomunicaciones que comprende un detector de actividad de la voz como se define en cualquiera de las reivindicaciones 17-18.

2. El nodo según la reivindicación 19, en el que el nodo es un terminal (9).

21. Un método de detección de voz de sub-banda de suma de SNR para suprimir selectivamente sub-bandas del detector de voz de sub-banda de suma de SNR, caracterizado porque dicha suma de SNR está basada en una ponderación no lineal para al menos una sub-banda, antes de sumar las SNR.

22. El método según la reivindicación 21, en el que se efectúa una ponderación no-lineal para cada una de dichas sub-bandas, antes de sumar las SNR.

23. El método según cualquiera de las reivindicaciones 21 - 22, en el que el método comprende calcular un valor de SNR de potencia para cada sub-banda, antes de sumar las SNR.

24. El método según cualquiera de las reivindicaciones 21 - 23, en el que la ponderación no lineal está basada en una función no lineal:

thresh[n]

1 r-i í(sign floorln])2 si sign floor[n] < snr\n~\ < sign snr ,

k ^

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]