Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada.

Un método para la detección adaptativa de una actividad vocal en una señal de audio de entrada constituida por tramas, cuyo método comprende:

la determinación de una característica de ruido

(nc) de la señal de audio de entrada sobre la base de al menos una trama de entrada recibida de la señal de audio de entrada;

la derivación de un parámetro VAD (vp) adaptado a la característica de ruido (nc) de la señal de audio de entrada y la comparación del parámetro VAD (vp) derivado con un valor de umbral (thr) para proporcionar una decisión de detección de actividad vocal (VADD); en donde el procesamiento de derivación de un parámetro VAD (vp) adaptado a la característica de ruido (nc) de la señal de audio de entrada comprende:

la división de la trama de entrada recibida de dicha señal de audio en varias sub-bandas;

la obtención de una relación de señal a ruido (snr) para cada una de las varias sub-bandas de dicha trama de entrada recibida;

el cálculo de un parámetro específico de sub-banda (sbsp) sobre la base de la relación de señal a ruido (snr) de la sub-banda respectiva para cada una de las múltiples sub-bandas que utilizan una función adaptativa (AF), en donde al menos un parámetro de la función adaptativa (AF) se selecciona en función de la característica de ruido (nc) de la señal de audio de entrada y

la derivación de una relación de señal a ruido segmentada modificada (mssnr) en tanto como dicho parámetro de VAD (vp) añadiendo los parámetros específicos de sub-bandas (sbsp) calculados;

y en donde la relación de señal a ruido segmentada modificada (mssnr) se calcula como sigue: **Fórmula**

en donde snr(i) es la relación de señal a ruido de la i-ésima sub-banda de la trama de entrada, N es el número de sub-banda de frecuencia en las que se divide dicha trama de entrada, (f(snr(i))+α)β es la función adaptativa (AF) utilizada para calcular el parámetro específico de sub-banda (sbsp(i)) y α, β son dos variables configurables de la función adaptativa (AF).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CN2010/080227.

Solicitante: HUAWEI TECHNOLOGIES CO., LTD..

Nacionalidad solicitante: China.

Dirección: HUAWEI ADMINISTRATION BUILDING BANTIAN LONGGANG DISTRICT SHENZHEN, GUANGDONG 518129 CHINA.

Inventor/es: WANG, ZHE.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/78 (Detección de presencia o ausencia de señales de voz (con conmutación de dirección de transmisión por frecuencia vocal en sistemas telefónicas bidireccionales de altavoz H04M 9/10))

PDF original: ES-2489472_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada CAMPO DE LA INVENCIÓN

La presente invención se refiere a un método y un aparato para una detección adaptativa de una actividad vocal en una señal de audio de entrada constituida por tramas y en particular, a un método y aparato de detección de actividad vocal que utiliza parámetros de la relación de señal a ruido segmentada de sub-banda procesada de forma no lineal.

ANTECEDENTES DE LA INVENCIÓN

La detección de actividad vocal (VAD) suele ser una técnica que se proporciona para detectar una actividad vocal en una señal. Los detectores de actividad vocal son ampliamente utilizados en el sector de las telecomunicaciones. La función de un detector de actividad vocal es detectar, en los canales de comunicación, la presencia o ausencia de señales activas tales como voz o música. El detector de actividad vocal puede estar contenido dentro de una red de comunicaciones en donde la red puede decidir comprimir un ancho de banda de transmisión en periodos en donde las señales activas estén ausentes o realizar otro procesamiento en función de una decisión de detección de actividad vocal que indica si existe, o no, una señal activa. Un detector de actividad vocal puede comprar un parámetro característico o un conjunto de parámetros característicos extraídos desde la señal de entrada con los correspondientes valores de umbral y determinar si la entrada comprende una señal activa, o no, sobre la base del resultado de la comparación. La función de un detector de actividad vocal se determina, en una gran medida, por la elección de los parámetros característicos utilizados. Son numerosos los parámetros característicos propuestos para la detección de actividad vocal tales como los parámetros basados en la energía, parámetros basados en la envolvente espectral, parámetros basados en la entropía o parámetros basados en estadísticas de orden superior. En general, los parámetros basados en la energía proporcionan un buen rendimiento de la detección de actividad vocal. En los últimos años, parámetros basados en la relación señal a ruido SNR de sub-bandas, como una clase de parámetros basados en la energía, han sido ampliamente utilizados en el sector de las telecomunicaciones. En los detectores de actividad vocal basados en la relación de señal a ruido SNR de sub-bandas, la relación SNR para cada sub-banda de frecuencia de una trama de entrada se detecta y los valores de SNRs de todas las sub-bandas se añaden para proporcionar una SNR segmentada. Este parámetro de relación SNR segmentada, SSNR, puede compararse por un valor de umbral para tomar una decisión de detección de actividad vocal VADD. El umbral utilizado suele ser una variable que es adaptativa para una relación SNR a largo plazo de la señal de entrada o un nivel de ruido de fondo.

En una Recomendación de ITU-T recientemente completada G.72.1, el parámetro de la relación SSNR convencional ha sido mejorado aplicando un procesamiento no lineal para obtener una relación SSNR modificada. La relación SNR segmentada modificada calculada se compara también con un valor de umbral que se determina a partir de una tabla de valores de umbral en función de la relación SNR a largo plazo de la señal de entrada, de la variación del ruido de fondo y del punto operativo de detección de actividad vocal, en donde el punto operativo VAD define la solución de compromiso de la decisión de VAD entre detección activa y detección inactiva, a modo de ejemplo, un punto operativo de calidad preferida hará que la decisión VAD sea a favor de la detección de señales activas y viceversa.

Aunque el parámetro de SNR segmentada modificada, utilizado por la recomendación G.72.1, aumenta el rendimiento de la detección de actividad vocal, el rendimiento de VAD no es estacionario y todavía necesita mejora el entorno de fondo de baja relación SNR. Los detectores de actividad vocal convencionales están diseñados para equilibrar sus rendimientos en varias condiciones de ruido de fondo. En consecuencia, los detectores de actividad vocal convencionales tienen un rendimiento que es sub-óptimo para condiciones específicas y en particular, en un entorno de fondo de baja relación SNR y de carácter no estacionario.

En consecuencia, un objetivo de la presente Invención es dar a conocer un método y un aparato para detectar una actividad vocal en una señal de audio de entrada que tenga un alto rendimiento de VAD.

El documento EP 2159788 A1 da a conocer un método y dispositivo de detección de actividad vocal (VAD), de modo que el valor de umbral de VAD pueda ser adaptatlvo con la variación del ruido de fondo. El dispositivo de detección de actividad vocal VAD incluye: una unidad de análisis de fondo, adaptada para: analizar las características de ruido de fondo de una señal actual en función de un resultado de determinación de VAD de entrada, para obtener parámetros relacionados con la variación del ruido de fondo y para proporcionar estos parámetros; una unidad de ajuste del valor de umbral de VAD, adaptada para: obtener un sesgo del umbral de VAD en función de los parámetros proporcionados por la unidad de análisis de fondo y proporcionar el sesgo del valor de umbral de VAD y una unidad de determinación de VAD adaptada para: modificar un umbral de VAD a modificarse en función del sesgo del rendimiento de VAD proporcionado por la unidad de ajuste del valor de umbral de VAD, para determinar el ruido de fondo utilizando el umbral VAD modificado y proporcionar un resultado de la determinación de VAD.

SUMARIO DE LA INVENCIÓN

La invención da a conocer, según un primer aspecto de la ¡dea inventiva, un método para la detección adaptativa de una actividad vocal en una señal de audio de entrada constituida por tramas que comprende las etapas de:

(a) determinar una característica de ruido de la señal de entrada sobre la base de al menos en una trama de entrada recibida de la señal de audio de entrada,

(e) la derivación de un parámetro de VAD (vp) adaptado para, o seleccionado en función de, dicha característica de ruido de la señal de audio de entrada y

(f) la comparación del parámetro VAD derivado con un valor de umbral para proporcionar una decisión de detección de actividad vocal, según la reivindicación 1.

Las formas de puesta en práctica del primer aspecto de la idea inventiva pueden utilizar parámetros basados en la energía, parámetros basados en la envolvente espectral, parámetros basados en la entropía o parámetros basados en estadísticas de orden superior como parámetros de VAD.

En el primer aspecto de la idea inventiva de la presente invención, la invención da a conocer un método para la detección adaptativa de una actividad vocal en una señal de audio de entrada constituida por tramas, que comprende las etapas de:

(a) la determinación de una característica de ruido de la señal de entrada sobre la base de al menos en una trama de entrada recibida de la señal de audio de entrada,

(b) la división de dicha trama de entrada recibida de dicha señal de audio en varias sub-bandas,

(c) la obtención de una relación de señal a ruido SNR para cada sub-banda de dicha trama de entrada,

(d) el cálculo de un parámetro específico de sub-banda sobre la base de dicha relación SNR de la sub-banda respectiva para cada sub-banda utilizando una función adaptativa,

en donde al menos un parámetro de la función adaptativa se selecciona en función de dicha característica de ruido de la señal de audio de entrada,

(e) la derivación de una relación SNR segmentada modificada como dicho parámetro de VAD añadiendo los parámetros específicos de sub-bandas y

... [Seguir leyendo]

 


Reivindicaciones:

1. Un método para la detección adaptativa de una actividad vocal en una señal de audio de entrada constituida por tramas, cuyo método comprende:

la determinación de una característica de ruido (nc) de la señal de audio de entrada sobre la base de al menos una trama de entrada recibida de la señal de audio de entrada;

la derivación de un parámetro VAD (vp) adaptado a la característica de ruido (nc) de la señal de audio de entrada y

la comparación del parámetro VAD (vp) derivado con un valor de umbral (thr) para proporcionar una decisión de detección de actividad vocal (VADD); en donde el procesamiento de derivación de un parámetro VAD (vp) adaptado a la característica de ruido (nc) de la señal de audio de entrada comprende:

la división de la trama de entrada recibida de dicha señal de audio en varias sub-bandas;

la obtención de una relación de señal a ruido (snr) para cada una de las varias sub-bandas de dicha trama de entrada recibida;

el cálculo de un parámetro específico de sub-banda (sbsp) sobre la base de la relación de señal a ruido (snr) de la sub-banda respectiva para cada una de las múltiples sub-bandas que utilizan una función adaptativa (AF), en donde al menos un parámetro de la función adaptativa (AF) se selecciona en función de la característica de ruido (nc) de la señal de audio de entrada y

la derivación de una relación de señal a ruido segmentada modificada (mssnr) en tanto como dicho parámetro de VAD (vp) añadiendo los parámetros específicos de sub-bandas (sbsp) calculados;

y en donde la relación de señal a ruido segmentada modificada (mssnr) se calcula como sigue:

N P

mssnr= Z(/Wí))+a)

í=:*

en donde snr(i) es la relación de señal a ruido de la i-ésima sub-banda de la trama de entrada, N es el número de sub-banda de frecuencia en las que se divide dicha trama de entrada, (f(snr(i))+a)p es la función adaptativa (AF) utilizada para calcular el parámetro específico de sub-banda (sbsp(i)) y a, (5 son dos variables configurables de la función adaptativa (AF).

2. El método según la reivindicación 1, en donde la característica de ruido (nc) de la señal de audio de entrada es una relación de señal a ruido a largo plazo (Isnr) o una variación del ruido de fondo (s) o bien, una relación de señal a ruido a largo plazo (Isnr) y una variación del ruido de fondo.

3. El método según la reivindicación 1,

en donde la función adaptativa (AF) es una función no lineal.

4. El método según una de las reivindicaciones precedentes 1 o 3,

en donde dicha relación de señal a ruido (snr) para cada una de las múltiples sub-bandas de dicha trama de entrada se obtiene mediante:

obtención de una energía de señal para cada una de las múltiples sub-bandas;

la estimación de una energía de ruido de fondo (bn) para cada una de las múltiples sub-bandas y

el cálculo de la relación de señal a ruido (snr) para cada una de las sub-bandas en función de la energía de la señal y de la energía del ruido de fondo de la respectiva sub-banda.

5. El método según la reivindicación 4,

en donde la energía de señal para cada sub-banda de dicha trama de entrada es una energía de señal atenuada que forma una media ponderada entre la trama de entrada y al menos una trama anterior.

6. El método según la reivindicación 1,

en donde la primera variable a de la función adaptativa (AF) depende de una relación de señal a ruido a largo plazo (Isnr) de la señal de audio de entrada como sigue:

a = g (i, lsnr)

en donde g es una función lineal o no lineal y

en donde la segunda variable p de la función adaptativa (AF) depende de la relación de señal a ruido a largo plazo (lsnr) y de cp:

P = h (lsnr, <p)

en donde h es una función no lineal y

<p = f(snr (i» + a

7. El método según la reivindicación 6,

en donde la primera variable a de la función adaptativa (AF) se calcula mediante:

<* = g (i, Insr) = a(i) lsnr + b(i)

en donde a (i), b (i) son números reales que dependen de un índice de sub-banda i y la segunda variable p de la función adaptativa (AF) se calcula por:

fJ[ <p > d y lsnr > e2

<p > d y e, < lsnr < e7 P3 <p > d y lsnr < ex A de no ser así

En donde Pi < P2 < P3 y P4 y d y ei < e2 son números enteros o flotantes y en donde lsnr es la relación de señal a ruido a largo plazo (lsnr).

8. El método según la reivindicación 7,

en donde la relación de señal a ruido segmentada modificada derivada (mssnr) se compara con un valor de umbral (thr) que se establece para:

J3 = h(lsnr,<D)

thr =

A

lsnr > e2 ex < isnr < e2 lsnr < ex

en donde ki > V.2 > k3 y ei < e2 son números enteros o flotantes y en donde la decisión de detección de actividad vocal (VADD) se genera como sigue:

VADD =

C

mssnr > thr mssnr < thr

en donde VADD - 1 representa una trama activa con la actividad vocal estando presente y VADD = representa una trama pasiva con la actividad vocal estando ausente.

9. El método según la reivindicación 6,

en donde la primera variable a de la función adaptativa (AF) se calcula mediante

a = g (i, Isnr, e) = a (i) Isnr + b ( + c (e)

en donde a (i), b (i) son números reales que dependen de un índice de sub-banda i y

c (s) es un número real que depende de la fluctuación estimada del ruido de fondo de la señal de audio de entrada y en donde la segunda variable p de la función adaptatlva (AF) se calcula mediante:

P.

<p >d y

Isnr > e2 y e

<p >d y

Isnr > e2 y e

>P

P3

<p>d y

< isnr < e2

V E * P

P - hQsnrw^) = <

P<

9 >d y

e, < Isnr < e2

y £>p

P 5

9 >d y

Isnr <el y £

9 > d y

Isnr < y e

>P

9 < d

en donde cp = f(snr(¡)) + a y s es la fluctuación estimada del ruido de fondo y d y ei < e2y p son números enteros o flotantes.

1. El método según la reivindicación 9,

en donde la relación de señal de ruido segmentada modificada derivada (mssnr) se compara con un valor de umbral (thr) que se establece para:

thr

qx + rx Min <h + r2Min

Isnr - V