Clasificación de señales de audio basada en marcos.

Un método de clasificación de señales de audio basado en marcos o cuadros,

caracterizado por los pasos de: determinar (S1), para cada uno de un número predeterminado de marcos consecutivos, medidas de características que representan al menos las siguientes características:

• un coeficiente de auto-correlación (Tn),

• una energía de señal de marco (En) en un dominio comprimido,

• una variación de energía entre marcos;

comparar (S2) cada medida de característica determinada con al menos un correspondiente intervalo predeterminado de características; calcular (S3), para cada intervalo de características, una medida de fracción (Φ ;1 - Φ 5) que representa el número total de medidas correspondientes de características (Tn, En, Φ ;;En) que caen dentro del intervalo de características;

clasificar (S4) el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un intervalo de fracción correspondiente, y como no-habla en caso contrario.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/056761.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: GRANCHAROV,VOLODYA, NÄSLUND,SEBASTIAN.

Fecha de Publicación: 31 de Diciembre de 2014.

Clasificación Internacional de Patentes:

G10L11/02

PDF original: ES-2531137_T3.pdf

Fragmento de la descripción:

Clasificación de señales de audio basada en marcos Campo técnico

La presente tecnología se refiere a la clasificación de señales de audio basadas en marcos o cuadros.

Antecedentes

Los métodos de clasificación de señales de audio son diseñados bajo diferentes supuestos: enfoque de tiempo real o fuera de línea, requisitos de diferente memoria y complejidad, etc.

Para un clasificador utilizado en codificación de audio, la decisión tiene que ser tomada normalmente sobre la base de marco a marco, basada totalmente en las estadísticas anteriores de señales. Muchas aplicaciones de codificación de audio, tales como codificación en tiempo real, imponen también fuertes limitaciones sobre la complejidad informática del clasificador.

La referencia [1] describe un discriminador (clasificador) complejo de habla/música basado en un estimador a posteriori del máximo Gaussiano multidimensional, una clasificación de modelo de mezcla Gaussiana, un esquema de división espacial basado en ramificaciones k-d o un clasificador de vecino más próximo. Con el fin de obtener una tasa de errores de decisión aceptable es necesario también incluir características de señales de audio que requieran una gran latencia.

La referencia [2] describe un discriminador de habla/música basado parcialmente en Frecuencias Espectrales en Línea (LSFs). Sin embargo, la determinación de LSFs es un procedimiento bastante complejo.

La referencia [5] describe la detección de actividad de voz basándose en la envoltura Modulada en Amplitud (AM) de un segmento de señal.

Compendio

Un objeto de la presente tecnología es la clasificación de señales de audio basada en marcos, de baja complejidad. Este objeto se consigue de acuerdo con las reivindicaciones adjuntas.

Un primer aspecto de la presente tecnología Implica un método de clasificación de señales de audio basada en marcos, que incluye los siguientes pasos:

Determinar, para cada uno de un número predeterminado de marcos consecutivos, medidas de características que representen al menos las siguientes características: un coeficiente de auto-correlación, energía de señal de marco en un dominio comprimido, variación de energía de señales entre marcos.

Comparar cada medida de característica determinada con al menos un correspondiente intervalo de características predeterminado.

Calcular, para cada intervalo de características, una medida de fracciones que represente el número total de medidas correspondiente de características que esté comprendido dentro del intervalo de características.

Clasificar el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un intervalo de fracciones correspondiente, y como no-habla, de otro modo.

Un segundo aspecto de la presente tecnología implica un clasificador de audio para clasificación de señales de audio basada en marcos, que incluye:

Un extractor de características configurado para determinar, para cada uno de un número predeterminado de cuadros consecutivos, medidas de características que representen al menos las siguientes características: un coeficiente de auto-correlación, energía de la señal de marco en un dominio comprimido, variación de energía de señales entre marcos.

Un comparador de medidas de características configurado para comparar cada medida de característica determinada con al menos un correspondiente intervalo predeterminado de características.

Un clasificador de marcos configurado para calcular, para cada intervalo de características, una medida de fracción que represente el número total de medidas de características correspondientes que estén comprendidas en el intervalo de características, y para clasificar el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un correspondiente intervalo de fracciones, y como no-habla, de otro modo.

Un tercer aspecto de la presente tecnología implica una disposición de codificador de audio que incluye un

clasificador de audio de acuerdo con el segundo aspecto para clasificar marcos de audio en habla/no-habla y seleccionar con ello un método de codificación correspondiente.

Un cuarto aspecto de la presente tecnología implica una disposición de codee (codificación-descodificación) de audio que incluye un clasificador de audio de acuerdo con el segundo aspecto para clasificar marcos de audio en habla/no-habla para seleccionar un método de pos-filtración correspondiente.

Un quinto aspecto de la presente tecnología implica un dispositivo de comunicaciones de audio que incluye una disposición de codificador de audio de acuerdo con los aspectos tercero y cuarto.

Son ventajas de la presente tecnología la baja complejidad y lógica de decisión sencilla. Estas características la hacen especialmente apropiada para codificación de audio en tiempo real.

Breve descripción de los dibujos

La tecnología, junto con otros objetos y ventajas de la misma, se comprenderán mejor haciendo referencia a la descripción que sigue tomada junto con los dibujos que se acompañan, en los cuales:

La figura 1 es un diagrama de bloques que ilustra un ejemplo de una disposición de codificador de audio que utiliza un clasificador de audio;

La figura 2 es un diagrama que ilustra el seguimiento de energía máxima;

La figura 3 es un histograma que ilustra la diferencia entre habla y música para una característica concreta;

La figura 4 es un diagrama de flujo que ilustra la presente tecnología;

La figura 5 es un diagrama de bloques que ilustra otro ejemplo de una disposición de codificador de audio que utiliza un clasificador de audio;

La figura 6 es un diagrama de bloques que ilustra un ejemplo de realización de un clasificador de audio;

La figura 7 es un diagrama de bloques que ilustra un ejemplo de realización de un comparador de medidas de características en el clasificador de audio de la figura 6;

La figura 8 es un diagrama de bloques que ilustra un ejemplo de realización de un clasificador de marcos del clasificador de audio de la figura 6;

La figura 9 es un diagrama de bloques que ilustra un ejemplo de realización de un calculador de fracciones del clasificador de marcos de la figura 8;

La figura 1 es un diagrama de bloques que ilustra un ejemplo de realización de un selector de clase del clasificador de marcos de la figura 8;

La figura 11 es un diagrama de bloques de un ejemplo de realización de un clasificador de audio;

La figura 12 es un diagrama de bloques que ilustra otro ejemplo de una disposición de codificador de audio que utiliza un clasificador de audio;

La figura 13 es un diagrama de bloques que ilustra un ejemplo de una disposición de codee de audio que utiliza una decisión de habla/no-habla procedente de un clasificador de audio 12; y

La figura 14 es un diagrama de bloques que ilustra un ejemplo de un dispositivo de comunicación de audio que utiliza una disposición de codificador de audio.

Descripción detallada

En la siguiente descripción m indica el índice de muestra de audio en un marco y n indica el índice de marco. Un marco se define como un corto bloque de la señal de audio, por ejemplo de 2-4 ms, que contiene M muestras.

La figura 1 es un diagrama de bloques que ilustra un ejemplo de una disposición de codificador de audio que utiliza un clasificador de audio. Marcos consecutivos, denominados MARCO n, MARCO n+1, MARCO n+2,....de muestras de audio se hacen avanzar hacia un codificador 1, el cual los codifica convirtiéndolos en una señal codificada. Un clasificador de audio de acuerdo con la presente tecnología ayuda al codificador 1 clasificando los marcos en habla/no-habla. Esto permite que el codificador utilice diferentes esquemas de codificación para diferentes tipos de señales de audio, tales como habla/música o habla/ruido de fondo.

La presente tecnología está basada en un conjunto de medidas de características que pueden ser calculadas directamente a partir de la forma de onda de la señal (o su representación en un dominio de frecuencias, como se describirá más adelante) con una complejidad de cálculo muy baja.

Las siguientes medidas de características son extraídas de la señal de audio sobre una base de cuadro a cuadro:

1. Una medida de característica que representa un coeficiente de auto-correlación entre muestras xm(n), preferiblemente el coeficiente de auto-correlación normalizado de primer orden. Esta medida de característica puede ser, por ejemplo, representada por:

y m=1_____________

(i)

m=2

2. Una medida... [Seguir leyendo]

Reivindicaciones:

1. Un método de clasificación de señales de audio basado en marcos o cuadros, caracterizado por los pasos de:

determinar (S1), para cada uno de un número predeterminado de marcos consecutivos, medidas de características que representan al menos las siguientes características:

un coeficiente de auto-correlación (Tn),

una energía de señal de marco (En) en un dominio comprimido,

una variación de energía entre marcos;

comparar (S2) cada medida de característica determinada con al menos un correspondiente intervalo predeterminado de características; calcular (S3), para cada intervalo de características, una medida de fracción (<t>i - 5) que representa el número total de medidas correspondientes de características (T, £, AEn) que caen dentro del intervalo de características;

clasificar (S4) el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un intervalo de fracción correspondiente, y como no-habla en caso contrario.

2. El método de la reivindicación 1, en el que las medidas de características que representan el coeficiente de auto-correlación (T) y la energía de señal de marco (£) en el dominio comprimido son determinadas en el dominio

de tiempo.

3. El método de la reivindicación 2, en el que la medida de característica que representa el coeficiente de auto- correlación está dada por:

"» _ m=1_____________

n ~ M

IX ^

m=2

en la que

xm(n) indica muestra m en el marco n,

M es el número total de muestras en cada marco.

da de característica que representa la energía de la

M \

IX (w)

m=1

4. El método de la reivindicación 2 o la 3, en el que la medi señal de marco en el dominio comprimido está dada por:

En = 1-logj

en la que

xm(n) indica muestra m

M es el número total de muestras en un marco.

5. El método de la reivindicación 1, en el que las medidas de características que representan el coeficiente de auto-correlación (T) y la energía de la señal de marco (£) en el dominio comprimido son determinadas en el dominio de frecuencia.

6. El método de cualquiera de las reivindicaciones precedentes 1-5, en el que la medida de característica que representa la variación de energía de la señal de marco entre marcos adyacentes está dada por:

IK-g-i

7. El método de cualquiera de las reivindicaciones precedentes 1-6, que incluye el paso de determinar una medida de característica adicional que representa la variación espectral (SDn) entre marcos.

8. El método de cualquiera de las reivindicaciones precedentes 1-7, que incluye el paso de terminar una medida

de característica adicional que representa la frecuencia fundamental (P).

9. El método de cualquiera de las reivindicaciones precedentes 1-8, en el que un Intervalo de características correspondiente a la energía (£) de la señal de marco en el dominio comprimido está dada por |o,62E1^, q},

donde Q es un límite superior de energía y Ees un parámetro auxiliar dado por:

ETX=( 1-	a£
	,557	si	En >£T
V =	,38	si
	,1	si	En<,62E

donde £ representa la energía de la señal de marco en el dominio comprimido en el marco n.

1. Un clasificador (12) de audio para la clasificación de señales de audio basada en marcos, caracterizado por:

un extractor (14) de características configurado para determinar, para cada uno de un número predeterminado de marcos consecutivos, medidas de características que representen al menos las siguientes características:

* un coeficiente de auto-correlación (Tn),

* energía (£) de la señal de marco en un dominio comprimido,

* variación de energía de la señal entre marcos;

un comparador (16) de medidas de características configurado para comparar cada medida de característica determinada (T, £, AEn) con al menos un correspondiente intervalo de características predeterminado;

un clasificador (18) de marcos configurado para calcular, para cada intervalo de características, una medida de fracción (Oí - 5) que representa el número total de medidas de características correspondientes que caen dentro del intervalo de características, y para clasificar el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un correspondiente intervalo de fracciones, y como no-habla en caso contrario.

11. El clasificador de audio de la reivindicación 1, en el que el extractor (14) de características está configurado para determinar las medidas de características que representan energía (£) de la señal de marco en el dominio comprimido y el coeficiente de auto-correlación (T) en el dominio de tiempo.

12. El clasificador de audio de la reivindicación 11, en el que el extractor (14) de características está configurado para determinar la medida de característica que representa el coeficiente de auto-correlación de acuerdo con:

2X(wK-i(w)

y7 m=1_____________

1 n ~ M

IX(w)

m=2

en la que

Xm(n) indica muestra m en el marco n M es el número total de muestran en cada marco.

13. El clasificador de audio de la reivindicación 11 o la 12, en el que el extractor (14) de características está configurado para determinar la medida de características que representa la energía de la señal de marco en el dominio comprimido de acuerdo con:

1-log1

r±

M \

m=1 y

en la que

xm(n) indica muestra m

M es el número total de muestras en un marco.

14. El clasificador de audio de la reivindicación 1, en el que el extractor (14) de características está configurado para determinar las medidas de características que representan la energía (E) de las señales de marco en el

dominio comprimido y el coeficiente de auto-correlación (T) en el dominio de frecuencia.

15. El clasificador de audio de cualquiera de las reivindicaciones precedentes 1-14, en el que el extractor (14) de características está configurado para determinar la medida de características que representa la variación de energía entre marcos de acuerdo con:

| E-E,

En+E,

en la que E representa la energía de la señal de marco en el dominio comprimido en el marco n.

16. El calificador de audio de cualquiera de las reivindicaciones precedentes 1-15, en el que el extractor (14) de características está configurado para determinar una medida de característica adicional que represente la frecuencia

fundamental (P).

17. El clasificador de audio de cualquiera de las reivindicaciones precedentes 1-16, en el que el comparador (16) 15 de medidas de características está configurado (2, 22) para generar un intervalo falE1?**, O} de

características correspondiente a la energía (E) de la señal de marco en el dominio comprimido, donde Q es un límite superior de energía y es un parámetro auxiliar dado por:

MAX

(1 -»)E^+»En

,557	si
,38	si
,1	si

E > Enf

n n-1

En <,62E^f

donde E representa la energía de la señal de marco en el dominio comprimido en el marco n.

18. El clasificador de audio de cualquiera de las reivindicaciones precedentes 1-17, en el que el clasificador (18) de marcos incluye un calculador (26) de fracciones configurado para calcular, para cada intervalo de características, una medida de fracción (Oí - 5) que representa el número total de medidas de características correspondientes que caen dentro del intervalo de características;

un selector (28) de clase configurado para clasificar el último de los marcos consecutivos como habla si cada medida de fracción se sitúa dentro de un intervalo de fracción correspondiente, y como no-habla en caso contrario.

19. Una disposición de codificador de audio que incluye un clasificador (12) de audio de acuerdo con cualquiera de las reivindicaciones precedentes 1-18 para clasificar marcos de audio en habla/no-habla y seleccionar con ello un método de codificación correspondiente.

2. Un dispositivo de comunicación de audio que incluye una disposición (7) de codificador de audio de acuerdo

con la reivindicación 19.

21. Una disposición de codificador-descodificador (codee) de audio que incluye un clasificador (12) de audio de acuerdo con cualquiera de las reivindicaciones precedentes 1-19 para clasificar marcos de audio en habla/no-habla para seleccionar un método de post-filtración correspondiente.

Patentes similares o relacionadas:

Detector de actividad de voz de múltiples micrófonos, del 11 de Mayo de 2016, de DOLBY LABORATORIES LICENSING CORPORATION: Un procedimiento para llevar a cabo una detección de actividad de voz, que comprende: recibir una primera señal de un primer micrófono, incluyendo la primera señal una […]

Un detector de voz y un método para suprimir sub-bandas en un detector de voz, del 24 de Septiembre de 2014, de TELEFONAKTIEBOLAGET L M ERICSSON (PUBL): Un detector de voz que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda (n) de […]

PROCEDIMIENTO DE DETECCIÓN DE SEGMENTOS DE VOZ, del 8 de Agosto de 2012, de TELEFONICA, S.A.: La presente invención se refiere a un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida […]

Identificación de personas usando múltiples tipos de entradas, del 25 de Julio de 2012, de MICROSOFT CORPORATION: Un procedimiento para detección de hablantes que comprende: identificar una serie de características que comprende al menos una característica […]

Realce de voz en audio de entretenimiento, del 11 de Julio de 2012, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para realzar la voz en audio de entretenimiento , que comprende procesar, en respuesta a uno omás controles , dicho audio […]

DETECTOR DE ACTIVIDAD VOCAL EN MÚLTIPLES MICRÓFONOS, del 6 de Febrero de 2012, de QUALCOMM INCORPORATED: Un procedimiento para detectar actividad vocal, comprendiendo el procedimiento: recibir una señal de referencia de frecuencia vocal procedente […]

VOCODIFICADOR DE VELOCIDAD VARIABLE, del 2 de Diciembre de 2010, de QUALCOMM INCORPORATED: - Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía […]

PROCEDIMIENTO DE TRANSMISION DE MARCAS DE FIN DE VOZ EN UN SISTEMA DE RECONOCIMIENTO DE VOZ, del 1 de Mayo de 2009, de FRANCE TELECOM: Procedimiento de transmisión de marcas de fin de voz en un sistema de reconocimiento distribuido de voz que funciona en modo de transmisión discontinua, […]