DETECTOR DE ACTIVIDAD VOCAL EN MÚLTIPLES MICRÓFONOS.

Un procedimiento para detectar actividad vocal, comprendiendo el procedimiento:

recibir (722) una señal de referencia de frecuencia vocal procedente de un micrófono (112) de referencia de frecuencia vocal; recibir (724) una señal de referencia de ruido procedente de un micrófono (114) de referencia de ruido distinto del micrófono (112) de referencia de frecuencia vocal; determinar (742) un valor característico de frecuencia vocal en base, al menos en parte, a la señal de referencia de frecuencia vocal; determinar (746) un valor característico combinado en base, al menos en parte, a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido; determinar (750) una métrica de actividad vocal en base, al menos en parte, al valor característico de frecuencia vocal y al valor característico combinado, en el que determinar (742) el valor característico de frecuencia vocal comprende determinar un valor absoluto de una autocorrelación de la señal de referencia de frecuencia vocal y determinar (746) el valor característico combinado comprende determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido, y en el que determinar (750) la métrica de actividad vocal comprende determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y determinar (760) un estado de actividad vocal en base a la métrica de actividad vocal

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2008/077994.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: Attn: International IP Administration 5775 Morehouse Drive San Diego, CA 92121 ESTADOS UNIDOS DE AMERICA.

Inventor/es: GUPTA, SAMIR, KUMAR, WANG,Song, CHOY,Eddie,L. T.

Fecha de Publicación: 6 de Febrero de 2012.

Fecha Solicitud PCT: 26 de Septiembre de 2008.

Clasificación Internacional de Patentes:

G10L11/02

Clasificación PCT:

G10L11/02

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2373511_T3.pdf

Fragmento de la descripción:

Detector de actividad vocal en múltiples micrófonos Campo de la invención La revelación versa acerca del campo del procesamiento de audio. En particular, la revelación versa acerca de una detección de actividad vocal utilizando múltiples micrófonos.

Antecedentes Descripción de la técnica relacionada Los detectores de actividad de señales, tales como los detectores de actividad vocal, pueden ser utilizados para minimizar la cantidad de procesamiento necesario en un dispositivo electrónico. El detector de actividad vocal puede controlar de forma selectiva una o más etapas de procesamiento de señales posteriores a un micrófono.

Por ejemplo, un dispositivo de grabación puede implementar un detector de actividad vocal para minimizar un procesamiento y una grabación de señales de ruido. El detector de actividad vocal puede desconectar o desactivar de otra manera un procesamiento y una grabación de señales durante periodos de actividad no vocal. De forma similar, un dispositivo de comunicaciones, tal como un teléfono móvil, una agenda electrónica, o un ordenador portátil, pueden implementar un detector de actividad vocal para reducir la potencia de procesamiento asignado a señales de ruido y para reducir las señales de ruido que son transmitidas o comunicadas de otra manera a un dispositivo de destino remoto. El detector de actividad vocal puede desconectar o desactivar el procesamiento y la transmisión de voz durante periodos de actividad no vocal.

La capacidad del detector de actividad vocal para operar de forma satisfactoria puede ser dificultada por condiciones variables de ruido y condiciones de ruido que tienen una energía significativa de ruido. El rendimiento de un detector de actividad vocal puede complicarse adicionalmente cuando la detección de actividad vocal está integrada en un dispositivo móvil, que está expuesto a un entorno dinámico de ruido. Un dispositivo móvil puede operar en entornos relativamente libres de ruido o puede operar en condiciones considerables de ruido, en las que la energía de ruido es del orden de la energía vocal.

La presencia de un entorno dinámico de ruido complica la decisión de actividad vocal. La indicación errónea de actividad vocal puede tener como resultado el procesamiento y la transmisión de señales de ruido. El procesamiento y la transmisión de señales de ruido pueden crear una experiencia deficiente para el usuario, en particular cuando hay intercalados periodos de transmisión de ruido con periodos de inactividad debido a una indicación de una ausencia de actividad vocal por medio del detector de actividad vocal.

Por el contado, una mala detección de actividad vocal puede tener como resultado la pérdida de porciones considerables de señales vocales. La pérdida de porciones iniciales de actividad vocal puede tener como resultado que un usuario necesite repetir a menudo porciones de una conversación, lo que es una condición no deseable.

Los algoritmos tradicionales de Detección de actividad de voz (VAD) solo utilizan una señal de micrófono. Los primeros algoritmos de VAD utilizan criterios basados en energía. Este tipo de algoritmo estima un umbral para tomar la decisión acerca de la actividad vocal. Una VAD en un único micrófono puede funcionar bien para ruido estacionario. Sin embargo, una VAD en un único micrófono tiene algo de dificultad para enfrentarse a ruido no estacionario.

Otra técnica de VAD cuenta el paso de señales por el cero y toma una decisión de actividad vocal en base a la tasa en el paso por el cero. Este procedimiento puede funcionar bien cuando el ruido de fondo son señales no vocales. Cuando la señal de fondo es una señal similar a la frecuencia vocal, este procedimiento no logra tomar una decisión fiable. Se pueden utilizar otras características, tales como el tono, la forma formante, el cepstrum y la periodicidad para la detección de actividad de voz. Estas características son detectadas y comparadas con la señal de frecuencia vocal para tomar una decisión de actividad de voz.

En vez de utilizar características de frecuencia vocal, también pueden utilizarse modelos estadísticos de presencia de frecuencia vocal y de ausencia de frecuencia vocal para tomar una decisión de actividad de voz. En tales implementaciones, se actualizan los modelos estadísticos y se toma una decisión de actividad de voz en base a la relación de probabilidad de los modelos estadísticos. Otro procedimiento utiliza una red de separación de la fuente de un único micrófono para preprocesar la señal. Se toma la decisión utilizando una señal de error filtrada de redes neurales de programación de Lagrange y un umbral adaptado a la actividad.

También han sido estudiados los algoritmos de VAD basados en múltiples micrófonos. Las realizaciones de múltiples micrófonos pueden combinar la supresión de ruido, la adaptación del umbral y la detección del tono para conseguir una detección robusta. Una realización utiliza un filtrado lineal para maximizar una relación de señal/interferencia (SIR) . Entonces, se utiliza un procedimiento basado en un modelo estadístico para detectar la actividad vocal utilizando a señal realzada. Otra realización utiliza un conjunto de micrófono lineal y transformadas

de Fourier para generar una representación de dominio frecuencial del vector de salida del conjunto. Se pueden utilizar las representaciones de dominio frecuencial para estimar una relación de señal/ruido (SNR) y un umbral predeterminado para detectar una actividad de frecuencia vocal. Otra realización más sugiere utilizar la magnitud de coherencia cuadrada (MSC) y un umbral adaptativo para detectar la actividad vocal en un procedimiento de VAD basado en dos sensores. Se proporciona un ejemplo de tal realización en LE BOUQUIN-JEANNES R ET AL: “Study of a voice activity detector and its influence on a noise reduction system”, SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, PAÍSES BAJOS, Vol. 16, nº 3, 1 de abril de 1995, páginas 245-254. Otra realización más, tal como el documento WO 2005/031703 A1, sugiere utilizar un micrófono para frecuencia vocal y un micrófono para ruido al igual que una medida de la variación de las señales entre los dos micrófonos para detectar la actividad de frecuencia vocal.

Muchos de los algoritmos de detección de actividad de voz requieren mucho cálculo y no son adecuados para aplicaciones móviles, en las que son motivo de preocupación un consumo de energía y la complejidad de cálculo. Sin embargo, las aplicaciones móviles también presentan entornos de detección de actividad de voz que suponen un reto debido en parte al entorno dinámico de ruido y a la naturaleza no estacionaria de las señales de ruido que inciden en un dispositivo móvil.

Breve resumen La detección de actividad de voz utilizando múltiples micrófonos puede estar basada en una relación entre la energía en cada uno de un micrófono de referencia de frecuencia vocal y un micrófono de referencia de ruido. Se puede determinar el gasto de energía de cada uno del micrófono de referencia de frecuencia vocal y del micrófono de referencia de ruido. Se puede determinar una relación de energía de frecuencia vocal a ruido y se puede comparar con un umbral predeterminado de actividad vocal. En otra realización, se determinan el valor absoluto de la correlación de frecuencia vocal y la autocorrelación y/o el valor absoluto de la autocorrelación de las señales de referencia de ruido y se determina una relación en base a los valores de correlación. Las relaciones que superan el umbral predeterminado pueden indicar la presencia de una señal de frecuencias vocales. Se pueden determinar las energías o correlaciones de frecuencia vocal y de ruido utilizando una media ponderada o en un tamaño discreto de trama.

Los aspectos de la invención incluyen un procedimiento, un aparato y un medio legible por un ordenador como en las reivindicaciones 1, 7 y 14, respectivamente.

Breve descripción de los dibujos Las características, los objetos, y las ventajas de las realizaciones de la revelación serán evidentes a partir de la descripción detallada definida a continuación cuando es tomada junto con los dibujos, en los que los elementos similares tienen números similares de referencia.

La Figura 1 es un diagrama simplificado de bloques funcionales de un dispositivo de múltiples micrófonos que opera en un entorno de ruido.

La Figura 2 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para detectar actividad vocal, comprendiendo el procedimiento: recibir (722) una señal de referencia de frecuencia vocal procedente de un micrófono (112) de referencia de frecuencia vocal; 5 recibir (724) una señal de referencia de ruido procedente de un micrófono (114) de referencia de ruido distinto del micrófono (112) de referencia de frecuencia vocal; determinar (742) un valor característico de frecuencia vocal en base, al menos en parte, a la señal de referencia de frecuencia vocal; determinar (746) un valor característico combinado en base, al menos en parte, a la señal de referencia de 10 frecuencia vocal y a la señal de referencia de ruido; determinar (750) una métrica de actividad vocal en base, al menos en parte, al valor característico de frecuencia vocal y al valor característico combinado, en el que determinar (742) el valor característico de frecuencia vocal comprende determinar un valor absoluto de una autocorrelación de la señal de referencia de frecuencia vocal y determinar (746) el valor 15 característico combinado comprende determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido, y en el que determinar (750) la métrica de actividad vocal comprende determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y 20 determinar (760) un estado de actividad vocal en base a la métrica de actividad vocal. 2. El procedimiento de la reivindicación 1, que comprende, además: formar un haz con al menos una de la señal de referencia de frecuencia vocal o la señal de referencia de ruido; llevar a cabo una Separación ciega de fuentes, BSS, en la señal de referencia de frecuencia vocal y la 25 señal de referencia de ruido para realizar un componente de señal de frecuencia vocal en la señal de referencia de frecuencia vocal; llevar a cabo una sustracción espectral en al menos una de la señal de referencia de frecuencia vocal o la señal de referencia de ruido; o determinar un valor característico de ruido en base, al menos en parte, a la señal de referencia de ruido, y 30 en el que la métrica de actividad vocal está basada, al menos en parte, en el valor característico de ruido. 3. El procedimiento de la reivindicación 1, en el que la señal de referencia de frecuencia vocal incluye la presencia o la ausencia de actividad vocal, y preferentemente: la autocorrelación comprende una suma ponderada de una autocorrelación anterior con una energía de referencia de frecuencia vocal en un instante temporal particular; 35 determinar el valor característico de frecuencia vocal comprende determinar una energía de la señal de referencia de frecuencia vocal; determinar el valor característico combinado comprende determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido; o determinar el estado de actividad vocal comprende comparar la métrica de actividad vocal con un umbral. 40 4. El procedimiento de la reivindicación 1, en el que: el micrófono (112) de referencia de frecuencia vocal comprende al menos un micrófono de frecuencia vocal; el micrófono (114) de referencia de ruido comprende al menos un micrófono de ruido distinto del al menos un micrófono de frecuencia vocal; determinar (742) el valor característico de frecuencia vocal comprende determinar una autocorrelación en 45 base a la señal de referencia de frecuencia vocal; y

determinar (760) el estado de actividad vocal comprende comparar la métrica de actividad vocal con al menos un umbral.

5. El procedimiento de la reivindicación 4, que comprende, además:

llevar a cabo (730) un realce de señal de al menos una de la señal de referencia de frecuencia vocal o de la 5 señal de referencia de ruido, y en el que la métrica de actividad vocal está basada, al menos en parte, en una de una señal realzada de referencia de frecuencia vocal o una señal realzada de referencia de ruido; o variar (770) un parámetro operativo en base al estado de actividad vocal.

6. El procedimiento de la reivindicación 5, en el que el parámetro operativo comprende:

una ganancia aplicada a la señal de referencia de frecuencia vocal; o 10 un estado de un codificador de frecuencia vocal que opera en la señal de referencia de frecuencia vocal.

7. Un aparato configurado para detectar actividad vocal, comprendiendo el aparato: un medio (112) para recibir una señal de referencia de frecuencia vocal; un medio (114) para recibir una señal de referencia de ruido; un medio (232) para determinar un valor característico de frecuencia vocal en base a la señal de referencia de frecuencia vocal al determinar un valor absoluto de una autocorrelación de la señal de referencia de frecuencia vocal; un medio (236) para determinar un valor característico combinado al determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido;

un medio (240) para determinar una métrica de actividad vocal al determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y un medio (250) para determinar un estado de actividad vocal al comparar la métrica de actividad vocal con al menos un umbral.

8. El aparato de la reivindicación 7, que comprende, además: un micrófono de referencia de frecuencia vocal configurado para dar salida a una señal de referencia de frecuencia vocal; y un micrófono de referencia de ruido configurado para dar salida a una señal de referencia de ruido.

9. El aparato de la reivindicación 7, que comprende, además, un medio para calibrar una respuesta espectral de un recorrido de la señal de referencia de frecuencia vocal para que sea sustancialmente similar a una respuesta espectral de un recorrido de la señal de referencia de ruido.

10. El aparato de la reivindicación 8, en el que:

el micrófono de referencia de frecuencia vocal comprende una pluralidad de micrófonos; o el medio para determinar un valor característico de frecuencia vocal está configurado para determinar una media ponderada en base a una disminución exponencial de valores característicos anteriores de frecuencia vocal.

11. El aparato de la reivindicación 8, en el que el medio para determinar una métrica de actividad vocal está configurado para determinar una relación del valor característico de frecuencia vocal con respecto a un valor característico de ruido determinado en base a la señal de referencia de ruido.

12. El aparato de la reivindicación 7, que comprende un circuito configurado para detectar actividad vocal, en el que:

el medio para recibir una señal de referencia de frecuencia vocal comprende una primera sección del circuito adaptada para recibir una señal de referencia de frecuencia vocal de salida procedente de un micrófono de referencia de frecuencia vocal;

el medio para recibir una señal de referencia de ruido comprende una segunda sección del circuito adaptada para recibir una señal de referencia de ruido de salida procedente de un micrófono de referencia 45 de ruido;

el medio para determinar un valor característico de frecuencia vocal comprende una tercera sección del circuito que comprende un generador de valor característico de frecuencia vocal acoplado a la primera sección configurada para determinar un valor característico de frecuencia vocal, en el que determinar el valor característico de frecuencia vocal comprende determinar un valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal;

el medio para determinar un valor característico combinado comprende una cuarta sección del circuito que comprende un generador de valor característico combinado acoplado a la primera sección y a la segunda sección configuradas para determinar un valor característico combinado, en el que determinar el valor característico combinado comprende determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido;

el medio para determinar una métrica de actividad vocal comprende una quinta sección del circuito que comprende un módulo de métrica de actividad vocal configurado para determinar una métrica de actividad vocal al determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y el medio para determinar un estado de actividad vocal comprende un comparador configurado para comparar la métrica de actividad vocal con un umbral y dar salida a un estado de actividad vocal.

13. El aparato de la reivindicación 12, en el que cualesquiera dos secciones en un grupo consistente en la primera sección, la segunda sección, la tercera sección, la cuarta sección, y la quinta sección del circuito comprenden circuitería similar.

14. Un medio legible por un ordenador que incluye instrucciones que, cuando son ejecutadas por un procesador, tienen como resultado la realización de etapas de procedimiento de cualquiera de las reivindicaciones 1 a 6.

Patentes similares o relacionadas:

Detector de actividad de voz de múltiples micrófonos, del 11 de Mayo de 2016, de DOLBY LABORATORIES LICENSING CORPORATION: Un procedimiento para llevar a cabo una detección de actividad de voz, que comprende: recibir una primera señal de un primer micrófono, incluyendo la primera señal una […]

Clasificación de señales de audio basada en marcos, del 31 de Diciembre de 2014, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de clasificación de señales de audio basado en marcos o cuadros, caracterizado por los pasos de: determinar (S1), para cada uno […]

Un detector de voz y un método para suprimir sub-bandas en un detector de voz, del 24 de Septiembre de 2014, de TELEFONAKTIEBOLAGET L M ERICSSON (PUBL): Un detector de voz que responde a una señal de entrada que se divide en sub-señales, representando cada una de ellas una sub-banda (n) de […]

PROCEDIMIENTO DE DETECCIÓN DE SEGMENTOS DE VOZ, del 8 de Agosto de 2012, de TELEFONICA, S.A.: La presente invención se refiere a un procedimiento de detección de segmentos de voz y de ruido en una señal digital de audio de entrada, estando dividida […]

Identificación de personas usando múltiples tipos de entradas, del 25 de Julio de 2012, de MICROSOFT CORPORATION: Un procedimiento para detección de hablantes que comprende: identificar una serie de características que comprende al menos una característica […]

Realce de voz en audio de entretenimiento, del 11 de Julio de 2012, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para realzar la voz en audio de entretenimiento , que comprende procesar, en respuesta a uno omás controles , dicho audio […]

VOCODIFICADOR DE VELOCIDAD VARIABLE, del 2 de Diciembre de 2010, de QUALCOMM INCORPORATED: - Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía […]

PROCEDIMIENTO DE TRANSMISION DE MARCAS DE FIN DE VOZ EN UN SISTEMA DE RECONOCIMIENTO DE VOZ, del 1 de Mayo de 2009, de FRANCE TELECOM: Procedimiento de transmisión de marcas de fin de voz en un sistema de reconocimiento distribuido de voz que funciona en modo de transmisión discontinua, […]