Procedimiento de detección de segmentos de habla.

Procedimiento de detección de segmentos de habla (2) y de ruido en una señal digital de audio de entrada,

estando dividida dicha señal de entrada en una pluralidad de tramas (1) que comprende:

• una primera etapa (10) en la que se realiza una primera clasificación de una trama como ruido si el valor medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía (umbral_energ1), siendo N un número entero mayor que 1;

• una segunda etapa (20) en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como habla en base a la combinación de al menos un primer criterio de similitud espectral de la trama con modelos acústicos de ruido y de habla, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía (umbral_energ2) y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con similitud espectral superior a un primer umbral acústico (umbral_ac1) y otro número determinado de tramas consecutivas con similitud espectral inferior a dicho primer umbral acústico para detectar el fin de dicho segmento, en el que en la segunda etapa, para cada trama que no ha sido clasificada como ruido en la primera etapa:

- se calcula una probabilidad de que la trama sea una trama de ruido comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como ruido que no pertenecen a la señal que se está analizando;

- se calcula una probabilidad de que la trama sea una trama de habla comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como habla que no pertenecen a la señal que se está analizando;

- se calcula un estado siguiente de la máquina de estados en función de al menos, una relación entre la probabilidad de que la trama sea una trama de habla y la probabilidad de que la trama sea una trama de ruido, y de un estado actual de dicha máquina de estados, y

• una tercera etapa (30) en la que se revisa la clasificación como habla o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasificando como ruido los segmentos de habla de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía;

en el que la máquina de estados comprende, al menos, un estado inicial (210), un estado en el que se comprueba que se ha iniciado un segmento de habla (220), un estado en el que se comprueba que continúa el segmento de habla (230), y un estado en el que se comprueba que ha finalizado el segmento de habla (240);

y en el que para producirse una transición entre el estado en el que se comprueba que se ha iniciado un segmento de habla (220) y el estado en el que se comprueba que continúa un segmento de habla (230), se requieren, al menos, dos tramas consecutivas en las que la relación entre la probabilidad de que la trama sea una trama de habla y la probabilidad de que la trama sea una trama de ruido sea superior a dicho primer umbral acústico.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/065022.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: GARCIA MARTINEZ,CARLOS, DUXANS BARROBES,HELENCA, SENDRA VICENS,MAURICIO, CADENAS SANCHEZ,DAVID.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L15/14 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › utilizando técnicas de programación dinámica, p. ej. normalización temporal por comparación dinámica [DTW] (G10L 15/18  tiene prioridad).
  • G10L25/78 G10L […] › G10L 25/00 Técnicas de análisis del habla o voz no restringidos a un solo de los grupos G10L 15/00 - G10L 21/00 (silenciar los amplificadores basados en semiconductores, cuando algunas de las características especiales de una señal son detectadas por un detector de voz, p. ej. detectar cuando no hay ninguna señal,  H03G 3/34). › Detección de presencia o ausencia de señales de voz (con conmutación de dirección de transmisión por frecuencia vocal en sistemas telefónicas bidireccionales de altavoz H04M 9/10).

PDF original: ES-2454249_T3.pdf

 

Procedimiento de detección de segmentos de habla.

Fragmento de la descripción:

Procedimiento de detección de segmentos de habla.

Campo de la invención La presente invención pertenece al área de la tecnología del habla, particularmente reconocimiento del habla y verificación del hablante, en concreto a la detección de habla y ruido.

Antecedentes de la invención El reconocimiento automático del habla es una tarea particularmente complicada. Uno de los motivos es la dificultad de detectar los comienzos y finales de los segmentos de habla pronunciados por el usuario, discriminándolos adecuadamente de los periodos de silencio que se producen antes de que comience a hablar, después de que termine, y los que resultan de las pausas que dicho usuario realiza para respirar mientras habla.

La detección y delimitación de los segmentos de habla pronunciados es fundamental por dos motivos. En primer lugar, por motivos de eficiencia computacional: los algoritmos utilizados en reconocimiento del habla son bastante exigentes en lo que a carga computacional se refiere, por lo que aplicarlos a toda la señal acústica, sin eliminar los periodos en los que no está presente la voz del usuario, supondría disparar la carga de procesamiento y, en consecuencia, provocaría retrasos considerables en la respuesta de los sistemas de reconocimiento. En segundo lugar, y no menos importante, por motivos de eficacia: la eliminación de los segmentos de señal que no contienen la voz del usuario, limita considerablemente el espacio de búsqueda del sistema de reconocimiento, reduciendo sustancialmente su tasa de error. Por estos motivos, los sistemas comerciales de reconocimiento automático del habla incluyen un módulo de detección de segmentos de habla y de ruido.

Como consecuencia de la importancia de la detección de segmentos de habla, los esfuerzos para conseguir llevar a cabo esta tarea adecuadamente han sido muy numerosos.

Por ejemplo, la solicitud de patente japonesa JP-A-9050288 divulga un procedimiento de detección de segmentos de habla. En concreto, se determinan los puntos de inicio y finalización del segmento de habla mediante la comparación de la amplitud de la señal de entrada con un umbral. Este procedimiento presenta el inconveniente de que el funcionamiento depende del nivel de la señal de ruido, por lo que sus resultados no son adecuados en presencia de ruidos de gran amplitud.

A su vez, la solicitud de patente japonesa JP-A-1244497 divulga un procedimiento de detección de segmentos de habla basado en el cálculo de la energía de la señal. En concreto, se calcula la energía media de las primeras tramas de habla y utiliza el valor obtenido como estimación de la energía de la señal de ruido superpuesta a la voz. A continuación, se detectan los pulsos de voz mediante la comparación de la energía de cada trama de la señal con un umbral dependiente de la energía de la señal de ruido estimada. De esta forma, se compensa la posible variabilidad de valores de energía de la señal de ruido. Sin embargo, el procedimiento no funciona correctamente cuando aparecen segmentos de ruido de gran amplitud y corta duración.

En la patente estadounidense US-6317711 también se divulga un procedimiento de detección de segmentos de habla. En este caso, para cada trama de señal se obtiene un vector de características mediante una parametrización LPC-cepstra y MEL-cepstra. A continuación, se busca el valor mínimo de dicho vector y se normalizan todos los elementos de dicho vector dividiendo su valor por este valor mínimo. Finalmente se compara el valor de la energía normalizada con un conjunto de umbrales predeterminados para detectar los segmentos de habla. Este procedimiento ofrece mejores resultados que el anterior, aunque sigue presentando dificultades para detectar segmentos de habla en condiciones de ruido desfavorables.

En la patente estadounidense US-6615170 se divulga un procedimiento alternativo de detección de segmentos de habla que, en lugar de basarse en la comparación de un parámetro o un vector de parámetros con un umbral o conjunto de umbrales, se basa en el entrenamiento de modelos acústicos de ruido y de habla y en la comparación de la señal de entrada con dichos modelos, determinando si una determinada trama es habla o ruido mediante la maximización de la máxima verosimilitud. En el documento FR 2 856 506 A1 se utiliza una máquina de estados Aparte de estas patentes y otras similares, el tratamiento de la tarea de la detección de segmentos de habla y ruido en la literatura científica es muy extenso, existiendo numerosos artículos y ponencias que presentan diferentes procedimientos de llevar a cabo dicha detección. Así, por ejemplo, en “Voice Activity Detection Based on Conditional MAP Criterion” (Jong Won Shin, Hyuk Jin Kwon, Suk Ho Jin, Nam Soo Kim; en IEEE Signal Processing Letters, ISSN: 1070-9908, Vo. 15, Feb. 2008) se describe un procedimiento de detección de habla basado en una variante del criterio MAP (maximum a posteriori) , que clasifica las tramas de señal en habla o ruido basándose en parámetros espectrales y utilizando umbrales diferentes dependiendo de los resultados de clasificación inmediatamente anteriores.

En lo que respecta al ámbito de la normalización, cabe destacar la recomendación de un procedimiento de detección de habla incluida en el estándar de la ETSI de reconocimiento del habla distribuido (ETSI ES 202 050 v1.1.3.

Distributed Speech Recognition; Advanced Front-end Feature Extraction Algorithm; Compression Algorithms. Technical Report ETSI ES 202 050, ETSI) . El procedimiento recomendado en el estándar se basa en el cálculo de tres parámetros de la señal para cada trama de la misma y su comparación con tres umbrales correspondientes, utilizando un conjunto de varias tramas consecutivas para tomar la decisión habla/ruido final.

Sin embargo, a pesar de la gran cantidad de procedimientos propuestos, en la actualidad la tarea de detección de segmentos de habla sigue presentando importantes dificultades. Los procedimientos propuestos hasta el momento, tanto los basados en la comparación de parámetros con umbrales, como los basados en clasificación estadística, son insuficientemente robustos en condiciones desfavorables de ruido, especialmente en presencia de ruido no estacionario, lo que provoca un aumento de los errores de detección de segmentos de habla en tales condiciones. Por este motivo, la utilización de estos procedimientos en entornos particularmente ruidosos, como es el caso del interior de automóviles, presenta importantes problemas.

Es decir, los procedimientos de detección de segmentos de habla propuestos hasta el momento, tanto los basados en la comparación de parámetros de la señal con umbrales como los basados en comparación estadística, presentan importantes problemas de robustez en entornos de ruido desfavorables. Su funcionamiento se degrada en particular ante la presencia de ruidos de carácter no estacionario.

Como consecuencia de la falta de robustez en determinadas condiciones, resulta inviable o particularmente difícil la utilización de sistemas de reconocimiento automático del habla en determinados entornos (como por ejemplo, el interior de automóviles) . En estos casos, el empleo de procedimientos de detección de segmentos de habla basados en comparación de parámetros de la señal con umbrales, o bien basados en comparaciones estadísticas, no proporciona resultados adecuados. En consecuencia, los reconocedores automáticos del habla obtienen numerosos resultados erróneos, así como frecuentes rechazos de las pronunciaciones del usuario, lo que dificulta enormemente la utilización de este tipo de sistemas.

Descripción de la invención La invención se refiere a un procedimiento de detección de segmentos de habla de acuerdo con la reivindicación 1. Realizaciones preferidas del procedimiento se definen en las reivindicaciones dependientes.

La presente propuesta trata de hacer frente a tales limitaciones, ofreciendo un procedimiento de detección de segmentos de habla robusto en entornos ruidosos, incluso en presencia de ruidos no estacionarios. Para ello, el procedimiento propuesto se basa en la combinación de tres criterios para tomar la decisión de clasificar los segmentos de la señal de entrada como habla o como ruido. En concreto, se utiliza un primer criterio relacionado con la energía de la señal, basado en la comparación con un umbral. Como segundo criterio se utiliza una comparación estadística de una serie de parámetros espectrales de la señal con unos modelos de habla y de ruido. Y se utiliza un tercer criterio basado en la duración de los distintos pulsos de voz y ruido, basado en la comparación con un conjunto de umbrales.

El procedimiento de detección de segmentos de habla propuesto se realiza en... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento de detección de segmentos de habla (2) y de ruido en una señal digital de audio de entrada, estando dividida dicha señal de entrada en una pluralidad de tramas (1) que comprende:

! una primera etapa (10) en la que se realiza una primera clasificación de una trama como ruido si el valor 5 medio de la energía para esta trama y las N tramas anteriores no es superior a un primer umbral de energía (umbral_energ1) , siendo N un número entero mayor que 1;

! una segunda etapa (20) en la que para cada trama que no ha sido clasificada como ruido en la primera etapa se decide si dicha trama se clasifica como ruido o como habla en base a la combinación de al menos un primer criterio de similitud espectral de la trama con modelos acústicos de ruido y de habla, un segundo criterio de análisis de energía de la trama respecto a un segundo umbral de energía (umbral_energ2) y un tercer criterio de duración consistente en utilizar una máquina de estados para detectar el inicio de un segmento como acumulación de un número determinado de tramas consecutivas con similitud espectral superior a un primer umbral acústico (umbral_ac1) y otro número determinado de tramas consecutivas con similitud espectral inferior a dicho primer umbral acústico para detectar el fin de dicho segmento, en el que en la segunda etapa, para cada trama que no ha sido clasificada como ruido en la primera etapa:

-se calcula una probabilidad de que la trama sea una trama de ruido comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como ruido que no pertenecen a la señal que se está analizando;

- se calcula una probabilidad de que la trama sea una trama de habla comparando unas características espectrales de dicha trama con esas mismas características espectrales de un grupo de tramas clasificadas como habla que no pertenecen a la señal que se está analizando;

-se calcula un estado siguiente de la máquina de estados en función de al menos, una relación entre la probabilidad de que la trama sea una trama de habla y la probabilidad de que la trama sea una trama 25 de ruido, y de un estado actual de dicha máquina de estados, y

! una tercera etapa (30) en la que se revisa la clasificación como habla o como ruido de las tramas de señal llevada a cabo en la segunda etapa utilizando criterios de duración, clasificando como ruido los segmentos de habla de duración inferior a un primer umbral de duración mínima de segmento, así como aquellos que no contienen un determinado número de tramas consecutivas que simultáneamente superan dicho umbral acústico y dicho segundo umbral de energía;

en el que la máquina de estados comprende, al menos, un estado inicial (210) , un estado en el que se comprueba que se ha iniciado un segmento de habla (220) , un estado en el que se comprueba que continúa el segmento de habla (230) , y un estado en el que se comprueba que ha finalizado el segmento de habla (240) ;

y en el que para producirse una transición entre el estado en el que se comprueba que se ha iniciado un segmento de habla (220) y el estado en el que se comprueba que continúa un segmento de habla (230) , se requieren, al menos, dos tramas consecutivas en las que la relación entre la probabilidad de que la trama sea una trama de habla y la probabilidad de que la trama sea una trama de ruido sea superior a dicho primer umbral acústico.

2. Procedimiento según la reivindicación 1, en el que en dicha tercera etapa se utilizan dos umbrales de duración:

! un primer umbral (umbral_dur1) de duración mínima de segmento o número mínimo de tramas consecutivas clasificadas como habla o como ruido; ! un segundo umbral de duración (umbral_dur2) de tramas consecutivas que en la segunda etapa cumplen tanto el criterio de similitud espectral como el criterio de análisis de energía de la trama.

3. Procedimiento según cualquiera de las reivindicaciones 1-2, en el que dicho criterio de similitud espectral usado 45 en la segunda etapa consiste en un análisis comparativo de características espectrales de dicha trama con características espectrales de dichos modelos acústicos de ruido y de habla previamente establecidos.

4. Procedimiento según la reivindicación 3, en el que dicho análisis comparativo de características espectrales se realiza utilizando el algoritmo de Viterbi.

5. Procedimiento según cualquiera de las reivindicaciones 1-4, en el que dichos modelos acústicos de ruido y de

habla previamente establecidos se obtienen modelando estadísticamente dos unidades acústicas, de ruido y habla respectivamente, mediante modelos ocultos de Márkov.

6. Procedimiento según cualquiera de las reivindicaciones 1-5, en el que para producirse una transición entre el estado que comprueba que ha finalizado un segmento de habla (240) y el estado inicial (210) se requieren, al menos, dos tramas consecutivas en las que la relación entre la probabilidad de que la trama sea una trama de habla 55 y la probabilidad de que la trama sea una trama de ruido sea inferior a un primer umbral acústico dividido por un factor.

7. Procedimiento según cualquiera de las reivindicaciones 1-6, en el que el primer umbral de energía utilizado en la primera etapa se actualiza dinámicamente ponderando su valor actual y el valor de energía de las tramas clasificadas como ruido en la segunda y la tercera etapas.

8. Procedimiento según la reivindicación 1-2, en el que el criterio de análisis de la energía de la trama (2203, 2303) consiste en superar un segundo umbral de energía, calculado al multiplicar el primer umbral de energía por un factor y sumarle un desfase.


 

Patentes similares o relacionadas:

Metodología para el reconocimiento automatizado de reptiles mediante la transformación del modelo de Markov de la fusión paramétrica de características de su producción sonora., del 12 de Abril de 2017, de UNIVERSIDAD DE LAS PALMAS DE GRAN CANARIA: La presente invención se refiere a un procedimiento para el reconocimiento y censo automatizado de reptiles a través de la transformación usando modelos ocultos de […]

Método para descubrir y reconocer patrones, del 18 de Febrero de 2015, de Aalto-Korkeakoulusäätiö: Método para reconocer un concepto en una señal, por ejemplo una señal de voz, mediante un aparato, comprendiendo el método: recibir , […]

SISTEMA Y PROCEDIMIENTO DE DETECCION E IDENTIFICACION DE SONIDOS EN TIEMPO REAL PRODUCIDOS POR FUENTES SONORAS ESPECIFICAS, del 15 de Julio de 2011, de UNIVERSIDAD POLITECNICA DE MADRID: Sistema y procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, que comprende: muestrear, una señal analógica […]

COMPRESION DE PROTOTIPOS HMM (MODELOS DE MARKOV ESCONDIDOS)., del 16 de Abril de 2007, de SIEMENS AKTIENGESELLSCHAFT: Procedimiento para comprimir prototipos HMM, - prescribiéndose prototipos HMM (Xj); - reproduciéndose los prototipos HMM (Xj) sobre prototipos HMM comprimidos (YJ); - previéndose […]

METODO PARA IDENTIFICACION DE SECUENCIAS DE AUDIO., del 16 de Noviembre de 2004, de UNIVERSITAT POMPEU FABRA: Método para identificación de secuencias de audio. Comprende las siguientes etapas; 1. preprocesado de la secuencia de audio, comprendiendo […]

PROCEDIMIENTO PARA LA ADAPTACION DE UN MODELO DE SONIDO HIDDEN MARKOV EN UN SISTEMA DE RECONOCIMIENTO DE VOZ., del 1 de Julio de 2002, de SIEMENS AKTIENGESELLSCHAFT: LA INVENCION SE REFIERE A UN PROCEDIMIENTO PARA ADAPTACION DE UN LIBRO (CB) DE CODIGO DISPONIBLE GENERALMENTE PARA APLICACIONES ESPECIALES CON UN SISTEMA DE RECONOCIMIENTO […]

PROCEDIMIENTO PARA CALCULAR UN VALOR UMBRAL PARA EL RECONOCIMIENTO DE VOZ EN UNA PALABRA CLAVE., del 1 de Julio de 2002, de SIEMENS AKTIENGESELLSCHAFT: LA INVENCION PROPONE UN METODO QUE PERMITE CALCULAR EL VALOR UMBRAL DE ACEPTACION, A NIVEL DE PALABRA INDIVIDUAL, DE PALABRAS CLAVE. LA NOVEDAD DE LA INVENCION CONSISTE […]

SISTEMA DE RECONOCIMIENTO DE LA VOZ QUE USA ADAPTACIÓN IMPLÍCITA AL ORADOR, del 27 de Diciembre de 2011, de QUALCOMM INCORPORATED: Un procedimiento para realizar el reconocimiento de voz que comprende: realizar el apareo de patrones de un primer segmento de voz de entrada con al menos una primera plantilla […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .