MÉTODO Y SISTEMA PARA LA ESTIMACIÓN DE PARÁMETROS FISIOLÓGICOS DE LA FONACIÓN.

La invención consiste en un método y sistema de cómputo para el registro y análisis de la voz,

que permite calcular una serie de parámetros de la fonación. Estos transportan información relevante sobre influencias causadas por trastornos orgánicos (que afectan a la fisiología de la laringe) o neurológicos (que afectan a los centros cerebrales del habla). Asimismo se consideran parte esencial de la invención los procedimientos clasificatorios que permiten obtener estimaciones de la disfunción presente y de asignación de personalidad. La utilidad de la invención se enmarca, en la posibilidad de aplicar la estimación de disfunción en los centros médicos de asistencia primaria para el cribado de pacientes a los centros de atención especializada, simplificando los protocolos de exploración, ahorrando costes, y reduciendo listas de espera. También es aplicable esta metodología en la detección de la personalidad del locutor por la voz, permitiendo garantizar el acceso a instalaciones o servicios

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201131069.

Solicitante: UNIVERSIDAD POLITECNICA DE MADRID.

Nacionalidad solicitante: España.

Provincia: MADRID.

Inventor/es: GÓMEZ VILDA,PEDRO, RODELLAR BIARGE,VICTORIA, NIETO LLUIS,VICTOR, ÁLVAREZ MARQUINA,AGUSTÍN, MARTÍNEZ OLALLA,RAFAEL.

Fecha de Solicitud: 27 de Junio de 2011.

Fecha de Publicación: 23 de Diciembre de 2011.

Fecha de Concesión: 13 de Diciembre de 2011.

Clasificación PCT:

G10L11/00
G10L15/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Reconocimiento de la voz (G10L 17/00 tiene prioridad).
G10L17/00 G10L […] › Identificación o verificación de la persona que habla.
G10L19/04 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando técnicas de predicción.

Fragmento de la descripción:

Método y sistema para la estimación de parámetros fisiológicos de la fonación. Sector técnico La invención se enmarca en el sector de las tecnologías de la información y las comunicaciones con aplicación en biomedicina y la seguridad, y más concretamente en el campo de la detección y la gradación de la patología orgánica de la voz por medio de la clasificación de parámetros obtenidos de la onda glótica de la voz, y en la gestión de acceso seguro por voz. Antecedentes de la invención La medida de la calidad de voz como procedimiento para el diagnóstico y gradación de la patología orgánica de la voz ha conocido un auge importante en la última década. Fruto del mismo son un conjunto de aplicaciones informáticas que a partir de la voz generan índices de medida de la calidad de la misma como variantes del jitter (perturbación del período de fonación a lo largo del tiempo), del shimmer (perturbación temporal de la amplitud de la fonación ciclo a ciclo), de la relación señal/ruido (entre la parte periódica y la no periódica de un segmento de voz), del índice glottal/noise (proporción entre la energía de la onda glótica respecto al ruido residual presente en la voz), y de parámetros temporales que reflejan los procesos de apertura y cierre de los pliegues vocales durante una fonación, como son los ciclos de recuperación, cierre, apertura y cerramiento. Los procesos de estimación paramétrica se suelen llevar a cabo sobre la voz medida en el punto de captura de la misma, generalmente un micrófono de propósito general, para ser digitalizada y posteriormente procesada. Los procesos habituales son la extracción en el dominio espectral o temporal. Entre los primeros se determina su densidad espectral de potencia, y a partir de la misma los parámetros mel-cepstrum, sus primeras y segundas diferencias. También se miden por procedimientos relacionados la relación de energía armónico/ruido. La parametrización temporal parte de la reconstrucción de la fuente glótica, sobre la que se mide la duración del ciclo de fonación (duración en tiempo entre dos cierres consecutivos de los pliegues vocales), a partir de la cual se derivan los instantes de recuperación, apertura y cierre, y en base a los mismos se determinan las relaciones glottal/noise y las pendientes del pulso glótico. La metodología básica que soporta la invención es la estimación precisa de la onda glótica, entendida ésta como el correlato de presión sonora que se desarrolla en la glotis durante la fonación. Los trabajos en este terreno se inician hacia principio de los años noventa, con las contribuciones de Paavo Alku y sus colegas sobre la inversión de la trama de voz para la reconstrucción del pulso glótico (Alku, P., Glottal wave analysis with pitch synchronous iterative adaptive inverse filtering), Speech Communication, vol. 11, 1992, pp. 109-118. Por lo que respecta a la estimación combinada de la onda glótica y el tracto vocal se pueden citar asimismo los trabajos de P. Murphy y su equipo (Akande, O., and Murphy, P. J. Estimation of the vocal tract transfer function for voiced speech with application to glottal wave analysis, Speech Communication, Vol. 46, 2005, pp. 15-36). Por lo que hace referencia en la solicitud a la aplicación de la parametrización de la onda glótica en descripción biométrica del locutor cabe citar los trabajos clásicos de Reynolds y su grupo (Reynolds, D. A., Quatieri, T. F., Dunn, R. B., Speaker Verification Using Adapted Gaussian Mixture Models, Digital Signal Processing, Vol. 10, 2000, pp. 19-41). Una buena revisión de este tipo de tecnologías de verificación identitaria por la voz se puede encontrar en el trabajo clásico de Bimbot et. al. (Bimbot, F., Bonastre, J. F., Fredouille, C., Gravier, G., Magrin, I., Meignier, S., Merlin, T., Ortega, J., Petrovska, D., Reynolds, A., A Tutorial on Text-Independent Speaker Verification, EURASIP J. on App. Sig. Proc., Vol. 4, 2004, pp. 430-451). En el ámbito de la detección de la disfonía existen soluciones basadas en el análisis no diferenciado del habla, como son los sistemas: CSL (Computerized Speech Lab), MDVP (MultiDimensional Voice Program) y APM (Ambulatory Phonation Monitor) de Kay Elemetrics (KayPENTAX), URL: http://www.kayelemetrics.com (20.4.2011) MEDIVOZ y WPCVox de TGH ENDOSCOPIA, URL: http://www.tghendoscopia.com/ (20.4.2011) Dr. Speech, URL: http://www.drspeech.com/ (20.4.2011) SESANE (Software Environment for Speech ANalysis and Evaluation) de SQLab, URL: http://www.sqlab.fr/ sesaneUK.htm (20.4.2011) LingWaves de WEVOSYS, URL: http://www.wevosys.com/ (20.4.2011) Speech Studio, de Laryngograph, URL: http://www.laryngograph.com/ (20.4.2011) WaveView Software, de Glottal Enterprises, URL: http://www.glottal.com/ Otras aplicaciones remotamente relacionadas con el procesado de la voz, ya que han sido desarrolladas para el tratamiento del habla son Wavesurfer (URL: http://www.speech.kth.se/wavesurfer/), y Praat (URL: www.praat. org). 2 ES 2 364 401 A1 Estas soluciones abordan el estudio de la voz por medio de análisis acústicos clásicos que tecnológicamente suponen un estado del arte anterior al propuesto en la presente solicitud. La tecnología que se pretende patentar contempla la voz como resultado de dos procesos: producción de la excitación laríngea u onda glótica en los pliegues vocales, y filtrado articulatorio por el tracto vocal, que es el recinto acústico formado por las cavidades faríngea, nasal y oral. El segundo de los procesos es muy variable incluso para un mismo locutor, ya que está influido por el mensaje, y es más fácilmente impostable. El primero de los procesos, la producción, es menos variable para un mismo locutor, difícilmente impostable, y arrastra información del estado neurológico, emocional y fisiológico del aparato productor. Estos rasgos dotan de gran ventaja a la propuesta de la solicitud en el ámbito biométrico en general, y en particular en los ámbitos clínico y forense. Para ello se utilizan procedimientos de tratamiento de señal y reconocimiento de patrones que son la base de la solicitud que se propone. En el ámbito de la detección de la patología neuromotora del habla se tiene conocimiento de un sistema Kiosk, para detección precoz del mal de Alzheimer, si bien tecnológicamente no es un producto avanzado, ya que solo se utiliza para registro, sin introducir análisis acústico. En el ámbito de la identificación y verificación del locutor y en la asignación de personalidad existen los sistemas: VocalPassword y similares, de Persay, URL: http://www.persay.com/ (20.4.2011) Verifier, de Authentify, URL: http://www.authentify.com/ (20.4.2011) ASIS, KIVOX, BS y BatVox, de Agnitio, URL: http://www.agnitio.es/ (20.4.2011) SecuriVox de SpeechSentinel, URL: http://www.speechsentinel.co.uk/ (20.4.2011) BioVox de DTEC, URL: http://www.dtec-bio.es/ (20.4.2011) La característica diferencial de la solución propuesta respecto a todos estos sistemas se basa en el uso de segmentos del habla que son exclusivamente fonados, es decir, que cursan con producción de voz, en la reconstrucción de un correlato de fonación que está íntimamente ligado a la biomecánica de la fonación, y en la parametrización de dicho correlato en los ámbitos biomecánico y biométrico mediante la reconstrucción del sistema productor más aproximado al modelo laríngeo capaz de generar dicho correlato. Este proceso de aproximación al modelado del sistema fonador es más introspectivo que cualquier otro procedimiento de análisis existente, porque modela las estructuras biomecánicas responsables últimas de la producción de la voz que son los pliegues o cuerdas vocales. En la revisión del estado del arte, y en las presentaciones de tecnologías del habla a las que se ha asistido en el ámbito nacional e internacional, así como en la revisión de publicaciones especializadas y bases de datos de patentes no se ha encontrado ninguna referencia que siga la misma orientación que la propuesta. Otra de las ventajas competitivas de la presente propuesta es que se puede personalizar fácilmente para ofrecer diferentes soluciones, desde el profesional autónomo clínico o forense, a los servicios de asistencia primaria o especializada, a los cuerpos y fuerzas de seguridad, al ámbito de la seguridad privada, al acceso seguro a instalaciones físicas y servicios informáticos, a la gestión de Customer Service Optimization, etc. Por lo que hace referencia a patentes que traten temas afines, tras la consulta de las bases de datos correspondientes se pueden citar las siguientes, y su relación con la solicitud: European Patent Application EP 2 124 223 A1: METHOD AND SYSTEM FOR DIAGNOSING PATHOLOGICAL PHENOMENON USING A VOICE SIGNAL El objetivo de la patente referida pretende ser la detección de patologías de tipo psicoacústico o de desbalance bioquímico que puedan ser establecidas...

Reivindicaciones:

1. Método para la estimación de parámetros fisiológicos de la fonación a partir de una señal de voz caracterizado por que comprende: - compensar la radiación de los labios en la señal de voz mediante la cancelación del polo de primer orden generado por dicha radiación en el espectro de la señal de voz (12), - efectuar un filtrado inverso (13, 14, 15, 16) de al menos un segmento fonado en un ciclo de fonación para una señal de voz compensada, donde dicho filtrado inverso comprende a su vez: - modelar la inversión espectral de la señal de voz compensada (13, 14) para extraer la señal de voz desglotalizada, - modelar la inversión espectral del tracto vocal para extraer la onda glótica sin influencia sustancial del tracto vocal y para obtener los correlatos de vibración de los pliegues vocales (15, 16). 2. Método de acuerdo con la reivindicación 1, caracterizado por que la etapa de compensar la radiación de los labios comprende además: - modelar la inversión espectral (13) del tracto vocal mediante una pluralidad de filtros de celosías adaptativas y encadenables entre sí, dichos filtros configurados para dividir la señal de voz en dos señales (27, 28) sobre las que se calcula la correlación cruzada (29, 30) entre las dos señales divididas desfasadas (27, 28) cancelando el efecto de la radiación en los labios y generando una señal libre de radiación (31). 3. Método de acuerdo con la reivindicación 1 ó 2, caracterizado por que la etapa de modelar la inversión espectral de una señal (14, 15) comprende además: - implementar una pluralidad de filtros modelo-espejo (13, 14) configurados para estimar la correlación parcial (34) y eliminar dicha correlación parcial (38) de la señal glótica (37, 37) debida al tracto vocal generando nuevas señales glóticas (39, 39) sin influencia sustancial del tracto vocal. 4. Método de acuerdo con una cualquiera de las reivindicaciones anteriores, caracterizado por que comprende calcular la onda glótica sqi(n) mediante integración de la señal residual de onda glótica sri(n). 5. Método de acuerdo con la reivindicación 4, que comprende estimar al menos uno de los siguientes parámetros temporales (19) sobre la onda glótica sqi(n): - inicio del ciclo glótico; - instante de recuperación Tr; - instante de inicio de apertura de la cuerdas vocales To; - instante de máxima presión supraglótica Tm; - instante de inicio del cierre de los pliegues vocales Tc; - instante final del ciclo glótico con mínima presión supraglótica Tg; - coeficientes ODQ, CDQ y GEQ. 6. Método de acuerdo con la reivindicación 4 ó 5, que comprende estimar al menos uno de los siguientes parámetros de distorsión (20) sobre la onda glótica sqi(n): - jitter, - shimmer de amplitud, - shimmer de área, - agudeza del cierre, 22 - relación cubierta/cuerpo. ES 2 364 401 A1 7. Método de acuerdo con una cualquiera de las reivindicaciones 4 a 6, caracterizado por que comprende estimar la onda acústica promedio vqi(n) para estimar al menos uno de los siguientes conjuntos de parámetros biométricos (22, 23) sobre la onda glótica sqi(n) mediante la detección de onda acústica promedio (21): - densidad espectral de potencia del correlato de onda mucosa, - coeficientes cepstrales del correlato glótico de onda mucosa, - singularidades de la envolvente de la densidad espectral de potencia del correlato glótico de onda mucosa. 8. Método de acuerdo con una cualquiera de las reivindicaciones 4 a 7, caracterizado por que comprende estimar la onda acústica promedio vqi(n) para al menos uno de los siguientes parámetros biomecánicos (24, 25) sobre la onda glótica s qi(n) mediante la detección de onda acústica promedio (21): - parámetro de pérdidas, - parámetro de masa dinámica equivalente del cuerpo de la cuerda, - parámetro de elasticidad, - desbalances entre ciclos de fonación respecto de: - la masa dinámica del cuerpo, - las pérdidas del cuerpo, - la elasticidad del cuerpo. 9. Sistema para la estimación de parámetros fisiológicos de la fonación a partir de una señal de voz que comprende: - medios configurados para compensar la radiación de los labios en la señal de voz mediante la cancelación del polo de primer orden generado por dicha radiación en el espectro de la señal de voz, - medios configurados para efectuar un filtrado inverso (13,14,15,16) de al menos un segmento fonado en un ciclo de fonación para una señal de voz compensada, donde dicho filtrado inverso comprende a su vez: - medios configurados para modelar la inversión espectral de la señal de voz compensada (14) para extraer la señal de voz desglotalizada, - medios configurados para modelar la inversión espectral del tracto vocal para extraer la onda glótica sin influencia del tracto vocal y para obtener los correlatos de vibración de los pliegues vocales (15, 16). 10. Sistema de acuerdo con la reivindicación 9, caracterizado por que los medios configurados para compensar la radiación de los labios comprenden además: - medios configurados para modelar la inversión espectral (13) del tracto vocal comprendiendo a su vez una pluralidad de filtros de celosías adaptativas y encadenables entre sí, donde dichos filtros están configurados para dividir la señal de voz en dos señales (27, 28) sobre las que se calcula la correlación cruzada (29, 30) entre las dos señales divididas desfasadas (27, 28) cancelando el efecto de la radiación en los labios y generando una señal libre de radiación (31). 11. Sistema de acuerdo con la reivindicación 9 ó 10, caracterizado por que los medios configurados para modelar la inversión espectral de una señal (14, 15) comprenden además: - una pluralidad de filtros modelo-espejo (13, 14) configurados para estimar la correlación parcial debida al tracto vocal (34) y eliminar dicha correlación parcial de la señal glótica (38). 12. Sistema de acuerdo con una cualquiera de las reivindicaciones 9 a 11, caracterizado por que las estimaciones se realizan sobre al menos un Modelo de Locutor Normofónico y son almacenadas en unos medios de almacenamiento para ser comparadas con las estimaciones de un locutor cualquiera para determinar la presencia y grado de la disfonía de acuerdo con la desviación existente entre ambas estimaciones. 23 ES 2 364 401 A1 13. Sistema de acuerdo con una cualquiera de las reivindicaciones 9 a 11, caracterizado por que las estimaciones de un locutor cualquiera se almacenan en unos medios de almacenamiento para identificar unívocamente a dicho locutor. 24 ES 2 364 401 A1 ES 2 364 401 A1 26 ES 2 364 401 A1 27 ES 2 364 401 A1 28 ES 2 364 401 A1 29 ES 2 364 401 A1 ES 2 364 401 A1 31 ES 2 364 401 A1 32 ES 2 364 401 A1 33 ES 2 364 401 A1 34 ES 2 364 401 A1 ES 2 364 401 A1 36 ES 2 364 401 A1 37 OFICINA ESPAÑOLA DE PATENTES Y MARCAS ESPAÑA

Patentes similares o relacionadas:

Técnicas de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio, del 8 de Abril de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Una unidad de ocultamiento de error (100, 230, 380, 800, 800b) para proporcionar una información de audio de ocultamiento de error (102, 232, […]

Método y disposición para suavizar ruido estacionario de fondo, del 25 de Diciembre de 2019, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para suavizar ruido de fondo, comprendiendo el método: recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz […]

Estimación de forma de ganancia para mejorar el rastreo de características temporales de banda alta, del 20 de Noviembre de 2019, de QUALCOMM INCORPORATED: Un procedimiento para generar una versión codificada de una señal de audio , en el que la versión codificada de la señal de audio se genera codificando […]

Dispositivo y método para procesamiento posterior de valores espectrales y codificador y decodificador para señales de audio, del 25 de Julio de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un dispositivo para el procesamiento posterior de valores espectrales basado en un primer algoritmo de transformación para convertir una señal de audio en una representación […]

Codificación y decodificación de posiciones de impulso de pistas de una señal de audio, del 3 de Junio de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato para decodificar una señal de audio codificada, en el que una o más pistas se asocian con la señal de audio codificada, teniendo […]

Codificación de audio en los dominios de tiempo y frecuencia mediante el uso de un procesador cruzado para inicialización continua, del 1 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Codificador de audio para la codificación de una señal de audio, que comprende: un primer procesador de codificación para la codificación […]

Codificador que utiliza cancelación del efecto de solapamiento hacia delante, del 25 de Abril de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Decodificador para decodificar un flujo de datos que comprende una secuencia de tramas en las cuales se codifican segmentos de tiempo de […]

Codificación y decodificación de audio en los dominios de la frecuencia y del tiempo, del 24 de Abril de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Codificador de audio para codificar una señal de audio, que comprende: un primer procesador de codificación para codificar una primera porción […]