Detección de falsificación por cortar y pegar por alineamiento temporal dinámico.

Procedimiento para comparar expresiones de voz, comprendiendo el procedimiento las etapas de:

extraer una pluralidad de rasgos (201) de una primera expresión de voz de una muestra de texto determinada yextraer una pluralidad de rasgos (201) de una segunda expresión de voz de dicha muestra de texto determinada, enel que cada rasgo se extrae en función del tiempo, y en el que cada rasgo de la segunda expresión de vozcorresponde a un rasgo de la primera expresión de voz;

aplicar alineamiento temporal dinámico (202) a por lo menos dos características que dependen del tiempo de laprimera y/o la segunda expresión de voz minimizando una o más medidas de distancia, en el que una medida dedistancia es una medida de la diferencia de una característica que depende del tiempo de la primera expresión devoz y una característica que depende del tiempo correspondiente de la segunda expresión de voz;

calcular una medida de distancia total (203), en el que la medida de la distancia total es una medida de la diferenciaentre la primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dichamuestra de texto determinada, en el que la medida de la distancia total se calcula (203) en base a una pluralidad depares de características que dependen del tiempo, y en el que un par de características que dependen del tiempoestá compuesto por una característica que depende del tiempo de la primera o la segunda expresión de voz y deuna característica que depende del tiempo (202) por alineamiento temporal dinámico respectivamente de la segundao la primera expresión de voz, o en el que un par de características que dependen del tiempo está compuesto poruna característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de vozy una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión devoz; y

en el que por lo menos una característica que depende del tiempo es una característica de un único rasgo y por lomenos una otra característica que depende del tiempo es una característica de una combinación de una pluralidadde rasgos (4) a los que se aplica el mismo alineamiento temporal dinámico (202),

en el que la primera expresión de voz ha sido grabada previamente, y en el que la segunda expresión de voz serecibe (302) de una persona que habla, a petición (303), y

en el que la medida de la distancia total se emplea para

- detectar que la segunda expresión de voz es el resultado de una falsificación por cortar y pegar (306) si la primeraexpresión de voz no coincide bien con la segunda expresión de voz, y

- validar a la persona que habla si la primera expresión de voz coincide bien con la segunda expresión de voz.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/008851.

Solicitante: AGNITIO, S.L.

Inventor/es: LLEIDA SOLANO, EDUARDO, GARCIA GOMAR,MARTA, VILLALBA LÓPEZ,JESÚS ANTONIO, ORTEGA GIMÉNEZ,ALFONSO, VARELA REDONDO,SARA.

Fecha de Publicación: 27 de Noviembre de 2013.

Clasificación Internacional de Patentes:

G10L17/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Identificación o verificación de la persona que habla.
G10L17/02 G10L […] › G10L 17/00 Identificación o verificación de la persona que habla. › Operaciones anteriores al procesamiento, p. ej. elección del segmento; Representación o modelado de patrones, p. ej. basados en Análisis Discriminante Linear (LDA) o componentes principales; Elección o extracción de características.
G10L17/24 G10L 17/00 […] › haciendo que el usuario pronuncie una contraseña o una frase predefinida.

PDF original: ES-2440646_T3.pdf

Fragmento de la descripción:

Detección de falsificación por cortar y pegar por alineamiento temporal dinámico.

La descripción de las solicitudes PCT del mismo titular, con las solicitudes Nos. PCT/EP 2008/010478 presentada el 10 de diciembre de 2008, y PCT/EP2009/004649 presentada el 26 de junio de 2009 en la Oficina de Patentes Europea, se incorpora totalmente aquí por referencia. Además, se reivindican las prioridades de estas solicitudes de acuerdo con el Convenio de París.

La presente invención se refiere a un procedimiento, un medio informático y un aparato para comparar expresiones de voz.

La comparación de expresiones de voz puede utilizarse para reconocer a una persona que habla. Por ejemplo, la persona que habla realiza una expresión de voz de una muestra de texto determinada la cual se compara después con una expresión de voz previamente grabada de la misma persona que habla. En el caso de que las dos expresiones de voz coincidan razonablemente bien, la persona que habla es identificada con éxito. Tal identificación de una persona que habla puede utilizarse para validar una persona que desea obtener algún tipo de acceso o que tiene que demostrar la presencia en un lugar determinado, por ejemplo.

WO 98/34216 A2 describe un sistema y un procedimiento para detectar una voz grabada que puede utilizarse independientemente o para proporcionar protección ante un uso fraudulento de una grabación para burlar un sistema de reconocimiento de voz automático. Se han empleado diversas técnicas y sistemas independientemente o bien en combinación para verificar que una muestra de audio detectada es en directo y no está grabada. Las características de voz temporales de una muestra de audio se analizan para determinar si una muestra bajo examen es similar a una muestra previa para indicar que se trata de una grabación. Se examinan características del canal de comunicaciones para determinar si una muestra fue grabada en un canal distinto de un canal de comunicaciones predeterminado. Un clasificador de patrones se entrena para distinguir entre una voz en directo y una grabada. Finalmente, se utiliza una "marca de agua de audio" para determinar si una muestra de audio detectada es una grabación de una comunicación previa por un usuario autorizado.

Cuando se realiza una comparación de expresiones de voz pueden aparecer una serie de problemas. En primer lugar, incluso si para dos expresiones de voz que se utilizan en una comparación, la persona que habla así como la muestra de texto hablado son iguales, típicamente no se produce una coincidencia perfecta entre las dos expresiones de voz dado que la persona que habla puede pronunciar algunas palabras de manera algo distintas o la persona que habla podría pronunciar un texto determinado a una velocidad distinta, por ejemplo. En segundo lugar, la comparación debe ser capaz de detectar todo tipo de falsificación, tal como una falsificación por cortar y pegar. La falsificación por cortar y pegar la puede realizar una persona no autorizada cuando la persona no autorizada ha tenido acceso a texto grabado de la persona que habla y produce la muestra de texto cortando y pegando secuencias de estas expresiones de voz grabadas de esa persona que habla con el fin de producir expresiones de voz falsas de esa muestra de texto que tendría el sonido de la voz de esa persona que habla, en este ejemplo.

Por lo tanto, un problema a resolver por la presente invención es mejorar la comparación de expresiones de voz de manera, que por una parte, una persona que habla pueda ser identificada con gran eficacia y, por otra parte pueda detectarse con fiabilidad una falsificación, tal como una falsificación por cortar y pegar.

De acuerdo con la invención, el problema mencionado anteriormente se resuelve mediante el procedimiento de la reivindicación 1, el medio informático de la reivindicación 6 y el aparato de la reivindicación 7.

En las reivindicaciones dependientes se especifican realizaciones adicionales de la presente invención.

Un procedimiento para comparar expresiones de voz comprende las siguientes etapas:

En primer lugar, se extrae una pluralidad de rasgos de una primera expresión de voz de una muestra de texto determinada, y se extrae una pluralidad de rasgos de una segunda expresión de voz de dicha muestra de texto determinada. Todos los rasgos se extraen en función del tiempo y cada rasgo de la segunda expresión de voz tiene un rasgo correspondiente de la primera expresión de voz con el fin de poder utilizar el rasgo correspondiente para la comparación mencionada anteriormente.

En segundo lugar, se aplica alineamiento temporal dinámico a una o más características que dependen del tiempo de la primera y/o la segunda expresión de voz. Esto puede realizarse por ejemplo, minimizando una o más medidas de distancia o maximizando una medida de similitud. El alineamiento temporal dinámico se describe, por ejemplo, en la solicitud PCT del mismo titular con el número de solicitud mencionado anteriormente PCT/EP 2009/004649. Una medida de la distancia es una medida de la diferencia de una característica que depende del tiempo de la primera

expresión de voz y una característica que depende del tiempo correspondiente de la segunda expresión de voz. Una característica que depende del tiempo de una expresión de voz corresponde a una combinación de dos o más rasgos de diferentes tipos de rasgos. Aplicar alineamiento temporal dinámico a una característica que depende del tiempo de la primera o la segunda expresión de voz puede tener el efecto de que dicha característica se extienda o se comprima en determinadas zonas a lo largo del eje de tiempo. Debido a esta variación o flexibilidad, respectivamente, aplicar alineamiento temporal dinámico puede hacer que una característica que depende del tiempo de la primera o la segunda expresión de voz sea más similar a la característica que depende del tiempo que representa rasgos de la segunda o la primera expresión de voz, respectivamente. Por ejemplo, tratando conjuntamente dos o más rasgos en el proceso de alineamiento temporal dinámico, es decir, aplicando el mismo alineamiento temporal dinámico a los dos o más rasgos al mismo tiempo los rasgos pueden combinarse en una característica. Aquí, para el alineamiento temporal dinámico se utiliza una función de la distancia que tiene en cuenta dos o más rasgos al mismo tiempo. El alineamiento temporal dinámico puede realizarse de este modo sobre una combinación de rasgos.

En tercer lugar, se calcula una medida de la distancia total en la que la medida de la distancia total es una medida de la diferencia entre una primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dicha muestra de texto determinada. La medida de la distancia total se calcula en base a uno o más pares de las características que dependen del tiempo mencionadas anteriormente, donde un par de características que dependen del tiempo está compuesta por una característica que depende del tiempo de la primera o la segunda expresión de voz y de una característica que depende del tiempo por alineamiento temporal dinámico de la segunda o primera expresión de voz, respectivamente, o donde un par de características que dependen del tiempo está compuesta por una característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de voz y de una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión de voz. En otras palabras, las características que dependen del tiempo de un par se comparan entre sí y estas comparaciones, en las que el número de comparaciones es igual que el número de pares, se reflejan en el cálculo de la medida de la distancia total.

Con el esquema anterior se encontró, en particular, que la falsificación por cortar y pegar puede identificarse y separarse claramente de otras expresiones de voz (por ejemplo, normales generadas por humanos) . Los cambios temporales bruscos de valores de rasgos en expresiones de voz generadas por cortar y pegar producen diferencias bien reconocibles en las distancias indicadas anteriormente pero al mismo tiempo dan una buena tasa de aceptación para expresiones de voz no generadas por una falsificación por cortar y pegar.

Utilizar una pluralidad de rasgos en la comparación de expresiones de voz resulta útil, en particular, en situaciones en las que un rasgo no varía significativamente con el tiempo en un determinado intervalo de tiempo, pero otro rasgo varía significativamente con el tiempo en dicho intervalo de tiempo. En el caso de que se tengan en cuenta varios rasgos para la comparación de las expresiones de voz, puede garantizarse mejor que existe una variación significativa en... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento para comparar expresiones de voz, comprendiendo el procedimiento las etapas de:

aplicar alineamiento temporal dinámico (202) a por lo menos dos características que dependen del tiempo de la primera y/o la segunda expresión de voz minimizando una o más medidas de distancia, en el que una medida de distancia es una medida de la diferencia de una característica que depende del tiempo de la primera expresión de voz y una característica que depende del tiempo correspondiente de la segunda expresión de voz;

calcular una medida de distancia total (203) , en el que la medida de la distancia total es una medida de la diferencia entre la primera expresión de voz de la muestra de texto determinada y la segunda expresión de voz de dicha muestra de texto determinada, en el que la medida de la distancia total se calcula (203) en base a una pluralidad de pares de características que dependen del tiempo, y en el que un par de características que dependen del tiempo está compuesto por una característica que depende del tiempo de la primera o la segunda expresión de voz y de una característica que depende del tiempo (202) por alineamiento temporal dinámico respectivamente de la segunda o la primera expresión de voz, o en el que un par de características que dependen del tiempo está compuesto por una característica que depende del tiempo (202) por alineamiento temporal dinámico de la primera expresión de voz y una característica que depende del tiempo (202) por alineamiento temporal dinámico de la segunda expresión de voz; y

en el que por lo menos una característica que depende del tiempo es una característica de un único rasgo y por lo menos una otra característica que depende del tiempo es una característica de una combinación de una pluralidad de rasgos (4) a los que se aplica el mismo alineamiento temporal dinámico (202) ,

en el que la primera expresión de voz ha sido grabada previamente, y en el que la segunda expresión de voz se recibe (302) de una persona que habla, a petición (303) , y

en el que la medida de la distancia total se emplea para

- detectar que la segunda expresión de voz es el resultado de una falsificación por cortar y pegar (306) si la primera expresión de voz no coincide bien con la segunda expresión de voz, y

- validar a la persona que habla si la primera expresión de voz coincide bien con la segunda expresión de voz.

2. Procedimiento según la reivindicación 1, caracterizado por el hecho de que la pluralidad de rasgos comprende uno o más de los siguientes rasgos:

el tono o una función del mismo tal como el logPitch, donde logPitch es el logaritmo del tono,

el primer formante o una función del mismo tal como logF1, donde logF1 es el logaritmo del primer formante,

el segundo formante o una función del mismo tal como logF2, donde logF2 es el logaritmo del segundo formante,

la energía o una función de la misma tal como logE, donde logE es el logaritmo de la energía,

C1 o una función del mismo, donde C1 es la energía de baja frecuencia dividida por la energía de alta frecuencia,

y derivadas temporales de cualquiera de los rasgos anteriores tales como la derivada temporal de logPitch, logF1, logF2, logE y C1.

3. Procedimiento según una de las reivindicaciones 1 a 2, caracterizado por el hecho de que una medida de la distancia de alineamiento temporal dinámico se define como una distancia euclidiana, una distancia de Mahalanobis o una distancia coseno.

4. Procedimiento según una de las reivindicaciones 1 a 3, caracterizado por el hecho de que la medida de la distancia total se define como una distancia euclidiana, una distancia de Mahalanobis o una distancia coseno.

5. Procedimiento según una de las reivindicaciones 1 a 4, caracterizado por el hecho de que se calcula una pluralidad de medidas de distancia total (203) , y en el que la comparación de la primera expresión de voz con la segunda expresión de voz se basa en la pluralidad de medidas de distancia total seleccionando una o más medidas de distancia total de la pluralidad de medidas de distancia total y/o combinando por lo menos dos medidas de

distancia total.

6. Medio informático que comprende instrucciones ejecutables por un ordenador para realizar cualquiera de los procedimientos de las reivindicaciones 1 a 5.

7. Aparato que está configurado para realizar cualquiera de los procedimientos de las reivindicaciones 1 a 5.

Patentes similares o relacionadas:

Sistema y procedimiento de registro de audio inteligente para dispositivos móviles, del 2 de Noviembre de 2018, de QUALCOMM INCORPORATED: Un procedimiento para un dispositivo móvil, comprendiendo el procedimiento: mientras el dispositivo móvil está en una modalidad de reposo, capturar una señal […]

Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada, del 30 de Octubre de 2017, de UNIVERSIDAD DE MALAGA: Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada. La invención refiere un dispositivo que comprende medios de montaje sobre la […]

Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados, del 12 de Octubre de 2016, de AGNITIO, S.L.: Procedimiento para verificar la identidad de un orador en base a la voz de oradores, que comprende las etapas de: a) recibir una expresión de voz de una palabra o una […]

Procedimiento y dispositivo para la clasificación de interlocutores, del 18 de Marzo de 2015, de DEUTSCHE TELEKOM AG: Procedimiento para la clasificación automática de un interlocutor gracias a un sistema numérico, en el que se aplican, como mínimo, dos procedimientos distintos […]

Tarjeta inteligente con micrófono, del 7 de Enero de 2015, de VODAFONE HOLDING GMBH: Una tarjeta inteligente, que comprende un micrófono para capturar una señal de audio, y al menos un medio (104; 110; 111i) de procesamiento para procesar […]

Método para la evaluación clínica del sistema fonador de pacientes con patologías laríngeas a través de una evaluación acústica de la calidad de la voz, del 3 de Diciembre de 2013, de UNIVERSIDAD DE LAS PALMAS DE GRAN CANARIA: Método para la evaluación clínica del sistema fonador de pacientes con patologías laríngeas a través de una evaluación acústica de la calidad de la voz. La presente […]

Segmentación de señales de audio en eventos auditivos, del 11 de Abril de 2013, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para dividir cada uno de los múltiples canales de señales de audio digital en eventos auditivos, quecomprende: detectar cambios en el contenido […]

MÉTODO Y SISTEMA PARA LA ESTIMACIÓN DE PARÁMETROS FISIOLÓGICOS DE LA FONACIÓN, del 23 de Diciembre de 2011, de UNIVERSIDAD POLITECNICA DE MADRID: La invención consiste en un método y sistema de cómputo para el registro y análisis de la voz, que permite calcular una serie de parámetros de la fonación. Estos transportan […]