Sistema y método para el reconocimiento de medios de audio.

Un método de reconocimiento automático para el reconocimiento automático de contenido de medios de origen, procedente de una señal de origen, por comparación con contenido de medios de referencia, incluyendo el método:

generar

(12) un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen;

generar (14) al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados, a partir de la columna para la tajada temporal, y cuantizando las razones para generar dígitos de un vector de origen, en donde la generación de al menos un vector para una tajada temporal incluye, para al menos un depósito de frecuencia seleccionado de una tajada temporal, calcular razones de ese depósito y de un depósito de frecuencia adyacente, o casi adyacente, a partir de la columna para la tajada temporal, y dividir las razones en gamas para generar al menos un dígito seleccionado para cada razón; realizar una evaluación (18) primaria por la correlación exacta de dígitos de primeros vectores con entradas en una tabla (66) de consulta, en donde cada entrada en la tabla de consulta está asociada a un grupo de segundos vectores, y en donde el número de dígitos de los primeros vectores usados para realizar la correlación exacta difiere entre las entradas en la tabla de consulta; y

realizar una evaluación (20) secundaria para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionar el contenido de medios de origen con el contenido de medios de referencia,

en el cual una base de datos (146) almacena la tabla de consulta y los segundos vectores, y

en el cual los primeros vectores son vectores de origen, o bien vectores de referencia, y los segundos vectores son los otros vectores de origen y los otros vectores de referencia, representando cada vector de referencia una tajada temporal del contenido de medios de referencia.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/GB2011/051042.

Solicitante: Adelphoi Limited.

Nacionalidad solicitante: Reino Unido.

Dirección: 26 Litchfield Street London WC2H 9TZ REINO UNIDO.

Inventor/es: SELBY,ALEXANDER PAUL, OWEN,MARK ST JOHN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L11/00
  • SECCION G — FISICA > COMPUTO; CALCULO; CONTEO > RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES... > Métodos o disposiciones para la lectura o el reconocimiento... > G06K9/68 (que utilizan comparaciones sucesivas de señales imagen con varias referencias, p. ej. memoria direccionable)

PDF original: ES-2488719_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Sistema y método para el reconocimiento de medios de audio Campo técnico

La invención se refiere a sistemas y métodos de reconocimiento de audio para el reconocimiento automático de contenidos de medios de audio.

Antecedentes

Son conocidos diversos sistemas y métodos de reconocimiento de audio para procesar un flujo de audio entrante (un `programa) y buscar en una base interna de datos de música y efectos de sonido (`pistas) para identificar usos de esas pistas dentro del programa.

En la vida real, la música es a menudo solamente una de las capas de audio de un programa. Uno de los retos para el reconocimiento del audio es reconocer la identidad de la música incluso en circunstancias donde hay otras capas de audio, tales como efectos de sonido, voz sobre-grabada, sonidos de fondo, etc., que ocurren simultáneamente. Otras distorsiones incluyen la igualación (ajuste de magnitudes globales relativas de agudos y bajos en una pista) y el cambio de ritmo y / o de tono.

Algunas técnicas de reconocimiento de audio están basadas en llevar a cabo directamente una búsqueda en la vecindad cercana de valores de troceo calculados, usando un algoritmo estándar. Allí donde el espacio en que se busca tiene un gran número de dimensiones, tales algoritmos estándar no rinden muy eficazmente.

Un artículo titulado "Un sistema de dactiloscopia de audio sumamente robusto", de J. Haitsma et al., de Philips Research, publicado en los Anales de la 3a Conferencia Internacional sobre Extracción de Información Musical, 22, describe un sistema de dactiloscopia de medios para comparar objetos de multimedios. El artículo describe que las huellas de un gran número de objetos de multimedios, junto con los meta-datos asociados (por ejemplo, el nombre del artista, el título y el álbum), son almacenados en una base de datos de modo que las huellas sirvan como un índice para los meta-datos. El contenido de multimedios no identificado puede ser luego identificado calculando una huella y usando esto para consultar la base de datos. El artículo describe un algoritmo de búsqueda de dos fases que está basado en realizar solamente comparaciones de huellas completas en posiciones candidatas, preseleccionadas por una búsqueda de sub-huellas. Las posiciones candidatas son localizadas usando una tabla de troceo, o de consulta, que tiene sub-huellas de 32 bits como entrada. Cada entrada apunta a una lista con punteros a las posiciones en las listas de huellas reales, donde están ubicadas las respectivas sub-huellas de 32 bits.

El documento US 23/86341 revela la identificación de copias de grabaciones de sonidos originales, extrayendo características de la copia, creando un vector de esas características y comparando ese vector con una base de datos de vectores. La identificación puede ser realizada para copias de grabaciones de sonidos que hayan sido sometidas a la compresión y a otra manipulación, de modo que no sean réplicas exactas del original. La eficacia de cálculo permite que sean atendidos muchos cientos de consultas al mismo tiempo. Los vectores pueden ser de menos de 1 octetos, por lo que muchos millones de vectores pueden ser almacenados en un dispositivo portátil.

El documento WO 2/11123 revela un método para reconocer una muestra de audio, localizando el fichero de audio que más estrechamente coincida con la muestra de audio, desde una base de datos que indiza un gran conjunto de grabaciones originales. Cada fichero de audio indizado está representado en el índice de la base de datos por un conjunto de instantes de hito y las huellas asociadas. Los hitos ocurren en ubicaciones reproducibles dentro del fichero, mientras que las huellas representan características de la señal en, o cerca de, los instantes linderos. Para efectuar el reconocimiento, los hitos linderos y las huellas se calculan para la muestra desconocida y se usan para extraer huellas coincidentes desde la base de datos. Para cada fichero que contiene huellas coincidentes, los hitos linderos son comparados con los hitos linderos de la muestra en la cual se calcularon las mismas huellas. Si un gran número de correspondientes hitos linderos están linealmente relacionados, es decir, si huellas equivalentes de la muestra y del fichero extraído tienen la misma evolución temporal, entonces el fichero es identificado con la muestra. El método puede ser usado para cualquier tipo de sonido o música, y es particularmente efectivo para señales de audio sometidas a distorsión lineal y no lineal, tales como el ruido de fondo, las distorsiones de compresión o las caídas de transmisión. La muestra puede ser identificada en un tiempo proporcional al logaritmo del número de entradas en la base de datos; dada la suficiente potencia de cálculo, el reconocimiento puede ser realizado en tiempo casi real según se está muestreando el sonido.

El documento US 26/2229878 revela un método para extraer huellas de ondas (por ejemplo, señales musicales), junto con un aparato ejemplar para hacer lo mismo. El método se basa en el principio de calcular características en base a cambios de frecuencia en las bandas a lo largo del tiempo, además de cambios de amplitud en las bandas a lo largo del tiempo.

Sin embargo, persiste la necesidad de un aparato, un sistema y un método para la identificación más eficaz y más

fiable del contenido de medios de audio.

Resumen

Los aspectos de la invención están definidos en las reivindicaciones.

En un aspecto definido en la Reivindicación 1, se proporciona un método de reconocimiento automático para el reconocimiento automático de contenidos de medios de origen, a partir de una señal de origen, por comparación con contenidos de medios de referencia, incluyendo el método: generar un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencias, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen; generar al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados desde la columna para la tajada temporal y cuantizando las razones para generar dígitos de un vector de origen, en donde la generación de al menos un vector para una tajada temporal incluye, para al menos un depósito de frecuencia seleccionado de una tajada temporal, calcular razones de ese depósito y de un depósito de frecuencia adyacente, o casi adyacente, a partir de la columna para la tajada temporal, y dividir las razones en gamas para generar al menos un dígito seleccionado para cada razón; realizar una evaluación primaria por correlación exacta de dígitos de primeros vectores con entradas en una tabla de consulta, en donde cada entrada en la tabla de consulta está asociada a un grupo de segundos vectores y en donde el número de dígitos de los primeros vectores usados para realizar la correlación exacta difieren entre las entradas en la tabla de consulta; y realizar una evaluación secundaria para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionar el contenido de medios de origen con el contenido de medios de referencia, en donde una base de datos almacena la tabla de consulta y los segundos vectores, y en donde los primeros vectores son vectores de origen o bien vectores de referencia, y los segundos vectores son los otros vectores de origen y vectores de referencia, representando cada vector de referencia una tajada temporal del contenido... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de reconocimiento automático para el reconocimiento automático de contenido de medios de origen, procedente de una señal de origen, por comparación con contenido de medios de referencia, incluyendo el método:

generar (12) un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen;

generar (14) al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados, a partir de la columna para la tajada temporal, y cuantizando las razones para generar dígitos de un vector de origen, en donde la generación de al menos un vector para una tajada temporal incluye, para al menos un depósito de frecuencia seleccionado de una tajada temporal, calcular razones de ese depósito y de un depósito de frecuencia adyacente, o casi adyacente, a partir de la columna para la tajada temporal, y dividir las razones en gamas para generar al menos un dígito seleccionado para cada razón;

realizar una evaluación (18) primaria por la correlación exacta de dígitos de primeros vectores con entradas en una tabla (66) de consulta, en donde cada entrada en la tabla de consulta está asociada a un grupo de segundos vectores, y en donde el número de dígitos de los primeros vectores usados para realizar la correlación exacta difiere entre las entradas en la tabla de consulta; y

realizar una evaluación (2) secundaria para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionare! contenido de medios de origen con el contenido de medios de referencia,

en el cual una base de datos (146) almacena la tabla de consulta y los segundos vectores, y

en el cual los primeros vectores son vectores de origen, o bien vectores de referencia, y los segundos vectores son los otros vectores de origen y los otros vectores de referencia, representando cada vector de referencia una tajada temporal del contenido de medios de referencia.

2. El método de la reivindicación 1, en el cual la generación de al menos un vector para una tajada temporal incluye:

para al menos un depósito de frecuencia seleccionado de una tajada temporal, calcular razones de ese depósito y un depósito de frecuencia adyacente, o casi adyacente, a partir de la columna para la tajada temporal; y

dividir las razones en gamas para generar dos dígitos binarios para cada razón.

3. El método de la reivindicación 1 o la reivindicación 2, en el cual:

las gamas difieren entre los depósitos de razones seleccionadas, para igualar la distribución de los valores de las razones entre las gamas.

4. El método de una cualquiera de las reivindicaciones 1 a 3, que incluye:

generar uno de dichos vectores de origen usando depósitos de frecuencia seleccionados entre al menos una entre una banda de frecuencia entre 4 Hz y 1.1 Hz, y una banda de frecuencia entre 1.1 Hz y 3. Hz.

5. El método de una cualquiera de las reivindicaciones 1 a 4, que incluye generar un vector de origen adicional para una tajada temporal:

generando un espectrograma adicional a partir de la primera señal, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma adicional una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la primera señal;

aplicando una transformación adicional de Fourier a los respectivos depósitos de frecuencia, a partir de la columna para la tajada temporal, para generar un respectivo conjunto de coeficientes;

generando el vector de origen adicional de modo que, para un conjunto de N coeficientes en una columna para una tajada temporal, para cada uno de los elementos 2 a N-1 del vector de origen adicional, sea formado un n-ésimo elemento por el cuadrado del n-ésimo coeficiente, dividido entre el producto del (n-l)-ésimo coeficiente y el (n+1)- ésimo coeficiente, y cuantizando los elementos del vector resultante para generar al menos un dígito para cada elemento.

6. Un método de reconocimiento automático para el reconocimiento automático de contenido de medios de origen, a partir de una señal de origen, por comparación con contenido de medios de referencia, incluyendo el método:

generar (12) un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen;

generar (14) al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados a partir de la columna para la tajada temporal, y cuantizando las razones para generar dígitos de un vector de origen;

realizar una evaluación (18) primaria por la correlación exacta de dígitos de primeros vectores con entradas en una tabla (66) de consulta, en donde cada entrada en la tabla de consulta está asociada a un grupo de segundos vectores, y en donde el número de dígitos de los primeros vectores usados para realizar la correlación exacta difiere entre las entradas en la tabla de consulta; y

realizar una evaluación (2) secundaria para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionare! contenido de medios de origen con el contenido de medios de referencia,

en el cual una base de datos (146) almacena la tabla de consulta y los segundos vectores, y

en el cual los primeros vectores son vectores de origen, o bien vectores de referencia, y los segundos vectores son los otros vectores de origen y los otros vectores de referencia, representando cada vector de referencia una tajada temporal del contenido de medios de referencia;

incluyendo además el método generar un vector de origen adicional para una tajada temporal:

generando un espectrograma adicional a partir de la primera señal, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma adicional una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la primera señal;

aplicando una transformación adicional de Fourier a los respectivos depósitos de frecuencia, a partir de la columna para la tajada temporal, para generar un respectivo conjunto de coeficientes;

generando el vector de origen adicional de modo que, para un conjunto de N coeficientes en una columna para una tajada temporal, para cada uno de los elementos 2 a N-1 del vector de origen adicional, sea formado un n-ésimo elemento por el cuadrado del n-ésimo coeficiente, dividido entre el producto del (n-l)-ésimo coeficiente y el (n+1)- ésimo coeficiente, y cuantizando los elementos del vector resultante para generar al menos un dígito para cada elemento.

7. El método de una cualquiera de las reivindicaciones 1 a 6, en el cual la señal de origen es una señal de audio y las frecuencias de los depósitos del espectrograma son adjudicadas de acuerdo a una escala logarítmica.

8. El método de una cualquiera de las reivindicaciones 1 a 7, en el cual:

la tabla de consulta está organizada como un árbol de profundidad variable que lleva a las hojas, estando la tabla indizada por el primer vector;

cada hoja conforma una entrada en la tabla de consulta, asociada un respectivo grupo de segundos vectores;

el número de dígitos que llevan a cada hoja está determinado para igualar el tamaño de los grupos de segundos

vectores para cada hoja.

9. El método de la reivindicación 8, en el cual:

el número de dígitos que llevan a cada hoja forma el número de dígitos del primer vector usado para realizar la correlación exacta para una hoja dada.

1. El método de la reivindicación 8 o la reivindicación 9, en el cual cada hoja de la tabla de consulta identifica un grupo de segundos vectores con d dígitos coincidentes, en donde d corresponde a la profundidad del árbol hasta esa hoja.

11. El método de una cualquiera de las reivindicaciones 1 a 1, que incluye realizar la evaluación secundaria usando

una métrica de distancia para determinar el grado de similitud entre el primer vector y cada uno del grupo de segundos vectores.

12. El método de una cualquiera de las reivindicaciones 1 a 11, que incluye realizar una evaluación (22) terciaria para cualquier segundo vector identificado como candidato, incluyendo la evaluación terciaria determinar un grado de similitud entre uno o más primeros vectores adicionales y uno o más segundos vectores adicionales, correspondientes al segundo vector candidato identificado en la evaluación secundaria.

13. El método de la reivindicación 12, en el cual los primeros vectores adicionales y los segundos vectores adicionales están separados en el tiempo, respectivamente, del primer vector y del segundo vector candidato.

14. El método de una cualquiera de las reivindicaciones 1 a 13, en el cual la señal de origen es una señal de programa recibida.

15. El método de la reivindicación 14, que incluye generar un registro del contenido de medios correlacionado de la señal del programa.

16. El método de la reivindicación 15, que incluye generar una hoja de indicaciones que identifica el contenido de medios correlacionado.

17. El método de una cualquiera de las reivindicaciones 1 a 16, en el cual los segundos vectores son los vectores de origen y el aparato está configurado para generar la base de datos a partir de los vectores de origen.

18. Un producto de programa de ordenador que incluye instrucciones de programa, operables para llevar a cabo el método de una cualquiera de las reivindicaciones 1 a 17.

19. Aparato para llevar a cabo el método de la Reivindicación 1 o de cualquier Reivindicación dependiente de la misma, incluyendo el aparato:

un generador (112) de espectrogramas, operable para generar (12) un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen;

un generador (114) de vectores, operable para generar (14) al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados, a partir de la columna para la tajada temporal, y para cuantizar las razones para generar dígitos de un vector de origen, en donde, para generar al menos un vector para una tajada temporal, el generador de vectores es operable, para al menos un depósito de frecuencia seleccionado de una tajada temporal, para calcular una razón de magnitudes de ese depósito y un depósito adyacente, o casi adyacente, a partir de la columna para la tajada temporal, y dividir las razones en gamas para generar al menos un dígito seleccionado para cada razón;

un evaluador (118) primario , operable para realizar una evaluación (18) primaria , realizando una correlación exacta de dígitos de primeros vectores con entradas en una tabla de consulta, en donde cada entrada en la tabla (66) de consulta está asociada a un grupo de segundos vectores, y en donde el número de dígitos de los primeros vectores usados para realizar la correlación exacta difiere entre entradas en la tabla de consulta;

un evaluador (12) secundario , operable para realizar una evaluación secundaria (2), para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionar el contenido de medios de origen con el contenido de medios de referencia; y

una base de datos (146) que comprende la tabla de consulta y los segundos vectores,

en el cual los primeros vectores son vectores de origen, o bien vectores de referencia, y los segundos vectores son los otros vectores de origen, y los otros vectores de referencia, representando cada vector de referencia una tajada temporal del contenido de medios de referencia.

2. Aparato para llevar a cabo el método de la Reivindicación 6, o de cualquier Reivindicación dependiente de la misma, incluyendo el aparato:

un generador (112) de espectrogramas, operable para generar (12) un espectrograma a partir de la señal de origen, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal

de la señal de origen;

un generador (114) de vectores, operable para generar (14) al menos un vector de origen para una tajada temporal de la señal de origen, calculando razones de magnitudes de depósitos de frecuencia seleccionados, a partir de la columna para la tajada temporal, y para cuantizar las razones para generar dígitos de un vector de origen;

un evaluador (118) primario , operable para realizar una evaluación (18) primaria , realizando una correlación exacta de dígitos de primeros vectores con entradas en una tabla de consulta, en donde cada entrada en la tabla de consulta está asociada a un grupo de segundos vectores, y en donde el número de dígitos de los primeros vectores, usados para realizar la correlación exacta, difiere entre las entradas en la tabla de consulta;

un evaluador (12) secundario , operable para realizar una evaluación (2) secundaria para determinar un grado de similitud entre los primeros vectores y cada uno del grupo de segundos vectores, para identificar segundos vectores cualesquiera que sean candidatos para correlacionar el contenido de medios de origen con el contenido de medios de referencia; y

una base de datos (146) que comprende la tabla de consulta y los segundos vectores,

en el cual los primeros vectores son vectores de origen, o bien vectores de referencia, y los segundos vectores son los otros vectores de origen y los otros vectores de referencia, representando cada vector de referencia una tajada temporal del contenido de medios de referencia;

en el cual, para generar un vector de origen adicional para una tajada temporal:

el generador de espectrogramas es operable para generar un espectrograma adicional, aplicando una transformación de Fourier a la señal de origen, incluyendo el espectrograma adicional una pluralidad de columnas, siendo cada columna representativa de una tajada temporal, e incluyendo una pluralidad de depósitos de frecuencia, cada uno representativo de una respectiva gama de componentes de frecuencia para la tajada temporal de la señal de origen, y para aplicar una transformación adicional de Fourier a los respectivos depósitos de frecuencia, a partir de la columna para la tajada temporal, para generar un respectivo conjunto de coeficientes; y

el generador de vectores es operable para generar el vector de origen adicional, de modo que, para un conjunto de N coeficientes en una columna para una tajada temporal, para cada uno de los elementos 2 a N-1 del vector de origen adicional, sea formado un n-ésimo elemento por el cuadrado del n-ésimo coeficiente, dividido entre el producto del (n-1 )-ésimo coeficiente y el (n+1 )-ésimo coeficiente, y para cuantizar los elementos del vector resultante para generar al menos un dígito para cada elemento.

21. El aparato de la Reivindicación 19 o la Reivindicación 2, que incluye adicionalmente un evaluador (122) terciario , siendo el evaluador terciario para realizar una evaluación (22) terciaria para cualquier segundo vector identificado como candidato, y siendo el evaluador terciario operable para determinar un grado de similitud entre uno o más primeros vectores adicionales y uno o más segundos vectores adicionales, correspondientes al segundo vector candidato, identificado en la evaluación secundaria.

22. El aparato de una cualquiera de las Reivindicaciones 19 a 21, incluyendo el aparato al menos un procesador (42) y almacenamiento (44, 46), y software de ordenador, operable para implementar el generador de espectrogramas, el generador de vectores de troceo y los evaluadores.