Procedimiento y sistema de identificación de pistas de audio similares.

Un procedimiento, implementado por ordenador, de identificación de una o más pistas de audio similares a unapista de audio predeterminada,

estando representada cada pista por un conjunto de n coeficientes o valores,comprendiendo el procedimiento:

1. generar una representación inicial del conjunto de coeficientes/valores de las pistas, comprendiendo larepresentación inicial una representación gaussiana del timbre de cada pista,

2. generar una representación vectorial del conjunto de cada pista de audio para determinar un vector paracada pista de audio,

3. determinar una distancia en la representación vectorial desde el vector de la pista de audio predeterminadahasta cada vector de una o más de las otras pistas,

4. identificar un número predeterminado de las otras pistas seleccionando un número predeterminado quevectores que tienen las menores distancias al vector de la pista predeterminada, y

5. llevar a cabo una determinación de similitud entre la pista predeterminada y las otras pistas identificadas eidentificar las una o más pistas similares,

caracterizado porque la etapa de generación de la representación vectorial comprende, para cada pista deaudio, la correlación del conjunto a un espacio vectorial euclídeo de k dimensiones mediante:

- la identificación, para cada dimensión k, de dos puntos de giro y

- el cálculo del vector para cada conjunto con base en los puntos de giro identificados con base en la raízcuadrada de una divergencia simétrica de Kullback-Leibler (KL) entre los puntos de giro y el conjunto.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10167208.

Solicitante: Österreichisches Forschungsinstitut für Artificial Intelligence der Österreichischen Studiengesellschaft für Kybernetik.

Nacionalidad solicitante: Austria.

Dirección: Freyung 6/6 1010 Wien AUSTRIA.

Inventor/es: SCHNITZER,DOMINIK.

Fecha de Publicación: 1 de Marzo de 2013.

Clasificación Internacional de Patentes:

G06F17/30

PDF original: ES-2396932_T3.pdf

Fragmento de la descripción:

Procedimiento y sistema de identificación de pistas de audio similares La presente invención versa acerca de un sistema y un procedimiento de identificación de pistas de audio similares a una pista de audio predeterminada o identificada/seleccionada y, en particular, acerca de un sistema y un procedimiento para gestionar el grandísimo número de pistas de audio disponibles en la actualidad.

Hoy hay disponible en Internet una cantidad de música sin precedentes. En abril de 2009, tan solo la tienda de música iTunes de Apple enumeraba en su catálogo más de 10 millones de canciones descargables. Otras tiendas de música en Internet, como Amazon MP3, aún ofrecen un catálogo de 5 millones de canciones de las que elegir. Con los números de los catálogos alcanzando constantemente nuevas plusmarcas, resulta evidente la necesidad de algoritmos inteligentes de búsqueda de música que proporcionen nuevas maneras de descubrir música y de navegar por ella.

Desgraciadamente, muchos de los algoritmos inteligentes de tratamiento musical que se han publicado no aumentan de escala fácilmente a los millones de piezas musicales disponibles en una tienda de música en Internet. En particular, esto es cierto para algoritmos de recomendación musical que calculan la similitud acústica de la música usando una representación gaussiana del timbre y la divergencia de Kullback-Leibler.

Especialmente la divergencia de Kullback-Leibler plantea múltiples desafíos cuando se desarrolla un sistema de recomendación musical a gran escala: (1) la divergencia es de cálculo muy costoso, (2) no es una métrica y, por ello, hace muy difícil la construcción de estructuras de indexación en torno a la misma y, además, (3) las características acústicas extraídas de similitud musical tienen un grado de libertad muy elevado, lo cual también es un problema general para las soluciones de indexación (“maldición de la dimensión”) .

Sin embargo, por otra parte, los sistemas que usan esta técnica regularmente se clasifican en los primeros puestos de las evaluaciones anuales de Recomendación Musical Automática MIREX, que los convierte en un blanco tentador pero exigente para un uso generalizado en aplicaciones reales.

Pueden verse técnicas relevantes en: US2008/168059, MANDEL; ELLIS: “Song-level features and support vector machines for music classification”, PROCEEDINGS OF THE 6TH INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL (ISM1095) , 2005, así como en Pedro Cano ET AL: “On the Use of FastMap for Audio Retrieval and Browsing”, 2002, XP55016777, recuperado del URL de Internet http://ismir2002.ismir.net/proceedings/03-SP02-6.pdf.

En un primer aspecto, la invención versa acerca de un procedimiento según la reivindicación 1.

En este sentido, la similitud puede ser determinada de varias maneras, desde la determinación muy simple del sexo, la edad, el color de la piel y el estilo de música (jazz, pop, hip-hop, etc.) de un intérprete, o parámetros más complejos, tales como tiempos por minuto, ritmo, tonalidad, qué instrumentos se usan, o similares. Se conoce un gran número de parámetros o valores de ese tipo, tales como lo que se denomina representación gaussiana del timbre o las representaciones de ritmo por patrones de fluctuación. Otros procedimientos son características simples de similitud de audio como: las características de centroide espectral, de atenuación espectral, de flujo espectral, los pasos por cero, del histograma rítmico o del histograma de altura tonal. Estas características simples de audio se combinan a menudo en un único vector mayor de características de similitud musical.

Habitualmente, se usa un procedimiento del presente tipo cuando un usuario escucha o experimenta música o una pista de audio y luego desea experimentar, comprar, descargar, acceder o escuchar música similar. En esta situación, se determinan, se accede y se usan parámetros que representan la pista en sí para identificar pistas similares.

Alternativamente, puede ordenarse una colección de pistas según la similitud para generar una mejor visión de conjunto de las mismas. Luego, pueden usarse parámetros o aspectos diferentes para generar ordenaciones diferentes de tales similitudes.

Se hace notar que dos pistas pueden ser similares en un aspecto y diferentes en otro. Así, la similitud se relaciona con uno o más aspectos o parámetros de una pista y, habitualmente, no con todos los aspectos o los parámetros de la misma.

Naturalmente, tales parámetros de la pista pueden ser representados de cualquier número de maneras y usando cualquier número de parámetros o valores. Cualquier tipo de representación, sea un bpm o una distribución de algún tipo, puede ser representado mediante uno o más coeficientes o valores. Más arriba se mencionan representaciones típicas. Una pista puede estar representada por algunos parámetros para su uso en un tipo de determinación de la similitud y otros parámetros para su uso en otro tipo de determinación de la similitud y/o parámetros para su uso en la información a un usuario u oyente de la identidad de una pista real (intérprete, cantante, productor, sello, etc.) .

Naturalmente, una representación vectorial es la generación de un espacio de n dimensiones y la representación del conjunto de parámetros/valores de cada pista en el mismo. El número de dimensiones del espacio vectorial puede ser mayor o menor que el número de parámetros del conjunto. Además, no es necesario que los parámetros/valores del conjunto sean métricos, de modo que no se requiere que cierta diferencia entre valores de tres pistas diferentes haga automáticamente a las tres pistas similares por igual, ya que esto puede ser gestionado por la representación o la correlación en el espacio vectorial.

Cuando se representa una pista en el espacio vectorial, la representación será un punto y, por ello, un vector en el espacio vectorial, ya que la pista tendrá un valor para cada dimensión del espacio vectorial.

Esta correlación de valores en un espacio vectorial puede llevarse a cabo en un gran número de maneras, tales como el uso del procedimiento FastMap, mencionado en lo que sigue.

Habiendo obtenido la representación vectorial, pueden determinarse distancias entre pares de vectores, tales como el uso de la conocida distancia euclídea. También puede usarse un gran número de medidas adicionales de la distancia, tal como la distancia de cosenos.

Cada medida de distancia tiene sus ventajas y sus desventajas.

Preferentemente, para obtener el mejor filtrado se determina la distancia desde el vector que representa la pista de audio predeterminada hasta todas las demás pistas, con lo que puede llevarse a cabo un filtrado basto para eliminar varios de los puntos más distantes.

Este filtrado da como resultado la identificación de un número predeterminado de pistas distintas. Este número puede ser un número exacto, tal como 10.000 o 100.000 pistas, o puede ser un porcentaje de todas las pistas disponibles. Alternativamente, pueden identificarse todas las pistas que tengan un vector dentro de una distancia predeterminada, igual que todas las pistas que tengan un vector dentro de una distancia que sea un porcentaje de, por ejemplo, una distancia máxima a todos los vectores o dentro de una mediana de la distribución de distancias. Puede usarse cualquier medida para identificar un subgrupo de las pistas disponibles.

Habiendo identificado un subgrupo de pistas que usan el filtrado anterior, habitualmente más basto, se lleva a cabo a continuación una determinación de similitud entre la pista predeterminada y las demás pistas identificadas. Esta determinación de la similitud puede llevarse a cabo mediante cualquier procedimiento deseado de similitud o de divergencia. Dado que el número de tales determinaciones se ha reducido mediante la primera etapa de filtrado, puede haber disponibles procedimientos de cálculo más pesado sin un efecto perjudicial para la funcionalidad global.

Más abajo se mencionan medidas preferentes de la similitud.

La etapa final es identificar, a partir de la determinación de similitud, las una o más pistas similares que el usuario puede entonces comprar, descargar, escuchar, remitir, a las que puede acceder, o similares.

Según la invención, la etapa 2 comprende el establecimiento de una correlación de los conjuntos en un espacio vectorial euclídeo de k dimensiones.

Esto puede ser la rutina FastMap habitual, en la que se usan los puntos de giro para determinar la dimensión y en la que la posición o vector en sí, cuando se han identificado todos los puntos de giro, se determina con base en estos puntos de giro. Así,... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento, implementado por ordenador, de identificación de una o más pistas de audio similares a una pista de audio predeterminada, estando representada cada pista por un conjunto de n coeficientes o valores, comprendiendo el procedimiento:

1. generar una representación inicial del conjunto de coeficientes/valores de las pistas, comprendiendo la representación inicial una representación gaussiana del timbre de cada pista,

2. generar una representación vectorial del conjunto de cada pista de audio para determinar un vector para cada pista de audio,

3. determinar una distancia en la representación vectorial desde el vector de la pista de audio predeterminada 10 hasta cada vector de una o más de las otras pistas,

4. identificar un número predeterminado de las otras pistas seleccionando un número predeterminado que vectores que tienen las menores distancias al vector de la pista predeterminada, y

5. llevar a cabo una determinación de similitud entre la pista predeterminada y las otras pistas identificadas e identificar las una o más pistas similares,

caracterizado porque la etapa de generación de la representación vectorial comprende, para cada pista de audio, la correlación del conjunto a un espacio vectorial euclídeo de k dimensiones mediante:

% la identificación, para cada dimensión k, de dos puntos de giro y % el cálculo del vector para cada conjunto con base en los puntos de giro identificados con base en la raíz cuadrada de una divergencia simétrica de Kullback-Leibler (KL) entre los puntos de giro y el conjunto.

2. Un procedimiento según la reivindicación 1 en el que los dos puntos de giro son identificados mediante:

a) la selección de uno de los conjuntos, b) la determinación, para cada conjunto distinto del conjunto seleccionado, de una primera distancia, junto con la dimensión pertinente, desde el conjunto seleccionado al otro conjunto, c) la selección de un primer punto de giro como un conjunto que tiene una primera distancia menor del 90% 25 de la primera distancia mayor determinada,

d) la determinación, para cada conjunto distinto del del primer punto de giro seleccionado, de una segunda distancia, junto con la dimensión pertinente, desde el primer punto de giro seleccionado al otro conjunto, e) la selección de un segundo punto de giro como un conjunto que tiene una segunda distancia menor del

90% de la segunda distancia mayor determinada.

3. Un procedimiento según la reivindicación 2 en el que se selecciona el primer punto de giro como un conjunto que tiene una primera distancia en una mediana/una media/un centro de las primeras distancias, o cerca de los mismos, y se selecciona el segundo punto de giro como un conjunto que tiene una segunda distancia en una mediana/una media/un centro de las segundas distancias, o cerca de los mismos.

4. Un procedimiento según la reivindicación 2 en el que las etapas b) y e) comprenden determinar la distancia con 35 base en una divergencia de Kullback-Leibler.

5. Un procedimiento según la reivindicación 1 en el que la etapa 5 comprende determinar la similitud determinando una divergencia de Kullback-Leibler entre los conjuntos de la pista predeterminada y cada una de las otras pistas identificadas.

6. Un aparato para identificar una o más pistas de audio similares a una pista de audio predeterminada, 40 comprendiendo el aparato:

% medios para acceder a una pluralidad de conjuntos de n coeficientes o valores, representando cada conjunto una pista de audio, % medios para identificar una pista de audio predeterminada, % medios para generar una representación inicial del conjunto de coeficientes/valores de las pistas,

comprendiendo la representación inicial una representación gaussiana del timbre de cada pista, % medios para generar o acceder a una representación vectorial del conjunto de cada pista de audio para determinar un vector para cada pista de audio, % medios para determinar o acceder a una distancia en la representación vectorial desde el vector de la pista de audio predeterminada hasta cada vector de una o más de las otras pistas, 50 % medios para identificar un número predeterminado de las otras pistas seleccionando un número predeterminado que vectores que tienen las menores distancias al vector de la pista predeterminada, y % medios para llevar a cabo una determinación de similitud entre la pista predeterminada y las otras pistas identificadas e identificar las una o más pistas similares,

caracterizado porque el medio para generar o acceder a la representación vectorial está adaptado para determinar un vector para cada pista de audio, estableciéndose una correlación entre los conjuntos y un espacio vectorial euclídeo de k dimensiones mediante:

% la identificación, para cada dimensión k, de dos puntos de giro y 5 % el cálculo del vector para cada conjunto con base en los puntos de giro identificados con base en la divergencia de Kullback-Leibler (KL) entre los puntos de giro y el conjunto.

7. Un aparato según la reivindicación 6 en el que el medio generador está adaptado para identificar los dos puntos de giro mediante:

a) la selección de uno de los conjuntos, 10 b) la determinación, para cada conjunto distinto del conjunto seleccionado, de una primera distancia, junto con la dimensión pertinente, desde el conjunto seleccionado al otro conjunto, c) la selección de un primer punto de giro como un conjunto que tiene una primera distancia menor del 90% de la primera distancia mayor determinada, d) la determinación, para cada conjunto distinto del del primer punto de giro seleccionado, una segunda 15 distancia, junto con la dimensión pertinente, desde el primer punto de giro seleccionado al otro conjunto, e) la selección de un segundo punto de giro como un conjunto que tiene una segunda distancia menor del 90% de la segunda distancia mayor determinada.

8. Un aparato según la reivindicación 7 en el que los medios de giro/acceso están adaptados para seleccionar el primer punto de giro como un conjunto que tiene una primera distancia en una mediana/una media/un centro de las primeras distancias, o cerca de los mismos, y se selecciona el segundo punto de giro como un conjunto que tiene una segunda distancia en una mediana/una media/un centro de las segundas distancias, o cerca de los mismos.

9. Un aparato según la reivindicación 7 en el que los medios de generación están adaptados para determinar la distancia con base en una divergencia de Kullback-Leibler.

10. Un aparato según la reivindicación 6 en el que los medios de determinación de la similitud están adaptados para determinar la similitud determinando una divergencia de Kullback-Leibler entre los conjuntos de la pista predeterminada y cada una de las otras pistas identificadas.

Patentes similares o relacionadas:

Composiciones y métodos para modelar el metabolismo de Saccharomyces cerevisiae, del 3 de Junio de 2020, de THE REGENTS OF THE UNIVERSITY OF CALIFORNIA: Un metodo implementado por computadora para proporcionar a un usuario una simulacion de una funcion fisiologica de levadura relacionada con un gen heterologo […]

Procedimiento de visualización de páginas por medio de un navegador de un equipo como una caja descodificadora Proveedor de Servicios de Internet, del 10 de Enero de 2020, de FREEBOX (100.0%): Un procedimiento de visualización de páginas por un equipo cliente equipado de un sistema cerrado, conectado a un servidor remoto , integrando […]

Procedimiento implementado por ordenador y controlado por ordenador, producto de programa informático y plataforma para disponer datos para su procesamiento y almacenamiento en un motor de almacenamiento de datos, del 4 de Noviembre de 2019, de Dynactionize N.V: Un procedimiento implementado por ordenador y controlado por ordenador de disposición de datos para procesamiento y almacenamiento de los mismos en un […]

MÉTODO DE DOBLAJE Y LOCUCIONES DE AUDIO, del 11 de Julio de 2019, de TANGO VOZ, S.L: Se describe en este documento un método que permite gestionar la producción de doblajes y locuciones de audio destinados a medios audiovisuales de tal manera que no se […]

Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, del 21 de Mayo de 2019, de IG Knowhow Limited: Un sistema de control para controlar el funcionamiento de una unidad de procesamiento de datos, la unidad de procesamiento de datos recibiendo una primera […]

Dispositivo de procesamiento de información, método de procesamiento de información, programa de procesamiento de información y soporte de registro, del 1 de Mayo de 2019, de RAKUTEN, INC: Dispositivo de procesamiento de información que comprende: un medio (12b) de memoria de palabra de área local que almacena una palabra de área […]

Método para proporcionar una estructura de índice en una base de datos, del 1 de Mayo de 2019, de Capish International AB: Metodo para proporcionar una estructura de indice en una base de datos que comprende una pluralidad de tipos de objetos, donde cada tipo de objetos […]

SISTEMA PARA LA DETECCIÓN REMOTA DEL USO DEL CINTURÓN DE SEGURIDAD EN UN VEHÍCULO, del 18 de Abril de 2019, de CASANOVA RENT VOLKS, S.A. DE C.V: La presente invención se refiere a la industria automotriz, particularmente está relacionada con los cinturones de seguridad con que están equipados los vehículos, […]