Transcripción de música.

Sistema para generar datos de partituras a partir de una señal de audio, comprendiendo el sistema:

un receptor de audio que se puede hacer funcionar para procesar la señal de audio; y

una unidad de identificación de notas que se puede hacer funcionar para recibir la señal de audio procesada y generar un evento de inicio de nota asociado a una localización temporal en la señal de audio procesada como respuesta a por lo menos una de entre:

identificar un cambio de frecuencia que supera un primer valor de umbral; e

identificar un cambio de amplitud que supera un segundo valor de umbral;

comprendiendo la unidad de identificación de notas:

un procesador de señales

, que comprende:

una unidad detectora de frecuencias que se puede hacer funcionar para identificar el cambio de frecuencia de la señal de audio, que supera el primer valor de umbral,

una unidad detectora de amplitudes que se puede hacer funcionar para identificar un cambio de amplitud de la señal de audio, que supera el segundo valor de umbral; y

un procesador de notas que incluye un generador de eventos de inicio de nota que está en comunicación operativa con la unidad detectora de frecuencias y la unidad detectora de amplitudes y que se puede hacer funcionar para generar el evento de inicio de nota; comprendiendo el procesador de notas asimismo:

un primer generador de envolventes que se puede hacer funcionar para generar una primera señal de envolvente de acuerdo con la amplitud de la señal de audio procesada;

un segundo generador de envolventes que se puede hacer funcionar para generar una segunda señal de envolvente de acuerdo con un valor de potencia medio de la primera señal de envolvente; y

un generador de señales de control que se puede hacer funcionar para generar una señal de control como respuesta a un cambio en la primera señal de envolvente desde una primera dirección hasta una segunda dirección de tal manera que el cambio se prolongue durante un espacio de tiempo mayor que un tiempo de control predeterminado;

identificando la unidad detectora de amplitudes el cambio de amplitud de la señal de audio que supera el segundo valor de umbral como respuesta a que la amplitud de la señal de control presente un valor mayor que una amplitud de la segunda señal de envolvente.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2008/052859.

Solicitante: Museami, Inc.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 Canal Pointe Blvd, Suite 117 Princeton, NJ 08540 ESTADOS UNIDOS DE AMERICA.

Inventor/es: TAUB,ROBERT D, CABANILLA,J. ALEXANDER.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > INSTRUMENTOS DE MUSICA ELECTROFONICOS; INSTRUMENTOS... > G10H1/00 (Elementos de instrumentos de música electrofónicos (teclados que se adaptan también a otros instrumentos de música G10B, G10C; disposiciones para producir una reverberación sonora o un eco G10K 15/08))

PDF original: ES-2539813_T3.pdf

 

google+ twitter facebookPin it
Ilustración 1 de Transcripción de música.
Ilustración 2 de Transcripción de música.
Ilustración 3 de Transcripción de música.
Ilustración 4 de Transcripción de música.
Ver la galería de la patente con 12 ilustraciones.
Transcripción de música.

Fragmento de la descripción:

Transcripción de música.

Antecedentes La presente invención se refiere a aplicaciones de audio en general y, en particular, a la descomposición de audio y la generación de partituras.

Puede resultar deseable proporcionar una conversión precisa, en tiempo real, de señales de entrada de audio sin procesar, en datos de partituras para su transcripción. Por ejemplo, un intérprete musical (por ejemplo, en vivo o grabado, que haga uso de voces y/u otros instrumentos) puede desear transcribir automáticamente una interpretación para generar texto musical o para convertir la interpretación en un archivo de partitura digital editable. Muchos elementos pueden formar parte de la interpretación musical, incluyendo notas, timbres, modos, dinámica, ritmos y pistas. Puede que el intérprete requiera que todos estos elementos se extraigan de manera fiable del archivo de audio para generar una partitura precisa.

En general los sistemas convencionales proporcionan solamente capacidades limitadas en estas áreas, e incluso dichas capacidades generalmente proporcionan salidas con una precisión y una oportunidad temporal limitadas. Por ejemplo, muchos sistemas convencionales requieren que el usuario proporcione datos al sistema (diferentes de una señal de audio) para ayudar a este último a convertir una señal de audio en datos de partitura útiles. Una de las limitaciones resultantes es que el suministro de datos, diferentes de la señal de audio sin procesar, al sistema puede consumir mucho tiempo o puede ser no deseable. Otra limitación resultante es que el usuario puede no conocer gran parte de los datos requeridos por el sistema (por ejemplo, puede que el usuario no esté familiarizado con la teoría musical) . Todavía otra limitación resultante es que el sistema puede tener que proporcionar capacidades exhaustivas de interfaz de usuario para permitir la provisión de datos requeridos al sistema (por ejemplo, puede que el sistema tenga que disponer de un teclado, una pantalla, etcétera) .

La publicación "Fast labelling of notes in music signals", de Paul M Brossier et al (ISMIR 2004) , da a conocer un sistema para la estimación de atributos de notas a partir de una fuente de música monofónica en vivo. El inicio de las notas musicales se detecta basándose en criterios tanto de amplitud como de altura tonal. En la detección del inicio basada en la amplitud, se obtiene una envolvente de contenido de alta frecuencia a partir de la señal de entrada.

La publicación "Real-Time temporal segmentation of note objects in music signals", de Brossier et al, ICMC 2004, detalla adicionalmente una estrategia para la detección de inicios basada en la amplitud, implementando una captación de picos de la señal envolvente de contenido de alta frecuencia con el uso de una señal diferencial basada en una versión promediada de la envolvente de contenido de alta frecuencia.

Por lo tanto, puede que resulte deseable proporcionar capacidades mejoradas para extraer de manera automática y precisa datos de partitura a partir de un archivo de audio sin procesar.

Sumario Se describen métodos, sistemas y dispositivos para extraer de manera automática y precisa datos de partitura a partir de una señal de audio. Se identifica un cambio en la información de frecuencia de la señal de audio de entrada, que supera un primer umbral, y se identifica un cambio en la información de amplitud de la señal de entrada de audio, que supera un segundo umbral. Se genera un evento de inicio de nota de tal manera que cada evento de inicio de nota representa una localización temporal en la señal de entrada de audio de por lo menos uno de un cambio identificado en la información de frecuencia, que supera el primer valor de umbral, o un cambio identificado de la información de amplitud, que supera el segundo valor de umbral. Las técnicas descritas en la presente se pueden implementar en métodos, sistemas y soportes de almacenamiento legibles por ordenador que tienen incorporado en ellos un programa legible por ordenador.

La invención se define en las reivindicaciones adjuntas 1 a 15. En un aspecto de la invención, se recibe una señal de audio desde una o más fuentes de audio. La señal de audio se procesa para extraer información de frecuencia y de amplitud. La información de frecuencia y de amplitud se usa para detectar eventos de inicio de notas (es decir, posiciones de tiempo en las que se determina que comienza una nota musical) . Para cada evento de inicio de nota, se generan datos de envolvente, datos de timbre, datos de altura tonal, datos dinámicos, y otros datos. Examinando datos de entre conjuntos de eventos de inicio de notas, se generan datos de tempo, datos de métrica, datos de tonalidades, datos de dinámica global, datos de instrumentación y pistas, y otros datos. A continuación, los diversos datos se usan para generar una salida de partitura.

En un ejemplo de forma de realización, se generan datos de tempo a partir de una señal de audio y se determina un conjunto de tempos de referencia. Se determina un conjunto de duraciones de notas de referencia, representando cada duración de nota de referencia un espacio de tiempo que dura un tipo de nota predeterminado en cada tempo de referencia, y se determina una ventana de extracción de tempos, que representa una parte contigua de la señal

de audio que se extiende desde una primera localización temporal hasta una segunda localización temporal. Se genera un conjunto de eventos de inicio de nota localizando los eventos de inicio de nota que se producen dentro de la parte contigua de la señal de audio; generando una separación entre notas para cada evento de inicio de nota, de manera que cada separación entre notas representa el intervalo de tiempo entre el evento de inicio de nota y el siguiente evento de inicio de nota sucesivo en el conjunto de eventos de inicio de nota; generando un conjunto de valores de error, estando asociado cada valor de error a un tempo de referencia asociado, incluyendo la generación del conjunto de valores de error dividir cada separación entre notas por cada una del conjunto de duraciones de notas de referencia, redondear cada resultado de la etapa de división a un múltiplo más próximo de la duración de nota de referencia usada en la etapa de división, y evaluar el valor absoluto de la diferencia entre cada resultado de la etapa de redondeo y cada resultado de la etapa de división; identificando un valor de error mínimo del conjunto de valores de error; y determinando un tempo extraído asociado a la ventana de extracción de tempos, siendo el tempo extraído el tempo de referencia asociado que está asociado al valor de error mínimo. Se pueden generar además datos de tempo determinando un conjunto de segundas duraciones de notas de referencia, de manera que cada duración de nota de referencia representa un espacio de tiempo que dura cada uno de un conjunto de tipos de nota predeterminados en el tempo extraído; generando una duración de nota recibida para cada evento de inicio de nota; y determinando un valor de nota recibido para cada duración de nota recibida, de manera que el valor de nota recibido representa la segunda duración de nota de referencia que se aproxima mejor a la duración de nota recibida.

En otro ejemplo de forma de realización, una técnica para generar datos de tonalidades a partir de una señal de audio incluye determinar un conjunto de funciones de coste, estando asociada cada función de coste a una tonalidad y representando un ajuste de cada una de un conjunto de frecuencias predeterminadas a la tonalidad asociada; determinar una ventana de extracción de tonalidades, que representa una parte contigua de la señal de audio que se extiende desde una primera localización temporal hasta una segunda localización temporal; generar... [Seguir leyendo]

 


Reivindicaciones:

1. Sistema para generar datos de partituras a partir de una señal de audio, comprendiendo el sistema:

un receptor de audio que se puede hacer funcionar para procesar la señal de audio; y una unidad de identificación de notas que se puede hacer funcionar para recibir la señal de audio procesada y generar un evento de inicio de nota asociado a una localización temporal en la señal de audio procesada como respuesta a por lo menos una de entre:

identificar un cambio de frecuencia que supera un primer valor de umbral; e identificar un cambio de amplitud que supera un segundo valor de umbral;

comprendiendo la unidad de identificación de notas:

un procesador de señales, que comprende:

una unidad detectora de frecuencias que se puede hacer funcionar para identificar el cambio de frecuencia de la señal de audio, que supera el primer valor de umbral, una unidad detectora de amplitudes que se puede hacer funcionar para identificar un cambio de amplitud de la señal de audio, que supera el segundo valor de umbral; y un procesador de notas que incluye un generador de eventos de inicio de nota que está en comunicación operativa con la unidad detectora de frecuencias y la unidad detectora de amplitudes y que se puede hacer funcionar para generar el evento de inicio de nota; comprendiendo el procesador de notas asimismo:

un primer generador de envolventes que se puede hacer funcionar para generar una primera señal de envolvente de acuerdo con la amplitud de la señal de audio procesada;

un segundo generador de envolventes que se puede hacer funcionar para generar una segunda señal de envolvente de acuerdo con un valor de potencia medio de la primera señal de envolvente; y un generador de señales de control que se puede hacer funcionar para generar una señal de control como respuesta a un cambio en la primera señal de envolvente desde una primera dirección hasta una segunda dirección de tal manera que el cambio se prolongue durante un espacio de tiempo mayor que un tiempo de control predeterminado;

identificando la unidad detectora de amplitudes el cambio de amplitud de la señal de audio que supera el segundo valor de umbral como respuesta a que la amplitud de la señal de control presente un valor mayor que una amplitud de la segunda señal de envolvente.

2. Sistema según la reivindicación 1, en el que la generación de un evento de inicio de nota incluye indicar un valor de marca de tiempo de la señal de entrada de audio correspondiente al evento de inicio de nota, y/o comprendiendo la primera función de envolvente una función que efectúa una aproximación de la amplitud de la señal de entrada de audio en cada valor de marca de tiempo y la segunda función de envolvente comprende una función que efectúa una aproximación de la potencia media de la primera función de envolvente durante un intervalo de promediado, y/o incluyendo la generación de un evento de inicio de nota asimismo ajustar el intervalo de promediado de la segunda función de envolvente como respuesta a un valor de ajuste recibido.

3. Sistema según la reivindicación 2, en el que el valor de ajuste recibido se determina de acuerdo con:

(a) una selección de clase de instrumento recibida desde una entrada de usuario, o

(b) una selección de género musical recibida desde una entrada de usuario.

4. Sistema según la reivindicación 1, que comprende asimismo:

una unidad detectora de duraciones de nota, en comunicación operativa con el generador de eventos de inicio de 65 nota, y que se puede hacer funcionar para detectar una duración de nota determinando por lo menos el intervalo de tiempo entre un primer evento de inicio de nota y un segundo evento de inicio de nota, habiendo sido 24

generados el primer evento de inicio de nota y el segundo inicio de nota por el generador de eventos de inicio de nota de manera que el segundo evento de inicio de nota sea posterior en el tiempo al primer evento de inicio de nota; y la asociación de la duración de nota al primer evento de inicio de nota, representando la duración de nota el intervalo de tiempo determinado, y/o siendo el segundo inicio de nota el evento de inicio de nota más próximo posterior en el tiempo al primer evento de inicio de nota. 10

5. Sistema según la reivindicación 1, que comprende asimismo:

una unidad detectora de notas y eventos, que se puede hacer funcionar para generar una nota y un evento asociados a una localización temporal en la señal de audio cuando la amplitud de la señal de control se hace 15 menor que la amplitud de la segunda señal de envolvente; y una unidad detectora de duraciones de nota, en comunicación operativa con el generador de eventos de inicio de nota y la unidad detectora de eventos de fin de nota, y que se puede hacer funcionar para:

detectar una duración de nota por lo menos determinando el intervalo de tiempo entre un evento de inicio de nota y un evento de fin de nota de manera que el evento de fin de nota sea posterior en el tiempo al evento de inicio de nota; y asociar la duración de nota al evento de inicio de nota, representando la duración de nota el intervalo de 25 tiempo determinado.

6. Sistema según la reivindicación 1, que comprende asimismo:

una unidad detectora de pausas, que se puede hacer funcionar para detectar una pausa identificando una parte 30 de la señal de audio que tiene una amplitud inferior a un umbral de detección de pausas.

7. Sistema según la reivindicación 6, en el que el detector de pausas se puede hacer funcionar asimismo para detectar una pausa determinando un valor de confianza de altura tonal menor que un umbral de confianza de altura tonal, representando el valor de confianza de altura tonal la probabilidad de que la parte de la señal de audio comprenda una altura tonal en relación con un evento de inicio de nota.

8. Sistema según la reivindicación 1, en el que la señal de audio se recibe desde una o más fuentes de audio, seleccionándose cada fuente de audio de entre el grupo constituido por un micrófono, un componente de audio digital, un archivo de audio, una tarjeta de sonido, y un reproductor de medios.

9. Método de generación de datos de partitura a partir de una señal de audio, comprendiendo el método:

identificar un cambio de información de frecuencia a partir de la señal de audio, que supera un primer valor de umbral;

identificar un cambio de información de amplitud a partir de la señal de audio, que supera un segundo valor de umbral; y generar un evento de inicio de nota, representando cada evento de inicio de nota una localización temporal en la 50 señal de audio, de por lo menos uno de entre un cambio identificado de la información de frecuencia, que supera el primer valor de umbral, o un cambio identificado de la información de amplitud, que supera el segundo valor de umbral; comprendiendo asimismo:

asociar un registro de nota al evento de inicio de nota, comprendiendo el registro de nota un conjunto de 55 datos característicos de la nota, y generar una primera señal de envolvente, realizando la primera señal de envolvente sustancialmente un seguimiento de un valor absoluto de la información de amplitud de la señal de audio; generar una segunda señal de envolvente, realizando la segunda señal de envolvente sustancialmente un seguimiento de una 60 potencia media de la primera señal de envolvente; y generar una señal de control, realizando la señal de control sustancialmente un seguimiento de cambios direccionales de la primera señal de envolvente que duran más que un tiempo de control predeterminado, comprendiendo la identificación de un cambio de la información de amplitud identificar una primera localización de comienzo de nota que representa una localización temporal en la señal de audio, en la que una amplitud de la señal de control se hace mayor que 65 una amplitud de la segunda señal de envolvente.

10. Método según la reivindicación 9, en el que la generación de un evento de inicio de nota incluye indicar un valor de marca de tiempo de la señal de entrada de audio correspondiente al evento de inicio de nota.

11. Método según la reivindicación 10, en el que la primera función de envolvente comprende una función que

efectúa una aproximación de la amplitud de la señal de entrada de audio en cada valor de marca de tiempo, y la segunda función de envolvente comprende una función que efectúa una aproximación de la potencia media de la primera función de envolvente durante un intervalo de promediado.

12. Método según la reivindicación 11, en el que la generación de un evento de inicio de nota incluye asimismo ajustar el intervalo de promediado de la segunda función de envolvente como respuesta a un valor de ajuste recibido.

13. Método según la reivindicación 12, en el que el valor de ajuste recibido se determina de acuerdo:

(a) con un tipo de instrumento recibido a partir de una entrada de usuario, o (b) una selección de género musical recibida a partir de una entrada de usuario.

14. Método según la reivindicación 11, que comprende asimismo:

identificar una segunda localización de comienzo de nota que representa una localización temporal en la señal de audio, en la que la amplitud de la señal de control se hace mayor que la amplitud de la segunda señal de envolvente por vez primera tras la primera localización temporal; y asociar una duración al evento de inicio de nota, representando la duración el intervalo de tiempo desde la primera localización de comienzo de nota a la segunda localización de comienzo de nota, y/o identificar una localización de fin de nota que representa una localización temporal en la señal de audio, en la que la amplitud de la señal de control se hace menor que la amplitud de la segunda señal de envolvente por primera vez tras la primera localización de comienzo de nota; y asociar una duración al evento de inicio de nota, representando la duración el intervalo de tiempo desde la primera localización de comienzo de nota hasta la localización de fin de nota.

15. Soporte de almacenamiento legible por ordenador, que tiene incorporado en el mismo un programa legible por ordenador para dirigir el funcionamiento de un sistema de generación de datos de partitura que incluye un receptor de audio configurado para recibir una señal de audio, un procesador de señales configurado para procesar la señal de audio según el método de la reivindicación 9.