Procedimiento para detectar palabras cantadas y utilización de este procedimiento en un juego de Karaoke.

Procedimiento para detectar palabras cantadas con respecto al tarareo en una señal (S) de voz de un usuario caracterizado por que comprende las etapas siguientes:

- medir un coeficiente de sonoridad (Vi) en diferentes instantes de un período de referencia (TRi),

- comparar los coeficientes de sonoridad (Vi) así medidos en el período de referencia (TRi) con un valor umbral (B), y

- en función de los resultados de estas comparaciones (Estado_Pj) en el período de referencia (TRi), deducir si, en un instante de análisis (ti), el usuario está pronunciando palabras cantadas si no hay únicamente estados sonoros en el transcurso del citado período de referencia (TRi), o está tarareando si todos los estados instantáneos conservados en el transcurso del citado período de referencia (TRi) son estados sonoros.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2010/051013.

Solicitante: Voxler.

Nacionalidad solicitante: Francia.

Dirección: 8 passage Brûlon 75012 Paris FRANCIA.

Inventor/es: DELORME,NICOLAS, HENRY,DAMIEN, ZILS,AYMERIC.

Fecha de Publicación: 2 de Abril de 2014.

Clasificación Internacional de Patentes:

G10H1/36 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10H INSTRUMENTOS DE MUSICA ELECTROFONICOS; INSTRUMENTOS EN LOS QUE LOS TONOS SON GENERADOS POR MEDIOS ELECTROMECANICOS O POR GENERADORES ELECTRONICOS, O EN LOS QUE LOS SONIDOS SON SINTETIZADOS A PARTIR DE UNA MEMORIA DE DATOS. › G10H 1/00 Elementos de instrumentos de música electrofónicos (teclados que se adaptan también a otros instrumentos de música G10B, G10C; disposiciones para producir una reverberación sonora o un eco G10K 15/08). › Dispositivos para el acompañamiento.
G10L25/78 G10 […] › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 25/00 Técnicas de análisis del habla o voz no restringidos a un solo de los grupos G10L 15/00 - G10L 21/00 (silenciar los amplificadores basados en semiconductores, cuando algunas de las características especiales de una señal son detectadas por un detector de voz, p. ej. detectar cuando no hay ninguna señal, H03G 3/34). › Detección de presencia o ausencia de señales de voz (con conmutación de dirección de transmisión por frecuencia vocal en sistemas telefónicas bidireccionales de altavoz H04M 9/10).
G10L25/90 G10L 25/00 […] › Detección del tono de una señal de habla.
G10L25/93 G10L 25/00 […] › Disciminación entre las partes con voz y sin voz de una señal de habla (G10L 25/90 tiene prioridad).

PDF original: ES-2477198_T3.pdf

Fragmento de la descripción:

Procedimiento para detectar palabras cantadas y utilizaciïn de este procedimiento en un juego de Karaoke La presente invenciïn concierne a un procedimiento para detectar palabras cantadas en la voz. La invenciïn tiene especialmente por objetivo proponer un procedimiento simple de poner en prïctica y poco consumidor de recursos para detectar palabras en la voz.

La invenciïn encuentra una aplicaciïn particularmente ventajosa, pero no exclusiva, en aplicaciones de tipo ï Karaoke ï. Se recuerda que el Karaoke es un juego en el cual un jugador canta una canciïn conocida sobre un acompaïamiento generalmente en lugar del cantante original, siguiendo generalmente las palabras sobre una pantalla. En variante, la invenciïn podrïa ser utilizada igualmente en aplicaciones interactivas vocales, por ejemplo en cualquier juego de vïdeo en cuyo seno se desee detectar si el jugador habla.

Juegos de vïdeo de Karaoke como ï SingStar ï (marca registrada) evalïan ïnicamente la exactitud del canto de un jugador con respecto a una melodïa de referencia. En consecuencia, un jugador que tararee en ritmo la melodïa (sin cantar las palabras) obtendrï la misma puntuaciïn, incluso una mejor puntuaciïn, que un jugador que cante efectivamente las palabras. En efecto, tarareando, el jugador puede concentrarse ïnicamente en la exactitud de la melodïa y/o la precisiïn rïtmica, lo que es mucho mïs fïcil que si ïste tuviera que hacer el esfuerzo de colocar las palabras correctas de la canciïn en la melodïa correcta y/o al ritmo correcto.

En particular, en ciertas canciones de rap, no hay melodïa y el ritmo es demasiado rïpido para ser evaluado de manera fiable. En este caso, la detecciïn de las palabras en la canciïn es un criterio pertinente para evaluar al jugador. El documento US2007/0059670 describe un procedimiento de detecciïn entre palabras cantadas y palabras habladas.

Para tener en cuenta las palabras en la puntuaciïn del jugador, ciertos juegos recientes ensayan integrar el reconocimiento de palabras, con resultados discutibles, siendo estos mecanismos de reconocimiento de palabra muy difïciles de realizar y muy caros algorïtmicamente. En efecto, estos necesitan cïlculos complejos (utilizaciïn de modelos HMM) a fin de reconocer palabras completas, lo que es difïcil de poner en prïctica y provoca errores frecuentes asï como una latencia importante.

La presente invenciïn permite verificar si el jugador canta las palabras, de manera mucho mïs simple que el reconocimiento vocal tradicional, abordando el problema de manera original: no se busca ï reconocer ï las palabras cantadas por el jugador, lo que verdaderamente no tiene sentido puesto que ïstas son ya conocidas (ïstas son visualizadas en la pantalla) , sino ï verificar ï si el jugador canta palabras, en lugar de por ejemplo tararear simplemente la melodïa.

La invenciïn parte asï de la constataciïn de que cualquier leguaje hablado, y con mayor motivo cantado, estï caracterizado por una alternancia de sonidos variados (diferentes fonemas) denominada en este documento ï alternancia fonïmica ï. Se entiende por fonïmica lo que se refiere a los fonemas, es decir a cada uno de los sonidos que componen un lenguaje. Esta alternancia fonïmica puede ser definida por ejemplo por una alternancia entre vocales y consonantes, o entre sonidos sonoros y sonidos sordos, o entre diversas vocales, o entre diversas consonantes etc…

Se entiende por tarareo la ausencia de alternancia fonïmica. Por ejemplo, cuando se tararea, se emiten ïnicamente sonidos sonoros de tipo ï la la la ï, ï mmmm ï, ï ah ah ah ï caracterizados por una ausencia de alternancia entre sonidos sonoros y sonidos sordos y por tanto una ausencia de alternancia fonïmica si se elige definir ïsta por una alternancia de sonidos sonoros y de sonidos sordos. Al contrario, una persona que canta las palabras de una canciïn, alterna, salvo excepciïn, la emisiïn de sonidos sonoros y de sonidos sordos.

La invenciïn propone distinguir la alternancia fonïmica, es decir la pronunciaciïn de palabras, con respecto a la ausencia de alternancia fonïmica (tarareo) .

Se recuerda que un sonido se dice ï sonoro ï si su producciïn va acompaïada de una vibraciïn de las cuerdas vocales, y ï sordo ï si no. Dado que el lenguaje hablado es un ensamblaje de vocales y de consonantes sonoras que hacen vibrar las cuerdas vocales y de consonantes sordas que no hacen vibrar las cuerdas vocales, se observa naturalmente esta alternancia entre sonidos sonoros y sordos. Esta constataciïn vale para las principales lenguas habladas en el mundo. En cambio, cuando se tararea, el sonido emitido corresponde a una emisiïn continua de sonidos sonoros de tipo ï lalala ï o ï aaaaaaa ï o ï mmmmmmm ï.

En la invenciïn se observa si, durante un perïodo de referencia, la voz del jugador presenta variaciones de sonoridad o no. Si ïste es el caso, entonces se deduce que el jugador estï cantando palabras en este perïodo de referencia; mientras que si este no es el caso, se deduce que el jugador estï tarareando en este perïodo de referencia. Se ha visto que un perïodo de referencia de aproximadamente un segundo permitïa obtener buenos resultados. Sin embargo, cualquier otro perïodo de referencia es posible.

En una puesta en prïctica, se mide la alternancia fonïmica asociada al carïcter sonoro y sordo de la voz. A tal efecto, se calcula un coeficiente de sonoridad de la voz que presenta valores elevados cuando el sonido de la voz es sonoro y valores bajos cuando el sonido de la voz es sordo. En un ejemplo, este coeficiente de sonoridad corresponde a la mediciïn de la calidad de la extracciïn de la frecuencia fundamental de la seïal de voz. Cuando este coeficiente de sonoridad es superior a un valor umbral durante todo el perïodo de referencia entonces se deduce que el jugador estï tarareando; en cambio, cuando el coeficiente de sonoridad no es superior al valor umbral durante todo el perïodo de referencia, se deduce que el jugador estï cantando.

La invenciïn consiste asï en verificar ïnicamente si el jugador pronuncia verdaderas palabras y no estï tarareando, sin asegurarse de que las palabras correspondan efectivamente a las palabras de la canciïn. No es ïtil verificar si ï las ï palabras cantadas son las verdaderas palabras de la canciïn, sino ïnicamente si se ï cantan ï palabras. En efecto, si el tarareo es una ayuda importante en este tipo de juegos, el hecho de cantar otras palabras sobre una canciïn es mïs bien una dificultad suplementaria para el jugador.

De modo mïs general, la mediciïn de sonoridad-no sonoridad es solamente un modo de medir la alternancia fonïmica. Cualquier otro mïtodo que permita medir una variaciïn, por ejemplo una variaciïn de las consonantes pronunciadas (mediciïn de la presencia de ciertas consonantes por otros mïtodos que la mediciïn de la tasa de sonoridad) o variaciïn de la vocales pronunciadas (en el triïngulo vocïlico) , producirïa el mismo tipo de resultado.

Asï, alternativamente, si se elige caracterizar la alternancia fonïmica por la alternancia de vocales diferentes, se mide una variaciïn de timbre en el triïngulo vocïlico, porque un jugador que tararea no hace variar el timbre de su voz mientras que el jugador que canta palabras hace variar naturalmente el timbre de su voz. En el caso en que no se detecte variaciïn del timbre de la voz en el triïngulo vocïlico en el perïodo de referencia, se deduce que el jugador estï tarareando; mientras que en el caso en que se detecte una variaciïn del timbre de la voz en el triïngulo vocïlico en el perïodo de referencia, se deduce que el jugador estï cantando palabras.

Alternativamente, se separan las consonantes y o las vocales en varios grupos, por ejemplo cuatro grupos de consonantes y de vocales. Si todas las consonantes y todas las vocales pertenecen al mismo grupo, entonces se puede considerar que la persona tararea. Por el contrario, si el grupo al cual pertenecen las consonantes y o las vocales varïa, la persona estï diciendo palabras, es decir un texto cuyo contenido varïa en tïrminos de consonantes y o de vocales.

Asï pues, la invenciïn concierne a un procedimiento como el definido por la reivindicaciïn independiente 1. En las reivindicaciones dependientes asociadas se enuncian puestas en prïctica alternativas.

La invenciïn se comprenderï mejor con la lectura de la descripciïn que sigue y del examen de las figuras que la acompaïan. Estas figuras se dan solamente a tïtulo ilustrativo pero en modo alguno limitativo de la invenciïn. ïstas muestran:

Figura 1: una representaciïn grïfica en funciïn del tiempo de la amplitud de una seïal de voz y de la frecuencia fundamental que ha sido extraïda... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento para detectar palabras cantadas con respecto al tarareo en una seïal (S) de voz de un usuario caracterizado por que comprende las etapas siguientes:

- medir un coeficiente de sonoridad (Vi) en diferentes instantes de un perïodo de referencia (TRi) ,

- comparar los coeficientes de sonoridad (Vi) asï medidos en el perïodo de referencia (TRi) con un valor umbral (B) , y

- en funciïn de los resultados de estas comparaciones (Estado_Pj) en el perïodo de referencia (TRi) , deducir si, en un instante de anïlisis (ti) , el usuario estï pronunciando palabras cantadas si no hay ïnicamente estados sonoros en el transcurso del citado perïodo de referencia (TRi) , o estï tarareando si todos los estados instantïneos conservados en el transcurso del citado perïodo de referencia (TRi) son estados sonoros.

2. Procedimiento de acuerdo con la reivindicaciïn 1, caracterizado por que el perïodo de referencia (TRi) precede al instante de anïlisis (ti) .

3. Procedimiento de acuerdo con las reivindicaciones 1 o 2, caracterizado por que:

- si el coeficiente (Vi) de sonoridad es superior al valor umbral (B) durante el perïodo (TRi) de referencia, entonces:

- se deduce que no hay ningïn instante sordo en la voz durante esta duraciïn umbral y que el usuario tararea en el instante de anïlisis (ti) ,

- si no, se deduce que el usuario pronuncia palabras en el instante de anïlisis (ti) .

4. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, caracterizado por que el coeficiente (Vi) de sonoridad es el valor (1-d’) , siendo d’ la funciïn diferencia promediada y normalizada del algoritmo de S/N.

5. Procedimiento de acuerdo con una de las reivindicaciones 1 a 4, caracterizado por que el perïodo (TRi) de referencia es del orden de 1 segundo.

6. Procedimiento de acuerdo con una de las reivindicaciones 3 a 5, caracterizado por que la etapa de comparaciïn del parïmetro (Vi) de sonoridad con el valor umbral (B) se efectïa ïnicamente si la energïa (Ei) de la seïal (S) de voz es superior a un valor umbral (A) .

7. Procedimiento de acuerdo con las reivindicaciones 1 o 2, caracterizado por que, siendo muestreada la seïal de voz (S) , ïste comprende las etapas siguientes:

- calcular una intensidad instantïnea (Ei) y un coeficiente (Vi) de sonoridad instantïnea para puntos (Pi) de la seïal de voz en instantes (ti) de anïlisis espaciados entre sï por un perïodo de anïlisis (TA) en el perïodo de referencia (TRi) ,

- determinar los estados instantïneos ï Estado_Pi ï de la seïal (S) de voz en cada instante ti a partir de las mediciones de la energïa Ei instantïnea y de la sonoridad (Vi) de la seïal (S) de voz, pudiendo ser estos estados instantïneos el estado ï sonoro ï correspondiente a la emisiïn de un sonido de naturaleza sonora, o el estado ï sordo ï correspondiente a la emisiïn de un sonido de naturaleza sorda,

- si todos los estados instantïneos ï Estado_Pj ï son de tipo ï sonoros ï en el perïodo (TRi) de referencia entonces se deduce que no hay pronunciaciïn de palabras en la seïal (S) de voz en el instante de anïlisis (ti) ,

- si no, se deduce que hay pronunciaciïn de palabras en la seïal (S) de voz en el instante de anïlisis (ti) .

8. Procedimiento de acuerdo con la reivindicaciïn 7, caracterizado por que para determinar el estado instantïneo ï Estado_Pi ï de la seïal S de voz en el instante de anïlisis (ti) ,

- se compara el coeficiente de sonoridad Vi con un umbral (B) ,

- si el coeficiente (Vi) de sonoridad es inferior al umbral (B) entonces el estado instantïneo ï Estado_Pi ï es ï sordo ï,

- si no, se deduce que el estado instantïneo Estado_Pi es ï sonoro ï.

9. Procedimiento de acuerdo con la reivindicaciïn 7, caracterizado por que el estado instantïneo ï Estado_Pi ï puede tomar ademïs el estado ï silencio ï correspondiente a la ausencia de un sonido de potencia suficiente,

- si los N ïltimos estados instantïneos ï Estado_Pj ï en el perïodo (TRi) de referencia son de tipo ï silencio ï entonces se deduce que la seïal no contiene voz en el instante (ti) , si no

- se conservan, en el perïodo de referencia (TRi) , ïnicamente los estados instantïneos de tipo ï sonoros ï o ï sordos ï con la exclusiïn de los estados instantïneos ï Estado_Pj ï de tipo ï silencio ï.

10. Procedimiento de acuerdo con la reivindicaciïn 9, caracterizado por que para determinar el estado instantïneo ï Estado_Pi ï de la seïal (S) de voz,

- se compara la energïa (Ei) instantïnea de la seïal S de voz con un primer umbral (A) ,

- si la energïa (Ei) de la seïal es inferior al umbral (A) , entonces se deduce que el estado instantïneo ï Estado_Pi ï es ï silencio ï,

- si no, se compara el coeficiente de sonoridad (Vi) con un segundo umbral (B) , si el coeficiente (Vi) de sonoridad es inferior al segundo umbral (B) entonces el estado instantïneo ï

Estado_Pi ï es ï sordo ï, si no, se deduce que el estado instantïneo ï Estado_Pi ï es ï sonoro ï.

11. Procedimiento de acuerdo con una de las reivindicaciones 7 a 10, caracterizado por que el perïodo (TA) de anïlisis vale 20 ms y la duraciïn (TR) del perïodo de referencia 1 s.

12. Procedimiento de acuerdo con las reivindicaciones 7 a 11, caracterizado por que la seïal de voz (S) es 15 muestreada a 16 kHz.

13. Utilizaciïn del procedimiento de acuerdo con una de las reivindicaciones 1 a 12 en una aplicaciïn de tipo juego de Karaoke.

14. Utilizaciïn de acuerdo con la reivindicaciïn 13, caracterizada por que se inhibe la puesta en prïctica del procedimiento de acuerdo con una de las reivindicaciones 1 a 12 en los pasos sonoros (42.1) de canciïn que tengan

una duraciïn (TD) superior a la duraciïn (TR) del perïodo de referencia o en pasos de canciones arbitrariamente elegidos.

Patentes similares o relacionadas:

Dispositivo de comunicación móvil con funciones de instrumento musical, del 17 de Enero de 2018, de AUDIOBRAX INDÚSTRIA E COMÉRCIO DE PRODUTOS ELETRÔNICOS S.A: Un dispositivo electrónico que comprende medios para transferir datos por comunicación de red de teléfono celular y que comprende además […]

Grabación en estéreo compatible con multicanal, del 7 de Enero de 2016, de AURO TECHNOLOGIES NV: Un codificador para mezclar - una pluralidad de canales de audio mono en - una grabación de señal de audio estéreo que comprende muestras […]

Grabación en estéreo compatible con multicanal, del 2 de Diciembre de 2015, de AURO TECHNOLOGIES NV: Un codificador para mezclar - una pluralidad de canales de audio mono, incluyendo al menos un primer y segundo canales de audio mono en - […]

Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio, del 27 de Agosto de 2014, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Descodificador de señal de audio para suministrar una representación de señal de mezcla hacia arriba en función de una […]

Grabación en estéreo compatible con multicanal, del 23 de Mayo de 2012, de AURO TECHNOLOGIES NV: Codificador para mezclar una pluralidad de canales de audio mono independientes en una grabación de audio que comprende muestras mezcladas para su almacenamiento en una pista […]

SISTEMA DE GESTIÓN DE CONTENIDO MULTIMEDIA, del 30 de Marzo de 2012, de BALEA MUSIKA IDEIAK, S.L: Sistema de gestión de contenido multimedia. Se describe un sistema que permite generar en tiempo real la composición de video y audio que el usuario haya decidido en […]

KARAOKE JUKEBOX CON GRABADOR DE DVD., del 16 de Junio de 2005, de VICTORIA PONS,FRANCISCO M.: Karaoke Jukebox con grabador de DVD. Consiste en un mueble que contiene un ordenador, un monitor de vídeo táctil , una videocámara , un equipo de audio […]

PROCEDIMIENTO Y APARATO PARA SU USO EN LA MODIFICACIÓN DE SONIDO, del 8 de Abril de 2011, de SYNCHRO ARTS LIMITED: Procedimiento para modificar al menos una característica acústica de una señal de audio, comprendiendo el procedimiento: comparar una primera […]