Procedimiento para detectar palabras cantadas y utilización de este procedimiento en un juego de Karaoke.

Procedimiento para detectar palabras cantadas con respecto al tarareo en una señal

(S) de voz de un usuario caracterizado por que comprende las etapas siguientes:

- medir un coeficiente de sonoridad (Vi) en diferentes instantes de un período de referencia (TRi),

- comparar los coeficientes de sonoridad (Vi) así medidos en el período de referencia (TRi) con un valor umbral (B), y

- en función de los resultados de estas comparaciones (Estado_Pj) en el período de referencia (TRi), deducir si, en un instante de análisis (ti), el usuario está pronunciando palabras cantadas si no hay únicamente estados sonoros en el transcurso del citado período de referencia (TRi), o está tarareando si todos los estados instantáneos conservados en el transcurso del citado período de referencia (TRi) son estados sonoros.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2010/051013.

Solicitante: Voxler.

Nacionalidad solicitante: Francia.

Dirección: 8 passage Brûlon 75012 Paris FRANCIA.

Inventor/es: DELORME,NICOLAS, HENRY,DAMIEN, ZILS,AYMERIC.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > INSTRUMENTOS DE MUSICA ELECTROFONICOS; INSTRUMENTOS... > Elementos de instrumentos de música electrofónicos... > G10H1/36 (Dispositivos para el acompañamiento)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/78 (Detección de presencia o ausencia de señales de voz (con conmutación de dirección de transmisión por frecuencia vocal en sistemas telefónicas bidireccionales de altavoz H04M 9/10))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/93 (Disciminación entre las partes con voz y sin voz de una señal de habla (G10L 25/90  tiene prioridad))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/90 (Detección del tono de una señal de habla)

PDF original: ES-2477198_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procedimiento para detectar palabras cantadas y utilizaciïn de este procedimiento en un juego de Karaoke La presente invenciïn concierne a un procedimiento para detectar palabras cantadas en la voz. La invenciïn tiene especialmente por objetivo proponer un procedimiento simple de poner en prïctica y poco consumidor de recursos para detectar palabras en la voz.

La invenciïn encuentra una aplicaciïn particularmente ventajosa, pero no exclusiva, en aplicaciones de tipo ï Karaoke ï. Se recuerda que el Karaoke es un juego en el cual un jugador canta una canciïn conocida sobre un acompaïamiento generalmente en lugar del cantante original, siguiendo generalmente las palabras sobre una pantalla. En variante, la invenciïn podrïa ser utilizada igualmente en aplicaciones interactivas vocales, por ejemplo en cualquier juego de vïdeo en cuyo seno se desee detectar si el jugador habla.

Juegos de vïdeo de Karaoke como ï SingStar ï (marca registrada) evalïan ïnicamente la exactitud del canto de un jugador con respecto a una melodïa de referencia. En consecuencia, un jugador que tararee en ritmo la melodïa (sin cantar las palabras) obtendrï la misma puntuaciïn, incluso una mejor puntuaciïn, que un jugador que cante efectivamente las palabras. En efecto, tarareando, el jugador puede concentrarse ïnicamente en la exactitud de la melodïa y/o la precisiïn rïtmica, lo que es mucho mïs fïcil que si ïste tuviera que hacer el esfuerzo de colocar las palabras correctas de la canciïn en la melodïa correcta y/o al ritmo correcto.

En particular, en ciertas canciones de rap, no hay melodïa y el ritmo es demasiado rïpido para ser evaluado de manera fiable. En este caso, la detecciïn de las palabras en la canciïn es un criterio pertinente para evaluar al jugador. El documento US2007/0059670 describe un procedimiento de detecciïn entre palabras cantadas y palabras habladas.

Para tener en cuenta las palabras en la puntuaciïn del jugador, ciertos juegos recientes ensayan integrar el reconocimiento de palabras, con resultados discutibles, siendo estos mecanismos de reconocimiento de palabra muy difïciles de realizar y muy caros algorïtmicamente. En efecto, estos necesitan cïlculos complejos (utilizaciïn de modelos HMM) a fin de reconocer palabras completas, lo que es difïcil de poner en prïctica y provoca errores frecuentes asï como una latencia importante.

La presente invenciïn permite verificar si el jugador canta las palabras, de manera mucho mïs simple que el reconocimiento vocal tradicional, abordando el problema de manera original: no se busca ï reconocer ï las palabras cantadas por el jugador, lo que verdaderamente no tiene sentido puesto que ïstas son ya conocidas (ïstas son visualizadas en la pantalla) , sino ï verificar ï si el jugador canta palabras, en lugar de por ejemplo tararear simplemente la melodïa.

La invenciïn parte asï de la constataciïn de que cualquier leguaje hablado, y con mayor motivo cantado, estï caracterizado por una alternancia de sonidos variados (diferentes fonemas) denominada en este documento ï alternancia fonïmica ï. Se entiende por fonïmica lo que se refiere a los fonemas, es decir a cada uno de los sonidos que componen un lenguaje. Esta alternancia fonïmica puede ser definida por ejemplo por una alternancia entre vocales y consonantes, o entre sonidos sonoros y sonidos sordos, o entre diversas vocales, o entre diversas consonantes etc…

Se entiende por tarareo la ausencia de alternancia fonïmica. Por ejemplo, cuando se tararea, se emiten ïnicamente sonidos sonoros de tipo ï la la la ï, ï mmmm ï, ï ah ah ah ï caracterizados por una ausencia de alternancia entre sonidos sonoros y sonidos sordos y por tanto una ausencia de alternancia fonïmica si se elige definir ïsta por una alternancia de sonidos sonoros y de sonidos sordos. Al contrario, una persona que canta las palabras de una canciïn, alterna, salvo excepciïn, la emisiïn de sonidos sonoros y de sonidos sordos.

La invenciïn propone distinguir la alternancia fonïmica, es decir la pronunciaciïn de palabras, con respecto a la ausencia de alternancia fonïmica (tarareo) .

Se recuerda que un sonido se dice ï sonoro ï si su producciïn va acompaïada de una vibraciïn de las cuerdas vocales, y ï sordo ï si no. Dado que el lenguaje hablado es un ensamblaje de vocales y de consonantes sonoras que hacen vibrar las cuerdas vocales y de consonantes sordas que no hacen vibrar las cuerdas vocales, se observa naturalmente esta alternancia entre sonidos sonoros y sordos. Esta constataciïn vale para las principales lenguas habladas en el mundo. En cambio, cuando se tararea, el sonido emitido corresponde a una emisiïn continua de sonidos sonoros de tipo ï lalala ï o ï aaaaaaa ï o ï mmmmmmm ï.

En la invenciïn se observa si, durante un perïodo de referencia, la voz del jugador presenta variaciones de sonoridad o no. Si ïste es el caso, entonces se deduce que el jugador estï cantando palabras en este perïodo de referencia; mientras que si este no es el caso, se deduce que el jugador estï tarareando en este perïodo de referencia. Se ha visto que un perïodo de referencia de aproximadamente un segundo permitïa obtener buenos resultados. Sin embargo, cualquier otro perïodo de referencia es posible.

En una puesta en prïctica, se mide la alternancia fonïmica asociada al carïcter sonoro y sordo de la voz. A tal efecto, se calcula un coeficiente de sonoridad de la voz que presenta valores elevados cuando el sonido de la voz es sonoro y valores bajos cuando el sonido de la voz es sordo. En un ejemplo, este coeficiente de sonoridad corresponde a la mediciïn de la calidad de la extracciïn de la frecuencia fundamental de la seïal de voz. Cuando este coeficiente de sonoridad es superior a un valor umbral durante todo el perïodo de referencia entonces se deduce que el jugador estï tarareando; en cambio, cuando el coeficiente de sonoridad no es superior al valor umbral durante todo el perïodo de referencia, se deduce que el jugador estï cantando.

La invenciïn consiste asï en verificar ïnicamente si el jugador pronuncia verdaderas palabras y no estï tarareando, sin asegurarse de que las palabras correspondan efectivamente a las palabras de la canciïn. No es ïtil verificar si ï las ï palabras cantadas son las verdaderas palabras de la canciïn, sino ïnicamente si se ï cantan ï palabras. En efecto, si el tarareo es una ayuda importante en este tipo de juegos, el hecho de cantar otras palabras sobre una canciïn es mïs bien una dificultad suplementaria para el jugador.

De modo mïs general, la mediciïn de sonoridad-no sonoridad es solamente un modo de medir la alternancia fonïmica. Cualquier otro mïtodo que permita medir una variaciïn, por ejemplo una variaciïn de las consonantes pronunciadas (mediciïn de la presencia de ciertas consonantes por otros mïtodos que la mediciïn de la tasa de sonoridad) o variaciïn de la vocales pronunciadas (en el triïngulo vocïlico) , producirïa el mismo tipo de resultado.

Asï, alternativamente, si se elige caracterizar la alternancia fonïmica por la alternancia de vocales diferentes, se mide una variaciïn de timbre en el triïngulo vocïlico, porque un jugador que tararea no hace variar el timbre de su voz mientras que el jugador que canta palabras hace variar naturalmente el timbre de su voz. En el caso en que no se detecte variaciïn del timbre de la voz en el triïngulo vocïlico en el perïodo de referencia, se deduce que el jugador estï tarareando; mientras que en el caso en que se detecte una variaciïn del timbre de la voz en el triïngulo vocïlico en el perïodo de referencia, se deduce que el jugador estï cantando palabras.

Alternativamente, se separan las consonantes y o las vocales en varios grupos, por ejemplo... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para detectar palabras cantadas con respecto al tarareo en una seïal (S) de voz de un usuario caracterizado por que comprende las etapas siguientes:

- medir un coeficiente de sonoridad (Vi) en diferentes instantes de un perïodo de referencia (TRi) ,

- comparar los coeficientes de sonoridad (Vi) asï medidos en el perïodo de referencia (TRi) con un valor umbral (B) , y

- en funciïn de los resultados de estas comparaciones (Estado_Pj) en el perïodo de referencia (TRi) , deducir si, en un instante de anïlisis (ti) , el usuario estï pronunciando palabras cantadas si no hay ïnicamente estados sonoros en el transcurso del citado perïodo de referencia (TRi) , o estï tarareando si todos los estados instantïneos conservados en el transcurso del citado perïodo de referencia (TRi) son estados sonoros.

2. Procedimiento de acuerdo con la reivindicaciïn 1, caracterizado por que el perïodo de referencia (TRi) precede al instante de anïlisis (ti) .

3. Procedimiento de acuerdo con las reivindicaciones 1 o 2, caracterizado por que:

- si el coeficiente (Vi) de sonoridad es superior al valor umbral (B) durante el perïodo (TRi) de referencia, entonces:

- se deduce que no hay ningïn instante sordo en la voz durante esta duraciïn umbral y que el usuario tararea en el instante de anïlisis (ti) ,

- si no, se deduce que el usuario pronuncia palabras en el instante de anïlisis (ti) .

4. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, caracterizado por que el coeficiente (Vi) de sonoridad es el valor (1-d’) , siendo d’ la funciïn diferencia promediada y normalizada del algoritmo de S/N.

5. Procedimiento de acuerdo con una de las reivindicaciones 1 a 4, caracterizado por que el perïodo (TRi) de referencia es del orden de 1 segundo.

6. Procedimiento de acuerdo con una de las reivindicaciones 3 a 5, caracterizado por que la etapa de comparaciïn del parïmetro (Vi) de sonoridad con el valor umbral (B) se efectïa ïnicamente si la energïa (Ei) de la seïal (S) de voz es superior a un valor umbral (A) .

7. Procedimiento de acuerdo con las reivindicaciones 1 o 2, caracterizado por que, siendo muestreada la seïal de voz (S) , ïste comprende las etapas siguientes:

- calcular una intensidad instantïnea (Ei) y un coeficiente (Vi) de sonoridad instantïnea para puntos (Pi) de la seïal de voz en instantes (ti) de anïlisis espaciados entre sï por un perïodo de anïlisis (TA) en el perïodo de referencia (TRi) ,

- determinar los estados instantïneos ï Estado_Pi ï de la seïal (S) de voz en cada instante ti a partir de las mediciones de la energïa Ei instantïnea y de la sonoridad (Vi) de la seïal (S) de voz, pudiendo ser estos estados instantïneos el estado ï sonoro ï correspondiente a la emisiïn de un sonido de naturaleza sonora, o el estado ï sordo ï correspondiente a la emisiïn de un sonido de naturaleza sorda,

- si todos los estados instantïneos ï Estado_Pj ï son de tipo ï sonoros ï en el perïodo (TRi) de referencia entonces se deduce que no hay pronunciaciïn de palabras en la seïal (S) de voz en el instante de anïlisis (ti) ,

- si no, se deduce que hay pronunciaciïn de palabras en la seïal (S) de voz en el instante de anïlisis (ti) .

8. Procedimiento de acuerdo con la reivindicaciïn 7, caracterizado por que para determinar el estado instantïneo ï Estado_Pi ï de la seïal S de voz en el instante de anïlisis (ti) ,

- se compara el coeficiente de sonoridad Vi con un umbral (B) ,

- si el coeficiente (Vi) de sonoridad es inferior al umbral (B) entonces el estado instantïneo ï Estado_Pi ï es ï sordo ï,

- si no, se deduce que el estado instantïneo Estado_Pi es ï sonoro ï.

9. Procedimiento de acuerdo con la reivindicaciïn 7, caracterizado por que el estado instantïneo ï Estado_Pi ï puede tomar ademïs el estado ï silencio ï correspondiente a la ausencia de un sonido de potencia suficiente,

- si los N ïltimos estados instantïneos ï Estado_Pj ï en el perïodo (TRi) de referencia son de tipo ï silencio ï entonces se deduce que la seïal no contiene voz en el instante (ti) , si no

- se conservan, en el perïodo de referencia (TRi) , ïnicamente los estados instantïneos de tipo ï sonoros ï o ï sordos ï con la exclusiïn de los estados instantïneos ï Estado_Pj ï de tipo ï silencio ï.

10. Procedimiento de acuerdo con la reivindicaciïn 9, caracterizado por que para determinar el estado instantïneo ï Estado_Pi ï de la seïal (S) de voz,

- se compara la energïa (Ei) instantïnea de la seïal S de voz con un primer umbral (A) ,

- si la energïa (Ei) de la seïal es inferior al umbral (A) , entonces se deduce que el estado instantïneo ï Estado_Pi ï es ï silencio ï,

- si no, se compara el coeficiente de sonoridad (Vi) con un segundo umbral (B) , si el coeficiente (Vi) de sonoridad es inferior al segundo umbral (B) entonces el estado instantïneo ï

Estado_Pi ï es ï sordo ï, si no, se deduce que el estado instantïneo ï Estado_Pi ï es ï sonoro ï.

11. Procedimiento de acuerdo con una de las reivindicaciones 7 a 10, caracterizado por que el perïodo (TA) de anïlisis vale 20 ms y la duraciïn (TR) del perïodo de referencia 1 s.

12. Procedimiento de acuerdo con las reivindicaciones 7 a 11, caracterizado por que la seïal de voz (S) es 15 muestreada a 16 kHz.

13. Utilizaciïn del procedimiento de acuerdo con una de las reivindicaciones 1 a 12 en una aplicaciïn de tipo juego de Karaoke.

14. Utilizaciïn de acuerdo con la reivindicaciïn 13, caracterizada por que se inhibe la puesta en prïctica del procedimiento de acuerdo con una de las reivindicaciones 1 a 12 en los pasos sonoros (42.1) de canciïn que tengan

una duraciïn (TD) superior a la duraciïn (TR) del perïodo de referencia o en pasos de canciones arbitrariamente elegidos.