PROCESAMIENTO DIGITAL DIFERENCIADO DE LA VOZ Y DE LA MUSICA, LA FILTRACION DEL RUIDO, LA CREACION DE EFECTOS ESPECIALES ASI COMO UN DISPOSITIVO PARA LA APLICACION DE DICHO PROCEDIMIENTO.

Procedimiento para el tratamiento numérico diferenciado de una señal acústica,

constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma que está modulada temporalmente por una envolvente, el ruido de dicha señal acústica que se añade a dicha señal, previamente a dicha suma, caracterizado por que comprende:

Una etapa de análisis que permite determinar parámetros representativos de dicha señal acústica, por

un cálculo de la envolvente de la señal,

un cálculo de la señal acústica del pitch y de su variación,

una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch,

una transformada rápida de Fourrier (TRF) sobre la señal pretratada,

una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,

un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2004/000184.

Solicitante: CREBOUW, JEAN-LUC.

Nacionalidad solicitante: Francia.

Dirección: 19 RUE DES BERGERES, BAT. FRUCTIDOR C,91940 LES ULIS.

Inventor/es: CREBOUW,JEAN-LUC.

Fecha de Publicación: 9 de Julio de 2010.

Fecha Concesión Europea: 10 de Marzo de 2010.

Clasificación Internacional de Patentes:

G10L19/02S
G10L21/02A1

Clasificación PCT:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

Clasificación antigua:

G10L19/02 G10L 19/00 […] › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L21/02 G10L 21/00 […] › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

PROCESAMIENTO DIGITAL DIFERENCIADO DE LA VOZ Y DE LA MUSICA, LA FILTRACION DEL RUIDO, LA CREACION DE EFECTOS ESPECIALES ASI COMO UN DISPOSITIVO PARA LA APLICACION DE DICHO PROCEDIMIENTO.

Fragmento de la descripción:

Procesamiento digital diferenciado de la voz y de la música, la filtración del ruido, la creación de efectos especiales así como un dispositivo para la aplicación de dicho procedimiento.

La invención presente se refiere a un procesamiento digital diferenciado de la voz y de la música, la filtración del ruido, la creación de efectos especiales así como un dispositivo para la aplicación de dicho procedimiento.

Tiene más particularmente como objeto transformar la voz de un modo realista u original y, de manera más general, tratar en tiempo real la voz, la música, el ruido ambiental y grabar los resultados obtenidos sobre un soporte informático.

Se aplica particularmente, pero no exclusivamente, al gran público y a los profesionales del sonido que desean transformar la voz para aplicaciones lúdicas, tratar de otro modo la voz y la música, crear efectos especiales, reducir el ruido ambiental, y grabar, bajo forma numérica comprimida, los resultados obtenidos.

De modo general sabemos que la señal vocal está compuesta por una mezcla de señales transitorias muy complejas (ruidos) y de partes de señal cuasi-periódicas (sonidos armónicos). Los ruidos pueden ser pequeñas explosiones: P, B, T, D, K, GU; ruidos difusos suaves: F, V, J, Z o intensos CH, S; en cuanto a los sonidos armónicos, su espectro varía con el tipo de vocal y con el emisor.

Las relaciones de intensidad entre los ruidos y las vocales cambian según se trate de una voz conversacional, de una voz hablada tipo conferencia, con una voz fuerte gritada o con una voz cantada. La voz fuerte y la voz cantada favorecen los sonidos vocálicos en detrimento de los ruidos.

La señal vocal transmite simultáneamente dos tipos de mensajes: un mensaje semántico acompañado por la palabra, expresión verbal del pensamiento, y un mensaje estético perceptible a través de las calidades estéticas de la voz (timbre, entonación, cadencia, etc.).

El contenido semántico de la palabra, soporte de una buena inteligibilidad es prácticamente independiente de las calidades de la voz; está transmitido por las formas acústicas temporales; una voz cuchicheada está constituida sólo por ruidos de flujo; una voz "íntima" o de proximidad está constituida por una mezcla de sonidos armónicos en las frecuencias graves y por ruidos de flujo en el agudo; la voz de un conferenciante o de un cantante posee un espectro vocálico armónico rico e intenso.

En cuanto a los instrumentos de música, están caracterizados por su tesitura, es decir la amplitud en frecuencia de todas las notas que pueden emitir. Sin embargo muy pocos instrumentos poseen un "sonido armónico", es decir fundamental intenso acompañado de armónicos cuya intensidad disminuye con el orden.

Por otra parte, la tesitura musical y el contenido espectral no están directamente vinculados; ciertos instrumentos tienen los máximos de energía incluidos en la tesitura; otros presentan una zona máxima de energía bien circunscrita, situada al límite agudo de la tesitura y más allá; finalmente tienen máximos de energía muy extendidos que ampliamente rebosan el límite agudo de la tesitura.

Por otro lado, sabemos que el tratamiento analógico de estas señales complejas, por ejemplo su amplificación, provoca, de modo ineludible, una degradación creciente con dicho tratamiento y esto de manera irreversible.

La originalidad de las tecnologías numéricas es introducir un determinismo (es decir un conocimiento a priori) lo más importante posible a nivel de las señales tratadas para realizar tratamientos particulares que radicarán en forma de cálculos.

Así, si se realiza una transformación de la señal representativa de un sonido, al principio bajo su forma natural de vibraciones, en una señal numérica provista de las propiedades nombradas anteriormente, esta señal será tratada sin sufrir degradaciones tales como ruido de fondo, distorsión y limitación de banda pasante; además, podrá ser tratado con el fin de crear efectos especiales tales como la transformación de la voz, la supresión del ruido ambiental, la modificación del soplo de la voz, la diferenciación de la voz y de la música.

Desde luego, la tecnología audionumórica comprende las tres etapas principales:

conversión de la señal analógica en una señal numérica,
tratamientos deseados transpuestos en ecuaciones a resolver,
conversión de la señal numérica en señal analógica ya que el último eslabón de la cadena genera vibraciones acústicas.

De manera general, sabemos que ios dispositivos de tratamiento del sonido, designados bajo el término de codificador de voz, contienen las cuatro funciones siguientes:

análisis,
codificador,
decodificador,
síntesis.

La patente US 2002/184009 HEIKKINEN Ari) del 5 de diciembre de 2002 propone un procedimiento de supresión de la variación del pitch desplazando individualmente los impulsos del pitch de la trama de análisis con el fin de obtener un pitch fijo.

La patente WO 01/59766A (COMSAT) del 16 de agosto de 2001 propone una técnica de reducción del ruido a través de una predicción lineal.

La patente US 5 684 262 A describe un procedimiento que consiste en multiplicar la voz original por una tonalidad con el fin de obtener un desfase de frecuencia y así obtener una voz más grave o más aguda.

Por otro lado, los procedimientos de reducción de cadencia son empleados esencialmente para el almacenamiento numérico (con el fin de disminuir el volumen binario) y para la transmisión (con el fin de disminuir la cadencia necesaria). Estos procedimientos comprenden un tratamiento previo al almacenamiento o a la transmisión (codificación) y un tratamiento de la restitución (decodificación).

Entre los procedimientos de reducción de cadencia, los que utilizan los métodos perceptuales con pérdidas de información son los más empleados particularmente el procedimiento MPEG Audio.

Este procedimiento se basa en el efecto de enmascaramiento de la audición humana, es decir la desaparición de los sonidos débiles en presencia de los sonidos fuertes, equivalente a un desplazamiento del umbral de audibilidad provocado por el sonido más fuerte y con arreglo a la desviación de frecuencia y de nivel entre ambos sonidos.

Así, el número de bits por muestra se define en función del efecto de máscara dado que los sonidos débiles y el ruido de cuantificación son inaudibles. Con el fin de sacar el mejor provecho de este efecto de enmascaramiento, el espectro audio está dividido en un cierto número de subbandas, permitiendo así precisar el nivel de enmascaramiento en cada una de las subbandas y realizar una asignación binaria para cada una de ellas.

El procedimiento MPEG audio consiste así en:

digitalizar en 16 bits con una preparación de muestreo a 48 kHz,
deducir la curva de máscara entre 20 Hz y 20 kHz,
dividir la señal en 32 subbandas,
estimar el nivel máximo alcanzado en cada subbanda y durante 24 ms,
estimar el nivel de ruido de cuantificación justo inaudible,
conceder el número de bits para la codificación,
generar el número de bits en la subbanda,
encapsular estos datos en una trama de datos que se repite cada 24 ms.

Esta técnica consiste en transmitir una cadencia binaria variable según la composición instantánea del sonido.

Sin embargo, este procedimiento está mejor adaptado al tratamiento de la música y no a la señal vocal; no permite detectar la presencia de la voz o de la música, separar la señal vocal o musical y el ruido, modificar la voz en tiempo real para sintetizar una voz diferente pero realista, sintetizar un soplo (ruido) para crear efectos especiales, codificar una señal vocal que contiene una sola voz, reducir el ruido ambiental.

La invención tiene por objeto más particularmente pues suprimir estos inconvenientes.

Propone, con este fin, un procedimiento que permite aprovechar al máximo...

Reivindicaciones:

1. Procedimiento para el tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma que está modulada temporalmente por una envolvente, el ruido de dicha señal acústica que se añade a dicha señal, previamente a dicha suma, caracterizado por que comprende:

Una etapa de análisis que permite determinar parámetros representativos de dicha señal acústica, por

un cálculo de la envolvente de la señal,
un cálculo de la señal acústica del pitch y de su variación,
una aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, dicho paso varía con el valor inverso de la variación del pitch,
una transformada rápida de Fourrier (TRF) sobre la señal pretratada,
una extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
un cálculo del "pitch" en el dominio frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.

2. Procedimiento según la reivindicación 1, caracterizado por que comprende además una etapa de síntesis de los dichos parámetros representativos que permiten reconstituir dicha señal acústica.

3. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de codificación y de decodificación de los dichos parámetros representativos de dicha señal acústica.

4. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de filtración del ruido y la etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis.

5. Procedimiento según las reivindicaciones precedentes, caracterizado por que comprende además una etapa de generación de efectos especiales asociados con la síntesis.

6. Procedimiento según la reivindicación 2, caracterizado por que la dicha etapa de síntesis comprende

una suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal y cuyas frecuencias varían linealmente,
un cálculo de las fases en función al valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
una superposición del ruido,
una aplicación de la envolvente.

7. Procedimiento según la reivindicación 4, caracterizado por que la dicha etapa de filtración del ruido y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden una suma de la señal original, de la señal original desfasada por un "pitch" en valor positivo y por una señal original desfasada por un "pitch" en valor negativo.

8. Procedimiento según la reivindicación 7,

caracterizado por que las dichas señales desfasadas son multiplicadas por un mismo coeficiente, y la señal original por un segundo coeficiente, la suma de dicho coeficiente, añadido a sí mismo, y de de dicho segundo coeficiente es igual a 1, disminuido para conservar un nivel equivalente de la señal resultante.

9. Procedimiento según la reivindicación 7,

caracterizado por que la dicha etapa de filtración y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:

una división del valor temporal del "pitch" por dos,
una modificación de las amplitudes de la señal original y de ambas señales desfasadas.

10. Procedimiento según la reivindicación 7,

caracterizado por que la dicha etapa de filtración y la dicha etapa de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:

una multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
luego una adición del resultado obtenido a la voz original.

11. Procedimiento según la reivindicación 5,

caracterizado por que la dicha etapa de generación de efectos especiales asociados con la síntesis, comprende:

una multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
una regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.

12. Procedimiento según la reivindicación 11,

caracterizado por que el dicho coeficiente de multiplicación de los componentes frecuenciales es:

un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
un coeficiente que varía, periódicamente o aleatoriamente, a baja frecuencia.

13. Dispositivo, de tratamiento numérico diferenciado de una señal acústica, constituido en el intervalo de una trama por la suma de seno de amplitud fija y cuya frecuencia está modulada linealmente en función del tiempo, esta suma está modulada temporalmente por una envolvente, el ruido de dicha señal acústica siendo añadido a dicha señal, previamente a dicha suma, caracterizado por que comprende

medios de análisis que permiten determinar parámetros representativos de dicha señal acústica, comprendiendo:

medios de cálculo de la envolvente de la señal,
medios de cálculo del "pitch" y de su variación,
medios de aplicación a la señal temporal de la variación inversa del "pitch" que consiste en efectuar un muestreo temporal de la señal acústica con paso de muestreo variable, variando este paso con el valor inverso de la variación del pitch,
medios de transformada rápida de Fourrier (TRF) sobre la señal pretratada,
medios de extracción de los componentes frecuenciales y sus amplitudes de dicha señal, a partir del resultado de la transformada rápida de Fourrier,
medios cálculo del "pitch" en el campo frecuencial y su variación con relación al "pitch" calculado anteriormente para mejorar la precisión de este "pitch" calculado anteriormente.

14. Dispositivo según la reivindicación 13, caracterizado por que comprende además:

- medios de síntesis de los dichos parámetros representativos que permiten reconstituir dicha señal acústica y/o
- medios de codificación y de decodificación de los dichos parámetros representativos de dicha señal acústica, y/o
- medios de filtración del ruido y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, y/o
- medios de generación de efectos especiales asociados con la síntesis.

15. Dispositivo según la reivindicación 14,

caracterizado por que los dichos medios de síntesis comprenden:

medios de suma de los senos cuya amplitud de los componentes frecuenciales varía en función a la envolvente de la señal,
medios de cálculo de las fases en función del valor de las frecuencias y de los valores de las fases y de las frecuencias que pertenecen a la trama precedente,
medios de superposición del ruido,
medios de aplicación de la envolvente.

16. Dispositivo según la reivindicación 13,

caracterizado por que los dichos medios de filtración del ruido y de la generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden medios de suma de la señal original, de la señal original desfasada por un "pitch" en valor positivo y por una señal original desfasada de un "pitch" en valor negativo.

17. Dispositivo según la reivindicación 16,

caracterizado por que las dichas señales desfasadas son multiplicadas por un mismo coeficiente, y la señal original por un segundo coeficiente, la suma de dicho primer coeficiente, añadido a sí mismo, y de dicho segundo coeficiente es igual a 1, disminuido para conservar un nivel equivalente de la señal resultante.

18. Dispositivo según la reivindicación 14,

caracterizado por que los dichos medios de filtración y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:

medios de división del valor temporal del "pitch" por dos,
medios de modificación de las amplitudes de la señal original y de ambas señales desfasadas.

19. Dispositivo según la reivindicación 14,

caracterizado por que los dichos medios de filtración y de generación de efectos especiales, a partir del análisis, sin pasar por la síntesis, comprenden:

medios de multiplicación de cada muestra de la voz original por un coseno que varía al ritmo de la mitad de la fundamental (multiplicación por dos del número de frecuencias), o que varía al ritmo del tercio de la fundamental (multiplicación por tres del número de frecuencias),
medios de adición a continuación del resultado obtenido a la voz original.

20. Dispositivo según la reivindicación 14.

caracterizado por que dichos medios de generación de efectos especiales asociados con la síntesis, comprenden:

medios de multiplicación de todas las frecuencias de los componentes frecuenciales de la señal original, tomadas individualmente, por un coeficiente,
medios de regeneración de los módulos de los armónicos a partir de la envolvente espectral de dicha señal original.

21. Dispositivo según la reivindicación 20,

caracterizado por que dicho coeficiente de multiplicación de los componentes frecuenciales es:

un coeficiente dependiente de la relación entre el nuevo "pitch" y el "pitch" real,
un coeficiente que varía periódicamente, a baja frecuencia.

Patentes similares o relacionadas:

PROCEDIMIENTO DE ESTIMACIÓN DE RUIDO USANDO APRENDIZAJE INCREMENTAL BAYESIANO, del 5 de Enero de 2012, de MICROSOFT CORPORATION: Un procedimiento para estimar el ruido en una señal ruidosa, comprendiendo el procedimiento: dividir la señal ruidosa en tramas; y determinar […]

PROCEDIMIENTO Y DISPOSITIVO DE REDUCCION DE RUIDO, del 4 de Noviembre de 2010, de FRANCE TELECOM: Procedimiento de reducción de ruido en sucesivas tramas de una señal de entrada x(n), que incluye las siguientes etapas para por lo menos algunas de las tramas: […]

PROCEDIMIENTO DE MEDIDA DE LA MOLESTIA DEBIDA AL RUIDO DE UNA SEÑAL DE AUDIO, del 2 de Diciembre de 2009, de FRANCE TELECOM: Procedimiento de cálculo de una puntuación objetiva (NOB) de la molestia debida al ruido en una señal de audio procesada mediante una función […]

PROCEDIMIENTO Y DISPOSITIVO PARA LA MEJORA DE VOZ EN PRESENCIA DE RUIDO DE FONDO, del 20 de Noviembre de 2009, de NOKIA CORPORATION: Un procedimiento para la supresión de ruido de una señal de voz, que comprende: llevar a cabo un análisis de frecuencia para generar una representación de dominio […]

APARATO PARA EVALUAR LA ENERGÍA DE UNA SEÑAL QUE TIENE SEÑALES DE SUBBANDA Y MÉTODO CORRESPONDIENTE, del 9 de Marzo de 2011, de DOLBY INTERNATIONAL AB: Aparato para evaluar la energía de una señal que tiene señales de subbanda generadas filtrando la señal utilizando un banco de filtros de análisis, teniendo el banco de filtros, […]

APARATO PARA CALCULAR VALORES DE AJUSTE DE GANANCIA PARA AJUSTAR LA GANANCIA DE UNA PLURALIDAD DE SEÑALES DE SUBBANDA EN BANCOS DE FILTROS DE VALOR REAL Y MÉTODO CORRESPONDIENTE, del 26 de Enero de 2011, de DOLBY INTERNATIONAL AB: Aparato para calcular valores de ajuste de ganancia para ajustar la ganancia de una pluralidad de señales de subbanda generadas filtrando una […]

CODIFICACION / DECODIFICACION PERFECCIONADAS DE SEÑALES DIGITALES DE AUDIO, del 4 de Noviembre de 2010, de FRANCE TELECOM: Procedimiento de codificación de una señal de audio en varias sub-bandas, en la que al menos una primera y una segunda sub-bandas, contiguas, se codifican […]

APARATO Y METODO PARA GENERAR VALORES DE SUBBANDA DE AUDIO Y APARATO YMETODO PARA GENERAR MUESTRAS DE AUDIO DE DOMINIO DE TIEMPO, del 10 de Noviembre de 2009, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para generar valores de subbanda de audio en canales de subbanda de audio, que comprende: un divisor en ventanas de análisis para dividir en ventanas una trama […]