Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido.

Un procedimiento para estimar una tonalidad de una señal de sonido,

en el que el procedimiento comprende:

calcular un espectro residual actual de la señal de sonido;

detectar los picos en el espectro residual actual;

calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y

calcular un mapa de correlación a largo plazo basado en el mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CA2008/001184.

Solicitante: VOICEAGE CORPORATION.

Nacionalidad solicitante: Canadá.

Dirección: 750, chemin Lucerne Suite 250 Ville Mont-Royal, Quebec H3R 2H6 CANADA.

Inventor/es: SALAMI, REDWAN, JELINEK,MILAN, VAILLANCOURT,TOMMY, MALENOWSKY,VLADIMIR.

Fecha de Publicación: 24 de Diciembre de 2014.

Clasificación Internacional de Patentes:

G10L11/00
G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

PDF original: ES-2533358_T3.pdf

Fragmento de la descripción:

Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido Campo de la Invención

La presente invención se refiere a la detección de actividad sonora, la estimación de ruido de fondo y la clasificación de la señal de sonido, donde se entiende que sonido es una señal útil. La presente invención se refiere también al detector de actividad sonora, al estimador de ruido de fondo y al clasificador de señales de sonido correspondientes.

En particular, pero no de manera exclusiva:

- La detección de actividad sonora se usa para seleccionar las tramas a ser codificadas usando técnicas optimizadas para tramas inactivas.

- El clasificador de señales de sonido se usa para discriminar entre diferentes clases de señales de voz y música para permitir una codificación más eficiente de las señales de sonido, es decir, codificación optimizada de señales de voz sorda, codificación optimizada de señales de voz sonora estables, y codificación genérica de otras señales de sonido.

- Se proporciona un algoritmo y usa diversos parámetros y características pertinentes para permitir una mejor elección del modo de codificación y una estimación más robusta del ruido de fondo.

- La estimación de tonalidad se usa para mejorar el rendimiento de la detección de actividad sonora en presencia de señales musicales, y para discriminar mejor entre sonidos sordos y música. Por ejemplo, la estimación de la tonalidad puede ser usada en un códec de banda súper ancha para decidir el modelo de códec para codificar la señal por encima de 7 kHz.

Antecedentes de la Invención

La demanda de técnicas digitales de codificación de voz, eficientes, de banda estrecha y de banda ancha con un buen equilibrio entre la calidad subjetiva y la tasa de bits está aumentando en diversas áreas de aplicación, tales como teleconferencia, multimedia y comunicaciones inalámbricas. Hasta hace poco, el ancho de banda telefónico limitado a un intervalo de 2-3.4 Hz ha sido usado principalmente en aplicaciones de codificación de voz (señal muestreada a 8 kHz). Sin embargo, las aplicaciones de voz de banda ancha proporcionan una mayor inteligibilidad y naturalidad en la comunicación en comparación con el ancho de banda telefónico convencional. En los servicios de banda ancha, la señal de entrada es muestreada a 16 kHz y el ancho de banda codificado está en el intervalo de 5 a 7. Hz. Se ha encontrado que este ancho de banda es suficiente para suministrar una buena calidad dando una impresión de casi una comunicación cara a cara. Se consigue una mejora adicional de la calidad con la denominada banda súper ancha, en la que la señal es muestreada a 32 kHz y el ancho de banda codificado está comprendido en el intervalo de 5 a 15. Hz. Para las señales de voz, esto proporciona una calidad cara a cara, ya que casi toda la energía en la voz humana es inferior a 14. Hz. Este ancho de banda proporciona también una mejora de calidad considerable con respecto a las señales de audio generales incluyendo música (la banda ancha es equivalente a la radio AM y la banda súper ancha es equivalente a la radio FM). Se ha usado un ancho de banda más alto para señales de audio generales con la banda completa 2- 2. Hz (calidad de CD muestreada a 44,1 kHz o 48 kHz).

Un codificador de sonido convierte una señal de sonido (voz o audio) en un flujo de bits digital que es transmitido a través de un canal de comunicación o es almacenado en un medio de almacenamiento. La señal de sonido es digitalizada, es decir, es muestreo y cuantificada generalmente con 16 bits por muestra. El codificador de sonido desempeña el papel de representar estas muestras digitales con un número de bits más pequeño mientras mantiene una buena calidad subjetiva. El decodificador de sonido opera sobre el flujo el flujo de bits transmitido o almacenado y lo convierte de nuevo a una señal de sonido.

La codificación basada en predicción lineal con excitación por código (Code-Excited Linear Prediction, CELP) es una de las mejores técnicas de la técnica anterior para conseguir un buen compromiso entre la calidad subjetiva y la tasa de bits. Esta técnica de codificación es una base de varios estándares de codificación de voz, en aplicaciones tanto inalámbricas como de línea fija. En la codificación CELP, la señal de voz muestreada es procesada en bloques sucesivos de L muestras, denominadas generalmente tramas, donde L es un número predeterminado que corresponde típicamente a 1-3 ms. Se calcula y se transmite un filtro de predicción lineal (LP) cada trama. La trama de la muestra L es dividida en bloques más pequeños denominados subtramas. En cada subtrama, normalmente se obtiene una señal de excitación a partir de dos componentes, la excitación pasada y la excitación de libro de códigos fijo, innovadora. El componente formado a partir de la excitación pasada se denomina frecuentemente libro de códigos adaptativo o excitación de tono. Los parámetros que caracterizan la señal de excitación se codifican y transmiten al decodificador, donde la señal de excitación reconstruida es usada

como la entrada al filtro LP.

El uso de codificación de voz de tasa de bits variable (Variable Bit Rate, VBR) con fuente controlada mejora considerablemente la capacidad del sistema. En la codificación VBR con fuente controlada, el códec usa un módulo de clasificación de señal y se usa un modelo de codificación optimizado para codificar cada trama de voz en base a la naturaleza de la trama de voz (por ejemplo, sonora, sorda, transitoria, ruido de fondo). Además, pueden usarse diferentes tasas de bits para cada clase. La forma más simple de codificación VBR con fuente controlada es usar detección de actividad de voz (Voice Activity Detection, VAD) y codificar las tramas de voz inactivas (ruido de fondo) a una tasa de bits muy baja. Puede usarse además transmisión discontinua (Discontinuous transmission, DTX) donde no se transmiten datos en el caso de ruido de fondo estable. El decodificador usa generación de ruido de confort (Comfort Noise Generation, CNG) para generar las características de ruido de fondo. VAD/DTX/CNG resulta en una considerable reducción en la tasa de bits media y en aplicaciones de conmutación de paquetes reduce considerablemente el número de paquetes enrutados. Los algoritmos VAD funcionan bien con las señales de voz, pero pueden resultar en graves problemas en caso de señales musicales. Los segmentos de señales musicales pueden ser clasificados como señales sordas y, por consiguiente, pueden ser codificadas con un modelo optimizado para señales sordas que afecta gravemente a la calidad de la música. Además, algunos segmentos de señales musicales estables pueden ser clasificados como ruido de fondo estable y esto puede provocar la actualización de ruido de fondo en el algoritmo VAD, lo que resulta en la degradación del rendimiento del algoritmo. Por lo tanto, sería ventajoso extender el algoritmo VAD para discriminar mejor las señales musicales. En la presente descripción, este algoritmo se denominará algoritmo de Detección de actividad sonora (Sound Activity Detection, SAD) en el que el sonido podría ser habla o música o cualquier señal útil. La presente descripción describe también un procedimiento de detección de tonalidad usado para mejorar el rendimiento del algoritmo de SAD en el caso de señales musicales.

Otro aspecto en la codificación del habla y de audio es el concepto de codificación incorporada, conocida también como codificación por capas. En la codificación incorporada, la señal es codificada en una primera capa para producir un primer flujo de bits y, a continuación, el error entre la señal original y la señal codificada de la primera capa es codificado adicionalmente para producir un segundo flujo de bits. Esto puede repetirse para más capas codificando el error entre la señal original y la señal codificada de todas las capas anteriores. Los flujos de bits de todas las capas son concatenados para la transmisión. La ventaja de la codificación por capas es que pueden desecharse partes del flujo de bits (correspondientes a las capas superiores) en la red (por ejemplo, en caso de congestión) todavía pudiendo decodificarse la señal en el receptor dependiendo del número de capas recibidas. La codificación por capas es útil también en aplicaciones de multidifusión en las que el codificador produce el flujo de bits de todas las capas y la red decide enviar a diferentes tasas de bits a diferentes puntos finales en función de la tasa de bits disponible en cada enlace.

La codificación incorporada o por capas puede ser útil también para mejorar la calidad de los codees existentes usados ampliamente, mientras todavía se mantiene la interoperabilidad con estos... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para estimar una tonalidad de una señal de sonido, en el que el procedimiento comprende:

calcular un espectro residual actual de la señal de sonido; detectar los picos en el espectro residual actual;

calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y

calcular un mapa de correlación a largo plazo basado en el mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.

2. Procedimiento según la reivindicación 1, en el que el cálculo del espectro residual actual comprende:

buscar los mínimos en el espectro de la señal de sonido en una trama actual; estimar un suelo espectral conectando los mínimos entre sí; y

restar el suelo espectral estimado del espectro de la señal de sonido en la trama actual para producir el espectro residual actual.

3. Procedimiento según la reivindicación 1 o 2, en el que la detección de los picos en el espectro residual actual comprende localizar un máximo entre cada par de dos mínimos consecutivos.

4. Procedimiento según la reivindicación 1, 2 o 3, en el que el cálculo del mapa de correlación comprende:

para cada pico detectado en el espectro residual actual, calcular un valor de correlación normalizado con el espectro residual anterior, sobre los contenedores de frecuencia entre dos mínimos consecutivos en el espectro residual actual que delimitan el pico; y

asignar una puntuación a cada pico detectado, en el que la puntuación corresponde al valor de correlación normalizado; y

para cada pico detectado, asignar el valor de correlación normalizado del pico sobre los contenedores de frecuencia entre los dos mínimos consecutivos que delimitan el pico para formar el mapa de correlación.

5. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el cálculo del mapa de correlación a largo plazo comprende:

filtrar el mapa de correlación a través de un filtro de un polo de contenedor de frecuencias en contenedor de frecuencias; y

sumar el mapa de correlación filtrado sobre los contenedores de frecuencia para producir un mapa de correlación sumado a largo plazo.

6. Procedimiento para detectar actividad sonora en una señal de sonido, en el que la señal de sonido es clasificada como una de entre una señal de sonido inactiva y una señal de sonido activa según la actividad sonora detectada en la señal de sonido, en el que el procedimiento comprende:

estimar un parámetro relacionado con una tonalidad de la señal de sonido usada para distinguir una señal musical de una señal de ruido de fondo; en el que la estimación del parámetro relacionado con la tonalidad de la señal de sonido previene la actualización de las estimaciones de energía de sonido cuando se detecta una señal musical;

en el que la estimación de tonalidad es realizada según una cualquiera de las reivindicaciones 1 a 5.

7. Procedimiento según la reivindicación 6, que comprende además calcular un parámetro no estacionariedad complementaria y un parámetro carácter de ruido con el fin de distinguir una señal musical de una señal de ruido de fondo y evitar la actualización de las estimaciones de energía de ruido en la señal musical.

8. Procedimiento según la reivindicación 7, en el que el cálculo del parámetro no estacionariedad complementaria comprende calcular un parámetro similar a un no estacionariedad convencional con restablecimiento de energía a largo plazo cuando se detecta un ataque espectral.

9. Procedimiento según la reivindicación 8, en el que la detección del ataque espectral y el restablecimiento de la energía a largo plazo comprende calcular un parámetro diversidad espectral y en el que el cálculo del parámetro diversidad espectral comprende:

calcular una relación entre una energía de la señal de sonido en una trama actual y una energía de la señal de sonido en un trama previa, para las bandas de frecuencia más altas que un número determinado; y calcular la diversidad espectral como una suma ponderada de la relación calculada sobre todas las bandas de frecuencia más altas que el número determinado.

1. Procedimiento según la reivindicación 8 o 9, en el que el cálculo del parámetro carácter de ruido comprende:

dividir una pluralidad de bandas de frecuencia en un primer grupo de un cierto número de primeras bandas de frecuencia y un segundo grupo de un resto de las bandas de frecuencia;

calcular un primer valor de energía para el primer grupo de bandas de frecuencia y un segundo valor de energía del segundo grupo de bandas de frecuencias;

calcular una relación entre los valores de energía primero y segundo para producir el parámetro carácter de ruido; y

calcular un valor a largo plazo del parámetro carácter ruido en base al parámetro carácter de ruido calculado;

en el que la actualización de las estimaciones de energía de ruido se evita si el parámetro carácter de ruido es menor que un umbral fijo determinado.

11. Un procedimiento de clasificación de una señal de sonido con el fin de optimizar la codificación de la señal de sonido usando la clasificación de la señal de sonido, en el que el procedimiento comprende:

detectar una actividad sonora en la señal de sonido;

clasificar la señal de sonido como una de entre una señal de sonido Inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido; y

en respuesta a la clasificación de la señal de sonido como una señal de sonido activo, clasificar adlclonalmente la señal de sonido activo como una de entre una señal de voz sorda y una señal de voz no sorda;

en el que la clasificación de la señal de sonido activo como una señal de voz sorda comprende la estimación de una tonalidad de la señal de sonido con el fin de evitar la clasificación de las señales musicales como señales de voz sorda, en el que la estimación de tonalidad es realizada según una cualquiera de las reivindicaciones 1 a 5.

12. Procedimiento según la reivindicación 11, que comprende además codificar la señal de sonido según la clasificación de la señal de sonido, en el que la codificación de la señal de sonido según la clasificación de la señal de sonido comprende codificar la señal de sonido inactivo usando generación de ruido de confort.

13. Procedimiento según la reivindicación 11 o 12, en el que la clasificación de la señal de sonido activo como una señal de voz sorda comprende calcular una regla de decisión en base a al menos una de entre una medida de sonoridad, una medida de inclinación espectral media, un aumento máximo de energía de corto tiempo a bajo nivel, una estabilidad tonal y una energía relativa de trama.

14. Un procedimiento para codificar una banda superior de una señal de sonido usando una clasificación de la señal de sonido, en el que el procedimiento comprende:

clasificar la señal de sonido como una de entre una señal de sonido tonal y una señal de sonido no tonal; en el que la clasificación de la señal de sonido como una señal tonal comprende estimar una tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5.

15. Procedimiento según la reivindicación 14, en el que la estimación de la tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5 comprende además el uso de un procedimiento alternativo para calcular un suelo espectral, en el que el uso del procedimiento alternativo para calcular el suelo espectral comprende filtrar un espectro logarítmico de energía de la señal de sonido en una trama actual usando un filtro de media móvil.

16. Procedimiento según la reivindicación 14 o 15, en el que la estimación de la tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 1 a 5 comprende además suavizar el espectro residual por medio de un filtro de media móvil de tiempo corto.

17. Procedimiento según la reivindicación 14 o 16, que comprende además codificarla banda superior de la señal de sonido según la clasificación de dicha señal de sonido.

18. Procedimiento según cualquiera de las reivindicaciones 14 a 17, en el que la banda superior de la señal de sonido comprende un intervalo de frecuencias por encima de 7 kHz.

19. Un dispositivo para estimar una tonalidad de una señal de sonido, en el que el dispositivo comprende:

un calculador para calcular un espectro residual actual de la señal de sonido; un detector para detectar los picos en el espectro residual actual;

un calculador para calcular un mapa de correlación entre el espectro residual actual y un espectro residual previo para cada pico detectado; y

un calculador para calcular un mapa de correlación a largo plazo en base al mapa de correlación calculado, en el que el mapa de correlación a largo plazo es indicativo de una tonalidad en la señal de sonido.

2. Un dispositivo según la reivindicación 19, en el que el calculador del espectro residual actual comprende:

un localizador de mínimos en el espectro de la señal de sonido en una trama actual;

un estimador de un suelo espectral que conecta los mínimos entre sí; y

un restador del suelo espectral estimado del espectro para producir el espectro residual actual.

21. Dispositivo según la reivindicación 19 o 2, en el que el calculador del mapa de correlación a largo plazo comprende:

un filtro para filtrar el mapa de correlación de contenedor de frecuencias en contenedor de frecuencias; y un sumador para sumar el mapa de correlación filtrado sobre los contenedores de frecuencia con el fin de producir un mapa sumado de correlación a largo plazo.

22. Un dispositivo para detectar la actividad sonora en una señal de sonido, en el que la señal de sonido es clasificada como una de entre una señal de sonido inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido, en el que el dispositivo comprende:

un estimador de tonalidad para la señal de sonido, usado para distinguir una señal musical de una señal de ruido de fondo;

en el que el estimador de tonalidad comprende un dispositivo según una cualquiera de las reivindicaciones 19 a 21.

23. Un dispositivo para clasificar una señal de sonido con el fin de optimizar la codificación de la señal de sonido usando la clasificación de la señal de sonido, en el que el dispositivo comprende:

un detector para detectar una actividad sonora en la señal de sonido;

un primer clasificador de señal de sonido para clasificar la señal de sonido como una de entre una señal de sonido inactivo y una señal de sonido activo según la actividad sonora detectada en la señal de sonido; un segundo clasificador de señal de sonido en conexión con el primer clasificador de sonido para clasificar la señal de sonido activo como una de entre una señal de voz sorda y una señal de voz no sorda; en el que el detector de actividad sonora comprende un estimador de tonalidad para estimar una tonalidad de la señal de sonido con el fin de evitar la clasificación de las señales musicales como señales de voz sorda en el que el estimador de tonalidad comprende una dispositivo según una cualquiera de las reivindicaciones 19 a 21.

24. Dispositivo según la reivindicación 23, que comprende además un codificador de sonido para codificar la señal de sonido según la clasificación de la señal de sonido, en el que el codificador de sonido es seleccionado de entre el grupo que consiste en: un codificador de ruido para codificar las señales de sonido inactivas, un codificador optimizado para voz sorda, un codificador optimizado para voz sonora para codificar señales sonoras estables, y un codificador de señal de sonido genérico para codificar señales sonoras de evolución rápida.

25. Un dispositivo para codificar una banda superior de una señal de sonido usando una clasificación de la señal de sonido, en el que el dispositivo comprende:

un clasificador de señal de sonido para clasificar la señal de sonido como una de entre una señal de sonido tonal y una señal de sonido no tonal; y

un codificador de sonido para codificar la banda superior de la señal de sonido clasificada; en el que el clasificador de señal de sonido comprende un dispositivo para estimar una tonalidad de la señal de sonido según una cualquiera de las reivindicaciones 19 a 21.

26. Dispositivo según la reivindicación 25, que comprende además un filtro de media móvil para calcular un suelo espectral derivado de la señal de sonido, en el que el suelo espectral se usa en la estimación de la tonalidad de la señal de sonido.

27. Dispositivo según la reivindicación 25 o 26, que comprende además un filtro de media móvil de tiempo corto para suavizar un espectro residual de la señal de sonido, en el que el espectro residual se usa en la estimación de la tonalidad de la señal de sonido.

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]