Procedimiento y dispositivo para suavizar ruido de fondo estacionario.

Un procedimiento para suavizar ruido de fondo en una sesión de voz de telecomunicaciones,

que comprende recibir y descodificar (S10) una señal representativa de una sesión de voz, comprendiendo dicha señal tanto un componente de voz como un componente de ruido de fondo;

determinar (S20) parámetros LPC para dicha señal recibida;

determinar (S30) una señal de excitación para dicha señal recibida;

modificar (S35) dicha señal de excitación determinada reduciendo las fluctuaciones de potencia y espectrales de la señal de excitación;

sintetizar y emitir (S40) una señal de salida en base a dichos parámetros LPC y a dicha señal de excitación,

caracterizado por:

modificar (S25) dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado en paso bajo de parámetros LPC, y determinar una combinación ponderada de dicho conjunto filtrado en paso bajo y dicho conjunto determinado de parámetros LPC, y llevar a cabo dicha etapa de síntesis y emisión en base a dicho conjunto modificado de parámetros LPC, para proporcionar una señal de salida suavizada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2008/050169.

Solicitante: TELEFONAKTIEBOLAGET LM ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: BRUHN, STEFAN.

Fecha de Publicación: 22 de Julio de 2015.

Clasificación Internacional de Patentes:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/04 G10L 19/00 […] › utilizando técnicas de predicción.
G10L19/08 G10L 19/00 […] › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.
G10L19/12 G10L 19/00 […] › Determinación o codificación de una excitación de código, p. ej. en codificadores vocales de predicción lineal excitados por código [CELP].
G10L19/26 G10L 19/00 […] › prefiltrado o postfiltrado.
G10L21/00 G10L […] › Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad).

PDF original: ES-2548010_T3.pdf

Fragmento de la descripción:

Procedimiento y dispositivo para suavizar ruido de fondo estacionario Sector técnico

La presente invención se refiere a la codificación de voz en sistemas de telecomunicaciones en general, especialmente a procedimientos y dispositivos para suavizar ruido de fondo estacionario en dichos sistemas.

Antecedentes

La codificación de la voz es el proceso de obtención de una representación compacta de señales de voz para su transmisión eficiente sobre canales cableados e inalámbricos de banda limitada, y/o para su almacenamiento. Actualmente, los codificadores de voz se han convertido en componentes esenciales en las telecomunicaciones y en la infraestructura multimedia. Los sistemas comerciales que se basan en una codificación eficiente de la voz incluyen comunicación celular, voz sobre protocolo de internet (VOIP, voice over internet protocol), videoconferencia, juguetes electrónicos, archivo, y voz y datos digitales simultáneos (DSVD, simultaneous voice and data), así como numerosos juegos basados en PC y aplicaciones multimedia.

Al ser una señal continua en el tiempo, la voz se puede representar digitalmente por medio de un proceso de muestreo y cuantificación. Las muestras de voz se cuantifican habitualmente utilizando cuantificación de 16 bits o bien de 8 bits. Como muchas otras señales, una señal de voz comprende una gran cantidad de información que es redundante (información mutua diferente de cero entre muestras sucesivas en la señal) o bien irrelevante perceptualmente (información que no es percibida por los oyentes humanos). La mayoría de los codificadores de telecomunicaciones tienen pérdidas, lo que significa que la voz sintetizada es perceptualmente similar a la original pero puede ser diferente físicamente.

Un codificador de voz transforma una señal de voz digitalizada en una representación codificada, que normalmente se transmite en tramas. Correspondientemente, un descodificador de voz recibe tramas codificadas y sintetiza la voz reconstruida. Muchos codificadores de voz modernos pertenecen a una gran clase de codificadores de voz conocidos como LPC (codificadores predictivos lineales). Unos pocos ejemplos de dichos codificadores son los códec de voz 3GPP FR, EFR, AMR y AMR-WB, los códec de voz 3GPP2 EVRC, SMV y EVRC-WB, y varios codees ITU-T, tales como G.728, G723, G.729, etc.

Todos estos codificadores utilizan un concepto de filtro de síntesis en el proceso de generación de la señal. El filtro se utiliza para modelizar el espectro de tiempo reducido de la señal que se debe reproducir, mientras que se asume que la entrada al filtro trata todas las demás variaciones de la señal.

Una característica común de estos modelos de filtro de síntesis es que la señal que se debe reproducir se representa mediante parámetros que definen el filtro de síntesis. El término "predictlvo lineal" se refiere a una clase de procedimientos utilizados a menudo para estimar los parámetros del filtro. En los codificadores basados en LPC, la señal de voz se ve como la salida de un sistema lineal invariante en el tiempo (LTI, linear tlme-lnvarlant) cuya entrada es la señal de excitación al filtro. Por lo tanto, la señal que se debe reproducir se representa parcialmente por un conjunto de parámetros del filtro y parcialmente por la señal de excitación que activa el filtro. La ventaja de dicho concepto de codificación se deriva del hecho de que tanto el filtro la señal de excitación de activación se pueden describir eficientemente con relativamente pocos bits.

Una clase particular de codees basados en LPC, se basa en el denominado principio de análisis por síntesis (AbS). Estos codees incorporan una copia local del descodificador en el codificador, y encuentran la señal de excitación de activación del filtro de síntesis seleccionando aquella señal de excitación entre un conjunto de señales de excitación candidatas, que maximiza la similitud de la señal de salida con la señal de voz original.

El concepto de utilizar dicha codificación predictiva lineal y particularmente codificación AbS ha demostrado que funciona relativamente bien para señales de voz, incluso a tasas de bits de, por ejemplo, 4 a 12 kbps. Sin embargo, cuando el usuario de un teléfono móvil que utiliza dicha técnica de codificación está en silencio y la señal de entrada comprende los sonidos circundantes, por ejemplo ruido, los codificadores actualmente conocidos tienen dificultades para tratar con esta situación, dado que están optimizados para señales de voz. Un oyente en el lado de recepción se puede incomodar cuando hay sonidos de fondo familiares que no se pueden reconocer debido a que han sido "maltratados" por el codificador.

La denominada turbulencia provoca una de las degradaciones de calidad más importantes en los sonidos de fondo reproducidos. Éste es un fenómeno que se produce en sonidos de ruido de fondo relativamente estacionarios, tales como ruido de coches, y está provocado por fluctuaciones temporales no naturales de la potencia y del espectro de la señal descodificada. A su vez, estas fluctuaciones están provocadas por una estimación y una cuantificación inadecuadas de los coeficientes del filtro de síntesis y su señal de excitación. Normalmente, la turbulencia disminuye cuando aumenta la tasa de bits del códec.

La turbulencia se ha identificado como un problema en la técnica anterior, y se han propuesto múltiples soluciones a la misma en la bibliografía. Una de las soluciones propuestas se describe en la patente U.S.A. 5632004 [1], Según esta patente, durante la inactividad de la voz, se modifican los parámetros del filtro por medio de filtrado de paso bajo o expansión del ancho de banda, de tal modo que se reducen las variaciones espectrales del sonido de fondo sintetizado. Este procedimiento se ha perfeccionado en la patente U.S.A. 5579432 [2], de manera que la técnica anti-turbulencia descrita se aplica solamente sobre la parte estacionaria detectada del ruido de fondo.

Otro procedimiento que trata el problema de la turbulencia se describe en la patente U.S.A. 5487087 [3], Este procedimiento utiliza un esquema modificado de cuantificación de señales, que se adapta tanto a la propia señal como a sus variaciones temporales. Específicamente, se contempla utilizar dicho cuantificador de fluctuación reducida para parámetros del filtro LPC y parámetros de ganancia de señal durante periodos de inactividad de la voz.

Las degradaciones de la calidad de la señal provocadas por fluctuaciones de potencia no deseadas de la señal sintetizada son tratadas por otro conjunto de procedimientos. Uno de estos es el que se describe en la patente U.S.A. 6275798 [4], y asimismo una parte del algoritmo del códec de voz AMR descrito en el documento 3GPP TS 26.090 [5], Según estos, la ganancia de por lo menos un componente de la señal de excitación del filtro sintetizada, la contribución fija del libro de código, se suaviza de manera adaptativa en función del carácter estacionario del espectro a corto plazo LPC. Este procedimiento ha evolucionado en la patente EP 1096476 [6] y en la solicitud de patente EP 1688920 [7], donde el suavizado involucra además una limitación de la ganancia que se debe utilizaren la síntesis de la señal. Se describe un procedimiento relacionado para su utilización en codificadores de voz LPC en el documento US 5953697 [8], Según éste, la ganancia de la señal de excitación del filtro de síntesis se controla de tal modo que la amplitud máxima de la voz sintetizada alcanza exactamente la envolvente de la forma de onda de voz de entrada.

Otra clase más de procedimientos que tratan el problema de la turbulencia funcionan como un posprocesador después del descodificador de voz. El documento EP 0665530 [9] describe un procedimiento que, durante inactividad de voz detectada, sustituye una parte de la señal de salida del descodificador de voz por un ruido blanco filtrado en paso bajo o señal de ruido cómoda. Se adoptan enfoques similares en varias publicaciones que dan a conocer procedimientos relacionados que sustituyen parte de la señal de salida del descodificador de voz con ruido filtrado.

La codificación escalable o incorporada, haciendo referencia a la figura 1, es un parámetro de codificación en el que la codificación se realiza en capas. Una capa base o central codifica la señal a una tasa de bits baja, mientras que las capas adicionales, una sobre otra, proporcionan alguna mejora con respecto a la codificación, que se consigue con todas las capas desde la central hasta la respectiva capa anterior. Cada capa aumenta en alguna medida la tasa de bits. El flujo de bits generado es incorporado, lo que significa que el flujo de bits de la codificación de las capas inferiores se incorpora en los flujos de... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para suavizar ruido de fondo en una sesión de voz de telecomunicaciones, que comprende

recibir y descodificar (S10) una señal representativa de una sesión de voz, comprendiendo dicha señal tanto un componente de voz como un componente de ruido de fondo;

determinar (S20) parámetros LPC para dicha señal recibida;

determinar (S30) una señal de excitación para dicha señal recibida;

modificar (S35) dicha señal de excitación determinada reduciendo las fluctuaciones de potencia y espectrales de la señal de excitación;

sintetizar y emitir (S40) una señal de salida en base a dichos parámetros LPC y a dicha señal de excitación, caracterizado por:

modificar (S25) dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado en paso bajo de parámetros LPC, y determinar una combinación ponderada de dicho conjunto filtrado en paso bajo y dicho conjunto determinado de parámetros LPC, y llevar a cabo dicha etapa de síntesis y emisión en base a dicho conjunto modificado de parámetros LPC, para proporcionar una señal de salida suavizada.

2. El procedimiento según la reivindicación 1, caracterizado por llevar a cabo dicho filtrado de paso bajo mediante filtrado autorregresivo de primer orden.

3. El procedimiento según la reivindicación 1, caracterizado por dicha etapa de modificar (S35) dicha señal de excitación, que comprende modificar un espectro de dicha señal de excitación compensando una Inclinación.

4. El procedimiento según la reivindicación 1, caracterizado por dicha etapa de modificar la señal de excitación que comprende además sustituir por lo menos parte de la señal de excitación con una señal de ruido blanco.

5. El procedimiento según la reivindicación 4, caracterizado por las etapas de escalamiento de una potencia de dicha señal de ruido blanco para hacerla igual a la potencia de la señal de excitación determinada o a una representación suavizada de la misma, y combinar linealmente la señal de excitación determinada y la señal de ruido escalada para proporcionar dicha señal de excitación modificada.

6. El procedimiento según la reivindicación 5, caracterizado por llevar a cabo dicha combinación lineal de tal modo que la potencia de la señal de excitación modificada es Igual a la potencia de la señal de excitación original.

7. El procedimiento según cualquiera de las reivindicaciones anteriores, caracterizado por la etapa adicional (S50) de determinar si dicho componente de voz está activo o inactivo.

8. El procedimiento según la reivindicación 7, caracterizado por llevar a cabo dicha etapa de modificación (S35) solamente si dicho componente de voz está inactivo.

9. Un dispositivo de suavizado, que comprende

medios (10) para recibir y descodificar una señal representativa de una sesión de voz, comprendiendo dicha señal tanto un componente de voz como un componente de ruido de fondo;

medios (20) para determinar parámetros LPC para dicha señal recibida;

medios (30) para determinar una señal de excitación para dicha señal recibida;

medios (35) para modificar dicha señal de excitación determinada reduciendo las fluctuaciones de potencia y espectrales de la señal de excitación;

medios (40) para sintetizar una señal de salida en base a dichos parámetros LPC y a dicha señal de excitación, caracterizado por:

medios (25) para modificar dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado en paso bajo de parámetros LPC, estando adaptados dichos medios (25) para determinar una combinación ponderada de dicho conjunto filtrado en paso bajo y de dicho conjunto determinado de parámetros LPC, y dichos medios de síntesis (40) están adaptados para sintetizar dicha señal de salida en base a dicho conjunto modificado de parámetros LPC con el fin de proporcionar una señal de salida suavizada.

10. El dispositivo según la reivindicación 9, caracterizado por medios adicionales para detectar un estado inactivo de dicho componente de voz.

11. El dispositivo según la reivindicación 10, caracterizado porque dichos medios (35) de modificación de la señal de excitación están adaptados para llevar a cabo dicha etapa de modificación en respuesta a un componente de voz inactivo detectado.

12. Una unidad de descodificador en un sistema de telecomunicación que comprende un dispositivo de suavizado 5 según cualquiera de las reivindicaciones 9 a 11.

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]