Un aparato y un método para generar datos de salida por ampliación de ancho de banda.

Un aparato (100) para generar datos de salida por ampliación de ancho de banda

(102) para una señal de audio (105), la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b), donde los datos de salida por ampliación del ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b), el aparato comprende:

un medidor de umbral de ruido (110) para medir un umbral de ruido para generar datos de umbral de ruido (115) de la segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105);

un caracterizador de energía de señal (120) para derivar un parámetro de sibilancia o un parámetro de pendiente espectral como datos de distribución de energía (125), donde el caracterizador de energía de señal está adaptado para recibir la primera banda de frecuencia (105a) y la segunda banda de frecuencia (105b), los datos de distribución de energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105), el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel en aumento o disminución de la señal de audio (105) con la frecuencia (F); y

un procesador (130) para combinar los datos de umbral de ruido (115) y los datos de distribución de energía (125) para obtener los datos de salida por ampliación de ancho de banda (102),

donde el procesador (130) está configurado para cambiar los datos de umbral de ruido (115) según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indicando un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de distribución de energía, con respecto al umbral de ruido indicado por los datos de umbral de ruido,

donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado,

donde el aparato (100) para generar datos de salida por ampliación de ancho de banda (102) está configurado para ejecutar una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz o una señal que no es de voz,

donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es de voz, y

donde el caracterizador de energía de señal (120) está configurado para realizar, cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz, un análisis de discurso adicional, para determinar un grado de sibilancia de la señal de voz, y donde el procesador (130) está configurado para agregar los datos de umbral de ruido modificados a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102), cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004521.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: GRILL, BERNHARD, POPP, HARALD, GAYER,MARC, RETTELBACH,NIKOLAUS, LOHWASSER,MARKUS, MULTRUS,MARKUS, JANDER,Manuel, NEUENDORF,Max, KRAEMER,Ulrich, NAGEL,Frederik, BACIGALUPO,VIRGILIO.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))

PDF original: ES-2539304_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Un aparato y un método para generar datos de salida por ampliación de ancho de banda [0001] La presente invención se relaciona con un aparato y un método para generar datos de salida por ampliación de ancho de banda (BWE, por sus siglas en inglés) y un codificador de audio.

La codificación de audio y codificación de voz natural constituyen dos grandes clases de codificaciones para las señales de audio. La codificación de audio natural se utiliza comúnmente para señales de música o señales arbitrarias en tasa de bits media y generalmente ofrece amplios anchos de banda de audio. Los codificadores de voz están básicamente limitados a la reproducción de voz y pueden utilizarse a baja tasa de bits. Una banda ancha de voz ofrece una gran mejora de calidad subjetiva en comparación con la banda estrecha de voz. Además, debido al tremendo crecimiento del campo de la multimedia, la transmisión de señales de música y otras señales diferentes a las de voz así como el almacenamiento y por ejemplo, la transmisión para radio/TV a alta calidad por sistemas telefónicos es una característica deseable.

Para reducir de manera drástica la tasa de bits, se puede realizar una codificación de fuente utilizando codificadores de audio perceptivos de banda dividida. Estos codificadores de audio naturales explotan la irrelevancia perceptiva y redundancia estadística en la señal. En caso que la explotación de lo anteriormente mencionado por sí sola no sea suficiente con respecto a la limitación de tasa de bits dada, la velocidad de muestreo se reduce. Es también común disminuir la cantidad de niveles de composición, permitiendo en forma ocasional una distorsión de cuantización auditiva y emplear una degradación del campo estéreo a través de una codificación estéreo conjunta o codificación paramétrica de dos o más canales. El uso excesivo de dichos métodos da por resultado una degradación perceptiva engorrosa. Con el fin de mejorar el desempeño de codificación, se utiliza la replicación de banda espectral (SBR, por su sigla en inglés) como método eficiente para generar señales de frecuencia alta en un codificador basado en la reconstrucción de frecuencia alta (HFR, por su sigla en inglés) .

Al grabar y transmitir señales acústicas, un umbral de ruido como el ruido de fondo se encuentra siempre presente. Con el fin de generar una señal acústica auténtica del lado del decodificador, el umbral de ruido debería ser transmitido o generado. En este último caso, el umbral de ruido en la señal de audio original debería ser determinado. En la replicación de banda espectral, esto se realiza por medio de herramientas SBR o módulos relacionados con SBR, que generan parámetros que caracterizan (entre otras cosas) el umbral de ruido y que se transmiten al decodificador para reconstruir el umbral de ruido.

En WO 00/45379, se describe una herramienta de umbral de ruido adaptativa, que provee suficientes contenidos de ruido en los componentes de frecuencia de banda alta sintetizados. Sin embargo, se generan artefactos que perturban los componentes de frecuencia de banda alta si, en la banda base, ocurren fluctuaciones de energía o los llamados transitorios, a corto plazo. Estos artefactos no son perceptivamente aceptables y no se proporciona en técnicas previas una solución aceptable (especialmente si el ancho de banda es limitado) .

EP 2056294 A2 describe una ampliación de ancho de banda que incluye la medida de un umbral de ruido a ser utilizada para reconstrucción de banda de alta frecuencia.

Un objetivo de la presente invención consiste, por lo tanto, en proveer un aparato, que permita una eficiente codificación sin artefactos que puedan percibirse, especialmente para señales de voz.

Este objetivo se logra mediante un aparato para generar datos de salida por ampliación de ancho de banda de acuerdo con la reivindicación 1, el codificador de acuerdo con la reivindicación 3, un método para generar datos de salida por ampliación de ancho de banda de acuerdo con la reivindicación 6 y un programa de ordenador de acuerdo con la reivindicación 7.

La presente invención se basa en el principio que una adaptación de un umbral de ruido medido que depende de la distribución de energía de la señal de audio dentro de una porción de tiempo puede mejorar la calidad perceptivo de una señal de audio sintetizada del lado del decodificador. Aunque desde el punto de vista teórico no es necesaria una adaptación o manipulación del umbral de ruido medido, las técnicas convencionales para generar el umbral de ruido muestran una cantidad de inconvenientes. Por otro lado, la estimación del umbral de ruido basada en una medición de tonalidad, desarrollada por métodos convencionales, es dificultosa y no siempre precisa. Por otro lado, el objetivo del umbral de ruido es reproducir la correcta impresión de tonalidad del lado del decodificador. Aunque la impresión de

tonalidad subjetiva para la señal de audio original y la señal decodificada sea la misma, existe aún la posibilidad de artefactos generados; por ejemplo para señales de voz.

[00010] Los tests subjetivos muestran que diferentes tipos de señales de voz deberían ser tratadas en forma diferente. En señales de discurso vocalizadas una disminución del umbral de ruido calculado produce una mayor calidad perceptiva al compararla con el umbral de ruido calculado original. En consecuencia la voz suena menos reverberante en este caso. En caso que la señal de audio comprenda sibilantes un aumento artificial de umbral de ruido podrá encubrir los inconvenientes en el método de implementación de parches ("patching") relacionado con los sibilantes. Por ejemplo, las fluctuaciones de energía a corto plazo (transitorios) producen artefactos perturbadores al ser cambiadas o transformadas en la banda de frecuencia mayor y un aumento en el umbral de ruido podrá también encubrir estas fluctuaciones de energía.

[00011] Dichos transitorios pueden definirse como porciones dentro de señales convencionales s, donde un fuerte aumento en la energía aparece dentro de un corto período de tiempo, el que puede o no estar limitado a una región de frecuencia específica. Transitorios son golpes de castañuelas y de instrumentos de percusión, pero también ciertos sonidos de la voz humana como, por ejemplo, las letras: P, T, K, . La detección de este tipo de transitorios es implementada siempre de la misma forma o por el mismo algoritmo (utilizando un valor umbral de transitorios) , independiente de la señal, ya sea clasificado como voz o música. Además, una posible distinción entre el discurso vocalizado y no vocalizado no tiene influencia en el mecanismo de detección de transitorios convencional o clásico.

[00012] En consecuencia, las formas de realización proveen una disminución del umbral de ruido para una señal como un discurso vocalizado y un aumento del umbral de ruido para una señal s que comprende, por ejemplo, sibilantes.

[00013] Para distinguir las diferentes señales, las formas de realización utilizan datos de distribución de energía (por ejemplo un parámetro de sibilancia) que mide si la energía se encuentra mayormente en frecuencias mayores o frecuencias menores, o en otras palabras, si la representación espectral de la señal de audio muestra una pendiente en aumento o en disminución hacia frecuencias mayores. Otras formas de realización también utilizan el primer coeficiente LPC (LPC = sigla en inglés correspondiente a la traducción codificación predictiva lineal) para generar el parámetro de sibilancia.

[00014] Existen dos posibilidades para cambiar el umbral de ruido. La primera posibilidad consiste en transmitir dicho parámetro de sibilancia para que el decodificador pueda utilizar el parámetro... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100) para generar datos de salida por ampliación de ancho de banda (102) para una señal de audio (105) , la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b) , donde los datos de salida por ampliación del ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b) , el aparato comprende:

un medidor de umbral de ruido (110) para medir un umbral de ruido para generar datos de umbral de ruido (115) de la 10 segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105) ;

un caracterizador de energía de señal (120) para derivar un parámetro de sibilancia o un parámetro de pendiente espectral como datos de distribución de energía (125) , donde el caracterizador de energía de señal está adaptado para recibir la primera banda de frecuencia (105a) y la segunda banda de frecuencia (105b) , los datos de distribución de energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105) , el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel en aumento o disminución de la señal de audio (105) con la frecuencia (F) ; y un procesador (130) para combinar los datos de umbral de ruido (115) y los datos de distribución de energía (125) para 20 obtener los datos de salida por ampliación de ancho de banda (102) , donde el procesador (130) está configurado para cambiar los datos de umbral de ruido (115) según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indicando un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de distribución de energía, con respecto al umbral de ruido indicado por los datos de umbral de ruido, donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado, donde el aparato (100) para generar datos de salida por ampliación de ancho de banda (102) está configurado para ejecutar una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz

o una señal que no es de voz, donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es devoz, y donde el caracterizador de energía de señal (120) está configurado para realizar, cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz, un análisis de discurso adicional, para determinar un grado de sibilancia de la señal de voz, y donde el procesador (130) está configurado para agregar los datos de umbral de ruido modificados a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102) , cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.

2. El aparato (100) de la reivindicación 1, donde el caracterizador de energía de señal (120) está configurado para utilizar el primer coeficiente de codificación predictiva lineal como parámetro de sibilancia.

3. Un codificador (300) para codificar una señal de audio (105) , la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b) , el codificador comprende:

un codificador de núcleo (340) para codificar los componentes en la primera banda de frecuencia (105a) ;

un aparato (100) para generar datos de salida por ampliación de ancho de banda (102) de acuerdo con una de las reivindicaciones 1 a 2; y 12

un calculador de datos de la envolvente (210) para calcular datos de ampliación de ancho de banda (375) basado en los componentes en la segunda banda de frecuencia (105b) , donde los datos de ampliación de ancho de banda calculados (375) comprenden los datos de salida por ampliación de ancho de banda (102) .

4. El codificador (300) de la reivindicación 3, donde la porción de tiempo (T) cubre una trama SBR (replicación de banda espectral) , la trama SBR comprende una pluralidad de envolventes de ruido, y donde el calculador de datos de la envolvente de ruido (210) está configurado para calcular diferentes datos de ampliación de ancho de banda (375) para diferentes envolventes de ruido de la pluralidad de envolventes de ruido.

5. El codificador (300) de la reivindicación 3 o reivindicación 4, donde el calculador de datos de la envolvente (210) está configurado para cambiar un número de envolventes en función de un cambio de los datos medidos del umbral de ruido (115) .

6. Un método para generar datos de salida por ampliación de ancho de banda (102) para una señal de audio (105) , la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b) , donde los datos de salida por ampliación de ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b) , el método comprende:

la medición de un umbral de ruido para generar datos de umbral de ruido (115) de la segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105) ;

la derivación de un parámetro de sibilancia o de un parámetro de pendiente espectral como datos de distribución de energía (125) , donde por tanto se reciben la primera banda de frecuencia (105a) y la segunda banda de frecuencia (105b) , los datos de distribución de energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105) , el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel de aumento o disminución de la señal de audio (105) con la frecuencia (F) ; y la combinación de los datos de umbral de ruido (115) y los datos de distribución de energía (125) para obtener los datos 30 de salida por ampliación de ancho de banda (102) , donde, en la etapa de combinación, los datos de umbral de ruido (115) cambian según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indican un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de distribución de energía, con respecto al umbral de ruido indicado por los datos de umbral de ruido, donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado, donde el método para generar datos de salida por ampliación de ancho de banda (102) ejecuta una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz o una señal que no es de voz, donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de 45 salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es devoz, y donde, cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz, se realiza un análisis de discurso adicional para determinar un grado de sibilancia de la señal de voz, y donde los datos de umbral de ruido modificados se 50 agregan a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102) , cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.

7. Un programa de ordenador adaptado para implementar, al ejecutarse en un ordenador, el método de la 55 reivindicación 6.