Método y aparato para estimar la energía de banda alta en un sistema de extensión del ancho de banda para señales de audio.

Un método de extensión del ancho de banda que comprende:

recibir una señal de audio digital de entrada que comprende una señal de banda estrecha en un primer intervalo de frecuencias;

determinar un nivel de energía de banda alta estimado en un segundo intervalo de frecuencias

, correspondientes a la señal de audio digital de entrada, donde el segundo intervalo de frecuencias es mayor en frecuencia que el primer intervalo de frecuencias y a la energía de banda alta estimada le falta información para ser estimada y utilizada en la extensión del ancho de banda; y

modificar el nivel de energía de banda alta estimado sobre la base de las características de la señal de banda estrecha;

donde la etapa de modificar el nivel de energía de banda alta estimado comprende la etapa de modificar el nivel de energía de banda alta estimado sobre la base de una ocurrencia de un ataque / sonido oclusivo;

donde los niveles de energía de banda alta estimados de una secuencia de Kmax tramas que empieza en una trama en la cual se ha detectado el ataque / sonido oclusivo son modificados;

donde las primeras Kmin tramas son ajustadas a un nivel de energía lo más bajo posible Emin;

donde la modificación de los niveles de energía de banda alta estimados continúa hasta la trama Kmax-ésima siempre que el nivel de voz de una trama dentro de la secuencia de Kmax tramas excede un umbral; y donde la modificación del nivel de energía de banda alta estimado viene dada por la disminución del nivel de energía de banda alta en una cantidad fija hasta una trama KT en la que el nivel de voz de la trama excede un umbral y es aumentado de nuevo hacia la energía de banda alta estimada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2009/033159.

Solicitante: Motorola Mobility LLC .

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 600 North US Highway 45 Libertyville, IL 60048 ESTADOS UNIDOS DE AMERICA.

Inventor/es: RAMABADRAN, TENKASI V.,, JASIUK, MARK A.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))

PDF original: ES-2467966_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Método y aparato para estimar la energía de banda alta en un sistema de extensión del ancho de banda para señales de audio Aplicaciones relacionadas Esta solicitud está relacionada con la solicitud de patente de U.S. co-dependiente y de propiedad conjunta de número 11/946, 978 presentada el 29 de Noviembre de 2007. Esta solicitud está adicionalmente relacionada con la solicitud de patente de U.S. co-dependiente y de propiedad conjunta de número 12/024, 620 presentada el 1 de Febrero de 2008.

Campo técnico

Esta invención se refiere en general a hacer audible un contenido y más particularmente a las técnicas de extensión del ancho de banda.

Antecedentes El hacer audible un contenido de audio a partir de una representación digital comprende un área de trabajo conocida. En algunos de los ajustes de la aplicación la representación digital comprende un ancho de banda correspondiente que pertenece a una muestra de audio original. En tal caso, el hacer audible puede comprender una salida altamente precisa y que suene natural. Tal planteamiento, no obstante, requiere un considerable incremento de recursos para albergar la correspondiente cantidad de datos. En muchos ajustes de la aplicación, tales como, por ejemplo, ajustes de comunicación inalámbrica, tal cantidad de información no siempre puede ser adecuadamente soportada.

Para acomodar tal limitación, las llamadas técnicas de conversación de banda estrecha pueden servir para limitar la cantidad de información limitando, a su vez, la representación a menos de un ancho de banda correspondiente completo que pertenece a una muestra de audio original. Como un único ejemplo a este respecto, aunque la conversación natural incluye componentes significativos de hasta 8 kHz (o más) , una representación de banda estrecha sólo puede proporcionar información relativa, digamos, al intervalo de 300 – 3400 Hz. El contenido resultante, cuando se hace audible, es típicamente suficientemente inteligible para soportar las necesidades funcionales de la comunicación basada en conversación. Desgraciadamente, no obstante, el procesamiento de la conversación de banda estrecha también tiende a conseguir una conversación que suena amortiguada y puede incluso tener una inteligibilidad reducida en comparación con la conversación de banda completa.

Para cubrir esta necesidad, se emplean en ocasiones técnicas de extensión de ancho de banda. Se genera artificialmente la información faltante en las bandas superior y/o inferior sobre la base de la información de banda estrecha disponible, así como de otra información, para seleccionar información que puede ser añadida al contenido de banda estrecha, para sintetizar con ello una señal de banda pseudo ancha (o completa) . Utilizando tales técnicas, por ejemplo, se puede transformar conversación de banda estrecha en el intervalo de 300 - 3400 Hz en conversación de banda ancha, es decir, en el intervalo de 100 - 8000 Hz Con este fin, una parte crítica de la información que se requiere es la envolvente espectral en la banda alta (3400 - 8000 Hz) . Si se estima la envolvente espectral de banda ancha, la envolvente espectral de banda alta puede entonces normalmente ser obtenida fácilmente a partir de ella. Se puede considerar la envolvente espectral de banda alta comprendida por una forma y una ganancia (o de manera equivalente, energía) .

Mediante un planteamiento, por ejemplo, la forma de envolvente espectral de banda alta es estimada estimando la envolvente espectral de banda ancha a partir de la envolvente espectral de banda estrecha mediante el mapeo del libro de códigos. La energía de banda alta es entonces estimada ajustando la energía dentro de la sección de banda estrecha de la envolvente espectral de banda ancha para que coincida con la energía de la envolvente espectral de banda estrecha. En este planteamiento, la forma de la envolvente espectral de banda alta determina la energía de banda alta y cualquier error en la estimación de la forma afectará de manera correspondiente a las estimaciones de la energía de banda alta.

En otro planteamiento, la forma de la envolvente espectral de banda alta y la energía de banda alta son estimadas de manera separada, y la envolvente espectral de banda alta que es finalmente utilizada es ajustada para que coincida con la energía de banda alta estimada. Mediante otro planteamiento relacionado se utiliza la energía de banda alta estimada, además de otros parámetros, para determinar la forma de la envolvente espectral de banda alta. No obstante, no está necesariamente asegurado el que la envolvente espectral de banda alta resultante tenga la energía de banda alta apropiada. En una etapa adicional se requiere por lo tanto ajustar la energía de la envolvente espectral de banda alta al valor estimado. A menos que se tenga especial cuidado, este planteamiento resultará en una discontinuidad en la envolvente espectral de banda ancha en la frontera entre la banda estrecha y la banda alta. Aunque los planteamientos existentes para la extensión de la banda ancha y, en particular, para la estimación de la envolvente de banda alta tienen un razonable éxito, no necesariamente conducen a una conversación resultante de calidad adecuada en al menos algunos ajustes de la aplicación.

Con el fin de generar conversación de ancho de banda extendido de una calidad aceptable, el número de aberraciones en tal conversación debe ser minimizado. Se conoce que la sobre-estimación de la energía de banda alta resulta en aberraciones molestas. Una incorrecta estimación de la envolvente espectral de banda alta puede también conducir a aberraciones pero estas aberraciones son normalmente más suaves y son fácilmente enmascaradas por la conversación de banda estrecha.

La publicación de M. Nilsson, W.B. Kleijn "Avoiding over-estimation in bandwidth extension of telephony speech", Procedimientos del IEEE ICASSP 2001, 7 de Mayo de 2001, vol. 2, páginas 869-872, describe un método de compensar la sobre-estimación de la energía de banda alta en la extensión del ancho de banda utilizando un función de coste asimétrica en el proceso de estimación.

La solicitud de patente internacional WO2009/070387 A1, describe que las tramas que contienen ataques y/o sonidos oclusivos pueden beneficiarse de un manejo especial cuando adaptan un valor de energía de banda alta estimado.

Compendio de la invención La presente invención define un método de extensión de ancho de banda de acuerdo con la reivindicación 1 y un aparato para la extensión de ancho de banda de acuerdo con la reivindicación 3.

Breve descripción de los dibujos Las necesidades anteriores se cubren al menos parcialmente mediante la provisión del método y aparato para estimar la energía de banda alta en un sistema de extensión de ancho de banda descrito en la descripción detallada que sigue. Las figuras que se acompañan, en las que números de referencia iguales se refieren a elementos idénticos o funcionalmente similares en las vistas separadas y, las cuales, junto con la descripción detallada que sigue, están incorporadas en y forman parte de la memoria, sirven para ilustrar con más detalle varias realizaciones y para explicar varios principios y ventajas de acuerdo por completo con la presente invención.

La FIG. 1 comprende un diagrama de flujo configurado de acuerdo con varias realizaciones de la invención;

la FIG. 2 comprende un gráfico configurado de acuerdo con varias realizaciones de la invención;

la FIG. 3 comprende un diagrama de bloques configurado de acuerdo con varias realizaciones de la invención;

la FIG. 4 comprende un diagrama de bloques configurado de acuerdo con varias realizaciones de la invención;

la FIG. 5 comprende un diagrama de bloques... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de extensión del ancho de banda que comprende:

recibir una señal de audio digital de entrada que comprende una señal de banda estrecha en un primer intervalo de frecuencias;

determinar un nivel de energía de banda alta estimado en un segundo intervalo de frecuencias, correspondientes a la señal de audio digital de entrada, donde el segundo intervalo de frecuencias es mayor en frecuencia que el primer intervalo de frecuencias y a la energía de banda alta estimada le falta información para ser estimada y utilizada en la extensión del ancho de banda; y

modificar el nivel de energía de banda alta estimado sobre la base de las características de la señal de banda estrecha;

donde la etapa de modificar el nivel de energía de banda alta estimado comprende la etapa de modificar el nivel de energía de banda alta estimado sobre la base de una ocurrencia de un ataque / sonido oclusivo;

donde los niveles de energía de banda alta estimados de una secuencia de Kmax tramas que empieza en una trama en la cual se ha detectado el ataque / sonido oclusivo son modificados;

donde las primeras Kmin tramas son ajustadas a un nivel de energía lo más bajo posible Emin;

donde la modificación de los niveles de energía de banda alta estimados continúa hasta la trama Kmax-ésima siempre que el nivel de voz de una trama dentro de la secuencia de Kmax tramas excede un umbral; y

donde la modificación del nivel de energía de banda alta estimado viene dada por la disminución del nivel de energía de banda alta en una cantidad fija hasta una trama KT en la que el nivel de voz de la trama excede un umbral y es aumentado de nuevo hacia la energía de banda alta estimada.

2. El método de la reivindicación 1, en el que la energía de banda alta es una adaptación para un ataque / sonido oclusivo que se realiza como:

donde Ehb es el nivel de energía de banda alta, Emin es el nivel de energía de banda alta lo más bajo posible, k es el índice de trama y v (k) es un nivel de voz.

3. Un aparato para la extensión del ancho de banda que comprende:

una estimación y módulo de control (ECM - Estimation and Control Module, en inglés) que recibe una señal de audio digital de entrada que comprende una señal de banda estrecha en un primer intervalo de frecuencias, generar un nivel de energía de banda alta estimado en un segundo intervalo de frecuencias, correspondiendo a la señal de audio digital de entrada y la energía de banda alta estimada es información faltante para ser estimada y utilizada en la extensión del ancho de banda, y modificar el nivel de energía de banda alta estimado sobre la base de las características de la señal de banda estrecha, donde el segundo intervalo de frecuencias es mayor en frecuencia que el primer intervalo de frecuencias, y donde la modificación del nivel de energía de banda alta estimado comprende modificar el nivel de energía de banda alta estimado sobre la base de una ocurrencia de un ataque / sonido oclusivo;

donde los niveles de energía de banda alta estimados de una secuencia de Kmax tramas que empieza en una trama en la cual se ha detectado el ataque / sonido oclusivo son modificados;

donde las primeras Kmin tramas son ajustadas a un nivel de energía lo más bajo posible Emin;

donde la modificación de los niveles de energía de banda alta estimados continúa hasta la trama Kmax-ésima siempre que el nivel de voz de una trama dentro de la secuencia de Kmax tramas excede un umbral; y

donde la modificación del nivel de energía de banda alta estimado viene dada por la disminución del nivel de energía de banda alta en una cantidad fija hasta una trama KT en la que el nivel de voz de la trama excede un umbral y es aumentado de nuevo hacia la energía de banda alta estimada.

4. El aparato de la reivindicación 3, en el que la energía de banda alta es una adaptación para un ataque / sonido oclusivo que viene dada como:

donde Ehb es el nivel de energía de banda alta, Emin es el nivel de energía de banda alta lo más bajo posible, k es el índice de trama y v (k) es un nivel de voz.