Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.
Método para la recuperación de espectro para la descodificación espectral de una señal de audio,
que comprende las etapas de:
obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74);
determinar (212) una frecuencia de transición (ft);
rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y
extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);
donde
la citada frecuencia de transición (ft) es ajustada al límite superior de la primera banda de frecuencia visto desde el lado de la frecuencia alta que tiene en él un coeficiente cuantificado.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12196913.
Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).
Nacionalidad solicitante: Suecia.
Dirección: 164 83 STOCKHOLM SUECIA.
Inventor/es: BRIAND,Manuel, TALEB,Anisse.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/028 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Sustitución del ruido, p. ej. Sustituyendo componentes espectrales no tonales por fuentes de ruido (ruido de confort para transmisiones de voz discontinua G10L 19/012).
- G10L19/035 G10L 19/00 […] › Cuantificación logarítmica o escalar.
- G10L21/038 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › utilizando técnicas de extensión de banda.
PDF original: ES-2526333_T3.pdf
Fragmento de la descripción:
Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda Campo Técnico
La presente invención se refiere en general a métodos y dispositivos para la codificación y la descodificación de señales de audio, y en particular a métodos y dispositivos para el rellenado del espectro.
Antecedentes
Cuando las señales van a ser almacenadas y/o transmitidas, un planteamiento estándar actual es codificar las señales de audio en una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o de transmisión, un deseo general es reducir el tamaño de la representación digital necesario para permitir la reconstrucción de las señales de audio con suficiente calidad. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación real.
Los codificadores de audio basados en transformada comprimen las señales de audio cuantificando los coeficientes de transformación. Para permitir bajas tasas de bits, los cuantificadores podrían concentrar los bits disponibles en los coeficientes más energéticos y perceptualmente relevantes y transmitir sólo esos, dejando agujeros espectrales de coeficientes no cualificados en el espectro de frecuencia.
La llamada tecnología de SBR (Replicación de Banda Espectral - Spectral Band Replication, en inglés), véase por ejemplo el TS 26.404 V6.0.0 (2004-09) del 3GPP, Enhanced aacPlus general audio codee - encoder SBR part (Versión 6), 2004 [1], cierra el hueco entre la señal de banda limitada de un codificador perceptual convencional y el ancho de banda audible de aproximadamente 15 kHz. La idea general tras la SBR es recrear el contenido de alta frecuencia faltante de una señal decodificada de una manera perceptualmente precisa. Las frecuencias por encima de 15 kHz son menos importantes desde un punto de vista psicoacústico, pero pueden ser también reconstruidas. No obstante, la SBR no puede ser utilizada como un códec autónomo. Siempre opera en conjunción con un códec de forma de onda convencional, un llamado códec de núcleo. El códec de núcleo es responsable de transmitir la parte inferior del espectro original mientras que el descodificador de SBR, que es principalmente un post-proceso al descodificador de forma de onda convencional, reconstruye el intervalo de frecuencia no transmitido. Los valores espectrales de la banda ancha no son transmitidos directamente como en los codees convencionales. El sistema combinado ofrece una ganancia de codificación superior a la ganancia del códec de núcleo solo.
La metodología de SBR se basa en la definición de una frecuencia de transición fija entre una banda baja, bajas frecuencias perceptualmente relevantes codificadas, y una banda alta, altas frecuencias menos relevantes no codificadas. No obstante, en la práctica, esta frecuencia de transición se basa en el contenido de audio de la señal original. En otras palabras, de una señal a otra, la frecuencia de transición apropiada puede variar mucho. Éste es por ejemplo el caso cuando se comparan señales de conversación limpia y de música de banda completa.
Los agujeros espectrales del espectro descodlflcado pueden dividirse en dos tipos. El primero es pequeños agujeros a bajas frecuencias debido al efecto de enmascaramiento Instantáneo, véase por ejemplo Estimation of Perceptual Entropy Uslng Nolse Masklng Criteria, Proc. ICASSP, pp. 2524-2527, Mayo de 1988, de J.D. Johnston [2], El segundo es agujeros más grandes a partir de la saturación por el umbral absoluto de audición y la adición de enmascaramiento [2], La SBR afecta principalmente al segundo tipo.
Además, un códec de audio típico basado en tal método que se dirige a rellenar el agujero espectral, es decir, coeficientes no codificados, para las altas frecuencias, es decir, el segundo tipo de agujeros espectrales, podría preferiblemente rellenar los agujeros espectrales sobre el espectro completo. Verdaderamente, Incluso si un códec de SBR es capaz de proporcionar una señal de audio de ancho de banda completo, las altas frecuencias reconstruidas no enmascararán las molestas aberraciones Introducidas por la descodlflcaclón, es decir, la cuantlflcaclón de la banda baja, es decir, las frecuencias bajas perceptualmente relevantes.
El documento WO 02/41302 A1 describe la adaptación de la frecuencia de transición de acuerdo con las características de la señal de entrada.
Compendio
Un objeto general de la presente Invención es proporcionar métodos y dispositivos para permitir una supresión eficiente de las aberraciones perceptuales provocadas por agujeros espectrales sobre una señal de audio de banda completa.
Los objetos anteriores se logran mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas.
La presente invención tiene varias ventajas. Una ventaja es que un uso de la frecuencia de transición permite la utilización de un rellenado combinado del espectro utilizando tanto rellenado con ruido como extensión del ancho de banda. Además, la frecuencia de transición se define adaptatlvamente, por ejemplo, de acuerdo con el esquema de codificación utilizado, lo que hace al rellenado del espectro dependiente por ejemplo de la resolución de la frecuencia. Cualquier códec de conversación y/o de audlo que utilice este método es capaz de proporcionar una alta calidad, es decir, con menos aberraciones molestas, y una señal de audio de ancho de banda completo. El método es flexible en el sentido de que puede ser combinado con cualquier tipo de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrlco, etc.).
Breve descripción de los dibujos
La Invención, junto con otros objetos y ventajas de la misma, puede comprenderse mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los cuales:
la FIG. 1 es un esquema de bloques esquemático de un sistema de códec;
la FIG. 2 es un esquema de bloques esquemático de una realización de una realización de un codificador de señal de audio de acuerdo con la presente invención;
la FIG. 3 es una ilustración esquemática de coeficientes espectrales, grupos de los mismos y bandas de
frecuencia;
la FIG. 4 es un esquema de bloques esquemático de una realización de una realización de un descodificador de señal de audlo de acuerdo con la presente Invención;
las FIGS. 5A-C son Ilustraciones de principios para encontrar una frecuencia de transición;
la FIG. 6 es un diagrama de flujo de etapas de una realización de un método de acuerdo con la presente
invención; y
la FIG. 7 es un diagrama de flujo de una etapa de una realización de un método de manejo de señal de acuerdo con la presente Invención.
Descripción detallada
En todos los dibujos, los mismos números de referencia se utilizan para elementos similares o correspondientes.
Una realización de un sistema de códec general para señales de audio se ilustra esquemáticamente en la Fig. 1. Una fuente de audio 10 produce una señal de audio 15. La señal de audio 15 es manejada en un codificador 20, el cual produce un flujo binario 25 que comprende datos que representan a la señal de audio 15. El flujo binario 25 puede ser transmitido, como por ejemplo, en el caso de la comunicación multimedia, mediante una disposición de transmisión y/o de almacenamiento 30. La disposición de transmisión y/o de almacenamiento 30 opcionalmente también puede comprender alguna capacidad de almacenamiento. El flujo binario 25 puede también ser almacenado sólo en la disposición de transmisión y/o de almacenamiento 30, sólo introduciendo un retardo de tiempo en la utilización del flujo binario. La disposición de transmisión y/o de almacenamiento 30 es así una disposición que introduce al menos uno de un reposicionamiento en el espacio o retardo en el tiempo del flujo binario 25. Cuando se está utilizando, el flujo binario 25 es manejado en un descodificador 40, que produce una salida de audio 35 de los datos comprendidos en el flujo binario. Típicamente, la salida de audio 35 debería recoger la señal de audio 15 original lo mejor posible bajo ciertas restricciones.
En muchas aplicaciones en tiempo real, el retardo en el tiempo entre la producción de la señal de audio 15 original y la salida de audio 35 producida típicamente no está permitido que exceda un cierto tiempo. Si los recursos de transmisión en el mismo tiempo son limitados, la tasa de bits disponible es también típicamente baja. Con el fin de utilizar la tasa de bits disponible de una mejor manera posible, se ha desarrollado la... [Seguir leyendo]
Reivindicaciones:
1. Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:
obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;
dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74);
determinar (212) una frecuencia de transición (ft);
rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y
extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);
donde
la citada frecuencia de transición (ft) es ajustada al límite superior de la primera banda de frecuencia visto desde el lado de la frecuencia alta que tiene en él un coeficiente cuantificado.
2. Método de acuerdo con la reivindicación 1, en el que las citadas bandas de frecuencia (74) tienen un ancho de frecuencia constante.
3. El método de acuerdo con la reivindicación 1, en el que al menos dos de las citadas bandas de frecuencia (74) tienen diferentes anchos de frecuencia.
4. Método de acuerdo con cualquier reivindicación precedente, en el que la citada etapa de ajustar la citada frecuencia de transición (ft) depende también de una frecuencia de transición previamente utilizada
5. Método de acuerdo con la reivindicación 4, en el que la citada etapa de ajustar la citada frecuencia de transición (ft) depende también de más de una frecuencia de transición previamente utilizada.
6. Método de acuerdo con la reivindicación 4 ó 5, en el que la citada frecuencia de transición (ft) está prohibido que cambie más de una cantidad absoluta o relativa predeterminada entre dos tramas consecutivas.
7. Método para su uso para la codificación espectral de una señal de audio, que comprende:
dividir los coeficientes espectrales de un conjunto inicial (24; 42) de coeficientes espectrales que representan a la citada señal de audio en una pluralidad de bandas de frecuencia;
determinar (212) una frecuencia de transición (ft) para el conjunto (24; 42) inicial de coeficientes espectrales que representan a la citada señal de audio;
definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda;
estando la citada frecuencia de transición (ft) ajustada al límite superior de la primera banda de frecuencia vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.
8. Descodificador (40) para la descodificación espectral de una señal de audio, que comprende:
una entrada para obtener un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;
unos circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft);
un rellenador con ruido (50) para el rellenado con ruido de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y
un extensor de ancho de banda (55) dispuesto para extender el ancho de banda del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);
estando los citados circuitos de determinación de transición (60) dispuestos
para dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y
para determinar la citada frecuencia de transición (ft) como el limite superior de la primera banda de frecuencia vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.
9. Codificador (20) para la codificación espectral de una señal de audio, que comprende:
circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) para un conjunto (24) inicial de coeficientes espectrales que representan a la citada señal de audio;
definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, previsto para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser 10 un sujeto para la extensión del ancho de banda;
estando los citados circuitos de determinación de transición (60) dispuestos para
dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74), y para
determinar la citada frecuencia de transición (ft) como el límite superior de la primera banda de frecuencia 15 vista desde el lado de la frecuencia superior que tiene un coeficiente cuantificado en ella.
Patentes similares o relacionadas:
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Procesamiento de señales de audio durante la reconstrucción de alta frecuencia, del 17 de Junio de 2020, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal de audio de salida de banda ancha a partir de una señal de audio de entrada de banda estrecha, […]
Sobremuestreo en un banco de filtros de reemisor combinado, del 10 de Junio de 2020, de DOLBY INTERNATIONAL AB: Un sistema para generar una señal de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja […]
Escalado para circuitería de forma de ganancia, del 22 de Abril de 2020, de QUALCOMM INCORPORATED: Un procedimiento de funcionamiento de un dispositivo, comprendiendo el procedimiento: recibir un primer conjunto de muestras y un segundo conjunto de muestras, […]
Codificadores de audio, decodificadores de audio, sistemas, métodos y programas informáticos que utilizan una resolución temporal aumentada en la proximidad temporal de inicios o finales de fricativos o africados, del 1 de Abril de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para proporcionar una información de audio codificada basándose en una información de audio de entrada , […]
Sintetizador de señales de audio y codificador de señales de audio, del 4 de Marzo de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Sintetizador de señales de audio para generar una señal de audio de síntesis que tiene una primera banda de frecuencia y una segunda banda de frecuencia […]
Decodificación de secuencias de bits de audio con metadatos de replicación de banda espectral mejorada en al menos un elemento de relleno, del 1 de Enero de 2020, de DOLBY INTERNATIONAL AB: Unidad de procesamiento de audio que comprende: una memoria intermedia configurada para almacenar al menos un bloque de una secuencia de bits de audio […]
Extensión de ancho de banda armónico de señales de audio, del 11 de Diciembre de 2019, de QUALCOMM INCORPORATED: Un procedimiento que comprende: separar, en un dispositivo, una señal de audio de entrada en al menos una señal de banda baja y una señal de banda alta, con […]