Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.
Método para la recuperación de espectro para la descodificación espectral de una señal de audio,
que comprende las etapas de:
obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft);
rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft); y
extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft);
estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio;
siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2008/050969.
Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).
Nacionalidad solicitante: Suecia.
Dirección: S-164 83 Stockholm SUECIA.
Inventor/es: BRIAND,Manuel, TALEB,Anisse, ULLBERG,GUSTAF.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
PDF original: ES-2403410_T3.pdf
Fragmento de la descripción:
Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda.
CAMPO TÉCNICO La presente invención se refiere en general a métodos y dispositivos para la codificación y la descodificación de señales de audio, y en particular a métodos y dispositivos para el rellenado del espectro.
ANTECEDENTES Cuando las señales van a ser almacenadas y/o transmitidas, un planteamiento estándar actual es codificar las señales de audio en una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o de transmisión, un deseo general es reducir el tamaño de la representación digital necesario para permitir la reconstrucción de las señales de audio con suficiente calidad. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación real.
Los codificadores de audio basados en transformada comprimen las señales de audio cuantificando los coeficientes de transformación. Para permitir bajas tasas de bits, los cuantificadores podrían concentrar los bits disponibles en los coeficientes más energéticos y perceptualmente relevantes y transmitir sólo esos, dejando “agujeros espectrales”
de coeficientes no cuantificados en el espectro de frecuencia.
La llamada tecnología de SBR (Replicación de Banda Espectral – Spectral Band Replication, en inglés) , véase por ejemplo el TS 26.404 V6.0.0 (2004-09) del 3GPP, “Enhanced aacPlus general audio codec – encoder SBR part (versión 6) ”, 2004 [1], cierra el hueco entre la señal de banda limitada de un codificador perceptual convencional y el ancho de banda audible de aproximadamente 15 kHz. La idea general tras la SBR es recrear el contenido de alta frecuencia faltante de una señal decodificada de una manera perceptualmente precisa. Las frecuencias por encima de 15 kHz son menos importantes desde un punto de vista psicoacústico, pero pueden ser también reconstruidas. No obstante, la SBR no puede ser utilizada como un códec autónomo. Siempre opera en conjunción con un códec de forma de onda convencional, un llamado códec de núcleo. El códec de núcleo es responsable de transmitir la parte inferior del espectro original mientras que el descodificador de SBR, que es principalmente un post-proceso al descodificador de forma de onda convencional, reconstruye el intervalo de frecuencia no transmitido. Los valores espectrales de la banda ancha no son transmitidos directamente como en los códecs convencionales. El sistema combinado ofrece una ganancia de codificación superior a la ganancia del códec de núcleo solo.
La metodología de SBR se basa en la definición de una frecuencia de transición fija entre una banda baja, bajas frecuencias perceptualmente relevantes codificadas, y una banda alta, altas frecuencias menos relevantes no codificadas. No obstante, en la práctica, esta frecuencia de transición se basa en el contenido de audio de la señaloriginal. En otras palabras, de una señal a otra, la frecuencia de transición apropiada puede variar mucho. Éste es por ejemplo el caso cuando se comparan señales de conversación limpia y de música de banda completa.
Los “agujeros espectrales” del espectro descodificado pueden dividirse en dos tipos. El primero es pequeños agujeros a bajas frecuencias debido al efecto de enmascaramiento instantáneo, véase por ejemplo “Estimation of Perceptual Entropy Using Noise Masking Criteria”, Proc. ICASSP, pp. 2524-2527, Mayo de 1988, de J.D. Johnston [2]. El segundo es agujeros más grandes a partir de la saturación por el umbral absoluto de audición y la adición de enmascaramiento [2]. La SBR afecta principalmente al segundo tipo.
Además, un códec de audio típico basado en tal método que se dirige a rellenar el “agujero espectral”, es decir, coeficientes no codificados, para las altas frecuencias, es decir, el segundo tipo de “agujeros espectrales”, podría preferiblemente rellenar los agujeros espectrales sobre el espectro completo. Verdaderamente, incluso si un códec de SBR es capaz de proporcionar una señal de audio de ancho de banda completo, las altas frecuencias reconstruidas no enmascararán las molestas aberraciones introducidas por la descodificación, es decir, la cuantificación de la banda baja, es decir, las frecuencias bajas perceptualmente relevantes.
El documento WO 02/41302 A1 describe la adaptación de la frecuencia de transición de acuerdo con las características de la señal de entrada.
COMPENDIO Un objeto general de la presente invención es proporcionar métodos y dispositivos para permitir una supresión eficiente de las aberraciones perceptuales provocadas por agujeros espectrales sobre una señal de audio de banda completa.
Los objetos anteriores se logran mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas.
La presente invención tiene varias ventajas. Una ventaja es que un uso de la frecuencia de transición permite la utilización de un rellenado combinado del espectro utilizando tanto rellenado con ruido como extensión del ancho de banda. Además, la frecuencia de transición se define adaptativamente, por ejemplo, de acuerdo con el esquema de codificación utilizado, lo que hace al rellenado del espectro dependiente por ejemplo de la resolución de la frecuencia. Cualquier códec de conversación y/o de audio que utilice este método es capaz de proporcionar una alta calidad, es decir, con menos aberraciones molestas, y una señal de audio de ancho de banda completo. El método es flexible en el sentido de que puede ser combinado con cualquier tipo de representación de la frecuencia (DCT, MDCT, etc.) o bancos de filtros, es decir, con cualquier códec (perceptual, paramétrico, etc.) .
BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención, junto con otros objetos y ventajas de la misma, puede comprenderse haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los cuales:
la FIGURA 1 es un esquema de bloques esquemático de un sistema de códec; la FIGURA 2 es un esquema de bloques esquemático de una realización de una realización de un codificador de señal de audio de acuerdo con la presente invención; la FIGURA 3 es una ilustración esquemática de coeficientes espectrales, grupos de los mismos y bandas de frecuencia; la FIGURA 4 es un esquema de bloques esquemático de una realización de una realización de un descodificador de señal de audio de acuerdo con la presente invención; las FIGURAS 5A-C son ilustraciones de realizaciones de principios para encontrar una frecuencia de transición; la FIGURA 6 es un diagrama de flujo de etapas de una realización de un método de acuerdo con la presente invención; y la FIGURA 7 es un diagrama de flujo de una etapa de una realización de un método de manejo de señal de acuerdo con la presente invención.
DESCRIPCIÓN DETALLADA En todos los dibujos, los mismos números de referencia se utilizan para elementos similares o correspondientes.
Una realización de un sistema de códec general para señales de audio se ilustra esquemáticamente en la FIGURA
1. Una fuente de audio 10 produce una señal de audio 15. La señal de audio 15 es manejada en un codificador 20, el cual produce un flujo 25 binario que comprende datos que representan a la señal de audio 15. El flujo binario 25 puede ser transmitido, como por ejemplo, en el caso de la comunicación multimedia, mediante una disposición de transmisión y/o de almacenamiento 30. La disposición de transmisión y/o de almacenamiento 30 opcionalmente también puede comprender alguna capacidad de almacenamiento. El flujo binario 25 puede también ser almacenado en la disposición de transmisión y/o de almacenamiento 30, sólo introduciendo un retardo de tiempo en la utilización del flujo binario. La disposición de transmisión y/o de almacenamiento 30 es así una disposición que introduce al menos uno de un reposicionamiento en el espacio o retardo en el tiempo del flujo binario 25. Cuando se está utilizando, el flujo binario 25 es manejado en un descodificador 40, que produce una salida de audio 35 de los datos comprendidos en el flujo binario. Típicamente, la salida de audio 35 debería recoger la señal de audio 15 original lo mejor posible bajo ciertas restricciones.
En muchas aplicaciones en tiempo real, el retardo en el tiempo entre la producción de la señal de audio 15 original y la salida de audio 35 producida típicamente no está permitido que exceda un cierto tiempo. Si los recursos de transmisión en el mismo tiempo son limitados, la tasa de bits disponible es también típicamente baja. Con el fin de utilizar la tasa de bits... [Seguir leyendo]
Reivindicaciones:
1. Método para la recuperación de espectro para la descodificación espectral de una señal de audio, que comprende las etapas de:
obtener (210) un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio; determinar (212) una frecuencia de transición (ft) ; rellenado con ruido (214) de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft) ; y extender el ancho de banda (216) del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft) ; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
2. Método de acuerdo con la reivindicación 1, en el que la citada etapa de determinación de la citada frecuencia de transición (ft) a su vez comprende las etapas de:
dividir los citados coeficientes espectrales del citado conjunto (42) inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74) ; y seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74) .
3. Método de acuerdo con la reivindicación 2, en el que las citadas bandas de frecuencia (74) tienen un ancho de frecuencia constante.
4. El método de acuerdo con la reivindicación 2, en el que al menos dos de las citadas bandas de frecuencia (74) tienen diferentes anchos de frecuencia.
5. Método de acuerdo con cualquiera de las reivindicaciones 2 a 4, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende:
encontrar una banda de frecuencia de transición, siendo una banda de frecuencia más alta en la cual la citada proporción es menor que un primer umbral.
6. Método de acuerdo con la reivindicación 5, en el que la citada etapa de seleccionar la citada frecuencia de transición (ft) comprende también:
establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición.
7. Método de acuerdo con la reivindicación 5 ó 6, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de una frecuencia de transición previamente utilizada.
8. Método de acuerdo con la reivindicación 7, en el que la citada etapa de establecer la citada frecuencia de transición (ft) depende también de más de una frecuencia de transición utilizada previamente.
9. Método de acuerdo con la reivindicación 7 u 8, en el que la citada frecuencia de transición (ft) está prohibido que cambie más de una cantidad absoluta o relativa predeterminada entre dos tramas consecutivas.
10. Método para su uso para la codificación espectral de una señal de audio, que comprende:
determinar (212) una frecuencia de transición (ft) para un conjunto (24; 42) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, prevista para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; siendo la citada frecuencia de transición (ft) adaptativamente determinada dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
11. Descodificador (40) para la descodificación espectral de una señal de audio, que comprende:
entrada para obtener un conjunto (42) inicial de coeficientes espectrales que representan a la citada señal de audio;
circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) ; un rellenador con ruido (50) para el rellenado con ruido de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales por debajo de la citada frecuencia de transición (ft) ; y un extensor de ancho de banda (55) dispuesto para extender el ancho de banda del citado conjunto (42) inicial de coeficientes espectrales por encima de la citada frecuencia de transición (ft) ; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determinación de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
12. Descodificador de acuerdo con la reivindicación 11, en el que los citados circuitos de determinación de transición (60) están también dispuestos para dividir los citados coeficientes espectrales del citado conjunto inicial de coeficientes espectrales en una pluralidad de bandas de frecuencia (74) , y para seleccionar la citada frecuencia de transición (ft) dependiendo de una proporción de agujeros espectrales en las citadas bandas de frecuencia (74) .
13. Descodificador de acuerdo con la reivindicación 12, en el que los citados circuitos de determinación de transición (60) están también dispuestos para encontrar una banda de frecuencia de transición, siendo una banda de la frecuencia más alta en la cual la citada proporción es menor que un primer umbral.
14. Descodificador de acuerdo con la reivindicación 13, en el que los citados circuitos de determinación de transición (60) están también dispuestos para establecer la citada frecuencia de transición (ft) dependiendo de un límite de frecuencia superior de la citada banda de frecuencia de transición.
15. Codificador (20) para la codificación espectral de una señal de audio, que comprende:
circuitos de determinación de transición (60) dispuestos para determinar una frecuencia de transición (ft) para un conjunto (24) inicial de coeficientes espectrales que representan a la citada señal de audio; definiendo la citada frecuencia de transición (ft) una frontera entre un intervalo de frecuencia, previsto para ser un sujeto para el rellenado con ruido de agujeros espectrales, y un intervalo de frecuencia, previsto para ser un sujeto para la extensión del ancho de banda; estando la citada frecuencia de transición (ft) adaptada a un contenido espectral de la citada señal de audio; estando los citados circuitos de determina de transición (60) dispuestos para determinar adaptativamente la citada frecuencia de transición (ft) dependiendo de una distribución de agujeros espectrales en el citado conjunto (42) inicial de coeficientes espectrales.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]