Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada.
Un aparato para la reproducción de una señal de audio sobre la base de primeros datos (120;
321; 705) que representan una versión codificada de una primera porción de la señal de audio en una primera banda de frecuencia, y segundos datos (126; 322; 708) que representan información lateral sobre una segunda porción de la señal de audio en una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia, donde dicho dispositivo comprende:
un primer reproductor (100) configurado para reproducir la primera porción (777) de la señal de audio sobre la base de los primeros datos (120; 321; 705);
un proveedor (102; 200, 202a) configurado para proporcionar una señal de parche (122; 204) en la segunda banda de frecuencia, donde la señal de parche (122; 204) está al menos parcialmente no correlacionada con respecto a la primera porción (777) de la señal de audio, o es al menos parcialmente una versión descorrelacionada de la primera porción (777) de la señal de audio, que se ha desplazado hacia la segunda banda de frecuencia;
un segundo reproductor (106) configurado para reproducir la segunda porción de la señal de audio en la segunda banda de frecuencia sobre la base de los segundos datos (126; 322; 708) y la señal de parche (122; 204); y
un combinador (104) para la combinación de la primera porción reproducida (777) de la señal de audio y la señal de parche (122; 204) antes de que la segunda porción de la señal de audio sea reproducida por el segundo reproductor, o para la combinación de la primera porción reproducida (777) de la señal de audio y la segunda porción reproducida de la señal de audio.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12187265.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: DISCH,SASCHA, MULTRUS,MARKUS, Helmrich,Christian, SCHMIDT,KONSTANTIN, SCHUBERT,BENJAMIN.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L21/038 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › utilizando técnicas de extensión de banda.
PDF original: ES-2549953_T3.pdf
Ver la galería de la patente con 11 ilustraciones.
Fragmento de la descripción:
Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
La presente invención se refiere a un aparato, un método y un programa de ordenador para la reproducción de una señal de audio, y, en particular, a un aparato, un método y un programa de ordenador para la reproducción de una señal de audio en situaciones en las cuales la tasa de datos disponible es reducida. Además, la presente invención se refiere a un aparato, un método y un programa de ordenador para la generación de una señal de audio codificada, y a una correspondiente señal de audio codificada.
La codificación perceptualmente adaptada de señales de audio, para el eficiente almacenamiento y transmisión de estas señales de reducida tasa de datos, ha ganado aceptación en muchos campos. Se conocen algoritmos de codificación, en particular, como MPEG-1/2, capa 3 "MP3", MPEG-2/4 Codificación de Audio Avanzada (AAC, según sus siglas en inglés) o MPEG-H Codificación de Audio y Discurso Unificados (USAC según sus siglas en inglés). Las técnicas de codificación subyacentes, en particular, cuando se logran las menores tasas de bits, conducen a una reducción de la calidad del audio. El deterioro con frecuencia es producido principalmente por una limitación del lado del codificador, del ancho de banda de la señal de audio por ser transmitida.
En dicha situación, es estado del arte conocido el sometimiento de la señal de audio a una limitación de banda del lado del codificador, y la codificación de solo una banda inferior de la señal de audio por medio de un codificador de audio de alta calidad. La banda superior, sin embargo, solo es caracterizada muy groseramente por un conjunto de parámetros, que proporcionan, por ejemplo, la envoltura espectral de la banda superior. Del lado del decodificador, la banda superior es luego sintetizada mediante el emparche de la señal de banda inferior decodificada, en la banda superior de otra forma vacía, y la realización de subsiguientes ajustes con control de parámetros.
Los métodos convencionales para una extensión de ancho de banda de señales de audio con limitación de banda utilizan una función de copiado de porciones de señal de baja frecuencia (LF, según sus siglas en inglés) hacia el rango de alta frecuencia (HF, según sus siglas en inglés), a fin de aproximarse a la información faltante debido a la limitación de banda. En principio, dicha función de copiado es técnicamente equivalente a un desplazamiento espectral computado en el dominio de tiempo por medio de la modulación en banda lateral única (SSB, según sus siglas en inglés), si bien computacionalmente mucho menos compleja. Dichos métodos, como la Replicación de Banda Espectral (SBR, según sus siglas en inglés), se describen en la referencia de M. Dietz, L. Liljeryd, K. Kjórling y O. Kunz, "Spectral Band Replication, a novel approach in audio coding", en la 112th AES Convention, Munich, May 2002; S. Meltzer, R. Bóhm y F. Henn, "SBR enhanced audio codees for digital broadeasting such as "Digital Radio Mondiale" (DRM)", 112thAES Convention, Munich, May 2002; T. Ziegler, A. Ehret, P. Ekstrand y M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm", en la 112th AES Convention, Munich, May 2002; Norma Internacional ISO/IEC 14496- 3:2001/FPDAM I, "Extensión de ancho de banda", ISO/IEC, 2002, o "Speech bandwidth extensión method and apparatus" (Método y aparato de extensión de ancho de banda de discurso), Vasu lyengar et al. Patente de los Estados Unidos Nro. 5.455.888.
En estos métodos, no se realiza transposición armónica, si bien se introducen sucesivas señales de paso banda de la banda inferior, en sucesivos canales de banco de filtro de la banda superior. De este modo, se logra una aproximación grosera de la banda superior de la señal de audio. Esta aproximación grosera de la señal es luego aproximada, en una etapa posterior, a la original, por medio de un procesamiento posterior usando información de control obtenida de la señal original. Aquí, por ejemplo, los factores de escala sirven para adaptar la envoltura espectral, una filtración inversa y la adición de un piso de ruido para adaptar la tonalidad y una suplementación por porciones de señal sinusoidal, como se describe además en la Norma MPEG-4.
Se sabe, por las técnicas de extensiones de ancho de banda armónico descriptas en las referencias de Nagel, F.; Disch, S. A Harmonic Bandwidth Extensión Method for Audio Codees, IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2009; Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extensión Method with Novel Transient Handling for Audio Codees, 126th AES Convention, 2009; Zhong, H.; Villemoes, L.; Ekstrand, P. et al. QMF Based Harmonic Spectral Band Replication, 131 st Audio Engineering Society Convention, 2011; Villemoes, L.; Ekstrand, P.; Hedelin, P. Methods for enhanced harmonic transposition, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, (WASPAA), 2011, que, en la síntesis de la banda superior, podría introducirse indeseada aspereza auditiva en la señal. Una causa (de muchas) de dicha aspereza es la mala alineación espectral del parche y/o los efectos de disonancia en las regiones de transición entre la banda inferior y el primer parche, o entre parches consecutivos. Las técnicas de extensiones de ancho de banda armónico son diseñadas de manera de mejorar estos dos aspectos, no obstante, a expensas de la complejidad computacional.
Los cálculos de banco de filtro y el emparche en el dominio de banco de filtro, en especial, en la extensión de ancho de banda armónico, pueden convertirse, de hecho, en un alto esfuerzo computacional. En la Solicitud WO 98/57436, se describe una técnica de emparche avanzada que puede, hasta cierto alcance limitado, evitar los efectos de disonancia mediante la introducción de las así denominadas bandas de guardia entre diferentes parches espectrales, y la realización de un emparchado modificado de copia de respaldo a fin de disminuir la mala alineación espectral y, a la vez, mantener la moderada complejidad computacional.
Además, existen otros métodos tales como la así denominada "extensión de ancho de banda ciega", que se describe en la referencia de E. Larsen, R. M. Aarts, y M. Danessis, "Efficient high-frequency bandwidth extensión of music and speech", en AES 112th Convention, Munich, Germany, May 2002, donde no se usa información sobre el rango HF original. Aún más, existe también el método de la así denominada "extensión de ancho de banda artificial", que se describe en la referencia de K. Káyhkó, A Robust Wideband Enhancement for Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio signal Processing, 2001.
En la referencia de J. Mákinen et al:. AMR-WB+: a new audio coding standard for 3rd generation mobile audio Services Broadcasts, IEEE, ICASSP '05, se describe un método para la extensión de ancho de banda, donde la operación de copiado de la extensión de ancho de banda con un copiado de respaldo de sucesivas señales de paso banda de acuerdo con la tecnología SBR es reemplazada por el espejado, por ejemplo, por el muestreado ascendente.
Otras tecnologías para la extensión de ancho de banda se describen en los siguientes documentos. R. M. Aarts, E. Larsen, y O. Ouweltjes, "A unified approach to low- and high frequency bandwidth extensión", AES 115th Convention, New York, USA, October 2003; E. Larsen y R. M. Aarts, "Audio Bandwidth Extensión - Application to psychoacoustics, Signal Processing and Loudspeaker Design", John Wiley & Sons, Ltd., 2004; E. Larsen, R. M. Aarts, y M. Danessis, "Efficient high-frequency bandwidth extensión of music and speech", AES 112th Convention, Munich, May 2002\ J. Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973; Solicitud de Patente de los Estados Unidos Nro. 08/951.029; Patente de los Estados Unidos Nro. 6.895.375. En EP 2239732 A se describe una técnica adicional de extensión de ancho de banda.
Los métodos conocidos de extensión de banda armónica muestran una alta complejidad. Por otra parte, los métodos de extensión de ancho de banda con reducida complejidad muestran pérdidas de calidad. En particular con una baja tasa de bits y en combinación con un bajo ancho de banda del rango LF, pueden producirse artefactos tales como aspereza y un timbre percibido como desagradable. Una razón para esto es principalmente el hecho de que la porción HF aproximada se sustenta en una o más operaciones de copla directa o espejo... [Seguir leyendo]
Reivindicaciones:
1. Un aparato para la reproducción de una señal de audio sobre la base de primeros datos (120; 321; 705) que representan una versión codificada de una primera porción de la señal de audio en una primera banda de frecuencia, y segundos datos (126; 322; 708) que representan información lateral sobre una segunda porción de la señal de audio en
5 una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia, donde dicho dispositivo comprende:
un primer reproductor (100) configurado para reproducir la primera porción (777) de la señal de audio sobre la base de los primeros datos (120; 321; 705);
un proveedor (102; 200, 202a) configurado para proporcionar una señal de parche (122; 204) en la segunda banda de 10 frecuencia, donde la señal de parche (122; 204) está al menos parcialmente no correlacionada con respecto a la primera porción (777) de la señal de audio, o es al menos parcialmente una versión descorrelacionada de la primera porción (777) de la señal de audio, que se ha desplazado hacia la segunda banda de frecuencia;
un segundo reproductor (106) configurado para reproducir la segunda porción de la señal de audio en la segunda banda de frecuencia sobre la base de los segundos datos (126; 322; 708) y la señal de parche (122; 204); y
15 un combinador (104) para la combinación de la primera porción reproducida (777) de la señal de audio y la señal de parche (122; 204) antes de que la segunda porción de la señal de audio sea reproducida por el segundo reproductor, o para la combinación de la primera porción reproducida (777) de la señal de audio y la segunda porción reproducida de la señal de audio.
2. El aparato de la reivindicación 1, donde el segundo reproductor (106) está configurado para reproducir la señal 20 de audio en la segunda banda de frecuencia sobre la base de los segundos datos (126; 322; 708) y la señal de parche
(122; 204), si la primera porción (777) de la señal de audio no comprende un indicador de una fuerte correlación entre la primera porción de la señal de audio y la segunda porción de la señal de audio, y donde el segundo reproductor (106) está configurado para reproducir la señal de audio en la segunda banda de frecuencia sobre la base de los segundos datos (126; 322; 708) y una versión de la primera porción de la señal de audio que se ha desplazado hacia la segunda 25 banda de frecuencia y que no se ha descorrelacionado, si la primera porción (777) de la señal de audio comprende un indicador de una fuerte correlación entre la primera porción de la señal de audio y la segunda porción de la señal de audio.
3. El aparato de la reivindicación 1 o 2, donde el proveedor (102) está configurado para proporcionar una señal de parche sintético que está no correlacionada con respecto a la primera porción de la señal de audio.
4. El aparato de la reivindicación 3, donde la señal de parche sintético es una señal de ruido.
30 5. El aparato de la reivindicación 1 o 2, donde el proveedor (102) comprende a unidad de desplazamiento (200) y
un descorrelacionador (202a.... 202p), que están configurados para generar la señal de parche (122; 204) como una versión descorrelacionada de la primera porción (777) de la señal de audio desplazada hacia la segunda banda de frecuencia.
6. El aparato de la reivindicación 5, donde el descorrelacionador (202a... 202p) está configurado para preservar 35 por lo menos una de una envoltura espectral de la primera porción (777) de la señal de audio y una envoltura temporal de
la primera porción (777) de la señal de audio.
7. El aparato de la reivindicación 5 o 6, donde el descorrelacionador (202a... 202p) comprende uno de:
un filtro paso todo configurado para causar variaciones de retardo de grupo en la primera porción de la señal de audio;
un aleatorizador de fase configurado para causar la aleatorización de fase de coeficientes espectrales de la primera 40 porción de la señal de audio; y
un aplicador configurado para aplicar un retardo de tiempo dependiente de la frecuencia a subporciones de la primera porción de la señal de audio.
8. El aparato de una de las reivindicaciones 5 a 7, donde el descorrelacionador (202a... 202p) comprende un descorrelacionador adaptador de señal configurado para variar el grado de descorrelación a fin de aplicar una
45 descorrelación más alta si la primera porción (777) de la señal de audio no comprende un indicador de una fuerte
correlación entre la primera porción de la señal de audlo y la segunda porción de la señal de audlo, y para aplicar una menor descorrelación o no aplicar una descorrelación si la primera porción (777) de la señal de audlo comprende un indicador de una fuerte correlación entre la primera porción de la señal de audlo y la segunda porción de la señal de audio.
9. El aparato de una de las reivindicaciones 1 a 8, que comprende un detector (108) configurado para detectar si la primera porción de señal (777) de la señal de audio comprende un indicador de una fuerte correlación entre la primera porción de la señal de audio y la segunda porción de la señal de audio.
10. El aparato de una de las reivindicaciones 1 a 9, donde el proveedor (200, 202a... 202p) está configurado para proporcionar una segunda señal de parche en una tercera banda de frecuencia, donde la segunda señal de parche está no correlacionada con respecto a la primera porción de la señal de audio o es una versión descorrelacionada de la primera porción de la señal de audio, que se ha desplazado hacia la tercera banda de frecuencia, donde la segunda señal de parche está no correlacionada o está descorrelacionada con respecto a la primera señal de parche, donde el aparato comprende un tercer reproductor, donde el tercer reproductor está configurado para reproducir una tercera porción de la señal de audio sobre la base de la segunda señal de parche y terceros datos que representan información lateral sobre la tercera porción de la señal de audio en la tercera banda de frecuencia, donde la tercera banda de frecuencia comprende frecuencias más altas que la segunda banda de frecuencia.
11. Un método para la reproducción de una señal de audio sobre la base de los primeros datos (120; 321; 705) que representan una versión codificada de una primera porción de la señal de audio en una primera banda de frecuencia, y segundos datos (126; 322; 708) que representan información lateral sobre una segunda porción de la señal de audio en una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia, donde dicho método comprende:
la reproducción de la señal de audio (777) en la primera banda de frecuencia sobre la base de los primeros datos (120; 321; 705);
la provisión de una señal de parche (122; 204) en la segunda banda de frecuencia, donde la señal de parche (122; 204) está al menos parcialmente no correlacionada con respecto a la primera porción (777) de la señal de audio o es al menos parcialmente una versión descorrelacionada de la primera porción (777) de la señal de audio, que se ha desplazado hacia la segunda banda de frecuencia;
la reproducción de la segunda porción de la señal de audio en la segunda banda de frecuencia sobre la base de los segundos datos (126; 322; 708) y la señal de parche (122; 204); y
la combinación de la primera porción reproducida (777) de la señal de audio y la señal de parche (122; 204) antes de que la segunda porción de la señal de audio es reproducida, o la combinación de la primera porción reproducida (777) de la señal de audio y la segunda porción reproducida de la señal de audio.
12. Un aparato para la generación de una señal de audio codificada (320), donde la señal de audio codificada (320) comprende primeros datos (321) que representan una versión codificada de una primera porción (703) de la señal de audio en una primera banda de frecuencia, y segundos datos (322) que representan información lateral sobre una segunda porción (706) de la señal de audio en una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia, que comprende:
un añadidor de información de descorrelación (300) configurado para añadir a la señal de audio codificada (320) información (323) sobre un grado de descorrelación para ser usado entre la primera porción de la señal de audio y una señal de parche, sobre la base de lo cual la segunda porción de la señal de audio es reproducida cuando se realiza la reproducción de la señal de audio desde la señal de audio codificada.
13. Un método para la generación de una señal de audio codificada (320), donde la señal de audio codificada (320) comprende primeros datos (321) que representan una versión codificada de una primera porción (703) de la señal de audio en una primera banda de frecuencia, y segundos datos (322) que representan información lateral sobre una segunda porción (706) de la señal de audio en una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia, que comprende:
la añadidura a la señal de audio codificada (320), de información (323) sobre un grado de descorrelación para ser usado entre la primera porción de la señal de audio y una señal de parche, sobre la base de lo cual la segunda porción de la señal de audio es reproducida cuando se realiza la reproducción de la señal de audio desde la señal de audio codificada (320).
14. Un programa de ordenador que comprende código de programa adaptado para la realización de un método de acuerdo con la reivindicación 11 o 13, cuando el programa de ordenador se ejecuta en un ordenador.
15. Una señal de audio codificada (320) que comprende:
primeros datos (321) que representan una versión codificada de una primera porción (703) de la señal de audio en una 5 primera banda de frecuencia;
segundos datos (322) que representan información lateral sobre una segunda porción (706) de la señal de audio en una segunda banda de frecuencia, donde la segunda banda de frecuencia comprende frecuencias más altas que la primera banda de frecuencia; e
información (323) sobre un grado de descorrelación para ser usado entre la primera porción de la señal de audio y una 10 señal de parche, sobre la base de lo cual la segunda porción de la señal de audio es reproducida cuando se realiza la reproducción de la señal de audio desde la señal de audio codificada.
Patentes similares o relacionadas:
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Procesamiento de señales de audio durante la reconstrucción de alta frecuencia, del 17 de Junio de 2020, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal de audio de salida de banda ancha a partir de una señal de audio de entrada de banda estrecha, […]
Sobremuestreo en un banco de filtros de reemisor combinado, del 10 de Junio de 2020, de DOLBY INTERNATIONAL AB: Un sistema para generar una señal de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja […]
Escalado para circuitería de forma de ganancia, del 22 de Abril de 2020, de QUALCOMM INCORPORATED: Un procedimiento de funcionamiento de un dispositivo, comprendiendo el procedimiento: recibir un primer conjunto de muestras y un segundo conjunto de muestras, […]
Codificadores de audio, decodificadores de audio, sistemas, métodos y programas informáticos que utilizan una resolución temporal aumentada en la proximidad temporal de inicios o finales de fricativos o africados, del 1 de Abril de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para proporcionar una información de audio codificada basándose en una información de audio de entrada , […]
Sintetizador de señales de audio y codificador de señales de audio, del 4 de Marzo de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Sintetizador de señales de audio para generar una señal de audio de síntesis que tiene una primera banda de frecuencia y una segunda banda de frecuencia […]
Decodificación de secuencias de bits de audio con metadatos de replicación de banda espectral mejorada en al menos un elemento de relleno, del 1 de Enero de 2020, de DOLBY INTERNATIONAL AB: Unidad de procesamiento de audio que comprende: una memoria intermedia configurada para almacenar al menos un bloque de una secuencia de bits de audio […]
Extensión de ancho de banda armónico de señales de audio, del 11 de Diciembre de 2019, de QUALCOMM INCORPORATED: Un procedimiento que comprende: separar, en un dispositivo, una señal de audio de entrada en al menos una señal de banda baja y una señal de banda alta, con […]