MÉTODO MEJORADO PARA LA CONFORMACIÓN DE SEÑALES EN RECONSTRUCCIÓN DE AUDIO MULTICANAL.
Reconstructor (30; 60) multicanal para generar un canal (50; 76) de salida reconstruido usando al menos un canal (38;
68) de mezcla descendente derivado mezclando de manera descendente una pluralidad de canales originales y usando una representación (40; 72) de parámetros, incluyendo la representación (40; 72) de parámetros información sobre una estructura temporal de un canal original, que comprende: un generador (32; 62) para generar una componente (42; 64) de señal directa y una componente (44; 66) de señal difusa para el canal (50; 76) de salida reconstruido, basándose en el canal (38; 68) de mezcla descendente; un modificador (34; 69) de señal directa para modificar la componente (42; 64) de señal directa usando la representación (40; 72) de parámetros, usando la información sobre la estructura temporal del canal original; y un combinador (36; 74) para combinar la componente (46) de señal directa modificada y la componente (44; 66) de señal difusa para obtener el canal (50; 76) de salida reconstruido, en el que el modificador de señal directa no altera la componente de señal difusa
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2006/004732.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: HERRE, JURGEN, POPP, HARALD, DISCH,SASCHA, LINZMEIER,KARSTEN.
Fecha de Publicación: .
Fecha Solicitud PCT: 18 de Mayo de 2006.
Clasificación Internacional de Patentes:
- H04S3/00A
Clasificación PCT:
- H04S1/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas con dos canales (H04S 5/00, H04S 7/00 tienen prioridad).
- H04S3/00 H04S […] › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.
PDF original: ES-2362920_T3.pdf
Fragmento de la descripción:
Campo de la invención La presente invención se refiere a un concepto de conformación de señal mejorada en reconstrucción de audio multicanal y en particular a un nuevo enfoque de conformación de envolvente.
Antecedentes de la invención y técnica anterior El desarrollo reciente en la codificación de audio permite la recreación de una representación multicanal de una señal de audio basándose en una señal estéreo (o mono) y datos de control correspondientes. Estos métodos difieren sustancialmente de las soluciones basadas en matrices anteriores, tales como Dolby Prologic, puesto que se transmiten datos de control adicionales para controlar la recreación, a lo que también se hace referencia como mezcla ascendente, de los canales envolventes basándose en los canales estéreo o mono transmitidos. Tales decodificadores de audio multicanal paramétricos reconstruyen N canales basándose en M canales transmitidos, donde N > M, y los datos de control adicionales. El uso de los datos de control adicionales provoca una tasa de transmisión de datos significativamente inferior que la transmisión de todos los N canales, haciendo que la codificación sea muy eficaz, mientras que al mismo tiempo se garantiza la compatibilidad con los dispositivos de M canales y los dispositivos de N canales. Los M canales pueden ser una representación de canal mono único, de canal estéreo o de 5.1 canales. De este modo, es posible tener una señal original de 7.2 canales, mezclada de manera descendente para dar una señal de
5.1 canales compatible hacia atrás, y parámetros de audio espaciales que permiten a un decodificador de audio espacial reproducir una versión muy similar de los 7.2 canales originales, con una sobrecarga de tasa de transmisión de bits adicional pequeña. Estos métodos de codificación de envolvente paramétrica comprenden usualmente una parametrización de la señal envolvente basándose en parámetros ILD (diferencia de nivel entre canales) e ICC (coherencia entre canales), variables en tiempo y frecuencia. Estos parámetros describen, por ejemplo, correlaciones y tasas de energía entre pares de canales de la señal multicanal original. En el proceso de decodificación, la señal multicanal recreada se obtiene distribuyendo la energía de los canales mezclados de manera descendente recibidos entre todos los pares de canales como se describe por los parámetros ILD transmitidos. Sin embargo, puesto que una señal multicanal puede tener una distribución de energía equitativa entre todos los canales, mientras las señales en los diferentes canales son muy diferentes, dando así la impresión respecto a la escucha de un sonido muy amplio, la amplitud correcta se obtiene mezclando señales con versiones decorrelacionadas de las mismas, como se describe por el parámetro ICC. La versión decorrelacionada de la señal, que a menudo se denomina también señal húmeda o difusa, se obtiene pasando la señal a través de un reverberador, tal como un filtro pasa todo. Una forma simple de decorrelación es aplicar un retardo específico a la señal. En general, existen una gran cantidad de reverberadores diferentes conocidos en la técnica, la implementación precisa del reverberador usado es de menor importancia. La salida del decorrelacionador tiene una respuesta de tiempo que usualmente es muy plana. De este modo, una señal de Dirac de entrada proporciona una salida repentina de ruido descendente. Cuando se mezcla la señal decorrelacionada con la señal original, para algunos tipos de señales transitorias, como las señales de aplausos, es importante realizar un procesamiento posterior de la señal para evitar la percepción de artefactos introducidos adicionalmente que pueden dar como resultado la percepción de un tamaño de habitación más grande y artefactos de tipo pre-eco. En general, la invención se refiere a un sistema que representa audio multicanal como una combinación de datos mezclados de manera descendente de audio (por ejemplo, uno o dos canales) y datos multicanal paramétricos relacionados. En tal esquema (por ejemplo, en la codificación de indicadores binaurales) se transmite un flujo de datos de mezcla descendente de audio, en el que puede indicarse que la forma más simple de mezcla descendente es simplemente añadir las señales diferentes de una señal multicanal. Tal señal (señal de suma) va acompañada de un flujo de datos multicanal paramétricos (información secundaria). La información secundaria comprende, por ejemplo, uno o más de los tipos de parámetros presentados anteriormente para describir la interrelación espacial de los canales originales de la señal multicanal. En un sentido, el esquema multicanal paramétrico actúa como un pre/postprocesador respecto al extremo de envío/recepción de los datos de mezcla descendente, por ejemplo, con la señal de suma y la información secundaria. Debe indicarse que la señal de suma de los datos de mezcla descendente puede codificarse de manera adicional usando cualquier codificador de audio o de voz. Como la transmisión de señales multicanal sobre portadoras de bajo ancho de banda está pasando a ser cada vez más popular, estos sistemas, también conocidos como “codificación de audio espacial“, “MPEG envolvente“, se han desarrollado mejor recientemente. Las siguientes publicaciones se conocen en el contexto de estas tecnologías:
[1] C. Faller y F. Baumgarte, “Efficient representation of spatial audio using perceptual parametrization,” en Proc. IEEE WASPAA, Mohonk, NY, octubre de 2001.
[2] F. Baumgarte y C. Faller, “Estimation of auditory spatial cues for binaural cue coding,” en Proc. ICASSP 2002, Orlando, FL, mayo de 2002.
[3] C. Faller y F. Baumgarte, “Binaural cue coding: a novel and efficient representation of spatial audio,” en Proc. ICASSP 2002, Orlando, FL, mayo de 2002.
[4] F. Baumgarte y C. Faller, “Why binaural cue coding is better than intensity stereo coding,” en Proc. AES 112th Conv., Munich, Alemania, mayo de 2002.
[5] C. Faller y F. Baumgarte, “Binaural cue coding applied to stereo and multi-channel audio compression,” en Proc. AES 112th Conv., Munich, Alemania, mayo de 2002.
[6] F. Baumgarte y C. Faller, “Design and evaluation of binaural cue coding,” en AES 113th Conv., Los Angeles, CA, octubre de 2002.
[7] C. Faller y F. Baumgarte, “Binaural cue coding applied to audio compression with flexible rendering,” en Proc. AES 113th Conv., Los Angeles, CA, octubre de 2002.
[8] J. Breebaart, J. Herre, C. Faller, J. Rödén, F. Myburg, S. Disch, H. Purnhagen, G. Hoto, M. Neusinger, K. Kjörling, W. Oomen: “MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status”, 119th AES Convention, Nueva York 2005, Preprint 6599
[9] J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S. Disch, K. Kjörling, E. Schuijers, J. Hilpert, F. Myburg, “The Reference Model Architecture for MPEG Spatial Audio Coding”, 118th AES Convention, Barcelona 2005, Preprint 6477
[10] J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilpert, A. Hoelzer, K. Linzmeier, C. Spenger, P. Kroon: “Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio”, 117th AES Convention, San Francisco 2004, Preprint 6186
[11] J. Herre, C. Faller, C. Ertel, J. Hilpert, A Hoelzer, C. Spenger: “MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio”, 116th AES Convention, Berlín 2004, Preprint 6049. Una técnica relacionada, que se centra en la transmisión de dos canales a través de una señal mono transmitida se denomina “estéreo paramétrico” y por ejemplo se describe más ampliamente en las siguientes publicaciones:
[12] J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, “High-Quality Parametric Spatial Audio Coding at Low Bitrates”, AES 116th Convention, Berlín, Preprint 6072, mayo de 2004
[13] E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, “Low Complexity Parametric Stereo Coding”, AES 116th Convention, Berlín, Preprint 6073, mayo de 2004. En un decodificador de audio espacial, la mezcla ascendente multicanal se calcula a partir de una parte de señal directa y una parte de señal difusa, que se deriva por medio de la decorrelación de la parte directa, como ya se mencionó anteriormente. De este modo, en general, la parte difusa tiene una envolvente temporal diferente que la parte directa. El término “envolvente temporal” describe en este contexto la variación de la energía o... [Seguir leyendo]
Reivindicaciones:
1. Reconstructor (30; 60) multicanal para generar un canal (50; 76) de salida reconstruido usando al menos un canal (38; 68) de mezcla descendente derivado mezclando de manera descendente una pluralidad de canales originales y usando una representación (40; 72) de parámetros, incluyendo la representación (40; 72) de parámetros información sobre una estructura temporal de un canal original, que comprende:
un generador (32; 62) para generar una componente (42; 64) de señal directa y una componente (44; 66) de señal difusa para el canal (50; 76) de salida reconstruido, basándose en el canal (38; 68) de mezcla descendente; un modificador (34; 69) de señal directa para modificar la componente (42; 64) de señal directa usando la representación (40; 72) de parámetros, usando la información sobre la estructura temporal del canal original; y un combinador (36; 74) para combinar la componente (46) de señal directa modificada y la componente (44; 66) de señal difusa para obtener el canal (50; 76) de salida reconstruido, en el que el modificador de señal directa no altera la componente de señal difusa.
2. Reconstructor multicanal según la reivindicación 1, en el que el generador (32; 62) es operativo para generar la componente (42; 64) de señal directa usando solamente componentes del canal (38; 68) de mezcla descendente.
3. Reconstructor (30; 60) multicanal según las reivindicaciones 1 ó 2, en el que el generador (32; 62) es operativo para generar la componente (44; 66) de señal difusa usando una parte filtrada y/o retardada del canal (38; 68) de mezcla descendente.
4. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 1 a 3, en el que el modificador (34; 69) de señal directa es operativo para usar información sobre la estructura temporal del canal original que indica la energía contenida en el canal original dentro de una parte de tiempo de longitud finita del canal original.
5. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 1 a 3, en el que el modificador (34; 69) de señal directa es operativo para usar información sobre la estructura temporal del canal original que indica una amplitud media del canal original dentro de una parte de de tiempo de longitud finita del canal original.
6. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 1 a 5, en el que el combinador (36; 74) es operativo para añadir la componente (46) de señal directa modificada y la componente (44; 66) de señal difusa para obtener la señal reconstruida.
7. Reconstructor multicanal según cualquiera de las reivindicaciones 1 a 6, en el que el reconstructor multicanal es operativo para usar un primer canal de mezcla descendente que tiene información sobre un lado izquierdo de la pluralidad de canales originales y un segundo canal (38; 68) de mezcla descendente que tiene información sobre un lado derecho de la pluralidad de canales originales, en el que un primer canal (50; 76) de salida reconstruido para un lado izquierdo se combina usando solamente componentes de señal directa y difusa generadas a partir del primer canal de mezcla descendente y en el que un segundo canal de salida reconstruido para un lado derecho se combina usando componentes de señal directa y difusa generadas solamente a partir de la segunda señal de mezcla descendente.
8. Generador (30; 60) multicanal según cualquiera de las reivindicaciones 1 a 7, en el que el modificador (34; 68) de señal directa es operativo para modificar la señal directa para partes de tiempo de longitud finita que son menores que partes de tiempo de trama de información paramétrica adicional dentro de la representación (40; 72) de parámetros, en el que la información paramétrica adicional se usa por el generador (32; 62) para generar las componentes de señal directa y difusa.
9. Generador (30; 60) multicanal según la reivindicación 8, en el que el generador (32; 62) es operativo para usar información paramétrica adicional que tiene información sobre la energía del canal original con respecto a otros canales de la pluralidad de canales originales.
10. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que el modificador (34; 68) de señal directa es operativo para usar información sobre una estructura temporal del canal original que relaciona una estructura temporal del canal original con una estructura temporal del canal (38; 68) de mezcla descendente.
11. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que la información sobre la estructura temporal del canal original y la información sobre la estructura temporal del canal de mezcla descendente tiene una medida de energía o de amplitud.
12. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar información temporal de mezcla descendente sobre la estructura temporal del canal (38; 68) de mezcla descendente.
13. Reconstructor (30; 60) multicanal según la reivindicación 12, en el que el modificador (34; 68) de señal directa es operativo para derivar información temporal de mezcla descendente que indica la energía contenida en el canal (38; 68) de mezcla descendente dentro de un intervalo de tiempo de longitud finita o una medida de amplitud para el intervalo de tiempo de longitud finita.
14. Reconstructor (30; 60) multicanal según las reivindicaciones 12 ó 13, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar una estructura temporal objetivo para el canal (38; 68) de mezcla descendente reconstruido usando la información temporal de mezcla descendente y la información sobre la estructura temporal del canal original.
15. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 12 a 14, en el que el modificador (34; 68) de señal directa es operativo para derivar la información temporal de mezcla descendente para una parte espectral del canal (38; 68) de mezcla descendente por encima de un límite inferior espectral.
16. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 12 a 15, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para blanquear espectralmente el canal (38; 68) de mezcla descendente y para derivar la información temporal de mezcla descendente usando el canal (38; 68) de mezcla descendente blanqueado espectralmente.
17. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones 12 a 16, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar una representación suavizada del canal (38; 68) de mezcla descendente y para derivar la información temporal de mezcla descendente a partir de la representación suavizada del canal de mezcla descendente.
18. Reconstructor (30; 60) multicanal según la reivindicación 17, en el que el modificador (34; 68) de señal directa es operativo para derivar la representación suavizada filtrando el canal (38; 68) de mezcla descendente con un filtro paso bajo de primer orden.
19. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar información sobre una estructura temporal de una combinación de la componente de señal directa y la componente de señal difusa.
20. Reconstructor (30; 60) multicanal según la reivindicación 19, en el que el modificador (34; 68) de señal directa es operativo para blanquear espectralmente la combinación de las componentes de señal directa y señal difusa y para derivar la información sobre la estructura temporal de la combinación de las componentes de señal directa y señal difusa usando las componentes de señales directa y difusa blanqueadas espectralmente.
21. Reconstructor (30; 60) multicanal según las reivindicaciones 19 ó 20, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar una representación suavizada de la combinación de las componentes de señal directa y difusa y para derivar la información sobre la estructura temporal de la combinación de las componentes de señal directa y difusa a partir de la representación suavizada de la combinación de las componentes de señal directa y difusa.
22. Reconstructor (30; 60) multicanal según la reivindicación 21, en el que el modificador (34; 68) de señal directa es operativo para derivar la representación suavizada de la combinación de las componentes de señal directa y difusa filtrando las componentes de señal directa y difusa con un filtro paso bajo de primer orden.
23. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que el modificador (34; 68) de señal directa es operativo para usar información sobre la estructura temporal del canal original que representa una relación de la energía o amplitud para un intervalo de tiempo de longitud finita del canal original y la energía o amplitud para el intervalo de tiempo de longitud finita del canal (38; 68) de mezcla descendente.
24. Reconstructor (30; 60) multicanal según cualquiera de las reivindicaciones anteriores, en el que el modificador (34; 68) de señal directa es operativo para derivar una estructura temporal objetivo para el canal (50; 76) de salida reconstruido usando el canal (38; 68) de mezcla descendente y la información sobre la estructura temporal.
25. Reconstructor (30; 60) multicanal según la reivindicación 23, en el que el modificador (34; 68) de señal directa es operativo para modificar la componente de señal directa de tal modo que una estructura temporal del canal (50; 76) de salida reconstruido iguala la estructura temporal objetivo dentro de un rango de tolerancia.
26. Reconstructor (30; 60) multicanal según la reivindicación 24, en el que el modificador (34; 68) de señal directa es operativo para derivar un factor de ajuste a ajuste a escala intermedio, siendo el factor de ajuste a escala intermedio tal que la estructura temporal del canal (50; 76) de salida reconstruido iguala la estructura temporal objetivo dentro del rango de tolerancia, cuando el canal (50; 76) de salida reconstruido se combina usando las componentes de señal directa ajustadas a escala con el factor de ajuste a escala intermedio y la componente de señal difusa ajustada a escala con el factor de ajuste a escala intermedio.
27. Reconstructor (30; 60) multicanal según la reivindicación 25, en el que el modificador (34; 68) de señal directa es operativo adicionalmente para derivar un factor de ajuste a escala final usando el factor de ajuste a escala intermedio y las componentes de señal directa y difusa de tal modo que la estructura temporal del canal (50; 76) de salida reconstruido iguala la estructura temporal objetivo dentro del rango de tolerancia, cuando el canal (50; 76) de salida reconstruido se combina usando la componente de señal difusa y la componente de señal directa ajustadas a escala usando el factor de ajuste a escala final.
28. Método para generar un canal (50; 76) de salida reconstruido usando al menos un canal (38; 68) de mezcla descendente derivado mezclando de manera descendente una pluralidad de canales originales y usando una representación (40; 72) de parámetros, incluyendo la representación (40; 72) de parámetros información sobre una estructura temporal de un canal original, comprendiendo el método:
generar una componente de señal directa y una componente de señal difusa para el canal (50; 76) de salida reconstruido, basándose en el canal (38; 68) de mezcla descendente; modificar la componente de señal directa usando la representación (40; 72) de parámetros, usando la información sobre la estructura temporal del canal original; y combinar la componente (46) de señal directa modificada y la componente de señal difusa para obtener el canal (50; 76) de salida reconstruido, en el que la etapa de modificar no altera la componente de señal difusa.
29. Decodificador de audio multicanal para generar una reconstrucción de una señal multicanal usando al
menos un canal (38; 68) de mezcla descendente derivado mezclando de manera descendente una pluralidad de canales originales y usando una representación (40; 72) de parámetros, incluyendo la representación (40; 72) de parámetros información sobre una estructura temporal de un canal original, el decodificador de audio multicanal, que comprende un reconstructor multicanal según las reivindicaciones 1 a 27.
30. Programa informático con un código de programa para ejecutar el método según la reivindicación 28, cuando se ejecuta en un ordenador.
Patentes similares o relacionadas:
CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AMPLIABLE PARA APLICACIONES DE BAJA VELOCIDAD DE TRANSFERENCIA DE BITS, del 19 de Agosto de 2010, de CODING TECHNOLOGIES SWEDEN AB: Método para codificar una envolvente espectral de potencia de una señal de audio estereofónica o de una señal de audio multicanal que tiene dos canales, teniendo […]
CONTROL ADAPTATIVO DE COLA DE ECO PARA SINTESIS DE AUDIO PSEUDOESTEREOFONICA, del 13 de Mayo de 2010, de CODING TECHNOLOGIES AB: Unidad de reverberación para generar un primer canal y un segundo canal de una señal estereofónica o una señal multicanal, que comprende: un detector para detectar terminaciones […]
SINTESIS Y ESPACIALIZACION SONORA CONJUNTA, del 23 de Marzo de 2010, de FRANCE TELECOM: Procedimiento para sintetizar y espacializar conjuntamente una pluralidad de fuentes sonoras en posiciones asociadas del espacio, incluyendo: a) […]
CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AJUSTABLE A ESCALA PARA APLICACIONES DE CODIFICACION DE AUDIO A BAJA VELOCIDAD DE TRANSFERENCIA DE BITS, del 18 de Febrero de 2010, de DOLBY SWEDEN AB: Método para decodificar una envolvente espectral de potencia codificada de una señal estereofónica o una señal multicanal que tiene dos canales, teniendo los dos canales un […]
Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]
Espacialización sonora con efecto de sala, del 11 de Septiembre de 2019, de Orange: Procedimiento de espacialización sonora en el que se aplica al menos un filtrado en al menos dos señales de entrada (I , I , ..., I(L)) para suministrar al […]
Emisor paramétrico transparente, del 15 de Abril de 2019, de Turtle Beach Corporation: Un altavoz de audio ultrasónico transparente, que comprende: una primera capa conductora transparente ; una segunda capa conductora transparente ; y una […]
Método, aparato y terminal de grabación, del 19 de Marzo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un aparato de grabación que incluye un procesador , una memoria , una interfaz de comunicaciones , un bus , un sensor de gravedad , una […]