Un aparato para determinar una señal de audio de multi-canal de salida espacial.

Un aparato (100) para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada, caracterizado porque comprende:

un des-compositor semántico

(110) configurado para descomponer la señal de audio de entrada para obtener una primera señal descompuesta con una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad de semántica que es diferente de la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de fondo;

un presentador (120) para presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica y para presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica, en donde la primera característica de presentación y la segunda característica de presentación son diferentes entre sí,

en donde el presentador (120) comprende una primera etapa de monosynth DirAC (610) para presentar la parte de señal de primer plano, la primera etapa de monosynth DirAC (610) está configurada para crear una primera corriente de mono-DirAC que conduce a una percepción de una fuente semejante a punto cercano, y una segunda etapa de monosynth DirAC (620) para presentar la parte de señal de fondo, la segunda etapa monosynth DirAC (610) está configurada para crear una corriente mono-DirAC que conduce a una percepción de sonido esparcido espacialmente, en donde una corriente mono-DirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y

un procesador (130) para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial, en donde el procesador (130) comprende una etapa de fusión DirAC (630) para fusionar la primera corriente mono-DirAC y la segunda corriente mono-DirAC.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11187018.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: DISCH,SASCHA, PULKKI,Ville, LAITINEN,Mikko-Ville, ERKUT,CUMHUR.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > H04S7/00 (Disposiciones para la indicación; Disposiciones para el control, p. ej. para el control de la compensación)

PDF original: ES-2545220_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Un aparato para determinar una señal de audio de multicanal de salida espacial

La presente invención es concerniente con el campo de procesamiento de audio, especialmente procesamiento de propiedades de audio espaciales.

El procesamiento y/o codificación de audio ha avanzado de muchas maneras. Se genera más y más demanda para aplicaciones de audio espaciales. En muchas aplicaciones, el procesamiento de señal de audio es utilizado para descorrelacionar o presentar señales. Tales aplicaciones pueden, por ejemplo llevar a cabo mezcla ascendente de monoaural a estéreo, mezcla ascendente de mono/estéreo a multicanal, reverberación artificial, ensanchamiento estéreo o mezcla/presentación interactiva del usuario.

Para ciertas clases de señales tales como por ejemplo señales semejantes a ruido, por ejemplo señales semejantes a aplauso, métodos y sistemas convencionales sufren ya sea de una calidad perceptual no satisfactoria o si se usa un procedimiento orientado al objeto, alta complejidad computacional debido al número de eventos auditivos a ser modelados o procesados. Otros ejemplos de material de audio, que son problemáticos, son en general material ambiental como, por ejemplo, el ruido que es emitido por una parvada de aves, una costa, caballos galopando, una división de soldados marchando, etc.

Los conceptos convencionales usan, por ejemplo, codificación estéreo paramétrica o codificación MPEGsurround (MPEG=grupo de expertos de películas) . La Figura 6 muestra una aplicación típica de un descorrelacionador en un mezclador ascendente de monoaural a estéreo. La Figura 6 muestra una señal de entrada monoaural provista a un descorrelacionador 610, que provee una señal de entrada descorrelacionada en su salida. La señal de entrada original es provista a una matriz de mezcla ascendente 620 junto con la señal descorrelacionada. Dependiendo de los parámetros de control de mezcla ascendente 630, una señal de salida estéreo es presentada. El descorrelacionador de señal 610 genera una señal descorrelacionada D alimentada a la etapa de formación de matriz 620 junto con la señal monoaural seca M. Dentro de la matriz de mezcla 620, los canales estéreo L (L = canal estéreo izquierdo) y R (R = canal estéreo derecho) son formados de acuerdo con una matriz de mezcla H. Los coeficientes en la matriz H pueden ser fijos, dependientes de la señal o controlados por el usuario.

Como alternativa, la matriz puede ser controlada mediante información lateral, transmitida junto con la mezcla descendente, que contiene una descripción paramétrica de cómo mezclar ascendentemente las señales de la mezcla descendente para formar la salida de multicanal deseada. Esta información lateral espacial es generada usualmente por un codificador de señal antes del proceso de mezcla ascendente.

Esto se hace comúnmente en codificación de audio espacial paramétrica, por ejemplo, en estéreo paramétrico consúltese J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "HighQuality Parametric Spatial Audio Coding at Low Bitrates" en AES 116th Convention, Berlín, preimpresión 6072, Mayo 2004 y en MPEG Surround, consúltese 40 J. Herre, K. Kjörling, J. Breebaart, et. al., "MPEG Surround the ISO/MPEG Standard for Efficient and Compatible MultiChannel Audio Coding" en Proceedings of the 122nd AES Convention, Viena, Austria, Mayo 2007. Una estructura típica de un descodificador estéreo paramétrico es mostrada en la Figura 7. En este ejemplo, el proceso de descorrelación es efectuado en un dominio de transformada, que es indicado por el banco de filtro de análisis 710, que transforma una señal monoaural de entrada a dominio de transformada, por ejemplo, el dominio de 45 frecuencia en términos de un número de bandas de frecuencia.

En el dominio de frecuencia, el descorrelacionador 720 genera la señal descorrelacionada de conformidad, que va a ser mezclada ascendente en la matriz de mezcla ascendente 730. La matriz de mezcla ascendente 730 considera los parámetros de mezcla ascendente que son provistos por el bloque de modificación de parámetros 740, que es 50 provisto con parámetros de entrada espaciales y acoplado a una etapa de control de parámetros 750. En el ejemplo mostrado en la Figura 7, los parámetros espaciales pueden ser modificados por un usuario o herramientas adicionales tales como por ejemplo postprocesamiento o presentación/proyección binaural. En este caso, los parámetros de mezcla ascendente pueden ser fusionados con los parámetros de los filtros binaurales para formar los parámetros de entrada para la matriz de mezcla ascendente 730. La medición de los parámetros se puede llevar 55 a cabo por el bloque de modificación de parámetros 740. La salida de la matriz de mezcla ascendente 730 es luego provista a un banco de filtros de síntesis 760, que determina la señal de salida estéreo.

Como se describe anteriormente, la salida L/R de la matriz de mezcla H puede ser calculada de la señal de entrada monoaural M y la señal descorrelacionada D, por ejemplo de acuerdo con 60

** (Ver fórmula) **

En la matriz de mezcla, la cantidad de sonido descorrelacionado alimentado a la salida puede ser controlada en base a los parámetros transmitidos, por ejemplo ICC (ICC = correlación de intercanal) y/o mezclada o ajustes definidos por el usuario.

Otro procedimiento convencional es establecido por el método de permutación temporal. Una propuesta dedicada en la descorrelación de señales semejantes a aplauso se puede encontrar, por ejemplo en Gerard Hotho, Steven van de Par, Jeroen Breebaart, "Multichannel Coding of Applause Signals, " en EURASIP Journal on Advances in Signal Processing, Vol. 1, Art. 10, 2008. Aquí, una señal de audio monofónica es segmentada en segmentos de tiempo solapantes que son permutados temporalmente pseudoaleatoriamente dentro de un "súper"bloque para formar los canales de salida descorrelacionados. Las permutaciones son mutuamente independientes para un número de n canales de salida.

Otro procedimiento es el cambio de canal alternante del original y copia retardada con el fin de obtener una señal 15 descorrelacionada, consúltese con la solicitud de patente alemana 102007018032.455.

En algunos sistemas orientados a objetos conceptuales convencionales, por ejemplo en Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauß, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" en 116th International EAS Convention, Berlín, 2004, se describe cómo crear una escena inmersiva de muchos objetos, por ejemplo aplausos individuales, mediante la aplicación de una síntesis de campo de onda.

Todavía otro procedimiento es la llamada "codificación de audio direccional" (DirAc = codificación de audio direccional) , que es un método para representación de sonido espacial, aplicable para diferentes sistemas de reproducción de sonido, consúltese Pulkki, Ville, "Spatial Sound Reproduction with Directional Audio Coding" en J.

Audio Eng. Soc., Vol. 55, Nº 6, 2007. En la parte de análisis, la difusividad y dirección de llegada de sonido son estimados en un solo sitio dependiendo del tiempo y la frecuencia. En la parte de síntesis, las señales del micrófono son divididas primero en partes no difusas y partes difusas y luego son reproducidas utilizando estrategias diferentes.

Los procedimientos convencionales tienen una diversidad de desventajas. Por ejemplo, la mezcla ascendente guiada o sin guiar de las señales de audio que tienen contenido tales como aplauso puede requerir una descorrelación fuerte. Consecuentemente, por una parte, la descorrelación fuerte es necesaria para restaurar la sensación ambiental de estar, por ejemplo, en una sala de conciertos. Por otra parte, filtros de descorrelación... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100) para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada, caracterizado porque comprende:

un descompositor semántico (110) configurado para descomponer la señal de audio de entrada para obtener una primera señal descompuesta con una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad de semántica que es diferente de la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de fondo; un presentador (120) para presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica y para presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica, en donde la primera característica de presentación y la segunda característica de presentación son diferentes entre sí, en donde el presentador (120) comprende una primera etapa de monosynth DirAC (610) para presentar la parte de señal de primer plano, la primera etapa de monosynth DirAC (610) está configurada para crear una primera corriente de monoDirAC que conduce a una percepción de una fuente semejante a punto cercano, y una segunda etapa de monosynth DirAC (620) para presentar la parte de señal de fondo, la segunda etapa monosynth DirAC (610) está configurada para crear una corriente monoDirAC que conduce a una percepción de sonido esparcido espacialmente, en donde una corriente monoDirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y un procesador (130) para procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial, en donde el procesador (130) comprende una etapa de fusión DirAC (630) para fusionar la primera corriente monoDirAC y la segunda corriente monoDirAC.

2. El aparato de conformidad con la reivindicación 1, caracterizado porque la primera etapa monosynth DirAC (610)

está configurada de modo que los datos de azimuth se mantienen constantes con frecuencia y cambiados aleatoriamente o controlados por un proceso externo en tiempo dentro de un rango de azimuth controlado, y un parámetro de difusividad es ajustado a cero, y en el cual la segunda etapa monosynth DirAC (610) está configurada de modo que los datos de azimuth son ajustados aleatorios en tiempo y frecuencia dentro de valores de azimuth de restricción dados.

3. Un método para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada y un parámetro de entrada, caracterizado porque comprende las etapas de:

descomponer semánticamente la señal de audio de entrada para obtener una primera señal descompuesta con una primera propiedad semántica, la primera señal descompuesta es una parte de señal de primer plano, y una segunda señal descompuesta con una segunda propiedad semántica que es diferente desde la primera propiedad semántica, la segunda señal descompuesta es una parte de señal de fondo; presentar la primera señal descompuesta usando una primera característica de presentación para obtener una primera señal presentada con la primera propiedad semántica al procesar la primera señal descompuesta en una 45 primera etapa monosynth DirAC (610) , la primera etapa monosynth DirAC (610) está configurada para crear una primera corriente monoDirAC que conduce a una percepción de una fuente semejante a punto cercano; presentar la segunda señal descompuesta usando una segunda característica de presentación para obtener una segunda señal presentada con la segunda propiedad semántica al procesar la segunda señal descompuesta en una segunda etapa monosynth DirAC (620) , la segunda etapa monosynth DirAC (610) está configurada para 50 crear una corriente monoDirAC que conduce a una percepción de sonido esparcido espacialmente; en donde una corriente monoDirAC comprende datos de señal omnidireccionales y datos direccionales, y en donde la etapa de monosynth DirAC correspondiente está configurada para generar los datos direccionales controlando, en tiempo o frecuencia, datos direccionales introducidos en la etapa de monosynth DirAC correspondiente; y 55 procesar la primera señal presentada y la segunda señal presentada para obtener la señal de audio multicanal de salida espacial usando una etapa de fusión DirAC (630) para fusionar la primera corriente monoDirAC y la segunda corriente monoDirAC.

4. El método de conformidad con la reivindicación 3, caracterizado porque en la primera etapa monosynth DirAC

(610) , el dato azimuth se mantiene constante con frecuencia y cambia aleatoriamente o controlado por un proceso externo en tiempo dentro de un rango de azimuth controlado, y un parámetro de difusividad es ajustado a cero, y en el cual, en la segunda etapa monosynth DirAC (610) , el dato azimuth es ajustado aleatorio en tiempo y frecuencia dentro de los valores de azimuth de restricción dados.

5. Programa de computadora con un código de programa para realizar el método de conformidad con la reivindicación 3, caracterizado porque el código de programa corre en una computadora o un procesador.