Aparato para fusionar corrientes de audio espacial.

Aparato (100) para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada,

que comprende:

un estimador (120) para estimar una primera representación de onda que comprende una primera medida de dirección de onda que es una cantidad direccional de una primera onda y una primera medida de campo de onda que está relacionada con una magnitud de la primera onda para la primera corriente de audio espacial, teniendo la primera corriente de audio espacial una primera representación de audio que comprende una medida de una presión o una magnitud de una primera señal de audio (P(1)) y una primera dirección de llegada y para estimar una segunda representación de onda que comprende una segunda medida de dirección de onda que es una cantidad direccional de una segunda onda y una segunda medida de campo de onda que está relacionada con una magnitud de la segunda onda para la segunda corriente de audio espacial, teniendo la segunda corriente de audio espacial una segunda representación de audio que comprende una medida de una presión o una magnitud de una segunda señal de audio (P(2)) y una segunda dirección de llegada y un procesador (130) para procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo de onda fusionada **Fórmula**, una medida de dirección de llegada fusionada **Fórmula** y un parámetro de difusividad fusionado **Fórmula**en el que el parámetro de difusividad fusionado está basado en la medida de campo de onda fusionada **Fórmula** , la primera representación de audio (P(1)) y la segunda representación de audio (P(2)), y en el que la medida de campo de onda fusionada **Fórmula**está basada en la primera medida de campo de onda, la segunda medida de campo de onda, la primera medida de dirección de onda y la segunda medida de dirección de onda y en el que el procesador (130) está configurado para procesar la primera representación de audio (P(1)) y la segunda representación de audio (P(2)) para obtener una representación de audio fusionada (P), y para proporcionar la corriente de audio fusionada que comprende la representación de audio fusionada (P), la medida de dirección de llegada fusionada **Fórmula** y el parámetro de difusividad fusionado **Fórmula** .

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/005827.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: DEL GALDO,Giovanni, KUECH,Fabian, KALLINGER,Markus, PULKKI,Ville, LAITINEN,Mikko-Ville, SCHULTZ-AMLING,Richard.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • H04S3/00 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04S SISTEMAS ESTEREOFONICOS.Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).

PDF original: ES-2382986_T3.pdf

 


Fragmento de la descripción:

Aparato para fusionar corrientes de audio espacial La presente invención se refiere al campo de procesamiento de audio, especialmente procesamiento de audio espacial, y a la fusión de múltiples corrientes de audio espacial.

DirAC (DirAC = Directional Audio Coding, codificación de audio direccional) , cf. V. Pulkki y C. Faller, Directional audio coding in spatial sound reproduction and stereo upmixing, en la 28a Conferencia Internacional de la AES, Pitea, Suecia, junio de 2006 y V. Pulkki, A method for reproducing natural or modified spatial impression in Multichannel listening, patente WO 2004/077884 A1, septiembre de 2004, es un enfoque eficaz para el análisis y reproducción de sonido espacial. DirAC utiliza una representación paramétrica de campos de sonido basada en las características que son relevantes para la percepción de sonido espacial, es decir la dirección de llegada (DOA = Direction Of Arrival) y la difusividad del campo de sonido en subbandas de frecuencia. En efecto, DirAC asume que las diferencias de tiempo interaural (ITD = Interaural Time Differences) y las diferencias de nivel interaural (ILD = Interaural Level Differences) son percibidas correctamente cuando la DOA de un campo de sonido se reproduce correctamente, mientras que la coherencia interaural (IC = Interaural Coherence) es percibida correctamente, si la difusividad se reproduce de manera precisa.

Estos parámetros, es decir DOA y difusividad, representan información secundaria que acompaña a una señal mono en lo que se denomina como una corriente de DirAC mono. Los parámetros de DirAC se obtienen a partir de una representación de tiempo-frecuencia de las señales de micrófono. Por consiguiente, los parámetros son dependientes del tiempo y de la frecuencia. En el lado de la reproducción, esta información permite una presentación espacial precisa. Para recrear el sonido espacial en una posición de escucha deseada se requiere un montaje de múltiples altavoces. Sin embargo, su geometría es arbitraria. En efecto, las señales para los altavoces se determinan en función de los parámetros de DirAC.

Hay diferencias substanciales entre DirAC y codificación de audio multicanal paramétrica tal como MPEG Surround aunque comparten estructuras de procesamiento muy similares, cf. Lars Villemoes, Juergen Herre, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, y Kristofer Kjrlingm, MPEG Surround: The forthcoming ISO Standard for spatial audio coding, en la 28ª Conferencia Internacional de la AES, Pitea, Suecia, junio de 2006. Mientras que MPEG Surround está basado en un análisis de tiempo-frecuencia de los diferentes canales de altavoz, DirAC toma como entrada los canales de micrófonos coincidentes, que describen eficazmente el campo de sonido en un punto. Así, DirAC también representa una técnica de grabación eficaz para audio espacial.

Otro sistema convencional que trata de audio espacial es SAOC (SAOC = Spatial Audio Object Coding, codificación de objeto de audio espacial) , cf. Jonas Engdegard, Barbara Resch, Cornelio Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijer y Werner Oomen, Spatial audio object coding (SAOC) the upcoming MPEG Standard on parametric object based audio coding, en la 124ª Convenciónde la AES, 17-20 de mayo de 2008, Ámsterdam, Países Bajos, 2008, actualmente en proceso de normalización en ISO/MPEG.

Se integra en el motor de presentación de MPEG Surround y trata diferentes fuentes de sonido como objetos. Esta codificación de audio ofrece una eficacia muy alta en términos de tasa de transmisión de bits y da una libertad de interacción sin precedentes en el lado de reproducción. Este enfoque promete nuevas características convincentes y funcionalidad en sistemas heredados, así como varias otras nuevas aplicaciones.

Es el objeto de la presente invención proporcionar un concepto aprobado para la fusión de señales de audio espacial.

El objeto se consigue mediante un aparato para fusionar según la reivindicación 1 y un método para fusionar según la reivindicación 13.

Obsérvese que la fusión sería trivial en el caso de una corriente de DirAC multicanal, es decir si los 4 canales de audio de formato B estuvieran disponibles. En efecto, las señales de diferentes fuentes pueden sumarse directamente para obtener las señales de formato B de la corriente fusionada. Sin embargo, si estos canales no están disponibles, la fusión directa es problemática.

La presente invención está basada en el descubrimiento de que las señales de audio espacial pueden representarse por la suma de una representación de onda, por ejemplo una representación de onda plana, y una representación de campo difuso. A la primera se le puede asignar una dirección. Cuando se fusionan varias corrientes de audio, algunas realizaciones pueden permitir obtener la información secundaria de la corriente fusionada, por ejemplo en términos de una difusividad y una dirección. Algunas realizaciones pueden obtener esta información a partir de las representaciones de onda así como de las corrientes de audio de entrada. Cuando se fusionan varias corrientes de audio, que pueden todas estar modeladas por una parte o representación de onda y una parte o representación difusa, las partes o componentes de onda y las partes o componentes difusas pueden fusionarse por separado. La fusión de la parte de onda produce una parte de onda fusionada, para la cual se puede obtener una dirección fusionada basándose en las direcciones de las representaciones de la parte de onda. Además, las partes difusas pueden también fusionarse por separado, a partir de la parte difusa fusionada puede derivarse un parámetro de difusividad global.

Algunas realizaciones pueden proporcionar un método para fusionar dos o más señales de audio espacial codificadas como corrientes de DirAC mono. La señal fusionada resultante puede representarse como una corriente de DirAC mono también. En realizaciones, la codificación de DirAC mono puede ser una manera compacta de describir audio espacial, ya que solamente tiene que transmitirse un canal de audio junto con información secundaria.

En realizaciones, un escenario posible puede ser una aplicación de teleconferencia con más de dos partes. Por ejemplo, sea el usuario A que se comunica con los usuarios B y C, que generan dos corrientes de DirAC mono separadas. En la ubicación de A, la realización puede permitir que las corrientes del usuario B y C se fusionen en una sola corriente de DirAC mono, que puede reproducirse con la técnica de síntesis de DirAC convencional. En una realización que utiliza una topología de red que observa la presencia de una unidad de control multipunto (MCU = multipoint control unit) , la operación de fusión se realizaría por la propia MCU, de tal manera que el usuario A recibiría una única corriente de DirAC mono que ya contiene el habla tanto de B como de C. Claramente, las corrientes de DirAC que van a fusionarse pueden también generarse sintéticamente, lo que significa que puede añadirse información secundaria apropiada a una señal de audio mono. En el ejemplo recién mencionado, el usuario A podría recibir dos corrientes de audio de B y C sin ninguna información secundaria. Es posible entonces asignar a cada corriente una determinada dirección y difusividad, añadiendo así la información secundaria necesaria para construir las corrientes de DirAC, que pueden después fusionarse mediante una realización.

Otro escenario posible en realizaciones se puede encontrar en juegos en línea de múltiples jugadores y aplicaciones de realidad virtual. En estos casos, se generan varias corrientes ya sea de jugadores u objetos virtuales. Cada corriente está caracterizada por una determinada dirección de llegada en relación con el oyente y puede por consiguiente expresarse por una corriente de DirAC. La realización puede usarse para fusionar las diferentes corrientes en una única corriente de DirAC, que se reproduce luego en la posición del oyente.

Realizaciones de la presente invención se detallarán utilizando las figuras adjuntas, en las que:

la figura 1a muestra una realización de un aparato para fusionar;

la figura 1b muestra la presión y componentes de un vector de velocidad de partícula en un plano gaussiano para una onda plana;

la figura 2 muestra una realización de un codificador de DirAC;

la figura 3 ilustra una fusión ideal de corrientes de audio;

la figura 4 muestra las entradas y salidas... [Seguir leyendo]

 


Reivindicaciones:

1. Aparato (100) para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada, que comprende: un estimador (120) para estimar una primera representación de onda que comprende una primera medida de que es una cantidad direccional de una primera onda y una primera medida de dirección de onda que está relacionada con una magnitud de la primera onda para la primera corriente de audio espacial, teniendo la primera corriente de audio espacial una primera representación de audio que comprende una medida de una presión o una magnitud de una primera señal de audio (P (1) ) y una primera campo de onda

dirección de llegada y para estimar una segunda representación de onda que comprende una y una segunda medida de dirección de onda que es una cantidad direccional de una segunda onda que está relacionada con una magnitud de la segunda onda para la segunda corriente de audio espacial, teniendo la segunda corriente de audio espacial una segunda representación de audio que comprende una medida de una presión o una magnitud de una segunda señal de segunda medida de campo de onda audio (P (2) ) y una segunda dirección de llegada y un procesador (130) para procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que comprende una medida de campo de onda fusionada (Iˆ) , a 1'

(eˆDOA y un parámetro de difusividad fusionado (una medida de dirección de llegada fusionada )

)

, en el que el parámetro de difusividad fusionado está basado en la medida de campo de onda fusionada (Iˆ) , la

a primera representación de audio (P (1) ) y la segunda representación de audio (P (2) ) , y en el que la medida de campo de onda fusionada (Iˆ) está basada en la primera medida de campo de onda, la a y la segunda medida de segunda medida de campo de onda, la primera medida de dirección de onda dirección de onda y en el que el procesador (130) está configurado para procesar la primera representación de audio (P (1) ) y la segunda representación de audio (P (2) ) para obtener una representación de audio fusionada (P) , y para proporcionar la corriente de audio fusionada que comprende la representación de audio fusionada (P) , la medida 1'

de dirección de llegada fusionada (eˆDOA ) y el parámetro de difusividad fusionado (

)

.

2. Aparato (100) según la reivindicación 1, en el que el estimador (120) está adaptado para estimar la primera medida de campo de onda en términos de una primera amplitud de campo de onda y para estimar la segunda medida de campo de onda en términos de una segunda amplitud de campo de onda, y para estimar una diferencia de fase entre la primera medida de campo de onda y la segunda medida de campo de onda, y/o para estimar una primera fase de campo de onda y una segunda fase de campo de onda.

3. Aparato según una de las reivindicaciones 1 a 2, que comprende medios (110) para determinar, para la primera corriente de audio espacial, la primera representación de audio, la primera medida de dirección de llegada y el primer parámetro de difusividad y para determinar, para la segunda corriente de audio espacial, la segunda representación de audio, la segunda medida de dirección de llegada y el segundo parámetro de difusividad.

4. Aparato según una de las reivindicaciones 1 a 3, en el que el procesador (130) está adaptado para determinar la representación de audio fusionada, la medida de dirección de llegada fusionada y el parámetro de difusividad fusionado de una manera dependiente del tiempo-frecuencia.

5. Aparato (100) según una de las reivindicaciones 1 a 4, en el que el estimador (120) está adaptado para estimar las representaciones de onda primera y/o segunda, y en el que el procesador (130) está adaptado para proporcionar la representación de audio fusionada en términos de una señal de presión p (t) o una señal de presión transformada en tiempo-frecuencia P (k, n) , donde k denota un índice de frecuencia y n denota un índice de tiempo.

6. Aparato (100) según la reivindicación 5, en el que el procesador (130) está adaptado para procesar las medidas de direcciones de llegada primera y segunda y/o para proporcionar la medida de dirección de llegada

fusionada en términos de un vector unitario eDOA (k, n) , con y con en el que P (k, n) es la presión de la corriente fusionada y U0k, n =[U 0k, n , U 0k, n , U 0k, n YT denota el xyz

vector de velocidad de partícula u0t =[u 0t , u 0t , u 0t YT transformado en tiempo-frecuencia de la corriente xyz

de audio fusionada, donde Re{}J denota la parte real.

7. Aparato (100) según una de la reivindicación 6, en el que el procesador (130) está adaptado para procesar los parámetros de difusividad primero y/o segundo y/o para proporcionar el parámetro de difusividad fusionado en términos de k, n) }

y U0k, n =[U 0k, n , U 0k, n , U 0k, n YT denota un vector de velocidad de partícula

xyz

u0t =[u 0t , u 0t , u 0t YT transformado en tiempo-frecuencia, Re{}J denota la parte real, P (k, n) denota xyz

una señal de presión p (t) transformada en tiempo-frecuencia, donde k denota un índice de frecuencia y n denota un índice de tiempo, c es la velocidad del sonido y 21 2

P0

E (k, n) =

U (k, n)

+

P (k, n)

4P0c2

denota la energía de campo de sonido, donde P0 denota la densidad del aire y <J> denota un promedio t

temporal.

8. Aparato (100) según la reivindicación 7, en el que el estimador (120) está adaptado para estimar una Pˆ (i) Pˆ (i)

pluralidad de N representaciones de onda (k, n) y representaciones de campo difuso (k, n) como

PW diff

ˆ ( )

aproximaciones para una pluralidad de N corrientes de audio espacial Pi (k, n) , con 1 : i : N , y en el que diff

el procesador (130) está adaptado para determinar la medida de dirección de llegada fusionada basándose en un valor estimativo,

Iˆ a (k, n) eˆ DOA (k, n) =-Iˆ a (k, n)

1*

Iˆ (k, n) = Re{Pˆ (k, n) JUˆ (k, n) }

a PW PW

N

(i)

Pˆ (k, n) =LPˆ (k, n)

PW PW i=1

ˆ (i) (i) (i)

PPW (k, n) =a (k, n) J P (k, n)

N

(i)

Uˆ (k, n) =LUˆ (k, n)

PW PW i=1

(i) 1 (i) (i) (i)

Uˆ (k, n) =-j (k, n) J P (k, n) Je (k, n)

PW DOA

P0c

(i) (i)

denotando los números reales a (k, n) , j (k, n) E{0...1} y U0k, n =[U 0k, n , U 0k, n , U 0k, n YT

xyz

un vector de velocidad de partícula u0t =[u 0t , u 0t , u 0t YT transformado en tiempo-frecuencia, Re{}J

xyz

i

denota la parte real, P (i) (k, n) denota una señal de presión transformada en tiempo-frecuencia p ( ) (t) , donde k denota un índice de frecuencia y n denota un índice de tiempo, N el número de corrientes de audio espacial, c

es la velocidad del sonido y P0 denota la densidad del aire.

9. Aparato (100) según la reivindicación 8, en el que que el estimador (120) está adaptado para (i) (j (i) (

determinar ak, n) y k, n) según (i) (i)

a (k, n) =j (k, n)

(i) (i)

j (k, n) = 1-l (k, n)

10. Aparato (100) según la reivindicación 8, en el que el procesador (130) está adaptado para determinar i

a ( ) (k, n) y j (i) (k, n) mediante (i)

a (k, n) =1

( i )

() 1-1- (1-l (k, n) ) 2

j i (k, n) =

(i )

1. l (k, n)

11. Aparato (100) según una de las reivindicaciones 9 a 10, en el que el procesador (130) está adaptado para determinar el parámetro de difusividad fusionado mediante < Iˆ a (k, n) >tlˆ (k, n) =1

2 (i) (i)

<

Iˆ a (k, n)

+Ll (k, n) J P (k, n)

>t

2ci=1

12. Aparato según la reivindicación 1, en el que la primera corriente de audio espacial comprende ˆ (1)

adicionalmente un primer parámetro de difusividad ( ' ) , en el que la segunda corriente de audio espacial ˆ (2)

comprende adicionalmente un segundo parámetro de difusividad ( ' ) , y en el que el procesador (130) está configurado para calcular el parámetro de difusividad fusionado ( 'ˆ ) ' (1)

basándose adicionalmente en el primer parámetro de difusividad ( ) y el segundo parámetro de difusividad ' (2)

( ) .

13. Método para fusionar una primera corriente de audio espacial con una segunda corriente de audio espacial para obtener una corriente de audio fusionada, que comprende:

ˆ (1)

estimar una primera representación de onda que comprende una primera medida de dirección de onda ( UPW )

ˆ (1)

que es una cantidad direccional de una primera onda y una primera medida de campo de onda ( PPW ) que está

relacionada con una magnitud de la primera onda para la primera corriente de audio espacial, teniendo la primera corriente de audio espacial una primera representación de audio que comprende una medida de una presión o una magnitud de una primera señal de audio (P (1) ) y una primera dirección de llegada ( (1) ) ;

eDOA

ˆ (2)

estimar una segunda representación de onda que comprende una segunda medida de dirección de onda ( UPW )

ˆ (2)

que es una cantidad direccional de una segunda onda y una segunda medida de campo de onda ( PPW ) que está relacionada con una magnitud de la segunda onda para la segunda corriente de audio espacial, teniendo la segunda corriente de audio espacial una segunda representación de audio que comprende una medida de una (2)

presión o una magnitud de una segunda señal de audio (P (2) ) y una segunda dirección de llegada ( eDOA ) ; procesar la primera representación de onda y la segunda representación de onda para obtener una representación de onda fusionada que tiene una medida de campo de onda fusionada ( Iˆ ) , una medida de a dirección de llegada fusionada ( eˆ DOA ) y un parámetro de difusividad fusionado ( 'ˆ ) , en el que el parámetro de difusividad fusionado ( 'ˆ ) está basado en la medida de campo de onda fusionada ( Iˆ ) , la primera a representación de audio (P (1) ) y la segunda representación de audio (P (2) ) , y en el que la medida de campo de onda fusionada ( Iˆ ) está basada en la primera medida de campo de onda, la segunda medida de campo de a ˆ (1) ˆ (2)

onda, la primera medida de dirección de onda ( UPW ) , y la segunda medida de dirección de onda ( UPW ) ;

procesar la primera representación de audio (P (1) ) y la segunda representación de audio (P (2) ) para obtener una representación de audio fusionada (P) ; y proporcionar la corriente de audio fusionada que comprende la representación de audio fusionada (P) , una medida de dirección de llegada fusionada ( eˆDOA ) y el parámetro de difusividad fusionado ( 'ˆ ) .

14. Método según la reivindicación 13, en el que la primera corriente de audio espacial comprende ' (1)

adicionalmente un primer parámetro de difusividad ( ) , en el que la segunda corriente de audio espacial ' (2)

comprende adicionalmente un segundo parámetro de difusividad ( ) , y en el que el parámetro de difusividad fusionado ( 'ˆ ) se calcula en la etapa de procesamiento basándose adicionalmente en el primer parámetro de ' (1) ' (2)

difusividad ( ) y el segundo parámetro de difusividad ( ) .

15. Programa informático que tiene un código de programa para realizar el método de la reivindicación 14, cuando el código de programa se ejecuta en un ordenador o un procesador.


 

Patentes similares o relacionadas:

Método y sistema para el procesamiento de sonido envolvente en un auricular, del 27 de Mayo de 2020, de Voyetra Turtle Beach, Inc: Un método, que comprende: en un auricular de audio que recibe una pluralidad de señales de audio correspondientes a una pluralidad de canales de sonido envolvente: […]

Dispositivo para generar salida de audio, del 15 de Abril de 2020, de QUALCOMM INCORPORATED: Un dispositivo de auriculares que comprende: un primer auricular configurado para: recibir un sonido de referencia en un […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Sistema y método de salida binaural paramétrico, del 19 de Febrero de 2020, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para codificar audio de entrada basado en un canal u objeto para la reproducción, incluyendo el método las etapas de: (a) renderizar inicialmente […]

Aparato y método para la renderización de audio empleando una definición de distancia geométrica, del 25 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para reproducir un objeto de audio asociado con una posición, que comprende: un calculador de distancia para calcular distancias de la […]

Control de rango dinámico basado en metadatos extendidos de audio codificado, del 11 de Diciembre de 2019, de APPLE INC.: Un sistema para producir una grabación de audio digital codificada que tiene una pluralidad de canales de audio u objetos de audio, que comprende: un codificador de audio […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .