Aparato y método para descomponer una señal de entrada utilizando un mezclador descendente.

Un aparato para descomponer una señal de entrada (10) que tiene un número de por lo menos tres canales de entrada,

que comprende:

un mezclador descendente (12) para efectuar la mezcla descendente de la señal de entrada a fin de obtener una señal con mezcla descendente, donde el mezclador descendente (12) está configurado para efectuar la mezcla descendente de manera que un número de canales con mezcla descendente de la señal de mezcla descendente (14) sea por lo menos 2 y menor que el número de canales de entrada;

un analizador (16) para analizar la señal de mezcla descendente para derivar un resultado del análisis (18) y un procesador de señales (20) para procesar la señal de entrada (10) o una señal (24) derivada de la señal de entrada, utilizando el resultado del análisis (18), donde el procesador de señales (20) está configurado para aplicar el resultado del análisis a los canales de entrada de la señal de entrada o los canales de la señal derivada de la señal de entrada para obtener una señal descompuesta (26), donde la señal derivada de la señal de entrada es diferente de la señal de mezcla descendente.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/070702.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: WALTHER, ANDREAS.

Fecha de Publicación: 14 de Enero de 2015.

Clasificación Internacional de Patentes:

H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).

PDF original: ES-2530960_T3.pdf

Fragmento de la descripción:

La presente invención se relaciona con el procesamiento de audio y, en particular, con la descomposición de una señal de audio en diferentes componentes tales como componentes perceptualmente distintos El sistema auditivo humano detecta el sonido de todas las direcciones. El entamo auditivo percibido (el adjetivo auditivo indica lo que se percibe, en tanto que la palabra sonido se utiliza para describir fenómenos físicos) genera una impresión de las propiedades acústicas del espacio circundante y los eventos de sonido que se suscitan. la impresión auditiva percibida en un campo sonoro específico (por lo menos parcialmente) se puede modelar considerando tres tipos diferentes de señales en las entradas al oído: El sonido directo, las reflexiones tempranas y las reflexiones difusas. Estas señales contribuyen a la formación de la imagen espacial auditiva percibida. El sonido directo denota las ondas de cada evento de sonido que llega al oyente en primer lugar directamente desde una fuente de sonido sin alteraciones. Es característico de la fuente de sonido y ofrece la información menos comprometida acerca de la dirección de incidencia del evento de sonido. Los indicios primarios para estimar la dirección de una fuente de sonido en el plano horizontal son las diferencias entre las señales de entrada del oído izquierdo y derecho, es decir las diferencias interaurales de tiempo (tTDs) y las diferencias interaurales de intensidad (llOs) . Seguidamente, una multitud de reflexiones del sonido directo llegan a los oídos de diferentes direcciones y con diferentes retardos de tiempo e intensidades relativas. Con el aumento del retardo de tiempo, con respecto al sonido directo, la densidad de las reflexiones aumenta hasta que constituyen un desorden estadistico El sonido reflejado contribuye a la percepción de la distancia y a la impresión auditiva espacial, que está compuesta por al menos dos componentes: el ancho aparente de la fuente (ASW) (Otro término utilizado comúnmente para ASW es la espaciosidad auditiva) y la sensación de sonido envolvente del oyente (LEV) . El ASW se define como ensanchamiento del ancho aparente de una fuente de sonido y se determina fundamentalmente por las reflexiones laterales tempranas LEV se refiere a la sensación del oyente de estar envuelto por el sonido y se determina fundamentalmente por las reflexiones que llegan tardíamente. la meta de la reproducción de sonido estereofónico electroacústico consiste en evocar la percepción de una imagen espacial auditiva agradable. Esta puede tener una referencia natural o arquitectónica (por ej. la grabación de un concierto en una sala) o puede ser un campo sonoro que no existe en la realidad (por ej. música electroacústica) . Desde el campo de la acústica de salas de coocierto, se sabe que -para obtener un campo soooro subjetivamente agradable -una fuerte sensación de impresión auditiva espacial es importante, donde la LEV constituye una parte integral. la capacidad de las disposiciones de parlantes para reproducir un campo sonoro envolvente por medio de la reproducción de un campo sonoro difuso es un tema de interés. En un campo de sonido sintético no es posible reproducir todas las reflexiones de origen natural utilizando transductores especializados. Esto es especialmente cierto en el caso de las reflexiones tardías difusas. Las propiedades de oportunidad e intensidad de las reflexiones difusas se pueden simular empleando señales ~reverberadas" como alimentaciones de los parlantes. Si ellas están suficientemente no relacionadas, el número y ubicación de los parlantes utilizados para la reproducción determina si el campo de sonido se percibe como difuso. La meta consiste en evocar la percepción de un campo sonoro continuo y difuso utilizando sólo un número discreto de transductores. En otras palabras, la generación de campos sonoros donde no se puede estimar la dirección de llegada del sonido y, especialmente donde no se puede localizar ningún transductor individual. La difusividad subjetiva de los campos sonoros sintéticos puede ser evaluada en pruebas subjetivas. Las reproducciones de sonido estereofónico apuntan a evocar la percepción de un campo sonoro continuo utilizando sólo un número discreto de transductores. Las características más deseables son la estabilidad direccional de las fuentes localizadas y la renderización realista del entorno auditivo circundante. la mayoria de los formatos utilizados hoy en día para almacenar o transportar grabaciones estereofónicas se basan en canales. Cada canal transporta una señal que se pretende reproducir a través de un parlante asociado ubicado en una posición especifica. Se diseña una imagen auditiva específica durante el proceso de grabación o mezcla. Esta imagen se recrea con precisión si la configuración de parlantes utilizada para la reproducción se asemeja a la configuración objetivo para la cual la grabación estuviera destinada. El número de canales factibles de transmisión y reproducción crece constantemente y con cada formato de reproducción que surge llega el deseo de renderizar el contenido de formato heredado por el sistema de reproducción real. Los algoritmos de mezcla ascendente son una solución a esta necesidad, computando una señal con más canales a partir de una señal heredada. Se ha propuesto un número de algoritmos de mezcla ascendente estéreo en la literatura, por ej. Carlos Avendano y Jean-Marc Jot, ~A frequency-domain approach lo mullichannel upmix·, Joumalof the Audio Engineering Society, vol. 52, no. 718, pp. 740-749, 2004; Christof Faller, ~Multiple-Ioudspeaker playback of stereo signals, " Joumal of the Audio Engineering Society, vol. 54, no. 11, pp. 1051-1064, noviembre de 2006; John Usherand Jacob Benesty, "Enhancement of spatial sound quality: A new reverberation--extraction audio upmi:xer, " IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 7, pp. 2141 -2150, septiembre de 2007. La mayoría de estos algoritmos se basan en una descomposición de señal directafambiental seguida por la renderizaciÓll adaptada a la configuración de parlantes objetivo Las descomposiciones de señales directas/ambientales descriptas no son fácilmente aplicables a las señales envolventes de canales múltiples No es fácil formular un modelo de señal y filtrado para obtener, de N canales de audio, los correspondientes N sonidos directos y N canales de sonido ambiental. El modelo de señal simple utilizada en el caso del estéreo, ver por ej_Christof Faller, "Multiple-Ioudspeaker playback of stereo signals, " Joumal of the Audio Engineering Society, vol. 54, no_ 11, pp_ 1051-1064, noviembre de 2006, suponiendo que el sonido directo se correlaciona entre todos los canales, no captura la diversidad de las relaciones de canales que pueden existir entre canales de señal envolvente. El objetivo general de la reproducciÓfl de sonido estereofónico consiste en evocar la percepción de un campo sonoro continuo utilizando sólo un número limitado de canales de transmisión y transductores _Dos parlantes son el requisito mínimo para la reproducción de sonido espacial. Los sistemas modernos del consumidor con frecuencia ofrecen un gran número de canales de reproducción. Básicamente, las señales estereofónicas (independientemente del número de canales) se graban o mezclan de tal manera que por cada fuente el sonido directo se dirige de manera coherente (~dependiente) a un número de canales con pases de señal especificos direccionales y los sonidos reflejados independientes se dirigen a un número de canales que determinan los pases de señal correspondientes al ancho aparente de la fuente y a la envolvente del oyente. La percepción correcta de la imagen auditiva pretendida habitualmente sólo es posible en el punto de observación ideal en la configuración de reproducción a la cual estaba destinada la grabación. La adición de más parlantes a una determinada configuración de parlantes habitualmente habilita una reconstrucciónl simulación más realista de un campo sonoro natural. Para aprovechar la ventaja plena de una configuración de parlantes extendida si las señales de entrada se dan en otro formato, o para manipular las parles perceptualmente distintas de la señal de entrada, se debe poder acceder a ellas por separado_ A continuación, esta memoria descriptiva presenta un método para separar los componentes dependientes e independientes de las grabaciones estereofónicas que comprenden un número arbitrario de canales de entrada Una descomposición de las señales de audio en componentes perceptualmente diferenciados es necesaria para la modificación, realce, reproducción adaptativa y codificación perceptual de alta calidad de las señales de audio. Últimamente se ha propuesto un número de métodos que permiten la manipulación ylo extracción de componentes de señal perceptualmente... [Seguir leyendo]

Reivindicaciones:

Un aparato para descomponer una señal de entrada (10) que tiene un número de por lo menos tres canales de entrada, que comprende: un mezclador descendente (12) para efectuar la mezcla descendenle de la señal de entrada a fin de obtener una señal con mezcla descendente, donde el mezclador descendente (12) está configurado para efectuar la mezcla descendente de manera que un número de canales con mezcla descendente de la señal de mezcla descendente (14) sea por lo menos 2 y menor que el número de canales de entrada; un analizador (16) para analizar la señal de mezcla descendente para derivar un resultado del análisis (18) y un procesador de señales (20) para procesar la señal de entrada (10) o una señal (24) derivada de la señal de entrada, utilizando el resultado del análisis (18) , donde el procesador de señales (20) está configurado para aplicar el resultado del análisis a los canales de entrada de la señal de entrada o los canales de la señal derivada de la señal de entrada para obtener una señal descompuesta (26) , donde la señal derivada de la señal de entrada es diferente de la señal de mezcla descendente. 2 El aparato de acuerdo con la reivindicación 1, que además comprende un convertidor de tiempo {frecuencia (32) para convertir los canales de entrada en una secuencia de tiempo de representaciones de frecuencias de los canales, donde cada representación de frecuencia de los canales de entrada tiene una pluralidad de subbandas, o donde el mezclador descendente (12) comprende un convertidor de tiempo (frecuencia para convertir la señal de mezcla descendente, donde el analizador (16) está configurado para generar un resultado del análisis (18) correspondiente a las subbandas individuales y donde el procesador de señales (20) está configurado para aplicar los resultados individuales del análisis a las subbandas correspondientes de la señal de entrada o de la señal derivada de la señal de entrada.

3. El aparato de acuerdo con la reivindicación 1 o 2, en el cual el analizador (16) está configurado para producir, como resultado del análisis, factores de ponderación (W (m. i" y donde el procesador de señales (20) está configurado para aplicar los factores de ponderación a la señal de entrada o a la señal derivada de la señal de entrada mediante la ponderación con los factores de ponderación

4. El aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el mezclador descendente está configurada para sumar canales de entrada ponderados o no ponderados de acuerdo con una norma de mezcla descendente que implica que por lo menos dos canales con mezcla descendente sean diferentes entre sí.

5. El aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el mezclador descendente

(12) está configurado para filtrar la señal de entrada (10) usando filtros basados en respuestas al impulso del recinto, filtros basados en respuestas al impulso binaural del recinto, (BRIR) o filtros basados en HRTF. 6 El aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador (20) está configurado para aplicar un filtro Wiener a la señal de entrada o a la señal derivada de la señal de entrada y en el cual el analizador (16) está configurado para calcular el filtro Wiener utilizando valores de expectativa derivados de los canales de mezcla descendente 7 El aparato de acuerdo con una de las reivindicaciones anteriores, que además comprende un derivador de seña les (22) para derivar la señal de la señal de entrada de manera que la señal derivada de la señal de entrada tenga un número diferente de canales en comparación con la señal de mezcla descendente o la señal de entrada

8. El aparato de acuerdo con una de las reivind icaciones anteriores, en el cual el analizador (20) está configurado para usar una curva de similitud dependiente de la frecuencia previamente guardada que indica una similitud dependiente de la frecuencia entre dos señales que pueden ser generadas por señales de referencia conocidas de antemano

9. El aparato de acuerdo coo cualquiera de las reivindicaciones 1 a 8, en el cual el analizador está configurado para usar una curva de similitud dependiente de la frecuencia previamente guardada que indica una similitud dependiente de la frecuencia entre dos o más señales en una posiciórl del oyente bajo la presunción de que las señales tienen una caracteristica de similitud conocida y de que las señales pueden ser emitidas por los par1antes en las posiciones conocidas de los par1antes. 10 El aparato de acuerdo con una de las reivindicaciones 1 a 7, en el cual el analizador está coofigurado para calcular una curva de similitud dependiente de la frecuencia utilizando la potencia de corto tiempo dependiente de la frecuencia de los canales de entrada

11. El aparato de acuerdo con cualquiera de las reivindicaciones 8 a 10, en el cual el analizador (16) está configurado para calcular una similitud del canal de mezcla descendente en una subbanda de frecuencia (80) , a fin de comparar el resultado de similitud con una similitud indicada por la curva de referencia (82, 83) Y generar el factor de ponderación sobre la base del resultado de la compresión como resultado del análisis, o bien para calcular una distancia entre el correspondiente resultado y una similitud indicada por la curva de referencia correspondiente a la misma subbanda de frecuencia y para calcular, además, un factor de ponderación basándose en la distancia como resultado del análisis

12. El aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el analizador (16) está

configurado para analizar los canales de mezcla descendente en subbandas determinadas por una resolución en la frecuencia del oido humano. 13 El aparato de acuerdo con una de las reivindicaciones 1 a 12, en el cual el analizador (16) está

configurado para analizar la señal de mezcla descendente a fin de generar un resultado del análisis que da lugar a una descomposición de la ambiente directa y en el cual el procesador de señales (20) está configurado para extraer la parte directa o la parte ambiente utilizando el resultado del análisis 14. Un método para descomponer una señal de entrada (1 0) que consta de un número de por lo menos tres canales de entrada, que comprende· ejecutar la mezcla descendente (12) de la señal de entrada para obtener una señal de mezcla descendente, de manera que un número de canales de mezcla descendente de la señal de mezcla descendente (14) sea por lo menos 2 y menor que el número de canales de entrada; analizar (16) la señal de mezcla descendente para derivar un resultado del análisis (18) y

procesar (20) la señal de entrada (10) o una señal (24) derivada de la señal de entrada, utilizando el resultado del análisis (18) , donde el resultado del análisis se aplica a los canales de entrada de la señal de entrada o a los canales de la señal derivada de la señal de entrada para obtener una señal descompuesta (26) , donde la señal derivada de la señal de entrada es diferente de la señal de mezcla descendente 15. Un programa de computación para poner en práctica el método de acuerdo con la reivindicación 14, al 20 ejecutarse el programa de computación en una computadora o procesador

Patentes similares o relacionadas:

Método y sistema para el procesamiento de sonido envolvente en un auricular, del 27 de Mayo de 2020, de Voyetra Turtle Beach, Inc: Un método, que comprende: en un auricular de audio que recibe una pluralidad de señales de audio correspondientes a una pluralidad de canales de sonido envolvente: […]

Dispositivo para generar salida de audio, del 15 de Abril de 2020, de QUALCOMM INCORPORATED: Un dispositivo de auriculares que comprende: un primer auricular configurado para: recibir un sonido de referencia en un […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Sistema y método de salida binaural paramétrico, del 19 de Febrero de 2020, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para codificar audio de entrada basado en un canal u objeto para la reproducción, incluyendo el método las etapas de: (a) renderizar inicialmente […]

Aparato y método para la renderización de audio empleando una definición de distancia geométrica, del 25 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para reproducir un objeto de audio asociado con una posición, que comprende: un calculador de distancia para calcular distancias de la […]

Control de rango dinámico basado en metadatos extendidos de audio codificado, del 11 de Diciembre de 2019, de APPLE INC.: Un sistema para producir una grabación de audio digital codificada que tiene una pluralidad de canales de audio u objetos de audio, que comprende: un codificador de audio […]