Aparato y método para descomponer una señal de entrada utilizando una curva de referencia calculada previamente.

Aparato para descomponer una señal que tiene una serie de canales,

que comprende:

un analizador (16) para analizar una similitud entre dos canales de una señal de análisis con respecto a la señal que tiene la serie de canales, a efectos de obtener un resultado del análisis (18), en el que el analizador (16) está configurado para utilizar una curva de similitud dependiente de la frecuencia calculada previamente, como curva de referencia, para determinar el resultado del análisis (18), donde la curva de similitud dependiente de la frecuencia calculada previamente ha sido calculada en base a dos señales para obtener un grado cuantitativo de similitud entre las dos señales sobre un intervalo de frecuencias; y

un procesador de señal (20) para procesar la señal de análisis o una señal obtenida a partir de la señal de análisis, o una señal a partir de la cual se ha obtenido la señal de análisis, utilizando el resultado del análisis para obtener una señal descompuesta.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/070700.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: WALTHER, ANDREAS.

Fecha de Publicación: 21 de Enero de 2015.

Clasificación Internacional de Patentes:

H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).

PDF original: ES-2534180_T3.pdf

Fragmento de la descripción:

Aparato y método para descomponer una señal de entrada utilizando una curva de referencia calculada previamente

[1] La presente Invención se refiere a procesamiento de audio y, en particular, a la descomposición de señales de audio en componentes diferentes tales como componentes distintos perceptualmente.

[2] El sistema auditivo humano detecta sonido procedente de todas las direcciones. El entorno auditivo percibido (el adjetivo auditivo indica lo que se percibe, mientras que la palabra sonido se utilizará para describir

fenómenos físicos) crea una impresión de las propiedades acústicas del espacio circundante y de los eventos sonoros que se producen. La impresión auditiva percibida en un campo de sonido específico se puede modelizar (por lo menos parcialmente) considerando tres tipos diferentes de señales en las entradas de los oídos: el sonido directo, las reflexiones tempranas y las reflexiones difusas. Estas señales contribuyen a la formación de una imagen espacial auditiva percibida.

[3] El sonido directo indica las ondas de cada evento sonoro que llegan primero al oyente desde una fuente de sonido sin perturbaciones. Es característico de la fuente de sonido y proporciona la información menos comprometida sobre la dirección de incidencia del evento sonoro. Los indicios principales para estimar la dirección de una fuente de sonido en el plano horizontal son las diferencias entre las señales de entrada de los oídos

izquierdo y derecho, es decir, las diferencias interaurales de tiempo (ITDs, interaural time differences) y las diferencias interaurales de nivel (ILDs, interaural level differences). A continuación, llegan a los oídos multitud de reflexiones del sonido directo desde direcciones diferentes y con diferentes niveles y retardos de tiempo relativos. A medida que aumenta el retardo temporal, en relación con el sonido directo, aumenta la densidad de las reflexiones hasta que éstas constituyen un artefacto estadístico.

[4] El sonido reflejado contribuye a la percepción de la distancia, y a la impresión espacial auditiva, que se compone, por lo menos, de dos componentes: la anchura aparente de la fuente (ASW, apparent source width) (otro término utilizado normalmente para la ASW es amplitud auditiva) y la envoltura del oyente (LEV, listener envelopment). La ASW se define como un ensanchamiento de la anchura aparente de una fuente de sonido y está

determinada principalmente por reflexiones laterales tempranas. La LEV se refiere a la sensación del oyente de estar envuelto por el sonido y está determinada principalmente por reflexiones que llegan tarde. El objetivo de la reproducción electroacústica estereofónica del sonido es evocar la percepción de una imagen espacial auditiva agradable. Esto puede tener una referencia natural o arquitectónica (por ejemplo, la grabación de un concierto en una sala), o puede ser un campo de sonido que no existe en la realidad (por ejemplo, música electroacústica).

[5] En el sector de la acústica de salas de conciertos, es bien conocido que -para obtener un campo de sonido agradable subjetivamente- es importante una sensación fuerte de impresión espacial auditiva, siendo la LEV una parte integral. Es de interés la capacidad de las configuraciones de altavoces para reproducir un campo de sonido envolvente mediante la reproducción de un campo de sonido difuso. En un campo de sonido sintético no es posible

reproducir utilizando transductores dedicados todas las reflexiones que se producen naturalmente. Éste es especialmente el caso para reflexiones tardías difusas. Las propiedades de temporización y de nivel de las reflexiones difusas se pueden simular utilizando señales "reverberadas" como entradas a los altavoces. Si éstas son lo suficientemente no correlacionadas, el número y la posición de los altavoces utilizados para la reproducción determina si el campo de sonido se percibe como siendo difuso. El objetivo es evocar la percepción de un campo de

sonido continuo, difuso, utilizando solamente un número discreto de transductores. Es decir, crear campos de sonido donde no se pueda estimar ninguna dirección de llegada del sonido y no se pueda localizar en especial ningún transductor individual. El grado de difusión subjetivo de los campos de sonido sintéticos se puede evaluar en pruebas subjetivas.

[6] Las reproducciones de sonido estereofónico tienen por objetivo evocar la percepción de un campo de sonido continuo utilizando solamente un número discreto de transductores. Las características más deseadas son la estabilidad direccional de fuentes localizadas y la representación realista del entorno auditivo circundante. La mayoría de los formatos utilizados actualmente para almacenar o transportar grabaciones estereofónicas están basados en canales. Cada canal transporta una señal que está prevista para ser reproducida en un altavoz

asociado, en una posición específica. Una imagen auditiva específica se diseña durante el proceso de grabación o de mezcla. La imagen se recrea de manera precisa si la configuración de altavoces utilizada para la reproducción se parece a la configuración objetivo para la que se diseñó la grabación.

[7] El número de canales factibles de transmisión y reproducción crece constantemente, y con cada formato

emergente de reproducción de audio surge el deseo de representar contenido de formatos heredados sobre el sistema de reproducción actual. Los algoritmos de mezcla hacia arriba son una solución a este deseo, calculando una señal con más canales a partir de una señal heredada. En la bibliografía se ha propuesto un cierto número de algoritmos de mezcla hacia arriba en estéreo, por ejemplo, Carlos Avendano y Jean-Marc Jot, "A frequency-domain approach to multichannel upmix" (un enfoque en el dominio de frecuencia para una mezcla hacia arriba de múltiples

canales), Journal of the Audio Engineering Society, volumen 52, número 7/8, páginas 74 a 749, 24; Christof Faller, "Multiple-loudspeaker playback of stereo signáis" (reproducción de señales estéreo en múltiples altavoces),

Journal of the Audio Engineering Society, volumen 54, número 11, páginas 151 a 164, noviembre de 26; John Usherand Jacob Benesty, "Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer" (realce de la calidad espacial del sonido: un nuevo mezclador hacia arriba de audio de reverberación-extracción), IEEE Transactions on Audio, Speech, and Language Processing, volumen 15, número 7, páginas 2141 a 215, 5 septiembre de 27. La mayor parte de estos algoritmos están basados en una descomposición de señales directa/ambiente seguida por una representación adaptada a la configuración de los altavoces objetivo.

[8] Las descomposiciones de señales directa/ambiente descritas no son aplicables fácilmente a señales envolventes de múltiples canales. No es sencillo formular un modelo de señal y un filtrado para obtener a partir de N

canales de audio los correspondientes N canales de sonido directo y N canales de sonido ambiente. El modelo simple de señal utilizado en el caso estéreo, ver por ejemplo Chrlstof Faller, "Multlple-loudspeaker playback of stereo signáis", Journal of the Audio Engineering Society, volumen 54, número 11, páginas 151 a 164, noviembre de 26, asumiendo que se va a correlacionar sonido directo entre todos los canales, no captura la diversidad de las relaciones de canales que existen entre canales de señales envolventes.

[9] El objetivo general de la reproducción de sonido estereofónico es evocar la percepción de un campo de sonido continuo utilizando solamente un número limitado de canales de transmisión y transductores. Dos altavoces son el requisito mínimo para la reproducción espacial del sonido. Los sistemas modernos de los consumidores ofrecen a menudo un gran número de canales de reproducción. Básicamente, las señales estereofónicas

(independientemente del número de canales) se graban o se mezclan de manera que para cada fuente, el sonido directo va coherente (= dependiente) a una serle de canales con Indicios dlrecclonales específicos, y los sonidos Independientes reflejados van a una serle de canales que determinan indicios para la anchura aparente de la fuente y la envoltura del oyente. Habltualmente, la percepción correcta de la Imagen auditiva prevista es posible solamente en el punto de observación Ideal en la configuración de la reproducción para la que se ha previsto la grabación.

Añadir más altavoces a una configuración de altavoces dada permite habltualmente una reconstrucclón/slmulación más realista del campo de sonido natural. Para utilizar todas las ventajas de la configuración extendida de altavoces si las señales de entrada están... [Seguir leyendo]

Reivindicaciones:

1. Aparato para descomponer una señal que tiene una serie de canales, que comprende:

un analizador (16) para analizar una similitud entre dos canales de una señal de análisis con respecto a la señal que tiene la serle de canales, a efectos de obtener un resultado del análisis (18), en el que el analizador (16) está configurado para utilizar una curva de similitud dependiente de la frecuencia calculada previamente, como curva de referencia, para determinar el resultado del análisis (18), donde la curva de similitud dependiente de la frecuencia calculada previamente ha sido calculada en base a dos señales para obtener un grado cuantitativo de similitud entre 1 las dos señales sobre un Intervalo de frecuencias; y

un procesador de señal (2) para procesar la señal de análisis o una señal obtenida a partir de la señal de análisis, o una señal a partir de la cual se ha obtenido la señal de análisis, utilizando el resultado del análisis para obtener una señal descompuesta.

2. Aparato acorde con la reivindicación 1, que comprende además una tabla de consulta en la que está almacenada previamente la curva de referencia.

3. Aparato acorde con las reivindicaciones 1 ó 2, que comprende además un convertidor de tiempo- 2 frecuencia (32) para convertir la señal o la señal de análisis, o la señal a partir de la cual se ha obtenido la señal de

análisis, en una secuencia temporal de representaciones de frecuencia, teniendo cada representación de frecuencia una serie de sub-bandas,

en el que el analizador (16) está configurado para determinar, para cada sub-banda, un valor de similitud de 25 referencia a partir de la curva de similitud dependiente de la frecuencia, y para utilizar una similitud entre los dos canales de la sub-banda y el valor de similitud de referencia a efectos de determinar el resultado del análisis para dicha sub-banda.

4. Aparato acorde con una de las reivindicaciones anteriores, en el que el analizador (16) está 3 configurado para calcular el resultado del análisis comparando un valor de similitud obtenido a partir de los dos

canales de la señal de análisis con el valor de similitud correspondiente determinado mediante la curva de referencia, y para asignar un valor de ponderación de acuerdo con el resultado de la comparación o para calcular la diferencia entre el valor de similitud obtenido a partir de los dos canales de la señal de análisis y un valor de similitud correspondiente determinado a partir de la curva de referencia.

5. Aparato acorde con una de las reivindicaciones anteriores, en el que el analizador (16) está configurado para producir, como el resultado del análisis, factores de ponderación (W(m, i)), y

en el que el procesador de señal (2) está configurado para aplicar los factores de ponderación a la señal de entrada 4 o a la señal obtenida a partir de la señal de entrada, mediante una ponderación con los factores de ponderación.

6. Aparato acorde con una de las reivindicaciones anteriores, que comprende además un mezclador hacia abajo (12) para mezclar hacia abajo una señal de entrada para la señal de análisis, teniendo la señal de entrada más canales que la señal de análisis, y

en el que el procesador (2) está configurado para procesar la señal de entrada o una señal obtenida a partir de la señal de entrada diferente de la señal de análisis

7. Aparato acorde con una de las reivindicaciones anteriores, en el que el analizador (16) está 5 configurado para utilizar la curva de referencia calculada previamente que indica una similitud dependiente de la

frecuencia entre dos señales, generada mediante señales que tienen un grado de dependencia conocido previamente.

8. Aparato acorde con cualquiera de las reivindicaciones anteriores, en el que el analizador está 55 configurado para utilizar una curva de similitud dependiente de la frecuencia almacenada previamente que indica

una similitud dependiente de la frecuencia entre dos o más señales en la posición de un oyente, suponiendo que las señales tienen una característica de similitud conocida y que las señales pueden ser emitidas por altavoces en posiciones conocidas de los altavoces.

9. Aparato acorde con las reivindicaciones 7 ó 8, en el que se conoce una característica de similitud de la

señal de referencia.

1. Aparato acorde con cualquiera de las reivindicaciones 7, 8 ó 9, en el que las señales de referencia están totalmente decorrelacionadas.

11. Aparato acorde con cualquiera de las reivindicaciones anteriores, en el que el analizador (16) está

configurado para analizar canales de mezcla hacia abajo en sub-bandas determinadas mediante una resolución de frecuencia del oído humano.

12. Aparato acorde con cualquiera de las reivindicaciones anteriores, en el que el analizador (16) está 5 configurado para analizar la señal mezclada hacia abajo a efectos de generar un resultado del análisis que permite

una descomposición en directa y ambiente, y

en el que el procesador de señal (2) está configurado para extraer la parte directa o la parte de ambiente utilizando el resultado del análisis.

13. Aparato acorde con una de las reivindicaciones anteriores, en el que el analizador (16) está configurado para utilizar un límite inferior o superior diferente a la curva de referencia, y en el que el analizador está configurado para comparar un resultado de similitud dependiente de la frecuencia de los canales de análisis con el límite inferior o superior, para determinar el resultado del análisis.

14. Método de descomposición de una señal que tiene una serie de canales, que comprende:

analizar (16) una similitud entre dos canales de una señal de análisis en relación con la señal que tiene la serie de canales, utilizando una curva de similitud dependiente de la frecuencia calculada previamente, como una curva de 2 referencia para determinar un resultado del análisis (18), en el que

la curva de similitud dependiente de la frecuencia calculada previamente ha sido calculada en base a dos señales para obtener un grado cuantitativo de similitud entre las dos señales sobre un intervalo de frecuencias; y

procesar (2) la señal de análisis o una señal obtenida a partir de la señal de análisis, o una señal a partir de la cual se ha obtenido la señal de análisis, utilizando el resultado del análisis para obtener una señal descompuesta.

15. Programa informático para realizar el método de la reivindicación 14, en el que el programa informático es ejecutado por un ordenador o un procesador.

Patentes similares o relacionadas:

Método y sistema para el procesamiento de sonido envolvente en un auricular, del 27 de Mayo de 2020, de Voyetra Turtle Beach, Inc: Un método, que comprende: en un auricular de audio que recibe una pluralidad de señales de audio correspondientes a una pluralidad de canales de sonido envolvente: […]

Dispositivo para generar salida de audio, del 15 de Abril de 2020, de QUALCOMM INCORPORATED: Un dispositivo de auriculares que comprende: un primer auricular configurado para: recibir un sonido de referencia en un […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Sistema y método de salida binaural paramétrico, del 19 de Febrero de 2020, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para codificar audio de entrada basado en un canal u objeto para la reproducción, incluyendo el método las etapas de: (a) renderizar inicialmente […]

Aparato y método para la renderización de audio empleando una definición de distancia geométrica, del 25 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para reproducir un objeto de audio asociado con una posición, que comprende: un calculador de distancia para calcular distancias de la […]

Control de rango dinámico basado en metadatos extendidos de audio codificado, del 11 de Diciembre de 2019, de APPLE INC.: Un sistema para producir una grabación de audio digital codificada que tiene una pluralidad de canales de audio u objetos de audio, que comprende: un codificador de audio […]