Generación de señales para señales binaurales.

Dispositivo para generar una contribución relativa a la reflexión/ reverberación de local

(46a, 46b) de una señal binaural a partir de una señal multi-canal (18) que representa una pluralidad de canales y que está destinado para la reproducción por una configuración de altavoces que tiene una posición de fuente de sonido virtual asociada a cada canal, que comprende:

un generador de mezcla descendente (42) que forma una mezcla descendente mono o estéreo de los canales de la señal multi-canal; y

un procesador de local (44) para generar la contribución relativa a la reflexión/ reverberación de local (46a, 46b) de la señal binaural modelizando las reflexiones/ reverberaciones de local a partir de la señal mono o estéreo, en el que el generador de mezcla descendente (42) está configurado para formar la mezcla descendente mono o estéreo de modo que la pluralidad de canales contribuyen a la mezcla descendente mono o estéreo en un nivel que difiere entre al menos dos canales de la señal multi-canal, en el que el generador de mezcla descendente (42) está configurado para formar la mezcla descendente mono o estéreo (48) de modo que un canal central de la pluralidad de canales contribuye a la mezcla descendente mono o estéreo según un nivel reducido con respecto a los otros canales de la señal multi-canal (18).

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11168513.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: SILZLE, ANDREAS, HILPERT, JOHANNES, PLOGSTIES,JAN, MUNDT,HARALD, NEUGEBAUER,BERNHARD.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > H04S7/00 (Disposiciones para la indicación; Disposiciones para el control, p. ej. para el control de la compensación)
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > H04S3/00 (Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > DISPOSITIVOS GENERADORES DE SONIDOS (juguetes musicales... > Acústica no prevista en otro lugar > G10K15/12 (utilizando redes retardadoras electrónicas)

PDF original: ES-2528006_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Generación de señales para señales blnaurales

[0001] La presente invención se refiere a la generación de una contribución relacionada con reflexión y/o reverberación de una señal binaural, la propia generación de una señal binaural, y la formación de un conjunto decreciente de inter-similitud de funciones de transferencia relacionadas con la cabeza.

[0002] El sistema auditivo humano es capaz de determinar la dirección o direcciones desde dónde proceden los sonidos percibidos. Para este fin, el sistema auditivo humano evalúa ciertas diferencias entre el sonido recibido en el oído derecho y el sonido recibido en el oído izquierdo. Esta última información comprende, por ejemplo, las llamadas señales interaurales que pueden, a su vez, referirse a la diferencia de la señal de sonido entre oídos. Las señales Inter-aurales son el medio más importante para la localización. La diferencia de nivel de presión entre los oídos, es decir, la diferencia de nivel inter-aural (ILD) es la señal más importante para la localización. Cuando el sonido llega desde el plano horizontal con un acimut distinto de cero, tiene un nivel diferente en cada oído. El oído con sombras tiene una imagen de sonido suprimida naturalmente, en comparación con el oído sin sombras. Otra propiedad muy importante al tratar con la localización es la diferencia temporal inter-aural (ITD). El oído con sombras tiene una distancia más larga a la fuente de sonido, y por lo tanto consigue el frente de onda de sonido más tarde que el oído sin sombras. El significado del ITD se enfatiza en las frecuencias bajas que no se atenúan mucho cuando llegan al oído con sombras en comparación con el oído sin sombras. La ITD es menos importante en las frecuencias más altas debido a que la longitud de onda del sonido se aproxima más a la distancia entre oídos. Por lo tanto, en otras palabras, la localización explota el hecho de que el sonido está sujeto a diferentes interacciones con la cabeza, los oídos y los hombros del oyente cuando viaja desde la fuente de sonido hacia los oídos izquierdo y derecho, respectivamente.

[0003] Los problemas se producen cuando una persona escucha a través de auriculares una señal estéreo que está destinada a ser reproducida por una configuración de altavoces. Es muy probable que el oyente considere el sonido como poco natural, incómodo, y perturbador puesto que el oyente siente que la fuente de sonido se encuentra en la cabeza. Este fenómeno se denomina a menudo en la literatura como la localización "en la cabeza". A largo plazo, escuchar el sonido "en la cabeza" puede conducir a fatiga auditiva. Esto se produce porque la información en la que el sistema auditivo humano se basa, al ubicar las fuentes de sonido, es decir, las señales interaurales, falta o es ambigua.

[0004] A fin de representar señales estéreo, o incluso señales multicanal con más de dos canales para la reproducción de auriculares, se pueden usar filtros direccionales para modelar estas interacciones. Por ejemplo, la generación de una salida de auriculares a partir de una señal multicanal descodificada puede comprender filtrar cada señal después de la decodificación por medio de un par de filtros direccionales. Estos filtros suelen modelizar la transmisión acústica desde una fuente de sonido virtual en una sala hasta el canal auditivo de un oyente, la llamada función de transferencia de habitación binaural (BRTF). La BRTF realiza modificaciones de tiempo, nivel y espectrales y modeliza las reflexiones y la reverberación de la sala. Los filtros direccionales pueden implementarse en el dominio del tiempo o de la frecuencia.

[0005] Sin embargo, ya que son necesarios muchos filtros, a saber, Nx2 siendo N el número de canales descodificados, estos filtros direccionales son más bien largos, tales como 20.000 intervalos de filtro a 44,1 kHz, y el proceso de filtrado es computacionalmente exigente. Por lo tanto, los filtros direccionales a veces se reducen a un mínimo. Las así llamadas funciones de transferencia relacionadas con la cabeza (HRTF) contienen la información direccional incluyendo las señales interaurales. Se utiliza un bloque de procesamiento común para modelizar las reflexiones y la reverberación de la sala. El módulo de procesamiento de sala puede ser un algoritmo de reverberación en el dominio del tiempo o de la frecuencia, y puede funcionar en una señal de entrada de uno o dos canales obtenida a partir de la señal de entrada multicanal por medio de una suma de los canales de la señal de entrada multicanal. Esta estructura se describe, por ejemplo, en el documento WO 99/14983 A1. Tal como se acaba de describir, el bloque de procesamiento de sala implementa reflexiones y/o reverberación de la sala. Las reflexiones y la reverberación de la sala son esenciales para sonidos localizados, especialmente en relación con la distancia y la externalización - lo que implica que se perciben fuera de la cabeza del oyente. El citado documento también sugiere la aplicación de los filtros direccionales como un conjunto de filtros FIR que operan en versiones retardadas de manera diferente del canal respectivo, a fin de modelar el camino directo desde la fuente de sonido al oído respectivo y reflexiones distintas. Por otra parte, en la descripción de una serie de medidas para proporcionar una experiencia de sonido más agradable con un par de auriculares, este documento también sugiere retrasar una mezcla del canal central y el canal frontal izquierdo y el canal central y el canal delantero derecho, respectivamente, en relación con una suma y una diferencia de los canales posterior izquierdo y posterior derecho respectivamente.

[0006] Sin embargo, los resultados de escucha alcanzados hasta ahora todavía carecen en gran medida de una anchura espacial reducida de la señal de salida binaural y de falta de externalización. Además, se ha descubierto que a pesar de las medidas antes mencionadas para la representación de señales multicanal para la reproducción por auriculares, las partes de voz en los diálogos de películas y música a menudo se perciben como reverberantes de manera poco natural y espectralmente desiguales.

[0007] US5371799 describe un sistema para procesar una señal de audio para reproducción en auriculares en la que una fuente de sonido aparente que está localizada fuera de la cabeza del oyente que procesa la señal de entrada como si estuviera hecha de una parte de onda directa, una parte de reflexión temprana, y una parte de reverberación. La parte de onda directa de la señal se procesa en filtros cuyos coeficientes de filtro se escogen a partir del acimut deseado de la posición de fuente de sonido virtual. La parte de reflexión temprana se hace pasar a través de un banco de filtros conectados en paralelo cuyos coeficientes se escogen a partir de cada acimut de reflexión. Las salidas de estos filtros se hacen pasar a través de escalares para ajustar la amplitud para simular un intervalo deseado de la fuente de sonido virtual. La parte de reverberación se procesa sin información alguna de ubicación de fuente de sonido, empleando un generador de números aleatorios, por ejemplo, y la salida se atenúa en un atenuador exponencial para desvanecerse. Entonces las salidas de los escalares y atenuadores se suman para producir señales de auriculares izquierda y derecha para su reproducción en transductores de auriculares respectivos.

[0008] Por lo tanto, es el objeto de la presente invención proporcionar un esquema de generación de señales binaurales, que dé como resultado una reproducción por auriculares más estable y agradable.

[0009] Este objeto se logra mediante dispositivos según la reivindicación 1 y un procedimiento según la reivindicación 9.

[0010] Otra ¡dea que subyace en la presente solicitud es... [Seguir leyendo]

 


Reivindicaciones:

1. Dispositivo para generar una contribución relativa a la reflexión/ reverberación de local (46a, 46b) de una señal binaural a partir de una señal multi-canal (18) que representa una pluralidad de canales y que está destinado para la reproducción por una configuración de altavoces que tiene una posición de fuente de sonido virtual asociada a cada canal, que comprende:

un generador de mezcla descendente (42) que forma una mezcla descendente mono o estéreo de los canales de la señal multi-canal; y

un procesador de local (44) para generar la contribución relativa a la reflexión/ reverberación de local (46a, 46b) de la señal binaural modellzando las reflexiones/ reverberaciones de local a partir de la señal mono o estéreo, en el que el generador de mezcla descendente (42) está configurado para formar la mezcla descendente mono o estéreo de modo que la pluralidad de canales contribuyen a la mezcla descendente mono o estéreo en un nivel que difiere entre al menos dos canales de la señal multi-canal, en el que el generador de mezcla descendente (42) está configurado para formar la mezcla descendente mono o estéreo (48) de modo que un canal central de la pluralidad de canales contribuye a la mezcla descendente mono o estéreo según un nivel reducido con respecto a los otros canales de la señal multi-canal (18).

2. Dispositivo según la reivindicación 1, en el que el generador de mezcla descendente (42) está configurado para reconstruir, mediante codificación de audlo espacial, la pluralidad de canales a partir de una señal de mezcla descendente y parámetros espaciales asociados que describen diferencias de nivel, diferencias de fase, diferencias de tiempo y/o medidas de correlación entre las pluralidades de canales.

3. Dispositivo según la reivindicación 2, en el que el generador de mezcla descendente (42) está configurado para realizar la formación de modo que una cantidad de reducción de nivel de un primero de los al menos dos canales relativos a un segundo de los al menos dos canales depende de los parámetros espaciales.

4. Dispositivo según la reivindicación 2, en el que el generador de mezcla descendente (42) está configurado para reconstruir, mediante codificación de audlo espacial, la pluralidad de canales a partir de una señal de mezcla descendente estéreo, coeficientes de predicción de canal que describen como los canales de la señal de mezcla descendente estéreo se deben combinar llnealmente para predecir un triplete de canales central, derecho e izquierdo, y una señal residual (270) que refleja una predicción residual cuando se predice el triplete.

5. Dispositivo según cualquiera de las reivindicaciones 1 a 4, en el que el generador de mezcla descendente (42) está configurado para realizar la formación de modo que una cantidad de reducción de nivel de un primero de los al menos dos canales relativos a un segundo de los al menos dos canales depende de una diferencia de nivel y/o una correlación entre canales individuales de la pluralidad de canales.

6. Dispositivo según la reivindicación 5, en el que el generador de mezcla descendente (42) está configurado para obtener la diferencia de nivel y/o la correlación entre canales individuales de la pluralidad de canales a partir de parámetros espaciales que acompañan una señal de mezcla descendente que representan conjuntamente la pluralidad de canales.

7. Dispositivo según cualquiera de las reivindicaciones 1 a 4, en el que el generador de mezcla descendente (42) está configurado para realizar la formación de modo que una cantidad de reducción de nivel de un primero de los al menos dos canales relativos a un segundo de los al menos dos canales varía en el tiempo tal como se indica mediante un Indicador de variación temporal transmitido dentro de información lateral de la señal multi-canal.

8. Dispositivo según la reivindicación 1, comprendiendo el dispositivo además:

un detector de tipo de señal para detectar fases de habla y de no - habla dentro de la señal multi-canal, en el que el generador de mezcla descendente está configurado para realizar la formación de modo que una cantidad de reducción de nivel es mayor durante fases de habla que durante fases de no habla.

9. Procedimiento para generar una contribución relativa a la reflexión/ reverberación de local de una señal binaural a partir de una señal multi-canal que representa una pluralidad de canales y que está destinado para la reproducción por una configuración de altavoces que tienen una posición de fuente de sonido virtual asociada a cada canal, que comprende:

formar una mezcla descendente mono o estéreo de los canales de la señal multi-canal; y

generar la contribución relativa a la reflexión/ reverberación de local de la señal binaural modelizando reflexiones/ reverberaciones de local a partir de la señal mono o estéreo, en el que el generador de mezcla descendente está configurado para formar la mezcla descendente mono o estéreo de modo que la pluralidad de canales contribuyen a la mezcla descendente mono o estéreo en un nivel que difiere entre al menos dos canales de la señal multi-canal, en el que la formación de la mezcla descendente mono o estéreo se realiza de modo que un canal central de la

pluralidad de canales contribuye a la mezcla descendente mono o estéreo según un nivel reducido con respecto a los otros canales de la señal multi-canal.

10. Programa de ordenador que tiene instrucciones para realizar, cuando se ejecuta en un ordenador, un 5 procedimiento según la reivindicación 9.