Procedimiento y aparato para generar una señal de audio binaural.
Aparato para generar una señal de audio binaural, comprendiendo el aparato:
- un medio (401, 403) destinado a recibir datos de audio que comprenden una señal de audio con M canales que es una mezcla descendente de una señal de audio de N canales y datos de parámetros espaciales para la mezcla ascendente de la señal de audio con M canales, para obtener la señal de audio de N canales;
- un medio de datos de parámetros (411) destinado a convertir parámetros espaciales de los datos de parámetros espaciales, para obtener unos primeros parámetros binaurales en respuesta a al menos una función de transferencia perceptiva binaural;
- un medio de conversión (409) destinado a convertir la señal de audio con M canales en una primera señal estéreo en respuesta a los primeros parámetros binaurales;
caracterizado por
- un filtro estéreo (415, 417) destinado a generar la señal de audio binaural por filtrado de la primera señal estéreo, y un medio de coeficientes (419) destinado a determinar coeficientes de filtro para el filtro estéreo en respuesta a la función de transferencia perceptiva binaural.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/008300.
Solicitante: KONINKLIJKE PHILIPS N.V.
Nacionalidad solicitante: Países Bajos.
Dirección: High Tech Campus 5 5656 AE Eindhoven PAISES BAJOS.
Inventor/es: BREEBART,DIRK JEROEN, VILLEMOES,LARS FALCK.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
- H04S3/02 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › H04S 3/00 Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad). › del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras.
PDF original: ES-2461601_T3.pdf
Fragmento de la descripción:
Procedimiento y aparato para generar una señal de audio binaural
CAMPO DE LA INVENCIÓN
La invención se refiere a un procedimiento y aparato para generar una señal de audio binaural y en particular, pero no exclusivamente, a la generación de una señal de audio binaural a partir de una señal mono de mezcla reductora.
ANTECEDENTES DE LA INVENCIÓN
En la última década, ha existido una tendencia hacia el audio multicanal y específicamente hacia el audio espacial, que se extiende más allá de las señales estéreo convencionales. Por ejemplo, las grabaciones tradicionales en estéreo comprenden solamente dos canales, mientras que los modernos sistemas de audio avanzados utilizan típicamente cinco o seis canales, como en los populares sistemas de sonido envolvente (surround sound) 5.1. Esto proporciona una experiencia auditiva más envolvente en donde el usuario puede encontrarse rodeado por las fuentes de sonido.
Se han desarrollado diversas técnicas y estándares para la comunicación de tales señales multicanal. Por ejemplo, seis canales separados, que representan un sistema envolvente 5.1, pueden transmitirse de acuerdo con estándares tales como los estándares Advanced Audio Coding (Codificación de audio avanzada) (AAC) o Dolby Digital (Digital Dolby) .
Sin embargo, a fin de proporcionar una compatibilidad inversa, se conoce el mezclado reductor del más alto número de canales a un número menor, y específicamente, se utiliza frecuentemente el mezclado reductor de una señal de sonido envolvente 5.1 a una señal estéreo permitiendo que una señal estéreo se reproduzca por medio de decodificadores tradicionales (estéreo) y una señal 5.1 por medio de decodificadores de sonido envolvente.
Un ejemplo es el procedimiento de codificación compatible a la inversa MPEG2. Una señal multicanal se reduce por mezcla a una señal estéreo. Las señales adicionales se codifican en la porción de datos auxiliares permitiendo que el decodificador multicanal MPEG2 genere una representación de la señal multicanal. Un decodificador MPEG1 desestimará los datos auxiliares, y por lo tanto, decodificará solamente la mezcla reductora en estéreo.
Existen varios parámetros que pueden utilizarse para describir las propiedades espaciales de las señales de audio. Uno de tales parámetros es la correlación cruzada intercanales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para señales estéreo. Otro parámetro es la amplificación de los canales. En los llamados codificadores de audio espaciales (paramétricos) , estos y otros parámetros se extraen de la señal de audio original a fin de producir un señal de audio que tiene un número de canales reducido, por ejemplo, solamente un canal, más un conjunto de parámetros que describen las propiedades espaciales de la señal de audio original. En los llamados decodificadores de audio espaciales (paramétricos) , se reinstalan las propiedades espaciales, como se describen por los parámetros espaciales transmitidos.
Actualmente gana interés el posicionamiento de la fuente de sonido 3D, especialmente en el dominio móvil. La reproducción de música y efectos de sonido en los juegos móviles puede agregar un valor significativo a la experiencia del consumidor al posicionarse en 3D, creando efectivamente un efecto 3D ‘delirante’. Específicamente, se conoce la grabación y reproducción de señales de audio binaurales que contienen información direccional específica a la cual el oído humano es sensible. Las grabaciones binaurales se producen típicamente utilizando dos micrófonos instalados en una cabeza humana simulada de manera que el sonido grabado corresponde al sonido capturado por el oído humano e incluyen cualquier influencia debido a la forma de la cabeza y los oídos. Las grabaciones binaurales difieren de las grabaciones en estéreo (es decir, estereofónicas) , en que la reproducción de una grabación binaural generalmente se destina a auriculares o audífonos, mientras que una grabación en estéreo se produce generalmente para su reproducción mediante altavoces. Aunque una grabación binaural permite la reproducción de toda la información espacial utilizando solamente dos canales, una grabación en estéreo no proporcionaría la misma percepción espacial.
Las grabaciones normales en canal dual (estereofónicas) o en canales múltiples (por ejemplo, 5.1) pueden transformarse en grabaciones binaurales convolucionando cada señal normal con un conjunto de funciones de transferencia perceptual. Tales funciones de transferencia perceptual modelan la influencia de la cabeza humana, y posiblemente de otros objetos en la señal. Un tipo muy conocido de función de transferencia perceptual espacial es la llamada función de transferencia relacionada con la cabeza (HRTF) . Un tipo alternativo de función de transferencia perceptual espacial, que también toma en cuenta las reflexiones ocasionadas por las paredes, el techo y el piso de una habitación, es la respuesta binaural al impulso ambiental (BRIR) .
Típicamente, los algoritmos de posicionamiento 3D emplean HRTFs (o BRIRs) , que describen la transferencia desde una cierta posición de la fuente de sonido hasta los tímpanos por medio de una respuesta al impulso. El posicionamiento de la fuente de sonido 3D puede aplicarse a señales multicanal por medio de HRTFs permitiendo así que una señal binaural proporcione información del sonido espacial a un usuario, por ejemplo, utilizando un par de audífonos.
Un algoritmo convencional de síntesis binaural se perfila en la Figura 1. Un conjunto de canales de entrada se filtra mediante un conjunto de HRTFs. Cada señal de entrada se divide en dos señales (un componente izquierdo ‘L’ y uno derecho ‘R’) ; cada una de estas señales se filtra subsecuentemente mediante un HRTF que corresponde a la posición de la fuente de sonido deseada. Todas las señales del oído izquierdo se suman subsecuentemente para generar la señal de salida binaural izquierda y las señales del oído derecho se suman para generar la señal de salida binaural derecha.
Se conocen sistemas codificadores que pueden recibir una señal codificada de sonido envolvente y generar una experiencia de sonido envolvente a partir de una señal binaural. Por ejemplo, se conocen sistemas de audífonos que permiten que la señal de sonido envolvente se convierta en una señal binaural de sonido envolvente proporcionando una experiencia de sonido envolvente al usuario de los audífonos.
La Figura 2 ilustra un sistema en donde un decodificador envolvente MPEG recibe una señal en estéreo con datos espaciales paramétricos. La corriente de bits de entrada se des-multiplexa mediante un des-multiplexor (201) dando como resultado parámetros espaciales y una corriente de bits de mezcla reductora. Esta última corriente de bits se decodifica utilizando un decodificador convencional mono o estéreo (203) . La mezcla reductora decodificada se decodifica mediante un decodificador espacial (205) que genera una salida multicanal en base a los parámetros espaciales transmitidos. Finalmente, la salida multicanal se procesa entonces por medio de una etapa de síntesis binaural (207) (similar a la de la Figura 1) dando como resultado una señal de salida binaural que proporciona una experiencia de sonido envolvente al usuario.
Sin embargo, tal procedimiento es complejo y requiere sustanciales recursos computacionales y puede reducir además la calidad de audio e introducir artefactos audibles.
A fin de superar algunas de estas desventajas, se ha propuesto que un decodificador de audio multicanal paramétrico pueda combinarse con un algoritmo de síntesis binaural, de tal manera que una señal multicanal pueda emitirse en audífonos sin que se requiera que la señal multicanal se genere primero desde la señal de mezcla reductora transmitida seguida por la mezcla reductora de la señal multicanal utilizando filtros HRTF.
En tales decodificadores, los parámetros espaciales de mezclado ascendente para recrear la señal multicanal se combinan con los filtros HRTF a fin de generar parámetros combinados que pueden aplicarse directamente a la señal de mezcla reductora para generar la señal binaural. A fin de hacerlo así, los filtros HRTF se parametrizan.
Un ejemplo de tal decodificador se ilustra en la Figura 3 y se describe adicionalmente en Breebaart J., “Analysis and synthesis of binaural parameters for efficient 3D audio rendering in MPEG Surround” (Análisis y síntesis de parámetros binaurales para la emisión eficiente de audio 3D en sonido envolvente MPEG) , Proc. ICME, Beijing, China (2007) y Breebaart J., Faller C., “Spatial audio processing: MPEG Surround... [Seguir leyendo]
Reivindicaciones:
1. Aparato para generar una señal de audio binaural, comprendiendo el aparato:
- un medio (401, 403) destinado a recibir datos de audio que comprenden una señal de audio con M canales que es una mezcla descendente de una señal de audio de N canales y datos de parámetros espaciales para la mezcla ascendente de la señal de audio con M canales, para obtener la señal de audio de N canales;
- un medio de datos de parámetros (411) destinado a convertir parámetros espaciales de los datos de parámetros espaciales, para obtener unos primeros parámetros binaurales en respuesta a al menos una función de transferencia perceptiva binaural;
- un medio de conversión (409) destinado a convertir la señal de audio con M canales en una primera señal estéreo en respuesta a los primeros parámetros binaurales;
caracterizado por
- un filtro estéreo (415, 417) destinado a generar la señal de audio binaural por filtrado de la primera señal estéreo, y un medio de coeficientes (419) destinado a determinar coeficientes de filtro para el filtro estéreo en respuesta a la función de transferencia perceptiva binaural.
2. Aparato según la reivindicación 1, que comprende por otro lado:
- un medio de transformación (405) destinado a transformar la señal de audio con M canales de un ámbito temporal a un ámbito de sub-banda y donde el medio de conversión y el filtro estéreo están dispuestos para tratar individualmente cada sub-banda del ámbito de sub-banda.
3. Aparato según la reivindicación 2, en el cual una duración de una respuesta impulsional de la función de transferencia perceptiva binaural excede un intervalo de actualización de transformación.
4. Aparato según la reivindicación 2, en el cual el medio de conversión (409) está dispuesto para generar, para cada subbanda, muestras de salida estéreo sensiblemente como:
LO hh
12
L
I
=
RO h21 h
R
I
donde al menos una de entre L1 y R1 es una muestra de un canal audio de la señal de audio con M canales en la subbanda y el medio de conversión está dispuesto para determinar coeficientes de matriz hxy en respuesta tanto a los datos de parámetros espaciales como a la al menos una función de transferencia perceptiva binaural.
5. Aparato según la reivindicación 2, en el cual el medio de coeficientes (419) comprende:
- un medio destinado a suministrar representaciones de sub-banda de respuestas impulsionales de una pluralidad de funciones de transferencia perceptiva binaural correspondientes a unas fuentes sonoras diferentes en la señal de N canales;
-un medio destinado a determinar los coeficientes de filtro por una combinación ponderada de coeficientes correspondientes de las representaciones de sub-banda; y
- un medio destinado a determinar los pesos de las representaciones de sub-banda para la combinación ponderada en respuesta a los datos de parámetros espaciales.
6. Aparato según la reivindicación 1, en el cual los primeros parámetros binaurales comprenden unos parámetros de coherencia que indican una correlación entre los canales de la señal de audio binaural.
7. Aparato según la reivindicación 1, en el cual los primeros parámetros binaurales no comprenden al menos uno de entre parámetros de localización que indican un emplazamiento de una fuente sonora cualquiera de la señal de N canales y de los parámetros de reverberación que indican una reverberación de una componente de sonido cualquiera de la señal de audio binaural.
8. Aparato según la reivindicación 1, en el cual el medio de coeficientes (419) está dispuesto para determinar los coeficientes de filtro para reflejar al menos una de entre las referencias de localización y las referencias de reverberación para la señal de audio binaural.
9. Aparato según la reivindicación 1, en el cual la señal de audio con M canales audio es una señal de audio mono y el medio de conversión (407, 409) está dispuesto para generar una señal descorrelacionada a partir de la señal de audio mono y para generar la primera señal estéreo por una multiplicación matricial aplicada a unas muestras de una señal estéreo que comprende la señal descorrelacionada y la señal de audio mono.
10. Procedimiento de generación de una señal de audio binaural, comprendiendo el procedimiento que comprende
- recibir (501) datos de audio que comprenden una señal de audio con M canales que es una mezcla descendente de una señal de audio de N canales y datos de parámetros espaciales para la mezcla ascendente de la señal de audio con M canales, para obtener la señal de audio de N canales;
- convertir (503) los parámetros espaciales de los datos de parámetros espaciales, para obtener los primeros parámetros binaurales en respuesta a al menos una función de transferencia perceptiva binaural;
- convertir (505) la señal de audio con M canales en una primera señal estéreo en respuesta a los primeros parámetros binaurales;
caracterizado por el hecho de
- generar (509) la señal de audio binaural por filtrado de la primera señal estéreo; y
- determinar (507) los coeficientes de filtro para el filtro estéreo en respuesta a la al menos una función de transferencia perceptiva binaural.
11. Emisor para transmitir una señal de audio binaural, comprendiendo el emisor un aparato para generar una señal de audio binaural según la reivindicación 1.
12. Sistema de transmisión para transmitir una señal de audio, comprendiendo el sistema de transmisión
- un emisor que comprende un emisor para transmitir la señal de audio binaural según la reivindicación 11, y
- un receptor para recibir la señal de audio binaural.
13. dispositivo de grabación audio para grabar una señal de audio binaural, comprendiendo el dispositivo de grabación audio un aparato para generar una señal de audio binaural según la reivindicación 1.
14. Procedimiento de transmisión de una señal de audio binaural, comprendiendo el procedimiento un procedimiento de generación de una señal de audio binaural según la reivindicación 10.
15. Procedimiento de emisión y de recepción de una señal de audio binaural, comprendiendo el procedimiento: un emisor que realiza un procedimiento de transmisión de señal de audio binaural según la reivindicación 10; y un receptor que realiza la etapa consistente en recibir la señal de audio binaural.
16. Producto de programa de ordenador para realizar el procedimiento según cualquiera de las reivindicaciones 14 y 15.
Estado de la técnica
Patentes similares o relacionadas:
Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]
Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]
Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]
Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]