ESPACIALIZACION BINAURAL DE DATOS SONOROS CODIFICADOS EN COMPRESION.

Procedimiento de tratamiento de datos sonoros para una restitución espacializada en tres dimensiones sobre dos vías de restitución para los oídos respectivos de un oyente,

estando los datos sonoros inicialmente representados en un formato multicanal, a continuación codificados en compresión (COD) sobre un número reducido de canales (L, R),

consistiendo dicho formato multicanal en proporcionar más de dos canales susceptibles de alimentar dos altavoces respectivos, comprendiendo el procedimiento las etapas de:

- obtener, con los datos comprimidos sobre dicho número reducido de canales, parámetros de espacialización (ESPAC),

- para cada vía de restitución asociada a un oído del oyente, formar, a partir de dichos parámetros de espacialización, una combinación de filtros representativos cada uno de funciones de transferencia (HRTF) entre este oído del oyente y altavoces susceptibles de alimentarse mediante canales respectivos del formato multicanal inicial, y

- aplicar a los datos comprimidos la combinación de filtros (hL,L, hL,R, hL,C, hR,R, hR,L, hR,C) asociada a cada vía de restitución (L-BIN; R-BIN),

caracterizado porque el procedimiento comprende las etapas de:

- para cada vía de restitución asociada a un oído del oyente, determinar, a partir de dichos parámetros de espacialización, al menos una función de transferencia de un altavoz situado detrás del oído del oyente y representativa de una decorrelación entre los canales del formato multicanal respectivamente asociados al altavoz trasero y a al menos un altavoz situado delante del oído del oyente, y

- para cada vía de restitución, integrar dicha función de transferencia representativa de una decorrelación en dicha combinación de filtros asociada a esta vía de restitución

Tipo: Resumen de patente/invención. Número de Solicitud: W07051457FR.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY,75015 PARIS.

Inventor/es: VIRETTE,DAVID, GUERIN,ALEXANDRE.

Fecha de Publicación: 16 de Marzo de 2010.

Fecha Concesión Europea: 21 de Octubre de 2009.

Clasificación Internacional de Patentes:

G10L19/00M
H04S3/00A2

Clasificación PCT:

H04S1/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas con dos canales (H04S 5/00, H04S 7/00 tienen prioridad).

ESPACIALIZACION BINAURAL DE DATOS SONOROS CODIFICADOS EN COMPRESION.

Fragmento de la descripción:

Espacialización binaural de datos sonoros codificados en compresión.

La invención se refiere al tratamiento de datos sonoros, con vistas a una restitución espacializada.

La espacialización sonora tridimensional (denominada "efecto de 3D") de señales de audio comprimidas interviene especialmente durante la descompresión de una señal de audio 3D, por ejemplo, codificada en compresión y representada sobre un cierto número de canales, hacia un número de canales diferentes (dos, por ejemplo, para permitir la restitución de los efectos de audio 3D en unos cascos de escucha).

El término "binaural" se refiere a la restitución sobre unos cascos estereofónicos de una señal sonora con, no obstante, efectos de espacialización. La invención no se limita, sin embargo, a la técnica mencionada anteriormente sino que se aplica, especialmente, a técnicas derivadas de la "binaural", tales como las técnicas de restitución denominadas TRANSAURAL (marca registrada), es decir, en altavoces distantes. Por tanto, tales técnicas pueden utilizar una "anulación de diafonía" (o "cross-talk cancellation", en inglés), que consiste en anular los caminos acústicos cruzados, de manera que un sonido así tratado y emitido después por los altavoces, sólo puede percibirse por uno sólo de los dos oídos de un oyente. En lo sucesivo, se designará a estas dos técnicas de restitución, binaural y transaural, de manera conjunta con los mismos términos "restitución binaural".

Así, más en general, la invención se refiere a la transmisión de señales de audio multicanal y a su conversión para una restitución espacializada (con efecto de 3D) sobre dos vías. El dispositivo de restitución (simples cascos con auriculares, por ejemplo) viene la mayoría de las veces impuesto por el equipo de un usuario. La conversión puede ir dirigida, por ejemplo, al caso de una restitución de una escena sonora inicialmente en el formato multicanal 5.1 (o 7.1, u otro) mediante unos sencillos cascos de escucha de audio (en técnica binaural).

Evidentemente, la invención se refiere también a la restitución, en el marco de un juego o de una grabación de vídeo, por ejemplo, de una o varias muestras sonoras almacenadas en ficheros, con vistas a su espacialización.

Respecto a la técnica anterior, se hace referencia al documento US2005/047618, que muestra un procedimiento de tratamiento de datos sonoros para una restitución espacializada en tres dimensiones sobre dos vías de restitución para el oído izquierdo y derecho de un oyente utilizando una función de transferencia.

Entre las técnicas conocidas en el campo de la espacialización sonora binaural, se han propuesto diferentes enfoques.

En particular, la síntesis binaural bicanal consiste, en referencia a la figura 1, relativa a la técnica anterior, en:

₁

varphi

₁

Estas funciones de transferencia, denominadas conjuntamente funciones "HRTF" (por "Head Related Transfer Functions", en inglés), representan las funciones de transferencia acústica entre las posiciones del espacio y el conducto auditivo de cada oído del oyente. Se designa mediante "HRIR" (por "Head Related Impulse Response", en inglés) su forma temporal o respuesta impulsional. Estas funciones HRIR pueden incluir además un efecto de sala.

Se obtienen, para cada fuente sonora S_i, dos señales (izquierda y derecha) que se añaden entonces a las señales de izquierda y de derecha resultado de la espacialización de todas las demás fuentes sonoras, para dar finalmente las señales L y R que se difundirán en los oídos izquierdo y derecho del oyente a través de dos altavoces respectivos (auriculares de unos cascos en técnica binaural o altavoces distantes en técnica transaural).

Si N designa el número de fuentes sonoras o de flujo de audio incidentes que van a espacializarse, el número de filtros, o funciones de transferencia, necesarios para la síntesis binaural es 2xN para un efecto en espacialización binarual estática y 4xN para un efecto en espacialización binaural dinámica (con transiciones de las funciones de transferencia).

El tratamiento descrito anteriormente en referencia a la figura 1 y que pone en práctica las funciones de transferencia HRTF es clásico. Se utiliza a menudo para un efecto de 3D a partir de dos altavoces. Podrá ser la base para una realización puesta en práctica por la presente invención, tal como se verá más adelante. Por este motivo se introduce aquí.

No obstante, la invención parte de otro tipo de técnica anterior.

Existen técnicas de compresión, a menudo en un dominio transformado, de señales en un formato multicanal para poder vehicular estas señales, especialmente a través de redes de telecomunicación, sobre un número restringido de canales, por ejemplo, uno o dos canales solamente. Así, para la emisión de una señal en un formato multicanal que comprende más de dos canales (por ejemplo 5.1, 7.1 u otro), un codificador comprime la señal multicanal sobre únicamente uno o dos canales (normalmente según la capacidad ofrecida sobre la red de telecomunicación) y suministra además información de espacialización. Esta realización se ilustra en la figura 2A en la que, a modo de ejemplo, para una señal en un formato multicanal 5.1, se codifican cinco canales (C para un altavoz central, FL para un altavoz delantero izquierdo, FR para un altavoz delantero derecho, BL para un altavoz trasero izquierdo y BR para un altavoz trasero derecho) en compresión por un módulo COD adecuado para suministrar dos canales comprimidos L Y R, así como información de espacialización ESPAC. Los canales comprimidos L y R, así como la información de espacialización ESPAC se vehiculan a continuación a través de una o varias redes de telecomunicación RED, sobre uno o dos canales según la capacidad ofrecida (figura 2B).

En referencia a la figura 2C, en la recepción de la señal comprimida sobre los dos canales L y R, un decodificador (DECOD) reconstituye la señal original en el formato multicanal inicial gracias a la información de espacialización ESPAC suministrada por el codificador y, en el ejemplo de las figuras 2A y 2C, se recuperan incluso cinco canales, tras la decodificación, que alimentan cinco altavoces (AV-FL, AV-FR, AV-C, AV-BL et AV-BR) para una restitución al formato 5.1.

Numerosos tipos de codificadores/decodificadores paramétricos, especialmente normalizados, ofrecen tales posibilidades.

Los codificadores de audio (AAC, MP3) utilizan representaciones tiempo-frecuencia de las señales para comprimir la información. Estas representaciones se basan en un análisis mediante bancos de filtros o mediante transformación en tiempo-frecuencia de tipo MDCT (por "Modified Discrete Cosine Transform"). En el caso en el que una espacialización binaural deba efectuarse tras una decodificación de audio, las operaciones de filtrado se realizan ventajosamente de una vez en el dominio transformado.

Algunos trabajos recientes sobre el filtrado en el dominio transformado de subbandas han permitido formalizar la arquitectura de filtrado para un banco de filtros utilizado normalmente en los codificadores de audio. Se podrá consultar de manera útil el documento:

"A Generic Framework for Filtering in Subband Domain", A. Benjelloun Touimi, Proceeding IEEE - 9th Workshop on Digital Signal Processing, Hunt, Texas, EE. UU., octubre de 2000.

Una técnica más reciente de filtrado en el dominio transformado de los QMF complejos (por "Quadrature Mirror Filters") se ha propuesto en la norma "MPEG Surround". Esta técnica va dirigida a la conversión de la respuesta impulsional (terminada) del filtro temporal denominado h(v) en un conjunto de M filtros complejos denominados h_m(l), donde M es el número de subbandas de frecuencias. La conversión se realiza mediante análisis del filtro temporal h(v) mediante un banco de filtros complejos similar al banco de filtros QMF utilizado para el análisis de la señal. En un ejemplo de realización, el filtro prototipo q(v) utilizado para generar el banco de filtro de conversión puede tener una...

Reivindicaciones:

1. Procedimiento de tratamiento de datos sonoros para una restitución espacializada en tres dimensiones sobre dos vías de restitución para los oídos respectivos de un oyente,

estando los datos sonoros inicialmente representados en un formato multicanal, a continuación codificados en compresión (COD) sobre un número reducido de canales (L, R),

consistiendo dicho formato multicanal en proporcionar más de dos canales susceptibles de alimentar dos altavoces respectivos, comprendiendo el procedimiento las etapas de:

- obtener, con los datos comprimidos sobre dicho número reducido de canales, parámetros de espacialización (ESPAC),

- para cada vía de restitución asociada a un oído del oyente, formar, a partir de dichos parámetros de espacialización, una combinación de filtros representativos cada uno de funciones de transferencia (HRTF) entre este oído del oyente y altavoces susceptibles de alimentarse mediante canales respectivos del formato multicanal inicial, y

_L,L

_L,R

_L,C

_R,R

_R,L

_R,C

caracterizado porque el procedimiento comprende las etapas de:

- para cada vía de restitución asociada a un oído del oyente, determinar, a partir de dichos parámetros de espacialización, al menos una función de transferencia de un altavoz situado detrás del oído del oyente y representativa de una decorrelación entre los canales del formato multicanal respectivamente asociados al altavoz trasero y a al menos un altavoz situado delante del oído del oyente, y

- para cada vía de restitución, integrar dicha función de transferencia representativa de una decorrelación en dicha combinación de filtros asociada a esta vía de restitución.

2. Procedimiento según la reivindicación 1, caracterizado porque la combinación de filtros asociada a una vía de restitución (L-BIN) comprende al menos un primer reagrupamiento, que forma un primer filtro (h_L,L), a partir:

- de la función de transferencia de un altavoz delantero (HRTF-A),

- de la función de transferencia de un altavoz trasero (HRTF-C), y

- de una versión (HRTF-C*) de la función de transferencia del altavoz trasero, representativa de una decorrelación entre canales,

y porque los altavoces delantero y trasero están situados en un mismo primer lado con respecto al oyente.

3. Procedimiento según la reivindicación 2, caracterizado porque dicho reagrupamiento comprende una ponderación, según un coeficiente (a₁; a₂) elegido entre:

- la función de transferencia del altavoz situado detrás, y

- la versión representativa de una decorrelación de esta función de transferencia del altavoz trasero.

4. Procedimiento según la reivindicación 3, caracterizado porque la codificación en compresión pone en práctica un codificador (COD) paramétrico que suministra una información de decorrelación entre canales del formato multicanal, y porque el coeficiente de ponderación está representado por una función variable dinámicamente en función de la información de decorrelación (ICC_L; ICC_R) que suministra el codificador paramétrico.

5. Procedimiento según una de las reivindicaciones 2 a 4, en el que los datos sonoros se codifican en compresión sobre dos canales (L,R),

caracterizado porque la combinación de filtros asociada a dicha vía de restitución (L-BIN) comprende, además de dicho primer reagrupamiento que forma el filtro (h_L,L) de uno de los canales comprimidos (L), un segundo reagrupamiento que forma el filtro (h_L,R) del otro de los canales comprimidos (R) a partir:

- de la función de transferencia de un altavoz delantero (HRTF-H) situado en un segundo lado, opuesto al primer lado con respecto al oyente,

- de la función de transferencia de un altavoz trasero (HRTF-E) situado en dicho segundo lado, y

- de una versión (HRTF-E*) de la función de transferencia de este altavoz trasero, representativa de una decorrelación entre canales.

6. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque, estando los datos sonoros codificados en comprensión en un dominio transformado, la combinación de filtros se aplica en el dominio transformado en función de energías objetivo asociadas a los canales del formato multicanal, determinándose estas energías objetivo a partir de dichos parámetros de espacialización.

7. Procedimiento según una de las reivindicaciones anteriores, caracterizado porque dichas funciones de transferencia de los altavoces son de tipo HRTF y representan perturbaciones acústicas sobre caminos entre cada altavoz y un oído por una vía de restitución asociada a este oído.

8. Procedimiento según las reivindicaciones 6 y 7, en el que el dominio transformado es el dominio de las subbandas, caracterizado porque las versiones decorrelacionadas de las funciones HRTF de los altavoces traseros se obtienen aplicando a las funciones HRTF iniciales de los altavoces traseros un desfase que está en función de cada subbanda de frecuencias.

9. Módulo de decodificación (DECOD BIN) para una restitución espacializada en tres dimensiones sobre dos vías de restitución, caracterizado porque comprende medios de tratamiento de datos sonoros para la puesta en práctica del procedimiento según una de las reivindicaciones anteriores.

10. Programa informático, destinado a almacenarse en una memoria de un módulo de decodificación para una restitución espacializada en tres dimensiones sobre dos vías de restitución, caracterizado porque comprende instrucciones para la ejecución del procedimiento según una de las reivindicaciones 1 a 8.

Patentes similares o relacionadas:

MÉTODO, DISPOSITIVO, APARATO CODIFICADOR, APARATO DECODIFICADOR Y SISTEMA DE AUDIO, del 8 de Febrero de 2012, de Koninklijke Philips Electronics N.V. Dolby International AB: Método de procesamiento de una señal de mezcla descendente estéreo que comprende señales estéreo primera y segunda (L0, R0), codificando la señal de mezcla […]

PROCEDIMIENTO Y APARATO PARA CODIFICAR Y DECODIFICAR SEÑALES DIGITALES, del 13 de Enero de 2012, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento de codificación de señales digitales compuestas de al menos dos canales, comprendiendo el procedimiento: dividir las señales digitales […]

DERIVACIÓN HÍBRIDA DE CANALES DE AUDIO DE SONIDO ENVOLVENTE COMBINANDO DE MANERA CONTROLABLE COMPONENTES DE SEÑAL DE SONIDO AMBIENTE Y CON DECODIFICACIÓN MATRICIAL, del 13 de Mayo de 2011, de DOLBY LABORATORIES LICENSING CORPORATION: Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes […]

PROCESAMIENTO DE SEÑALES DE MÚLTIPLES CANALES, del 24 de Marzo de 2011, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Procedimiento de generación de una señal monaural (S) que comprende una combinación de dos canales de audio de entrada (L, R), que comprende […]

CODIFICACION DE AUDIO MULTICANAL AJUSTABLE A ESCALA, del 27 de Octubre de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Codificador de audio adaptado para codificar una señal de audio multicanal, comprendiendo el codificador: - un módulo de combinación de […]

CODIFICACION ESTEREOFONICA PARAMETRICA EFICAZ Y AMPLIABLE PARA APLICACIONES DE BAJA VELOCIDAD DE TRANSFERENCIA DE BITS, del 19 de Agosto de 2010, de CODING TECHNOLOGIES SWEDEN AB: Método para codificar una envolvente espectral de potencia de una señal de audio estereofónica o de una señal de audio multicanal que tiene dos canales, teniendo […]

CODIFICACION Y DECODIFICACION DE SEÑALES AUDIO MULTICANAL, del 18 de Junio de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Procedimiento para codificar una señal multicanal que incluye al menos una primera componente de señal y una segunda componente de señal que representan una señal de […]

CONTROL ADAPTATIVO DE COLA DE ECO PARA SINTESIS DE AUDIO PSEUDOESTEREOFONICA, del 13 de Mayo de 2010, de CODING TECHNOLOGIES AB: Unidad de reverberación para generar un primer canal y un segundo canal de una señal estereofónica o una señal multicanal, que comprende: un detector para detectar terminaciones […]