CODIFICACIÓN PARAMÉTRICA CONJUNTA DE FUENTES DE AUDIO.

Método para sintetizar una pluralidad de canales de audio ( x1 (n ),

x2(n )) 1 x n x n , que comprende las etapas de: - recuperar de un flujo de audio al menos una señal suma (s(n)) que representa una suma de señales fuente ( ( ), ( ),..., ( )) 1 2 s n s n s n M , - recuperar del flujo de audio la información estadística (Φ)(n,d) , (φ)(n,e) , Es~s (n) } i que representa el envolvente espectral de una o más señales fuente ( ( ), ( ),..., ( )) 1 2 s n s n s n M , - recibir del flujo de audio, o determinar de manera local, parámetros ( ) n S que describen un formato de audio de salida y unos parámetros de mezcla ( , ) i i a b de las señales fuente, y - sintetizar la pluralidad de canales de audio ( x1 ( n) x2 (n )) 1 2 x n x n a partir de la al menos una señal suma basándose en unos parámetros de mezclador de salida (g , g , D , D ) 1 2 1 2 calculados, en el que se calculan los parámetros de mezclador de salida (g , g , D , D ) 1 2 1 2 a partir de la información estadística recibida, los parámetros que describen el formato de audio de salida, y dichos parámetros de mezcla ( , ) i i a b de las señales fuente, de manera que la pluralidad de canales de audio sintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las indicaciones (ICLD, ICTD, ICC) de los canales de audio obtenibles mediante la mezcla de las señales fuente utilizando los parámetros (S) n que describen el formato de audio de salida y dichos parámetros de mezcla de las señales fuente

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2006/050904.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: FALLER,CHRISTOF.

Fecha de Publicación: 16 de Febrero de 2012.

Fecha Solicitud PCT: 13 de Febrero de 2006.

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2374434_T3.pdf

Fragmento de la descripción:

En un problema de codificación general, existe un número de señales (mono) fuente si (n) (1 < i < M) y un 5 vector de descripción de escena S(n), donde n es el índice de tiempo. El vector de descripción de escena contiene parámetros, tal como posiciones de fuente (virtuales), anchos de fuente y parámetros acústicos, tal como los parámetros del área (virtuales). La descripción de escena puede ser invariante con el tiempo o puede cambiar con el tiempo. Las señales fuente y la descripción de escena se codifican y transmiten a un descodificador. Las señales fuente codificadas, s i ( n) son mezcladas sucesivamente como una función de la descripción de escena, S ( n) , para generar síntesis de campo de onda, señales multicanal o estéreo, como una función del vector de descripción de escena. Las señales de salida del descodificador se denotan como ( ( n) (0 i N). x i Cabe mencionar que el vector de descripción de escena S(n) puede no ser transmitido, pero puede ser determinado en el descodificador. En este documento, el término de señal de audio estéreo siempre se refiere a señales de audio estéreo de dos canales. 15 Se trata ISOMEC MPEG-4 del escenario de codificación descrito. Define la descripción de escena y usa para cada señal fuente (natural) un codificador de audio mono separado, por ejemplo, un codificador de audio de AAC. Sin embargo, cuando una escena compleja con muchas fuentes se va a mezclar, la velocidad de bits llega a ser alto, es decir, se escala en forma ascendente la velocidad de bits con el número de fuentes. La codificación de una señal fuente con alta calidad requiere de aproximadamente 60 a 90 kb/seg. 20 Anteriormente, se refirió a un caso especial del problema de codificación descrito [1][2] con un esquema denominado Codificación de Indicación Binaural (BCC, Binaural Cue Coding) para la Presentación Flexible. Al transmitir sólo la suma de las señales fuente dadas, más la información secundaria de la velocidad de bits baja, se logra esta velocidad de bits baja. Sin embargo, no pueden recuperarse las señales fuente en el descodificador y el esquema se limitó a la generación de señales circundantes estéreo y multicanales. Igualmente, sólo se utilizó la mezcla sencilla, con 25 base en la panorámica de amplitud y retardo. Así, podía controlarse la dirección de fuentes, pero no otros atributos de imagen espacial auditivos. Otra limitación de este esquema es su calidad de audio limitada. Especialmente, hay una disminución en la calidad de audio conforme se aumenta el número de señales fuente. El documento [1] (Codificación de Indicación Binaural, Estéreo Paramétrico, MP3 Circundante, MPEG Circundante) cubre el caso donde N canales de audio se codifican y N canales de audio, con indicaciones similares y a 30 continuación los canales de audio originales se descodifican. La información secundaria transmitida incluye parámetros de indicación entre canales relativos a las diferencias entre los canales de entrada. Los canales de las señales de audio estéreo y multicanal contienen mezclas de señales fuente de audio y son así diferentes en naturaleza con respecto a las señales fuente de audio puras. Las señales de audio estéreo y multicanal se mezclan de modo que cuando se reproducen en un sistema de reproducción apropiado, el oyente 35 percibirá una imagen espacial auditivo (etapa de sonido) tal y como se captura por el ajuste de grabación o se diseña por el ingeniero de grabación durante la mezcla. Se ha propuesto anteriormente un número de esquemas para la codificación conjunta para los canales de una señal de audio estéreo o multicanal. Se da a conocer en la tesis doctoral titulada Parametric Coding of Spatial Audio, de Christof Faller, Lausanne ELF, 2004, la codificación paramétrica de audio espacial utilizando indicaciones de percepción. Se introduce en un banco de filtros una señal suma transmitida y una etapa de síntesis realiza una síntesis en el dominio del banco de 40 filtros. Es objeto de la invención proporcionar un concepto mejorado para sintetizar una pluralidad de canales de audio. Se alcanza este objeto mediante un método para sintetizar una pluralidad de canales de audio según la reivindicación 1, o un aparato para sintetizar una pluralidad de canales de audio según la reivindicación 13. 45 Preferiblemente, la invención proporciona un método para transmitir una pluralidad de señales fuente utilizando un ancho de banda mínimo. En la mayoría de los métodos conocidos, el formato de reproducción (por ejemplo estéreo, 5.1) es predefinido y tiene una influencia directa en el escenario de codificación. El flujo de audio en el lado del descodificador debe usar solamente este formato de reproducción predefinido, por lo tanto, obligando al usuario a utilizar un escenario de reproducción predefinido (por ejemplo, estéreo). 50 La invención propuesta codifica N señales fuente de audio, típicamente no canales de señales estéreo o multicanal, sino señales independientes, tal como diferentes señales de voz o de instrumentos. La información secundaria transmitida incluye parámetros estadísticos que se relacionan con las señales fuente de audio de entrada. 2 La invención propuesta descodifica M canales de audio con indicaciones diferentes con respecto a las señales fuente de audio originales. Estas indicaciones diferentes se sintetizan implícitamente mediante la aplicación de un mezclador a la señal suma recibida. El mezclador se controla como una función de la información fuente estadística recibida y los parámetros de formato de audio recibidos (o determinados de manera local) y los parámetros de mezcla. 5 Alternativamente, estas diferentes indicaciones se calculan explícitamente como una función de la información fuente estadística recibida y los parámetros de formato de audio recibidos (o determinados de manera local) y los parámetros de mezcla. Estas indicaciones calculadas se usan para controlar un descodificador de la técnica anterior (Codificación de Indicación Binaural, Estéreo Paramétrico, MPEG Circundante) para sintetizar los canales de salida dada la señal suma recibida. 10 El esquema propuesto para la codificación conjunta de señales fuente de audio es el primero de su clase. Se ha diseñado para la codificación conjunta de señales fuente de audio. Las señales fuente de audio habitualmente son señales de audio mono que no son adecuadas para la reproducción mediante un sistema de audio estéreo o multicanal. Para brevedad, en lo siguiente, las señales fuente de audio son a menudo denominadas como señales fuente. Las señales fuente de audio primero necesitan ser mezcladas a las señales de audio estéreo, multicanal o de síntesis de campo de onda anteriormente a la reproducción. Una señal fuente de audio puede ser un único instrumento 15 o conversador, o la suma de un número de instrumentos y conversadores. Otro tipo de señal fuente de audio es una señal de audio mono capturada con un micrófono de zona durante un concierto. A menudo las señales fuente de audio se almacenan en grabadoras de múltiples pistas o en sistemas de grabación de disco duro. El esquema reivindicado para la codificación conjunta de señales fuente de audio se basa en transmitir solamente la suma de las señales fuente de audio, o una suma ponderada de las señales fuente. Opcionalmente, la suma ponderada puede realizarse con diferentes pesos en diferentes subbandas y pueden adaptarse los pesos en el tiempo. Además puede aplicarse la suma con ecualización, tal y como se describe en el Capítulo 3.3.2 en [1]. En lo siguiente, al referirse a la suma o señal suma, siempre se entiende una señal generada por (1) o generada según lo descrito. Además de la señal suma, se transmite 25 la información secundaria. La suma y la información secundaria representan el flujo de audio producido. Opcionalmente, se codifica la señal suma usando un codificador convencional de audio mono. Puede almacenarse este flujo en un archivo (CD, DVD, disco duro) o transmitirse al receptor. La información secundaria representa las propiedades estadísticas de las señales fuente que son los factores más importantes que determinan las indicaciones espaciales de percepción de las señales de salida del mezclador. Se mostrará que estas propiedades son envolventes espectrales 30 que se desarrollan en el tiempo y funciones de autocorrelación. Se transmiten alrededor de 3 kb/seg de información secundaria por señal fuente. En el receptor, se recuperan las señales fuente si ( ) (1 < i < M) con las propiedades estadísticas antes mencionadas, que se aproximan a las propiedades correspondientes de las señales fuente originales y la señal suma. BREVE DESCRIPCIÓN DE LOS DIBUJOS 3 n Se comprenderá mejor la invención gracias a las figuras adjuntas, en las que: - la figura 1 muestra un esquema en... [Seguir leyendo]

Reivindicaciones:

1. Método para sintetizar una pluralidad de canales de audio ( x 1( n), x2( n)) , que comprende las etapas de: - recuperar de un flujo de audio al menos una señal suma ( s ( n)) que representa una suma de señales fuente s ( n), s ( n),..., sM ( n)) , ( 1 2 - recuperar del flujo de audio la información estadística ( )( n, d) , ( )( n, e) E s i ( ) que representa el envolvente espectral de una o más señales fuente s ( n), s ( n),..., sM ( n)) , 16 ( 1 2 ~ n , - recibir del flujo de audio, o determinar de manera local, parámetros ( Sn ) que describen un formato de audio de salida y unos parámetros de mezcla a , ) de las señales fuente, y ( i bi - sintetizar la pluralidad de canales de audio ( x 1( n) x2( n)) a partir de la al menos una señal suma basándose en unos parámetros de mezclador de salida ( g1 , g2, D1, D2) calculados, en el que se calculan los parámetros de mezclador de salida ( g1 , g2, D1, D2) a partir de la información estadística recibida, los parámetros que describen el formato de audio de salida, y dichos parámetros de mezcla ( a i, bi ) de las señales fuente, de manera que la pluralidad de canales de audio sintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las indicaciones (ICLD, ICTD, ICC) de los canales de audio obtenibles mediante la mezcla de las señales fuente utilizando los parámetros ( S n) que describen el formato de audio de salida y dichos parámetros de mezcla de las señales fuente. 2. Método de la reivindicación 1, en el que los envolventes espectrales estadísticas de la una o más señales fuente de audio comprenden parámetros de filtro de red o parámetros espectrales de línea. 3. Método de la reivindicación 1, en el que la información estadística representa una potencia relativa como una función de la frecuencia y del tiempo de la una o más señales fuente. 4. Método de la reivindicación 1, en el que se sintetiza la pluralidad de canales de audio en un dominio de subbanda de un banco de filtros. 5. Método de la reivindicación 4, en el que se determinan el número y anchos de banda del dominio de subbanda según una resolución espectral y temporal de un sistema auditivo humano. 6. Método de la reivindicación 4, en el que el número de subbandas está comprendido entre 3 y 40. 7. Método de la reivindicación 4, en el que las subbandas tienen diferentes anchos de bandas, en donde las subbandas de frecuencias más bajas tienen anchos de banda menores que las subbandas de frecuencias más altas. 8. Método de la reivindicación 4, en el que se utiliza un banco de filtros basado en una transformada de Fourier de tiempo corto (STFT) y se combinan los coeficientes espectrales de modo que cada grupo de coeficientes espectrales forman una subbanda. 9. Método de la reivindicación 1, en el que la información estadística también comprende funciones de autocorrelación. 10. Método de la reivindicación 2, en el que se representan los envolventes espectrales como parámetros de codificación predictiva lineal (LPC). 11. Método de la reivindicación 1, en el que la etapa de calcular los parámetros de mezclador de salida comprende el cálculo de las indicaciones de la pluralidad de canales de audio y el cálculo de los parámetros de mezclador de salida utilizando las indicaciones calculadas de la pluralidad de canales de audio. 12. Método de la reivindicación 1, en el que la etapa de calcular los parámetros de mezclador de salida comprende el cálculo de un primer factor de ganancia (g1) y un segundo factor de ganancia (g2), un primer retardo (D1) y un segundo retardo (D2), y un valor de determinación de procesamiento de descorrelación c(n). 13. Aparato para sintetizar una pluralidad de canales de audio ( x 1( n), x2( n)) , en el que el aparato comprende medios operativos para: - recuperar de un flujo de audio al menos una señal suma ( s ( n)) que representa una suma de señales fuente s ( n), s ( n),..., sM ( n)) , ( 1 2 - recuperar del flujo de audio la información estadística ( (n, d), (n, e), s(n) ) que representa el envolvente espectral de una o más señales fuente s ( n), s ( n),..., sM ( n)) , 17 ( 1 2 - recibir del flujo de audio, o determinar de manera local, parámetros ( Sn ) que describen un formato de audio de salida y unos parámetros de mezcla a , ) de las señales fuente, y ( i bi - sintetizar la pluralidad de canales de audio ( x 1( n) x2( n)) a partir de la al menos una señal suma basándose en unos parámetros de mezclador de salida ( g1 , g2, D1, D2) calculados, en el que el aparato es adicionalmente operativo para calcular dichos parámetros de mezclador de salida ( g1 , g2, D1, D2) a partir de la información estadística recibida, los parámetros que describen el formato de audio de salida, y dichos parámetros de mezcla ( a i, bi ) de las señales fuente, de manera que la pluralidad de canales de audio sintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las indicaciones (ICLD, ICTD, ICC) de los canales de audio obtenibles mediante la mezcla de las señales fuente utilizando los parámetros ( S n) que describen el formato de audio de salida y los parámetros de mezcla de las señales fuente. ~ 18 19 21 22

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]