Aparato y procedimiento para sintetizar una señal de salida.

Aparato para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segundaseñal de canal audio, comprendiendo el aparato; una etapa de descorrelación

(356) destinada a generar una señaldescorrelacionada (358) que presenta una señal de canal 5 única descorrelacionada o una señal de premier canaldescorrelacionada y una señal de segundo canal descorrelacionada a partir de una señal de mezcla descendente,presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y unasegunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcladescendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354); yun combinador (364) destinado a realizar una combinación ponderada de la señal de mezcla descendente (352) y dela señal descorrelacionada (358) con ayuda de factores de ponderación, donde el combinador (364) es operativopara calcular los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcladescendente (354), a partir de las informaciones de renderización de objetivo (360) que indican las posicionesvirtuales de los objetos audio en una disposición de reproducción virtual, y de informaciones de objeto audioparamétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular unamatriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segundaseñal de mezcla descendente de objeto audio a partir de la ecuación siguiente:

donde Co es la matriz de mezcla, donde A es una matriz de renderización de objetivo que representa lasinformaciones de renderización de objetivo (360), donde D es una matriz de mezcla descendente que representa lasinformaciones de mezcla descendente (354), donde * representa una operación de transposición conjugadacompleja, y donde E es una matriz de covarianza de objeto que representa las informaciones de objeto audioparamétricas (362).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/003282.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: ENGDEGARD, JONAS, HILPERT, JOHANNES, HERRE,JUERGEN, HOELZER,ANDREAS, PURNHAGEN,HEIKO, Resch,Barbara, FALCH,CORNELIA, TERENTIEV,LEONID, VILLEMORS,LARS.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > Sistemas que utilizan más de dos canales, p. ej.... > H04S3/02 (del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras)

PDF original: ES-2452348_T3.pdf

 

google+ twitter facebookPin it
Aparato y procedimiento para sintetizar una señal de salida.

Fragmento de la descripción:

Aparato y procedimiento para sintetizar una señal de salida [0001] La presente invención se relaciona con la síntesis de una señal de salida reproducida, como una señal de salida estéreo o una señal de salida que tiene más señales de canal de audio basadas en una conversión de multicanal a estéreo de varios canales disponibles y datos de control adicionales. Específicamente, la conversión multicanal a estéreo de varios canales es una conversión de multicanal a estéreo de una pluralidad de señales de objeto de audio.

El desarrollo reciente en el audio facilita la reconstrucción de una representación de varios canales de una señal de audio basada en un estéreo (o mono) señal y unos datos de control correspondientes. Estos procedimientos de codificación de sonido envolvente paramétricos por lo general comprenden una parametrización. Un decodificador de audio de varios canales paramétrico, (p.ej el Decodificador de sonido envolvente MPEG definido en ISO/IEC 23003-1 [1], [2]) , reconstruye canales M basados en los canales transmitidos de K, son M > K, por el uso de los datos de control adicionales. Los datos de control comprenden una parametrización de la señal de varios canales basada en IID (Diferencia de Intensidad de Intercanal) e ICC (Coherencia de Intercanal) . Estos parámetros son normalmente extraídos en la etapa de codificación y describen la relación de potencias y la correlación entre pares de canal usados en el proceso de conversión de estéreo a multicanal. Usar tal esquema de codificación permite la codificación a de una velocidad de transferencia de datos inferior considerablemente significativa que la transmisión de todos los canales M, haciendo la codificación muy eficiente a un al mismo tiempo contrato de un seguro de la compatibilidad tanto por dispositivos de canal K como por dispositivos de canal M.

Mucho el sistema de codificación relacionado es el codificador de objeto de audio correspondiente [3], [4], donde varios objetos de audio se convierten de multicanal a estéreo al codificador y más tarde convertido de estéreo a multicanal, dirigido por datos de control. El proceso de conversión de estéreo a multicanal también puede observarse como una separación de los objetos que se mezclan en la conversión de multicanal a estéreo. La señal convertida de estéreo a multicanal resultante puede volverse en uno o varios canales de repetición. Más exactamente, [3, 4], presentan un procedimiento para sintetizar canales de audio de una conversión de multicanal a estéreo (referido como señal suma) , información estadística sobre los objetos de la fuente, y datos que describen el formato de salida deseado. Por si varias señales de conversión de multicanal a estéreo se usen, estas señales de conversión de multicanal a estéreo comprenden diferentes subconjuntos de los objetos, y la conversión de estéreo a multicanal se lleva a cabo para cada canal de conversión de multicanal a estéreo individualmente.

En caso de una conversión de multicanal a estéreo de objeto y renderización de objeto al estéreo, o generación de una señal estéreo adecuada para procesar adicionalmente por por ejemplo un decodificador de sonido envolvente MPEG, esto se conoce de la técnica anterior que una ventaja de desempeño significativa se logra por el procesamiento conjunto de los dos canales con esquema de matrización dependiente de tiempo y frecuencia. Fuera del alcance de la codificación de objeto de audio, un procedimiento relacionado se aplica para transformar parcialmente una señal de audio estéreo en otra señal de audio estéreo en el documento WO2006/103584. También es conocido que para un sistema de codificación de objeto de audio general es necesario introducir la adición de un proceso de decorrelación a la renderización a fin de reproducir perceptivamente la escena de referencia deseada. Sin embargo, no hay ninguna técnica anterior que describe una combinación conjuntamente optimizada de matrización y decorrelación. Una combinación simple de los procedimientos de técnica anterior conduce al uso ineficaz e inflexible de las capacidades ofrecidas por una conversión de multicanal a estéreo de objeto de varios canales o a una baja calidad de imagen estéreo en las renderizaciones de decodificador de objeto resultantes.

Referencias:

[1] L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, y K. Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding, " en la 28va International AES Conference, The Future of Audio Technology Surround and Beyond, Piteå, Suecia, 30 de junio a 2 de julio, 2006.

[2] J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjörling, J. Plogsties, y J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering, " en la 29va International AES Conference, Audio for Mobile and Handheld Devices, Seul, 2-4 de septiembre, 2006.

[3] C. Faller, “Parametric Joint-Coding of Audio Sources, ” Convention Paper 6752 presentado en la 120va AES Convention, Paris, Francia, 20-23 de mayo, 2006.

[4] C. Faller, “Parametric Joint-Coding of Audio Sources, ” Solicitud de patente PCT/EP2006/050904, 2006.

The "Call for Proposals on Spatial Audio Object Coding", Januar y 2007, Marrakech, Morocco, MPEG 2007/N8853, XP090015347, se refiere a la codificación de audio espacial ( SAC ) , donde los canales originales se codifican por un codificador SAC para producir la ( s ) señal ( es ) de mezcla descendente ( s ) dentro de la información , y donde un decodificador SAC decodifica la información transmitida para reproducir canales de salida . Un enfoque alternativo de codificación de objeto ( " orientado a objetos ") de audio espacial ( SAOC ) incluye un codificador SAOC para generar señal (es) de mezcla descendente ( s ) dentro de la información de los objetos de audio y un decodificador SAOC para decodificar la información transmitida para generar objetos decodificados. Los objetos decodificados se introducen en un procesador que proporciona , como una entrada adicional, información sobre interacción / control con el fin último de dar como salida dos o más canales. En lugar de utilizar un decodificador de envolvente MPEG con N canales de salida para reproducir N objetos y utilizar una etapa de representación posterior de representación de N objetos en M canales de salida ( típicamente con N > M ) , es económico utilizar directamente una representación de envolvente MPEG de M canales para el número deseado de canales de salida que son accionados por los parámetros espaciales apropiados . Particularmente , se utilizan las posiciones de los objetos y la reproducción de configuración para generar una matriz de representación . La matriz de representación se utiliza en un transcodificador SAOC para transcodificar un flujo de bits SAOC en un flujo de bits MPS , y se entra el flujo de bits de entrada MPS, junto con una mezcla descendente preprocesada , en el que el procesamiento previo es controlado por parámetros SAOC , en un decodificador MPS para generar una escena renderizada de salida .

Es el objetivo de la presente invención el proporcionar un concepto mejorado a sintetizar una señal de salida reproducida.

Este objetivo se logra por un aparato para sintetizar una señal de salida reproducida de acuerdo con la reivindicación 1, un procedimiento para sintetizar una señal de salida reproducida de acuerdo con la reivindicación 13 o un programa de computadora de acuerdo con la reivindicación 14.

La presente invención proporciona una síntesis de una señal de salida reproducida que tiene dos señales de canal de audio (estéreo) o más de dos señales de canal de audio. En caso de muchos objetos de audio, vario canal de audio sintetizado hace señas es, sin embargo,... [Seguir leyendo]

 


Reivindicaciones:

1. Aparato para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segunda señal de canal audio, comprendiendo el aparato; una etapa de descorrelación (356) destinada a generar una señal 5 descorrelacionada (358) que presenta una señal de canal única descorrelacionada o una señal de premier canal descorrelacionada y una señal de segundo canal descorrelacionada a partir de una señal de mezcla descendente, presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y una segunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcla descendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354) ; y un combinador (364) destinado a realizar una combinación ponderada de la señal de mezcla descendente (352) y de la señal descorrelacionada (358) con ayuda de factores de ponderación, donde el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcla descendente (354) , a partir de las informaciones de renderización de objetivo (360) que indican las posiciones virtuales de los objetos audio en una disposición de reproducción virtual, y de informaciones de objeto audio paramétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular una matriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segunda donde Co es la matriz de mezcla, donde A es una matriz de renderización de objetivo que representa las informaciones de renderización de objetivo (360) , donde D es una matriz de mezcla descendente que representa las informaciones de mezcla descendente (354) , donde * representa una operación de transposición conjugada compleja, y donde E es una matriz de covarianza de objeto que representa las informaciones de objeto audio paramétricas (362) .

2. Aparato según la reivindicación precedente, en el cual el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada de manera que la combinación ponderada pueda ser obtenida calculando una matriz de mezcla ascendente de descorrelacionador (P) y aplicando (404) la matriz de mezcla ascendente de descorrelacionador (P) a la señal descorrelacionada (358) , y combinando los resultados (454) de las operaciones de aplicación (404, 401) , para obtener la señal de salida renderizada (550) .

3. Aparato según cualquiera de las reivindicaciones anteriores, en el cual la etapa de descorrelacionador (356) es operativa para realizar una operación (402) para manipular la señal de mezcla descendente (352) donde la señal de mezcla descendente manipulada se alimenta hacia un descorrelacionador (403) .

4. Aparato según la reivindicación 2, en el cual la matriz de mezcla ascendente de descorrelacionador (P) está basada en la realización (1102) de una descomposición de valor propio de una matriz de covarianza de la señal descorrelacionada añadida a un resultado de mezcla de señal en seco (452) .

5. Aparato según la reivindicación 2, en el cual el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada de manera que la matriz de mezcla ascendente de descorrelacionador

(P) se calcule de manera que la señal descorrelacionada se añada a dos canales resultantes (452) de una operación de mezcla en seco con signos opuestos (1201) .

6. Aparato según la reivindicación 5, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que la señal descorrelacionada (358) sea ponderada por un factor de ponderación (c) determinado por una referencia de correlación entre dos canales de la señal de salida renderizada, siendo la referencia de correlación un valor de correlación determinado por una operación de renderización de objetivo virtual a una matriz de renderización de objetivo (A) (1203) .

7. Aparato según la reivindicación 2, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que la combinación ponderada efectuada por el combinador (364) resulte en una compensación de ganancia (409) en la cual un resultado de mezcla de señal en seco sea ponderado de manera que un error de energía en el resultado de mezcla de señal en seco comparado con la energía de la señal de mezcla 55 descendente sea reducida (1302) .

8. Aparato según cualquiera de las reivindicaciones 1 à 2, en el cual el combinador (364) es operativo para determinar si una adición de una señal descorrelacionada resultará en un artefacto (1402) , y en el cual el combinador (364) es operativo para desactivar o reducir una adición de la señal descorrelacionada (1404) cuando se determina una situación de creación de artefacto, y

para reducir (1406) un error de potencia incurrida por la reducción o desactivación (1404) de la señal descorrelacionada.

9. Aparato según la reivindicación 8,

en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que se aumente la potencia de un resultado de la operación de mezcla en seco (401) .

10. Aparato según la reivindicación 8, en el cual el combinador (364) es operativo para calcular un dato de matriz de covarianza de error (R) (1104) que representa una estructura de correlación de la señal de error entre la señal de mezcla ascendente en seco y una señal de salida determinada por un esquema de renderización de objetivo virtual con ayuda de las informaciones de renderización de objetivo (360) , y en el cual el combinador (364) es operativo para determinar un signo (1402) de un elemento fuera de la diagonal de los datos de matriz de covarianza de error (R) y para desactivar (1104) o reducir la adición si el signo es positivo.

11. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el combinador (364) comprende una unidad de matrizado mejorada (303) operativa para combinar linealmente la primera señal de mezcla descendente de objeto audio y la segunda señal de mezcla descendente de objeto audio para obtener una señal de mezcla en seco (452) , y en el cual el combinador (364) es operativo para combinar linealmente la señal descorrelacionada (358) para obtener una señal que constituye, tras la adición por canal con la señal de mezcla en seco, una salida etéreo de la unidad de matrizado mejorada (303) , y en el cual el combinador (364) comprende un calculador de matriz (202) destinado a calcular los factores de ponderación para la combinación lineal utilizada por la unidad de matrizado mejorada (303) a partir de las informaciones de objeto audio paramétricas (362) de las informaciones de mezcla hacia abajo (354) y de las informaciones de renderización de objetivo (360) .

12. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que una parte de energía de la señal descorrelacionada (358) en la señal de salida renderizada sea mínima y una parte de energía de la señal de mezcla en seco (452) obtenida combinando linealmente la primera señal de mezcla descendente de objeto audio y la segunda señal de mezcla descendente de objeto audio sea máxima.

13. Procedimiento para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segunda señal de canal audio, que comprende:

generar (356) una señal descorrelacionada (358) que presenta una señal de canal única descorrelacionada o una primera señal de canal descorrelacionada y una segunda señal de canal descorrelacionada a partir de una señal de mezcla descendente, presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y una segunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcla descendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354) ; y realizar (364) una combinación ponderada de la señal de mezcla descendente (352) y de la señal descorrelacionada (358) con ayuda de factores de ponderación a partir de un cálculo de los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcla descendente (354) , a partir de las informaciones de renderización de objetivo (360) que indican partes virtuales de los objetos 45 audio en una disposición de reproducción virtual, y de las informaciones de objeto audio paramétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular una matriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segunda señal

14. Programa de ordenador que tiene un código de programa adaptado para realizar el procedimiento según la reivindicación 13 cuando se ejecuta en un procesador.