Aparato y procedimiento para sintetizar una señal de salida.

Aparato para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segundaseñal de canal audio,

comprendiendo el aparato; una etapa de descorrelación (356) destinada a generar una señaldescorrelacionada (358) que presenta una señal de canal 5 única descorrelacionada o una señal de premier canaldescorrelacionada y una señal de segundo canal descorrelacionada a partir de una señal de mezcla descendente,presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y unasegunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcladescendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354); yun combinador (364) destinado a realizar una combinación ponderada de la señal de mezcla descendente (352) y dela señal descorrelacionada (358) con ayuda de factores de ponderación, donde el combinador (364) es operativopara calcular los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcladescendente (354), a partir de las informaciones de renderización de objetivo (360) que indican las posicionesvirtuales de los objetos audio en una disposición de reproducción virtual, y de informaciones de objeto audioparamétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular unamatriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segundaseñal de mezcla descendente de objeto audio a partir de la ecuación siguiente:

donde Co es la matriz de mezcla, donde A es una matriz de renderización de objetivo que representa lasinformaciones de renderización de objetivo (360), donde D es una matriz de mezcla descendente que representa lasinformaciones de mezcla descendente (354), donde * representa una operación de transposición conjugadacompleja, y donde E es una matriz de covarianza de objeto que representa las informaciones de objeto audioparamétricas (362).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/003282.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: ENGDEGARD, JONAS, HILPERT, JOHANNES, HERRE,JUERGEN, HOELZER,ANDREAS, PURNHAGEN,HEIKO, Resch,Barbara, FALCH,CORNELIA, TERENTIEV,LEONID, VILLEMORS,LARS.

Fecha de Publicación: 8 de Enero de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04S3/02 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › H04S 3/00 Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad). › del tipo matricial, es decir, en los que las señales de entrada son combinadas algebraicamente, p. ej. después de haber sido desfasadas las unas con relación a las otras.

PDF original: ES-2452348_T3.pdf

Fragmento de la descripción:

Aparato y procedimiento para sintetizar una señal de salida [0001] La presente invención se relaciona con la síntesis de una señal de salida reproducida, como una señal de salida estéreo o una señal de salida que tiene más señales de canal de audio basadas en una conversión de multicanal a estéreo de varios canales disponibles y datos de control adicionales. Específicamente, la conversión multicanal a estéreo de varios canales es una conversión de multicanal a estéreo de una pluralidad de señales de objeto de audio.

El desarrollo reciente en el audio facilita la reconstrucción de una representación de varios canales de una señal de audio basada en un estéreo (o mono) señal y unos datos de control correspondientes. Estos procedimientos de codificación de sonido envolvente paramétricos por lo general comprenden una parametrización. Un decodificador de audio de varios canales paramétrico, (p.ej el Decodificador de sonido envolvente MPEG definido en ISO/IEC 23003-1 [1], [2]) , reconstruye canales M basados en los canales transmitidos de K, son M > K, por el uso de los datos de control adicionales. Los datos de control comprenden una parametrización de la señal de varios canales basada en IID (Diferencia de Intensidad de Intercanal) e ICC (Coherencia de Intercanal) . Estos parámetros son normalmente extraídos en la etapa de codificación y describen la relación de potencias y la correlación entre pares de canal usados en el proceso de conversión de estéreo a multicanal. Usar tal esquema de codificación permite la codificación a de una velocidad de transferencia de datos inferior considerablemente significativa que la transmisión de todos los canales M, haciendo la codificación muy eficiente a un al mismo tiempo contrato de un seguro de la compatibilidad tanto por dispositivos de canal K como por dispositivos de canal M.

Mucho el sistema de codificación relacionado es el codificador de objeto de audio correspondiente [3], [4], donde varios objetos de audio se convierten de multicanal a estéreo al codificador y más tarde convertido de estéreo a multicanal, dirigido por datos de control. El proceso de conversión de estéreo a multicanal también puede observarse como una separación de los objetos que se mezclan en la conversión de multicanal a estéreo. La señal convertida de estéreo a multicanal resultante puede volverse en uno o varios canales de repetición. Más exactamente, [3, 4], presentan un procedimiento para sintetizar canales de audio de una conversión de multicanal a estéreo (referido como señal suma) , información estadística sobre los objetos de la fuente, y datos que describen el formato de salida deseado. Por si varias señales de conversión de multicanal a estéreo se usen, estas señales de conversión de multicanal a estéreo comprenden diferentes subconjuntos de los objetos, y la conversión de estéreo a multicanal se lleva a cabo para cada canal de conversión de multicanal a estéreo individualmente.

En caso de una conversión de multicanal a estéreo de objeto y renderización de objeto al estéreo, o generación de una señal estéreo adecuada para procesar adicionalmente por por ejemplo un decodificador de sonido envolvente MPEG, esto se conoce de la técnica anterior que una ventaja de desempeño significativa se logra por el procesamiento conjunto de los dos canales con esquema de matrización dependiente de tiempo y frecuencia. Fuera del alcance de la codificación de objeto de audio, un procedimiento relacionado se aplica para transformar parcialmente una señal de audio estéreo en otra señal de audio estéreo en el documento WO2006/103584. También es conocido que para un sistema de codificación de objeto de audio general es necesario introducir la adición de un proceso de decorrelación a la renderización a fin de reproducir perceptivamente la escena de referencia deseada. Sin embargo, no hay ninguna técnica anterior que describe una combinación conjuntamente optimizada de matrización y decorrelación. Una combinación simple de los procedimientos de técnica anterior conduce al uso ineficaz e inflexible de las capacidades ofrecidas por una conversión de multicanal a estéreo de objeto de varios canales o a una baja calidad de imagen estéreo en las renderizaciones de decodificador de objeto resultantes.

Referencias:

[1] L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, y K. Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding, " en la 28va International AES Conference, The Future of Audio Technology Surround and Beyond, Piteå, Suecia, 30 de junio a 2 de julio, 2006.

[2] J. Breebaart, J. Herre, L. Villemoes, C. Jin, , K. Kjörling, J. Plogsties, y J. Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering, " en la 29va International AES Conference, Audio for Mobile and Handheld Devices, Seul, 2-4 de septiembre, 2006.

[3] C. Faller, “Parametric Joint-Coding of Audio Sources, ” Convention Paper 6752 presentado en la 120va AES Convention, Paris, Francia, 20-23 de mayo, 2006.

[4] C. Faller, “Parametric Joint-Coding of Audio Sources, ” Solicitud de patente PCT/EP2006/050904, 2006.

The "Call for Proposals on Spatial Audio Object Coding", Januar y 2007, Marrakech, Morocco, MPEG 2007/N8853, XP090015347, se refiere a la codificación de audio espacial ( SAC ) , donde los canales originales se codifican por un codificador SAC para producir la ( s ) señal ( es ) de mezcla descendente ( s ) dentro de la información , y donde un decodificador SAC decodifica la información transmitida para reproducir canales de salida . Un enfoque alternativo de codificación de objeto ( " orientado a objetos ") de audio espacial ( SAOC ) incluye un codificador SAOC para generar señal (es) de mezcla descendente ( s ) dentro de la información de los objetos de audio y un decodificador SAOC para decodificar la información transmitida para generar objetos decodificados. Los objetos decodificados se introducen en un procesador que proporciona , como una entrada adicional, información sobre interacción / control con el fin último de dar como salida dos o más canales. En lugar de utilizar un decodificador de envolvente MPEG con N canales de salida para reproducir N objetos y utilizar una etapa de representación posterior de representación de N objetos en M canales de salida ( típicamente con N > M ) , es económico utilizar directamente una representación de envolvente MPEG de M canales para el número deseado de canales de salida que son accionados por los parámetros espaciales apropiados . Particularmente , se utilizan las posiciones de los objetos y la reproducción de configuración para generar una matriz de representación . La matriz de representación se utiliza en un transcodificador SAOC para transcodificar un flujo de bits SAOC en un flujo de bits MPS , y se entra el flujo de bits de entrada MPS, junto con una mezcla descendente preprocesada , en el que el procesamiento previo es controlado por parámetros SAOC , en un decodificador MPS para generar una escena renderizada de salida .

Es el objetivo de la presente invención el proporcionar un concepto mejorado a sintetizar una señal de salida reproducida.

Este objetivo se logra por un aparato para sintetizar una señal de salida reproducida de acuerdo con la reivindicación 1, un procedimiento para sintetizar una señal de salida reproducida de acuerdo con la reivindicación 13 o un programa de computadora de acuerdo con la reivindicación 14.

La presente invención proporciona una síntesis de una señal de salida reproducida que tiene dos señales de canal de audio (estéreo) o más de dos señales de canal de audio. En caso de muchos objetos de audio, vario canal de audio sintetizado hace señas es, sin embargo, más pequeño que el número de objetos de audio originales. Sin embargo, cuando el número de objetos de audio es pequeño (p.ej 2) o el número de canales de salida es 2, 3 o incluso más grande, el número de canales de salida de audio puede ser mayor que el número de objetos. La síntesis de la señal de salida reproducida se lleva a cabo sin una completa operación de decodificación de objeto de audio en objetos de audio decodificados y una renderización con especificidad de objetivo subsecuente de los objetos de audio sintetizados. En cambio, un cálculo de las señales de salida reproducidas se lleva a cabo en el dominio de parámetro basado en la información de conversión de multicanal a estéreo, en la información de renderización de objetivo y en la información de objeto de audio que describe los objetos de audio, como información de energía e información de correlación. Así, el número de decorrelacionadores que pesadamente contribuyen a la complejidad de realización... [Seguir leyendo]

Reivindicaciones:

1. Aparato para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segunda señal de canal audio, comprendiendo el aparato; una etapa de descorrelación (356) destinada a generar una señal 5 descorrelacionada (358) que presenta una señal de canal única descorrelacionada o una señal de premier canal descorrelacionada y una señal de segundo canal descorrelacionada a partir de una señal de mezcla descendente, presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y una segunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcla descendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354) ; y un combinador (364) destinado a realizar una combinación ponderada de la señal de mezcla descendente (352) y de la señal descorrelacionada (358) con ayuda de factores de ponderación, donde el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcla descendente (354) , a partir de las informaciones de renderización de objetivo (360) que indican las posiciones virtuales de los objetos audio en una disposición de reproducción virtual, y de informaciones de objeto audio paramétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular una matriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segunda donde Co es la matriz de mezcla, donde A es una matriz de renderización de objetivo que representa las informaciones de renderización de objetivo (360) , donde D es una matriz de mezcla descendente que representa las informaciones de mezcla descendente (354) , donde * representa una operación de transposición conjugada compleja, y donde E es una matriz de covarianza de objeto que representa las informaciones de objeto audio paramétricas (362) .

2. Aparato según la reivindicación precedente, en el cual el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada de manera que la combinación ponderada pueda ser obtenida calculando una matriz de mezcla ascendente de descorrelacionador (P) y aplicando (404) la matriz de mezcla ascendente de descorrelacionador (P) a la señal descorrelacionada (358) , y combinando los resultados (454) de las operaciones de aplicación (404, 401) , para obtener la señal de salida renderizada (550) .

3. Aparato según cualquiera de las reivindicaciones anteriores, en el cual la etapa de descorrelacionador (356) es operativa para realizar una operación (402) para manipular la señal de mezcla descendente (352) donde la señal de mezcla descendente manipulada se alimenta hacia un descorrelacionador (403) .

4. Aparato según la reivindicación 2, en el cual la matriz de mezcla ascendente de descorrelacionador (P) está basada en la realización (1102) de una descomposición de valor propio de una matriz de covarianza de la señal descorrelacionada añadida a un resultado de mezcla de señal en seco (452) .

5. Aparato según la reivindicación 2, en el cual el combinador (364) es operativo para calcular los factores de ponderación para la combinación ponderada de manera que la matriz de mezcla ascendente de descorrelacionador

(P) se calcule de manera que la señal descorrelacionada se añada a dos canales resultantes (452) de una operación de mezcla en seco con signos opuestos (1201) .

6. Aparato según la reivindicación 5, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que la señal descorrelacionada (358) sea ponderada por un factor de ponderación (c) determinado por una referencia de correlación entre dos canales de la señal de salida renderizada, siendo la referencia de correlación un valor de correlación determinado por una operación de renderización de objetivo virtual a una matriz de renderización de objetivo (A) (1203) .

7. Aparato según la reivindicación 2, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que la combinación ponderada efectuada por el combinador (364) resulte en una compensación de ganancia (409) en la cual un resultado de mezcla de señal en seco sea ponderado de manera que un error de energía en el resultado de mezcla de señal en seco comparado con la energía de la señal de mezcla 55 descendente sea reducida (1302) .

8. Aparato según cualquiera de las reivindicaciones 1 à 2, en el cual el combinador (364) es operativo para determinar si una adición de una señal descorrelacionada resultará en un artefacto (1402) , y en el cual el combinador (364) es operativo para desactivar o reducir una adición de la señal descorrelacionada (1404) cuando se determina una situación de creación de artefacto, y

para reducir (1406) un error de potencia incurrida por la reducción o desactivación (1404) de la señal descorrelacionada.

9. Aparato según la reivindicación 8,

en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que se aumente la potencia de un resultado de la operación de mezcla en seco (401) .

10. Aparato según la reivindicación 8, en el cual el combinador (364) es operativo para calcular un dato de matriz de covarianza de error (R) (1104) que representa una estructura de correlación de la señal de error entre la señal de mezcla ascendente en seco y una señal de salida determinada por un esquema de renderización de objetivo virtual con ayuda de las informaciones de renderización de objetivo (360) , y en el cual el combinador (364) es operativo para determinar un signo (1402) de un elemento fuera de la diagonal de los datos de matriz de covarianza de error (R) y para desactivar (1104) o reducir la adición si el signo es positivo.

11. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el combinador (364) comprende una unidad de matrizado mejorada (303) operativa para combinar linealmente la primera señal de mezcla descendente de objeto audio y la segunda señal de mezcla descendente de objeto audio para obtener una señal de mezcla en seco (452) , y en el cual el combinador (364) es operativo para combinar linealmente la señal descorrelacionada (358) para obtener una señal que constituye, tras la adición por canal con la señal de mezcla en seco, una salida etéreo de la unidad de matrizado mejorada (303) , y en el cual el combinador (364) comprende un calculador de matriz (202) destinado a calcular los factores de ponderación para la combinación lineal utilizada por la unidad de matrizado mejorada (303) a partir de las informaciones de objeto audio paramétricas (362) de las informaciones de mezcla hacia abajo (354) y de las informaciones de renderización de objetivo (360) .

12. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el combinador (364) es operativo para calcular los factores de ponderación de manera que una parte de energía de la señal descorrelacionada (358) en la señal de salida renderizada sea mínima y una parte de energía de la señal de mezcla en seco (452) obtenida combinando linealmente la primera señal de mezcla descendente de objeto audio y la segunda señal de mezcla descendente de objeto audio sea máxima.

13. Procedimiento para sintetizar una señal de salida (350) que presenta una primera señal de canal audio y una segunda señal de canal audio, que comprende:

generar (356) una señal descorrelacionada (358) que presenta una señal de canal única descorrelacionada o una primera señal de canal descorrelacionada y una segunda señal de canal descorrelacionada a partir de una señal de mezcla descendente, presentando la señal de mezcla descendente una primera señal de mezcla descendente de objeto audio y una segunda señal de mezcla descendente de objeto audio, representando la señal de mezcla descendente una mezcla descendente de una pluralidad de señales de objeto audio según las informaciones de mezcla descendente (354) ; y realizar (364) una combinación ponderada de la señal de mezcla descendente (352) y de la señal descorrelacionada (358) con ayuda de factores de ponderación a partir de un cálculo de los factores de ponderación para la combinación ponderada a partir de las informaciones de mezcla descendente (354) , a partir de las informaciones de renderización de objetivo (360) que indican partes virtuales de los objetos 45 audio en una disposición de reproducción virtual, y de las informaciones de objeto audio paramétricas (362) que describen los objetos audio, en el cual el combinador (364) es operativo para calcular una matriz de mezcla C0 destinada a mezclar la primera señal de mezcla descendente de objeto audio y la segunda señal

14. Programa de ordenador que tiene un código de programa adaptado para realizar el procedimiento según la reivindicación 13 cuando se ejecuta en un procesador.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]