Codificación paramétrica de la imagen estéreo de una señal de audio.
Aparato para codificar una señal estéreo con el fin de obtener una señal de salida mono y un conjuntode parámetros estéreo,
que comprende:
medios para calcular la señal mono combinando un canal izquierdo y un canal derecho de las señales estéreo;
medios (403) para generar un primer conjunto de parámetros estéreo utilizando una parte del canal izquierdo y unaparte del canal derecho, comenzando dicha parte en un primer límite de tiempo;
caracterizado por
medios (401, 402) para determinar una validez del primer conjunto de parámetros estéreo para partes subsiguientesdel canal izquierdo y del canal derecho, donde dichos medios de determinación están adaptados para:
generar un segundo límite de tiempo, y
activar dichos medios de generación, cuando se determina que el conjunto de parámetros estéreo ya no es válido,de manera que se genera un segundo conjunto de parámetros estéreo para partes de las señales izquierda yderecha que comienzan en el segundo límite de tiempo; y
medios para emitir la señal mono y el primer conjunto de parámetros estéreo y el primer límite de tiempo asociadocon el primer conjunto de parámetros, y el segundo conjunto de parámetros estéreo y el segundo límite de tiempoasociado con el segundo conjunto de parámetros estéreo.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E06026639.
Solicitante: DOLBY INTERNATIONAL AB.
Inventor/es: VILLEMOES, LARS, ENGDEGARD, JONAS.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
- G10L19/02 G10L 19/00 […] › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- H03H17/02 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03H REDES DE IMPEDANCIA, p. ej. CIRCUITOS RESONANTES; RESONADORES (medidas, ensayos G01R; disposiciones para producir una reverberación sonora o un eco G10K 15/08; redes de impedancia o resonadores que se componen de impedancias distribuidas, p. ej. del tipo guía de ondas, H01P; control de la amplificación, p. ej. control del ancho de banda de los amplificadores, H03G; sintonización de circuitos resonantes, p. ej. sintonización de circuitos resonantes acoplados, H03J; redes para modificar las características de frecuencia de sistemas de comunicación H04B). › H03H 17/00 Redes que utilizan técnicas digitales. › Redes selectoras de frecuencia.
- H04S3/00 H […] › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).
- H04S5/00 H04S […] › Sistemas seudoestereofónicos, p. ej. en los que las señales de un canal suplementario son derivadas de la señal monofásica por desfase, retardo o reverberación.
PDF original: ES-2420764_T3.pdf
Fragmento de la descripción:
Codificación paramétrica de la imagen estéreo de una señal de audio
CAMPO TÉCNICO
La presente invención se refiere a sistemas de codificación de fuentes de audio, pero los mismos métodos podrían aplicarse asimismo en muchos otros campos técnicos. Se introducen diferentes técnicas que son útiles para sistemas de codificación de audio que utilizan representaciones paramétricas de propiedades estéreo.
ANTECEDENTES DE LA INVENCIÓN Y TÉCNICA ANTERIOR
La presente invención se refiere a la codificación paramétrica de la imagen estéreo de una señal de audio. Las propiedades habituales utilizadas para describir las propiedades de imágenes estéreo son la diferencia de intensidad entre canales (IID, channel intensity difference) , la diferencia de tiempo entre canales (ITD, channel time difference) y la coherencia entre canales (IC, channel coherence) . Para reconstruir la imagen estéreo en base a estos parámetros, se requiere un método que pueda reconstruir el nivel correcto de correlación entre los dos canales, de acuerdo con el parámetro IC. Esto se consigue mediante un método de decorrelación.
Existen un par de métodos disponibles para la creación de señales decorrelacionadas. Idealmente, se desea una función invariante en el tiempo y lineal (LTI, linear time invariant) con una respuesta de frecuencia de paso total. Un método obvio para conseguir esto es utilizando un retardo constante. Sin embargo, utilizar un retardo,
o cualesquiera otras funciones de paso total LTI, tendrá como resultado una respuesta de no paso total después de añadir la señal no procesada. En el caso de un retardo, el resultado será un filtro de peine. El filtro de peine proporciona frecuentemente un sonido "metálico" no deseable que, incluso si el efecto de ensanchamiento estéreo puede ser eficiente, reduce mucho la naturalidad del original.
Se conocen asimismo de la técnica anterior métodos en el dominio de frecuencias para generar una señal decorrelacionada añadiendo una señal aleatoria a los valores IID a lo largo del eje de frecuencias, donde se 30 utilizan diferentes secuencias para los diferentes canales de audio. Las pruebas subjetivas han demostrado que para señales no estacionarias, los pre-ecos son mucho más molestos que los post-ecos, lo cual también está bien soportado por principios psicoacústicos establecidos. El problema podría reducirse adaptando dinámicamente tamaños de transformadas a las características de señal, en términos de contenido transitorio. Sin embargo, conmutar tamaños de transformadas es siempre una decisión fuerte (es decir, binaria) que afecta a todo al ancho de banda de la señal y que puede ser difícil de conseguir de manera consistente.
La publicación de solicitud de patente de Estados Unidos US 2003/0219130 A1 da a conocer una síntesis y codificación de audio basada en coherencia. En particular, se sintetiza una escena auditiva a partir de una señal de audio mono modificando, para cada banda crítica, un parámetro de la escena auditiva, tal como una 40 diferencia de nivel interaural (ILD, aural level difference) y/o una diferencia de tiempo interaural (ITD, aural time difference) para cada sub-banda dentro de la banda crítica, donde la modificación se basa en una coherencia estimada promedio para dicha banda crítica. La modificación basada en coherencia produce escenas auditivas con anchuras de objetos, que reproducen con mucha mayor precisión las anchuras de los objetos en la escena auditiva de entrada original. Los parámetros estéreo son parámetros BCC bien conocidos, donde BCC significa codificación 45 biaural de señal (binaural cue coding) . Cuando se generan dos canales de salida decorrelacionados diferentes, los coeficientes de frecuencia que se obtienen mediante una transformada de Fourier discreta se agrupan conjuntamente en una única banda crítica. En base a la medición de coherencia entre canales, los factores de ponderación son multiplicados por una secuencia pseudoaleatoria, que preferentemente se elige de manera que la varianza sea aproximadamente constante para todas las bandas críticas, y el promedio sea "0" dentro de cada 50 banda crítica. La misma secuencia se aplica a los coeficientes espectrales de cada diferente trama.
El documento WO 03/007656 A1 da a conocer un concepto de codificación estéreo paramétrica, eficiente y escalable, para aplicaciones de baja velocidad binaria. Específicamente, los parámetros que describe la imagen estéreo son extraídos en el lado del codificador y a continuación transmitidos y utilizados para el control de 55 un generador estéreo en el lado del descodificador. Para evitar molestos fallos de balance, se aplica un proceso de estabilización sobre los datos de balance. Este proceso utiliza una serie de valores de balance antes y después de las posiciones de tiempo actual, para calcular el valor medio de las mismas. El valor medio se utiliza a continuación como un valor limitador para el valor de balance actual, es decir, no deberá permitirse que el valor de balance actual rebase el valor medio. A continuación, el valor actual se limita mediante el intervalo entre el último valor y el valor
medio.
El objetivo de la presente invención es dar a conocer un concepto de descodificación para señales multicanal codificadas paramétricamente, o un concepto de codificación para la generación de dichas señales, que tiene como resultado una buena calidad de audio y una buena eficiencia de codificación.
Este objetivo se consigue mediante un aparato para codificar una señal estéreo según la reivindicación 1, un método para codificar una señal estéreo según la reivindicación 5, un descodificador según la reivindicación 6, un método de descodificación según la reivindicación 7 o un programa informático según la reivindicación 8.
La presente invención se basa en el hallazgo de que, en el lado de descodificación, se obtiene una buena señal de decorrelación para generar un primer y un segundo canal de una señal multicanal en base a la señal mono de entrada, cuando se utiliza un filtro de reverberación, que introduce un retardo entero o preferentemente fraccionario a la señal de entrada. Es importante que esté filtro de reverberación no se aplique a toda la señal de entrada. Por el contrario, se aplican varios filtros de reverberación a varias sub-bandas de la señal de entrada original, es decir, la señal mono, de manera que el filtrado de reverberación que utilizan los filtros de reverberación no se aplica en el dominio de tiempo o en el dominio de frecuencias, es decir, en el dominio al que se llega cuando se aplica una transformada de Fourier. De forma inventiva, el filtrado de reverberación que utiliza filtros de reverberación para las sub-bandas se lleva a cabo de manera individual en el dominio de sub-banda.
Una señal de sub-banda incluye una secuencia de por lo menos dos muestras de sub-banda,
representando las muestras de sub-banda un ancho de banda de la señal de sub-banda, que es menor que el ancho de banda de la señal de entrada. Por supuesto, el ancho de banda de frecuencia de una señal de sub-banda es mayor que el ancho de banda de frecuencia atribuido a un coeficiente de frecuencia obtenido mediante transformada de Fourier. Las señales de sub-banda se generan preferentemente mediante un banco de filtros que tiene por ejemplo 32 ó 64 canales del banco de filtros, mientras que una FFT tendría, para el mismo ejemplo, 1024 ó 2048
coeficientes de frecuencia, es decir, canales de frecuencia.
Las señales de sub-banda pueden ser señales de sub-banda que se obtienen mediante el filtrado de sub-banda de un bloque de muestras de la señal de entrada. Alternativamente, el banco de filtros de sub-banda puede aplicarse asimismo continuamente sin un procesamiento por bloques. Sin embargo, para la presente invención, se prefiere un procesamiento por bloques.
Puesto que el filtrado por reverberación no se aplica a toda la señal, sino que se aplica por subbandas, se evita un sonido "metálico" provocado por el filtrado de peine.
En casos en los que el periodo de muestra entre dos muestras de sub-banda consecutivas de la subbanda es demasiado grande para una buena impresión sonora en el extremo del descodificador, es preferible utilizar retardos fraccionarios en un filtro de reverberación, tal como un retardo entre 0, 1 y 0, 9, y preferentemente 0, 2 y 0, 8, del periodo de muestreo de la señal de sub-banda. Debe observarse que, en caso de muestreo crítico, y cuando se generan 64 señales de sub-banda utilizando un banco de filtros que tiene 64 canales del banco de filtros, el periodo de muestreo en una señal de sub-banda es 64 veces mayor que el periodo de muestreo... [Seguir leyendo]
Reivindicaciones:
1. Aparato para codificar una señal estéreo con el fin de obtener una señal de salida mono y un conjunto de parámetros estéreo, que comprende:
medios para calcular la señal mono combinando un canal izquierdo y un canal derecho de las señales estéreo;
medios (403) para generar un primer conjunto de parámetros estéreo utilizando una parte del canal izquierdo y una parte del canal derecho, comenzando dicha parte en un primer límite de tiempo; 10
caracterizado por
medios (401, 402) para determinar una validez del primer conjunto de parámetros estéreo para partes subsiguientes del canal izquierdo y del canal derecho, donde dichos medios de determinación están adaptados para: 15 generar un segundo límite de tiempo, y
activar dichos medios de generación, cuando se determina que el conjunto de parámetros estéreo ya no es válido, de manera que se genera un segundo conjunto de parámetros estéreo para partes de las señales izquierda y 20 derecha que comienzan en el segundo límite de tiempo; y
medios para emitir la señal mono y el primer conjunto de parámetros estéreo y el primer límite de tiempo asociado con el primer conjunto de parámetros, y el segundo conjunto de parámetros estéreo y el segundo límite de tiempo asociado con el segundo conjunto de parámetros estéreo.
2. Aparato según la reivindicación 1, en el que dichos medios de generación están adaptados para calcular, como conjunto de parámetros estéreo, un parámetro de diferencia de tiempo entre canales, un parámetro de diferencia de nivel entre canales y/o un parámetro de coherencia entre canales.
3. Aparato según la reivindicación 1 ó 2, en el que los medios de determinación incluyen el detector de transitorios, que está dispuesto para activar los medios de generación, cuando se detecta un transitorio, y para generar un instante de tiempo del transitorio como el segundo límite de tiempo.
4. Aparato según cualquiera de las reivindicaciones 1 a 3, en el que el medio de determinación es un 35 dispositivo de análisis por síntesis, que está adaptado para:
descodificar la señal mono y el conjunto de parámetros estéreo para obtener un canal izquierdo descodificado y un canal derecho descodificado;
comparar el canal izquierdo descodificado y el canal derecho descodificado con el canal izquierdo y el canal derecho; y
activar los medios de generación, cuando el canal izquierdo descodificado y el canal derecho descodificado son diferentes al canal izquierdo y el canal derecho en más de un umbral predeterminado. 45
5. Método de codificación de una señal estéreo para obtener una señal de salida mono y un conjunto de parámetros estéreo, que comprende:
calcular la señal mono combinando un canal izquierdo y un canal derecho de las señales estéreo; 50
caracterizado por
generar (403) un primer conjunto de parámetros estéreo utilizando una parte del canal izquierdo y una parte del canal derecho, comenzando dicha parte en un primer límite de tiempo;
determinar (401, 402) una validez del primer conjunto de parámetros estéreo para partes subsiguientes del canal izquierdo y del canal derecho, al
generar un segundo límite de tiempo, y al 60 llevar a cabo la etapa de generación, cuando se determina que el conjunto de parámetros estéreo ya no es válido,
de manera que se genera un segundo conjunto de parámetros estéreo para partes de las señales izquierda y derecha que comienzan en el segundo límite de tiempo; y al
emitir la señal mono y el primer conjunto de parámetros estéreo y el primer límite de tiempo asociado con el primer 5 conjunto de parámetros, y el segundo conjunto de parámetros estéreo y el segundo límite de tiempo asociado con el segundo conjunto de parámetros estéreo.
6. Descodificador para descodificar una señal mono, teniendo asociado un primer conjunto de parámetros estéreo un primer límite de tiempo, y teniendo asociado un segundo conjunto de parámetros estéreo un 10 segundo límite de tiempo,
caracterizado porque el descodificador está adaptado para utilizar, en operaciones de descodificación, dicho primer conjunto de parámetros estéreo hasta que se alcanza un nuevo límite de tiempo, y para llevar a cabo las operaciones de descodificación, cuando se alcanza el nuevo límite de tiempo, utilizando el segundo conjunto de parámetros estéreo.
7. Método de descodificación de una señal mono, teniendo asociado un primer conjunto de parámetros estéreo un primer límite de tiempo, y teniendo asociado un segundo conjunto de parámetros estéreo un segundo límite de tiempo,
caracterizado por utilizar, en operaciones de descodificación, dicho primer conjunto de parámetros estéreo hasta que se alcanza un nuevo límite de tiempo, y llevar a cabo las operaciones de descodificación, cuando se ha alcanzado el nuevo límite de tiempo, utilizando el segundo conjunto de parámetros estéreo.
8. Programa informático que tiene un código legible por ordenador para llevar a cabo un método según la reivindicación 5 o la reivindicación 7.
Patentes similares o relacionadas:
Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]
Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]
Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]
Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]
Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]
Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]