Método y receptor para la reconstrucción de alta frecuencia de una señal de audio estereofónica.
Método para decodificar por reconstrucción de alta frecuencia [HFR] mediante un receptor de audio,
comprendiendo el método:
recibir un primer flujo de bits, incluyendo el primer flujo de bits una primera señal de banda baja y una pluralidad de parámetros de nivel, en el que los parámetros de nivel de la pluralidad de parámetros de nivel están asociados con diferentes bandas de frecuencia de una pluralidad de bandas de frecuencia, representando un parámetro de nivel de la pluralidad de parámetros de nivel la suma de una potencia de señal izquierda y una potencia de señal derecha para una señal de audio estereofónica;
recibir un segundo flujo de bits, incluyendo el segundo flujo de bits una pluralidad de parámetros de equilibrio, en el que los parámetros de equilibrio de la pluralidad de parámetros de equilibrio están asociados con diferentes bandas de frecuencia de la pluralidad de bandas de frecuencia, derivándose un parámetro de equilibrio de la pluralidad de parámetros de equilibrio del cociente de una potencia de señal izquierda y una potencia de señal derecha para la señal de audio estereofónica;
decodificar usando la primera señal de banda baja para producir una señal de banda baja decodificada;
generar una señal de banda alta mediante reconstrucción de alta frecuencia usando la señal de banda baja decodificada, en el que la generación usa además el parámetro de nivel y el parámetro de equilibrio; y
emitir una señal de salida estereofónica que comprende la señal de banda baja decodificada y la señal de banda alta.
Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10174492.
Solicitante: DOLBY INTERNATIONAL AB.
Nacionalidad solicitante: Países Bajos.
Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost.
Inventor/es: KJORLING, KRISTOFER, LILJERYD, LARS, ENGDEGARD, JONAS, RODEN,JONAS, HENN,FREDERIK.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- H04S1/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas con dos canales (H04S 5/00, H04S 7/00 tienen prioridad).
- H04S5/00 H04S […] › Sistemas seudoestereofónicos, p. ej. en los que las señales de un canal suplementario son derivadas de la señal monofásica por desfase, retardo o reverberación.
PDF original: ES-2394768_T3.pdf
Fragmento de la descripción:
Método y receptor para la reconstrucción de alta frecuencia de una señal de audio estereofónica.
CAMPO TÉCNICO
La presente invención se refiere a sistemas de codificación de fuente de audio de tasa de bits baja. Se introducen diferentes representaciones paramétricas de propiedades estereofónicas de una señal de entrada, y se explica la aplicación de la misma en el lado del decodificador, desde codificación pseudoestereofónica hasta estereofónica completa de envolventes espectrales, siendo la última de éstas especialmente adecuada para códecs basados en HFR.
ANTECEDENTES DE LA INVENCIÓN
Las técnicas de codificación de fuente de audio pueden dividirse en dos clases: codificación de audio natural y codificación de habla. A tasas de bits de medias a altas, la codificación de audio natural se usa normalmente para señales de habla y música, y es posible la transmisión y reproducción estereofónica. En aplicaciones en las que sólo están disponibles tasas de bits bajas, por ejemplo audio de transmisión en flujo continuo por Internet dirigido a usuarios con conexiones por módem telefónico lentas, o en los incipientes sistemas de difusión AM digital, la codificación monofónica del material de programas de audio es inevitable. Sin embargo, una impresión estereofónica todavía es deseable, en particular cuando se escucha con auriculares, en cuyo caso una señal monofónica pura se percibe como que se origina desde “dentro de la cabeza“, lo que puede ser una experiencia desagradable.
Un enfoque para abordar este problema es sintetizar una señal estereofónica en el lado del decodificador a partir de una señal monofónica pura recibida. Con el paso de los años se han propuesto diversos generadores “pseudoestereofónicos” diferentes. Por ejemplo en [la patente estadounidense 5.883.962] se describe la mejora de señales monofónicas por medio de la adición de versiones retardadas/desplazadas en fase de una señal a la señal no procesada, creando de este modo una ilusión estereofónica. Con ello, la señal procesada se añade a la señal original para cada una de las dos salidas a niveles iguales pero con signos opuestos, garantizando que las señales de mejora se cancelen si los dos canales se añaden posteriormente a la trayectoria de la señal. En [el documento PCT WO 98/57436] se muestra un sistema similar, aunque sin la compatibilidad monofónica anterior de la señal mejorada. Los métodos de la técnica anterior tienen en común que se aplican como postprocesos puros. En otras palabras, no se facilita al decodificador información alguna acerca del grado de amplitud estereofónica, dejando a un lado la posición en el escenario acústico estereofónico. De esta manera, la señal pseudoestereofónica puede asemejarse o no al carácter estereofónico de la señal original. Una situación particular en la que los sistemas de la técnica anterior resultan deficientes es cuando la señal original es una señal monofónica pura, lo cual es a menudo el caso en las grabaciones de habla. Esta señal monofónica se convierte a ciegas en una señal estereofónica sintética en el decodificador, lo cual en el caso del habla origina artefactos perturbadores y puede reducir la claridad y la inteligibilidad de la voz.
Otros sistemas de la técnica anterior dirigidos a la verdadera transmisión estereofónica a bajas tasas de bits emplean normalmente un esquema de codificación de suma y diferencia. De esta manera, las señales originales izquierda (L) y derecha (R) se convierten en una señal de suma, S= (L+R) /2, y una señal de diferencia, D = (L-R) /2, y seguidamente se codifican y tramiten. El receptor decodifica las señales S y D, tras lo cual la señal L/R original se recrea a través de las operaciones L = S + D, y R = S - D. La ventaja de esto es que con gran frecuencia se encuentra en la banda una redundancia entre L y R, siendo la información en D que debe codificarse menos, por lo que requiere menos bits, que en S. Claramente, el caso extremo es una señal monofónica pura, es decir, L y R son idénticas. Un códec L/R convencional codifica esta señal monofónica dos veces, mientras que un códec S/D detecta esta redundancia, y la señal D no requiere (de forma ideal) ningún bit en absoluto. Otro extremo lo representa la situación en la que R = -L, correspondiente a señales “fuera de fase”. Ahora, la señal S es cero, mientras que la señal D da L. Nuevamente, el esquema S/D tiene una clara ventaja frente a la codificación L/R estándar. Sin embargo, considérese la situación en la que, por ejemplo, R = 0 durante una transición, lo cual no era poco frecuente en los primeros tiempos de las grabaciones estereofónicas. Tanto S como D son iguales a L/2, y el esquema S/D no ofrece ninguna ventaja. Por el contrario, la codificación L/R trata esto muy bien: la señal R no requiere ningún bit. Por esta razón, los códecs de la técnica anterior emplean conmutación adaptativa entre estos dos esquemas de codificación, dependiendo de qué método es más beneficioso para usarlo en un momento dado. Los ejemplos anteriores son meramente teóricos (excepto en el caso monofónico dual, que es común en los programas de sólo voz) . De esta manera, el material de los programas estereofónicos del mundo real contiene importantes cantidades de información estereofónica, e incluso aunque se lleve a cabo la conmutación anterior, la velocidad de transferencia de bits resultante a menudo es aún demasiado alta para muchas aplicaciones. Además, tal como puede observarse de las relaciones de resintetización anteriores, no es factible una cuantificación muy basta de la señal D en un intento de reducir adicionalmente la velocidad de transferencia de bits dado que los errores de cuantificación se traducen en errores de nivel que no pueden despreciarse en las señales L y R.
Es un objeto de la presente invención proporcionar un concepto mejorado para la decodificación por reconstrucción de alta frecuencia.
Este objeto se consigue mediante un método para decodificar por reconstrucción de alta frecuencia según la reivindicación 1 o un receptor de audio de reconstrucción de alta frecuencia según la reivindicación 6.
SUMARIO DE LA INVENCIÓN
La presente invención emplea detección de propiedades estereofónicas de señales antes de la codificación y transmisión. En su forma más simple, un detector mide la cantidad de perspectiva estereofónica que está presente en la señal estereofónica de entrada. Esta cantidad se transmite entonces como un parámetro de amplitud estereofónica, junto con una suma monofónica codificada de la señal original. El receptor decodifica la señal monofónica, y aplica la cantidad apropiada de amplitud estereofónica, usando un generador pseudoestereofónico, que está controlado por dicho parámetro. Como un caso especial, una señal monofónica de entrada se indica como amplitud estereofónica cero, y por consiguiente no se aplica síntesis estereofónica en el decodificador. Según la invención, medidas útiles de la amplitud estereofónica pueden derivarse, por ejemplo, a partir de la señal de diferencia o a partir de la correlación cruzada del canal izquierdo y derecho originales. El valor de tales cálculos puede correlacionarse con un pequeño número de estados, que se transmiten con una frecuencia fija apropiada en el tiempo, o cuando sea necesario. La invención también enseña cómo filtrar las componentes estereofónicas sintetizadas, con el fin de reducir el riesgo de desenmascarar artefactos de codificación que normalmente están asociados con señales codificadas a tasas de bits bajas.
Alternativamente, el equilibrio estereofónico total o localización en el campo estereofónico se detecta en el codificador. Esta información, opcionalmente junto con el parámetro de amplitud anterior, se transmite eficazmente como un parámetro de equilibrio, junto con la señal monofónica codificada. De esta manera, los desplazamientos a cualquier lado del escenario acústico pueden recrearse en el decodificador alterando de forma correspondiente las ganancias de los dos canales de salida. Según la invención, este parámetro de equilibrio estereofónico pude derivarse a partir del cociente de las potencias de señal izquierda y derecha. La transmisión de ambos tipos de parámetros requiere muy pocos bits, en comparación con la codificación estereofónica completa, con lo cual se mantiene reducida la demanda total de tasa de bits. En una versión más elaborada de la invención, que ofrece una representación estereofónica paramétrica más precisa, se utilizan varios parámetros de equilibrio y amplitud estereofónica, representando cada uno bandas de frecuencia independientes.
El parámetro de equilibrio,... [Seguir leyendo]
Reivindicaciones:
1. Método para decodificar por reconstrucción de alta frecuencia [HFR] mediante un receptor de audio, comprendiendo el método:
recibir un primer flujo de bits, incluyendo el primer flujo de bits una primera señal de banda baja y una pluralidad de parámetros de nivel, en el que los parámetros de nivel de la pluralidad de parámetros de nivel están asociados con diferentes bandas de frecuencia de una pluralidad de bandas de frecuencia, representando un parámetro de nivel de la pluralidad de parámetros de nivel la suma de una potencia de señal izquierda y una potencia de señal derecha para una señal de audio estereofónica;
recibir un segundo flujo de bits, incluyendo el segundo flujo de bits una pluralidad de parámetros de equilibrio, en el que los parámetros de equilibrio de la pluralidad de parámetros de equilibrio están asociados con diferentes bandas de frecuencia de la pluralidad de bandas de frecuencia, derivándose un parámetro de equilibrio de la pluralidad de parámetros de equilibrio del cociente de una potencia de señal izquierda y una potencia de señal derecha para la señal de audio estereofónica;
decodificar usando la primera señal de banda baja para producir una señal de banda baja decodificada;
generar una señal de banda alta mediante reconstrucción de alta frecuencia usando la señal de banda baja decodificada, en el que la generación usa además el parámetro de nivel y el parámetro de equilibrio; y
emitir una señal de salida estereofónica que comprende la señal de banda baja decodificada y la señal de banda alta.
2. Método según la reivindicación 1, que comprende además recibir una segunda señal de banda baja, y que la decodificación use además la segunda señal de banda baja.
3. Método según la reivindicación 1, en el que el parámetro de nivel es la suma de la potencia del canal derecho para la banda de frecuencia y la potencia del canal izquierdo para la banda de frecuencia.
4. Método según la reivindicación 1, que comprende además codificar en delta el parámetro de equilibrio
o bien en tiempo o bien en frecuencia.
5. Método según la reivindicación 1, que comprende además codificar en delta el parámetro de nivel.
6. Receptor de audio de reconstrucción de alta frecuencia [HFR] que comprende:
al menos una entrada (421, 423) para recibir:
1) un primer flujo de bits, incluyendo el primer flujo de bits una primera señal de banda baja y una pluralidad de parámetros de nivel, en el que los parámetros de nivel de la pluralidad de parámetros de nivel están asociados con diferentes bandas de frecuencia de una pluralidad de bandas de frecuencia, representando un parámetro de nivel de la pluralidad de parámetros de nivel la suma de una potencia de señal izquierda y una potencia de señal derecha para una señal de audio estereofónica; y
2) incluyendo el segundo flujo de bits una pluralidad de parámetros de equilibrio, en el que los parámetros de equilibrio de la pluralidad de parámetros de equilibrio están asociados con diferentes bandas de frecuencia de la pluralidad de bandas de frecuencia, derivándose un parámetro de equilibrio de la pluralidad de parámetros de equilibrio del cociente de la potencia de señal izquierda y la potencia de señal derecha para la señal de audio estereofónica;
un decodificador (433) para decodificar usando la primera señal de banda baja para producir una señal de banda baja decodificada;
una unidad (437) de reconstrucción de alta frecuencia para generar una señal de banda alta usando la señal de banda baja decodificada, en el que la unidad de reconstrucción de alta frecuencia usa además el parámetro de nivel y el parámetro de equilibrio; y
al menos una salida para emitir una señal de salida estéreo que comprende la señal de banda baja decodificada y la señal de banda alta.
7. Receptor de audio según la reivindicación 6, en el que el segundo flujo de bits comprende además una segunda señal de banda baja.
8. Receptor de audio según la reivindicación 6, en el que la al menos una salida está configurada para acoplarse a altavoces.
Patentes similares o relacionadas:
Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]
Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]
Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]
Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]
Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]
Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]