Método de estimación de diferencia inter-canal y dispositivo de codificación de audio espacial.
Un método (30) para la estimación de diferencias inter-canal, ICD, que comprende:
aplicar (30a, 30b) una transformación desde un dominio temporal a un dominio frecuencial para una pluralidad de señales de canal de audio;
calcular (31, 32) una pluralidad de valores de ICD para las diferencias ICD entre al menos una de la pluralidad de señales de canal de audio y una señal de canal de audio de referencia en una gama de frecuencias predeterminada, calculándose cada valor de ICD en una parte de la gama de frecuencias predeterminada;
calcular (35), para cada uno de la pluralidad de valores de ICD, un valor de ICD ponderado multiplicando cada uno de la pluralidad de valores de ICD con factor de ponderación que depende de la frecuencia correspondiente; y calcular (36) un valor de gama de ICD para la gama de frecuencias predeterminada añadiendo la pluralidad de valores de ICD ponderados.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2012/056342.
Solicitante: HUAWEI TECHNOLOGIES CO., LTD..
Nacionalidad solicitante: China.
Dirección: Huawei Administration Building, Bantian, Longgang District Shenzhen, Guangdong 518129 CHINA.
Inventor/es: XU,JIANFENG, VIRETTE,DAVID, LANG,YUE.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/008 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
- H04S3/00 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04S SISTEMAS ESTEREOFONICOS. › Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad).
PDF original: ES-2540215_T3.pdf
Fragmento de la descripción:
Método de estimación de diferencia Ínter-canal y dispositivo de codificación de audio espacial CAMPO DE LA INVENCIÓN
La presente invención se refiere a un método para estimación de diferencia ¡nter-canal (ICD) y un dispositivo de codificación de audio espacial o de codificación multicanal paramétrico, en particular, para la codificación de audio de multicanal paramétrico.
ANTECEDENTES DE LA INVENCIÓN
La codificación de audio multicanal paramétrica se describe en Faller, C., Baumgarte, F.: "Representación eficiente de audio espacial utilizando una parametrización perceptual", Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust, octubre 21, páginas 199-22. Señales de audio de mezcla reductora pueden mezclarse de forma ascendente para sintetizar señales de audio multicanal, utilizando pistas espaciales para generar más canales de audio de salida que las señales de audio de mezcla reductora. En condiciones normales, las señales de audio de mezcla reductora se generan por superposición de una pluralidad de señales de canal de audio de una señal de audio multicanal, a modo de ejemplo, una señal de audio estéreo. Las señales de audio de mezcla reductora están codificadas en forma de onda y se introducen en un flujo de bits de audio junto con datos auxiliares en relación con las denominadas pistas espaciales. El decodificador utiliza los datos auxiliares para sintetizar las señales de audio multicanal sobre la base de los canales de audio codificados en forma de onda.
Existen varias pistas espaciales o parámetros que pueden utilizarse para sintetizar señales de audio multicanal. En primer lugar, la diferencia de nivel ¡nter-canal (ILD) indica una diferencia entre los niveles de señales de audio en dos canales a compararse. En segundo lugar, la diferencia de tiempo ¡nter-canal (ITD) indica la diferencia en el tiempo de llegada del sonido entre los oídos de un usuario que escucha. El valor de ITD es importante para la localización del sonido, puesto que proporciona una pista para identificar la dirección o ángulo de incidencia de la fuente de sonido en relación con los oídos de la persona que escucha. En tercer lugar, la diferencia de fase inter-canal (ICD) especifica la diferencia de fase relativa entre los dos canales que se van a comparar. Un valor de ICD de sub-banda puede utilizarse como una estimación del valor de ITD de sub-banda. Por último, la coherencia inter-canal (ICC) se define como la correlación cruzada inter-canal normalizada después de una alineación de fase en conformidad con los valores de ITD o ICD. El valor de ICC puede utilizarse para estimar la anchura de una fuente de sonido.
Los valores de ILD, ITD, ICD e ICC son parámetros Importantes para la codlficaclón/decodificación multicanal espacial, en particular para señales de audio estéreo y espaclalmente las señales de audio binaurales. La diferencia ITD puede cubrir, a modo de ejemplo, la gama de retardos audibles entre -1.5 ms a 1.5 ms. La diferencia ICD puede cubrir la gama completa de diferencia de fase entre -tt y tt. ICC puede cubrir la gama de correlación y puede especificarse en un valor porcentual entre y 1 u otros factores de correlación entre -1 y +1. En sistemas de codificación estéreo paramétricos actuales, ILD, ITD, ICD e ICC se suelen estimar en el dominio de la frecuencia. Para cada sub-banda, ILD, ITD, ICD e ICC se calculan, cuantlflcan, se Incluyen en la sección de parámetros de un flujo de bits de audio y son objeto de transmisión.
Debido a las limitaciones en tasas de bits para sistemas de codificación de audio paramétricos, no existen, a veces, suficientes bits en la sección de parámetros del flujo de bits de audio para transmitir la totalidad de los valores de los parámetros de codificación espaciales. A modo de ejemplo, el documento US 26/15348 A1 da a conocer un codificador de audio en donde se generan códigos de pistas combinados para una pluralidad de canales de audio a incluirse como información secundaria en un flujo de bits de audio de mezcla reductora. El documento US 8,54,981 B2 da a conocer un método para la codificación de audio espacial utilizando una regla de cuantización asociada con la relación de niveles de una medida de energía de un canal de audio y la medida de energía de una pluralidad de canales de audio. El documento US 211/46964 da a conocer un método para determinar las pistas espaciales sobre la base de un valor medio de las pistas espaciales para diferentes sub-bandas.
SUMARIO DE LA INVENCIÓN
Una ¡dea inventiva de la presente invención es calcular los valores de diferencia ¡nter-canal, ICD, para cada sub- banda de frecuencias o contenedor de frecuencias entre cada par de una pluralidad de señales de canal de audio y para calcular un valor medio ponderado sobre la base de los valores de ICD. Dependiendo del sistema de ponderación, las sub-bandas de frecuencia perceptualmente Importantes o los contenedores de frecuencias se tienen en cuenta con una más alta prioridad que las menos Importantes.
En una forma de realización preferida, la Importancia perceptual o de la energía se tiene en cuenta con esta técnica, de modo que el sonido ambiental o el sonido difuso no afectarán a la estimación de ICD. Esto es espacialmente conveniente para representar, de forma significativa, la Imagen espacial de sonidos que tienen una componente directa fuerte tal como datos de audio de voz.
Además, el método propuesto reduce el número de parámetros de codificación espacial a incluirse en un flujo de bits de audio, con lo que se reduce la complejidad de la estimación y la tasa binaria de transmisión.
En consecuencia, un primer aspecto de la presente invención se refiere a un método para la estimación de diferencias Ínter-canal, ICD, comprendiendo dicho método la aplicación de una transformación desde un dominio temporal a un dominio frecuencial para una pluralidad de señales de canal de audio, calculando una pluralidad de valores de ICD para las diferencias ICD entre al menos una de la pluralidad de señales de canal de audio y una señal de canal de audio de referencia a través de una gama de frecuencias predeterminada, siendo cada valor de ICD calculado sobre una parte de la gama de frecuencias predeterminada, calculando, para cada uno de la pluralidad de valores de ICD, un valor de ICD ponderado multiplicando cada uno de la pluralidad de valores de ICD con un factor de ponderación dependiente de la frecuencia correspondiente y calculando un valor de la gama ICD para la gama de frecuencias predeterminada añadiendo la pluralidad de valores de ICD ponderados.
Según una primera puesta en práctica del primer aspecto de la idea inventiva, las diferencias ICDs son diferencias de fase Ínter-canal, IPD, o diferencias de tiempo ínter-canal, ITD. Estos parámetros de codificación espacial son particularmente ventajosos para la reproducción de datos de audio para el oido humano.
Según una segunda puesta en práctica del primer aspecto de la idea inventiva, la transformación desde un dominio temporal a un dominio frecuencial comprende uno de entre el grupo de Transformación de Fourier Rápida, FFT, banco de filtros de modulación cosenoidal, Transformación de Fourier Discreta, DFT y banco de filtros complejo.
Según una tercera puesta en práctica del primer aspecto de la idea inventiva, la gama de frecuencias predeterminada comprende uno de entre el grupo de una banda de frecuencia completa de la pluralidad de señales de canal de audio, un intervalo de frecuencia predeterminado dentro de la banda de frecuencias completa de la pluralidad de señales de canal de audio y una pluralidad de intervalos de frecuencia predeterminados dentro de la banda de frecuencias completa de la pluralidad de señales de canal de audio.
En conformidad con una primera puesta en práctica de la tercera puesta en práctica del primer aspecto de la idea Inventiva, el Intervalo de frecuencias predeterminado está ubicado entre 2 Hz y 6 Flz o entre 3 Flz y 1.5 khlz. Estas gamas de frecuencias corresponden con la sensibilidad dependiente de la frecuencia del oído humano, en donde los parámetros de ICD tienen mayor importancia.
En conformidad con una cuarta puesta en práctica del primer aspecto de la idea inventiva, la señal de canal de audio de referencia comprende una de las señales de canal de audio o una señal de audio de mezcla reductora derivada de al menos dos señales de canales de audio de la pluralidad de señales de canal de audio.
En conformidad con una quinta puesta en práctica del primer aspecto de la idea inventiva, el cálculo de la pluralidad de los valores de ICD comprende el cálculo de la pluralidad de valores de ICD sobre la base de sub-bandas de
frecuencias.
En conformidad... [Seguir leyendo]
Reivindicaciones:
1. Un método (3) para la estimación de diferencias inter-canal, ICD, que comprende:
aplicar (3a, 3b) una transformación desde un dominio temporal a un dominio frecuencial para una pluralidad de señales de canal de audio;
calcular (31, 32) una pluralidad de valores de ICD para las diferencias ICD entre al menos una de la pluralidad de señales de canal de audio y una señal de canal de audio de referencia en una gama de frecuencias predeterminada, calculándose cada valor de ICD en una parte de la gama de frecuencias predeterminada;
calcular (35), para cada uno de la pluralidad de valores de ICD, un valor de ICD ponderado multiplicando cada uno de la pluralidad de valores de ICD con factor de ponderación que depende de la frecuencia correspondiente; y
calcular (36) un valor de gama de ICD para la gama de frecuencias predeterminada añadiendo la pluralidad de valores de ICD ponderados.
2. El método (3) según la reivindicación 1, en donde los valores de ICD son diferencias de fase inter-canal, IPD, o diferencias de tiempo inter-canal, ITD.
3. El método (3) según una de las reivindicaciones 1 o 2, en donde la transformación desde un dominio temporal a un dominio frecuencial comprende una de entre el grupo de una Transformación de Fourier Rápida, FFT, una batería de filtros de modulación cosenoidal, una Transformación de Fourier Discreta, DFT y una batería de filtros complejos.
4. El método (3) según una de las reivindicaciones 1 a 3, en donde la gama de frecuencias predeterminada comprende una gama del grupo de una banda de frecuencias completa de la pluralidad de señales de canal de audio, un intervalo de frecuencias predeterminado dentro de la banda de frecuencias completa de la pluralidad de señales de canal de audio y una pluralidad de Intervalos de frecuencias predeterminados dentro de la banda de frecuencias completa de la pluralidad de señales de canal de audio.
5. El método (3) según la reivindicación 4, en donde el intervalo de frecuencias predeterminado se sitúa entre 2 Hz y 6 Hz o entre 3 Hz y 1.5 kHz.
6. El método (3) según una de las reivindicaciones 1 a 5, en donde la señal de canal de audio de referencia comprende una de las señales de canal de audio o una señal de audio que haya sufrido una mezcla reductora derivada de al menos dos señales de canal de audio de la pluralidad de señales de canal de audio.
7. El método (3) según una de las reivindicaciones 1 a 6, en donde calcular la pluralidad de valores de ICD comprende calcular la pluralidad de valores de ICD sobre la base de sub-bandas de frecuencias.
8. El método (3) según la reivindicación 7, en donde los factores de ponderación dependientes de la frecuencia se determinan sobre la base de la energía de las sub-bandas de frecuencia normalizadas sobre la base de la energía global en la gama de frecuencias predeterminada.
9. El método (3) según la reivindicación 7, en donde los factores de ponderación dependientes de la frecuencia se determinan sobre la base de una curva de enmascaramiento para la distribución de la energía de las frecuencias de las señales de canal de audio normalizadas a través de la gama de frecuencias predeterminada.
1. El método (3) según la reivindicación 7, en donde los factores de ponderación dependientes de la frecuencia se determinan sobre la base de valores de entropía perceptual de las sub-bandas de las señales de canal de audio normalizadas en la gama de frecuencias predeterminada.
11. El método (3) según una de las reivindicaciones 1 a 1, en donde los factores de ponderación dependientes de la frecuencia son atenuados entre al menos dos tramas consecutivas.
12. Un dispositivo de codificación de audio espacial (1), que comprende:
un módulo de transformación (15) configurado para aplicar una transformación desde un dominio temporal a un dominio frecuencial para una pluralidad de señales de canal de audio (1a; 1b); y
un módulo de estimación de parámetros (11) configurado para calcular una pluralidad de valores de ICD para las diferencias ICDs entre al menos una de la pluralidad de señales de canal de audio (1a; 1b) y una señal de canal de audio de referencia a través de una gama de frecuencias predeterminada, para calcular, para cada uno de la pluralidad de valores de ICD, un valor de ICD ponderado multiplicando cada uno de la pluralidad de valores de ICD con un factor de ponderación dependiente de la frecuencia correspondiente y para calcular un valor de la gama ICD
para la gama de frecuencias predeterminada añadiendo la pluralidad de valores de ICD ponderados.
13. El dispositivo de codificación de audio espacial (1) según la reivindicación 12, que comprende, además:
un módulo de mezcla reductora (12) configurado para generar una señal de canal de audio reductora mediante una mezcla reductora de la pluralidad de señales de datos del canal de audio (1a; 1b).
14. El dispositivo de codificación de audio espacial (1) según la reivindicación 13 que comprende, además:
un módulo de codificación (13) acoplado al módulo de mezcla reductora (12) y configurado para generar un flujo de bits de audio codificado que comprende el flujo de bits de audio de mezcla reductora codificado.
15. El dispositivo de codificación de audio espacial (1) según una de las reivindicaciones 12 a 14 que comprende, además:
un módulo de difusión en flujo continuo (14) acoplado al módulo de estimación de parámetros (11) y configurado para generar un flujo de bits de audio (1) que comprende un flujo continuo de bits de audio de mezcla reductora y datos auxiliares que comprenden los valores de la gama de ICD para la pluralidad de señales de canal de audio (1a; 1b).
16. Un programa Informático para ejecutar el método según una de las reivindicaciones 1 a 11.
Patentes similares o relacionadas:
Método y sistema para el procesamiento de sonido envolvente en un auricular, del 27 de Mayo de 2020, de Voyetra Turtle Beach, Inc: Un método, que comprende: en un auricular de audio que recibe una pluralidad de señales de audio correspondientes a una pluralidad de canales de sonido envolvente: […]
Dispositivo para generar salida de audio, del 15 de Abril de 2020, de QUALCOMM INCORPORATED: Un dispositivo de auriculares que comprende: un primer auricular configurado para: recibir un sonido de referencia en un […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Sistema y método de salida binaural paramétrico, del 19 de Febrero de 2020, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para codificar audio de entrada basado en un canal u objeto para la reproducción, incluyendo el método las etapas de: (a) renderizar inicialmente […]
Aparato y método para la renderización de audio empleando una definición de distancia geométrica, del 25 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para reproducir un objeto de audio asociado con una posición, que comprende: un calculador de distancia para calcular distancias de la […]
Control de rango dinámico basado en metadatos extendidos de audio codificado, del 11 de Diciembre de 2019, de APPLE INC.: Un sistema para producir una grabación de audio digital codificada que tiene una pluralidad de canales de audio u objetos de audio, que comprende: un codificador de audio […]