Descodificador de señal de audio, codificador de señal de audio, representacón de señal de audio de multi-canal modificada, procedimientos y programa de computadora.
Un descodificador de señal de audio (200; 300; 1500; 1800) para proveer una representación de señal deaudio de multi-canal descodificada (232;
312;1812) en base a una representación de señal de audio de multicanalcodificada (211,212;310;1810), comprendiendo el descodificador de señal de audio:
un descodificador de distorsión del tiempo (210,216,218,219,220, 230,240;340;1830) configurado para usarselectivamente contornos de distorsión del tiempo específicos de canal de audio individuales (332;1824) o uncontorno de distorsión del tiempo de multi-canal adjunto (332;1824) para la reconstrucción de una pluralidad decanales de audio representados por la representación de señal de audio de multi-canal codificada.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004758.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: GEIGER, RALF, SCHULLER, GERALD, EDLER, BERND, DISCH,SASCHA, NEUENDORF,Max, FUCHS,Guillaume, BAYER,Stefan.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- G10L21/04 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Compresión o expansión temporales.
PDF original: ES-2404132_T3.pdf
Fragmento de la descripción:
Descodificador de señal de audio, codificador de señal de audio, representación de señal de audio de multi-canal modificada, procedimientos y programa de computadora
ANTECEDENTES DE LA INVENCION
Las realizaciones de acuerdo con la invención se refieren a un descodificador de señal de audio. Realizaciones adicionales de acuerdo con la invención se refieren a un codificador de señal de audio. Realizaciones adicionales de acuerdo con la invención se refieren a una representación de señal de audio de multi-canal codificada. Realizaciones adicionales de acuerdo con la invención se refieren a un procedimiento para proveer una representación de señal de audio de multi-canal descodificada, con un procedimiento para proveer una representación codificada de una señal de audio de multi-canal y con un programa de computadora para implementar dichos procedimientos.
Algunas realizaciones de acuerdo con la invención se refieren a procedimientos para un codificador de transformada de MDCT distorsionada en el tiempo.
En lo siguiente, se dará una breve introducción al campo de codificación de audio distorsionada en el tiempo, 15 conceptos de los cuales pueden ser aplicados en conjunción con algunas realizaciones de la invención.
En años recientes, se han desarrollado técnicas para transformar una señal de audio a una representación de dominio de frecuencia y para codificar eficientemente esta representación de dominio de frecuencia, por ejemplo, tomando en cuenta umbrales de enmascaramiento perceptual. Este concepto de codificación de señal de audio es particularmente eficiente si las longitudes de bloque, para los cuales un conjunto de coeficientes espectrales codificados son transmitidos, son largos y si solamente un número comparativamente pequeño de coeficientes espectrales está por encima del umbral de enmascaramiento global mientras que un número grande de coeficientes espectrales están cerca o debajo del umbral de enmascaramiento global y pueden así ser despreciados (o codificados con longitud de código mínima) .
Por ejemplo, las transformadas dobladas moduladas a base de coseno o a base de seno son frecuentemente usadas en aplicaciones para codificación fuente debido a sus propiedades de compactación de energía. Esto es, para tonos armónicos con frecuencias fundamentales constantes (altura) , concentran la energía de señal a un número bajo de componentes espectrales (sub-bandas) , lo que conduce a una representación de señal eficiente.
En general, la altura (fundamental) de una señal se comprenderá que es la frecuencia dominante más baja distinguible del espectro de la señal. En el modelo de habla común, la altura es la frecuencia de la señal de excitación modulada por la garganta humana. Si solamente una frecuencia fundamental estuviera presente, el espectro sería extremadamente simple, comprendiendo la frecuencia fundamental y los sobretonos solamente. Tal espectro podría ser codificado altamente de manera eficiente. Para señales con altura variable, sin embargo, la energía correspondiente a cada componente armónico es esparcida sobre varios coeficientes de transformada, conduciendo así a una reducción de eficiencia de codificación.
Con el fin de superar esta recepción de la eficiencia de codificación, la señal de audio a ser codificada es remuestreada efectivamente en una rejilla temporal no uniforme. En el procesamiento subsecuente, las posiciones de muestra obtenidas por el re-muestreo uniforme son procesadas como si representaran valores en una rejilla temporal uniforme. Esta operación es denotada comúnmente por la parte “formación de tiempo”. Los tiempos de muestra pueden ser escogidos ventajosamente en dependencia de la variación temporal de la altura, de tal manera que una variación de altura en la versión distorsionada en el tiempo de la señal de audio es más pequeña que una variación de altura en la variación original de la señal de audio (antes de la distorsión de tiempo) . Después de la distorsión en el tiempo de la señal de audio, la versión distorsionada en el tiempo de la señal de audio es convertida al dominio de frecuencia. La distorsión de tiempo altura-dependiente tiene el efecto de que la representación del dominio de frecuencia de la señal de audio distorsionada en el tiempo es comúnmente concentrada a un número 45 mucho más pequeño de componentes espectrales que una representación de dominio de frecuencia de la señal de audio original (no distorsionada en el tiempo) .
En el lado del descodificador, la representación de frecuencia-dominio de la señal de audio distorsionada en el tiempo es convertida de regreso al dominio de tiempo, de tal manera que una representación de tiempo-dominio de la señal de audio distorsionada en el tiempo está disponible en el lado del descodificador. Sin embargo, en la representación del dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruida del lado del descodificador, las variaciones de altura originales de la señal de audio de entrada del lado del codificador no son incluidas. Así, todavía otra distorsión de tiempo mediante re-muestreo de la representación del dominio de tiempo reconstruida del lado del descodificador de la señal de audio distorsionada en el tiempo es aplicada. Con el fin de obtener una buena reconstrucción de la señal de audio concentrada del lado del codificador en el descodificador, es 55 deseable que la distorsión en el tiempo del lado del descodificador sea por lo menos aproximadamente la operación inversa con respecto a la distorsión de tiempo del lado del codificador. Con el fin de obtener una distorsión de tiempo apropiada, es deseable tener información disponible en el lado del descodificador que permite el ajuste de distorsión de tiempo del lado del descodificador.
Ya que es comúnmente requerido transferir tal información del descodificador de señal de audio al descodificador de señal de audio, es deseable mantener una velocidad de bits requerida para esta transmisión pequeña en tanto que todavía permite una reconstrucción confiable de la información de distorsión de tiempo requerida en el lado del descodificador.
En vista de la discusión anterior, hay un deseo de tener un concepto que permita un almacenamiento eficiente en velocidad de bits y/o transmisión de una señal de audio de multi-canal.
RESUMEN DE LA INVENCION
Una realización de acuerdo con la invención crea un descodificador de señal de audio para proveer una representación de señal de audio de multi-canal descodificada en base a una representación de señal de audio de multi-canal descodificada. El descodificador de señal de audio comprende un descodificador de distorsión del tiempo configurado para usar selectivamente contornos de distorsión del tiempo específicos de canal de audio individuales o un contorno de distorsión del tiempo de multi-canal adjunto para una reconstrucción de distorsión del tiempo de una pluralidad de canales de audio representados por la representación de señal de audio de multi-canal codificada.
Esta realización de acuerdo con la invención está basada en el descubrimiento de que una codificación eficiente de diferentes tipos de señales de audio de multi-canal puede ser obtenida al conmutar entre un almacenamiento y/o transmisión de contornos de distorsión del tiempo específicos del canal de audio y contornos de distorsión del tiempo de multi-canal adjuntos. Se ha encontrado que, en algunos casos, una variación de altura es significativamente diferente en los canales de una señal de audio de multi-canal. También, se ha encontrado que en otros casos, la variación de altura es aproximadamente igual para múltiples canales de una señal de audio de multicanal. En vista de estos tipos diferentes de señales (o porciones de señal de una sola señal de audio) , se ha encontrado que la exigencia de codificación puede ser mejorada si el descodificador es apto de derivar flexiblemente (conmutable o selectivamente) los contornos de distorsión del tiempo para la reconstrucción de los diferentes canales de la señal de audio de multi-canal a partir de representaciones de contorno de distorsión del tiempo específicas de canal de audio individuales o de una representación de contorno de distorsión del tiempo de multicanal adjunta.
En una realización preferida, el descodificador de distorsión del tiempo está configurado para usar selectivamente un contorno de distorsión del tiempo de multi-canal adjunto para una reconstrucción de distorsión del tiempo de una pluralidad de canales de audio para los cuales la información del dominio espectral codificada individual está disponible. De acuerdo con un aspecto de la invención, se ha encontrado... [Seguir leyendo]
Reivindicaciones:
1. Un descodificador de señal de audio (200; 300; 1500; 1800) para proveer una representación de señal de audio de multi-canal descodificada (232;312;1812) en base a una representación de señal de audio de multicanal codificada (211, 212;310;1810) , comprendiendo el descodificador de señal de audio:
un descodificador de distorsión del tiempo (210, 216, 218, 219, 220, 230, 240;340;1830) configurado para usar selectivamente contornos de distorsión del tiempo específicos de canal de audio individuales (332;1824) o un contorno de distorsión del tiempo de multi-canal adjunto (332;1824) para la reconstrucción de una pluralidad de canales de audio representados por la representación de señal de audio de multi-canal codificada.
2. El descodificador de señal de audio (200;300;1800) de conformidad con la reivindicación 1, en el que el descodificador de distorsión del tiempo (210, 216, 218, 219, 220, 230, 240;340;1830) está configurado para usar selectivamente un contorno de distorsión del tiempo de multi-canal adjunto (332;1824) para una reconstrucción de distorsión en el tiempo de una pluralidad de canales de audio representados por la representación de señal de audio de multi-canal codificada para la cual información del dominio espectral codificada individual (211) está disponible.
3. El descodificador de señal de audio (200;300;1800) de conformidad con la reivindicación 2, caracterizado porque el descodificador de distorsión del tiempo (210, 216, 218, 219, 220, 230, 240;340;1830) está configurado para recibir una primera información del dominio espectral asociada con un primero de los canales de audio y para proveer, a partir de esta, una representación del dominio de tiempo del primer canal de audio utilizando una transformación del dominio de frecuencia a dominio de tiempo distorsionado;
en donde el descodificador de distorsión del tiempo está configurado además para recibir una segunda información del dominio espectral codificada, asociada con un segundo de los canales de audio y para proveer, en base a lo mismo, una representación del dominio de tiempo distorsionada del segundo canal de audio utilizando una transformación del dominio de frecuencia a dominio de tiempo;
en donde la segunda información del dominio espectral es diferente de la primera información del dominio espectral y
en donde el descodificador de distorsión del tiempo está configurado para re-muestrear variablemente en el tiempo, en base al contorno de distorsión del tiempo de multi-canal adjunto, la representación del dominio de tiempo distorsionada del primer canal de audio o una versión procesada de la misma, para obtener una representación muestreada regularmente del primer canal de audio y
para re-muestrear de manera variable en el tiempo, en base al contorno de distorsión del tiempo de multi-canal adjunto, la representación del dominio de tiempo distorsionada del segundo canal de audio o una versión procesada del mismo, para obtener una representación muestreada regularmente del segundo canal de audio.
4. El descodificador de señal de audio (200;300;1800) de conformidad con cualquiera de las reivindicaciones 1 a 3, en el que el descodificador de distorsión del tiempo está configurado para derivar un contorno de tiempo de multi-canal adjunto a partir de la información de contorno de distorsión del tiempo de multi-canal adjunta y
derivar una primera forma de ventana específica de canal individual asociada con el primero de los canales de audio en base a la primera información de forma de ventana codificada y
derivar una segunda forma de ventana específica de canal individual asociada con el segundo de los canales de audio en base a la segunda información de forma de ventana codificada y
aplicar la primera forma de ventana a la representación del dominio de tiempo distorsionada del primer canal de audio, para obtener una versión procesada de la representación del dominio de tiempo distorsionada del primer canal de audio y
aplicar la segunda forma de ventana a la representación del dominio de tiempo distorsionada del segundo canal de audio, para obtener una versión procesada de la representación del dominio de tiempo distorsionada del segundo canal de audio;
en donde el descodificador de distorsión del tiempo es apto de aplicar diferentes formas de ventana a las representaciones del dominio de tiempo distorsionadas del primero y segundo canal de audio de un cuadro dado dependiendo de la información de forma de ventana específica de canal individual.
5. El descodificador de señal de audio (200;300;1800) de conformidad con la reivindicación 4, en el que el descodificador de distorsión del tiempo está configurado para aplicar un escalamiento de tiempo común, que es determinado por el contorno de tiempo multi-canal adjunto a diferentes formas de ventana cuando se forman en ventanas las representaciones del dominio de tiempo distorsionadas de los primeros y segundos canales de
audio.
6. Un codificador de señal de audio (100;1700) para proveer una representación codificada (150, 152;1712) de una señal de audio de multi-canal, comprendiendo el codificador de señal de audio:
un proveedor de representación de audio codificada configurado (104, 106, 108, 108a, 114;1720) para proveer selectivamente una representación de audio codificada (150, 152;1712) que comprende una información de contorno de distorsión del tiempo de multi-canal común, asociada comúnmente con una pluralidad de canales de audio de la señal de audio de multi-canal o una representación de audio codificada que comprende información del contorno de distorsión del tiempo individual, asociada individualmente con los diferentes canales de audio de la pluralidad de canales de audio, dependiendo de la información que describe una similitud de diferencias entre los contornos de distorsión del tiempo asociados con los canales de audio de la pluralidad de canales de audio.
7. El descodificador de señal de audio (100;1700) de conformidad con la reivindicación 6, en el que el proveedor de representación de audio codificada (104, 106, 108, 108a, 114; 1720) está configurado para aplicar selectivamente la información de contorno de distorsión del tiempo de multi-canal común para obtener una versión distorsionada en el tiempo de un primero de los canales de audio y para obtener una versión distorsionada en el tiempo de un segundo de los canales de audio y proveer una primera información de dominio espectral codificada individual asociada con un primero de los canales de audio, en base a la versión distorsionada en el tiempo del primer canal de audio y proveer una segunda información del dominio espectral codificada individual asociada con un segundo de los canales de audio, en base a la versión distorsionada en el tiempo del segundo canal de audio.
8. El descodificador de señal de audio (100;1700) de conformidad con la reivindicación 6 o 7, en el que el proveedor de representación de audio codificado (104, 106, 108, 108a, 114;1720) está configurado para proveer la representación codificada (150, 152;1712) de la señal de audio de multi-canal, de tal manera que la representación codificada de la señal de multi-canal comprende la información de contorno de distorsión del tiempo de multi-canal común, una representación espectral codificada de una versión distorsionada en el tiempo de una primera señal de canal de audio, distorsionada en el tiempo de acuerdo con la información de contorno de distorsión del tiempo de multi-canal común y una representación espectral codificada de una versión distorsionada en el tiempo de una segunda señal de audio de canal, distorsionada en el tiempo de acuerdo con la información de contorno de distorsión del tiempo de multi-canal común.
9. El descodificador de señal de audio (100;1700) de conformidad con cualquiera de las reivindicaciones 6 a 8, en el porque el codificador de señal de audio está configurado para obtener la información de contorno de distorsión en el tiempo de multi-canal común, de tal manera que la información de contorno de distorsión del tiempo de multi-canal común representa un promedio de contornos de distorsión individuales asociados con el primer canal de señal de audio y el segundo canal de señal de audio.
10. El descodificador de señal de audio (100;1700) de conformidad con cualquiera de las reivindicaciones 6 a 9, en el que el proveedor de representación de audio codificado está configurado para proveer una información lateral (tw_data_present; common_tw) dentro de la representación codificada de la señal (150;152;1712) de audio de multi-canal, la información lateral indica, en una base por cuadro de audio, si datos de distorsión del tiempo están presentes para un cuadro de audio dado y si una información de contorno de distorsión del tiempo común está presente para el cuadro de audio dado.
11. Una representación de señal de audio de multi-canal codificada (usac_raw_data_block) que representa una señal de audio de multi-canal, comprendiendo la representación de señal de audio de multi-canal:
una representación del dominio de frecuencia codificada (fd_channel_stream) que representa una pluralidad de canales de audio distorsionados en el tiempo, selectivamente distorsionados en el tiempo, de acuerdo con una distorsión del tiempo común en función de una información que describe una similitud o diferencia entre contornos de distorsión en el tiempo asociados con los canales de audio de la señal de audio multi-canal; y
una representación codificada (tw data) de una información de contorno de distorsión del tiempo de multi-canal común, asociada comúnmente con los canales de audio y que representa la distorsión del tiempo común.
12. La representación de canal de audio codificada (usac_raw_data_block) de conformidad con la reivindicación 11, en la que la representación del dominio de frecuencia codificada comprende información del dominio de frecuencia codificada individual (fd_channel_stream) de múltiples canales de audio que tienen diferentes contenidos de audio y en donde la representación codificada (tw data) de la información de contorno de distorsión del tiempo de multi-canal común está asociada con los múltiples canales de audio que tienen diferente contenido de audio.
13. Un procedimiento para proveer una representación de señal de audio de multi-canal descodificada (232;300;1500;1800) en base a una representación de señal de audio de multi-canal codificada (211, 212;310;1810) , comprendiendo el procedimiento:
utilizar selectivamente contornos de distorsión de tiempo específico de canal de audio individuales o un 5 contorno de distorsión del tiempo de multi-canal adjunto para una reconstrucción de la pluralidad de canales de audio representados por la representación de señal de audio de multi-canal codificada.
14. Un procedimiento para proveer una representación codificada (150, 152;1712) de una señal de audio de multi-canal, comprendiendo el procedimiento: proveer selectivamente una representación de audio codificada que comprende una información de contorno de distorsión del tiempo de multi-canal común, asociada comúnmente con una pluralidad de canales de audio con la señal de audio de multi-canal o una representación de audio codificada que comprende información de contorno de distorsión del tiempo individual, asociada individualmente con los diferentes canales de audio de la pluralidad de canales de audio, dependiendo de la información que describe la similitud o diferencia entre contornos de distorsión del tiempo asociados con los canales de audio de la pluralidad de señales de audio.
15. Un programa de computadora adaptado para efectuar el procedimiento de conformidad con la reivindicación 13 o la reivindicación 14, en el que el programa de computadora se ejecuta en una computadora.
Patentes similares o relacionadas:
Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]
Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]
Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]
Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]
Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]
Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]