CÓDEC DE AUDIO MULTI-CANAL SIN PÉRDIDAS.
Un método para codificar sin pérdidas datos de audio de PCM, que comprende:
poner en bloques la señal de audio multicanal en tramas de igual tiempo de duración; procesar la señal de audio multicanal para ordenar los canales en pares incluyendo un canal base y un canal correlado; en el que los dos canales más correlados forman un primer par y así sucesivamente hasta que se agotan los canales, si queda un canal impar este forma un canal base; determinar una estimación de correlación cruzada de retardo cero para los pares de canales; determinar una estimación de auto-correlación de retardo cero del canal base; procesar el orden de los pares de canales para determinar un coeficiente de des-correlación dividiendo la estimación de correlación cruzada de retardo cero por la estimación de auto-correlación de retardo cero del canal base; generar un canal descorrelado para cada uno de los pares de canales para formar al menos un triplete (base, correlado, descorrelado), en el que el canal descorrelado se genera multiplicando el canal base por el coeficiente de des-correlación y restando el resultado del canal correlado; seleccionar los parámetros de codificación en base a las combinaciones posibles de pares de canales de dichos canales base y correlado y dichos canales base y descorrelado; seleccionar pares de canales (base, correlado) o (base, descorrelado) extraídos de cada uno de dichos tripletes; codificar la entropía de cada uno de los canales en los pares seleccionados de acuerdo con los parámetros de codificación; y empaquetar los datos de audio codificados en un flujo de bits
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2005/009275.
Solicitante: DTS, INC.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: 5220 Las Virgenes Road Calabasas, CA 91302 ESTADOS UNIDOS DE AMERICA.
Inventor/es: FEJZO,Zoran.
Fecha de Publicación: .
Fecha Solicitud PCT: 21 de Marzo de 2005.
Clasificación Internacional de Patentes:
- G10L19/00L
- G10L19/14A1R
Clasificación PCT:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- H03M7/40 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03M CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO, EN GENERAL (por medio de fluidos F15C 4/00; convertidores ópticos analógico/digitales G02F 7/00; codificación, decodificación o conversión de código especialmente adaptada a aplicaciones particulares, ver las subclases apropiadas, p. ej. G01D, G01R, G06F, G06T, G09G, G10L, G11B, G11C, H04B, H04L, H04M, H04N; cifrado o descifrado para la criptografía o para otros fines que implican la necesidad de secreto G09C). › H03M 7/00 Conversión de un código, en el cual la información está representada por una secuencia dada o por un número de dígitos, en un código en el cual la misma información está representada por una secuencia o por un número de dígitos diferentes. › Conversión en, o a partir de códigos la longitud variable, p. ej. código Shanno-Fano, código Huffman, código Morse.
Clasificación antigua:
- G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.
PDF original: ES-2363346_T3.pdf
Fragmento de la descripción:
Referencias Cruzadas con Solicitudes Relacionadas
La presente solicitud reivindica el beneficio de prioridad bajo 35 U.S.C. 119(e) para la Solicitud Provisional de los Estados Unidos Nº 60/566.183 titulada "Códec de Audio Sin Perdidas Compatible con Versiones Anteriores" presentada el 25 de Marzo de 2004.
Antecedentes de la Invención
Campo de la invención
Esta invención se refiere a los códec de audio sin pérdida y más especialmente a un códec de audio multi-canal sin pérdidas con funcionamiento mejorado de la compresión.
Descripción de la Técnica Relacionada
Actualmente están en uso varios sistemas de codificación de audio de baja tasa de bits con pérdidas en un amplio intervalo de consumidores y productos y servicios de reproducción de audio profesional. Por ejemplo, el sistema de codificación de audio Dolby AC3 (Dolby digital) es una normativa de nivel internacional para la codificación en estéreo y pistas de sonido de audio de canal 5.1 para Discos Láser, video DVD con codificación NTSC, y ATV, usando tasas de bits de hasta 640 Kbtis/s. Las normativas de codificación de audio MPEG I y MPEG II, se usan ampliamente para la codificación de pistas de sonido estéreo y multicanal para video DVD con codificación PAL, difusión de radio digital terrestre en Europa y difusión por Satélite en los Estados Unidos a tasas de bit de hasta 768 Kbit/s. El sistema de codificación de audio Acústico Coherente (Sistemas de Teatro Digital) DTS se usa frecuentemente para pistas de sonido de audio de canal de calidad de estudio 5.1 para Disco Compacto, video de DVD, Difusión de Satélite en Europa y Disco Láser y tasas de bits de hasta 1536 Kbit/s.
Recientemente, muchos consumidores han mostrado interés en los llamados códec "sin perdidas". Los códec "sin perdidas" descansan en algoritmos que comprimen los datos sin descartar ninguna información y producen una señal decodificada que es idéntica que la señal fuente (digitalizada). Este funcionamiento tiene un coste: tales códec típicamente requieren más ancho de banda que los códec con pérdidas, y comprimen los datos en un menor grado.
La Figura 1 es una representación de un diagrama de bloques de las operaciones involucradas en la compresión sin pérdidas de un único canal de audio. Aunque los canales en el audio multi-canal no son generalmente independientes, la dependencia a menudo es débil y difícil de tener en cuenta. Por lo tanto, los canales se comprimen típicamente de forma separada. Sin embargo, algunos codificadores intentarán eliminar la correlación formando una señal residual única y codificando (Canal1, Canal1-Canal2). Enfoques más sofisticados toman, por ejemplo, varias etapas sucesivas de proyección ortogonal sobre la dimensión de canal. Todas las técnicas están basadas en el principio de eliminar en primer lugar la redundancia de la señal y a continuación codificar la señal resultante con un esquema de codificación digital eficaz. Los códec sin pérdida incluyen el MPL (DVD de Audio), audio de Monkey (aplicaciones de ordenadores), sin pérdidas de Appel, Windows Media Pro sin pérdidas, AudioPack, DVD, LTAC, MUSICcompress, OggSquish, Philips, Shorten, Sonarc y WA. Una revisión de muchos de estos códec se proporciona en el documento de "Compresión sin Pérdidas de Audio Digital" de Mat Hans, Ronald Schafer, Hewlett Packard, 1999.
El entramado 10 se introduce para proporcionar la facilidad de edición, el volumen total de datos prohíbe la descompresión repetitiva de toda la señal que precede a la región a editar. La señal de audio se divide en tramas independientes de igual tiempo de duración. Esta duración debería no ser demasiado corta, ya que puede resultar un control significativo de la cabecera que se prefija para cada una de las tramas. Por el contrario, la duración de trama no debería ser demasiado larga, ya que esto limitaría la adaptabilidad temporal y haría la edición más difícil. En muchas aplicaciones, el tamaño de la trama está restringido por la tasa de bit de pico del medio sobre el cual se transfiere el audio, la capacidad de almacenamiento intermedio del decodificador y el deseo de que cada una de las tramas sea decodificable independientemente.
La des-correlación intra-canal 12 elimina la redundancia des-correlando las muestras de audio en cada uno de los canales dentro de una trama. La mayor parte de los algoritmos eliminan la redundancia por algún tipo de modelado predictivo lineal de la señal. En este enfoque, se aplica una predictor lineal a las muestras de audio en cada una de las tramas dando por resultado una secuencia de predicción de muestras de error. Un segundo enfoque, menos común, es obtener una representación cuantizada de baja tasa de bits o una representación con pérdidas de la señal, y a continuación comprimir sin pérdidas la diferencia entre la versión con pérdidas y la versión original. La codificación de entropía 14 elimina la redundancia de error de la señal residual sin perder ninguna información. Métodos típicos incluyen la codificación de Huffman, la codificación de longitud de carrera y la codificación Rice. La salida es una señal comprimida que se puede reconstruir sin pérdidas.
La especificación de DVD existente y la especificación preliminar de DVD HD fija un límite hardware sobre el tamaño de una unidad de acceso de datos, que representa una parte del flujo de audio que una vez extraída puede decodificarse totalmente y enviarse las muestras de audio reconstruidas a las memorias intermedias de salida. Lo que esto significa para un flujo sin pérdidas es que la cantidad de tiempo que cada una de las unidades de acceso puede representar tiene que ser suficientemente pequeña para que en el peor caso de la tasa de bit de pico, la carga de datos codificados no exceda el límite hardware. El tiempo de duración debe ser también reducido para tasas de muestreo incrementadas y un número de canales incrementado, lo cual aumenta la tasa de bits de pico.
Para asegurar la compatibilidad, estos códec existentes tendrán que fijar la duración de toda la trama para que sea lo suficientemente corta para que no exceda el límite hardware en el peor caso de configuración de canal /frecuencia de muestreo /ancho de bit. En la mayor parte de las configuraciones, esto será excesivo y puede degradar el funcionamiento de la compresión. Además, este enfoque del peor caso no se adapta bien con canales adicionales.
Un artículo de LIEBCHEN T y otros titulado "MPEG-4 ALS: una normativa emergente para la codificación de audio sin pérdidas" (CONFERENCIA DE COMPRESIÓN DE DATOS, 2004. PROCEDIMIENTOS. DCC 2004 SNOWBIRD, UT, ESTADOS UNIDOS, 23-25 de Marzo de 2004, PISCATAWAY, NJ, ESTADOS UNIDOS, IEEE, 23 de Marzo de 2004 (23-03-2004), páginas 439-448, el documento XP010692571 ISBN: 978-0-7695-2082-7) proporciona una breve visión general de una normativa emergente para la codificación de audio sin pérdidas, MPEG-4 ALS. Se realiza una comparación entre la normativa emergente y el estado la técnica de los algoritmos para la compresión de audio sin pérdidas.
El documento WO 00/74038 A revela un método y un sistema para la reducción de las discontinuidades de bloques inducidas por la cuantización que se presentan de la comprensión con pérdidas y la descompresión de señales continuas, especialmente las señales de audio. Una realización abarca un algoritmo de códec de audio eficaz de propósito general, de ultra baja latencia. La invención incluye un método y un aparato para la compresión y descompresión de señales de audio usando un análisis de fronteras y síntesis de estructura para reducir sustancialmente la trama inducida por cuantización o discontinuidad de bloque; una transformada de paquetes de coseno adaptativo (ACPT) como la transformada de elegir capturar eficazmente las características de audio de entrada; un clasificador de señal residual para separar los grupos de señal fuerte del ruido y las componentes de señal débil (llamadas colectivamente residuo); un algoritmo de cuantización de vectores dispersos adaptativa (ASVQ) para componentes de señal, un modelo de ruido estocástico para el residuo; y un algoritmo de control de tasa asociado. La invención incluye además las implementaciones del programa de ordenador correspondiente de estos y otros algoritmos.
Otro artículo de LIEBCHEN T se titula "Codificación de Audio Sin Perdidas usando Predicción Multicanal Adaptativa"(CITACIÓN DE INTERNET, [En Línea] del 5 de Octubre de 2002 (05-10-2002), documento XP002466533). Enseña... [Seguir leyendo]
Reivindicaciones:
1. Un método para codificar sin pérdidas datos de audio de PCM, que comprende:
poner en bloques la señal de audio multicanal en tramas de igual tiempo de duración; procesar la señal de audio multicanal para ordenar los canales en pares incluyendo un canal base y un canal correlado; en el que los dos canales más correlados forman un primer par y así sucesivamente hasta que se agotan los canales, si queda un canal impar este forma un canal base; determinar una estimación de correlación cruzada de retardo cero para los pares de canales; determinar una estimación de auto-correlación de retardo cero del canal base; procesar el orden de los pares de canales para determinar un coeficiente de des-correlación dividiendo la estimación de correlación cruzada de retardo cero por la estimación de auto-correlación de retardo cero del canal base; generar un canal descorrelado para cada uno de los pares de canales para formar al menos un triplete (base, correlado, descorrelado), en el que el canal descorrelado se genera multiplicando el canal base por el coeficiente de des-correlación y restando el resultado del canal correlado; seleccionar los parámetros de codificación en base a las combinaciones posibles de pares de canales de dichos canales base y correlado y dichos canales base y descorrelado; seleccionar pares de canales (base, correlado) o (base, descorrelado) extraídos de cada uno de dichos tripletes; codificar la entropía de cada uno de los canales en los pares seleccionados de acuerdo con los parámetros de codificación; y empaquetar los datos de audio codificados en un flujo de bits.
2. El método de la reivindicación 1, en el que en cada uno de los pares el canal que tiene la estimación de auto-correlación de retardo cero más pequeña es el canal base.
3. El método de la reivindicación 1, en el que la etapa de procesamiento incluye el procesamiento de la señal de audio multicanal para crear pares de canales incluyendo el canal base y el canal correlado, y el método comprende además:
segmentar cada una de las tramas en una pluralidad de segmentos de un tiempo de duración predeterminado, y en el que la etapa de seleccionar pares de canales minimiza una carga de datos codificados de la trama sujeta a la restricción de que cada uno de los segmentos debe ser decodificable y menor de un tamaño máximo; y en el que la etapa de codificación de entropía incluye codificar la entropía de cada uno de los segmentos de cada uno de los canales en los pares seleccionados de acuerdo con los parámetros de codificación.
4. El método de la reivindicación 3, en el que la duración predeterminada de los segmentos se determina en parte seleccionando uno de la pluralidad de codificadores de entropía y sus parámetros de codificación.
5. El método de la reivindicación 3, en el que a cada uno de los canales se asigna un conjunto de parámetros de codificación incluyendo el codificador de entropía seleccionado y sus parámetros, la duración del segmento se determina en parte seleccionando bien un conjunto distinto de parámetros de codificación para cada uno de los canales o un conjunto global de parámetros de codificación para dicha pluralidad de canales.
6. El método de la reivindicación 3, en el que la duración predeterminada es la misma para cada segmento en una trama.
7. El método de la reivindicación 3, en el que la duración predeterminada está determinada para cada una de las tramas y varía sobre la secuencia de tramas.
8. El método de la reivindicación 3, en el que la duración predeterminada se determina,
a) realizando una partición de la trama en un número de segmentos de una duración determinada; b) determinando un conjunto de parámetros de codificación y carga de datos codificados para cada uno de los segmentos en cada uno de los canales; c) calculando las cargas de datos codificados para cada uno de los segmentos a través de todos los canales; d) si la carga de datos codificados a través de todos los canales para cualquier segmento excede el tamaño máximo, descartando el conjunto de parámetros de codificación; e) si la carga de datos codificados para la trama para la partición actual es menor de una carga de datos codificados mínima para particiones anteriores, almacenando el conjunto actual de parámetros de codificación y actualizando la carga de datos codificados mínima; y f) repitiendo las etapas desde a) hasta e) para la pluralidad de segmentos de una duración diferente.
9. El método de la reivindicación 8, en el que la duración del segmento se fija a una duración mínima inicialmente y
se aumenta en cada iteración de partición.
10. El método de la reivindicación 9, en el que la duración del segmento se fija inicialmente a una potencia de dos y se dobla en cada una de las iteraciones de partición.
11. El método de la reivindicación 9, en el que si la carga de datos codificados a través de todos los canales para cualquier segmento excede el tamaño máximo, la iteración de partición termina.
12. El método de la reivindicación 8, en el que el conjunto de parámetros de codificación incluye una selección de un codificador de entropía y sus parámetros.
13. El método de la reivindicación 12, en el que el codificador de entropía y sus parámetros se seleccionan para minimizar la carga de datos codificados para ese segmento en ese canal.
14. El método de la reivindicación 8, que comprende además generar un canal descorrelado para pares de canales para formar un triplete (base, correlado, descorrelado), seleccionando bien el par de canales (base, correlado) o el par de canales (base, descorrelado), y codificar la entropía de los canales en los pares de canales seleccionados.
15. El método de la reivindicación 8, en el que el conjunto determinado de parámetros de codificación es bien distinto para cada uno de los canales o global para todos los canales en base a lo cual produce una carga de datos codificados más pequeña incluyendo tanto el control como los datos de audio para la trama.
16. El método de la reivindicación 3, en el que la duración predeterminada del segmento se determina para minimizar la carga de datos codificados de cada una de las tramas.
17. El método de la reivindicación 3, en el que la duración predeterminada del segmento se determina en parte seleccionando un conjunto de parámetros de codificación incluyendo uno de la pluralidad de codificadores de entropía y sus parámetros de codificación para cada uno de los segmentos.
18. El método de la reivindicación 17, en el que la duración predeterminada del segmento se determina en parte seleccionando bien un conjunto distinto de parámetros de codificación para cada uno de los canales o un conjunto global de parámetros de codificación para dicha pluralidad de canales.
19. El método de la reivindicación 17, en el que los conjuntos de parámetros de codificación se calculan para diferentes duraciones de segmentos y se selecciona la duración correspondiente al conjunto que tiene la carga de datos codificados más pequeña que satisface la restricción sobre el segmento máximo.
20. El método de la reivindicación 3, que comprende además generar un canal descorrelado para pares de canales para formar al menos un triplete (base, correlado, descorrelado), la duración predeterminada del segmento se determina en parte seleccionando bien un par de canales (base, correlado) o un par de canales (base, descorrelado) para cada uno de dichos tripletes para la codificación de entropía.
21. El método de la reivindicación 20, en el que los pares de canales se seleccionan determinando si el canal descorrelado o correlado contribuye con el menor número de bits para la carga de datos codificados.
22. El método de la reivindicación 20, en el que dos canales más correlados forman parte de un primer par y así sucesivamente hasta que se agotan los canales, si queda un número impar de canales se forma un canal base.
23. El método de la reivindicación 22, en el que en cada uno de los pares, el canal que tiene la estimación de auto-correlación de retardo cero más pequeña es el canal base.
24. El método de la reivindicación 23, en el que el canal descorrelado se genera multiplicando el canal base por un coeficiente de des-correlación y restando el resultado del canal correlado.
Patentes similares o relacionadas:
CODEC AUDIO SIN PÉRDIDA ESCALABLE Y HERRAMIENTA DE AUTORÍA, del 19 de Agosto de 2011, de DTS, INC: Un método de codificar y crear datos audio, incluyendo: codificar sin pérdida los datos audio en una secuencia de ventanas de análisis en un flujo de bits escalable; […]
PROCEDIMIENTO Y APARATO PARA LA CODIFICACION/DECODIFICACION DE AUDIO SIN PERDIDA, del 18 de Mayo de 2010, de SAMSUNG ELECTRONICS CO., LTD.: Un procedimiento de codificación de audio sin pérdida que comprende: correlacionar una señal espectral de audio en el dominio frecuencial […]
CODIFICACION DE AUDIO, del 19 de Enero de 2010, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Dispositivo para la codificación de una señal de audio de una secuencia de valores de audio en una señal codificada, con un medio para […]
MÉTODO DE CONMUTACIÓN DE TASA DE TRANSMISIÓN EN DECODIFICACIÓN DE AUDIO ESCALABLE EN TASA DE TRANSMISIÓN Y ANCHO DE BANDA, del 8 de Abril de 2011, de FRANCE TELECOM: Método de conmutación de tasas de transmisión a la decodificación de una señal de audio codificada por un sistema de codificación de audio multi-tasas de transmisión, […]
DISPOSITIVO Y MÉTODO PARA EL PROCESAMIENTO POSTERIOR DE VALORES ESPECTRALES Y CODIFICADOR Y DECODIFICADOR PARA SEÑALES DE AUDIO, del 17 de Marzo de 2011, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Codificador para codificar una señal de audio, que comprende: un dispositivo para el procesamiento posterior de valores espectrales basándose en un primer […]
VOCODIFICADOR DE VELOCIDAD VARIABLE, del 2 de Diciembre de 2010, de QUALCOMM INCORPORATED: - Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía […]
CODIFICACION DE AUDIO MULTICANAL AJUSTABLE A ESCALA, del 27 de Octubre de 2010, de KONINKLIJKE PHILIPS ELECTRONICS N.V.: Codificador de audio adaptado para codificar una señal de audio multicanal, comprendiendo el codificador: - un módulo de combinación de […]
METODOS Y DISPOSICIONES PARA UN EMISOR Y RECEPTOR DE CONVERSACION/AUDIO, del 11 de Agosto de 2010, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un emisor de audio/conversación que comprende un codificador de núcleo adaptado a una banda de frecuencia de una señal de audio/conversación […]