Utilización selectiva de múltiples modelos para codificación y descodificación adaptativa.

Método para ser ejecutado por un codificador o un descodificador,

que comprende:

para una serie de símbolos, seleccionar un modelo entrópico a partir de un primer conjunto de modelos que incluye múltiples modelos entrópicos, cada uno de los múltiples modelos entrópicos del primer conjunto de modelos incluyendo un punto de conmutación de modelo para conmutar a un segundo conjunto de modelos que incluye uno o varios modelos entrópicos, en el que la serie de símbolos son para coeficientes espectrales cuantificados para datos de audio;

y en el que la selección de un modelo entrópico se basa en la evaluación del rendimiento de la codificación utilizando los múltiples modelos entrópicos;

procesar la serie de símbolos utilizando el modelo entrópico seleccionado; y entregar los resultados del proceso;

en el que los múltiples modelos entrópicos del primer conjunto de modelos, y dichos uno o varios modelos entrópicos del segundo conjunto de modelos reflejan distribuciones de probabilidad para codificación y/o descodificación aritmética, y en el que los múltiples modelos entrópicos del primer conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos más probables, y los múltiples modelos entrópicos del segundo conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos menos probables;

y en el que es seguido un punto de conmutación si la distribución de probabilidad seleccionada no comprende el símbolo respectivo de la serie de símbolos.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/027231.

Solicitante: MICROSOFT CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: ONE MICROSOFT WAY REDMOND, WASHINGTON 98052-6399 ESTADOS UNIDOS DE AMERICA.

Inventor/es: CHEN,WEI-GE, MEHROTRA,Sanjeev.

Fecha de Publicación: 12 de Abril de 2012.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H03M7/30 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03M CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO, EN GENERAL (por medio de fluidos F15C 4/00; convertidores ópticos analógico/digitales G02F 7/00; codificación, decodificación o conversión de código especialmente adaptada a aplicaciones particulares, ver las subclases apropiadas, p. ej. G01D, G01R, G06F, G06T, G09G, G10L, G11B, G11C, H04B, H04L, H04M, H04N; cifrado o descifrado para la criptografía o para otros fines que implican la necesidad de secreto G09C). › H03M 7/00 Conversión de un código, en el cual la información está representada por una secuencia dada o por un número de dígitos, en un código en el cual la misma información está representada por una secuencia o por un número de dígitos diferentes. › Compresión (análisis-síntesis de la voz para reducción de redundancia G10L 19/00; para transmisión de imágenes H04N ); Expansión; Supresión de datos innecesarios, p. ej. reducción de redundancia.
H04N7/30

PDF original: ES-2378393_T3.pdf

Fragmento de la descripción:

Utilización selectiva de múltiples modelos entrópicos para codificación y descodificación adaptativa ANTECEDENTES

Los ingenieros utilizan diversas técnicas para procesar eficientemente el audio digital, manteniendo a la vez la calidad del audio digital. Para comprender estas técnicas, resulta de ayuda comprender cómo la información de audio es representada y procesada en un ordenador.

I. Representación de información de audio en un ordenador.

Un ordenador procesa la información de audio como una serie de números que representan la información de audio. Por ejemplo, un único número puede representar una muestra de audio, que es un valor de amplitud en un tiempo dado. Diversos factores afectan a la calidad de la información de audio, incluyendo la profundidad de la muestra, la velocidad de muestreo y el modo de canal.

La profundidad (o precisión) de la muestra indica el rango de números utilizados para representar una muestra. Cuanto más valores posibles hay para la muestra mayor es la calidad, debido a que el número puede capturar variaciones de amplitud más sutiles. Por ejemplo, una muestra de 8 bits tiene 256 posibles valores, mientras que una muestra de 16 bits tiene 65 536 posibles valores.

La velocidad de muestreo (habitualmente medida como el número de muestras por segundo) afecta asimismo a la calidad. A mayor velocidad de muestreo, mayor calidad debido a que pueden representarse más frecuencias de sonido. Algunas velocidades de muestreo comunes son 8000, 11 025, 22 050, 32 000, 44 100, 48 000, y 96 000 muestras/segundo.

Dos modos de canal comunes para el audio son mono y estéreo. En modo mono, la información de audio está presente en un canal. En modo estéreo, la información de audio está presente en dos canales, denominados normalmente canales izquierdo y derecho. Asimismo, son posibles otros modos con más canales, tales como el sonido envolvente del canal 5.1, el canal 7.1, o el canal 9.1 (el "1" indica un canal de efectos de graves o de baja frecuencia) . La tabla 1 muestra varios formatos de audio con diferentes niveles de calidad, junto con correspondientes costos en velocidad de bits en bruto.

Tabla 1. Velocidades de bits para información de audio de diferente calidad.

Profundidad de la muestra (bits/muestra) Velocidad de muestreo (muestras/segundo) Modo del canal Velocidad de bits en bruto (bits/segundo) Telefonía por internet 8 8 mono 64 Teléfono 8 11, 025 mono 88, 2 Aucio CD 16 44, 1 estéreo 1 411 200

El audio de sonido envolvente tiene habitualmente una velocidad de bits en bruto incluso mayor. Tal como muestra la tabla 1, el costo de una información de audio de alta calidad es una velocidad de bits elevada. La información de audio de alta calidad consume grandes cantidades de almacenamiento informático y de capacidad de transmisión. Sin embargo, las compañías y los consumidores dependen cada vez más de los ordenadores para crear, distribuir y reproducir contenido de audio de alta calidad.

II. Procesamiento de información de audio en un ordenador.

Muchos ordenadores y redes informáticas carecen de recursos para procesar audio digital en bruto. La compresión (denominada, asimismo, codificación o descodificación) reduce el costo de almacenar y transmitir información de audio, transformando la información a una forma con una menor velocidad de bits. La compresión puede ser sin pérdidas (en la cual la calidad no es afectada) o con pérdidas (en la cual la calidad es afectada, pero la reducción de la velocidad de bits a partir de la subsiguiente compresión sin pérdidas es más dramática) . Por ejemplo, la comprensión con pérdidas se utiliza para aproximar información de audio original, y a continuación la aproximación se comprime sin pérdidas. La descompresión (denominada, asimismo, descodificación) extrae una versión reconstruida de la información original, a partir de la forma comprimida.

Un objetivo de la compresión de audio es representar digitalmente señales de audio para proporcionar la máxima calidad de señal percibida, con la menor cantidad bits posible. Con este objetivo como meta, diversos sistemas presentes de codificación de audio utilizan modelos de la percepción humana. Sistemas de codificador y descodificador incluyen ciertas versiones del codificador y descodificador Windows Media Audio ("WMA") y del codificador y descodificador WMA Pro, de Microsoft Corporation. Otros sistemas están especificados por ciertas versiones del estándar Audio Layer 3 (capa de audio 3) del Motion Picture Experts Group (grupo de expertos en imágenes en movimiento) , el estándar Advanced Audio Coding (codificación de audio avanzada) ("AAC") , y Dolby AC3. Dichos sistemas utilizan habitualmente una combinación de compresión y descompresión con pérdidas y sin pérdidas.

A. Compresión con pérdidas y descompresión correspondiente.

Convencionalmente, un codificador de audio utiliza una serie de diferentes técnicas de compresión con pérdidas. Estas técnicas de compresión con pérdidas involucran habitualmente modelización/ponderación perceptual y cuantificación después de una transformada de frecuencia. La correspondiente descompresión involucra cuantificación inversa, ponderación inversa y transformadas de frecuencia inversas.

Las técnicas de transformadas de frecuencia transforman los datos a una forma que facilita separar la información importante perceptualmente respecto de la información no importante perceptualmente. A continuación, la información menos importante puede ser sometida a una compresión con más pérdidas, mientras que la información más importante es preservada, con objeto de proporcionar la mejor calidad percibida para una velocidad de bits dada. Habitualmente, una transformada de frecuencia recibe muestras de audio y las convierte en datos en el dominio de frecuencias, en ocasiones denominados coeficientes de frecuencia o coeficientes espectrales.

La modelización perceptual involucra el procesamiento de datos de audio de acuerdo con un modelo del sistema auditivo humano, para mejorar la calidad percibida de la señal de audio reconstruida para una velocidad de bits dada. Utilizando los resultados de la modelización perceptual, un codificador conforma ruido (por ejemplo, el ruido de cuantificación) en los datos de audio, con el objetivo de minimizar la audibilidad del ruido para una velocidad de bits dada.

La cuantificación mapea rangos de valores de entrada a valores únicos, introduciendo pérdidas de información irreversibles pero, asimismo, permitiendo a un codificador regular la calidad y la velocidad de bits de la salida. En ocasiones, el codificador lleva a cabo la cuantificación junto con un controlador de velocidad que ajusta la cuantificación para regular la velocidad de bits y/o la calidad. Existen varias clases de cuantificación, incluyendo adaptativa y no adaptativa, escalar y vectorial, y uniforme y no uniforme. La ponderación perceptual puede considerarse una forma de cuantificación no uniforme.

La cuantificación inversa y la ponderación inversa reconstruyen los datos de coeficientes de frecuencia ponderados, cuantificados, a una aproximación de los datos de coeficientes de frecuencia originales. A continuación, una transformada de frecuencias inversa convierte los datos de coeficientes de frecuencia reconstruidos, en muestras de audio reconstruidas en el dominio temporal.

B. Compresión y descompresión sin pérdidas.

Convencionalmente, un codificador de audio utiliza una o varias de una serie de diferentes técnicas de compresión sin pérdidas, que se denominan asimismo técnicas de codificación entrópicas. En general, las técnicas de compresión sin pérdidas incluyen codificación por longitud de serie, codificación de longitud variable, y codificación aritmética. Las correspondientes técnicas de descompresión (denominadas, asimismo, técnicas de descompresión entrópicas) incluyen descodificación por longitud de serie, descodificación de longitud variable, y descodificación aritmética.

La codificación de longitud de serie es una técnica de compresión simple, bien conocida. En general, la codificación de longitud de serie sustituye una secuencia (es decir, una serie) de símbolos consecutivos que tienen el mismo valor, por el valor y la longitud de la secuencia. En la descodificación por longitud de serie, la secuencia de símbolos consecutivos es reconstruida a partir del valor de la serie y la longitud de la serie. Se han desarrollado numerosas variaciones... [Seguir leyendo]

Reivindicaciones:

1. Método para ser ejecutado por un codificador o un descodificador, que comprende:

para una serie de símbolos, seleccionar un modelo entrópico a partir de un primer conjunto de modelos que incluye múltiples modelos entrópicos, cada uno de los múltiples modelos entrópicos del primer conjunto de modelos incluyendo un punto de conmutación de modelo para conmutar a un segundo conjunto de modelos que incluye uno o varios modelos entrópicos, en el que la serie de símbolos son para coeficientes espectrales cuantificados para datos de audio;

y en el que la selección de un modelo entrópico se basa en la evaluación del rendimiento de la codificación utilizando los múltiples modelos entrópicos;

procesar la serie de símbolos utilizando el modelo entrópico seleccionado; y entregar los resultados del proceso;

en el que los múltiples modelos entrópicos del primer conjunto de modelos, y dichos uno o varios modelos entrópicos del segundo conjunto de modelos reflejan distribuciones de probabilidad para codificación y/o descodificación aritmética, y en el que los múltiples modelos entrópicos del primer conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos más probables, y los múltiples modelos entrópicos del segundo conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos menos probables;

y en el que es seguido un punto de conmutación si la distribución de probabilidad seleccionada no comprende el símbolo respectivo de la serie de símbolos.

2. El método acorde con la reivindicación 1, en el que el procesamiento incluye codificación entrópica si el método es ejecutado por un codificador.

3. El método acorde con la reivindicación 1, en el que el procesamiento incluye descodificación entrópica si el método es ejecutado por un descodificador.

4. El método acorde con la reivindicación 1, en el que el punto de conmutación de modelos es una probabilidad de conmutación de modelos en las múltiples distribuciones de probabilidad del primer conjunto de modelos.

5. El método acorde con la reivindicación 1, en el que los múltiples modelos entrópicos del primer conjunto de modelos están realizados, respectivamente, en las múltiples tablas VLC de un primer conjunto de tablas, en el que dichos uno o varios modelos entrópicos del segundo conjunto de modelos están realizados respectivamente en una

o varias tablas VLC de un segundo conjunto de modelos, en el que el punto de conmutación de modelos es un código de escape, y en el que cada una de las múltiples tablas VLC del primer conjunto de tablas incluye el código de escape para conmutar al segundo conjunto de tablas.

6. El método acorde con la reivindicación 5, en el que las múltiples tablas VLC del primer conjunto de tablas y dichas una o varias tablas VLC del segundo conjunto de tablas son tablas de códigos de Huffman, y en el que el segundo conjunto de tablas incluye una sola tabla de códigos de Huffman, de tal modo que dicha única tabla de códigos de Huffman representa una rama común en los árboles que representan las respectivas múltiples tablas de códigos de Huffman del primer conjunto de tablas.

7. El método acorde con la reivindicación 5, en el que las múltiples tablas VLC del primer conjunto de tablas están adaptadas para un primer conjunto de valores de símbolo que incluye valores de símbolo más probables, y en el que dichas una o varias tablas VLC del segundo conjunto de tablas están adaptadas para un segundo conjunto de valores de símbolo que incluye valores de símbolo menos probables.

8. El método acorde con la reivindicación 7, en el que el segundo conjunto de tablas incluye una sola tabla VLC, y en el que el proceso es para codificación o descodificación de longitud variable en dos etapas, de aquellos de la serie de símbolos que tienen valores de símbolo menos probables.

9. El método acorde con la reivindicación 1, que comprende además generar los múltiples modelos entrópicos del primer conjunto de modelos y dichos uno o varios modelos entrópicos del segundo conjunto de modelos, en el que la generación incluye:

agrupar distribuciones de probabilidad de acuerdo con la primera métrica de costos, obteniendo como resultado una serie de grupos preliminares; y

refinar la serie de grupos preliminares de acuerdo con una segunda métrica de costos diferente a la primera métrica de costos, obteniendo como resultado una serie de grupos finales.

10. El método acorde con la reivindicación 1, en el que en el segundo conjunto de modelos incluye un solo modelo entrópico, comprendiendo además el método la generación de los múltiples modelos entrópicos del primer conjunto de modelos y del único modelo entrópico del segundo conjunto de modelos, en el que la generación incluye, para el único modelo entrópico del segundo conjunto de modelos, restringir los valores de símbolo menos probables a tener una distribución condicional común a través de las distribuciones de probabilidad.

11. El método acorde con la reivindicación 1, en el que cada uno de dichos uno o varios modelos entrópicos del segundo conjunto de modelos incluye un segundo punto de conmutación de modelos, para conmutar a un tercer conjunto de modelos que incluye uno o varios modelos entrópicos.

12. El método acorde con la reivindicación 1, en el que, para por lo menos parte de los múltiples modelos entrópicos del primer conjunto de modelos, el punto de conmutación de modelos tiene un valor diferente entre modelo y modelo.

13. El método acorde con la reivindicación 1, en el que cada uno de los múltiples modelos entrópicos del primer conjunto de modelos incluye además un segundo punto de conmutación de modelos para conmutar a un tercer conjunto de modelos que incluye uno o varios modelos entrópicos.

14. El método acorde con la reivindicación 1, en el que la selección forma parte de una conmutación adaptativa hacia adelante.

15. El método acorde con la reivindicación 1, en el que la selección forma parte de una conmutación adaptativa hacia atrás.

16. Un sistema que comprende un codificador y descodificador, comprendiendo además:

medios para obtener distribuciones de probabilidad para una serie de valores de símbolo, en el que los valores de símbolo son para coeficientes espectrales cuantificados para datos de audio; y medios para generar modelos entrópicos, que incluyen restringir la serie de valores de símbolo menos probables, a tener una distribución condicional común a través de las distribuciones de probabilidad, sin restringir por ello la serie de valores de símbolo más probables, medios para seleccionar un modelo entrópico a partir de un primer conjunto de modelos que incluye múltiples modelos entrópicos, cada uno de los múltiples modelos entrópicos del primer conjunto de modelos incluyendo un punto de conmutación de modelos para conmutar a un segundo conjunto de modelos que incluye uno o varios modelos entrópicos, en el que la selección de un modelo entrópico está basada en la evaluación del rendimiento de la codificación utilizando los múltiples modelos entrópicos;

medios para procesar dicha serie de símbolos utilizando el modelo entrópico seleccionado; y medios para entregar los resultados del proceso;

en el que los múltiples modelos entrópicos del primer conjunto de modelos y dichos uno o varios modelos entrópicos del segundo conjunto de modelos reflejan distribuciones de probabilidad para codificación y/o descodificación aritmética; y en el que los múltiples modelos entrópicos del primer conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos más probables, y los múltiples modelos entrópicos del segundo conjunto de modelos reflejan las distribuciones de probabilidad de los símbolos menos probables; y en el que se sigue un punto de conmutación si la distribución de probabilidad seleccionada no comprende el símbolo respectivo de la serie de valores de símbolo.

17. El sistema acorde con la reivindicación 16, en el que uno o varios módulos generan modelos entrópicos mediante:

agrupar distribuciones de probabilidad de acuerdo con la primera métrica de costos, obteniendo como resultado una serie de grupos preliminares;

refinar la serie de grupos preliminares de acuerdo con una segunda métrica de costos diferente a la primera métrica de costos, obteniendo como resultado una serie de grupos finales; y seleccionar los modelos entrópicos en base, por lo menos en parte, a la serie de grupos finales.

18. El sistema acorde con la reivindicación 17, en el que la segunda métrica de costos es la entropía relativa.

19. El sistema acorde con la reivindicación 17, en el que los modelos entrópicos son realizados respectivamente en múltiples tablas VLC de un primer conjunto de tablas y en una tabla VLC única de un segundo conjunto de tablas, en el que las múltiples tablas VLC están adaptadas para la serie de valores de símbolo más probables, y en el que la tabla VLC única está adaptada para la serie de valores de símbolo menos probables.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]