Grabación en estéreo compatible con multicanal.

Un codificador para mezclar

- una pluralidad de canales de audio mono, incluyendo al menos un primer y segundo canales de audio mono en

- una grabación de señal de audio que comprende un flujo de muestras mezcladas para su almacenamiento en un dispositivo de almacenamiento

, y

- comprendiendo cada canal de audio varias muestras por unidad de tiempo,

- teniendo cada canal de audio el mismo número de muestras por unidad de tiempo, y el mismo tiempo de referencia,

caracterizado por que

el codificador está adaptado para:

- derivar muestras impares aproximadas filtrando por interpolación muestras del primer canal de audio, derivar muestras pares aproximadas filtrando por interpolación muestras del segundo canal de audio,

- sumar muestras pares del primer canal de audio y muestras pares aproximadas derivadas del segundo canal de audio para obtener muestras mezcladas pares, y para sumar muestras impares del segundo canal de audio y muestras impares aproximadas derivadas del primer canal de audio para obtener muestras mezcladas impares, obteniendo así un flujo de muestras pares e impares mezcladas, estando el codificador adaptado adicionalmente para:

- generar un conjunto de parámetros que comprenden parámetros del filtro que comprenden muestras que permiten un cálculo de una muestra de un canal de audio y una muestra adicional de un canal de audio adicional de una muestra mezclada, y almacenar el conjunto de parámetros en el dispositivo de almacenamiento, formando parte una muestra par inicial y una muestra impar sucesiva de los parámetros del filtro.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E10183793.

Solicitante: AURO TECHNOLOGIES NV.

Nacionalidad solicitante: Bélgica.

Dirección: KIEVITSTRAAT 42 2400 MOL BELGICA.

Inventor/es: VAN DEN BERGHE,GUIDO.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > REGISTRO DE LA INFORMACION > REGISTRO DE LA INFORMACION BASADO EN UN MOVIMIENTO... > G11B20/00 (Tratamiento de la señal, no específica del procedimiento de registro o reproducción; Circuitos correspondientes)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > INSTRUMENTOS DE MUSICA ELECTROFONICOS; INSTRUMENTOS... > Elementos de instrumentos de música electrofónicos... > G10H1/36 (Dispositivos para el acompañamiento)
google+ twitter facebookPin it
Ilustración 1 de Grabación en estéreo compatible con multicanal.
Ilustración 2 de Grabación en estéreo compatible con multicanal.
Ilustración 3 de Grabación en estéreo compatible con multicanal.
Ilustración 4 de Grabación en estéreo compatible con multicanal.
Ilustración 5 de Grabación en estéreo compatible con multicanal.
Grabación en estéreo compatible con multicanal.

Texto extraído del PDF original:

DESCRIPCIÓN

Grabación en estéreo compatible con multicanal. Campo técnico de la invención

La presente invención se refiere a las técnicas de formateo para el almacenamiento de datos, por ejemplo para dispositivos de estado sólido o disco óptico, tal como DVD (Disco Versátil Digital). Más particularmente, la presente invención se describirá con referencia al formato de CD de audio, un formato de electrónica de consumo para música pregrabada en disco compacto, de CD+G(w), pero sin limitación a esta forma de grabación. Este formato de CD de audio puede ser, por ejemplo, CD-DA (Compact Disc Digital Audio, el formato de CD de música original, que almacena la información de audio como datos digitales PCM modulados por codificación de impulsos) compatibles con Redbook, y puede usar el modo CD+G usuario para almacenar datos adicionales. CD+G(w) es una técnica de codificación y decodificación útil para, pero sin limitación, funciones de Cantar y Tocar en grupo (Sing & Play-Along), tales como karaoke y la reproducción automatizada de instrumentos, usando grabación en estéreo compatible con multicanal. Antecedentes de la invención Generalmente, el CD+G existente es un formato de CD de audio, que tiene capacidades limitadas para almacenar datos gráficos adicionales y se usa, principalmente, en aplicaciones de karaoke. La parte de audio de CD+G puede reproducirse en cualquier CD de audio estándar. Para la visualización de gráficos, se requiere un reproductor de CDG, un reproductor de CD especial con salida de TV, por ejemplo, un reproductor de CD de karaoke. En el formato CD+G, los datos de audio se graban en un área de programa, mientras que los datos adicionales pueden almacenarse en una zona de gestión de programas, la cual se divide en ocho canales sub-código, los canales P a W. El canal P indica el inicio y el final de cada pista, alternando entre 0 y 1. El canal Q contiene los códigos de tiempo y una tabla de contenidos. Más datos adicionales contenidos en los canales de sub-código R a W, pueden permitir que se visualicen gráficos y texto mientras se está reproduciendo música, tal como se usa, por ejemplo, para representar imágenes fijas o representar letras, por ejemplo, para un karaoke.

El estándar CD+G define diferentes modos de CD+G, que son los modos ZERO, GRAPHICS (karaoke), MIDI y USER: • El modo ZERO es un modo en el que no se realiza ninguna operación en una pantalla de visualización.

• El modo GRAPHICS permite representar imágenes o símbolos, por ejemplo, para un karaoke.

• El modo MIDI proporciona un canal de datos de 3.125 kb/s máximo para los datos de Interfaz Digital de Instrumentos Musicales (MIDI, Musical Instrument Digital Interface), como especifica la Asociación Internacional MIDI. • El modo USER está destinado para aplicaciones profesionales. El significado de los datos es específico de la aplicación.

El documento US-5.852.800 describe un método y un aparato para la modulación y el mezclado, controlados por usuario, de datos comprimidos, almacenados digitalmente. En este documento, la pluralidad de canales se almacena por separado en un CD ROM. De esta manera, la pista de audio en el CD ROM corresponde a la pluralidad de canales de audio mono independientes. Esta pluralidad de canales se recupera del CD ROM, se modulan y se mezclan según las direcciones y las órdenes recibidas del usuario, y se crea una señal de suma para su presentación a una audiencia. La señal de suma se obtiene descomprimiendo los canales de audio por separado, multiplicando cada canal de audio por los valores de intensidad correctos y, a continuación, sumando entre sí todos los canales seleccionados. Cada canal puede enmascararse o silenciarse por completo.

En el documento EP-0757506, los canales de audio separados se codifican como paquetes de datos específicos en un flujo de bits multicanal y, como tales, son accesibles por el decodificador. A nivel del decodificador, el usuario tiene control sobre el modo downmix (conversión de multicanal a estéreo) para activar o desactivar ciertos canales de audio en la conversión de muticanal a estéreo.

El documento US-6405163 describe el uso de características de frecuencia presentes igualmente en ambos canales izquierdo y derecho (desde el punto de vista de las características de frecuencia) para "reducir" o "amplificar" la información de audio que está centrada. Esta solución permite la "atenuación" de la información de audio central.

Resumen de la invención Un objeto de la presente invención es proporcionar un sistema de audio mejorado.

El objetivo anterior se consigue mediante un codificador de acuerdo con la reivindicación 1 y un decodificador de acuerdo con la reivindicación 5. Los aspectos particulares y preferentes de la invención se exponen en las reivindicaciones independientes y dependientes adjuntas. Las características de las reivindicaciones dependientes pueden combinarse con las características de las reivindicaciones independientes y con características de otras reivindicaciones dependientes, según sea apropiado, y no sólo como se expone explícitamente en las reivindicaciones. El codificador de la presente invención puede usarse para mezclar una pluralidad de canales independientes de audio mono en una grabación en estéreo y generar un conjunto restringido de parámetros adicionales usados para la masterización de una pista de audio de un dispositivo de almacenamiento, estando construidos la pluralidad de canales independientes de audio mono de manera que el dispositivo de almacenamiento puede reproducirse usando un reproductor de disco óptico de manera que, en un primer modo, la totalidad de la pluralidad de canales independientes de audio mono se reproducen como la grabación en estéreo y, en un segundo modo, al menos uno de la pluralidad de canales independientes de audio mono puede desmezclarse y la grabación en estéreo puede reproducirse con al menos un canal de audio mono eliminado. El dispositivo de almacenamiento puede ser un disco óptico, tal como, por ejemplo, un disco de CD de audio digital. En un codificador de acuerdo con una realización de la presente invención, preferiblemente, el conjunto restringido de parámetros adicionales no exceden el tamaño de datos disponible como datos de sub-código dentro del modo CD+G USER. El decodificador de la presente invención puede usarse para reconstruir, en un primer modo, una pluralidad de canales independientes de audio mono en una grabación en estéreo usando un conjunto restringido de parámetros adicionales usados para la masterización de una pista de audio de un dispositivo de almacenamiento, cuando se lee únicamente la grabación de audio en estéreo y los parámetros adicionales del dispositivo de almacenamiento y, en un segundo modo, al menos uno de la pluralidad de canales independientes de audio mono puede desmezclarse y la grabación en estéreo se reproduce con el al menos un canal de audio eliminado y no reproducido.

Los canales reconstruidos pueden estar no correlacionados, y pueden ser sustancialmente idénticos, perceptualmente, a los canales mono originales. En un decodificador de acuerdo con una realización de la presente invención, el conjunto restringido de parámetros adicionales y los datos de mezclado, de panoramización y/o atenuación asociados pueden proporcionar información suficiente al decodificador para decodificar, aislar, eliminar o atenuar un único canal o más canales durante la reproducción en tiempo real. En un tercer aspecto, la presente invención proporciona un sistema de audio de acuerdo con la reivindicación 10.

En un sistema de audio de acuerdo con una realización de la presente invención, el sistema soporta aplicaciones o configuraciones de audio diferentes, incluyendo filtrado de solista (estéreo), filtrado de voz solista (mono) e instrumento solista (mono), reproducción de audio cuadrafónico verdadero. Además, cuando se usa en una aplicación de karaoke, la información de las letras puede incluirse en el dispositivo de almacenamiento, en un formato tal que puede visualizarse en una pantalla de visualización. Cuando se usa con una aplicación de reproductor de instrumento, el instrumento principal puede filtrarse del audio y puede reemplazarse por un reproductor de instrumento controlado, donde los datos de control son una parte de los datos sub-código en el dispositivo de almacenamiento. Puede proporcionarse una combinación tanto de la aplicación de Karaoke como de la aplicación de reproductor de instrumento.

También, pueden incluirse, en el dispositivo de almacenamiento, datos adicionales del filtro de audio para mejorar la expansión temporal y/o el cambio de tono.

Cuando se usa en aplicaciones de audio de sonido envolvente, el decodificador puede ser capaz de reconstruir los canales de audio estéreo traseros totalmente aislados de los canales estéreo frontales, a partir de un dispositivo de almacenamiento con codificación cuadrafónica verdadera. Cuando se usa en aplicaciones de sonido envolvente, el decodificador puede ser capaz de panoramizar dinámicamente la voz principal (mono) y/o el instrumento principal (mono) a partir de un disco óptico de un dispositivo de almacenamiento codificado para Karaoke, en el espacio auditivo 3D, para reproducir el efecto de una actuación en vivo, cuando el artista se está moviendo en el escenario. Los datos MIDI pueden integrarse en el dispositivo de almacenamiento. El sistema de audio puede tener una precisión de temporización de 272 µs por evento MIDI, así como una resolución de velocidad MIDI de 256 niveles diferentes.

En un sistema de audio de acuerdo con las realizaciones de la presente invención, el decodificador puede tener medios para ejecutar la operación inversa del codificador y tanto el decodificador como el codificador pueden implementarse en aritmética de números enteros de 32 bits, siendo independientes de la implementación en coma flotante. En primer lugar, el codificador puede generar canales de audio aproximados antes de mezclar estos canales, usando parámetros del filtro de audio generados como valores en coma flotante primero, que son el resultado de una optimización con objetivos configurables por el usuario, que pueden incluir características perceptuales de audio. El sistema de audio puede comprender adicionalmente la conversión en aritmética entera, teniendo el codificador y/o el decodificador medios para compensar los errores de redondeo y de conversión para proporcionar un proceso de decodificación que es la operación inversa de la codificación.

En un sistema de audio de acuerdo con las realizaciones de la presente invención, los parámetros del filtro de audio requeridos por el decodificador y que son una parte del conjunto de parámetros de datos, pueden regenerarse para cada período de tiempo, que es corto en comparación con la resolución de audio del oído humano. El período de tiempo puede ser de 40 ms de audio.

En un sistema de audio de acuerdo con las realizaciones de la presente invención, el codificador puede incorporar un compresor dinámico que previene rebasamientos al mezclar y/o codificar la pluralidad de canales mono en un canal estéreo convertido desde multicanal.

En un aspecto adicional, la presente invención proporciona un codificador para mezclar una pluralidad de canales de audio mono independientes en una grabación estéreo y generar un conjunto restringido de parámetros adicionales usados para masterizar una pista de audio de un dispositivo de almacenamiento, comprendiendo cada canal de audio un primer número de muestras por unidad de tiempo, estando la pluralidad de canales de audio mono independientes almacenados en el dispositivo de almacenamiento con menos que el número de muestras por unidad de tiempo de cada canal de audio con la adición de valores calculados, calculados usando un filtro de interpolación con parámetros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenándose los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales.

En un aspecto adicional más, la presente invención proporciona un decodificador para decodificar una pluralidad de canales de audio mono grabados en una grabación estéreo usando un conjunto restringido de parámetros adicionales para masterizar una pista de audio de un dispositivo de almacenamiento, estando cada canal de audio reconstruido a partir de un primer número de muestras por unidad de tiempo, estando la pluralidad de canales de audio mono almacenados en el dispositivo de almacenamiento con menos del número de muestras por unidad de tiempo de cada canal de audio con la adición de valores calculados, calculados usando un filtro de interpolación con parámetros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenándose los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales.

Todavía en un aspecto adicional, la presente invención proporciona un dispositivo de almacenamiento que tiene almacenados en el mismo una pluralidad de canales de audio mono grabados en una grabación estéreo usando un conjunto restringido de parámetros adicionales para masterizar una pista de audio del dispositivo de almacenamiento, pudiendo reconstruirse cada canal de audio a partir de un primer número de muestras por unidad de tiempo, estando la pluralidad de canales de audio mono almacenados en el dispositivo de almacenamiento con menos del número de muestras por unidad de tiempo de cada canal de audio con la adición de valores calculados, calculados usando un filtro de interpolación con parámetros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenándose los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales.

El formato CD+G(w), que puede usarse con la presente invención, usa el modo USER del estándar CD+G para almacenar datos adicionales. Una parte de estos datos, la sección de datos de filtro, define diversos parámetros del filtro de audio. Otra parte, la sección de datos MIDI, define los datos usados para los dispositivos compatibles con MIDI. Las letras de canciones para cantar en grupo pueden integrarse dentro de la sección MIDI de los datos.

En un aspecto de la presente invención, la sección de datos del filtro de audio contiene los parámetros del filtro de audio que permiten a un decodificador CD+G(w) filtrar pistas individuales, tales como la voz principal y/o un instrumento solista de la grabación de audio en estéreo. Según la grabación combinada de audio en estéreo se filtra, la cantidad de datos adicionales necesarios para almacenar la grabación en estéreo no es significativamente mayor que los usados para almacenar la grabación en estéreo usando los parámetros estándar. La sección de datos MIDI contiene datos para controlar los dispositivos controlados digitalmente (MIDI), tales como pianos digitales o pianolas u otros instrumentos musicales controlados MIDI, equipo ligero controlador de MIDI o virtualmente cualquier equipo compatible con MIDI.

En otro aspecto de la presente invención, la sección de datos del filtro de audio es el resultado de un complejo esquema de codificación, así como una remasterización de las grabaciones de las pistas master originales a partir de las grabaciones de audio master. El decodificador CD+G(w) es capaz de aislar o eliminar 1 o 2 o más "pistas principales" que están mezcladas en el estéreo convertido desde multicanal, remasterizado, sin la necesidad de almacenar estas "pistas principales" separadas en el CD. En combinación con la salida en TV de las letras y dispositivos con capacidad MIDI, tales como, por ejemplo, instrumentos musicales automatizados, este formato CD+G(w) es un formato de CD único y proporciona solución a diversas características diferentes: tales como el karaoke o canto en grupo cuando la pista vocal principal se filtra/elimina de la mezcla en estéreo, o reproducción en grupo cuando una pista del instrumento principal se filtra/elimina, o incluso reproducción en grupo y canto en grupo, cuando las partes vocal principal e instrumento principal se filtran/eliminan y los datos MIDI se usan para mostrar letras, así como para controlar un reproductor de instrumento automatizado. Cuando se eliminan la voz principal y el instrumento principal, las voces/los instrumentos de respaldo estéreo son todavía audibles, sin ningún artefacto. Junto con estas características, una grabación de audio compatible con CD-DA de audio cuadrafónico verdadero se convierte en una realidad, ya que la naturaleza básica de este formato y su grabación y esquema de masterización y codificación permiten grabar y convertir cuatro pistas independientes de audio mono en 1 grabación en estéreo, permitiendo, asimismo, una operación de desmezclado. En otro aspecto de la presente invención, se proporciona una técnica de grabación multicanal, preferiblemente, una técnica de grabación de CD de audio multicanal, para grabar en un canal mezclado una pluralidad de canales mono, en el que cada uno tiene una frecuencia de muestreo original, en el que, antes de la mezcla, cada canal mono es redefinido usando al menos la mitad de su frecuencia de muestreo original y un conjunto limitado de parámetros adicionales. La técnica de grabación de acuerdo con este aspecto de la presente invención permite, durante la reproducción de las pistas grabadas, obtener un 100 % de filtrado de canal, es decir, en un primer modo, toda la pluralidad de canales independientes mono (audio) pueden reproducirse como una grabación estéreo y, en un segundo modo, al menos uno de la pluralidad de canales independientes mono (audio) puede desmezclarse y la grabación estéreo puede reproducirse con al menos un canal mono (audio) eliminado. La frecuencia de muestreo de los canales mono redefinidos depende del número de canales a mezclar, es decir, es la mitad de la frecuencia de muestreo original de los canales mono si se van a mezclar dos canales mono, o es una cuarta parte de la frecuencia de muestreo de canal mono original si se van a mezclar cuatro canales, etc. Únicamente a modo de ejemplo, si se van a mezclar dos canales mono de 16 bits con una frecuencia de muestreo de 44 kHz, de acuerdo con el presente aspecto de la invención, estos canales mono son redefinidos como dos canales mono de 15 bits con una frecuencia de muestreo de 22 kHz, y estos canales mono redefinidos se mezclan. La redefinición de los canales mono de 16 bits puede realizarse tomando, del primer canal, sólo las muestras pares, y tomando, del segundo canal, sólo las muestras impares. Como otro ejemplo, si se van a mezclar cuatro canales mono de 16 bits, cada uno con una frecuencia de muestreo de 44 kHz, los canales mono pueden redefinirse como cuatro canales de 14 bits, cada uno con una frecuencia de muestreo de 11 kHz, y estos cuatro canales mono redefinidos pueden mezclarse. La redefinición de los canales mono de 16 bits puede realizarse tomando, del primer canal, cada 4késima muestra, desde el segundo canal, cada (4k+1)ésima muestra, del tercer canal, cada (4k+2)ésima muestra, y del cuarto canal, cada (4k+3)ésima muestra.

En un aspecto adicional de la presente invención, puede obtenerse un canal mono casi equivalente a partir del canal mono redefinido y el conjunto limitado de parámetros adicionales, por ejemplo, interpolando las muestras que se han descartado durante el proceso de redefinición. Esto significa que, a partir de los canales mono redefinidos grabados, por ejemplo dos canales mono de 15 bits con una frecuencia de muestreo de 22 kHz o cuatro canales mono de 14 bits con una frecuencia de muestreo de 11 kHz, junto con el conjunto de parámetros complementarios, pueden obtenerse canales mono de 16 bits originales aproximados, que tienen una frecuencia de muestreo de 44 kHz. Las características anteriores y otras características y funciones y ventajas de la presente invención se harán evidentes a partir de la siguiente descripción detallada, tomada junto con los dibujos adjuntos, que ilustran, a modo de ejemplo, los principios de la invención. Esta descripción se proporciona solamente como ejemplo, sin limitar el alcance de la invención. Los números de referencia indicados más adelante se refieren a los dibujos adjuntos. Breve descripción de los dibujos

La figura 1 ilustra un flujo de procesamiento para la codificación de audio para aplicaciones de acuerdo con una primera realización de la presente invención. La figura 2 ilustra un flujo de procesamiento para la grabación de audio cuadrafónico verdadero de acuerdo con una segunda realización de la presente invención.

La figura 3 ilustra la autoría de CD+G(w). La figura 4 ilustra un primer flujo A de audio (serie 1) y un flujo A' de audio aproximado (serie 2). La figura 5 ilustra un segundo flujo B de audio (serie 1) y un flujo B' de audio aproximado (serie 2). La figura 6 ilustra un flujo A+B de audio mezclado (serie 1) y un flujo A'+B' de audio mezclado aproximado (serie 2).

La figura 7 ilustra la aproximación de muestra de la muestra A5 basada en un filtro FIR. La figura 8 ilustra una compresión de audio debida a una mezcla o una interpolación. La figura 9 es una tabla que ilustra una comparación de las propiedades de datos MIDI para los datos MIDI estándar y para los datos MIDI incluidos en el formato CD+G(w) tal como se usa de acuerdo con las realizaciones de la presente invención.

Descripción de realizaciones ilustrativas La presente invención se describirá con respecto a realizaciones particulares y con referencia a ciertos dibujos, pero la invención no se limita a los mismos, sino solamente por las reivindicaciones. Los dibujos descritos son sólo esquemáticos y no son limitantes. Además, los términos primero, segundo, tercero y similares, en la descripción y en las reivindicaciones, se usan para distinguir entre elementos similares y no necesariamente para describir un orden secuencial o cronológico. Debe entenderse que los términos usados de este modo son intercambiables en las circunstancias apropiadas y que las realizaciones de la invención descritas en el presente documento son capaces de funcionar en otras secuencias que las descritas e ilustradas en el presente documento.

Cabe destacar que la expresión "que comprende", usada en las reivindicaciones, no debería interpretarse como restringida a los medios indicados más adelante; no excluye otros elementos o etapas. Por lo tanto, debe interpretarse que especifica la presencia de las características, números enteros, etapas o componentes indicados, tal como se refiere, pero no excluye la presencia o adición de una o más características, números enteros, etapas o componentes diferentes, o grupos de los mismos. Por lo tanto, el alcance de la expresión "un dispositivo que comprende medios A y B" no debería limitarse a dispositivos que consisten sólo en componentes A y B. Significa que, con respecto a la presente invención, los únicos componentes relevantes del dispositivo son A y B. Ahora, la invención se describirá por medio de una descripción detallada de varias realizaciones de la invención. Es evidente que otras realizaciones de la invención pueden configurarse de acuerdo con el conocimiento de los expertos en la técnica, sin apartarse de las enseñanzas técnicas de la invención, estando la invención limitada sólo por los términos de las reivindicaciones adjuntas. En un aspecto, la presente invención propone una codificación y decodificación de audio multicanal.

1. Principio básico. El presente aspecto de la presente invención se refiere a la codificación de una pluralidad de canales en una señal de audio mezclada de manera que los flujos de audio originales puedan reconstruirse a partir de la señal de audio mezclada, y la decodificación de al menos uno de la pluralidad de canales a partir de la señal de audio mezclada.

Un ejemplo de la presente invención se describe con referencia a la codificación y decodificación de 4 canales, pero la presente invención no se limita a las mismas. Cuantos más canales se graben, más muestras tienen que calcularse usando un filtro y menor puede ser la calidad de la música reproducida, pero, en algunas aplicaciones, la calidad de la música no es de importancia primordial. El formato de codificación de la presente invención está basado en la mezcla de 2 o más flujos digitales de audio, de tal manera que los flujos de audio originales pueden ser reconstruidos a partir de la señal de audio mezclada. Como un ejemplo para ilustrar esto, se parte de 2 flujos A y B de audio digital, mono, de 44,1 KHz, de 16 bits.

Al mezclar dos señales de audio, se usa una técnica de aproximación. Se usa modulación por codificación de impulsos (PCM, Pulse Code Modulation) para muestrear audio analógico a un código digital, típicamente, a 8.000 muestras/segundo. La cadena de audio digital se denomina, entonces, un flujo PCM. En la figura 4, se muestra un primer flujo A de audio PCM en el gráfico, como una línea de color gris oscuro (serie 1). Las muestras del primer flujo A de audio son: A0, A1, A2, A3, A4, A5,... A partir de esta serie de muestras, se genera un nuevo flujo A' (gris claro, serie 2). El nuevo flujo A' es una aproximación del primer flujo A de audio, usando una interpolación lineal para aproximar las muestras impares del flujo A recién generado, mientras se copian las muestras pares. Las muestras del flujo A' son: A'0, A'1, A'2,... con A'2i = A2i y A'2i+1 = (A'2i + A'2i+2)/2. Por lo tanto, todas las muestras pares de la serie de muestras recién generada son idénticas a los datos originales y todas las muestras impares se definen como la interpolación lineal de la muestra anterior y la muestra siguiente.

En la figura 5, se muestra un segundo flujo B de audio PCM en el gráfico, como una línea de color gris oscuro (serie 1). Las muestras del segundo flujo B de audio son: B0, B1, B2, B3, B4, B5,... A partir de esta serie de muestras, se genera un nuevo flujo B' (gris claro, serie 2). El nuevo flujo B' es una aproximación del segundo flujo B de audio, usando una interpolación lineal para aproximar las muestras pares del flujo B' recién generado, mientras se copian las muestras impares. Las muestras del flujo B' son: B'0, B'1, B'2,... con B'2i+1 = B2i+1 y B'2i = (B'2i-1 + B'2i+1)/2. Por lo tanto, todas las muestras impares son idénticas a los datos originales y todas las muestras pares se definen como la interpolación lineal de la muestra anterior y la muestra siguiente. En la figura 6, ambos flujos A y B originales se mezclan (sumados) para obtener un primer flujo A+B mezclado (gris oscuro, serie 1). Los flujos A' y B' aproximados se mezclan (sumados) para obtener un segundo flujo A'+B' mezclado (gris claro, serie 2). El segundo flujo A'+B' mezclado puede ser diferente del primer flujo A+B mezclado para cada muestra, ya que A' o B' pueden diferir de las muestras originales, pero, en general, el segundo flujo mezclado es todavía una buena aproximación del flujo A+B mezclado original (gris oscuro, serie 1). Para desmezclar el flujo A'+B' mezclado, a fin de obtener las señales A, B' mono, aproximadas, a partir del flujo A' + B' mezclado, se necesitan la primera muestra original A0 A'0 del primer flujo A de audio y la segunda muestra B1 = B'1 del segundo flujo B de audio. El desmezclado de las señales (mono) a partir de A'+B' puede realizarse como se indica a continuación: Las muestras del segundo flujo A'+B' mezclado son: A'0+B'0, A'1+B'1, A'2+B'2, A'3+B'3, A'4+B'4, A'5+B'5,... Cuando se tiene una copia de la primera muestra A0 A'0 del primer flujo A de audio y de la segunda muestra B1 = B'1 del segundo flujo B de audio, los flujos A' y B' pueden reconstruirse.

1. con (A'0+B'0) y (A'0) conocidos, puede obtenerse B'0 2. con (A'1+B'1) y (B'1) conocidos, puede obtenerse (A'1) 3. con (A'0) y (A'1) conocidos, puede obtenerse (A'2), usando A'1 = (A'0+A'2)/2 o, por lo tanto, A'2 = (2 A'1 - A'0) 4. con (A'2+B'2) y (A'2) conocidos, puede obtenerse (B'2) 5. con (B'1) y (B'2) conocidos, puede obtenerse (B'3), usando B'2 = (B'1+B'3)/2 o, por lo tanto, B'3 = (2 B'2 - B'1) 6. con (A'3+B'3) y (B'3) conocidos, puede obtenerse A'3 7. etc.

Si este procedimiento de mezcla de un flujo A, B de audio original con un flujo A', B' de audio interpolado se repite para otro par de flujos (C, D) PCM (mono), se obtiene un segundo flujo C + D' PCM (mono) mezclado. Estos 2 flujos A + B', C + D', PCM (mono) mezclados constituyen un flujo PCM estéreo equivalente, que son los datos de audio PCM básicos generados por el codificador CD+G(w) y usados por las herramientas de creación CD+G. Con este principio básico en mente, puede concluirse que al menos algunos duplicados (A0 = A'0 y B1 = B'1) (idénticos) de las primeras muestras PCM iniciales a partir de los flujos originales se requieren como parte de la los parámetros de filtro, con el fin de poder decodificar o desmezclar los flujos de audio PCM mezclados. 2. Restricciones y limitaciones del principio básico La idea básica, como se ha explicado en la sección anterior, para mezclar/desmezclar 2 flujos PCM mono, tiene diversas limitaciones y restricciones. La aproximación de un flujo PCM, usando una interpolación lineal para aproximar las muestras impares de un flujo (mientras se copian las muestras pares), y viceversa para el otro flujo PCM, da como resultado una pérdida de información de frecuencia más elevada del flujo PCM original. Por lo tanto, puede usarse una técnica de aproximación más compleja, que incluye la optimización de los parámetros del filtro usando criterios tales como la minimización de los errores de interpolación, o la optimización de las características de frecuencia, que pueden incluir características perceptuales como parte de los criterios de optimización.

El mezclado de 2 flujos PCM puede dar como resultado rebasamientos. Cada uno de los flujos PCM del presente ejemplo es un flujo de 16 bits, de 44,1 kHz, con valores enteros de 16 bits, con signo, con un máximo de 32.767 y un mínimo de -32.768. La suma de 2 flujos PCM, donde cada flujo podría tener su máximo de 32.767 en el mismo momento, proporciona un valor total de 65.534, que excede el máximo PCM de 16 bits (con signo). Para evitar dichos rebasamientos, puede usarse un esquema de compresión dinámica, aplicado a los datos PCM, antes de mezclar todos estos flujos en un flujo estéreo convertido desde multicanal. Los parámetros del filtro usados por técnicas más complejas en la aproximación del flujo PCM, son el resultado de una optimización y se representan como valores en coma flotante. Sin embargo, para hacer que el procesamiento de codificación/decodificación sea independiente de implementaciones aritméticas en coma flotante, la codificación CD+G(w) usada con la presente invención se basará en cálculos enteros y, de esta manera, los parámetros tienen que convertirse o representarse por un número entero, tanto para la codificación como para la decodificación. Finalmente, el desmezclado de las muestras PCM con este algoritmo básico puede dar como resultado errores, cuando se lee un error durante la lectura del disco CD+G. La naturaleza de este proceso es tal que todas las muestras reconstruidas después de un único error de lectura, serán también incorrectas, ya que las muestras PCM siguientes se reconstruyen usando la muestra anterior con su error, dando lugar a errores adicionales. La técnica de codificación/decodificación CD+G(w) avanzada de acuerdo con la presente invención abordará todas estas deficiencias y/o limitaciones.

3. Codificación y decodificación avanzada de acuerdo con las realizaciones de la presente invención a. Parámetros del filtro Para el primer flujo PCM, las muestras impares deben interpolarse. La interpolación lineal, como se explica en la sección acerca del principio básico, se reemplaza por un filtro FIR, donde los parámetros del filtro se optimizan como se muestra en la figura 7. Los parámetros del filtro se usan para aproximar las muestras impares, por ejemplo, la muestra en A5 se genera a partir de las muestras pares A0, A2, A4 y A6. A'5 = α.A6+β.A4+γ.A2+δ.A0. La fórmula general para la aproximación de una muestra impar A'2i+5 es: A'2i+5 = α.A2i+6+β.A2i+4+γ.A2i+2+δ.A2i o A'2i+6 = (1/α).(A'2i+5-β.A2i+4-γ.A2i+2-δ.A2i) Esta fórmula puede usarse para el algoritmo básico cuando (α, β, γ, δ) se definen como (0,5, 0,5, 0, 0), pero con el codificador de acuerdo con las realizaciones de la presente invención, (α, β, γ, δ) es el resultado de una optimización, que se explicará más adelante. Además, puesto que el decodificador necesitará (1/α), se definen restricciones sobre los conjuntos de parámetros, para evitar valores de α demasiado cercanos a 0, para eliminar divisiones por cero. Además, debido a que se usan cálculos enteros en el esquema de codificación y decodificación final, deben establecerse restricciones todavía más altas sobre los valores a para evitar cálculos que introducen errores de redondeo demasiado altos.

La fórmula para la aproximación de una muestra par B'2i+6 es: B'2i+6 = α.B2i+7+β.B2i+5+γ.B2i+3+δ.B2i+1 o B'2i+7 = (1/α).(B'2i+6-β.B2i+5-γ.B2i+3-δ.B2i+1) Un primer flujo A PCM, con muestras A0, A1, A2, A3, A4, A5, A6, A7,..., se usa para generar un nuevo flujo A'. El nuevo flujo A' es una aproximación del primer flujo A, por lo que las muestras pares se copian desde el primer flujo A PCM, y las muestras impares son aproximadas. Las muestras de A' son: A'0, A'1, A'2, A'3, A'4, A'5, A'6, A'7,... con A'2i = A2i y A'2i+5 se define por la fórmula anterior para todo i ≥ 0. A'i = Ai para i < 5. Se usa un segundo flujo B PCM, con muestras B0, B1, B2, B3, B4, B5, B6, B7,… para generar un nuevo flujo B'. El nuevo flujo B' es una aproximación del segundo flujo B, por lo que las muestras impares se copian desde el segundo flujo B PCM, y las muestras impares son aproximadas. Las muestras de B' son: B'0, B'1, B'2, B'3, B'4, B'5, B'6, B'7,… con B'2i+1 = B2i+1 y B'2i+6 definidos por una fórmula equivalente para todo i ≥ 0. B'i = Bi para i < 6. b. Operaciones de desmezclado Al mezclar estos flujos A' y B' recién generados, se obtiene: A'0+B'0, A'1+B'1, A'2+B'2, A'3+B'3 A'4+B'4, A'5+B'5 A'6+B'6 A'7+B'7, A'8+B'8 A'9+B'9,... Usando una copia de las primeras muestras pares A0, A2, A4 del primer flujo A de audio, y una copia de las primeras muestras impares B1, B3, B5 del segundo flujo B de audio, y los conjuntos de parámetros del filtro (αA, βA, γA, δA) y (αB, βB, γB, δB) puede definirse el siguiente esquema de desmezclado: 1. con (A'0+B'0) y (A'0) conocidos, puede obtenerse B'0 2. con (A'1+B'1) y (B'1) conocidos, puede obtenerse A'1 3. con (A'2+B'2) y (A'2) conocidos, puede obtenerse B'2 4. con (A'3+B'3) y (B'3) conocidos, puede obtenerse A'3 5. con (A'4+B'4) y (A'4) conocidos, puede obtenerse B'4 6. con (A's+B's) y (B'5) conocidos, puede obtenerse A'5 7. con A'0, A'2, A'4, A'5 conocidos, puede calcularse A'6 usando A'6 = (1/αA).(A'5 - βA.A'4 - γA.A'2 - δA.A'0) 8. con (A'6+B'6) y (A'6) conocidos, puede obtenerse B'6 9. con B'1, B'3, B'5, B'6 conocidos, puede calcularse B'7 usando B'7 = (1/αB).(B'6 - βB.B'5 - γB.B'3 - δB.B'1) 10. con (A'7+B'7) y (B'7) conocidos, puede obtenerse A'7 11. con A'2, A'4, A'6, A'7 conocidos, puede calcularse A'8 usando A'8 = (1/αA).(A'7 - βA.A'6 - γA.A'4 - δA.A'2) 12. con (A'8+B'8) y (A'8) conocidos, puede obtenerse B'8 13. con B'3, B'5, B'7, B'8 conocidos, puede calcularse B'9 usando B'9 = (1/αB).(B'8 - βB.B'7 - γB.B'5 - δB.B'3) 14. con (A'9+B'9) y (B'9) conocidos, puede obtenerse A'9 15. etc.

En esta etapa, se puede concluir que junto con los conjuntos de parámetros (αA, βA, γA, δA) y (αB, βB, γB, δB), se necesitarán también una copia de 3 muestras de la primera serie series (A'0, A'2, A'4) y 3 muestras de la segunda serie (B'1, B'3, B'5). c. Secciones de tiempo y mapeo de parámetros enteros Una de las restricciones del principio básico era que no se recupera de un error. Una forma de limitar los efectos de un error de lectura (leyendo las muestras digitalmente desde el CD) es limitar el uso de estos parámetros (αA, βA, γA, δA) y (αB, βB, γB, δB) y la series de muestras iniciales (A'0, A'2, A'4) y (B'1, B'3, B'5) a un número restringido de muestras PCM. Se ha descubierto que 40 ms de muestras de audio (3 x 588 muestras) es una longitud aceptable para una serie de muestras. Tal grupo de muestras se denominará una "sección". Esto permite reducir el efecto de un error a una única sección, (máx 40 ms), así como optimizar un grupo de parámetros de filtro para una cantidad menor de muestras, proporcionando un mejor comportamiento, por ejemplo, en términos de errores de interpolación o características de frecuencia. Para cada una de estas secciones, se necesitarán las primeras 3 muestras, así como los parámetros del filtro. Como se ha mencionado anteriormente, los parámetros del filtro (α, β, γ, δ) se optimizan y dan como resultado números en coma flotante. Estos números se representan por números enteros, ya que el algoritmo de codificación y decodificación se implementa con operaciones de enteros, para hacerlo portátil e independiente de las implementaciones en coma flotante. Se usa la siguiente conversión para representar estos parámetros usando un número de 16 bits, con signo, y un valor de 2 bits (número de la base). Por ejemplo, α se convierte en un valor entero A de (-32.768) a 32.767 mientras que Ab recibe los valores 0, 1, 2 o 3. El procedimiento se explica a continuación: En primer lugar, se define el valor de la base Ab: Cuando α > 0: Ab = (unsigned char)(fabs(α+ 0,999999999999999999999999)) - 1; si no, si α < 0: Ab = (unsigned char)(fabs(α- 0,999999999999999999999999)) - 1; si no: Ab = 0; nota: fabs(x) devuelve el valor absoluto del valor x en coma flotante.

A continuación cuando Ab > 7: condición de rebasamiento; la optimización de parámetros no debería recibir tales valores cuando Ab = 7, 6, 5 o 4, Ab se restablece a Ab = 3 cuando Ab = 3 o 2, Ab se restablece a Ab = 2 cuando Ab = 1, Ab no cambia. cuando Ab = 0, Ab no cambia. O, en resumen Ab = 0 cuando 1 ≥ α ≥ (-1), Ab = 1 cuando 2 ≥ α > 1 o (-1) > α ≥ (-2), Ab = 2 cuando 4 ≥ α > 2 o (-2) > α ≥ (-4), Ab = 3 cuando 8 > α > 4 o (-4) > α > (-8).

Finalmente, α se convierte en un número entero de 16 bits, con signo, usando la siguiente fórmula: A = (corto) (α x (32768/(1 << Ab))).

De esta manera, α se convierte en un par (A, Ab), β se convierte en un par (B, Bb), γ se convierte en un par (C, Cb) y δ se convierte en un par (D, Db). Los números de base Ab, Bb, Cb, Db se fusionan en una BASE de 16 bits = Ab | (Bb<<4) | (Cb<<8) | (Db<<12). La conclusión en esta etapa es la siguiente: Para cada sección de 40 ms, a partir de un único flujo PCM, mono, de 16 bits, de 44,1 KHz, o 3 x 588 muestras (mono) de 16 bits, el codificador de acuerdo con las realizaciones de la presente invención define un conjunto de parámetros de filtro (α, β, γ, δ) y convierte estos parámetros en cuatro números (A, B, C, D) de 16 bit, con signo, y un número BASE de 16 bits. Además, para la operación de desmezclado, se requieren 3 muestras de 16 bits; serie (A'0, A'2, A'4). Esto suma un total de 8 valores (4 + 1 + 3) de 16 bits, necesarios para las operaciones de desmezclado. Para el segundo flujo PCM de 16 bits, mono, de 44,1 KHz, se genera un conjunto similar de 8 valores de 16 bits por el codificador de acuerdo con las realizaciones de la presente invención. En total, el codificador de acuerdo con las realizaciones de la presente invención es capaz de mezclar una pluralidad, por ejemplo 4, flujos PCM, mono, de 16 bits en un flujo PCM, estéreo, de 16 bits. 1 segundo de música se divide en secciones de 40 ms (o 25 secciones por segundo). Cada sección requiere valores/parámetros de 4 x 8 x 16 bits. En esta etapa, el codificador requiere 25x 4x 8x 2x bytes de datos adicionales por segundo, o 1600 bytes por segundo. d. Esquemas de mezclado avanzados y otros parámetros de acuerdo con las realizaciones de la presente invención Hasta ahora, se han proporcionado ejemplos de mezclado de dos flujos PCM, mono, de 16 bits, en otro flujo PCM, mono, de 16 bits, pero el codificador de acuerdo con las realizaciones de la presente invención soporta diferentes esquemas de mezclado y desmezclado o "Modos de mezclado". El Modo de mezclado seleccionado es parte de los parámetros CD+G(w), usando un parámetro de Modo de mezclado de 4 bits.

Los siguientes modos de mezclado se proporcionan como ejemplos de referencia y pueden usarse con un codificador de acuerdo con la presente invención; Modo de mezclado 0: Solista en estéreo (Instrumento/Voz), mezclado con fondo en estéreo.

- Instrumento o voz solista en estéreo, los canales izquierdo y derecho son (Solo-L, Solo-R) - Fondo en estéreo, los canales izquierdo y derecho (Bckg-L, Bckg-R) Se mezclan en: Canales mezclados en estéreo (Solo-L + Bckg-L, Solo-R + Bckg-R).

No se requieren operaciones adicionales de mezclado o desmezclado. Modo de mezclado 1: Voz e instrumento mono mezclados con fondo en estéreo. - El canal de voz mono es (Voc) - El canal de instrumento mono es (Instr) - El fondo en estéreo, los canales izquierdo y derecho son (Bckg-L, Bckg-R) Se mezclan en: Canales estéreos mezclados (Bckg-L + a.Voc + b.Instr, Bckg-R + c.Voc + d.Instr) La panoramización de instrumento y voz depende de los valores para (a, b, c, d), donde a, b, c y d son tales que no hay ningún número t que cumpla a = t.c y b = t.d. Los valores típicos son: (a, b, c, d) = (1, 1, 1, 2): panoramiza la voz en el centro, el instrumento más a la derecha.

(a, b, c, d) = (1, 2, 1, 1): panoramiza la voz en el centro, el instrumento más a la izquierda. (a, b, c, d) = (2, 1, 1, 2): panoramiza la voz más a la izquierda, el instrumento más a la derecha. (a, b, c, d) = (1, 2, 2, 1): panoramiza la voz más a la derecha, el instrumento más a la izquierda. a, b, c o d pueden ser > 2, pero estos ejemplos incluirán la mayoría de los casos. Este esquema de mezclado requiere algunas operaciones adicionales, a fin de preparar los flujos originales para convertirse desde multicanal. Por ello, se generan en primer lugar 2 nuevos flujos mono; - LeftVI = a.Voc + b.lnstr - RightVI = c.Voc + d.Instr Estos nuevos flujos se mezclaron con los canales de fondo (Bckg-L, Bckg-R) en (Bckg-L + a.Voc + b.lnstr, Bckg-R + c.Voc + d.Instr). El desmezclado de estos flujos suministrará LeftVI y RightVI, que pueden usarse para reconstruir las pistas vocales e instrumentales, usando esta fórmula: - Instr = (a/(d.a-c.b)).(RightVI - (c/a).LeftVI) - Voc = (b/(c.b-a.d)).(RightVI - (d/b).LeftVI) Modo de mezclado 2: 4 canales mono independientes mezclados con respecto a un canal estéreo convertido desde multicanal - El canal mono 1 es (C1) - El canal mono 2 es (C2) - El canal mono 3 es (C3) - El canal mono 4 es (C4) Se mezclan en: Canales en estéreo (a.C1 + b.C2 + a'.C3 + b'.C4, c.C1 + d.C2 + c'.C3 + d'.C4). Este esquema de mezclado requiere algunas operaciones adicionales con el fin de preparar los flujos originales para convertirse a estéreo. Por ello, en primer lugar, se generan 4 nuevos flujos mono; - Left1 = a.C1 + b.C2 - Right1 = c.C1 + d.C2 - Left2 = a'.C3 + b'.C4 - Right2 = c'.C3 + d'.C4 Estos canales se mezclan en (Left1 + Left2, Right1 + Right2). El par (a, c) define la panoramización del primer canal C1 al estéreo convertido desde multicanal. (b, d), (a'c') y (b'd'), respectivamente, definen la panoramización para C2, C3 y C4. Una vez más, se aplica la restricción de que no hay números t y t' que cumplan a = t.c y b = t.d y a' = t'.c' y b'= t'.d'. Los valores típicos son: (a, c) = (3,1): panoramiza el Canal 1 a la izquierda (b, d) = (1, 3): panoramiza el Canal 2 a la derecha (a', c') = (2,1): panoramiza el Canal 3 al centro-izquierda (a', c') = (1, 2): panoramiza el Canal 4 al centro-derecha A partir de la mezcla en estéreo (Left1 + Left2, Right1 + Right2), Left1 y Left2, Right1 y Right2 pueden desmezclarse. A partir de estos canales desmezclados, C1, C2, C3 y C4 pueden reconstruirse usando: - C1 = (b/(c.b-a.d)).(Right1 - (d/b).Left1) - C2 = (a/(d.a-c.b)).(Right1 - (c/a).Left1) - C3 = (b'/(c'.b'-a'.d')).(Right2 - (d'/b').Left2) - C4 = (a'/(d'.a'-c'.b')).(Right2 - (c'/a').Left2) Modo de mezclado 3: Audio cuadrafónico: Canales estéreo frontal y estéreo posterior

- Los canales estéreos frontales izquierdo y derecho son (Fr-L, Fr-R) - Los canales estéreos posteriores izquierdo y derecho son (Rr-L, Rr-R) Se mezclan en: (Fr-L + a.Rr-L, Fr-R + a.Rr-R) Típicamente, los canales posteriores se atenúan antes del mezclado en una grabación en estéreo: (Fr-L + a.Rr-L, Fr- R + a.Rr-R). El parámetro "a" indica una atenuación de 0 dB a -255 dB. Modos de mezclado 4-15: Otros modos de mezclado son libres de definirse para aplicaciones dedicadas, y los codificadores/decodificadores estándar pueden ser compatibles o no con estos modos extra. Debido a que el codificador de acuerdo con las realizaciones de la presente invención es capaz de mezclar y desmezclar diferentes esquemas de panoramización, el decodificador requiere parámetros adicionales de acuerdo con las realizaciones de la presente invención y se generan por el codificador para seleccionar el esquema de desmezclado correcto. Las opciones adicionales podrían consistir en incluir información de panoramización envolvente dinámica usada por el decodificador para posicionar, de manera dinámica, los canales independientes dentro del espacio auditivo 3D. Por ejemplo, usando 1 byte para la panoramización izquierda/derecha dinámica, y otro byte para la panoramización frontal/posterior dinámica para un canal específico. Otra opción consiste en almacenar los parámetros adicionales del filtro, por ejemplo, para las características del filtro que pueden ser útiles cuando se aplican operaciones de cambio de tono o expansión temporal a los canales de audio desmezclados. Las técnicas de procesamiento de audio, tales como el cambio de tono, son útiles para el karaoke, y la expansión temporal es útil cuando se usa CD+G(w) como base para la formación musical para cantar y tocar en grupo. Los efectos de procesamiento crean, de alguna manera, distorsión, y pueden ser útiles filtros adicionales para reducir los artefactos de estos efectos. El uso de dichos conjuntos de parámetros adicionales sólo se incluye aquí como opciones extensionales. Para poder vincular los grupos de parámetros al número de sección de audio correcto, el número de sección puede incluirse como parte de los parámetros. Estos números de sección están relacionados con el inicio de esa pista específica. (La primera sección de una pista en estéreo es el número 0). Para estos números de sección, se asignan 18 bits (el máximo es 131071). (80 min = 80 x 60 x 25 = 120000 secciones). A continuación, el formato CD+G(w) puede incorporar también datos MIDI y letras. Si estos datos están presentes, se indica usando un único bit para MIDI, y otro bit para las letras. En resumen, para cada sección de audio, se usan 8 bytes adicionales para especificar estos parámetros: byte1: ((Número de Sección y 0x000FF)) byte2: ((Número de Sección y 0x0FF00)>>8) byte3: ((Número de Sección y 0x30000)>>16)|(Modo de Mezclado<<2)|(MIDI<<6) |(Letras<<7) Los siguientes bytes dependen del modo de mezclado: Modo de mezclado 0: byte4 - byte8: podrían usarse para almacenar los parámetros de expansión temporal o filtros de cambio de tono Modo de mezclado 1: byte4: (a<<6 | b<<4 | c<<2 | d) (Esquema de mezclado a.V + b.I y c.V + d.I) byte5 - byte8: usados para los filtros de desplazamiento temporal/expansión temporal o panoramización dinámica de audio de 1 o 2 canales, 1 byte para Izquierda/Derecha: (0x80: centro, 0xFF: derecha, 0x00: izquierda), otro byte para Frontal/Posterior: (0x80: centro, 0xFF: frontal, 0x00: posterior) Modo de mezclado 2: byte4: (a<<6 | b<< | c<<2 | d) (Esquema de mezclado a.C1 + b.C2 y c.C1 + d.C2) byte5: (a'<<6 | b'<<4 | c'<<2 | d') (Esquema de mezclado a'.C3 + b'.C4 y c'.C3 + d'.C4) byte6 - byte8: usados para los filtros desplazamiento temporal/expansión temporal o panoramización dinámica de 1 o 2 canales, 1 byte para Izquierda/Derecha: (0x80: centro, 0xFF: derecha, 0x00: izquierda), otro byte para Frontal/Posterior: (0x80: centro, 0xFF: frontal, 0x00: posterior) Modo de Mezclado 3: byte4: una atenuación de sonido envolvente de canal de audio (0 dB a -255 dB) byte5 - byte8: disponible Modo de Mezclado 4-15: los modos se van a definir, dependiendo de la aplicación byte4- byte8: a definir Estos 8 bytes adicionales por sección, 25 secciones por segundo, suman otros 200 bytes por segundo, de manera que el total de datos de parámetros de acuerdo con las realizaciones de la presente invención, incluyendo los parámetros de filtrado de audio, suman 1600 + 200 = 1800 bytes por segundo. e. Compresores El mezclado de los flujos PCM puede introducir rebasamientos. Un número PCM, de 16 bits, con signo, está limitado a valores entre (-32768) a (32767). Con el fin de explicar los esquemas de compresión, los flujos PCM usados en el siguiente ejemplo de mezclado se definen como se indica a continuación: Un flujo PCM (voz), mono, de 16 bits, y un flujo PCM (instrumento), mono, de 16 bits se mezclan con un flujo PCM (audio de fondo-L/fondo-R), de 16 bits.

La primera pasada del codificador de acuerdo con las realizaciones de la presente invención es para definir los parámetros del filtro para Voz, Instrumento, Fondo-L y Fondo-R. Los flujos se convierten en primer lugar en datos en coma flotante, y se mapean a una escala de valores entre (-1) y (1). Se usa la aproximación de muestra "impar" para los flujos de voz e instrumento, y la aproximación de muestra "par" para el Fondo-L y Fondo-R. Estos flujos aproximados recién generados son Voc', Instr', BckgL' y BckgR'. Debido a la naturaleza de la aproximación, pueden haberse introducido rebasamientos durante la generación de estos nuevos flujos, obteniendo valores >1 o <(-1). Por lo tanto, los nuevos datos se escalan, típicamente mediante la multiplicación por (1/2) para volver a un intervalo de valores entre (-1) y (1) y, finalmente, los flujos se convierten en flujos PCM, de 24 bits, con signo, con valores entre (- 8388608) y (8388607) para añadir resolución.

A continuación, las marcas de tiempo de estas muestras que generan rebasamientos se identifican antes de mezclarlas en la conversión final en estéreo desde multicanal. Para cada uno de estos flujos, de manera individual, se definen los factores de compresión asociados con las marcas de tiempo requeridas para reducir los rebasamientos. Cada muestra que no genera un rebasamiento recibirá un factor de escala de 1, pero las muestras que generan rebasamientos reciben un factor de escala <1. Para cada flujo, se define un valor umbral máximo. Cada muestra en la que, por ejemplo, |Voc'i| > MaxThreshold, recibe un factor de escala definido por (MaxThreshold/|Voc'i|). Los flujos comprimidos se definen como Voc'', Instr'', BckgL'' y BckgR''.

La conversión final desde multicanal al flujo en estéreo es otra fuente de generación de rebasamientos, que requiere una compresión adicional. Por ejemplo, si se toma el siguiente esquema de mezclado: (BckgL'' + Voc'' + 2xlnstr'') y (BckgR'' + Voc'' + Instr''). Cuando |(BckgL"i + Voc"i + 2xInstr"i)| > MaxThld o |(BckgR"i + Voc"i + Instr"i)| > MaxThld, se define un factor de escala adicional. En el caso en el que ambas muestras mezcladas (izquierda y derecha) requieren compresión, se selecciona la compresión más alta y se aplica en ambas. En el caso en el que sólo una muestra mezclada requiere compresión, esa compresión se aplica aún a ambas muestras mezcladas (tanto muestra izquierda como derecha). Como resultado de la compresión, se obtienen nuevos flujos, Voc*, Instr*, BckgR* y BckgL*, donde, por ejemplo, Voc*i = Voci x Vcompri y Vcompr es el resultado de multiplicar todos los factores de escala aplicados a esa muestra particular de ese flujo. La secuencia de todos estos factores de compresión para generar, por ejemplo, Voc*, como tal, constituyen un nuevo flujo Vcompr, en el que la mayoría de los factores de escala serán = 1 y aquellos que requieren compresión tendrán un factor de escala <1. En esta etapa, se obtienen 4 flujos de datos de factores de compresión, Vcompr, Icompr, BRcompr y BLcompr, que definen los factores de escala requeridos para cada muestra en cada flujo de audio PCM. Estos son en realidad una compresión de "impulsos", ya que funcionarán sobre las muestras específicas que introducen rebasamientos en el mezclado. Al aplicar dicha compresión sólo a muestras "aisladas" se introducirá una distorsión sustancial o artefactos en la grabación de audio, ya que una compresión de "impulsos" de la muestra no sería diferente de una discontinuidad del flujo de audio. Por lo tanto, debe aplicarse un filtro de efecto temporal, que extiende el efecto de compresión a lo largo de un periodo de tiempo típico de 100 ms antes y después de estas marcas de tiempo específicas de estas muestras.

La figura 8 proporciona una visión general de los factores de compresión, donde el efecto de compresión se aplica sobre varias muestras consecutivas. En la sección superior de la figura 8, la línea con rombos negros (serie 1) representa las muestras del flujo original.

La línea con cuadrados grises (serie 2) es el resultado de una (mala) aproximación. Si se define un valor umbral de 60, hay presentes 2 muestras en las que se necesita la compresión, en la posición 4 de las muestras originales y en la posición 10, debido a la aproximación. En la sección inferior de la figura 8, la línea con rombos negros (serie 1) representa los factores de compresión de "impulsos", mientras que la línea gris claro (serie 2) define a una mejor compresión que se usará de acuerdo con una realización de la presente invención. Se aplica una compresión gradual sobre un número de muestras antes y después de los casos de compresión de "impulsos", por ejemplo, sobre las dos muestras antes y sobre dos muestras después de la muestra en la que se necesita compresión.

f. Optimización de Parámetros. Como se ha explicado en la sección anterior en el presente documento acerca de los parámetros del filtro usados por el codificador/decodificador de acuerdo con las realizaciones de la presente invención, los parámetros del filtro (α, β, γ, δ) tienen que optimizarse. Los parámetros se usan para la aproximación de una sección de 1 flujo PCM mono, de 16 bits, de 44,1 kHz. Dicha una sección es equivalente a 3 x 588 muestras o 40 ms. La optimización de los parámetros requiere criterios de optimización. El apartado siguiente proporciona una visión general de los diferentes criterios útiles para la optimización. A modo de referencia, la sección original de ese flujo PCM mono se define como A, con muestras Ai y 0 ≤ i < 1764, y los parámetros del filtro (α, β, γ, δ). El resultado de la aproximación es un nuevo flujo, A'i (0 ≤ i < 1764), con A'2i = A2i, A'2i+5 = α.A2i+6 + β.A2i+4 + γ.A2i+2 + δ.A2i y A'i = Ai para i< 5. Como se ha explicado anteriormente, una optimización con restricciones se define con un parámetro α > (0,1), ya que no se permite que ese parámetro esté muy cerca de 0. Los criterios de optimización pueden ser definidos como: A. Error mínimo ponderado de interpolación lineal: siendo Wi el factor de ponderación, definido, por ejemplo, en función de |Ai-A'i| o, por ejemplo, de |Ai|. Los factores de ponderación pueden usarse para aumentar el efecto de los errores en relación al error de aproximación o al valor absoluto de las muestras.

B. Espectro de frecuencia similar. Se define FA = DFT(A) y FA' = DFT(A') como la transformada discreta de Fourier de las secciones de audio A con Ai (0 ≤ i < 1764) y A' con A'i (0 ≤ i < 1764). FAi y FA'i son números complejos. El espectro de potencia se define por PFAi = FAi*cj(FAi) y PFAi = FAi*cj(FAi) siendo cj() el complejo conjugado. PFAi (0 ≤ i < 882) es el espectro de potencia de la sección A para una frecuencia entre 0 y 22,05 kHz. PFA'i (0 ≤ i < 882) es el espectro de potencia de la sección A'. Al optimizar los parámetros del filtro (α, β, γ, δ), los criterios pueden definirse en base al espectro de potencia del flujo aproximado y el flujo original. Debido a que el nuevo flujo se crea copiando cada muestra par en el nuevo flujo, se puede esperar que el espectro de potencia para frecuencias en el intervalo de 0- 11,025 kHz será similar. Sin embargo, el espectro de potencia para frecuencias en el intervalo de 11,025 kHz hasta 22,050 kHz puede ser sustancialmente diferente. Por tanto, los criterios de optimización podrían definirse como: siendo Wi factores de ponderación, por ejemplo, para aumentar el efecto de los errores de potencia a frecuencia elevada. En el ejemplo, se observan los errores de potencia para el intervalo de frecuencias de 10,85 kHz (434) a 21,70 kHz (868). C. Pueden aplicarse criterios de optimización más complejos, como aquellos que tienen en cuenta las características perceptuales de audio, o una combinación de diferentes criterios. En cualquier caso, se obtiene un conjunto de parámetros (α, β, γ, δ) que se van a usar por el decodificador y el codificador. Los esquemas del codificador y del descodificador son independientes de los criterios de optimización seleccionados para los parámetros del filtro.

g. Implementación con enteros. El proceso de codificación de acuerdo con las realizaciones de la presente invención requiere varias etapas. Se parte de los flujos A y B originales y, a continuación, los parámetros del filtro se optimizan para las secciones de 40 ms. Usando estos filtros, se obtienen A y B' como flujos aproximados. A continuación, estos flujos A' y B' aproximados se mezclan de acuerdo con un esquema de mezclado seleccionado. Se definen los factores de compresión (representados por los flujos de compresión) y éstos se aplican a los flujos A y B originales, antes de la mezcla, para obtener A" y B".

Como se ha explicado en los párrafos anteriores, el decodificador y el codificador se implementarán usando operaciones con números enteros, para hacer que la codificación y la decodificación sean independientes de la implementación aritmética en coma flotante. Debido a este enfoque, se introducen errores de redondeo. Esto es especialmente cierto para fórmulas como: A*2i+5 = α.A"2i+6+β.A"2i+4+γ.A"2i+2+δ.A"2i o A"2i+6 = (1/α).(A*2i+5 - β.A"2i+4 - γ.A"2i+2-δ.A"2i).

Como se ha indicado anteriormente, los parámetros del filtro (α, β, γ, δ) se representan como números enteros (A, B, C, D) de 16 bits, con números de base (Ab, Bb, Cb, Db). Usando esta representación, la fórmula de codificación: se convierte en una operación con enteros de 32 bits: y se convierte de nuevo a un valor entero de 16 bits: Si (A*tmp > 0) entonces A* = (A*tmp+16384)/32768; Si no A* = (A*tmp-16384)/32768; Esta implementación con enteros de esta aproximación, como tal, puede ser otra fuente generadora de condiciones de rebasamiento, que ha de comprobarse de nuevo: Si (|A*|> MaxThreshold) entonces "¡Informar de condición de rebasamiento!!" Si no A*2i+5 = A*tmp En el caso de que exista una nueva condición de rebasamiento, los flujos de compresión iniciales deben redefinirse, usando valores MaxThreshold más pequeños. Después de analizar los efectos de la implementación con enteros de la fórmula de codificación, los efectos de la implementación del decodificador con enteros deben analizarse también. La fórmula de decodificación usada es: convertida en una fórmula con números enteros de 32 bits: De nuevo, esta implementación con números enteros de esta aproximación puede ser otra fuente generadora de condiciones de rebasamiento, que ha de revisarse otra vez: Si (|A"|> MaxThreshold) entonces "¡Informar de condición de rebasamiento!!" Además, debido a las conversiones en enteros y al error de redondeo asociado, A" no es necesariamente igual a A"2i+6. Para garantizar que el decodificador funcionará correctamente, el valor A"2i+6. original se "actualiza" o "reemplaza" con el valor aproximado de A". Este valor actualizado de A"2i+6. se usará, a continuación, como uno de los valores usados en la siguiente aproximación de A"2i+7. Una consecuencia de estos errores de redondeo es que no sólo se aproximan las muestras impares del flujo, sino también los valores pares son "actualizados" con los valores para los cuales la fórmula de decodificación proporcionará el "valor" (actualizado) correcto. Pueden necesitarse actualizaciones sucesivas para las muestras pares, lo que puede conducir a una divergencia. Por lo tanto, se requiere indicar el nivel o las correcciones de los errores de redondeo. Como se ha mencionado anteriormente, se hace uso de una optimización con restricciones para los parámetros (α, β, γ, δ) para evitar grandes errores de redondeo. Para el parámetro α, se establece, típicamente, un límite inferior de 0,1, que representa un buen equilibrio entre las características de optimización del filtro, por un lado, y la minimización de los errores de redondeo, por otro. Sin embargo, si el efecto de los errores de redondeo es aún demasiado alto, la optimización debe repetirse con mayores restricciones para los parámetros. En un aspecto adicional, los datos MIDI y las letras de la presente invención se incluyen en el formato del codificador.

Como se ha explicado en las secciones anteriores, el formato CD+G(w) usado para las realizaciones de la presente invención incorpora también datos MIDI, así como letras. Las letras se incluyen como parte del flujo de datos MIDI. MIDI (Musical Instruments Digital Interface) define un protocolo de serie α-síncrono, usado por los instrumentos musicales para transmitir datos. La tasa de bits se define como de 31250 bits/s. Un byte se transfiere usando un bit de inicio y parada, y la máxima tasa de bytes real es: 3125 bytes por segundo. CD+G(w) usa, junto con los datos de audio PCM, canales de datos adicionales (canales de sub-código R-W desde el CD) para almacenar parámetros adicionales. Un sector de datos de audio PCM (es decir, 1/75ésima parte de un segundo) tiene 72 bytes de sub-código R-W adicionales. Debido a una capa de corrección de errores, y algunas estructuras lógicas de datos de cabecera, el modo CD+G USER permite almacenar sólo 48 bytes adicionales, o 48 x 75 = 3600 bytes por segundo. Se usan 1800 bytes por segundo para los parámetros del filtro de audio, como se ha explicado en las secciones anteriores, que toman 24 bytes por sector de los sub-códigos CD. Esto deja sólo 1800 bytes libres para estos datos MIDI u otros 24 bytes por sección. Por lo tanto, se concluye que este ancho de banda (75 x 24 = 1800 bytes por segundo) no permite almacenar datos MIDI en un "formato de emisión en tiempo real". Por lo tanto, los datos MIDI usados en el formato CD+G(w) comprenden datos discretos con la información de marca de tiempo incluida. Los datos discretos son similares al evento o eventos de datos MIDI y la marca de tiempo es el tiempo delta, relativo al inicio de esa sección de datos de sub-código particular. Un mensaje MIDI típico comprende 2 o 3 bytes. Por ejemplo: Mensaje Nota ON: Byte 1: Nota On MIDI (0x90) en el Canal 2 (|0x02) Byte 2: Número de nota MIDI 64 (0x40) Byte 3: Velocidad nota On MIDI 32 (0x20) Mensaje Nota OFF: Byte 1: Nota Off MIDI (0x80) en el Canal 2 (|0x02) Byte 2: Número nota MIDI 64 (0x40) Byte 3: Velocidad nota Off MIDI 0 (0x0) Mensaje Nota OFF: (estado de ejecución): Byte 1: Número de nota MIDI 64 (0x40) Byte 2: Velocidad nota Off MIDI 0 (0x0) Un mensaje MIDI típico requiere 3 bytes, o 30 bits, de manera que la precisión de temporización no es mejor que 1 ms. En CD+G(w) se usa 1 byte para definir la temporización delta relativa al inicio de la sección sub-código de CD que contiene los mensajes MIDI. Una sección es 1/75ésima parte de un segundo o 13,3 ms. Este periodo de tiempo se divide en 49 marcas de tiempo, con una precisión del intervalo de marca de tiempo de (12/44100) o aprox. 272 us. Como tal, la resolución temporal del CD+G(w) es 4 veces mejor en comparación con MIDI. Debido a que se usan valores de 8 bits como marca de tiempo, pueden definirse retrasos para los eventos MIDI de aproximadamente 70 ms relativos al inicio de la sección que contiene el mensaje MIDI. Esto permite agrupar, de manera más eficaz, los mensajes MIDI dentro de un intervalo de tiempo más corto. MIDI restringe la definición de velocidad a valores de 7 bits, pero CD+G(w) añade 1 bit adicional para aumentar la resolución de la velocidad. Los mensajes MIDI típicos son de 3 bytes o de 2 bytes. Por cada sección de Sub-código CD hay 24 bytes disponibles. Un mensaje MIDI de 3 bytes requiere 4 bytes de datos de sub-código de CD (marca de tiempo incluida), mientras que un mensaje MIDI de 2 bytes requiere 3 bytes. O, en 24 bytes pueden definirse 6 x "mensaje MIDI de 3 bytes" [6 x (3+1)] u 8 x "mensaje MIDI de 2 bytes" [8 x (2+1)]. Si se toma la media, aproximadamente 17 bytes de datos MIDI eficaces están disponibles dentro de 1 sector del sub-código CD+G(w), o 17 x 75 = 1275 bytes por segundo. Se puede encontrar una comparación de los datos MIDI estándar, y los datos MIDI incorporados en el formato CD+G(w), de acuerdo con una realización de la presente invención, en la figura 9.

Se usará MIDI en el formato CD+G(w), sólo como datos para información típica de instrumento solista y/o letras, y no para remplazar una actuación de una banda o una orquesta completa. Debido a este uso restringido, el ancho de banda limitado de 1275 bytes por segundo, no se considera un problema. Además, se gana en precisión de temporización y de velocidad, que es lo que se necesita, específicamente, para las aplicaciones de reproducción de instrumentos (reproducción automatizada en grupo).

Finalmente, una suma de control CRC (Código de redundancia cíclica) de 16 bits, es decir, 16 bits añadidos al final de un bloque de datos para fines de comprobación de errores, con una cabecera de 8 bits, podría añadirse por cada 3 sectores (40 ms) como parte de los datos MIDI de los datos de subcódigo RW, abarcando tanto el PCM como el subcódigo RW, como una referencia usada por el decodificador para verificar la integridad tanto de PCM como de los datos de subcódigo. Si se detecta un error de CRC, el decodificador debería decidir no decodificar el audio PCM, reproducir como estéreo regular y gestionar los eventos de datos MIDI de una manera apropiada. A partir de lo anterior, se apreciará que la presente invención se refiere a un codificador para mezclar una pluralidad de canales independientes de audio mono en una grabación estéreo y generar un conjunto restringido de parámetros adicionales usados para la masterización de una pista de audio de un dispositivo de almacenamiento, comprendiendo cada canal de audio un primer número de muestras por unidad de tiempo, estando almacenada la pluralidad de canales independientes de audio mono en el dispositivo de almacenamiento con menos que el número de muestras por unidad de tiempo de cada canal de audio con la adición de los valores calculados, calculados usando un filtro de interpolación con los parámetros del filtro, para las muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, estando almacenados los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales. La presente invención se refiere también a un decodificador para decodificar una pluralidad de canales de audio mono grabados en una grabación en estéreo usando un conjunto limitado de parámetros adicionales para la masterización de una pista de audio de un dispositivo de almacenamiento, estando cada canal de audio reconstruido a partir de un primer número de muestras por unidad de tiempo, almacenándose la pluralidad de canales de audio mono en el dispositivo de almacenamiento con menos que el número de muestras por unidad de tiempo de cada canal de audio con la adición de los valores calculados, calculados usando un filtro de interpolación con los parámetros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, siendo almacenados los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales. La presente invención se refiere también a un dispositivo de almacenamiento que ha almacenado en el mismo una pluralidad de canales de audio mono grabados en una grabación en estéreo usando un conjunto restringido de parámetros adicionales para la masterización de una pista de audio del dispositivo de almacenamiento, en el que cada canal de audio puede reconstruirse a partir de un primer número de muestras por unidad de tiempo, estando almacenada la pluralidad de canales de audio mono en el dispositivo de almacenamiento con menos que el número de muestras por unidad de tiempo de cada canal de audio con la adición de los valores calculados, calculados usando un filtro de interpolación con los parámetros del filtro, para las muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, siendo almacenados los parámetros del filtro en el dispositivo de almacenamiento en los parámetros adicionales. En un aspecto, el codificador/descodificador de acuerdo con la presente invención puede usarse para codificar y mezclar varios canales independientes, por ejemplo, 4 x canales de 44,1 KHz, de 16 bit, mono, en una grabación de audio en estéreo, de 44,1 KHz, de 16 bits, que genera un conjunto de parámetros de datos adicionales. La grabación puede realizarse en cualquier medio de grabación adecuado, tal como un dispositivo de memoria de estado sólido o un disco óptico. Por ejemplo, estos parámetros de datos adicionales se copian a un disco óptico de audio estándar, tal como un CD-DA (Audio Digital) usando, por ejemplo, los canales de sub-código del formato CD+G USER. El decodificador es capaz de regenerar la pluralidad de canales independientes. Se proporcionan diferentes características para su uso en diversas aplicaciones de audio, tales como Sing-Along & Play-Along o Automated Play-Along. Se genera un conjunto de parámetros de datos para cada período de tiempo, por ejemplo, para cada 40 ms de grabación de audio, y pueden incluir - Parámetros del filtro decodificador, para la reconstrucción de los canales de audio originales - Parámetros y modo de mezclado de audio, para indicar la presencia de datos MIDI y letras - Parámetros de atenuación y panoramización de audio - Datos de panoramización dinámica de audio 3D - Parámetros del filtro de audio para una extensión de tiempo y/o cambio de tono mejorados - Datos MIDI para instrumentos musicales electrónicos o automatizados - Datos de letras (integrados en MIDI) - Datos de suma de control CRC de 16 bits, con cabecera de 8 bits, (integrado en MIDI) La presente invención puede usarse con grabaciones de audio y/o vídeo en cualquier forma de dispositivo de almacenamiento, por ejemplo, de estado sólido, disco óptico, tales como CD-DA, CD-ROM, DVD-AUDIO o DVD- ROM, cinta, tales como cinta DAT. También, pueden grabarse más de 4 canales de audio de manera que cada uno puede desmezclarse, según sea necesario, por ejemplo, usando menos muestras de cada pista de audio mono y calculando más puntos intermedios. Sin embargo, esto puede reducir la calidad global del audio y, normalmente, son suficientes 4 pistas.

REIVINDICACIONES

1.

Un codificador para mezclar - una pluralidad de canales de audio mono, incluyendo al menos un primer y segundo canales de audio mono en - una grabación de señal de audio que comprende un flujo de muestras mezcladas para su almacenamiento en un dispositivo de almacenamiento, y - comprendiendo cada canal de audio varias muestras por unidad de tiempo, - teniendo cada canal de audio el mismo número de muestras por unidad de tiempo, y el mismo tiempo de referencia, caracterizado por que el codificador está adaptado para: - derivar muestras impares aproximadas filtrando por interpolación muestras del primer canal de audio, derivar muestras pares aproximadas filtrando por interpolación muestras del segundo canal de audio, - sumar muestras pares del primer canal de audio y muestras pares aproximadas derivadas del segundo canal de audio para obtener muestras mezcladas pares, y para sumar muestras impares del segundo canal de audio y muestras impares aproximadas derivadas del primer canal de audio para obtener muestras mezcladas impares, obteniendo así un flujo de muestras pares e impares mezcladas, estando el codificador adaptado adicionalmente para: - generar un conjunto de parámetros que comprenden parámetros del filtro que comprenden muestras que permiten un cálculo de una muestra de un canal de audio y una muestra adicional de un canal de audio adicional de una muestra mezclada, y almacenar el conjunto de parámetros en el dispositivo de almacenamiento, formando parte una muestra par inicial y una muestra impar sucesiva de los parámetros del filtro 2.

Un codificador como se ha indicado en la reivindicación 1, en el que el dispositivo de almacenamiento se reproduce de manera que un conjunto de canales de audio mono se desmezclen y la grabación de señal se reproduzca como una grabación cuadrafónica verdadera.

3.

Un codificador como se ha indicado en la reivindicación 1 o 2, en el que el codificador está adaptado para derivar las muestras aproximadas por medio de interpolación lineal o usando un filtro FIR. 4.

El codificador de cualquiera de las reivindicaciones anteriores, en el que los canales de audio son canales de audio PCM.

5.

Un codificador para decodificar - una pluralidad de canales de audio mono, incluyendo al menos un primer y segundo canales de audio mono de - una grabación de señal de audio que comprende un flujo de muestras mezcladas, incluyendo muestras pares y muestras impares, almacenadas en un dispositivo de almacenamiento, comprendiendo el almacenamiento, en el que el dispositivo de almacenamiento comprende adicionalmente un conjunto de parámetros, un conjunto de parámetros del filtro de interpolación, donde - cada canal de audio mono comprende varias muestras por unidad de tiempo, - teniendo cada canal de audio mono el mismo número de muestras por unidad de tiempo y el mismo tiempo de referencia, caracterizado por que

el codificador está adaptado para: - restar una muestra par decodificada previamente del primer canal de audio mono de una muestra par mezclada para obtener una muestra par del segundo canal de audio, y restar una muestra impar decodificada previamente del segundo canal de audio mono de una muestra mezclada impar para obtener una muestra impar del primer canal de audio, siendo las muestras decodificadas previamente obtenidas a partir de muestras conocidas almacenadas en el conjunto de parámetros del filtro, - calcular, usando el conjunto de parámetros del filtro de interpolación, una muestra par posterior del primer canal de audio, a partir de la muestra impar obtenida del primer canal de audio y la muestra par decodificada previamente del primer canal de audio.

6.

Un decodificador como se ha indicado en la reivindicación 5, en el que un conjunto de canales de audio mono se desmezclan y la grabación de señal se reproduce como una grabación cuadrafónica verdadera. 7.

Un decodificador como se ha indicado en la reivindicación 5 o 6, en el que el decodificador está adaptado para calcular las muestras aproximadas por interpolación lineal o usando un filtro FIR.

8.

El decodificador de cualquiera de las reivindicaciones anteriores, en el que los canales de audio mono son canales de audio PCM. 9.

Un dispositivo de almacenamiento que comprende una grabación de señal obtenida a partir de un codificador como se ha indicado en cualquiera de las reivindicaciones 1 a 4. 10.

Un sistema de audio que comprende un dispositivo de almacenamiento de acuerdo con la reivindicación 9 y un codificador de acuerdo con cualquiera de las reivindicaciones 1 a 4 y/o un decodificador de acuerdo con cualquiera de las reivindicaciones 5 a 8.

11.

El sistema de audio de acuerdo con la reivindicación 10, en el que el sistema soporte reproducción de audio cuadrafónico verdadero. 12.

El sistema de audio de acuerdo con la reivindicación 10 u 11, en el que cuando se usa en aplicaciones de sonido envolvente, el decodificador es capaz de panoramizar dinámicamente un canal de audio mono a partir de un dispositivo de almacenamiento codificado dentro de un espacio auditivo 3D, para reproducir una fuente de sonido en movimiento similar a cuando un artista se mueve en el escenario. 13.

El sistema de audio de acuerdo con la reivindicación 10 u 11, que está adaptado adicionalmente para la conversión en aritmética de números enteros, estando adaptados el codificador y/o el decodificador para compensar los errores de redondeo y conversión para proporcionar un proceso de decodificación que es la operación inversa de la codificación. 14.

El sistema de audio de acuerdo con la reivindicación 10 u 11, en el que los parámetros del filtro de audio requeridos por el decodificador y que son una parte de los parámetros, se regeneran para cada periodo de tiempo, que es corto en comparación con la resolución de audio del oído humano. 15.

El sistema de audio de acuerdo con la reivindicación 10 u 11, en el que el codificador incorpora un compresor dinámico que previene rebasamientos cuando se mezclan y/o codifican la pluralidad de canales mono en un canal de audio.