Método y aparato para el suministro de audio por multicanales alineados.

Un método de codificación de audio y de inclusión de dicho audio codificado en un flujo de transporte digital,

que comprende:

recibir a la entrada en un codificador, una pluralidad de señales de audio co-posicionadas temporalmente;

muestrear las señales de audio co-posicionadas temporalmente para formar tramas de datos de audio alineadas de un tamaño predeterminado, y

asignar Marcas de Tiempo de Presentación idénticas por unidad de tiempo a las tramas de datos de audio alineadas, e incorporar las señales de audio con marcas de tiempo idénticas en el flujo de transporte digital.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/063361.

Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: 164 83 STOCKHOLM SUECIA.

Inventor/es: JONES,ANTHONY RICHARD.

Fecha de Publicación: 21 de Agosto de 2013.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
G10L19/14
G10L19/16 G10L 19/00 […] › Estructura de codificadores de voz.

PDF original: ES-2434828_T3.pdf

Fragmento de la descripción:

Método y aparato para el suministro de audio por multicanales alineados

Campo técnico

La invención se refiere a codificación de audio en general, y en particular a un método y un aparato para el suministro de audio por multicanales alineados.

Antecedentes Los estándares modernos de codificación audiovisual, tal como MPEG-1 y MPEG-2, proporcionan medios para transportar múltiples componentes de audio y de video dentro de un solo flujo de transporte. Las componentes de audio individuales y separadas se pueden alinear con componentes de video seleccionadas. El audio multicanal sincronizado, tal como el sonido envolvente, se proporciona solamente en términos de una sola componente de audio de sonido envolvente premezclado, por ejemplo una sola componente de audio Dolby 5.1. Sin embargo, no existen actualmente medios previstos para que componentes de audio multicanal individualizadas sean transportadas en forma sincronizada.

En particular, las especificaciones de audio MPEG-1 y MPEG-2 (ISO/IEC 11172-3 e ISO/IEC 13818-3, respectivamente) describen medios de codificación y empaquetamiento de señales de audio digital. Éstos incluyen esquemas que han sido especificados para soportar diversas formas de sonido multicanal que hacen uso de una sola componente de flujo de transporte de MPEG-2. Estas provisiones son versiones anteriores compatibles con el sistema de audio MPEG-1 anterior. En la técnica anterior, solamente es posible ensamblar los diversos canales de audio en tal componente única de transporte para asegurar la sincronización requerida de los canales. Estos esquemas requieren alguno de entre:

[a] el uso de métodos de compresión de sonido envolvente (por ejemplo, Dolby 5.1) , o [b] el uso de técnicas de compresión propias, o [c] el uso de audio sin comprimir.

El uso de métodos de compresión de sonido envolvente reduce la tasa de bits requerida para los múltiples canales al aprovechar las redundancias que existen entre los diversos canales y también las características del sistema auditivo humano que hacen que determinadas características espaciales del sonido sean indetectables y de ese modo puedan ser enmascaradas durante el procesamiento. Estos esquemas complejos proporcionan medios adecuados de tratamiento con una sola etapa de codificación en la que solamente se espera una operación de codificación y de descodificación, pero que no son ideales para señales que, por razones prácticas y operativas (por ejemplo, la fuente se alimenta desde una posición remota a las instalaciones centrales de edición) , necesitan ser recodificadas quizás varias veces en las redes de transmisión. Esto se debe a aspectos de concatenación resultantes de múltiples operaciones de codificación en serie que degradan la calidad de audio. Éste es particularmente el caso en que la capacidad es limitada, causando que la tasa de bits se reduzca sustancialmente, dejando poco espacio para hacer frente a tales degradaciones en la codificación y transmisión concatenadas.

El uso de técnicas propias de compresión requiere típicamente el uso de un equipo externo propio adicional, lo que conduce a un mayor gasto y a una complicación operativa. Este método puede también adolecer de la misma degradación de calidad que la concatenación que produce más de una etapa de codificación/descodificación.

Mientras tanto, si se envía el audio en formato descomprimido (por ejemplo, muestras no comprimidas de PCM Lineal) , la tasa de datos requerida es una tasa de datos muy alta (por ejemplo, de aproximadamente 3 Mbits/s por cada par de canales) .

Aunque lo anterior no es generalmente un problema cuando se proporcionan medios audiovisuales finales a los consumidores, esto presenta un problema para la industria de producción de medios audiovisuales, debido a que la industria está incesantemente sacando ventaja de las ubicuas redes modernas de alta velocidad de datos para enviar medios audiovisuales “de baja calidad” (es decir, material fuente usado para producir televisión, películas y

otros medios) instantáneamente en forma comprimida entre instalaciones de producción, o en su caso desde las instalaciones de producción hasta los puntos de distribución de red de televisión o de audio, por ejemplo transmisores terrestres, enlaces ascendentes por satélite o cabeceras de red por cable.

Por ejemplo, los camarógrafos de ubicación alimentan típicamente material audiovisual a estudios centrales de televisión, para edición y distribución a estaciones de televisión afiliadas para su transmisión eventual a los espectadores. Los estándares de codificación audiovisual mencionados anteriormente no permiten que se envíe audio multicanal sincronizado sin ser premezclado, añadiendo con ello complejidad a su equipo de campo, o evitando que proporcionen audio multicanal.

Existe una necesidad particular de estar capacitados para transmitir audio multicanal que tenga requisitos para un alineamiento preciso de canal con canal, de tal modo que las señales de audio puedan ser codificadas posteriormente como audio de sonido envolvente donde el alineamiento temporal de múltiples canales sea importante, usando los estándares MPEG mencionados anteriormente puesto que la mayor parte de los equipos de producción están ya estructurados para su uso con estos estándares.

En consecuencia, la presente invención propone métodos y aparatos para proporcionar un mecanismo conveniente y de bajo coste, para el suministro de audio por múltiples canales mientras se mantiene la calidad del sonido y un alineamiento temporal preciso entre los canales.

El documento US 2008/0013614 A1 describe un dispositivo y un método para generar un flujo de datos para generar una representación multicanal. La sincronización en el tiempo se proporciona mediante un cálculo de información de huella que se realiza en el lado del codificador para al menos un canal de base. La información de huella se introduce en un flujo de datos en el momento de conexión a los datos adicionales multicanal. En el descodificador, la información de huella se calcula a partir de al menos un canal de base y se utiliza junto con la información de huella extraída del flujo de datos para calcular y compensar una desviación de tiempo entre el flujo de datos con la información adicional multicanal y el flujo de datos con el al menos un canal de base, por ejemplo por medio de una correlación, para obtener una representación multicanal sincronizada.

El documento US 2004/0049379 A1 describe codificación y descodificación multicanal. Un codificador de audio realiza un preprocesamiento de transformación multicanal sobre datos de audio multicanal, variando la transformación con vistas a controlar la calidad. El codificador agrupa múltiples ventanas de canales diferentes en uno o más mosaicos y presenta a la salida información de la configuración de mosaico, lo que permite al codificador aislar los transitorios que aparecen en un canal particular con ventanas pequeñas, pero usando ventanas grandes en otros canales. Utilizando una diversidad de técnicas, el codificador realiza transformaciones multicanal flexibles que sacan efectivamente ventaja de la correlación intercanal. Un descodificador de audio realiza el procesamiento y la descodificación correspondientes. Adicionalmente, el descodificador realiza un post-procesamiento de la transformación multicanal para uno cualquiera de múltiples objetivos diferentes.

El documento XP030014396, ISSN: 0000-0341, “”Texto de ISO/IEC 13818-1:200X (3ª edición) ”, 75. Sesión de MPEG; – ; Bangkok; núm. N7904, es una recomendación ITU-T para el Estándar Internacional 13818-1. Este estándar es la especificación ISO para los sistemas de flujos de transporte de MPEG-2. Éste define cómo se suministra tiempo normal para un programa (PCR) , así como también cómo están señalizados los tiempos de presentación (PTS) para cada componente individual.

Sumario Las realizaciones de la presente invención proporcionan un método de codificación de audio e incluyendo dicho audio codificado en un flujo de transporte digital, que comprende recibir en la entrada de un codificador una pluralidad de señales de audio temporalmente co-posicionadas, asignar idénticas marcas de tiempo por unidad de tiempo a la totalidad de la pluralidad de señales de audio temporalmente co-posicionadas, e incorporar las señales de audio con marcas de tiempo idénticas en el flujo de transporte digital.

Opcionalmente, la etapa de recibir comprende además muestrear las señales de audio temporalmente coposicionadas para formar tramas de datos de audio de un tamaño predeterminado, y alinear dichas tramas de datos de audio para mantener el co-posicionamiento temporal... [Seguir leyendo]

Reivindicaciones:

1. Un método de codificación de audio y de inclusión de dicho audio codificado en un flujo de transporte digital, que comprende:

recibir a la entrada en un codificador, una pluralidad de señales de audio co-posicionadas temporalmente; muestrear las señales de audio co-posicionadas temporalmente para formar tramas de datos de audio alineadas de un tamaño predeterminado, y asignar Marcas de Tiempo de Presentación idénticas por unidad de tiempo a las tramas de datos de audio alineadas, e incorporar las señales de audio con marcas de tiempo idénticas en el flujo de transporte digital.

2. El método de la reivindicación 1, que comprende además:

comprimir las tramas de datos de audio alineadas con estructuras idénticas de configuración de codificador de audio con anterioridad a asignar las Marcas de Tiempo de Presentación, y asignar los datos de audio comprimidos y con marcas de tiempo idénticas a una pluralidad de canales mono de un flujo de transporte.

3. El método de la reivindicación 2, en donde la pluralidad de canales mono comprende una o más componentes de audio dual mono convencionales.

4. El método de cualquier reivindicación anterior, en donde el tamaño predeterminado es el tamaño de una Unidad de Acceso en el estándar MPEG, y el flujo de transporte digital es un flujo de Transporte de MPEG-1 o de MPEG-2.

5. El método de cualquier reivindicación anterior, en donde la etapa de incorporar el audio en el flujo de transporte digital comprende:

multiplexar los datos de audio comprimidos y con marcas de tiempo idénticas en el flujo de transporte digital.

6. Un método de descodificación de un flujo de transporte digital, comprendiendo el método:

recibir un flujo de transporte digital que incluye audio codificado; obtener, a partir del flujo de transporte, tramas de muestras de audio representativas de una pluralidad de canales de audio individuales co-posicionados temporalmente; detectar las Marcas de Tiempo de Presentación de cada trama para determinar tramas con marcas de tiempo idénticas, y presentar tramas con marcas de tiempo idénticas en instantes idénticos usando la Marca de Tiempo de Presentación de solamente una de las señales de audio co-posicionadas temporalmente.

7. El método de la reivindicación 6, en donde el audio codificado ha sido muestreado y alineado para formar tramas de datos de audio alineadas y en donde las Marcas de Tiempo de Presentación idénticas han sido aplicadas a tramas de datos de audio alineadas.

8. El método de la reivindicación 7, en donde las tramas de datos de audio alineadas han sido comprimidas con anterioridad a la asignación de Marcas de Tiempo de Presentación, y el método comprende además:

descomprimir las tramas de datos de audio para producir las señales de audio individuales para su presentación.

9. El método de cualquier reivindicación anterior, en donde el flujo de transporte digital es un flujo de transporte de video digital, y las tramas de datos de audio alineadas comprenden paquetes PES.

10. Un codificador para codificar audio e incluir dicho audio codificado en un flujo de transporte digital, estando el codificador dispuesto para:

11. Un descodificador para descodificar un flujo de transporte digital, estando el descodificador dispuesto para: recibir un flujo de transporte digital que incluye audio codificado; obtener, a partir del flujo de transporte, tramas de muestras de audio representativas de una pluralidad de canales de audio individuales co-posicionados temporalmente; detectar las Marcas de Tiempo de Presentación de cada trama para determinar tramas con marcas de tiempo idénticas, y presentar tramas con marcas de tiempo idénticas en momentos idénticos usando la Marca de Tiempo de Presentación de solamente una de las señales de audio co-posicionadas temporalmente.

12. Un sistema de transporte digital que comprende al menos un codificador y al menos un descodificador, estando el codificador dispuesto para:

recibir en una entrada una pluralidad de señales de audio co-posicionadas temporalmente; muestrear las señales de audio co-posicionadas temporalmente para formar tramas de datos de audio alineadas de un tamaño predeterminado, y asignar Marcas de Tiempo de Presentación idénticas por unidad de tiempo a las tramas de datos de audio alineadas, e incorporar las señales de audio con marcas de tiempo idénticas en el flujo de transporte digital; estando el descodificador dispuesto para: recibir un flujo de transporte digital que incluye audio codificado; obtener, a partir del flujo de transporte digital, tramas de muestras de audio representativas de una pluralidad de canales de audio individuales co-posicionados temporalmente; detectar las Marcas de Tiempo de Presentación de cada trama para determinar tramas con marcas de tiempo idénticas, y presentar las tramas con marcas de tiempo idénticas en momentos idénticos usando la Marca de Tiempo de Presentación de solamente una de las señales de audio co-posicionadas temporalmente.

13. Un medio legible con ordenador, portador de instrucciones que, cuando se ejecutan, provocan que la lógica del ordenador lleve a cabo cualquiera de las reivindicaciones de método 1 a 9.

Patentes similares o relacionadas:

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]

Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]

Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]

Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]

Codificador y descodificador de audio para codificar y descodificar muestras de audio, del 6 de Enero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro […]

Códec de audio sin pérdidas escalable y herramienta de autoría, del 6 de Mayo de 2015, de DTS, INC: Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin […]

Codificador de extensión de ancho de banda, descodificador de extensión de ancho de banda y vocoder de fase, así como métodos correspondientes y programa de computadora, del 25 de Marzo de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de extensión de ancho de banda para codificar una señal de audio , la señal de audio que comprende una señal […]