Verificación de metadatos de audio.

Un flujo digital de bits, que comprende bits de datos que representan audio (101),

metadatos para el audio (101) e información de verificación de metadatos, incluyendo dicha información de verificación de metadatos una copia, o una copia de datos comprimidos, de dichos metadatos, pudiendo ser usada dicha información de verificación para detectar si los metadatos y la copia de los mismos están o no dentro de una diferencia de umbral entre sí, y si no lo están, reemplazar los metadatos por la copia.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/011202.

Solicitante: DOLBY LABORATORIES LICENSING CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 Potrero Avenue San Francisco California 94103 ESTADOS UNIDOS DE AMERICA.

Inventor/es: CROCKETT,BRETT,GRAHAM.

Fecha de Publicación: 5 de Noviembre de 2014.

Clasificación Internacional de Patentes:

G10L11/00
H03G3/00 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03G CONTROL DE LA AMPLIFICACION (redes de impedancia, p. ej. atenuadores H03H; control de la transmisión en líneas H04B 3/04). › Control de la ganancia en los amplificadores o cambiadores de frecuencia (amplificadores controlados H03F 3/72; específicamente para los receptores de televisión H04N).
H03G3/20 H03G […] › H03G 3/00 Control de la ganancia en los amplificadores o cambiadores de frecuencia (amplificadores controlados H03F 3/72; específicamente para los receptores de televisión H04N). › Control automático (combinado con la compresión o expansión de volumen H03G 7/00).
H03G7/00 H03G […] › Compresión o expansión de volumen en los amplificadores.
H04R5/00 H […] › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04R ALTAVOCES, MICROFONOS, CABEZAS DE LECTURA PARA GRAMOFONOS O TRANSDUCTORES ACUSTICOS ELECTROMECANICOS ANALOGOS; APARATOS PARA SORDOS; SISTEMAS PARA ANUNCIOS EN PUBLICO (producción de sonidos cuya frecuencia no está determinada por la frecuencia de alimentación G10K). › Dispositivos estereofónicos (cabezas de lectura estereofónicas H04R 9/16, H04R 11/12, H04R 17/08, H04R 19/10).

PDF original: ES-2527552_T3.pdf

Fragmento de la descripción:

Verificación de metadatos de audio

Campo técnico

La presente invención se refiere al procesamiento de señales de audio, en particular a la verificación y corrección de los metadatos usados en tales sistemas. La invención es particularmente útil en los sistemas de codificación de audio conocidos como Dolby Digital (AC-3) , Dolby Digital Plus, y Dolby E. Dolby; Dolby Digital, Dolby Digital Plus y Dolby E son marcas registradas de Dolby Laboratories Licensing Corporation. Los aspectos de la invención también se pueden usar con otros tipos de codificación de audio, tales como MPEG-4 AAC.

Técnica anterior Los detalles de la codificación Dolby Digital se exponen en las siguientes referencias:

ATSC Standard A52/A: Digital Audio Compression Standard (AC-3) , Revision A, Advanced Television Systems Committee, 20 de agosto de 2001. El documento A/52A se encuentra disponible en Internet en http://www.atsc.org/standards.html.

"Flexible Perceptual Coding for Audio Transmission and Storage", de Craig C. Todd, y cols., 96th Convention of the Audio Engineering Society, 26 de febrero de 1994, prepublicación 3796;

"Design and Implementation of AC-3 Coders", de Steve Vernon, IEEE Trans. Consumer Electronics, Vol. 41, 25 nº 3, agosto de 1995.

"The AC-3 Multichannel Coder" de Mark Davis, Audio Engineering Society Preprint 3774, 95th AES Convention, octubre de 1993.

"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Application", de Bosi y cols., Audio Engineering Society Preprint 3365, 93rd AES Convention, octubre de 1992.

Patentes de EE.UU. 5.583.962, 5.632.005, 5.633.981, 5.727.119 y 6.021.386.

Los detalles de la codificación Dolby Digital Plus se exponen en "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES Convention Paper 6196, 117th AES Convention, 28 de octubre de 2004.

Los detalles de la codificación Dolby E se exponen en "Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES Preprint 5068, 107th AES Conference, agosto de 1999 y "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107th AES Conference, agosto de 1999.

Los detalles de la codificación MPEG-2 AAC se exponen en ISO/IEC 13818-7:1997 (E) "Information technology -Generic coding of moving pictures and associated audio information -, Part 7: Advanced Audio 45 Coding (AAC) ", International Standards Organization (April 1997) ; "MP3 and AAC Explained" de Karlheinz Brandenburg, AES 17th International Conference on High Quality Audio Coding, agosto de 1999; y "ISO/IEC MPEG-2 Advanced Audio Coding" de Bosi, y cols., AES preprint 4382, 101st AES Convention, octubre de 1996.

Se ofrece una visión general de diversos codificadores perceptuales, incluyendo los codificadores Dolby, los codificadores MPEG y otros en "Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding", de Karlheinz Brandenburg y Marina Bosi, J. Audio Eng. Soc., Vol. 45, nº 1/2, enero/febrero de 1997.

Aunque la invención no se limita al uso en AC-3, por motivos de comodidad, se describirá en el entorno de un sistema AC-3. El sistema AC-3 es un sistema de compresión de datos de audio digital que se usa para el suministro de audio en aplicaciones tales como la televisión digital, el video DVD y el audio DVD. Un flujo de bits AC-3 consta de dos componentes principales: el contenido de audio y los metadatos. El contenido de audio de uno a seis canales son los datos comprimidos usando la codificación perceptual de audio. Entre los distintos tipos de metadatos en AC3 se encuentran diversos parámetros de metadatos de audio que se pretende que cambien, de manera especifica, el sonido del programa suministrado a un entorno de escucha. Estos parámetros se describen más adelante.

El sistema AC-3 suministra un flujo de bits compuesto de audio de datos comprimidos en tramas de información binaria. Cada trama comprende contenido de audio y metadatos para 1536 muestras de audio digital. Para una 65 velocidad de muestreo de 48 kHz, esto representa 32 milisegundos de audio digital o una velocidad de 31, 25 tramas por segundo de audio. El número de bits contenidos en cada trama depende del número de canales que se están

suministrando y de la cantidad de compresión de datos que se aplica a los canales. Por ejemplo, los discos de video DVD normalmente suministran seis canales de audio a una velocidad de datos de 448.000 bits por segundo o un tamaño de trama de 1792 bytes (un byte son 8 bits) .

Cada trama AC-3 está dividida en secciones. Estas incluyen: (1) la Información de Sincronización (SI, por sus siglas en inglés) , que contiene una palabra de sincronización (SW, por sus siglas en inglés) , y la primera de dos palabras de corrección de error (CRC1) ; (2) la Información de flujo de bits (BSI, por sus siglas en inglés) , que contiene la mayoría de los metadatos; (3) seis bloques de audio (AB0 a AB5) , que comprenden contenido de audio de datos comprimidos; (4) los bits de desperdicio (W) , que contienen cualquiera de los bits no usados que quedan una vez que se ha comprimido el contenido de audio; (5) la información auxiliar (AUX) , que contiene más metadatos; y (6) la segunda de las dos palabras de corrección de error (CRC2) . Estas se muestran en la figura 9, la cual se describe más adelante. La trama AC-3, que incluye la compresión perceptual de datos de audio y los metadatos que la acompañan, se describe en detalle en las referencias AC-3 citadas anteriormente, y más adelante en la descripción de la figura 9.

Según se mencionó anteriormente, en el sistema AC-3 existen varios parámetros de metadatos de audio que se pretende cambien, de manera especifica, el sonido del programa suministrado a un entorno de escucha. Tres de estos parámetros de metadatos se refieren al nivel de señal de reproducción y al rango dinámico: DIALNORM, COMPR y DYNRNG. El parámetro DIALNORM afecta el nivel de señal de reproducción de audio, mientras que los parámetros relacionados COMPR y DYNRNG, en algunas ocasiones denominados en lo sucesivo los parámetros de "compresión de rango dinámico", afectan el rango dinámico de la señal de reproducción de audio. Uno o ninguno, aunque no ambos, de los parámetros COMPR y DYNRNG se usa en la descodificación, dependiendo de un modo de descodificación. Normalmente, el parámetro DIALNORM es ajustado por el usuario (no se genera de manera automática) , aunque existiría un valor predeterminado DIALNORM si el usuario no ajustase ningún valor. Por ejemplo, el usuario, o el "creador de contenido", podrían realizar mediciones de la intensidad acústica con un proceso o dispositivo externo al codificador AC-3 y, posteriormente, transferir el resultado hacia el codificador. De esta manera, existe una dependencia del usuario para ajustar el valor de parámetro DIALNORM de manera correcta. Los parámetros COMPR y DYNRNG, si bien están relacionados con el parámetro DIALNORM, normalmente se calculan de manera automática durante la codificación en respuesta al valor de parámetro DIALNORM ajustado por el usuario y uno de una serie de perfiles de compresión de rango dinámico (o sin perfil, lo que se traduce en la aplicación de DIALNORM aunque permite la reproducción del rango dinámico completo) . Cada perfil de este tipo contiene información estándar del parámetro de compresión de rango dinámico de audio, que incluye constantes de tiempo de ataque y liberación y relaciones de compresión. Entre otros parámetros de metadatos que afectan al sonido en un entorno de escucha se incluyen los distintos parámetros de "mezclado descendente": CLEV, CMIXLEV, SLEV, SURMIXLEV, MIXLEVEL y MIXLEVEL2. Tales metadatos de mezclado descendente proporcionan instrucciones a un descodificador para el mezclado descendente de canales 5.1 originales a un número más pequeño de canales de reproducción, por ejemplo, uno o dos canales.

El parámetro DIALNORM permite la reproducción uniforme del diálogo hablado durante la descodificación de cualquier flujo de bits AC-3. El nivel subjetivo de diálogo normal hablado se usa como referencia. De esta manera, la ganancia del sistema de reproducción se convierte en una función tanto del nivel de presión de sonido de reproducción deseada del oyente para el diálogo como del valor DIALNORM. Aunque, en principio, el valor DIALNORM se podría aplicar en el dominio de tiempo subsiguiente a la descodificación (ya sea en el dominio digital o en el dominio analógico) para ajustar la ganancia de reproducción, normalmente los descodificadores AC-3 usan el 45 valor DIALNORM en el dominio digital dentro del descodificador para escalar la ganancia, lo que se traduce en el ajuste de la ganancia de reproducción.... [Seguir leyendo]

Reivindicaciones:

1. Un flujo digital de bits, que comprende bits de datos que representan audio (101) , metadatos para el audio (101) e información de verificación de metadatos, incluyendo dicha información de verificación de metadatos una copia, o una copia de datos comprimidos, de dichos metadatos, pudiendo ser usada dicha información de verificación para detectar si los metadatos y la copia de los mismos están o no dentro de una diferencia de umbral entre sí, y si no lo están, reemplazar los metadatos por la copia.

2. Un flujo digital de bits de acuerdo con la reivindicación 1, en el que la información de verificación de metadatos está cifrada.

3. Un flujo digital de bits de acuerdo con cualquiera de las reivindicaciones 1-2, en el que los bits que representan la información de verificación de metadatos sustituyen la totalidad o algunos de la pluralidad de bits del flujo de bits que normalmente no llevan información.

4. Un flujo digital de bits de acuerdo con cualquiera de las reivindicaciones 1-3, en el que la información de verificación de metadatos está codificada de manera esteganográfica en el flujo de bits.

5. Un flujo digital de bits de acuerdo con cualquiera de las reivindicaciones 1-4, en el que el audio (101) es un audio de datos comprimidos.

6. Un codificador (100) que genera un flujo digital de bits de acuerdo con una cualquiera de las reivindicaciones 1-5.

7. Un descodificador que recibe un flujo digital de bits de acuerdo con una cualquiera de las reivindicaciones 1-5, en

donde el descodificador descodifica los bits de datos que representan audio (101) usando dichos metadatos y dicha información de verificación de metadatos.

8. Un descodificador de acuerdo con la reivindicación 7, en donde el descodificador, en la descodificación de los bits de datos que representan el audio, cambia los metadatos usando dicha información de verificación de metadatos y usa tales metadatos cambiados en la descodificación del audio (101) .

9. Un proceso para generar un flujo digital de bits en respuesta al audio (101) , comprendiendo el proceso:

generar metadatos para el audio (101) , generar información de verificación de metadatos, incluyendo dicha información de verificación de metadatos una copia, o una copia de datos comprimidos, de dichos metadatos, pudiendo ser usada dicha información de verificación para detectar si los metadatos y la copia de los mismos se encuentran o no dentro de una diferencia de umbral entre sí, y si no lo estuvieran, reemplazar los metadatos por la copia, y ensamblar un flujo digital de bits que incluye los bits de datos que representan el audio, los metadatos y la información de verificación de metadatos.

10. El proceso de acuerdo con la reivindicación 9, en el que dicha generación de metadatos genera metadatos 45 basados en una medida del audio (101) .

11. El proceso de acuerdo con la reivindicación 10, en el que dicha medida del audio (101) es una medida de la intensidad acústica del audio.

12. Un proceso de acuerdo con cualquiera de las reivindicaciones 9-11, en el que la información de verificación de metadatos, que se puede usar para detectar y cambiar los metadatos, incluye una copia o una copia de datos comprimidos de una versión correcta de tales metadatos.

13. Un proceso de acuerdo con cualquiera de las reivindicaciones 9-12, en el que la información de verificación está 55 cifrada.

14. Un proceso de acuerdo con cualquiera de las reivindicaciones 9-13, en el que los bits que representan la información de verificación de metadatos sustituyen la totalidad o algunos de la pluralidad de bits del flujo de bits que normalmente no llevan información.

15. Un proceso de acuerdo con cualquiera de las reivindicaciones 9-13, en el que la información de verificación está codificada de manera esteganográfica en el flujo de bits.

16. Un proceso de tratamiento de un flujo de bits de audio digital que incluye bits de datos que representan audio

(101) , metadatos de audio (101) e información de verificación de metadatos de audio, incluyendo la información de verificación de metadatos una copia, o una copia de datos comprimidos, de dichos metadatos de audio, pudiendo 22

ser usada dicha información de verificación para detectar si los metadatos y una copia tal de los mismos se encuentran o no dentro de una diferencia de umbral entre sí, y si no lo estuvieran, reemplazar los metadatos por la copia, que comprende:

cambiar (403) los metadatos, y cambiar (403) la información de verificación de manera que los metadatos y la copia, o la copia de datos comprimidos, de los metadatos se encuentren dentro de una diferencia de umbral entre sí.

17. Un programa informático, almacenado en un soporte legible por ordenador, diseñado para hacer que un ordenador realice los métodos de una cualquiera de las reivindicaciones 9 a 16.

Patentes similares o relacionadas:

Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios, del 4 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Postprocesador de audio para post-procesar una señal de audio que contiene información de ganancia de alta frecuencia variable […]

Método de control para una fuente de alimentación de seguimiento rápido, sistema y fuente de alimentación de seguimiento rápido, del 23 de Octubre de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un suministro de alimentación de seguimiento rápido que comprende: una unidad de control (B10), una fuente de voltaje controlable combinada (B11), una unidad […]

Gestión de la sonoridad de audio basada en objetos, del 30 de Mayo de 2019, de DTS, INC: Un método para procesar señales de audio basadas en objetos para su reproducción a través de un sistema de reproducción, que comprende: recibir […]

Dispositivo de asistencia disciplinaria para un aula mediante señales acústicas, del 7 de Mayo de 2018, de BAENA JIMENEZ, Manuel: El dispositivo de asistencia disciplinaria para un aula mediante señales acústicas comprende los elementos técnicos necesarios para detectar un nivel […]

Sistema de distribución de audio y de potencia, del 27 de Septiembre de 2017, de THX Ltd: Una unidad de control de audio para la recepción de una señal de potencia externa y una señal de entrada de audio , y para producir la […]

Procedimiento de prueba de una vía de amplificación de un repetidor de un satélite de telecomunicaciones, del 10 de Junio de 2015, de EUTELSAT S.A.: Procedimiento de prueba de una vía de amplificación (Vi) de un repetidor de un satélite, estando la citada vía conectada por una parte al menos […]

Mezcla de transmisión de audio con normalización de nivel de diálogo, del 30 de Julio de 2014, de DOLBY LABORATORIES LICENSING CORPORATION: Un método para la mezcla de dos señales de audio de entrada en una única señal de audio mezclada mientras se mantiene un nivel de sonido percibido de la señal de […]

METODO Y SISTEMA DE CONTROL DE GANANCIA COMPLETAMENTE DIGITAL, del 1 de Julio de 2008, de INTERDIGITAL TECHNOLOGY CORPORATION: Un control de ganancia que se caracteriza porque comprende: un primer compresor analógico para comprimir la señal en fase I en una señal I […]