Aparato y procedimiento para generar señales de salida de audio mediante el uso de metadatos basados en objetos.

Aparato para generar por lo menos una señal de audio que representa una superposición de por lo menos dos objetos de audio diferentes

, que comprende:

un procesador, para procesar una señal de entrada de audio a efectos de proveer una representación de objetos de la señal de entrada de audio, en el que los por lo menos dos objetos de audio diferentes están separados entre si, los por lo menos dos objetos de audio diferentes están disponibles como señales de objetos de audio separadas, y los al menos dos objetos de audio diferentes son manipulables independientemente entre sí;

un manipulador de objetos, para manipular la señal del objeto de audio o una señal de objeto de audio mejorada de por lo menos un objeto de audio sobre la base de metadatos basados en objetos de audio que se refieren a al menos un objeto de audio para obtener una señal de objeto de audio manipulada o una señal de objetos de audio manipulada mixta para el al menos un objeto de audio; y

un mezclador de objetos, para mezclar la representación de objetos mediante la combinación del objeto de audio manipulado con un objeto de audio diferente manipulado de una manera diferente del al menos un objeto de audio.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004882.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: HELLMUTH, OLIVER, FIESEL,WOLFGANG, SPERSCHNEIDER,RALPH, NEUSINGER,MATTHIAS, SCHREINER,STEPHAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > SISTEMAS ESTEREOFONICOS > H04S3/00 (Sistemas que utilizan más de dos canales, p. ej. sistemas cuadrafónicos (H04S 5/00, H04S 7/00 tienen prioridad))

PDF original: ES-2453074_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Aparato y procedimiento para generar señales de salida de audio mediante el uso de metadatos basados en objetos Campo de la invención [0001] La presente invención se refiere al procesamiento de audio y, en particular, al procesamiento de audio en el contexto de la codificación de objetos de audio tal como la codificación espacial de objetos de audio.

Antecedentes de la invención y técnica relacionada [0002] En los modernos sistemas de difusión tales como la televisión, en algunos casos es deseable no reproducir las pistas de audio tal como los diseñó el técnico de sonido, sino más bien llevar a cabo ajustes especiales para ocuparse de las restricciones impuestas en el tiempo de renderización (En este contexto es el proceso de edición para obtener un efecto deseado) . Una tecnología, bien conocida, para controlar tales ajustes post–producción, consiste en proveer metadatos adecuados juntos con dichas pistas de audio.

Los sistemas tradicionales para la reproducción del sonido, por ejemplo los sistemas antiguos de la televisión doméstica, consisten en un altavoz o en un par estéreo de altavoces. Los sistemas de reproducción multicanal más sofisticados utilizan cinco altavoces, o una cantidad mayor aún.

Si se consideran los sistemas de reproducción multicanal, los técnicos de sonido pueden ser mucho más flexibles en la colocación de fuentes individuales en un plano bidimensional y por ello también pueden utilizar un margen dinámico más elevado para sus pistas de audio globales, ya que la inteligibilidad de la voz es mucho más fácil debido al bien conocido efecto de “fiesta de cócteles (cocktail party effect” – se refiere a la capacidad del ser humano de focalizar su atención auditiva a una fuente puntual en un entorno altamente ruidoso) .

Sin embargo, estos sonidos realistas, muy dinámicos, pueden ser causa de problemas en los sistemas de reproducción tradicionales. Puede haber escenarios en los que un consumidor no desea esta señal muy dinámica, sea porque ella o él está escuchando el contenido en un entorno ruidoso (por ejemplo, en un automóvil en movimiento o con un sistema de entretenimiento en vuelo o móvil) , ella o él está utilizando audífonos, o ella o él no desea molestar a sus vecinos (en un vuelo nocturno, por ejemplo) .

Además, las empresas de radiodifusión se enfrentan al problema de que diferentes ítems en un programa (por ejemplo, los avisos comerciales) pueden presentar diferentes niveles de sonoridad debido a diferentes factores de cresta que requieren el ajuste del nivel de ítems consecutivos.

En una cadena clásica de difusión el usuario final recibe la pista de audio ya mezclada. Cualquier manipulación ulterior en el lado del receptor puede efectuarse solamente de una manera muy limitada. En la actualidad un pequeño conjunto de aspectos de metadatos de Dolby permite al usuario modificar alguna propiedad de la señal de audio.

Usualmente, las manipulaciones basadas en los metadatos mencionados en lo que precede, se aplican sin ninguna distinción selectiva de las frecuencias, ya que los metadatos tradicionalmente adjuntos a la señal de audio no proveen suficiente información para proceder de esta manera.

Además, sólo es posible manipular el conjunto de la corriente de audio propiamente dicha. Adicionalmente, no hay manera de adoptar y separar cada objeto de audio dentro de esta corriente de audio. En especial en entornos de escucha inadecuados, esto puede ser no satisfactorio.

En el modo medianoche, es imposible para el procesador de audio real distinguir entre ambientes y diálogo, debido a la ausencia de información de guiado. Por ello, en el caso de ruidos de elevado nivel (que han ser comprimidos/limitados en cuanto a nivel sonoro) , también los diálogos se manipularán en paralelo. Este podría ser perjudicial para la inteligibilidad del habla.

Aumentar el nivel del diálogo en comparación con el sonido ambiente, ayuda a mejorar la percepción del habla en especial para las personas con problemas de audición. Esta técnica funciona solamente si la señal de audio se halla realmente separada en componentes de diálogo y ambiente en el lado de receptor, además de la información de control de propiedad. Si sólo hay una señal de mezclado descendente de estéreo disponible, ya no es posible aplicar una separación ulterior adicional para diferenciar y manipular la información de habla por separado.

Las soluciones de mezclado descendente actuales permiten una sintonización dinámica del nivel de estéreo para los canales central y de “surround”. Pero para cualquier configuración variante de altavoces en lugar de estéreo, no hay una descripción real desde el transmisor acerca de cómo mezclar descendentemente la fuente final de audio de multicanal. El contar solamente con una fórmula por defecto dentro del decodificador lleva a cabo el mezclado de las señales de una manera muy inflexible.

En todos los escenarios descritos, por lo general existen dos enfoques diferentes. El primer enfoque es que, cuando se genera la señal de audio que debe transmitirse, se mezcla descendentemente un conjunto de objetos de audio en forma de un canal mono, estéreo o multicanal. Esta señal, que de transmitirse a un usuario de esta señal mediante radiodifusión, por medio de cualquier otro protocolo de transmisión o mediante una distribución sobre un medio de almacenamiento legible por computadora, tiene normalmente una cantidad de canales que es más pequeña que la cantidad de objetos de audio que habían sido mezclados descendentemente por un técnico sonidista, por ejemplo en el entorno de un estudio. Además, puede haber metadatos adjuntos destinados a permitir varias modificaciones diferentes, pero estas modificaciones sólo pueden aplicarse a la totalidad de la señal transmitida o, si la señal transmitida tiene varios canales transmitidos diferentes, a los canales transmitidos individuales como un conjunto. Sin embargo, dado que tales canales transmitidos son siempre superposiciones de varios objetos de audio, no es posible en absoluto una manipulación individual de determinado objeto de audio, sin dejar de manipular otro objeto de audio.

El otro enfoque consiste en no realizar el mezclado descendente de objetos, sino transmitir las señales de objeto de audio, como canales transmitidos separados. Un escenario de este tipo funciona bien, cuando la cantidad de objetos de audio es pequeña. Si, por ejemplo, hay solamente cinco objetos de audio, entonces es posible transmitir estos cinco objetos de audio diferentes por separado entre sí, dentro de un escenario 5.1. Es posible asociar metadatos con estos canales que indiquen la naturaleza específica de un objeto/canal. Entonces, en el lado del receptor, los canales transmitidos pueden manipularse sobre la base de los metadatos transmitidos.

Una desventaja de este enfoque es que no es compatible inversamente y que sólo funciona bien en el contexto de una pequeña cantidad de objetos de audio. Si la cantidad de objetos de audio aumenta, la velocidad de bits requerida para transmitir todos los objetos en forma de pistas de audio explicitas aumenta rápidamente. Este incremento de la velocidad de bits no es específicamente útil en el contexto de las aplicaciones de radiodifusión.

Por ello, los enfoques actuales eficientes de velocidad de bits no permiten una manipulación individual de objetos de audio distintos. Una manipulación individual de este tipo sólo se permite si se desea transmitir cada objeto por separado. Sin embargo, este enfoque no es eficiente en materia de velocidad de bits, por lo que no es específicamente factible en los escenarios de difusión.

Un objeto de la presente invención es el de proveer una solución... [Seguir leyendo]

 


Reivindicaciones:

1. Aparato para generar por lo menos una señal de audio que representa una superposición de por lo menos dos objetos de audio diferentes, que comprende:

un procesador, para procesar una señal de entrada de audio a efectos de proveer una representación de objetos de la señal de entrada de audio, en el que los por lo menos dos objetos de audio diferentes están separados entre si, los por lo menos dos objetos de audio diferentes están disponibles como señales de objetos de audio separadas, y los al menos dos objetos de audio diferentes son manipulables independientemente entre sí; un manipulador de objetos, para manipular la señal del objeto de audio o una señal de objeto de audio mejorada de por lo menos un objeto de audio sobre la base de metadatos basados en objetos de audio que se refieren a al menos un objeto de audio para obtener una señal de objeto de audio manipulada o una señal de objetos de audio manipulada mixta para el al menos un objeto de audio; y un mezclador de objetos, para mezclar la representación de objetos mediante la combinación del objeto de audio manipulado con un objeto de audio diferente manipulado de una manera diferente del al menos un objeto de audio.

2. Aparato de acuerdo con la reivindicación 1, que está adaptado para generar m señales egresadas, siendo m un número entero superior a 1, en el que el procesador opera de manera de proveer una representación de objetos que tiene k objetos de audio, siendo k un número entero mayor que m, en el que el manipulador de objetos está adaptado para manipular al menos dos objetos diferentes entre si sobre la base de los metadatos asociados con al menos un objeto de los al menos dos objetos; y en el que el mezclador de objetos opera de manera de combinar las señales de audio manipuladas de los al menos dos diferentes objetos de manera que cada señal egresada es influida por las señales de audio manipuladas de los al menos dos objetos diferentes.

3. Aparato de acuerdo con la reivindicación 1 en el que el procesador está adaptado para recibir la señal ingresada, siendo la señal ingresada una representación en mezclado descendente, de una pluralidad de objetos de audio originales, el procesador está adaptado para recibir parámetros de objetos de audio para controlar un algoritmo de reconstrucción para reconstruir una representación aproximada de los objetos de audio originales, y el procesador está adaptado para ejecutar el algoritmo de reconstrucción mediante el uso de la señal ingresada y de los parámetros de objetos de audio para obtener la representación de objetos que comprende señales de objeto de audio que son una aproximación de las señales de objeto de audio de los objetos de audio originales.

4. Aparato de acuerdo con la reivindicación 1, en el que la señal de entrada de audio es una representación en mezclado descendente de una pluralidad de objetos de audio originales y comprende, como información secundaria, metadatos basados en objetos que tienen información acerca de uno o más objetos de audio incluidos en la representación de mezclado descendente, y el manipulador de objetos está adaptado para extraer los metadatos basados en objetos a partir de la señal de entrada de audio.

5. Aparato de acuerdo con la reivindicación 3, en el que la señal de entrada de audio comprende, como información secundaria, los parámetros de objetos de audio, y porque el procesador está adaptado para extraer la información secundaria de la señal de entrada de audio.

6. Aparato de acuerdo con la reivindicación 1, en el que el manipulador de objetos opera de manera de manipular la señal del objeto de audio, y el mezclador de objetos opera de manera de aplicar una regla de mezclado descendente para cada objeto sobre la base de una posición de renderización para el objeto y un establecimiento de reproducción para obtener una señal componente de señal para cada señal de salida de audio, y el mezclador de objetos está adaptado para añadir señales componentes de objeto a partir de diferentes objetos para el mismo canal de salida de manera de obtener la señal de salida de audio para el canal de salida.

7. Aparato de acuerdo con la reivindicación 1, en el que el manipulador de objetos opera de manera de manipular cada una de entre una pluralidad de señales componentes de objetos de la misma manera sobre la base de metadatos para obtener señales de componentes de objetos para el objeto de audio, y el mezclador de objetos está adaptado para añadir señales de componentes de objetos tomados de diferentes objetos para el mismo canal de salida de manera de obtener la señal de salida de audio para el canal de salida.

8. Aparato de acuerdo con la reivindicación 1, que además comprende un mezclador de señales de salida para mezclar la señal de salida de audio obtenida sobre la base de una manipulación de por lo menos un objeto de audio y una correspondiente señal de salida de audio obtenida sin la manipulación del al menos un objeto de audio.

9. Aparato de acuerdo con la reivindicación 1, en el que los metadatos comprenden la información acerca de una ganancia, una compresión, un nivel, un establecimiento de mezclado descendente o una característica específica para un objeto determinado, y el manipulador de objetos está adaptado para manipular el objeto u otros objetos sobre la base de los metadatos para implementar, de una manera específica para el objeto, un modo de medianoche, un modo de alta fidelidad, un modo de audio limpio, la normalización de diálogo, una manipulación específica de mezclado descendente, un mezclado descendente dinámico, un mezclado ascendente guiado, una reubicación de los objetos de habla o una atenuación de un objeto de ambiente,

10. Aparato de acuerdo con la reivindicación 1, en el que los parámetros de los objetos comprenden, para una pluralidad de porciones de tiempo de una señal de audio de objeto, parámetros para cada banda de una pluralidad de bandas de frecuencia en la respectiva porción de tiempo, y los metadatos incluyen solamente información no selectiva en cuanto a frecuencia, para un objeto de audio.

11. Aparato para generar una señal de audio codificada que representa una superposición de al menos dos objetos de audio diferentes, que comprende: un formateador de la corriente de datos, para formatear una corriente de datos de manera que la corriente de datos comprende una señal de mezclado descendente de objetos que representa una combinación de al menos dos objetos de audio diferentes, y, como información secundaria, metadatos que se refieren a al menos uno de los objetos de audio diferentes.

12. Aparato de acuerdo con la reivindicación 11, en el que el formateador de corrientes de datos opera de manera de adicionalmente introducir, como información secundaria, datos paramétricos que permiten una aproximación de los al menos dos objetos de audio diferentes, en la corriente de datos.

13. Aparato de acuerdo con la reivindicación 11, que comprende además un calculador de parámetros para calcular datos paramétricos para una aproximación de los al menos dos objetos de audio diferentes, un mezclador descendente para el mezclado descendente de los al menos dos objetos de audio diferentes para obtener la señal de mezclado descendente, y una entrada para metadatos individualmente relacionados con los al menos dos objetos de audio diferentes.

14. Procedimiento para generar al menos una señal de salida de audio que representa una superposición de al menos dos objetos de audio diferentes, que comprende: procesar una señal de entrada de audio a efectos de proveer una representación de objetos de la señal de entrada de audio, en el que los al menos dos objetos de audio diferentes están separados entre sí, los al menos dos objetos de audio diferentes están disponibles como señales de objeto de audio separadas, y los al menos dos objetos de audio diferentes pueden manipularse independientemente entre sí; manipular la señal del objeto de audio o una señal de objeto de audio mixta de al menos un objeto de audio basado en metadatos sobre la base de objetos de audio que se refieren a al menos un objeto de audio para obtener una señal de objeto de audio manipulada o una señal de objetos de audio mixta manipulada para el al menos un objeto de audio; y mezclar la representación de objetos mediante la combinación del objeto de audio manipulado con un objeto de audio no manipulado o con un objeto de audio diferente manipulado que ha sido manipulado de una manera diferente del al menos un objeto de audio.

15. Procedimiento para generar una señal de audio codificada que representa una superposición de al menos dos objetos de audio diferentes, que comprende: formatear una corriente de datos de manera que la corriente de datos comprenda una señal de mezclado descendente de objetos que representa una combinación de los al menos dos objetos de audio diferentes y, como información secundaria, metadatos que se refieren a al menos uno de los objetos de audio diferentes.

16. Programa de computadora que lleva a cabo, cuando se lo ejecuta en una computadora, un procedimiento para generar al menos una señal de salida de audio de acuerdo con la reivindicación 14 o un procedimiento para generar una señal de audio codificada de acuerdo con la reivindicación 15.

Figura 9