CONTROL DE GANANCIA DE AUDIO USANDO DETECCIÓN DE EVENTOS AUDITIVOS BASADA EN LA SONORIDAD ESPECÍFICA.
Método para modificar un parámetro de procesamiento dinámico de audio,
que comprende: detectar cambios en las características espectrales con respecto al tiempo en una señal de audio, identificar, como límites de evento auditivo, cambios mayores que un umbral en características espectrales con respecto al tiempo en dicha señal de audio, en el que un segmento de audio entre límites consecutivos constituye un evento auditivo, generar una señal de control de modificación de parámetros basándose en dichos límites de evento identificados, y modificar los parámetros de procesamiento dinámico de audio en función de la señal de control
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2007/008313.
Solicitante: DOLBY LABORATORIES LICENSING CORPORATION.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: 100 POTRERO AVENUE SAN FRANCISCO, CA 94103-4813 ESTADOS UNIDOS DE AMERICA.
Inventor/es: SEEFELDT,ALAN,JEFFREY, CROCKETT,BRETT,GRAHAM.
Fecha de Publicación: .
Fecha Solicitud PCT: 30 de Marzo de 2007.
Clasificación Internacional de Patentes:
- H03G3/30N
- H03G7/00N
Clasificación PCT:
- H03G3/30 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03G CONTROL DE LA AMPLIFICACION (redes de impedancia, p. ej. atenuadores H03H; control de la transmisión en líneas H04B 3/04). › H03G 3/00 Control de la ganancia en los amplificadores o cambiadores de frecuencia (amplificadores controlados H03F 3/72; específicamente para los receptores de televisión H04N). › en los amplificadores que tienen dispositivos semiconductores.
- H03G7/00 H03G […] › Compresión o expansión de volumen en los amplificadores.
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.
PDF original: ES-2359799_T3.pdf
Ver la galería de la patente con 7 ilustraciones.
Fragmento de la descripción:
Campo Técnico
La presente invención se refiere a métodos y aparatos para controlar el rango dinámico de audio en los que un dispositivo de procesamiento de audio analiza una señal de audio y cambia el nivel, ganancia y rango dinámico del audio, y todos o algunos de los parámetros del procesamiento dinámico y de ganancia de audio se generan en función de eventos auditivos. La invención también se refiere a programas informáticos para poner en práctica tales métodos o controlar tales aparatos.
La presente invención también se refiere a métodos y aparatos que usan una detección de eventos auditivos basada en la sonoridad específica. La invención también se refiere a programas informáticos para poner en práctica tales métodos
o controlar tales aparatos.
Antecedentes de la Técnica
Procesamiento dinámico de audio
Las técnicas de control automático de ganancia (AGC) y control de rango dinámico (DRC) son muy conocidas y son un elemento común de muchas trayectorias de señal de audio. En un sentido abstracto, ambas técnicas de alguna manera miden el nivel de una señal de audio y entonces modifican en ganancia la señal en una cantidad en función del nivel medido. En un sistema de procesamiento dinámico 1:1, lineal, la entrada de audio no se procesa y la señal de audio de salida idealmente coincide con la señal de audio de entrada. Adicionalmente, si se tiene un sistema de procesamiento dinámico de audio que automáticamente mide las características de la señal de entrada y usa esa medición para controlar la señal de salida, si la señal de entrada aumenta de nivel en 6 dB y la señal de salida se procesa de tal manera que solamente aumenta de nivel en 3 dB, entonces la señal de salida se ha comprimido en una razón de 2:1 con respecto a la señal de entrada. La publicación internacional número WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal” de Alan Jeffrey Seefeldt) proporciona una detallada visión general de los cinco tipos básicos de procesamiento dinámico de audio: compresión, limitación, control automático de ganancia (AGC), expansión y conmutación de compuertas (gating).
Eventos auditivos y detección de eventos auditivos
La división de sonidos en unidades o segmentos percibidos como separados y distintos se denomina a veces “análisis de eventos auditivos” o “análisis de la escena auditiva” (“ASA”) y los segmentos se denominan a veces “eventos auditivos” o “eventos de audio”. Albert S. Bregman expone en su libro Auditory Scene Analyis --The Perceptual Organization of Sound, Instituto de Tecnología de Massachussets, 1991, Cuarta edición, 2001, (Segunda edición en tapa blanda MIT Press) una amplia explicación sobre el análisis de la escena auditiva. Además, la patente estadounidense n.o 6.002.776 de Bhadkamkar, et al, 14 de diciembre de 1990, cita publicaciones con fecha desde 1976 como “trabajos de la técnica anterior relativos a la separación de sonido mediante análisis de la escena auditiva”. Sin embargo, la patente de Bhadkamkar, et al, desalienta el uso práctico del análisis de la escena auditiva, concluyendo que “las técnicas implicadas en el análisis de la escena auditiva, aunque interesantes desde un punto de vista científico como modelos de procesamiento auditivo humano, son actualmente demasiado exigentes computacionalmente y especializadas para ser consideradas técnicas prácticas de separación de sonido hasta que se produzcan avances fundamentales”.
Crockett and Crockett et al exponen en varias solicitudes de patente y documentos mencionados a continuación bajo la cabecera de “Incorporación como referencia”, una manera útil de identificar eventos auditivos. Según esos documentos, una señal de audio se divide en eventos auditivos, cada uno de los cuales tiende a percibirse como separado y distinto, mediante la detección de cambios en la composición espectral (amplitud en función de la frecuencia) con respecto al tiempo. Esto puede hacerse, por ejemplo, calculando el contenido espectral de bloques de tiempo sucesivos de la señal de audio, calculando la diferencia en el contenido espectral entre bloques de tiempo sucesivos de la señal de audio, e identificando un límite de evento auditivo como el límite entre bloques de tiempo sucesivos cuando la diferencia en el contenido espectral entre tales bloques de tiempo sucesivos excede un umbral. Alternativamente, pueden calcularse cambios en la amplitud con respecto al tiempo en lugar o además de los cambios en la composición espectral con respecto al tiempo.
En su implementación con menor exigencia computacional, el proceso divide el audio en segmentos de tiempo analizando toda la banda de frecuencia (audio de ancho de banda completo) o sustancialmente toda la banda de frecuencia (en implementaciones prácticas, a menudo se emplea filtrado de limitación de banda en los extremos del espectro) y otorgando el mayor peso a las componentes de señal de audio más intensas. Este enfoque aprovecha un fenómeno psicoacústico en el que a escalas de tiempo más pequeñas (20 milisegundos (ms) y menos) el oído puede tender a enfocar un solo evento auditivo en un momento dado. Esto implica que, aunque puedan ocurrir múltiples
2
eventos a la vez, una componente tiende a ser la más prominente desde el punto de vista de la percepción y puede procesarse individualmente como si fuese el único evento que está teniendo lugar. Aprovechando este efecto, también permite la detección de eventos auditivos a escala con la complejidad del audio que está procesándose. Por ejemplo, si la señal de audio de entrada que está procesándose es un instrumento solista, los eventos de audio que se identifiquen probablemente serán las notas individuales que están tocándose. De manera similar, para una señal de voz de entrada, las componentes individuales de la locución, las vocales y consonantes por ejemplo, probablemente se identificarán como elementos de audio individuales. A medida que aumenta la complejidad del audio, tal como música con toques de tambor o múltiples instrumentos y voz, la detección de eventos auditivos identifica el elemento de audio “más prominente” (es decir, el más intenso) en un momento dado.
A expensas de una complejidad computacional mayor, el proceso puede también tomar en consideración cambios en la composición espectral con respecto al tiempo en subbandas de frecuencia discretas (subbandas fijas o determinadas de manera dinámica o tanto fijas como determinadas de manera dinámica) en lugar del ancho de banda completo. Este enfoque alternativo tiene en cuenta más de un flujo de audio en subbandas de frecuencia diferentes en lugar de asumir que solamente puede percibirse un único flujo en un momento particular.
La detección de eventos auditivos puede implementarse dividiendo una forma de onda de audio en el dominio del tiempo en intervalos o bloques de tiempo y entonces convirtiendo los datos en cada bloque al dominio de la frecuencia, usando o bien un banco de filtros o bien una transformación de tiempo-frecuencia, tal como la FFT. La amplitud del contenido espectral de cada bloque puede normalizarse con el fin de eliminar o reducir el efecto de cambios de amplitud. Cada representación en el dominio de la frecuencia resultante proporciona una indicación del contenido espectral del audio en el bloque particular. El contenido espectral de bloques sucesivos se compara y pueden tomarse cambios mayores que un umbral para indicar el inicio temporal o el fin temporal de un evento auditivo.
Preferiblemente, los datos en el dominio de la frecuencia se normalizan tal como se describe a continuación. El grado al que los datos en el dominio de la frecuencia tienen que normalizarse da una indicación de amplitud. Por consiguiente, si un cambio en este grado excede un predeterminado umbral, ello también puede tomarse para indicar un límite de evento. A los puntos de inicio y fin de evento que resultan de cambios espectrales y de cambios de amplitud se les puede aplicar conjuntamente una operación O, de modo que se identifiquen límites de evento resultantes de cualquiera de los tipos de cambio.
Aunque las técnicas descritas en dichas solicitudes y documentos de Crockett and Crockett et al son particularmente útiles en conexión con aspectos de la presente invención, otras técnicas para identificar eventos auditivos y límites de evento pueden emplearse... [Seguir leyendo]
Reivindicaciones:
1. Método para modificar un parámetro de procesamiento dinámico de audio, que comprende:
5 detectar cambios en las características espectrales con respecto al tiempo en una señal de audio,
identificar, como límites de evento auditivo, cambios mayores que un umbral en características espectrales con respecto al tiempo en dicha señal de audio, en el que un segmento de audio entre límites consecutivos constituye un evento auditivo,
10 generar una señal de control de modificación de parámetros basándose en dichos límites de evento identificados, y
modificar los parámetros de procesamiento dinámico de audio en función de la señal de control.
2. Método según la reivindicación 1, en el que el parámetro es uno de tiempo de ataque, tiempo de liberación, y razón.
3. Método según la reivindicación 1, en el que el parámetro modificado es una constante de tiempo con
alisamiento de ganancia. 20
4. Método según la reivindicación 3, en el que la constante de tiempo con alisamiento de ganancia es una constante de tiempo de ataque con alisamiento de ganancia.
5. Método según la reivindicación 3, en el que la constante de tiempo con alisamiento de ganancia es una 25 constante de tiempo de liberación con alisamiento de ganancia.
6. Método según una cualquiera de las reivindicaciones 1 a 5, en el que dicha señal de control de modificación de parámetros se basa en la ubicación de dichos límites de evento auditivo identificados y el grado de cambio en características espectrales asociadas con cada uno de dichos límites de evento auditivo.
7. Método según la reivindicación 6, en el que generar una señal de control de modificación de parámetros comprende:
proporcionar un impulso en cada uno de los límites de evento auditivo, teniendo cada impulso de este tipo una amplitud 35 proporcional al grado de dichos cambios en las características espectrales, y
alisar en el tiempo cada impulso de modo que su amplitud decrezca suavemente hasta cero, obteniendo de esta manera la señal de control de modificación de parámetros.
40 8. Método según una cualquiera de las reivindicaciones 1 a 7, en el que los cambios en las características espectrales con respecto al tiempo se detectan mediante la comparación de diferencias en la sonoridad específica.
9. Método según la reivindicación 8, en el que dicha señal de audio se representa por una secuencia de tiempo discreta x[n] que se ha muestreado a partir de una fuente de audio a una frecuencia de muestreo fs y los cambios en las
45 características espectrales con respecto al tiempo se calculan mediante la comparación de la diferencia en la sonoridad específica N[b,t] a través de las bandas de frecuencia b entre bloques de tiempo t sucesivos.
10. Método según la reivindicación 9, en el que la diferencia en el contenido espectral entre bloques de tiempo sucesivos de la señal de audio se calcula según
**(Ver fórmula)**
11. Método según la reivindicación 9, en el que la diferencia en el contenido espectral entre bloques de tiempo sucesivos de la señal de audio se calcula según
**(Ver fórmula)**
50 donde
**(Ver fórmula)**
donde
18
**(Ver fórmula)**
12. Aparato que comprende medios adaptados para realizar el método según una cualquiera de las reivindicaciones 1 a 11.
13. Programa informático, almacenado en un medio legible por ordenador, para hacer que un ordenador realice el método según una cualquiera de las reivindicaciones 1 a 11.
Patentes similares o relacionadas:
MÉTODO Y SISTEMA PARA REDUCIR LOS EFECTOS DE LOS ARTEFACTOS QUE PRODUCEN RUIDO, del 8 de Abril de 2011, de MINDSPEED TECHNOLOGIES, INC: Método de reducción del efecto de los artefactos que producen ruido en las zonas de silencio de una señal de habla para su utilización por un […]
MEJORA DE LA EFICIENCIA DE AMPLIFICADORES DE POTENCIA EN DISPOSITIVOS QUE UTILIZAN LA CONFORMACION DE HAZ, del 15 de Octubre de 2010, de IPR LICENSING, INC.: Un método para optimizar la eficiencia de cada uno de una pluralidad de amplificadores de potencia (110[1]-110[N]), que amplifican las correspondientes […]
Compensación de una atenuación de señal durante la transmisión de señales de transmisión de un dispositivo móvil, del 5 de Noviembre de 2019, de Laird Dabendorf GmbH: Disposición de circuito para compensar una atenuación de señal durante la transmisión de señales de transmisión de un dispositivo móvil , en donde la disposición […]
Método de control para una fuente de alimentación de seguimiento rápido, sistema y fuente de alimentación de seguimiento rápido, del 23 de Octubre de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un suministro de alimentación de seguimiento rápido que comprende: una unidad de control (B10), una fuente de voltaje controlable combinada (B11), una unidad […]
Estructura de amplificador de señal para radiotransmisor, del 5 de Junio de 2019, de Nokia Technologies OY: Un método que comprende: proporcionar una estructura de amplificador modular que comprende una pluralidad de subunidades de amplificador […]
Gestión de la sonoridad de audio basada en objetos, del 30 de Mayo de 2019, de DTS, INC: Un método para procesar señales de audio basadas en objetos para su reproducción a través de un sistema de reproducción, que comprende: recibir […]
Amplificador de transimpedancia para comunicaciones ópticas de alta velocidad basadas en modulaciones lineales, del 28 de Mayo de 2019, de Knowledge Development for POF SL: Un circuito receptor óptico que comprende: al menos un foto detector configurado para convertir una señal de luz recibida en una señal de corriente de […]
Usos de sensores de movimiento en sistemas de comunicación, del 21 de Marzo de 2019, de QUALCOMM INCORPORATED: Un procedimiento para reducir el consumo de energía en un dispositivo móvil , que comprende: recibir información de movimiento; establecer datos […]