Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.

Un procedimiento para controlar el procesamiento de señal de una señal de audio,

que comprende dividir dicha señal de audio en eventos auditivos detectando cambios en la composición espectral con respecto al tiempo, incluyendo dicha división:

la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio,

la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio,

la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y

el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2008/008592.

Solicitante: DOLBY LABORATORIES LICENSING CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 POTRERO AVENUE SAN FRANCISCO, CA 94103-4813 ESTADOS UNIDOS DE AMERICA.

Inventor/es: SEEFELDT,ALAN,JEFFREY, SMITHERS,MICHAEL,JOHN.

Fecha de Publicación: 30 de Marzo de 2012.

Clasificación Internacional de Patentes:

G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
H03G3/20 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03G CONTROL DE LA AMPLIFICACION (redes de impedancia, p. ej. atenuadores H03H; control de la transmisión en líneas H04B 3/04). › H03G 3/00 Control de la ganancia en los amplificadores o cambiadores de frecuencia (amplificadores controlados H03F 3/72; específicamente para los receptores de televisión H04N). › Control automático (combinado con la compresión o expansión de volumen H03G 7/00).

PDF original: ES-2377719_T3.pdf

Fragmento de la descripción:

Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.

Campo técnico

La presente invención versa, en general, acerca del procesamiento de audio y, en particular, acerca del análisis de escenas auditivas y de la oblicuidad espectral.

Referencias e Incorporación por referencia

Los siguientes documentos son incorporados al presente documento por referencia en su integridad:

Crockett y Seefeldt, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US2007/008313, titulada "Controlling Dynamic Gain Parameters of Audio using Auditory Scene Analysis and Specific-Loudness-Based Detection of Auditory Events", que nombra a Brett Graham Crockett y Alan Jeffrey Seefeldt como inventores, presentada el 30 de marzo de 2007, con Expediente de Agente DOL186 PCT, y publicada el 8 de noviembre de 2007 como WO 2007/127023;

Seefeldt y otros, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US 2004/016964, titulada "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal", que nombra a Alan Jeffrey Seefeldt y otros como inventores, presentada el 27 de mayo de 2004, con Expediente de Agente nº DOL119 PCT, y publicada el 23 de diciembre de 2004 como WO 2004/111994 A2;

Seefeldt, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US2005/038579, titulada "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal", que nombra a Alan Jeffrey Seefeldt como inventor, presentada el 25 de octubre de 2005, con Expediente de Agente nº DOL15202 PCT, y publicada el 4 de mayo de 2006 como WO 2006/047600;

Crockett, Solicitud de Patente Estadounidense con número de serie 10/474,387, titulada "High Quality Time-Scaling and Pitch-Scaling of Audio Signals", que nombra a Brett Graham Crockett como inventor, presentada el 10 de octubre de 2003, con Expediente de Agente nº DOL07503, y publicada el 24 de junio de 2004 como US 2004/0122662 A1;

Crockett y otros, Solicitud de Patente Estadounidense con número de serie 10/478,398, titulada "Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events", que nombra a Brett G. Crockett y otros como inventores, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL09201, y publicada el 29 de julio de 2004 como US 2004/0148159 A1;

Crockett, Solicitud de Patente Estadounidense con número de serie 10/478,538, titulada "Segmenting Audio Signals Into Auditory Events", que nombra a Brett G. Crockett como inventor, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL098, y publicada el 26 de agosto de 2004 como US 2004/0165730 A1;

Crockett y otros, Solicitud de Patente Estadounidense con número de serie 10/478,397, titulada "Comparing Audio Using Characterizations Based on Auditory Events", que nombra a Brett G. Crockett y otros como inventores, presentada el 20 de noviembre de 2003, con Expediente de Agente nº DOL092, y publicada el 2 de septiembre de 2004 como US 2004/0172240 A1;

Smithers, Solicitud Internacional bajo el Tratado de Cooperación de Patentes, con número de serie PCT/US 05/24630, titulada "Method for Combining Audio Signals Using Auditory Scene Analysis", que nombra a Michael John Smithers como inventor, presentada el 13 de julio de 2005, con Expediente de Agente nº DOL148 PCT, y publicada el 9 de marzo de 2006 como WO 2006/026161;

Crockett, B. y Smithers, M., "A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis", Audio Engineering Society Convention Paper 6416, 118th Convention, Barcelona, 28-31 de mayo de 2005;

Crockett, B., "High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis", Audio Engineering Society Convention Paper 5948, Nueva York, octubre de 2003; y

Seefeldt y otros, "A New Objective Measure of Perceived Loudness", Audio Engineering Society Convention Paper 6236, San Francisco, 28 de octubre de 2004.

Técnica antecedente

Eventos auditivos y detección de eventos auditivos

La división de sonidos en unidades o segmentos percibidos de forma separada y diferenciada es denominada a veces como "análisis de eventos auditivos" o "análisis de escenas auditivas" ("ASA"). Los segmentos son denominados a veces "eventos auditivos" o "eventos de audio". Albert S. Bregman, "Auditory Scene Analysis-The Perceptual Organizaron of Sound" (Massachusetts Institute of Technology, 1991, cuarta impresión, 2001, segunda edición en rústica de la MIT Press) presenta exhaustivamente el análisis de escenas auditivas. Además, Bhadkamkar y otros, patente estadounidense nº 6.002.776 (14 de diciembre de 1999) cita publicaciones que se remontan a 1976 como "investigaciones de la técnica anterior relativas a la separación de sonidos por medio del análisis de escenas auditivas". Sin embargo, Bhadkamkar y otros desalientan el uso práctico del análisis de escenas auditivas, llegando a la conclusión de que las "[t]écnicas que implican el análisis de escenas auditivas, aunque interesantes desde el punto de vista científico como modelos del procesamiento auditivo humano, son en la actualidad demasiado exigentes y especializadas desde el punto de vista del cálculo como para ser consideradas técnicas prácticas para la separación de sonidos hasta que se logre un progreso fundamental".

Crockett y Crocket y otros, en las diversas solicitudes de patente y en las monografías enumeradas más arriba, identifican los eventos auditivos. Esos documentos enseñan la división de una señal de audio en eventos auditivos (cada uno de los cuales tiende a ser percibido como separado y diferenciado) detectando cambios en la composición espectral (amplitud como función de la frecuencia) con respecto al tiempo. Esto puede realizarse, por ejemplo, calculando el contenido espectral de sucesivos bloques temporales de la señal de audio, comparando el contenido espectral entre bloques temporales sucesivos e identificando un límite de los eventos auditivos como el límite entre bloques en los que la diferencia en el contenido espectral supera un umbral. Alternativamente, pueden calcularse los cambios en la amplitud con respecto al tiempo en lugar de o en adición a los cambios en la composición espectral con respecto al tiempo.

Los marcadores de los límites de eventos auditivos están dispuestos a menudo en una señal de control temporal por lo que el intervalo, típicamente de cero a uno, indica la intensidad del límite del evento. Además, esta señal de control es a menudo filtrada, de forma que permanece la intensidad del límite del evento, y los intervalos temporales entre los límites de los eventos se calculan como valores en decaimiento del límite de evento precedente. Esta intensidad filtrada del evento auditivo es usada entonces por otros procedimientos de procesamiento de audio, incluyendo el control automático de ganancia y el control dinámico de gama.

Procesamiento de audio por dinámica

Las técnicas de control automático de ganancia (AGC) y de control dinámico de gama (DRC) son bien conocidas y comunes en muchos recorridos de señales de audio. En un sentido abstracto, ambas técnicas miden el nivel de una señal de audio y luego modifican la ganancia de la señal en una cantidad que es función del nivel medido. En un sistema lineal 1:1 de procesamiento de dinámica, el audio de entrada no es procesado e, idealmente, la señal de audio de salida coincide con la señal de audio de entrada. Además, imaginemos un sistema de procesamiento de audio por dinámica que mida automáticamente la señal de entrada y controle con esa medida la señal de salida. Si la señal de entrada aumenta su nivel en 6 dB y la señal procesada de salida aumenta su nivel en solo 3 dB, entonces la señal de salida ha sido comprimida en una proporción de 2:1 con respecto a la señal de entrada.

En Crockett y Seefeldt, el análisis de escenas auditivas mejora el rendimiento de los procedimientos de AGC y DRC minimizando el cambio en ganancia entre los límites de los eventos auditivos y confinando gran parte del cambio en ganancia a las inmediaciones de un límite de eventos. Esto lo realiza modificando el comportamiento de liberación del procesamiento de dinámica. Así, los eventos auditivos suenan coherentes y naturales.

Las notas tocadas en un piano son un ejemplo.... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para controlar el procesamiento de señal de una señal de audio, que comprende dividir dicha señal de audio en eventos auditivos detectando cambios en la composición espectral con respecto al tiempo, incluyendo dicha división:

la detección de la ubicación y de la intensidad de los límites de los eventos auditivos en dicha señal de audio,

la obtención de una medida de la oblicuidad espectral de dicha señal de audio, en el que la oblicuidad espectral es una medida estadística de la asimetría de la distribución de probabilidad del espectro de la señal de audio,

la modificación de la intensidad de un evento auditivo en respuesta a dicha medida, de modo que cuanto menos oblicuo sea el espectro en la ubicación de un evento auditivo, más se reduce la intensidad del evento auditivo, y

el control del procesamiento de señal en respuesta a la intensidad modificada en ubicación e intensidad de dicho evento auditivo.

2. Un procedimiento según la reivindicación 1 en el que la división de dicha señal de audio en eventos auditivos incluye el análisis del espectro de la señal de audio.

3. Un procedimiento según la reivindicación 2 en el que la obtención de una medida de la oblicuidad espectral de la señal de audio incluye el cálculo de la oblicuidad a partir de una representación espectral de la señal de audio.

4. Un procedimiento según la reivindicación 3 en el que el cálculo de la oblicuidad incluye el cálculo de una señal de excitación que se aproxima a la distribución de energía a lo largo de la membrana basilar del oído interno.

5. Un procedimiento según la reivindicación 1 en el que la división de dicha señal de audio en eventos auditivos incluye la transformación de la señal de audio en un dominio de sonoridad perceptiva, incluyendo dicha transformación el cálculo de una señal de excitación que se aproxima a la distribución de energía a lo largo de la membrana basilar del oído interno.

6. Un procedimiento según la reivindicación 5 en el que la obtención de una medida de la oblicuidad espectral de la señal de audio incluye el cálculo de la oblicuidad a partir de dicha señal de excitación.

7. Un procedimiento según una cualquiera de las reivindicaciones 1-6 en el que dicha medida de la oblicuidad espectral es una medida estabilizada.

8. Un aparato que comprende medios adaptados para llevar a cabo el procedimiento de una cualquiera de las reivindicaciones 1 a 7.

9. Un programa de ordenador, almacenado en un medio legible por ordenador, que, cuando es ejecutado en un ordenador, lleva a cabo el procedimiento de una cualquiera de las reivindicaciones 1 a 7.

10. Una memoria legible por ordenador que contiene el programa de ordenador de la reivindicación 9.

11. Un sistema de ordenador que comprende:

una CPU:

la memoria de la reivindicación 10; y

un bus que acopla de forma comunicativa la CPU y la memoria.

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]