Segmentación de señales de audio en eventos auditivos.

Un método para dividir cada uno de los múltiples canales de señales de audio digital en eventos auditivos,

quecomprende:

detectar cambios en el contenido espectral con respecto al tiempo en la señal de audio en cada uno de los canales(5.2), donde los cambios en el contenido espectral se calculan en el dominio logaritmo,

identificar los límites de evento auditivo en la señal de audio de un canal (5-3), donde cada límite es la respuesta aun cambio en el contenido espectral con respecto al tiempo en el canal que supera un umbral de tal manera que seobtiene un conjunto de límites de evento auditivo para cada canal, y cada segmento de audio en un canal entrelímites consecutivos constituye un evento auditivo, e

identificar un límite de evento auditivo combinado para los canales en respuesta a la identificación de un límite deevento auditivo en cualquier canal.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2002/005999.

Solicitante: DOLBY LABORATORIES LICENSING CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 100 POTRERO AVENUE SAN FRANCISCO, CALIFORNIA 94103-4813 ESTADOS UNIDOS DE AMERICA.

Inventor/es: CROCKETT,BRETT,G.

Fecha de Publicación: 11 de Abril de 2013.

Clasificación Internacional de Patentes:

G06K9/00 FISICA. › G06 CALCULO; CONTEO. › G06K RECONOCIMIENTO DE DATOS; PRESENTACION DE DATOS; SOPORTES DE REGISTROS; MANIPULACION DE SOPORTES DE REGISTROS (impresión per se B41J). › Métodos o disposiciones para la lectura o el reconocimiento de caracteres impresos o escritos o el reconocimiento de formas, p. ej. de huellas dactilares (métodos y disposiciones para la lectura de grafos o para la conversión de patrones de parámetros mecánicos, p.e. la fuerza o la presencia, en señales eléctricas G06K 11/00; reconocimiento de la voz G10L 15/00).
G10L11/00
G10L15/04 G […] › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Segmentación o detección de los límites de las palabras; Word boundary detection.
G10L17/00 G10L […] › Identificación o verificación de la persona que habla.
G10L21/04 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Compresión o expansión temporales.
H04N5/60 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 5/00 Detalles de los sistemas de televisión (Detalles de los dispositivos de análisis o sus combinaciones con la producción de la tensión de alimentación H04N 3/00). › para las señales de sonido.

PDF original: ES-2400700_T3.pdf

Fragmento de la descripción:

Segmentación de señales de audio en eventos auditivos

Campo técnico La presente invención pertenece al campo del procesamiento psicoacústico de señales de audio. En particular, la invención se refiere a aspectos de la división o segmentación de señales de audio en “eventos auditivos”, cada uno de los cuales tiende a ser percibido como separado y distinto, y a aspectos de la generación de representaciones de información reducida de señales de audio en base a eventos auditivos y, opcionalmente, también en base a las características o rasgos de señales de audio dentro de tales eventos auditivos. Los eventos auditivos pueden ser útiles como definen los “Segmentos de Audio” MPEG-7 como se propone por la “ISO/IEC.ITC 1/SC 29/WG 11.”

Antecedentes de la técnica La división de sonidos en unidades o segmentos percibidos como separados y distintos se denomina “análisis de eventos auditivos” o “análisis de escenas auditivas” (ASA, del inglés “Auditor y Scene Analysis”) . Se establece una amplia discusión del análisis de escenas auditivas por Albert S. Bregman en su libro Auditor y Scene Analysis - The Perceptual Organization of Sound, (Massachusetts Institute of Technology, 1991, cuarta edición, 2001, Second MIT Press paperback edition) . Además, la patente de Estados Unidos 6.002.776 de Bhadkamkar, y otros, 14 de diciembre de 1999, cita publicaciones que datan de 1979 como “trabajo de la técnica anterior relacionado con la separación del sonido por el análisis de escenas auditivas”. Sin embargo, la patente de Bhadkamkar, y otros, desincentiva el uso práctico del análisis de escenas auditivas, concluyendo que “las técnicas que impliquen análisis de escenas auditivas, aunque interesantes desde un punto de vista científico como modelos del procesamiento auditivo humano, son actualmente demasiado especializadas y exigentes computacionalmente para ser consideradas técnicas prácticas para separar el sonido hasta que se haga un progreso fundamental”.

Hay muchos métodos diferentes para extraer características o rasgos del audio. Siempre que las características o rasgos estén adecuadamente definidos, su extracción se puede realizar usando procesos automatizados. Por ejemplo, la “ISO/IEC.ITC 1/SC 29/WG 11” (MPEG) está estandarizando actualmente una variedad de descriptores de audio como parte del estándar MPEG-7. Una deficiencia común de tales métodos es que ignoran el análisis de escenas auditivas. Tales métodos buscan medir, periódicamente, ciertos parámetros de procesamiento de señales “clásicos” tales como tono, amplitud, potencia, estructura armónica y planicidad espectral. Tales parámetros, aunque proporcionan información útil, no analizan y caracterizan señales de audio en elementos percibidos como separados y distintos de acuerdo con la cognición humana. Sin embargo, los descriptores MPEG-7 pueden ser útiles para caracterizar un Evento Auditivo identificado de acuerdo con aspectos de la presente invención.

El documento “Sound onset detection by applying psychoacoustic knowledge" de A. Klapuri (ICASSP, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING - PROCEEDINGS 1999 IEEE, vol. 6, 15 de marzo de 1999, páginas 3089-3092, XP010328057, DOI: DOI: 10.1109/ICASSP.199.757494, ISBN: 978-0-7803-5041-0) divulga un sistema para detectar comienzos perceptuales de sonidos en señales acústicas, donde el sistema determina principios de sonido que tienen imperfecciones de comienzo y utiliza procesamiento en modo banda y un modelo psicoacústico de codificación de intensidad para combinar resultados de varias bandas de frecuencia.

El documento “Tempo and beat analysis of acoustic signals" de E. Scheirer (THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS FOR THE ACOUSTICAL SOCIETY OF AMERICA, NUEVA YORK, NY, EE.UU., vol. 103, nº 1, 1 de enero de 1998, páginas 588-601, XP012000051, ISSN: 0001-4966, DOI: DOI: 10.1121/1.421129) divulga un método para usar un número reducido de filtros de paso de banda y bancos de filtros de peine paralelos para analizar el tempo y extraer el compás de señales musicales.

El documento “Computer modeling of sound for transformation and synthesis of musical signals" de P. Masri (Thesis 1 de diciembre de 1996, véase www.mp3-tech.org/programmer/docs/Masri_thesis.pdf) , capítulo cinco "improved synthesis of attack transients", p. 125 - 147, divulga métodos para la detección y ubicación de eventos transitorios en base a la distribución de energía (véase la sub-sección 5.2.1) , la envolvente de ataque (véase la sub-sección 5.2.2) , y la disimilitud espectral (véase la sub-sección 5.2.3) .

Sumario de la invención De acuerdo con la presente invención, se proporciona un método para dividir cada uno de los múltiples canales de señales de audio digital en eventos auditivos de acuerdo con la reivindicación 1. Reivindicaciones dependientes se refieren a realizaciones preferidas de la presente invención.

Según aspectos de la presente invención, se proporciona un proceso eficiente computacionalmente para dividir audio en segmentos temporales o “eventos auditivos” que tienden a ser percibidos como separados o distintos. Las ubicaciones de los límites de estos eventos auditivos (dónde comienzan y finalizan con respecto al tiempo) proporcionan información valiosa que se puede utilizar para describir una señal de audio. Las ubicaciones de los límites de un evento auditivo se pueden ensamblar para generar una representación de información reducida, “firma”

o “huella dactilar” de una señal de audio que pueda ser almacenada para uso, por ejemplo, en análisis comparativos con otras firmas generadas similarmente (como, por ejemplo, en una base de datos de trabajos conocidos) .

Bregman observa que “oímos unidades discretas cuando el sonido cambia abruptamente de timbre, tono, volumen,

o (en menor medida) ubicación en el espacio” (Auditor y Scene Analysis - The Perceptual Organization of Sound, arriba en página 469) . Bregman también discute la percepción de corrientes de sonido múltiples y simultáneas cuando, por ejemplo, están separadas en frecuencia.

Con el fin de detectar cambios en timbre y tono y ciertos cambios en amplitud, el proceso de detección de eventos de audio según un aspecto de la presente invención detecta cambios en la composición espectral con respecto al tiempo. Cuando se aplica a una disposición de sonido multicanal en la que los canales representan direcciones en el espacio, el proceso según un aspecto de la presente invención también detecta eventos auditivos que resultan de cambios en la ubicación espacial con respecto al tiempo. Opcionalmente, según otro aspecto de la presente invención, el proceso también puede detectar cambios en amplitud con respecto al tiempo que no serían detectados detectando cambios en la composición espectral con respecto al tiempo.

En su implementación menos exigente computacionalmente, el proceso divide el audio en segmentos de tiempo analizando toda la banda de frecuencia (audio con ancho de banda completo) o sustancialmente toda la banda de frecuencia (en implementaciones prácticas, se emplea a menudo un filtrado de limitación de banda en los extremos del espectro) y dando el mayor peso a las componentes de señales de audio más fuertes. Este enfoque aprovecha un fenómeno psicoacústico en el cual, en escalas de tiempo más pequeñas (20 milisegundos (ms) y menos) , el oído puede tender a enfocarse en un único evento auditivo en un tiempo dado. Esto implica que, aunque pueden estar sucediendo múltiples eventos auditivos al mismo tiempo, una componente tiende a ser perceptualmente más prominente y se puede procesar individualmente como si fuera el único evento que estuviera teniendo lugar. Aprovechar este efecto también permite que la detección del evento auditivo se escale con la complejidad del audio que se está procesando. Por ejemplo, si la señal de audio de entrada que se está procesando es un solo de un instrumento, los eventos auditivos que se identifican serán probablemente las notas individuales que se están tocando. Del mismo modo para una señal de voz de entrada, las componentes individuales del discurso, las vocales y consonantes por ejemplo, serán identificadas probablemente como elementos de audio individuales. Según aumenta la complejidad del audio, tal como música con un toque de tambor o múltiples instrumentos y voz, la detección del evento auditivo identifica el elemento de audio “más prominente” (es decir, el más fuerte) en cualquier momento dado. Alternativamente,... [Seguir leyendo]

Reivindicaciones:

1. Un método para dividir cada uno de los múltiples canales de señales de audio digital en eventos auditivos, que comprende:

detectar cambios en el contenido espectral con respecto al tiempo en la señal de audio en cada uno de los canales (5.2) , donde los cambios en el contenido espectral se calculan en el dominio logaritmo,

identificar los límites de evento auditivo en la señal de audio de un canal (5-3) , donde cada límite es la respuesta a un cambio en el contenido espectral con respecto al tiempo en el canal que supera un umbral de tal manera que se obtiene un conjunto de límites de evento auditivo para cada canal, y cada segmento de audio en un canal entre límites consecutivos constituye un evento auditivo, e identificar un límite de evento auditivo combinado para los canales en respuesta a la identificación de un límite de evento auditivo en cualquier canal.

2. Un método de acuerdo con la reivindicación 1, en el que el audio en respectivos canales representa respectivas direcciones en el espacio.

3. Un método de acuerdo con la reivindicación 1, en el que el audio en respectivos canales representa bandas de frecuencia de una señal de audio.

4. Un método de acuerdo con una cualquiera de las reivindicaciones 1-3, en el que dichos cambios de detección en el contenido espectral con respecto al tiempo en la señal de audio en cada uno de los canales incluye dividir la señal de audio en bloques de tiempo y convertir los datos en cada bloque al dominio frecuencia.

5. Un método de acuerdo con la reivindicación 4, en el que dichos cambios de detección en el contenido espectral con respecto al tiempo en la señal de audio en cada uno de los canales detectan los cambios en el contenido espectral entre sucesivos bloques de tiempo de la señal de audio en cada uno de los canales.

6. El método de la reivindicación 5, en el que los datos de audio en bloques de tiempo consecutivos se representan por coeficientes y dichos cambios de detección en el contenido espectral entre sucesivos bloques de tiempo de la señal de audio en cada uno de los canales incluye:

convertir dichos coeficientes al dominio logaritmo, y

substraer coeficientes de un bloque de los coeficientes correspondientes de un bloque adyacente.

7. El método de la reivindicación 6, en el que detectar cambios en el contenido espectral entre sucesivos bloques de tiempo de la señal de audio en cada uno de los canales incluye además:

sumar las magnitudes de las diferencias resultantes de sustraer coeficientes de un bloque de coeficientes correspondientes de un bloque adyacente, y

comparar las magnitudes sumadas con un umbral.

8. El método de reivindicación 7, en el que un límite de evento auditivo se identifica cuando las magnitudes sumadas superan dicho umbral.

9. El método de la reivindicación 4, en el que dicho método comprende además asignar una característica a uno o más de los eventos auditivos.

10. El método de la reivindicación 5, en el que características asignables a uno o más de los eventos auditivos incluyen uno o más de: la sub-banda dominante del espectro de frecuencia del evento auditivo, una medida de potencia del evento auditivo, una medida de amplitud del evento auditivo, una medida de planicidad espectral del evento auditivo, dónde el evento auditivo es sustancialmente silencioso, y dónde el evento auditivo incluye un transitorio.

11. El método de la reivindicación 10, que comprende además formatear y almacenar los límites de evento auditivo e identificar las características asignadas a eventos auditivos.

12. El método de cualquiera de las reivindicaciones 1 a 4, que comprende además formatear y almacenar los límites de evento auditivo.

13. El método de la reivindicación 4, en el que dichos cambios de detección en el contenido espectral con respecto al tiempo en la señal de audio en cada uno de los canales detecta además cambios en amplitud entre sucesivos

bloques de tiempo de la señal de audio en cada uno de los canales.

14. El método de la reivindicación 3, en el que dichos cambios en la amplitud se detectan por el grado en que se normalizan los datos del dominio frecuencia.

Patentes similares o relacionadas:

Método y aparato de autentificación de identidad, terminal y servidor, del 29 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un método de autenticación de identidad, en donde el método comprende: adquirir información de rasgos faciales de un usuario y utilizar la información […]

Sistema de generación de marcador y método, del 29 de Julio de 2020, de NEC CORPORATION: Un sistema de generación de marcador que comprende: medios de entrada de imagen de vídeo para proporcionar como entrada una imagen de vídeo; […]

Dispositivo de procesamiento de imágenes, método de procesamiento de imágenes y programa, del 29 de Julio de 2020, de RAKUTEN, INC: Dispositivo de procesamiento de imágenes, que comprende: medios de obtención de imágenes captadas para la lectura de datos […]

PROCEDIMIENTO Y DISPOSITIVO DE REGISTRO AUTOMÁTICO DE LA LOCOMOCIÓN DE NEMATODOS U ORGANISMOS PEQUEÑOS DE TAMAÑOS SIMILARES POR INTERFEROMETRÍA TEMPORAL DE MICROHACES DE LUZ, del 23 de Julio de 2020, de PHYLUMTECH S.A: Procedimiento y dispositivo de registro automático de la locomoción de nematodos u organismos pequeños de tamaños similares por interferometría temporal de microhaces […]

MÉTODO PARA LA ELIMINACIÓN DEL SESGO EN SISTEMAS DE RECONOCIMIENTO BIOMÉTRICO, del 2 de Julio de 2020, de UNIVERSIDAD AUTONOMA DE MADRID: Método para eliminación del sesgo (por edad, etnia o género) en sistemas de reconocimiento biométrico, que comprende definir un conjunto de M muestras de Y personas […]

Cámara inteligente para compartir fotografías automáticamente, del 1 de Julio de 2020, de QUALCOMM INCORPORATED: Un procedimiento para compartir una imagen final utilizando un dispositivo, en el que el procedimiento es realizado por un servidor y comprende: […]

Método, dispositivo de generación de imagen y sistema para generar una medición de autenticidad de un objeto, del 1 de Julio de 2020, de SICPA HOLDING SA: Un método, llevado a cabo por un dispositivo de generación de imagen , para generar una medición de autenticidad de un objeto o para contribuir en la generación […]

Estimación de una postura basada en la silueta, del 24 de Junio de 2020, de VIZRT AG: Un método implementado por ordenador para estimar una postura de un modelo de objeto articulado , en el que el modelo de objeto articulado […]