Tanscodificador de formatos de audio.
Un transcodificador de formato de audio (100) para transcodificar una señal de audio de entrada,
la señal de audiode entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende:
un convertidor (110) para convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene unarepresentación de señal convertida y una dirección de llegada de señal convertida;
un proveedor de posición (120) para proveer por lo menos dos posiciones espaciales de por lo menos dos fuentesde audio espaciales y
un procesador (130) para procesar la representación de señal convertida en base a las por lo menos dos posicionesespaciales y la dirección de llegada de señal convertida para obtener por lo menos dos medidas de fuente de audioseparadas,
en donde el procesador (130) es apto para determinar un factor de ponderación para cada una de las por lo menosdos fuentes de audio separadas y
en donde el procesador (130) es apto para procesar la representación de señal convertida en términos de por lomenos dos filtros espaciales (311, 322, 31N) que dependen de los factores de ponderación para aproximar por lomenos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lomenos dos medidas de audio separadas o en donde el procesador (130) es apto para estimar (402) una informaciónde energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación deseñal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/056252.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: HERRE, JURGEN, DEL GALDO,Giovanni, KALLINGER,Markus, THIERGART,OLIVER, FALCH,CORNELIA, KÜCH,FABIAN.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/008 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codificación de señales de audio multicanalde o de decodificación mediante la correlación entre canales para reducir la redundancia, p. ej. estéreo conjunto, codificación de la intensidad o matrizado.
- G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
- G10L21/0272 G10L 21/00 […] › Separación de la señal de voz.
PDF original: ES-2426136_T3.pdf
Fragmento de la descripción:
Tanscodificador de formatos de audio [0001] La presente invención es con el campo de transcodificación de formatos de audio, especialmente la transcodificación de formatos de codificación paramétricos.
Recientemente, varias técnicas paramétricas para la codificación de señales de audio de multicanal/multiobjetos han sido propuestas. Cada sistema tiene ventajas y desventajas únicas, sus características tales como el tipo de caracterización paramétrica, dependencia/independencia de una instalación de altavoces específica, etc. Diferentes técnicas, paramétricas son optimizadas para diferentes estrategias de codificación.
Como un ejemplo el formato de codificación de audio direccional (DIRAC) para la representación del sonido multi-canal está basado en una señal de mezcla descendente e información lateral que contienen los parámetros de dirección y difusividad para un número de sub-bandas de frecuencia. Debido a esta parametrización, el sistema de DIRAC puede ser usado para implementar fácilmente, por ejemplo filtración direccional y de esta manera para aislar sonido que se origina de una dirección particular en relación con un arreglo de micrófono usado para captar el sonido. De esta manera, DIRAC puede también ser considerado como un extremo frontal acústico que es apto de cierto procesamiento espacial.
Como un ejemplo adicional, Spatial Audio Object Coding (SAOC) ISO/IEC, “MPEG audio technologies – Part.
2: Spatial Audio Object Coding (SAOC) ”, ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2, J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC to SAOC – Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007, J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert,
A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC)
– The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008, Preprint 7377, es un sistema de codificación paramétrico que representa escenas de audio que contienen múltiples objetos de audio de una manera eficiente en velocidad de bits.
Aquí, la representación está basada en una señal de mezcla descendente e información lateral paramétrica. En contraste con DIRAC, que tiene como objetivo representar la escena de sonido espacial original como fue captada por el arreglo de micrófonos, SAOC no tiene como objetivo para reconstruir una escena de sonido natural. En lugar de esto, un número de objetos de audio (fuentes de sonido) son transmitidos y son combinados en un descodificador de SAOC a una escena de sonido objetivo de acuerdo con las preferencias del usuario en la terminal del descodificador, esto es, el usuario puede colocar y manipular libre e interactivamente cada uno de los objetos de sonido.
En general, en la reproducción y escucha de multi-canal, un usuario está rodeado por múltiples altavoces. Existen varios procedimientos para capturar señales de audio para instalaciones específicas. Un objeto general en la reproducción es reproducir la composición espacial de una señal grabada originalmente, esto es, el origen de una fuente de audio individual, tal como la ubicación de una trompeta en una orquesta. Varias instalaciones de altavoces son bastante comunes y pueden crear diferentes impresiones espaciales. Sin usar técnicas de post-producción especiales, los montajes estéreo de dos canales comúnmente conocidos pueden solamente recrear eventos auditivos en una línea entre los dos altavoces. Esto es obtenido principalmente mediante la llamada “toma panorámica de amplitud”, en donde la amplitud de la señal asociada con una fuente de audio es distribuida entre los dos altavoces dependiendo de la posición de la fuente de audio con respecto a los altavoces. Esto se hace usualmente durante la grabación o mezcla subsecuente. Esto es, una fuente de audio procedente de la izquierda lejana con respecto a la posición de escucha será reproducida principalmente por el altavoz izquierdo, mientras que una fuente de audio enfrente de la posición de escucha será reproducida con amplitud (nivel) idéntica por ambos altavoces. Sin embargo, el sonido que emana de otras direcciones no puede ser reproducido.
Consecuentemente, al usar más altavoces que están colocados alrededor del usuario, se pueden cubrir más direcciones y se puede crear una impresión espacial más natural. La disposición física de altavoz de multi-canal probablemente más bien conocida es el estándar 5.1 (ITU-R775-1) , que consiste de 5 altavoces, cuyos ángulos acimutales con respecto a la posición de escucha son predeterminados para ser de 0°, ±30° y ±110°. Eso significa que durante la grabación o mezcla, la señal es confeccionada a aquella configuración de altavoces específica y desviaciones de un montaje de reproducción del estándar dará como resultado calidad de reproducción disminuida.
También se han propuesto numerosos otros sistemas con números variables de altavoces ubicados en direcciones diferentes. Sistemas profesionales, especialmente en cines e instalaciones de sonido, también incluyen altavoces a diferentes alturas.
De acuerdo con los diferentes montajes de reproducción, varios procedimientos de grabación diferentes han sido diseñados y propuestos para los sistemas de altavoz mencionados previamente, con el fin de grabar y reproducir la impresión espacial en la situación de escucha como habría sido percibida en el medio ambiente de grabación. Una manera teóricamente ideal de grabar sonido espacial para un sistema de altavoces multi-canal escogido sería usar el mismo número de micrófonos como altavoces. En tal caso, los patrones de directividad de los micrófonos deben también corresponder a la disposición física de altavoces, de tal manera que el sonido de cualquier dirección individual solamente grabado con un número pequeño de micrófonos (1, 2 o más) . Cada micrófono está asociado a un altavoz específico. Mientras más altavoces son usados en la reproducción, más estrechos son los patrones de directividad de los micrófonos tiene que ser. Sin embargo, los micrófonos direccionales estrechos son más bien caros y comúnmente tienen una respuesta de frecuencia no plana, degradando la calidad del sonido grabado de manera indeseable. Además, usando varios micrófonos con patrones de directividad demasiado amplia como entrada a la reproducción de multi-canal da como resultado una percepción auditiva coloreada y borrosa debido al hecho de que el sonido que emana de una sola dirección siempre sería reproducido con más altavoces que lo que es necesario ya que sería grabado con micrófonos asociados a diferentes altavoces. En general, los micrófonos actualmente disponibles son mejor apropiados para grabaciones y reproducciones de dos canales, esto es, están diseñados sin el objetivo de una reproducción de una impresión espacial de los alrededores.
Desde el punto de vista de diseño de micrófono, se han discutido varios procedimientos para adaptar los patrones de directividad de micrófonos a las demandas en reproducción de audio espacial. En general, todos los micrófonos capturan sonido diferentemente dependiendo de la dirección de llegada del sonido al micrófono. Esto es, los micrófonos tienen una sensibilidad diferente, dependiendo de la dirección de llegada del sonido grabado. En algunos micrófonos, este efecto es menor, ya que capturan sonido casi independientemente de la dirección. Estos micrófonos son llamados en general micrófonos omnidireccionales. En un diseño de micrófono típico, un diafragma secular es anexado a una envolvente hermética al aire pequeña. Si el diafragma no es anexado al envolvente y el sonido llega al mismo igualmente desde cada lado, su patrón direccional tiene dos lóbulos. Esto es, tal micrófono captura sonido con igual sensibilidad de la parte frontal como de la parte posterior del diafragma, sin embargo con polaridades inversas. Tal micrófono no captura sonido procedente de la dirección coincidente al plano del diafragma, esto es, perpendicular a la dirección de sensibilidad máxima. Tal patrón direccional es llamado dipolo o de figura de ocho.
Los micrófonos omnidireccionales pueden también ser modificados a micrófonos direccionales, utilizando una envolvente no hermética al aire para el micrófono. La envolvente está construida especialmente de tal manera que se permite que las ondas de sonido se propaguen a través de la envolvente y lleguen al diafragma, en donde algunas direcciones de propagación son preferidas, de tal manera que el patrón direccional de tal micrófono se convierte en un patrón entre omnidireccional... [Seguir leyendo]
Reivindicaciones:
1. Un transcodificador de formato de audio (100) para transcodificar una señal de audio de entrada, la señal de audio de entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende:
un convertidor (110) para convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene una representación de señal convertida y una dirección de llegada de señal convertida;
un proveedor de posición (120) para proveer por lo menos dos posiciones espaciales de por lo menos dos fuentes de audio espaciales y
un procesador (130) para procesar la representación de señal convertida en base a las por lo menos dos posiciones espaciales y la dirección de llegada de señal convertida para obtener por lo menos dos medidas de fuente de audio separadas,
en donde el procesador (130) es apto para determinar un factor de ponderación para cada una de las por lo menos dos fuentes de audio separadas y
en donde el procesador (130) es apto para procesar la representación de señal convertida en términos de por lo menos dos filtros espaciales (311, 322, 31N) que dependen de los factores de ponderación para aproximar por lo menos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lo menos dos medidas de audio separadas o en donde el procesador (130) es apto para estimar (402) una información de energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación de señal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.
2. El transcodificador de formato de audio (100) de la reivindicación 1 para la transcodificación de una señal de entrada de acuerdo con una señal codificada de audio direccional (DirAc) , una señal de formato B o una señal de un arreglo de micrófonos.
3. El transcodificador de formato de audio (100) de una de las reivindicaciones precedentes, en el que el convertidor
(110) es apto para convertir la señal de entrada en términos de un número de bandas/subbandas de frecuencia y/o segmentos/cuadros de tiempo.
4. El transcodificador de formato de audio (100) de la reivindicación 3, en el que el convertidor (110) es apto para convertir la señal de audio de entrada a la señal convertida que comprende además una medida de difusividad y/o confiabilidad por banda de frecuencia.
5. El transcodificador de formato de audio (100) de la reivindicación 1, que comprende además un codificador de codificación de objeto de audio espacial (SAOC) para codificar las por lo menos dos señales fuente de audio separadas para obtener una señal codificada de SAOC que comprende un componente de mezcla descendente de SAOC y un componente de información lateral de SAOC.
6. El transcodificador de formato de audio (100) de la reivindicación 1, en el que el procesador (130) es apto para convertir las energías de las por lo menos dos fuentes de audio separadas a diferencias a nivel de objeto de SAOC (SAOC-OLD) .
7. El transcodificador de formato de audio (100) de la reivindicación 6, en el que el procesador (130) es apto para calcular una coherencia de inter-objeto (IOC) para las por lo menos dos fuentes de audio separadas.
8. El transcodificador de formato de audio (100) de una de las reivindicaciones 3 a 7, en el que el proveedor de posición (120) comprende un detector para detectar las por lo menos dos posiciones espaciales de las por lo menos dos fuentes de audio espaciales en base a la señal convertida, en donde el detector es apto para detectar las por lo menos dos posiciones espaciales mediante una combinación de múltiples segmentos/cuadros de tiempo de señal de entrada subsecuentes.
9. El transcodificador de formato de audio (100) de la reivindicación 8, en el que el detector es apto para detectar las por lo menos dos posiciones espaciales en base a una estimación de probabilidad máxima en cuanto a una densidad espacial de energía de la señal convertida.
10. El transcodificador de formato de audio (100) de una de las reivindicaciones 1 a 9, en el que el procesador (130) es apto para determinar además un factor de ponderación para un objeto de fondo adicional, en donde los factores de ponderación son de tal manera que la suma de las energías asociadas con las por lo menos dos fuentes de audio separadas y el objeto de fondo adicional igualan la energía de la representación de señal convertida.
11. Un procedimiento para la transcodificación de una señal de audio de entrada, la señal de audio de entrada tiene por lo menos dos componentes de audio direccionales, caracterizado porque comprende las etapas de:
convertir la señal de audio de entrada a una señal convertida, la señal convertida tiene una representación de señal convertida y la dirección de llegada de señal convertida;
proveer por lo menos dos posiciones espaciales de las por lo menos dos fuentes de audio espaciales y
procesar la representación de señal convertida en base a las por lo menos dos posiciones espaciales para obtener 5 las por lo menos dos medidas fuente de audio separadas,
en donde la etapa de procesamiento comprende:
determinar (303) un factor de ponderación para cada una de las por lo menos dos fuentes de audio separadas y
procesar la representación de señal convertida usando por lo menos dos filtros espaciales (311, 312, 31N) que dependen de los factores de ponderación para aproximar por lo menos dos fuentes de audio aisladas con por lo menos dos señales fuente de audio separadas como las por lo menos dos medidas fuente de audio separadas o estimar (402) una información de energía para cada una de las por lo menos dos fuentes de audio separadas dependiendo de la representación de la señal convertida y de los factores de ponderación como las por lo menos dos medidas fuente de audio separadas.
12. Un programa de computadora adaptado para efectuar el procedimiento de la reivindicación 11, cuando el 15 programa de computadora se ejecuta en una computadora o un procesador.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]