Aparato y procedimiento para calcular una cantidad de envolventes espectrales.
Un aparato (100) para calcular una cantidad (102) de envolventes espectrales (104) derivadas por elcodificador de replicación de banda espectral (SBR),
donde el codificador SBR está adaptado para codificar una señalde audio (105) utilizando una pluralidad de valores de muestra dentro de una cantidad predeterminada de porciones detiempo subsecuentes (110) en un cuadro SBR que se extiende desde un tiempo inicial (t0) a un tiempo final (tn), la cantidad predeterminada de porciones de tiempo subsecuentes (110) se disponen en una secuencia de tiempo dada porla señal de audio (105), el aparato (100) comprende:
Un calculador de valor de decisión (120) para determinar un valor de decisión (125), el valor de decisión (125) mide unadesviación en la distribución de energía espectral de un par de porciones de tiempo vecinas;
Un detector (130) para detectar una violación (135) de un valor umbral por medio del valor de decisión (125);
Un procesador (140) para determinar un primer borde de envolvente (145) entre el par de porciones de tiempo vecinascuando se detecta violación (135) del valor umbral;
Un procesador (150) para determinar un segundo borde de envolvente (155) entre un par de porciones de tiempovecinas diferente o en el tiempo inicial (t0) o en el tiempo final (tn) para una envolvente con el primer borde deenvolvente (145) basado en la violación (135) del valor umbral para el otro par o basado en una posición temporal del par o del par diferente en el cuadro SBR; y
Un procesador de cantidad (160) para establecer la cantidad (102) de envolventes espectrales (104) con el primer bordede envolvente (145) y el segundo borde de envolvente (155),
donde la cantidad predeterminada de porciones de tiempo (110) es igual a n con bordes n-1 entre porciones detiempo vecinas (110), numeradas y ordenadas con respecto al tiempo para que los bordes comprendan bordes pares e impares, y donde el procesador de cantidad (160) está adaptado para establecer n como la cantidad (102) deenvolvente espectral (104) si el detector (130) detecta la violación (135) en un borde impar, o
donde el detector (150) está adaptado para determinar el segundo borde (155) de modo tal que las envolventesespectrales (104) comprendan una misma longitud temporal y la cantidad (102) de envolventes espectrales (104) seauna potencia de dos, o
en el que el aparato (100) comprende además una unidad de decisión de conmutación (370) configurada para proveeruna señal de decisión de conmutación (371), la señal de decisión de conmutación (371) señaliza una señal de audio deltipo voz y una señal de audio general del tipo audio, donde el detector (130) está adaptado para disminuir el valorumbral para señales de audio del tipo voz.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004523.
Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..
Nacionalidad solicitante: Alemania.
Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.
Inventor/es: GRILL, BERNHARD, POPP, HARALD, GAYER,MARC, RETTELBACH,NIKOLAUS, LOHWASSER,MARKUS, MULTRUS,MARKUS, JANDER,Manuel, NEUENDORF,Max, KRAEMER,Ulrich, NAGEL,Frederik, BACIGALUPO,VIRGILIO.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
PDF original: ES-2398627_T3.pdf
Fragmento de la descripción:
Aparato y procedimiento para calcular una cantidad de envolventes espectrales [0001] La presente invención se relaciona con un aparato y un procedimiento para calcular una cantidad de envolventes espectrales, un codificador de audio y un procedimiento para codificar señales de audio.
La codificación de audio y la codificación de voz naturales constituyen dos mayores tareas de los codificadores para las señales de audio. La codificación de audio natural es comúnmente utilizada para señales de música o señales arbitrarias a tasa de bits media y generalmente ofrece amplios anchos de banda de audio. Por otro lado, los codificadores de voz están básicamente limitados a la reproducción de voz, pero también pueden utilizarse a una tasa de bits muy baja. El discurso en banda ancha ofrece una mayor mejora de calidad subjetiva que el discurso de banda estrecha. El aumento de ancho de banda no sólo mejora la inteligibilidad y naturaleza del discurso, sino también el reconocimiento del interlocutor. La codificación de voz de banda ancha es, por lo tanto, un tema importante para la próxima generación de sistemas telefónicos. Además, debido al tremendo crecimiento del campo de la multimedia, la transmisión de música y demás señales diferentes a las de voz de alta calidad en los sistemas telefónicos es una característica deseable.
Para reducir de manera drástica la tasa de bits, se puede realizar una codificación de fuente utilizando codificadores de audio percepcionales de banda dividida. Estos codificadores de audio naturales explotan la irrelevancia percepcional y redundancia estadística en la señal. Asimismo, es común reducir la tasa de muestreo y, por lo tanto el ancho de banda de audio. Es también común disminuir la cantidad de niveles de composición, permitiendo en forma ocasional una distorsión de cuantización auditiva y emplear una degradación del campo estéreo a través de la codificación de intensidad. El uso excesivo de dichos procedimientos da por resultado una degradación percepcional engorrosa. Con el fin de mejorar el desempeño de codificación, se utiliza la replicación de banda espectral como procedimiento eficiente para generar señales de frecuencia alta en un codificador basado en la reconstrucción de frecuencia alta (HFR, por su sigla en inglés) .
La replicación de banda espectral (SBR, por su sigla en inglés) comprende una técnica que obtuvo popularidad como complemento de los codificadores de audio preceptúales populares como el MP3 y la codificación de audio avanzada (AAC, por su sigla en inglés) . Un ejemplo de enfoque SBR se describe en US 2008/0120116A1. SBR comprende un procedimiento de ampliación de ancho de banda donde la banda baja (banda base o banda núcleo) del espectro es codificada utilizando un codificador de vanguardia, mientras que la banda superior (o banda alta) es parametrizada en forma gruesa utilizando pocos parámetros. SBR hace uso de una correlación entre la banda baja y la banda alta prediciendo la señal con señal más ancha desde la banda inferior utilizando los rasgos de la banda alta extraída. Este procedimiento es usualmente suficiente, ya que el oído humano es menos sensible a las distorsiones en la banda más alta en comparación con la banda inferior. Los nuevos codificadores de audio, por lo tanto, codifican el espectro menor, utilizando, por ejemplo, MP3 o AAC (sigla en inglés correspondiente a la traducción codificación de audio avanzada) , mientras que la banda mayor es codificada utilizando SBR. La clave para el algoritmo SBR es la información utilizada para describir la porción de frecuencia mayor de la señal. El objetivo primario del diseño de este algoritmo es reconstruir el mayor espectro de banda sin introducir artefactos (que en este contexto significa una pérdida de datos por compresión defectuosa) y proveer una buena resolución espectral y temporal. Por ejemplo, un banco de filtro polifase con valor complejo de 64 bandas es utilizado en la porción de análisis y en el codificador; el banco de filtro es utilizado para obtiene, por ejemplo, muestras de energía de la banda alta de la señal de entrada original. Estos muestreos de de energía pueden ser utilizados como valores de referencia para un esquema de ajuste de envolventes en el decodificador.
Las envolventes espectrales se refieren a una distribución espectral grosera de la señal en sentido general y comprenden por ejemplo, coeficientes de filtro en un codificador basado en la predicción linear o un conjunto de promedios de tiempo-frecuencia de muestras de sub-bandas en un codificador de sub-banda. Los datos de la envolvente se refieren, a su vez, a la envolvente espectral cuantizada y codificada. Especialmente si la banda de frecuencia menor es codificada con baja, los datos de la envolvente constituyen una mayor parte de la secuencia de bits. Por ende, es importante representar la envolvente espectral en forma compacta al utilizar especialmente velocidades binarias menores.
La replicación de banda espectral utiliza herramientas, basadas en una replicación de, por ejemplo, secuencias de armonía, truncadas durante la codificación. Asimismo, ajusta la envolvente espectral de la banda alta generada y aplica un filtrado inverso y agrega componentes de ruido y armonía con el fin de recrear las características espectrales de la señal original. Por lo tanto, la entrada de la herramienta SBR comprende, por ejemplo los datos de la evolvente cuantizados, datos de control varios, una señal en dominio de tiempo desde el codificador de núcleo (por ejemplo AAC
o MP3) . La salida de la herramienta SBR es una señal en dominio de tiempo o una representación de señal en dominio QMF (por su sigla en inglés) (QMF = filtro espejo en cuadratura) como, por ejemplo, en caso de utilizar la herramienta de sonido envolvente MPEG. La descripción de los elementos de secuencia de bits para la carga útil SBR puede hallarse en las Normas ISO/IEC 14496-3:2005, sub-cláusula 4.5.2.8 y comprenden entre otros datos, datos de ampliación SBR, un encabezado SBR e indica el número de envolventes SBR dentro de un cuadro SBR.
Para la implementación de un SBR del lado del codificador, se realiza un análisis en la señal de entrada. La información obtenida de este análisis es utilizada para elegir la resolución de tiempo/frecuencia apropiada y la resolución de cuadro SBR actual. El algoritmo calcula los bordes de tiempo de inicio y fin de la envolvente SBR en el cuadro SBR actual, el número de envolventes SBR como su resolución de frecuencia. Las diferentes resoluciones de frecuencia se calculan de al manera descripta, por ejemplo, en la Norma ISO/IEC 14496 3 sub-cláusula 4.6.18.3. El algoritmo también calcula el número de pisos de ruido para el cuadro SBR dado y los bordes de tiempo de inicio y fin de los mismos. Los bordes de tiempo de inicio y fin de los pisos de ruido deberían ser un sub-grupo de los bordes de tiempo de inicio y fin de las envolventes espectrales. El algoritmo divide el cuadro SBR actual en cuatro clases:
FIXFIX – El borde de tiempo frontal y posterior son iguales a los límites del cuadro SBR nominal. Todos los bordes de tiempo de la envoltura SBR en el cuadro están uniformemente distribuidos en el tiempo. El número de envolventes es una potencia entera de dos (1, 2, 4, 8, …) .
FIXVAR – El borde de tiempo frontal es igual al límite de cuadro nominal frontal. El borde de tiempo posterior es variable y puede definirse por elementos de secuencia de bits. Todos los bordes de tiempo de la envolvente SBR entre el borde de tiempo frontal y el borde de tiempo posterior pueden especificarse como la distancia relativa en franjas de tiempo al borde previo, comenzando desde el borde de tiempo posterior.
VARFIX – El borde de tiempo frontal es variable y se define por elementos de secuencia de bits. El borde de tiempo posterior es igual al límite de cuadro nominal. Todos los bordes de tiempo de la envolvente SBR entre el borde de tiempo frontal y el borde de tiempo posterior pueden especificarse en la secuencia de bits la distancia relativa en franjas de tiempo al borde previo, comenzando desde el borde de tiempo frontal.
VARVAR – El borde de tiempo frontal y posterior son variables y pueden definirse en la secuencia de bits. Todos los bordes de tiempo de la envolvente SBR entre el borde de tiempo frontal y el borde de tiempo posterior pueden también ser especificados. Los bordes de tiempo relativos comenzando desde el borde de tiempo frontal se especifican como la distancia relativa al borde previo. Los bordes de tiempo relativos comenzando desde el borde de tiempo posterior se especifican como la distancia relativa al borde previo.
No existen restricciones en las transiciones de clase de cuadro SBR,... [Seguir leyendo]
Reivindicaciones:
1. Un aparato (100) para calcular una cantidad (102) de envolventes espectrales (104) derivadas por el codificador de replicación de banda espectral (SBR) , donde el codificador SBR está adaptado para codificar una señal de audio (105) utilizando una pluralidad de valores de muestra dentro de una cantidad predeterminada de porciones de tiempo subsecuentes (110) en un cuadro SBR que se extiende desde un tiempo inicial (t0) a un tiempo final (tn) , la cantidad predeterminada de porciones de tiempo subsecuentes (110) se disponen en una secuencia de tiempo dada por la señal de audio (105) , el aparato (100) comprende:
Un calculador de valor de decisión (120) para determinar un valor de decisión (125) , el valor de decisión (125) mide una desviación en la distribución de energía espectral de un par de porciones de tiempo vecinas;
Un detector (130) para detectar una violación (135) de un valor umbral por medio del valor de decisión (125) ;
Un procesador (140) para determinar un primer borde de envolvente (145) entre el par de porciones de tiempo vecinas cuando se detecta violación (135) del valor umbral;
Un procesador (150) para determinar un segundo borde de envolvente (155) entre un par de porciones de tiempo vecinas diferente o en el tiempo inicial (t0) o en el tiempo final (tn) para una envolvente con el primer borde de envolvente (145) basado en la violación (135) del valor umbral para el otro par o basado en una posición temporal del par o del par diferente en el cuadro SBR; y
Un procesador de cantidad (160) para establecer la cantidad (102) de envolventes espectrales (104) con el primer borde de envolvente (145) y el segundo borde de envolvente (155) ,
donde la cantidad predeterminada de porciones de tiempo (110) es igual a n con bordes n-1 entre porciones de tiempo vecinas (110) , numeradas y ordenadas con respecto al tiempo para que los bordes comprendan bordes pares e impares, y donde el procesador de cantidad (160) está adaptado para establecer n como la cantidad (102) de envolvente espectral (104) si el detector (130) detecta la violación (135) en un borde impar, o donde el detector (150) está adaptado para determinar el segundo borde (155) de modo tal que las envolventes espectrales (104) comprendan una misma longitud temporal y la cantidad (102) de envolventes espectrales (104) sea una potencia de dos, o en el que el aparato (100) comprende además una unidad de decisión de conmutación (370) configurada para proveer una señal de decisión de conmutación (371) , la señal de decisión de conmutación (371) señaliza una señal de audio del tipo voz y una señal de audio general del tipo audio, donde el detector (130) está adaptado para disminuir el valor umbral para señales de audio del tipo voz.
2. El aparato (100) de la reivindicación 1, donde una longitud en el tiempo de una porción de tiempo de la cantidad predeterminada de porciones de tiempo subsecuentes (110) es igual a la longitud mínima en el tiempo, para la cual se determina una sola envolvente, y en la cual el calculador de valor de decisión (120) está adaptado para calcular un valor de decisión (125) para dos porciones de tiempo vecinas con la longitud mínima en el tiempo.
3. El aparato (100) de la reivindicación 1 o reivindicación 2, donde el procesador (140) está adaptado para fijar el primer borde (145) en la primera violación detectada (135) , y donde el procesador (150) está adaptado para fijar el segundo borde envolvente (155) después de comparar al menos otro valor de decisión (125) con el valor umbral.
4. El aparato (100) de la reivindicación 3, que además comprende un procesador de información para proveer información lateral adicional, la información lateral adicional comprende el primer borde envolvente (145) y el segundo borde envolvente (155) dentro de la secuencia de tiempo de la señal de audio (105) .
5. El aparato (100) de una de las reivindicaciones precedentes, donde el detector (130) está adaptado para investigar en un orden temporal cada borde entre las porciones de tiempo vecinas (110) .
6. El aparato (100) de la reivindicación 1, donde el detector (130) está adaptado para detectar primero la violación (135) en los bordes impares.
7. El aparato (100) de la reivindicación 1, donde la cantidad predeterminada es igual a 8, y donde el procesador de cantidad (160) está adaptado para establecer la cantidad (102) de las envolventes espectrales (104) a 1, 2, 4 u 8 de modo tal que cada envolvente espectral (104) comprende una misma longitud temporal.
8. El aparato (100) de la reivindicación 1 o la 7, donde el detector (130) está adaptado para utilizar un valor umbral, que depende de una posición temporal de la violación (135) de modo tal que en una posición temporal que produce una gran cantidad de envolventes espectrales (104) se utiliza un valor umbral mayor que el utilizado para una posición temporal que produce una cantidad menor de envolventes espectrales (104) .
9. El aparato (100) de una de las reivindicaciones precedentes, que además comprende un detector de transitorios con un valor umbral de transitorio, el valor umbral de transitorio es mayor al valor umbral y/o además
comprende un calculador de datos de envolvente (210) , el calculador de datos de envolvente (210) está adaptado para calcular datos de la envolvente espectral para una envolvente espectral (104) que se extiende desde el primer borde de envolvente (145) al segundo borde de envolvente (155) .
10. Un codificador (300) para codificar una señal de audio (105) que comprende:
Un codificador de núcleo (340) parar codificar la señal de audio (105) dentro de una banda de frecuencia de núcleo;
Un aparato (100) para calcular una cantidad (102) de envolventes espectrales (104) de acuerdo con una de las reivindicaciones 1 a 9; y
Un calculador de datos de envolvente (210) para calcular datos de la envolvente basados en la señal de audio (105) y la cantidad (102) .
11. Un procedimiento para calcular una cantidad (102) de envolventes espectrales (104) a derivar por el codificador (SBR) de replicación de banda espectral donde el codificador SBR está adaptado para codificar una señal de audio (105) utilizando una pluralidad de valores de muestra dentro de un cantidad predeterminada de porciones de tiempo subsecuentes (110) en un cuadro SBR que se extiende desde un tiempo inicial (t0) a un tiempo final (tn) , la cantidad predeterminada de porciones de tiempo subsecuentes (110) se dispone en una secuencia de tiempo dada por la señal de audio (105) , comprendiendo el procedimiento:
La determinación de un valor de decisión (125) , el valor de decisión (125) mide una desviación en la distribución de energía espectral de un par de porciones de tiempo vecinas;
La detección de una violación (135) de un valor umbral por medio del valor de decisión (125) ;
La determinación de un primer borde de envolvente (145) entre el par de porciones de tiempo vecinas cuando se detecta la violación (135) del valor umbral;
La determinación de un segundo borde de envolvente (155) entre el par diferente de porciones de tiempo vecinas o en el tiempo inicial (t0) o en el tiempo final (tn) para una envolvente con el primer borde de envolvente (145) basado en la violación (135) del valor umbral para el otro par o basado en una posición temporal del par o del par diferente en el cuadro SBR; y
El establecimiento de cantidad (102) de envolventes espectrales (104) que posee el primer borde de envolvente (145) y el segundo borde de envolvente (155) ,
donde la cantidad predeterminada de porciones de tiempo (110) es igual a n con bordes n-1 entre porciones de tiempo vecinas (110) , numeradas y ordenadas con respecto al tiempo para que los bordes comprendan bordes pares e impares, y donde n se establece como la cantidad (102) de envolventes espectrales (104) si el detector (130) detecta la violación (135) en un borde impar, o donde el segundo borde (155) se determina de modo tal que las envolventes espectrales (104) comprendan una misma longitud temporal y la cantidad (102) de envolventes espectrales (104) sea una potencia de dos, o que comprende además una etapa de proporcionar una señal de decisión de conmutación (371) , la señal de decisión de conmutación (371) señaliza una señal de audio del tipo voz y una señal de audio general del tipo audio, donde se disminuye el valor umbral para señales de audio del tipo voz.
12.Un programa de computación para desarrollar, cuando es utilizado en un procesador, un procedimiento de acuerdo con la reivindicación 11.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]