Sobremuestreo en un banco de filtros de reemisor combinado.

Un sistema configurado para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio, que comprende:

- un banco de filtros de análisis

(501) que comprende una unidad de transformación de análisis (601) que tiene una resolución de frecuencia de Df; y una ventana de análisis (611) que tiene una duración de DA; estando el banco de filtros de análisis (501) configurado para proporcionar un conjunto de señales de sub-banda de análisis a partir de la componente de baja frecuencia de la señal;

- una unidad de procesamiento no lineal (502, 650) configurada para determinar un conjunto de señales de subbanda de síntesis en base a una porción del conjunto de señales de sub-banda de análisis, en la que la porción del conjunto de señales de sub-banda de análisis se desfasa por un orden de transposición T; y

- un banco de filtros de síntesis (504) que comprende una unidad de transformación de síntesis (602) que tiene una resolución de frecuencia de QDf; y una ventana de síntesis (612) que tiene una duración de Ds; estando el banco de filtros de síntesis (504) configurado para generar la componente de alta frecuencia de la señal a partir del conjunto de señales de sub-banda de síntesis;

en el que Q es un factor de resolución de frecuencia con Q ³ 1 e inferior que el orden de transposición T; y en el que el valor del producto de la resolución de frecuencia Df y la duración DA del banco de filtros de análisis se selecciona en base al factor de resolución de frecuencia Q.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/057156.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: VILLEMOES, LARS, EKSTRAND, PER.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/02 (Mejora de la inteligibilidad de la voz, p.ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Tratamiento de la señal de la voz para producir... > G10L21/04 (Compresión o expansión temporales)

PDF original: ES-2507165_T3.pdf

 

google+ twitter facebookPin it
Ilustración 1 de Sobremuestreo en un banco de filtros de reemisor combinado.
Ilustración 2 de Sobremuestreo en un banco de filtros de reemisor combinado.
Ilustración 3 de Sobremuestreo en un banco de filtros de reemisor combinado.
Ilustración 4 de Sobremuestreo en un banco de filtros de reemisor combinado.
Ver la galería de la patente con 8 ilustraciones.
Sobremuestreo en un banco de filtros de reemisor combinado.

Fragmento de la descripción:

Sobremuestreo en un banco de filtros de reemisor combinado Campo técnico La presente invención se refiere a la codificación de señales de audio, y en particular a procedimientos de reconstrucción de alta frecuencia que incluyen un reemisor armónico de dominio de frecuencia.

Antecedentes de la invención Las tecnologías HFR, tales como la tecnología de replicación de banda espectral (SBR) , permiten mejorar significativamente la eficiencia de codificación de los códecs de audio perceptuales tradicionales. En combinación con codificación de audio avanzada (AAC) de MPEG-4, la tecnología HFR forma unos códecs de audio muy

eficientes, que ya están en uso en el sistema de XM Satellite Radio y Digital Radio Mondiale, y también estandarizadas en 3GPP, DVD Forum, y otros. La combinación de AAC y SBR se denomina aacPlus. Es parte del estándar MPEG-4, en el que se denomina como el perfil AAC de alta eficiencia (HE-AAC) . En general, la tecnología HFR puede combinarse con cualquier códec de audio perceptual de manera compatible hacia atrás y hacia delante, ofreciendo así la posibilidad de actualizar sistemas de difusión ya establecidos, como el MPEG Capa 2 usado en el sistema de Eureka DAB. Los procedimientos de transposición HFR también pueden combinarse con códecs de voz para permitir un habla de banda ancha a velocidades de bits ultrabajas.

La idea básica detrás de la HFR es la observación de que normalmente está presente una correlación fuerte entre las características del intervalo de alta frecuencia de una señal y las características del intervalo de baja frecuencia de la misma señal. Por lo tanto, una buena aproximación para una representación del intervalo de alta frecuencia de entrada original de una señal puede conseguirse por una transposición de señal desde el intervalo de baja frecuencia al intervalo de alta frecuencia.

Este concepto de transposición se estableció en el documento WO 98/57436 como un procedimiento para recrear una banda de alta frecuencia a partir de una banda de frecuencia más baja de una señal de audio. Puede obtenerse un ahorro sustancial en velocidad de bits usando este concepto en la codificación de audio y/o codificación de voz. A continuación, se hará referencia a la codificación de audio, pero se ha de observar que los procedimientos y los sistemas descritos pueden aplicarse igualmente a la codificación de voz y en la codificación de voz y audio unificada (USAC) .

En un sistema de codificación de audio basado en HFR, una señal de bajo ancho de banda se presenta en un codificador de forma de onda central para su codificación, y las frecuencias más altas se regeneran en el lado del decodificador usando la transposición de la señal de bajo ancho bajo de banda e información lateral adicional, que se codifica comúnmente a velocidades de bits muy bajas y que describe la forma espectral diana. Para bajas velocidades de bits, donde el ancho de banda de la señal codificada central es estrecho, es cada vez más importante reproducir o sintetizar una banda alta, es decir, el intervalo de alta frecuencia de la señal de audio, con características perceptualmente agradables.

Uno de los problemas subyacentes que existen con los procedimientos de la HFR armónica son las restricciones 45 contrarias de una resolución de alta frecuencia pretendida con el fin de conseguir una transposición de alta calidad para sonidos fijos, y la respuesta temporal del sistema para sonidos transitorios o percusivos. En otras palabras, aunque el uso de una resolución de alta frecuencia es beneficioso para la transposición de señales fijas, tal resolución de alta frecuencia típicamente requiere grandes tamaños de ventana que son perjudiciales cuando se trata de porciones transitorias de una señal. Un enfoque para abordar este problema puede ser cambiar de forma adaptativa las ventanas del reemisor, por ejemplo, usando intercambio de ventana, en función de las características de la señal de entrada. Típicamente se usarán ventanas largas para porciones fijas de una señal, con el fin de conseguir una resolución de alta frecuencia, mientras que se usarán ventanas cortas para porciones transitorias de la señal, para implementar una buena respuesta transitoria, es decir, una buena resolución temporal, del reemisor. Sin embargo, este enfoque tiene el inconveniente de que tienen que incorporarse medidas del análisis de señales,

tal como detección transitoria o similares, en el sistema de transposición. Dichas medidas de análisis de señal implican a menudo una etapa de decisión, por ejemplo, una decisión sobre la presencia de una transitoria, que desencadena un intercambio del procesamiento de señal. Además, dichas medidas típicamente afectan a la fiabilidad del sistema y pueden introducir artefactos de señal al intercambiar el procesamiento de señal, por ejemplo, al intercambiar entre los tamaños de ventana.

Con el fin de conseguir una cantidad de audio mejorada y para sintetizar el ancho de banda requerido de la señal de banda alta, los procedimientos de HFR armónica típicamente emplean varios órdenes de transposición. Con el fin de implementar una pluralidad de transposiciones de diferente orden de transposición, las soluciones de la técnica anterior requieren una pluralidad de bancos de filtros en la fase de análisis o la fase de síntesis, o en ambas fases. 65 Típicamente, se requiere un banco de filtros diferente para cada orden de transposición diferente. Además, en situaciones en las que el codificador de forma de onda central opera a una tasa de muestreo inferior que la tasa de

muestreo de la señal de salida final, existe típicamente la necesidad adicional de convertir la señal central en la tasa de muestreo de la señal de salida, y este muestreo superior de la señal central se consigue normalmente añadiendo otro banco de filtros más. Con todo, la complejidad computacional aumenta significativamente con un número en aumento de diferentes órdenes de transposición.

El presente documento aborda los problemas que se han mencionado anteriormente con respecto al rendimiento transitorio de la transposición armónica y con respecto a la complejidad computacional. Como resultado, se consigue una mejor transposición armónica a una baja complejidad adicional.

Sumario de la invención De acuerdo con un aspecto, un sistema configurado para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio se define como en la reivindicación independiente 1.

De acuerdo con un aspecto adicional, un sistema para generar una señal de audio de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja frecuencia que usa un orden de transposición T se define como en la reivindicación independiente 14.

De acuerdo con otro aspecto, un procedimiento para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio se define como en la reivindicación independiente 17.

De acuerdo con un aspecto adicional, un procedimiento para generar una señal de audio de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja frecuencia que usa un orden de transposición T se define como en la reivindicación independiente 18.

De acuerdo con otro aspecto, un procedimiento para diseñar un reemisor armónico configurado para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio se define como en la reivindicación independiente 19.

De acuerdo con otro aspecto, un... [Seguir leyendo]

 


Reivindicaciones:

1. Un sistema configurado para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio, que comprende:

- un banco de filtros de análisis (501) que comprende una unidad de transformación de análisis (601) que tiene una resolución de frecuencia de Δf; y una ventana de análisis (611) que tiene una duración de DA; estando el banco de filtros de análisis (501) configurado para proporcionar un conjunto de señales de sub-banda de análisis a partir de la componente de baja frecuencia de la señal;

- una unidad de procesamiento no lineal (502, 650) configurada para determinar un conjunto de señales de subbanda de síntesis en base a una porción del conjunto de señales de sub-banda de análisis, en la que la porción del conjunto de señales de sub-banda de análisis se desfasa por un orden de transposición T;y

-un banco de filtros de síntesis (504) que comprende una unidad de transformación de síntesis (602) que tiene una resolución de frecuencia de QΔf; y una ventana de síntesis (612) que tiene una duración de Ds; estando el banco de filtros de síntesis (504) configurado para generar la componente de alta frecuencia de la señal a partir del conjunto de señales de sub-banda de síntesis;

enelque Q es un factor de resolución de frecuencia con Q ≥ 1 e inferior que el orden de transposición T; y en el que el valor del producto de la resolución de frecuencia Δf y la duración DA del banco de filtros de análisis se selecciona en base al factor de resolución de frecuencia Q.

Q +1

2. El sistema de la reivindicación 1, en el que el valor del producto ΔfDA es proporcional a . 25

T +1

3. El sistema de cualquier reivindicación previa, en el que el valor del producto ΔfDA es superior a .

4. El sistema de cualquier reivindicación previa que comprende adicionalmente:

-una segunda unidad de procesamiento no lineal (502) configurada para determinar un segundo conjunto de señales de sub-banda de síntesis del conjunto de señales de sub-banda de análisis usando un segundo orden de transposición T2; en el que el segundo conjunto de señales de sub-banda de síntesis se determina en base a una porción del conjunto de señales de sub-banda de análisis, desfasada por el segundo orden de transposición T2; enel que el orden de transposición T y el segundo orden de transposición T2 son diferentes; y

- una unidad de combinación (503) configurada para combinar el conjunto de señales de sub-banda de síntesis y el segundo conjunto de señales de sub-banda de síntesis; produciendo de esta manera un conjunto combinado de señales de sub-banda de síntesis como una entrada al banco de filtros de síntesis (602) .

5. El sistema de la reivindicación 4, en el que

-la unidad de combinación (503) está configurada para superponer señales de sub-banda de síntesis del conjunto de señales de sub-banda de síntesis y el segundo conjunto de señales de sub-banda de síntesis correspondiente a intervalos de frecuencia solapantes.

6. El sistema de cualquier reivindicación previa, en el que

-el banco de filtros de análisis (501) tiene un número KA de sub-bandas de análisis, con KA > 1, donde k es un índice de sub-banda de análisis con k = 0, …, KA-1; y

-el banco de filtros de síntesis (504) tiene un número Ns de sub-bandas de síntesis, con Ns > 0, donde n es un índice de sub-banda de síntesis con n = 0, …, NS-1.

7. El sistema de la reivindicación 6, en el que la unidad de procesamiento no lineal (502, 650) está configurada para ésima ésima 55 determinar una nseñal de sub-banda de síntesis del conjunto de señales de sub-banda de síntesis de una k

ésima señal de sub-banda de análisis y una (k+1) señal de sub-banda de análisis del conjunto de señales de subbanda de análisis.

8. El sistema de la reivindicación 7, en el que la unidad de procesamiento no lineal (502, 650) está configurada para 60

ésima ésima

-determinar una fase de la nseñal de sub-banda de síntesis como la suma de una fase desplazada de la k

ésima señal de sub-banda de análisis y una fase desplazada de la (k+1) señal de sub-banda de análisis; y/o ésima

-determinar una magnitud de la n señal de sub-banda de síntesis como el producto de una magnitud

ésima ésima exponenciada de la kseñal de sub-banda de análisis y una magnitud exponenciada de la (k+1) señal de 5 sub-banda de análisis.

9. El sistema de la reivindicación 8, en el que -el índice de sub-banda de análisis k de la señal de sub-banda de análisis que contribuye a la sub-banda de síntesis Q

n T

con el índice de sub-banda de síntesis n se da por el número entero obtenido truncando la expresión ;

Q n − k

T

en el que un resto r sedapor .

10. El sistema de la reivindicación 9, en el que la unidad de procesamiento no lineal (502, 650) está configurada para 15

ésima ésima

-determinar la fase de la nseñal de sub-banda de síntesis como la suma de la fase de la kseñal de sub

ésima banda de análisis multiplicada por T (1-r) y la fase de la (k+1) señal de sub-banda de análisis multiplicada por T (r) ; y/o ésima ésima -determinar la magnitud de la nseñal de sub-banda de síntesis como el producto de la magnitud de la k

ésima señal de sub-banda de análisis elevada a la potencia de (1-r) y la magnitud de la (k+1) señal de sub-banda de análisis elevada a la potencia de r.

11. El sistema de cualquier reivindicación previa, en el que - el banco de filtros de análisis (501) y el banco de filtros de síntesis (504) se apilan de modo par de tal forma que una frecuencia central de una sub-banda de análisis se da por kΔf y una frecuencia central de una sub-banda de síntesis se da por nQΔf.

12. El sistema de cualquiera de las reivindicaciones 1 a 10, en el que

-el banco de filtros de análisis (501) y el banco de filtros de síntesis (504) se apilan de modo impar de tal forma que

( k + ) Δf

una frecuencia central de una sub-banda de análisis se da por y una frecuencia central de una sub

banda de síntesis se da po.

35. la diferencia entre el orden de transposición T y el factor de resolución Q es par.

13. El sistema de cualquier reivindicación previa, en el que -una tasa de muestreo de la componente de baja frecuencia es fA; -la unidad de transformación de análisis (601) es una transformada discreta de M puntos; la ventana de análisis (611) tiene una longitud de LA muestras; y la ventana de análisis (611) se desplaza por un tamaño de salto de análisis de ΔsA muestras a lo largo de la componente de baja frecuencia; 45

L

fA A f

M A

-la resolución de frecuencia es Δf= ; la duración es DA = ; un avance del tiempo físico del banco de filtros Δs

A f

A

de análisis (501) es ΔtA = ;

-una tasa de muestreo de la componente de alta frecuencia es fs = QfA.

50. la unidad de transformación de síntesis (602) es una transformada discreta de M puntos; la ventana de síntesis

(612) tiene una longitud de Ls muestras; y la ventana de síntesis (612) se desplaza por un tamaño de salto de

síntesis de Δss muestras a lo largo de la componente de alta frecuencia; y

L

fs s f

M s

-la resolución de frecuencia es QΔf= , la duración es Ds = ; un avance del tiempo físico del banco de filtros Δs Δs

sA

Δt == =Δt

s A

ff

sA

de síntesis (504) es . 5

14. Un sistema para generar una señal de audio de salida que comprende una componente de alta frecuencia de una señal de audio de entrada que comprende una componente de baja frecuencia que usa un orden de transposición T, que comprende:

-una unidad de ventana de análisis configurada para aplicar una ventana de análisis (611) de una longitud de LA muestras, extrayendo así un cuadro de la señal de entrada;

-una unidad de transformación de análisis del orden M (601) y que tiene una resolución de frecuencia Δf configurada para transformar las LA muestras en M coeficientes complejos;

- una unidad de procesamiento no lineal (643, 644, 650) , configurada para alterar la fase de los coeficientes complejos usando el orden de transposición T;

-una unidad de transformación de síntesis (602) del orden M y que tiene una resolución de frecuencia QΔf, 20 configurada para transformar los coeficientes alterados en M muestras alteradas; en la que Q es un factor de resolución de frecuencia inferior al orden de transposición T;y

-una unidad de ventana de síntesis configurada para aplicar una ventana de síntesis (612) de una longitud de Ls muestras a las M muestras alteradas, generando así un cuadro de la señal de salida; 25 en el que M se basa en el factor de resolución de frecuencia Q.

15. El sistema de la reivindicación 14, en el que la diferencia entre M y la longitud media de la ventana de análisis (611) y la ventana de síntesis (612) es proporcional a (Q-1) . 30

16. El sistema de la reivindicación 15, en el que M es superior o igual a (TLA+Ls) /2.

17. Un procedimiento para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio, comprendiendo el procedimiento:

- proporcionar un conjunto de señales de sub-banda de análisis a partir de la componente de baja frecuencia de la señal usando un banco de filtros de análisis (501) que comprende una unidad de transformación de análisis (601) que tiene una resolución de frecuencia de Δf y una ventana de análisis (611) que tiene una duración de DA;

-determinar un conjunto de señales de sub-banda de síntesis en base a una porción del conjunto de señales de subbanda de análisis, en el que la porción del conjunto de señales de sub-banda de análisis se desfasa por un orden de transposición T;y

-generar la componente de alta frecuencia de la señal a partir del conjunto de señales de sub-banda de síntesis 45 usando un banco de filtros de síntesis (504) que comprende una unidad de transformación de síntesis (602) que tiene una resolución de frecuencia de QΔf y una ventana de síntesis (612) que tiene una duración de Ds;

en el que Q es un factor de resolución con Q≥1 e inferior que el orden de transposición T; y en el que el valor del producto de la resolución de frecuencia Δf y la duración DA del banco de filtros de análisis se selecciona en base al 50 factor de resolución de frecuencia Q.

18. Un procedimiento para generar una señal de audio de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja frecuencia que usa un orden de transposición T, comprendiendo el procedimiento:

-aplicar una ventana de análisis (611) de una longitud de LA muestras, extrayendo de esta manera un cuadro de la señal de entrada;

-transformar el cuadro de LA muestras de la señal de entrada en M coeficientes complejos usando una 60 transformación de análisis del orden M y una resolución de frecuencia Δf;

-alterar la fase de los coeficientes complejos usando el orden de transposición T;

-transformar los coeficientes alterados en M muestras alteradas usando una transformación de síntesis del orden M 5 y una resolución de frecuencia QΔf; en el que Q es un factor de resolución de frecuencia inferior al orden de transposición T;y

-aplicar una ventana de síntesis (612) de una longitud de Ls muestras a las M muestras alteradas, generando así un cuadro de la señal de salida; 10 en el que M se basa en el factor de resolución de frecuencia Q.

19. Un procedimiento para diseñar un reemisor armónico configurado para generar una componente de alta frecuencia de una señal de audio a partir de una componente de baja frecuencia de la señal de audio, 15 comprendiendo el procedimiento:

-proporcionar un banco de filtros de análisis (501) que comprende una unidad de transformación de análisis (601) que tiene una resolución de frecuencia de Δf; y una ventana de análisis (611) que tiene una duración de DA; estando el banco de filtros de análisis (501) configurado para proporcionar un conjunto de señales de sub-banda de análisis a

partir de la componente de baja frecuencia de la señal;

-proporcionar una unidad de procesamiento no lineal (502, 650) configurada para determinar un conjunto de señales de sub-banda de síntesis en base a una porción del conjunto de señales de sub-banda de análisis, en la que la porción del conjunto de señales de sub-banda de análisis se desfasa por un orden de transposición T;

- proporcionar un banco de filtros de síntesis (504) que comprende una unidad de transformación de síntesis (602) que tiene una resolución de frecuencia de QΔf; y una ventana de síntesis (612) que tiene una duración de Ds; estando el banco de filtros de síntesis (504) configurado para generar la componente de alta frecuencia de la señal a partir del conjunto de señales de sub-banda de síntesis; en el que Q es un factor de resolución de frecuencia con Q

≥ 1 e inferior que el orden de transposición T;y

-seleccionar el valor del producto de la resolución de frecuencia Δf y la duración DA del banco de filtros de análisis en base al factor de resolución de frecuencia Q.

20. Un procedimiento para diseñar un reemisor armónico configurado para generar una señal de audio de salida que comprende una componente de alta frecuencia a partir de una señal de audio de entrada que comprende una componente de baja frecuencia que usa un orden de transposición T, comprendiendo el procedimiento:

-proporcionar una unidad de ventana de análisis configurada para aplicar una ventana de análisis (611) de una 40 longitud de LA muestras, extrayendo de esta manera un marco de la señal de entrada;

-proporcionar una unidad de transformación de análisis (601) del orden M y que tiene una resolución de frecuencia Δf configurada para transformar las LA muestras en M coeficientes complejos;

-proporcionar una unidad de procesamiento no lineal (643, 644, 650) , configurada para alterar la fase de los coeficientes complejos usando el orden de transposición T;

-proporcionar una unidad de transformación de síntesis (602) del orden M y que tiene una resolución de frecuencia QΔf, configurada para transformar los coeficientes alterados en M muestras alteradas; en el que Q es un factor de 50 resolución de frecuencia inferior al orden de transposición T;

-proporcionar una unidad de ventana de síntesis configurada para aplicar una ventana de síntesis (612) de una longitud de Ls muestras a las M muestras alteradas, generando de esta manera un cuadro de la señal de salida; y

-seleccionar M en base al factor de resolución de frecuencia Q.