Aparato y procedimiento para generar una señal de audio de alta frecuencia usando sobremuestreo adaptativo.

Un aparato para generar una señal de audio de alta frecuencia (18),

que comprende:

un analizador (12) para analizar una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene una información de componente transitorio;

un conversor espectral (14) para convertir la señal de entrada en una representación espectral de entrada (11);

un procesador espectral (13) para procesar la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y un conversor de tiempo (17) para convertir la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que

el conversor espectral (14) o el conversor de tiempo (17) pueden ser controlados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de la señal de entrada que tiene asociada la información de componente transitorio y para no llevar a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o para llevar a cabo un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con la primera porción de la señal de entrada, y el procesador espectral (13) está configurado para calcular un valor para una frecuencia mayor mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/057130.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: VILLEMOES, LARS, EKSTRAND, PER, DISCH,SASCHA, NAGEL,Frederik, WILDE,STEFAN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/02 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
  • G10L19/025 G10L 19/00 […] › Detección de transitorios o accesos para la conmutación de la resolución de tiempo y frecuencia.
  • G10L21/02 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00  tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
  • G10L21/038 G10L 21/00 […] › utilizando técnicas de extensión de banda.

PDF original: ES-2461172_T3.pdf

 


Fragmento de la descripción:

El presente invento se refiere a codificación de señales de audio, y en particular a procedimientos de reconstrucción de alta frecuencia incluyendo un medio de transposición de dominio de la frecuencia tal como un medio de transposición armónica.

En el arte previo hay varios procedimientos para reconstrucción de alta frecuencia usando transposición armónica, o estiramiento de tiempo o procedimiento similar. Un procedimiento usado se basa en vocoders (codificadores de voz) de fase. Estos operan bajo el principio de hacer un análisis de frecuencia con suficientemente alta resolución de frecuencia, y la modificación de señal en el dominio de la frecuencia antes de sintetizar la señal. El estiramiento de tiempo o transposición depende de la combinación de ventana de análisis, tranco de ventana de análisis, ventana de síntesis, tranco de ventana de síntesis, así como también ajustes de fase de la señal analizada.

Un problema que inevitablemente existe con estos procedimientos es la contradicción entre la necesidad de resolución de frecuencia a fin de obtener una transposición de alta calidad para sonidos estacionarios, y la respuesta transitoria del sistema para sonidos de componentes transitorios.

Un algoritmo que emplea unos vocoders de fase, como se describe, por ejemplo, en M. Puckette. Vocoder de fase sincronizada. Congreso IEEE ASSP sobre Aplicaciones de Procesamiento de Señales en Audio y Acústica. (Phase–locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics) , Mohonk 1995.", A. Röbel, "Detección y preservación de componentes transitorios en el vocoder de fase." ("Transient detection and preservation in the phase vocoder, ") citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M.:

"Modificación mejorada de escala de tiempo de vocoder de fase de audio (“Improved phase vocoder timescale modification of audio") , IEEE Trans, sobre procesamiento de voz y audio (IEEE Trans. Speech and Audio Processing) , vol. 7, no. 3, pp. 323—332 y Patente de Estados Unidos Nº 6549884 Laroche, J. & Dolson, M.: Corrimiento de tono de vocoder de fase para la generación de parche. (Phase–vocoder pitch–shifting for the patch generation) , ha sido presentada en Frederik Nagel, Sascha Disch, "Un procedimiento de extensión de ancho de banda para codificadores–decodificadores de audio (“A harmonic bandwidth extension method for audio codecs”) , ICASSP Congreso Internacional sobre Procesamiento de Acústica, Voz y Señal. (ICASSP International Conference on Acoustics, Speech and Signal Processing) , IEEE CNF, Taipei, Taiwan, abril de 2009. Sin embargo, este procedimiento denominado " extensión de ancho de banda armónica" (HBE) tiende a degradaciones de calidad de componentes transitorios contenidos en la señal de audio como se describe en Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "Un procedimiento de extensión de ancho de banda impulsado por vocoder de fase con un manejo novedoso de componente transitorio para codificadores–decodificadores de audio" (“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs, ”) en el 116º Congreso de AES, Munich, Alemania, mayo de 2009, ya que no se garantiza que se preserve una coherencia vertical sobre las sub–bandas en el algoritmo de vocoder de fase estándar y, más aún, se debe realizar el re–cálculo de las fases de la transformación discreta de Fourier (DFT) sobre bloques de tiempo aislados de una transformada asumiendo implícitamente una periodicidad circular.

También se conoce de la solicitud de patente EP2234103 A1 un procedimiento de manipulación de una señal de audio que utiliza sobremuestreo y modificación de fase.

Es conocido que se pueden observar específicamente dos tipos de artefactos debido al procesamiento de vocoder de fase basado en bloques. Estos son, en particular, una dispersión de la forma de onda y una aliasing en el tiempo debido a efectos de convolución cíclica en el tiempo de la señal debido a la aplicación de las fases nuevamente calculados.

En otras palabras, debido a la aplicación de una modificación de fase sobre los valores espectrales de la señal de audio en el algoritmo de BWE, un componente transitorio contendido en un bloque de la señal de audio puede ser envuelto alrededor del bloque, es decir es convuelto cíclicamente de vuelta dentro del bloque. Eso da como resultado un aliasing en el tiempo y, en consecuencia, conduce a una degradación de la señal de audio.

Por lo tanto, se deben emplear procedimientos para un tratamiento especial de las partes de señal que contienen componentes transitorios. Sin embargo, la complejidad computacional es un asunto serio, debido a que especialmente el algoritmo de BWE es realizado sobre el lado del decodificador de una cadena de codificador– decodificador. Por ende, medidas contra la degradación de señal de audio recién mencionada preferiblemente no deberían venir a costo de una complejidad computacional ampliamente incrementada.

Es el objetivo del presente invento proveer un concepto eficiente y de alta calidad para generar una señal de audio de alta frecuencia.

Este objetivo se alcanza con un aparato para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 1, un procedimiento para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 13 o un programa de computadora de acuerdo con la reivindicación 14.

El presente invento utiliza la característica que los componentes transitorios se tratan por separado, es decir de manera diferente que las porciones no transitorias de la señal de audio. A estos efectos, un aparato para generar una señal de audio de alta frecuencia comprende un analizador para analizar la señal de entrada para determinar una información de componente transitorio en el cual se asocia una información de componente transitorio con una primera porción de la señal de entrada y una segunda porción posterior de la señal de entrada no contienen la información de componente transitorio. El analizador puede analizar realmente la señal de audio, es decir, puede analizar la distribución de energía o un cambio en la energía para determinar de este modo la porción de componente transitorio. Esto requiere una cierta vista preliminar de modo que, por ejemplo se analiza una señal de salida de un codificador de núcleo a un determinado tiempo por adelantado de modo que el resultado del análisis puede ser usado para generar la señal de audio de alta frecuencia sobre la base de la señal de salida del codificador de núcleo. Una alternativa diferente es llevar a cabo una detección de componente transitorio sobre el lado del codificador y asociar una cierta información lateral tal como un cierto bit en una transmisión de bits a una porción de tiempo de la señal que tiene la característica del componente transitorio. Entonces, el analizador está configurado para extraer el bit de la información de componente transitorio desde la transmisión de bits a fin de determinar si una cierta porción de esta señal de audio de entrada es un componente transitorio o no. El aparato para generar una señal de audio de alta frecuencia comprende además un conversor espectral para convertir la señal de entrada en la representación espectral de entrada. La reconstrucción de alta frecuencia se lleva a cabo dentro del dominio de los bancos de filtro, es decir a continuación de la conversión espectral usando el conversor espectral. A estos efectos, un procesador espectral procesa la representación espectral de entrada para generar una representación espectral procesada que comprende valores de frecuencias más altas que la representación espectral de entrada. Una conversión hacia atrás al dominio del tiempo se realiza mediante un conversor de tiempo conectado a continuación para convertir la representación espectral procesada a una representación en el tiempo. De acuerdo con el presente invento el conversor espectral y/o el conversor de tiempo pueden ser controlados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de la señal de entrada que tiene asociada la información de componente transitorio y para no llevar a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada que no tiene asociada una información de componente transitorio.

El presente invento tiene ventajas por el hecho de que da como resultado una reducción de la complejidad mientras no obstante se retiene un buen rendimiento de componentes transitorios para las transposiciones tales como las transposiciones armónicas en bancos de filtros combinados. Por lo tanto,... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato para generar una señal de audio de alta frecuencia (18) , que comprende:

un analizador (12) para analizar una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene una información de componente transitorio; un conversor espectral (14) para convertir la señal de entrada en una representación espectral de entrada (11) ; un procesador espectral (13) para procesar la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y un conversor de tiempo (17) para convertir la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que el conversor espectral (14) o el conversor de tiempo (17) pueden ser controlados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de la señal de entrada que tiene asociada la información de componente transitorio y para no llevar a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o para llevar a cabo un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con la primera porción de la señal de entrada, y el procesador espectral (13) está configurado para calcular un valor para una frecuencia mayor mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

2. El aparato de acuerdo con la reivindicación 1, en el cual el conversor espectral (14) está configurado para llevar a cabo el sobremuestreo en el dominio de la frecuencia aplicando una longitud de transformación más larga para la primera porción que tiene asociada la información de componente transitorio en comparación con la transformación aplicada por el conversor espectral (14) para la segunda porción, en el cual la transformación más larga comprende datos de rellenado.

3. El aparato de acuerdo con la reivindicación 1, en el cual el conversor espectral (14) comprende:

un medio de ventaneo (14a) para ventanear cuadros superpuestos de la señal de audio de entrada, un cuadro que tiene una cantidad de muestras de ventana, y un procesador de tiempo a frecuencia (14b) para convertir el cuadro dentro del dominio de la frecuencia, en el cual el procesador de tiempo a frecuencia (14b) está configurado para aumentar la cantidad de muestras ventaneadas rellenando los valores adicionales delante de una primera muestra ventaneada de la cantidad de muestras de entrada para la primera porción de la señal de entrada y para no rellenar valores adicionales o para rellenar una cantidad más pequeña de valores adicionales para la segunda porción de la señal de entrada.

4. El aparato de acuerdo con cualquiera de las reivindicaciones 2 o 3, en el cual los datos de rellenado son datos de rellenado con ceros.

5. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el conversor espectral (14) comprende un núcleo de transformación que tiene una longitud de transformación que puede ser controlada, y se aumenta la longitud de transformación para la primera porción con respecto a la longitud de transformación para la segunda porción.

6. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el conversor espectral está configurado para proveer una cantidad de líneas de frecuencia sucesivas,

en el cual el procesador está configurado para calcular fases para líneas de frecuencia que tienen una frecuencia más alta modificando las fases o amplitudes de la cantidad de líneas de frecuencia sucesivas para obtener el espectro procesado, y

en el cual el conversor de tiempo está configurado para llevar a cabo la conversión de modo que la tasa de muestreo de conversor de tiempo sea más alta que la tasa de muestreo de la señal de audio de entrada.

7. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral (13) está configurado para llevar a cabo una transposición que usa un factor de transposición procesando una porción espectral de la representación espectral que comienza con un cierto índice de frecuencia, y

en el cual el cierto índice de frecuencia, es más alto para la primera porción de la señal de entrada y es más bajo para la segunda porción de la señal de entrada.

8. El aparato de acuerdo con la reivindicación 7, en el cual el conversor espectral (14) o el conversor de tiempo (17) son configurados para llevar a cabo un sobremuestreo en el dominio de la frecuencia para la primera porción de entrada usando un factor de sobremuestreo, y

en el cual el procesador espectral (13) está configurado para multiplicar el cierto índice de frecuencia con el factor de sobremuestreo usado para la primera porción de la señal de entrada.

9. El aparato de acuerdo con la reivindicación 9, en el cual el procesador espectral está configurado para calcular una fase interpolando fases (33) de los dos valores de frecuencia adyacentes, o

para calcular una amplitud (34) interpolando amplitudes de los dos valores de frecuencia adyacentes.

10. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral está configurado para llevar a cabo una transposición que usa un factor de transposición, en el cual (32) el procesador espectral (13) es configurado, para los casos en los cuales una frecuencia de destino no es un múltiple de un número entero del factor de transposición o no es un múltiple de un número entero del factor de transposición dividido por un factor de aumento de la tasa de muestreo provisto por el conversor de tiempo (17) , para calcular la fase para la frecuencia de destino usando las fases de por lo menos dos valores espectrales adyacentes, cada una multiplicada por un factor de fase individual, en el cual los factores de fase son determinados de modo que una suma de los factores de fase sea igual al factor de transposición.

11. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el procesador espectral está configurado para llevar a cabo una transposición que usa un factor de transposición, en el cual el procesador espectral es configurado, para los casos en los cuales una frecuencia de destino no es un múltiple de un número entero del factor de transposición o no es un múltiple de un número entero del factor de transposición dividido por un factor de aumento de la tasa de muestreo provisto por el conversor de tiempo (17) , para calcular la fase para la frecuencia de destino usando las fases de por lo menos dos valores espectrales adyacentes, cada una multiplicada por un factor de fase individual, en el cual el factor de fase es determinado de modo que el factor de fase para un primer valor del valor espectral de entrada sea más bajo que el factor de fase para un segundo valor de la representación espectral de entrada, cuando un índice para la frecuencia de destino dividido por el factor de transposición o dividido por una fracción del factor de transposición y el factor del aumento de la tasa de muestreo es más cerca al segundo valor de la representación espectral de entrada.

12. El aparato de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual la señal de entrada tiene asociada una información lateral que contiene la información de componente transitorio, y en el cual el analizador está configurado para analizar la señal de entrada para extraer la información de componente transitorio desde la información lateral, o en el cual el analizador (12) comprende un detector de componente transitorio para analizar y detectar un componente transitorio en la señal de entrada sobre la base de una distribución de energía de audio o un cambio de energía de audio en la señal de entrada.

13. Un procedimiento para generar una señal de audio de alta frecuencia (18) , que comprende:

analizar (12) una señal de entrada a fin de determinar una información de componente transitorio, en el cual una primera porción de la señal de entrada tiene asociada una información de componente transitorio y la segunda porción posterior de la señal de entrada no tiene la información de componente transitorio; convertir (14) la señal de entrada en una representación espectral de entrada (11) ; procesar (13) la representación espectral de entrada para generar una representación espectral procesada (15) que comprende valores de frecuencias más altas que la representación espectral de entrada; y convertir (17) la representación espectral procesada en una representación de tiempo,

caracterizado por el hecho de que:

la etapa de convertir (14) en una representación espectral de entrada o la etapa de convertir (17) en una representación de tiempo se lleva a cabo para la primera porción de la señal de entrada que tiene una información de componente transitorio un sobremuestreo en el dominio de la frecuencia, que puede ser controlado, en el cual no se lleva a cabo el sobremuestreo en el dominio de la frecuencia para la segunda porción de la señal de entrada o en el cual se lleva a cabo para la segunda porción de la señal de entrada un sobremuestreo en el dominio de la frecuencia con un factor de sobremuestreo más pequeño en comparación con el factor de sobremuestreo de la primera porción de la señal de entrada, y la etapa (13) de procesar la representación espectral de entrada comprende calcular un valor para una frecuencia mediante la combinación de dos valores de frecuencia adyacentes de la representación espectral de entrada.

14. Un programa de computadora para llevar a cabo, cuando el programa se ejecuta en una computadora, el procedimiento para generar una señal de audio de alta frecuencia de acuerdo con la reivindicación 14.


 

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .