RELLENADOR DE RUIDO, CALCULADOR DE PARÁMETRO DE RELLENO DE RUIDO, MÉTODO PARA PROPORCIONAR UN PARÁMETRO DE RELLENO DE RUIDO, MÉTODO PARA PROPORCIONAR UNA REPRESENTACIÓN ESPECTRAL RELLENADA CON RUIDO DE UNA SEÑAL DE AUDIO, PROGRAMA INFORMÁTICO CORRESPONDIENTE Y SEÑAL DE AUDIO CODIFICADA.

Rellenador (100) de ruido para proporcionar una representación (112) espectral rellenada con ruido de una señal de audio sobre la base de una representación (110) espectral de entrada de la señal de audio,

comprendiendo el rellenador de ruido: un identificador (120) de región espectral configurado para identificar regiones (422e, 422f, 422g) espectrales de la representación (110) espectral de entrada cuantificadas a cero y separadas de regiones (420a, 420b, 420c, 420d) espectrales distintas de cero de la representación (110) espectral de entrada por al menos una región (422a, 422b, 422c, 422d, 422h, 422i, 422j, 422k) espectral intermedia, para obtener regiones (422e, 422f, 422g) espectrales identificadas; y un insertador (130) de ruido configurado para introducir selectivamente ruido dentro de las regiones (422e, 422f, 422g) espectrales identificadas para obtener la representación (112) espectral rellenada con ruido de la señal de audio

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2009/004653.

Solicitante: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V..

Nacionalidad solicitante: Alemania.

Dirección: HANSASTRASSE 27C 80686 MUNCHEN ALEMANIA.

Inventor/es: SCHULLER, GERALD, GRILL, BERNHARD, HERRE, JURGEN, POPP, HARALD, GEYERSBERGER,STEFAN, WABNIK,STEFAN, HIRSCHFELD,JENS, MULTRUS,MARKUS, RETTLEBACH,Nikolaus, FUCHS,Guillaume.

Fecha de Publicación: 20 de Febrero de 2012.

Fecha Solicitud PCT: 26 de Junio de 2009.

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/02 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania, Bosnia y Herzegovina, Bulgaria, República Checa, Estonia, Croacia, Hungría, Islandia, Noruega, Polonia, Eslovaquia, Turquía, Malta, Serbia.

PDF original: ES-2374640_T3.pdf

Fragmento de la descripción:

Rellenador de ruido, calculador de parámetro de relleno de ruido, método para proporcionar un parámetro de relleno de ruido, método para proporcionar una representación espectral rellenada con ruido de una señal de audio, programa informático correspondiente y señal de audio codificada. Antecedentes de la invención Realizaciones según la invención se refieren a un rellenador de ruido para proporcionar una representación espectral rellenada con ruido de una señal de audio sobre la base de una representación espectral de entrada de la señal de audio, a un calculador de parámetro de relleno de ruido de una señal de audio, a una representación de señal de audio codificada que representa una señal de audio, a un método para proporcionar una representación espectral rellenada con ruido de una señal de audio, a un método para proporcionar un parámetro de relleno de ruido sobre la base de una representación espectral cuantificada de una señal de audio, y a programas informáticos para implementar dichos métodos. En lo que sigue se describirán algunos escenarios en los cuales se pueden aplicar ventajosamente realizaciones según la invención. Muchos codificadores de señal de audio en el dominio de la frecuencia se basan en la idea de que algunas regiones de frecuencia o regiones espectrales (por ejemplo, líneas de frecuencia o líneas espectrales proporcionadas por una conversión de dominio del tiempo al dominio de la frecuencia), son más importantes que otras regiones espectrales. Por consiguiente, las regiones espectrales de alta importancia psicoacústica normalmente se codifican con mayor precisión que las regiones espectrales de inferior relevancia psicoacústica. La relevancia psicoacústica de las diferentes regiones espectrales puede calcularse, por ejemplo, usando un modelo piscoacústico que tiene en cuenta el enmascaramiento de regiones espectrales más débiles por picos espectrales fuertes adyacentes. Si hay un deseo de reducir la tasa de transmisión de bits de una señal de audio codificada hacia un nivel bajo, algunas regiones espectrales se cuantifican con una precisión muy baja (por ejemplo, precisión de sólo un bit, o precisión de dos bits). Por consiguiente, muchas de las regiones espectrales cuantificadas con baja precisión se cuantifican a cero. Así, a bajas tasas de transmisión de bits los codificadores de audio basados en transformación son propensos a diferentes artefactos y especialmente a artefactos que se originan a partir de líneas de frecuencia cuantificadas a cero. En realidad, la cuantificación aproximada de valores espectrales en codificación de audio de baja tasa de transmisión de bits podría conducir a un espectro muy esparcido después de la cuantificación inversa, ya que muchas líneas espectrales podrían haberse cuantificado a cero. Estos huecos de frecuencia en la señal reconstruida producen indeseables artefactos de sonido. Puede hacer que el sonido reproducido sea demasiado agudo o inestable (birdies) cuando los huecos de frecuencia en el espectro se mueven de trama a trama. El relleno de ruido es un medio para enmascarar estos artefactos rellenando, en el lado del decodificador, las bandas o los coeficientes cuantificados en cero, con ruido aleatorio. La energía del ruido insertado es un parámetro calculado y transmitido por el codificador. Se conocen diferentes conceptos de relleno de ruido. Por ejemplo, el denominado AMRWR+ combina relleno de ruido y una transformada discreta de Fourier (DFT), tal como se describe por ejemplo en la referencia [1]. Además, la norma internacional ITUT G.729.1 define un concepto que combina relleno de ruido y transformada de coseno discreta modificada (MDCT). En la referencia [2] se describen detalles. El documento WO 02/091363 A da a conocer un códec de audio en el dominio de transformación, en el que bandas de frecuencia menos relevantes desde el punto de vista perceptivo seleccionadas de una señal de audio original se sustituyen durante la codificación por un parámetro de relleno de ruido. Tras la decodificación, dicho parámetro de relleno de ruido se usa para rellenar dichas bandas menos relevantes desde el punto de vista perceptivo con ruido aleatorio, cuya amplitud se ajusta según la energía original (raíz cuadrática media) de dichas bandas. Por tanto se evitan artefactos de conmutación de ancho de banda audibles debido a la no reconstrucción de bandas cuantificadas a cero durante la codificación debido a grandes restricciones de presupuesto. Aspectos adicionales relativos al relleno de ruido se describen en la solicitud de patente internacional PCT/IB2002/001388 de Koninklijke Philips Electronics N.V. (véase la referencia [3]). De todos modos, los conceptos de relleno de ruido convencionales dan como resultado distorsiones audibles. En vista de esta discusión, hay un deseo de crear un concepto de relleno de ruido que proporcione una mejor impresión auditiva. Sumario de la invención Una realización según la invención crea un rellenador de ruido para proporcionar una representación espectral rellenada con ruido de una señal de audio sobre la base de una representación espectral de entrada de la señal de audio. El rellenador de ruido comprende un identificador de región espectral configurado para identificar regiones espectrales (por ejemplo, líneas espectrales, o intervalos espectrales) de la representación espectral de entrada cuantificadas a cero y separadas de regiones espectrales distintas de cero (por ejemplo, líneas espectrales o intervalos espectrales) de la 2 representación espectral de entrada por al menos una región espectral intermedia, para obtener regiones espectrales identificadas. El rellenador de ruido también comprende un insertador de ruido configurado para introducir selectivamente ruido dentro de las regiones espectrales identificadas (por ejemplo, líneas espectrales o intervalos espectrales) para obtener la representación espectral rellena con ruido de la señal de audio. Esta realización de la presente invención se basa en el hallazgo de que las componentes tonales de la representación espectral de una señal de audio normalmente se ven degradadas, en términos de impresión auditiva, si se aplica un relleno de ruido en la proximidad inmediata de tales componentes tonales. Por consiguiente, se ha hallado que se puede obtener una mejor impresión auditiva de una señal de audio rellenada con ruido si el relleno de ruido sólo se aplica a regiones espectrales que están separadas de tales regiones tonales espectrales distintas de cero. Por consiguiente, las componentes tonales del espectro de señal de audio (que no están cuantificadas a cero en la representación espectral cuantificada introducida al rellenador de ruido) permanecen audibles (es decir, no quedan afectadas por ruido adyacente muy cercano), mientras que todavía se evita eficazmente la presencia de grandes huecos espectrales. En una realización preferida, el identificador de región espectral está configurado para identificar, como regiones espectrales identificadas, líneas espectrales de la representación espectral de entrada, que están cuantificadas a cero y que comprenden al menos un primer número predeterminado de líneas espectrales vecinas de frecuencia inferior cuantificadas a cero y al menos un segundo número predeterminado de líneas espectrales vecinas de frecuencia superior cuantificadas a cero, como regiones espectrales identificadas, en el que el primer número predeterminado es mayor o igual a uno y en el que el segundo número predeterminado es mayor o igual a uno. En esta realización, el insertador de ruido está configurado para introducir selectivamente ruido dentro de las líneas espectrales identificadas mientras que deja sin afectar por el relleno con ruido líneas espectrales cuantificadas a un valor distinto de cero y líneas espectrales cuantificadas a cero, pero que no tienen el primer número predeterminado de líneas espectrales vecinas de frecuencia inferior cuantificadas a cero, o el segundo número predeterminado de líneas espectrales vecinas de frecuencia superior cuantificadas a cero. Así, el relleno de ruido es selectivo por el hecho de que se introduce ruido sólo en líneas espectrales que están cuantificadas a cero y que están separadas de líneas cuantificadas a un valor distinto de cero, tanto en una dirección espectral ascendente como en una dirección espectral descendente, por ejemplo por el primer número predeterminado de líneas espectrales vecinas de frecuencia inferior cuantificadas a cero y por el segundo número predeterminado de líneas espectrales vecinas de frecuencia superior cuantificadas a cero. En una realización preferida, el primer número predeterminado es igual al segundo número predeterminado, de manera que una separación mínima en la dirección de frecuencia ascendente desde líneas cuantificadas a un... [Seguir leyendo]

Reivindicaciones:

1. Rellenador (100) de ruido para proporcionar una representación (112) espectral rellenada con ruido de una señal de audio sobre la base de una representación (110) espectral de entrada de la señal de audio, comprendiendo el rellenador de ruido: un identificador (120) de región espectral configurado para identificar regiones (422e, 422f, 422g) espectrales de la representación (110) espectral de entrada cuantificadas a cero y separadas de regiones (420a, 420b, 420c, 420d) espectrales distintas de cero de la representación (110) espectral de entrada por al menos una región (422a, 422b, 422c, 422d, 422h, 422i, 422j, 422k) espectral intermedia, para obtener regiones (422e, 422f, 422g) espectrales identificadas; y un insertador (130) de ruido configurado para introducir selectivamente ruido dentro de las regiones (422e, 422f, 422g) espectrales identificadas para obtener la representación (112) espectral rellenada con ruido de la señal de audio. 2. Rellenador (100) de ruido según la reivindicación 1, en el que el identificador (120) de región espectral está configurado para identificar, como regiones espectrales identificadas, líneas (422e, 422f, 422g) espectrales de la representación (110) espectral de entrada, que están cuantificadas a cero y que comprenden al menos un primer número predeterminado de líneas (422a, 422b, 422c, 422d; 422b, 422c, 422d, 422e, 422c, 422d, 422e, 422f) espectrales vecinas de frecuencia inferior cuantificadas a cero y al menos un segundo número predeterminado (4) de líneas (422f, 422g, 422h, 422i; 422g, 422h, 422i, 422j; 422h, 422i, 422j, 422k) espectrales vecinas de frecuencia superior cuantificadas a cero, como regiones espectrales identificadas; en el que el primer número predeterminado es mayor o igual a 1, y en el que el segundo número predeterminado es mayor o igual a 1; y en el que el insertador (130) de ruido está configurado para introducir selectivamente ruido dentro de las líneas (422e, 422f, 422g) espectrales identificadas mientras que deja sin afectar por el relleno con ruido las líneas (420a, 420b, 420c, 420d) espectrales cuantificadas a un valor distinto de cero y las líneas (422a, 422b, 422c, 422d, 422h, 422i, 422j, 422k) espectrales cuantificadas a cero, pero que no tienen el primer número predeterminado de líneas espectrales vecinas de frecuencia inferior cuantificadas a cero, o el segundo número predeterminado de líneas espectrales vecinas de frecuencia superior cuantificadas a cero. 3. Rellenador (100) de ruido según la reivindicación 2, en el que el primer número predeterminado es igual al segundo número predeterminado. 4. Rellenador (100) de ruido según una de las reivindicaciones 1 a 3, en el que el rellenador de ruido está configurado para introducir ruido sólo dentro de regiones espectrales en una parte superior de la representación (110) espectral de entrada de la señal de audio mientras que deja una parte inferior de la representación (110) espectral de entrada de la señal de audio sin afectar por el relleno con ruido. 5. Rellenador (100) de ruido según una de las reivindicaciones 1 a 4, en el que el identificador (120) de región espectral está configurado para sumar valores de intensidad cuantificados (quantized (x(i))) de regiones espectrales en la proximidad espectral a ambos lados predeterminada de una región espectral (i) dada, para obtener un valor suma (E), y para evaluar el valor suma (E) para decidir si la región espectral (i) dada es una región espectral identificada o no. 6. Rellenador (100) de ruido según una de las reivindicaciones 1 a 5, en el que el identificador (120) de región espectral está configurado para explorar un rango de regiones espectrales de la representación (110) espectral de entrada para detectar secuencias (422a a 422i; 422b a 422j; 422c a 422k) contiguas de regiones espectrales cuantificadas a cero, y para reconocer una o más regiones (422e, 422f, 422g) espectrales centrales de las secuencias contiguas detectadas como regiones espectrales identificadas. 7. Calculador (500) de parámetro de relleno de ruido para proporcionar un parámetro (512) de relleno de ruido sobre la base de una representación (510) espectral cuantificada de una señal de audio, comprendiendo el calculador de parámetro de relleno de ruido: un identificador (520) de región espectral configurado para identificar regiones (422e, 422f, 422g) espectrales de la representación (510) espectral cuantificada cuantificadas a cero y separadas de las regiones (420a, 420b, 420c, 420d) espectrales distintas de cero de la representación (510) espectral cuantificada por al menos una región (422a, 422b, 422c, 422d, 422h, 422i, 422j, 422k) espectral intermedia, para obtener regiones (422e, 422f, 422g) espectrales identificadas; y un calculador (530) de valor de ruido configurado para considerar selectivamente errores de cuantificación ((energy (x(i))) de las regiones espectrales identificadas (i) para un cálculo del parámetro (512, nf) de relleno de ruido. 8. Calculador (500) de parámetro de relleno de ruido según la reivindicación 7, en el que el identificador (520) de región espectral está configurado para identificar, como regiones espectrales identificadas, líneas (422e, 422f, 422g) espectrales de la representación (510) espectral de entrada, que están 13 cuantificadas a cero y que comprenden al menos un primer número predeterminado de líneas (422a, 422b, 422c, 422d; 422b, 422c, 422d, 422e, 422c, 422d, 422e, 422f) espectrales vecinas de frecuencia inferior cuantificadas a cero y al menos un segundo número predeterminado de líneas (422f, 422g, 422h, 422i; 422g, 422h, 422i, 422j; 422h, 422i, 422j, 422k) espectrales vecinas de frecuencia superior cuantificadas a cero, como regiones espectrales identificadas; en el que el primer número predeterminado es mayor o igual a 1, y en el que el segundo número predeterminado es mayor o igual a 1; y en el que el calculador (520) de valor de ruido está configurado para considerar selectivamente errores de cuantificación de las regiones espectrales identificadas (i) para un cálculo del parámetro de relleno de ruido mientras que deja las líneas (420a, 420b, 420c, 420d) espectrales cuantificadas a un valor distinto de cero y las líneas (422a, 422b, 422c, 422d, 422h, 422i, 422j, 422k) espectrales cuantificadas a cero, pero que no tienen el primer número predeterminado (4) de líneas espectrales vecinas de frecuencia inferior cuantificadas a cero, o el segundo número predeterminado de líneas espectrales vecinas de frecuencia superior cuantificadas a cero, fuera de consideración para el cálculo del parámetro de relleno de ruido. 9. Calculador (500) de parámetro de relleno de ruido según una de las reivindicaciones 7 a 8, en el que el calculador (530) de valor de ruido está configurado para considerar energías real (energy(x(i)))) de los errores de cuantificación de las regiones espectrales identificadas (i) para el cálculo del parámetro de relleno de ruido (512, nf, nf_index). 10. Calculador (500) de parámetro de relleno de ruido según una de las reivindicaciones 7 a 9, en el que el calculador (530) de valor de ruido está configurado para enfatizar una energía de error de cuantificación no tonal (energy (x(i)))) distribuida sobre una pluralidad de regiones espectrales identificadas en relación a una energía de error de cuantificación tonal concentrada en una sola región espectral o en una pluralidad de líneas espectrales contiguas. 11. Calculador (500) de parámetro de relleno de ruido según una de las reivindicaciones 7 a 10, en el que el calculador (530) de valor de ruido está configurado para calcular una suma de energías de error de cuantificación logaritmizadas (log10(energy(x(i)))) de las regiones espectrales identificadas (i), para obtener el parámetro de relleno de ruido (512, nf, nf_index). 12. Representación (900) de señal de audio codificada que representa una señal de audio, comprendiendo la representación de señal de audio codificada: una representación en el dominio espectral cuantificada codificada de la señal de audio; y un parámetro de relleno de ruido codificado; en la que el parámetro de relleno de ruido representa un error de cuantificación de regiones espectrales de la representación en el dominio espectral cuantificada a cero y separada de regiones espectrales de la representación en el dominio espectral cuantificada a un valor distinto de cero, por al menos una región espectral intermedia. 13. Método (700) para proporcionar una representación espectral rellenada con ruido de una señal de audio sobre la base de una representación espectral de entrada de la señal de audio, comprendiendo el método: identificar (710) regiones espectrales de la representación espectral de entrada cuantificadas a cero y separadas de regiones espectrales distintas de cero de la representación espectral de entrada por al menos una región espectral intermedia, para obtener regiones espectrales identificadas; e introducir selectivamente (720) ruido dentro de las regiones espectrales identificadas para obtener la representación espectral rellenada con ruido de la señal de audio. 14. Método (800) para proporcionar un parámetro de relleno de ruido sobre la base de una representación espectral cuantificada de una señal de audio, comprendiendo el método: identificar (810) regiones espectrales de la representación espectral cuantificada cuantificadas a cero y separadas de regiones espectrales distintas de cero de la representación espectral cuantificada por al menos una región espectral intermedia para obtener regiones espectrales identificadas; y considerar selectivamente (820) errores de cuantificación de las regiones espectrales identificadas para un cálculo del parámetro de relleno de ruido. 15. Programa informático para realizar el método según la reivindicación 13 ó 14, cuando el programa informático se ejecuta en un ordenador. 14 16 17 18 19 21 22 23

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]