Atenuación de pre-ecos en una señal de audio digital.
Procedimiento de atenuación de pre-ecos en una señal de audio digital generada a partir de una codificación portransformada,
en el que, en la decodificación, para una trama actual de esta señal de audio digital, el procedimientocomprende:
- una etapa de definición (CONC) de una señal concatenada, a partir al menos de la señal reconstruida de la tramaactual;
- una etapa de división (DIV, 301) de dicha señal concatenada en sub-bloque de muestras de longitud determinada;
- una etapa de cálculo (ENV, 302) de envolvente temporal de la señal concatenada;
- una etapa de detección (DETECT, 304) de transición de la envolvente temporal hacia una zona de fuerte energía;
- una etapa de determinación (DETECT, 304) de los sub-bloques de baja energía que precede un sub-bloque en elque una transición ha sido detectada; y caracterizada por
- una etapa de atenuación (ATT) en los sub-bloques determinados,
estando caracterizado el procedimiento porque la atenuación se efectúa según un factor de atenuación calculadopara cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal y de la envolventetemporal de la señal reconstruida de la trama precedente.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2009/051724.
Solicitante: FRANCE TELECOM.
Nacionalidad solicitante: Francia.
Dirección: 78 rue Olivier de Serres 75015 Paris FRANCIA.
Inventor/es: KOVESI, BALAZS, RAGOT,STEPHANE.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
- G10L19/14
PDF original: ES-2400987_T3.pdf
Fragmento de la descripción:
Atenuación de pre-ecos en una señal de audio digital
La invención se refiere a un procedimiento y a un dispositivo de atenuación de pre-ecos durante la decodificación de una señal de audio digital.
Para el transporte de las señales de audio digital en las redes de transmisión, que se trata por ejemplo de redes fijas o móviles, o para el almacenamiento de las señales, se refiere a unos procesos de compresión (o código fuente) que ponen en marcha sistemas de codificación del tipo codificación temporal o codificación frecuencial por transformada.
El procedimiento y el dispositivo, objetos de la invención, tienen así como campo de aplicación la compresión de las señales sonoras, en particular las señales de audio digital codificadas por transformada frecuencial.
La figura 1 representa a título representativo un esquema de principio de la codificación y de la decodificación, de una señal de audio digital por transformada que incluye un análisis-síntesis por adición/recubrimiento según la técnica anterior.
Ciertas secuencias musicales, tales como las percusiones y ciertos segmentos de palabra como las oclusivas (/k/, /t/, …) , se caracterizan por unos ataques extremamente bruscos que se traducen por unas transiciones muy rápidas y una variación muy fuerte de la dinámica de la señal en el espacio de varias muestras. Un ejemplo de transición se da en la figura 1 a partir de la muestra 410.
Para el tratamiento de codificación/decodificación, la señal de entrada es cortada en bloques de muestras de longitud L (representadas aquí por unos trazos verticales punteados) . La señal de entrada se señala x (n) . El corte en bloques sucesivos conduce a definir los bloques xN=[x (N.L) …x (N.L+L-1) ]=[xN (0) …xN (L-1) ], donde N es el índice de la trama, L es la longitud de la trama. En la figura 1 se tienen L=160 muestras. En el caso de la transformada modulada en cosenos modificada MDCT (de Modified Discrete Cosine Transform en inglés) , dos bloques xN (n) y xN+1 (n) son analizados conjuntamente para donar un bloque de coeficientes transformados asociados a la trama de índice N.
La división en bloques, también llamadas tramas, operada por la codificación por transformada es totalmente independiente de la señal sonora y las transiciones aparecen por lo tanto en un punto cualquiera de la ventana de análisis. Ahora bien, después de la decodificación por transformada, la señal reconstruida es estanca de “ruido” (o distorsión) generada por la operación cuantificación (Q) -cuantificación inversa (Q-1) . Este ruido de codificación es repartido temporalmente de forma relativamente uniforme en cualquier soporte temporal del bloque transformado, es decir en toda la longitud de la ventana de longitud 2L de muestras (con recubrimiento de L muestras) . La energía del ruido de codificación es en general proporcional a la energía del bloque y es función del caudal de decodificación.
Para un bloque que comprende un ataque (como el bloque 320-340 de la figura 1) la energía de la señal es elevada, el ruido es por lo tanto igualmente de nivel elevado.
En codificación por transformada, el nivel del ruido de codificación es inferior al de la señal para las muestras de energía fuerte que siguen inmediatamente la transición, pero el nivel es superior al de las señales para las muestras de energía más débiles, particularmente en la parte que precede la transición (muestras 160-410 de la figura 1) .
Para la parte precitada, la relación señal a ruido es negativa y la degradación resultante puede aparecer muy molesta a la escucha. Se llama pre-eco al ruido de codificación anterior a la transición y post-echo al ruido posterior a la transición.
Se puede observar en la figura 1 que el pre-eco afecta a la trama que precede a la transición así como a la trama en la que se produce la transición.
Las experiencias psicoacústicas han mostrado que la oreja humana efectúa un pre-enmascaramiento temporal de los sonidos bastante limitado, del orden de varios milisegundos. El ruido que precede al ataque, o pre-eco, es audible cuando la duración del pre-eco es superior a la duración del pre-enmascaramiento.
La oreja humana efectúa igualmente un post-enmascaramiento de una duración más larga, de 5 a 60 milisegundos, durante el paso de secuencias de energía fuerte en unas secuencias de energía débil. La tasa o nivel de molestia aceptable para los post-ecos es por lo tanto más importante que para los pre-ecos.
El fenómeno de los pre-ecos, más crítico, es tan molesto como importante es la longitud de los bloques en número de muestras. Ahora bien, en codificación por transformada, es necesario tener una resolución fiel de las zonas frecuenciales más significativas. Con frecuencia de muestreo fija y con caudal fijo, si se aumenta el número de puntos de la ventana se dispondrá de más bits para codificar los rayos frecuenciales juzgados útiles por el modelo psicoacústico, de ahí la ventaja de utilizar bloques de gran longitud. La codificación MPEG AAC (Advanced Audio 65 Coding) , por ejemplo, utiliza una ventana de gran longitud que contiene un número fijo de muestras, 2048, sea en una duración de 64 ms con una frecuencia de muestreo de 32 kHz. Los codificadores por transformada utilizados para las aplicaciones conversacionales utilizan a menudo una ventana de duración 40 ms a 16 kHz y una duración de renovación de trama de 20 ms.
Con el objeto de reducir el efecto molesto precitado del fenómeno de los pre-ecos han sido propuestas diferentes 5 soluciones hasta aquí.
Una primera solución consiste en aplicar un filtrado adaptativo. En la zona que precede la transmisión debida al ataque, la señal reconstituida es constituida de hecho por la señal original y por ruido de cuantificación superpuesto a la señal.
Una técnica de filtrado correspondiente ha sido descrita en el artículo titulado High Quality Audio Transform Coding at 64 bits, IEEE Trans. On Communications Vol. 42, No.11, noviembre 1994, publicado por Y. Mahieux y J.P.Petit.
La puesta en marcha de tal filtrado necesita el conocimiento de parámetros de los cuales son estimados en el
decodificador a partir de las muestras ruidosas. Por el contrario, unas informaciones tales como la energía de la señal de origen no pueden ser conocidos más que en el código y deben por consiguiente ser transmitidas. Cuando el bloque recibido contiene una variación brusca de dinámica, se le aplica el tratamiento de filtrado.
El proceso de filtrado precitado no permite rencontrar la señal de origen, pero procura una fuerte reducción de los pre-ecos. Necesita no obstante transmitir los parámetros auxiliares suplementarios al decodificador.
Una técnica que no necesita la transmisión de parámetros auxiliares es descrita en la solicitud de patente francesa FR 0601466. El método descrito permite discriminar la presencia de los pre-ecos y atenuar los pre-ecos de una señal de audio digital generada por código jerárquico (que genera un tren binario multicapas) a partir de una codificación por transformada, que genera el pre-eco, y de una codificación temporal, que no genera pre-ecos.
Esta solicitud de patente describe más precisamente la detección en el decodificador de una zona de baja energía que precede a una transición hacia una zona de fuerte energía, la atenuación de los pre-ecos en las zonas de baja energía detectadas y la inhibición de la atenuación de los pre-ecos está basada en una comparación entre la señal resultante de una decodificación por transformada (que genera pre-ecos) y una señal de referencia resultante de una decodificación temporal (no generadora de ecos) .
Esta técnica no necesita transmisión de información auxiliar específica que viene del codificador pero necesita la presencia de una señal de referencia resultante de una decodificación temporal.
Todos los decodificadores que utilizan una decodificación por transformada no disponen necesariamente de una señal de referencia resultante de una decodificación temporal. Además, en el caso de que tal señal de referencia esté disponible en el decodificador, no está siempre adaptado para calcular la atenuación de los pre-ecos.
Un codificador escalable estéreo, por ejemplo la extensión en estéreo de la norma UIT-T G.729.1, puede funcionar de la manera descrita anteriormente.
El codificador calcula la media de los dos canales izquierdo y derecho de la señal estéreo, y después codifica esta media por el codificador G.729.1, y en definitiva transmite unos parámetros suplementarios de extensión estéreo. El
tren binario transmitido al decodificador comprende... [Seguir leyendo]
Reivindicaciones:
1. Procedimiento de atenuación de pre-ecos en una señal de audio digital generada a partir de una codificación por 5 transformada, en el que, en la decodificación, para una trama actual de esta señal de audio digital, el procedimiento comprende:
- una etapa de definición (CONC) de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual;
- una etapa de división (DIV, 301) de dicha señal concatenada en sub-bloque de muestras de longitud determinada;
- una etapa de cálculo (ENV, 302) de envolvente temporal de la señal concatenada.
15. una etapa de detección (DETECT, 304) de transición de la envolvente temporal hacia una zona de fuerte energía;
- una etapa de determinación (DETECT, 304) de los sub-bloques de baja energía que precede un sub-bloque en el que una transición ha sido detectada; y caracterizada por
- una etapa de atenuación (ATT) en los sub-bloques determinados,
estando caracterizado el procedimiento porque la atenuación se efectúa según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función de la envolvente temporal de la señal y de la envolvente temporal de la señal reconstruida de la trama precedente.
2.
2. Procedimiento según la reivindicación, caracterizado porque un valor mínimo es fijado para un valor de atenuación del factor en función de la envolvente temporal de la señal reconstruida de la trama precedente.
3. Procedimiento según la reivindicación 1, caracterizado porque el factor de atenuación se determina en función de la envolvente temporal de dicho sub-bloque, del máximo de la envolvente temporal del sub-bloque que comprende dicha transición y de la envolvente temporal de la señal reconstruida de la trama precedente.
4. Procedimiento según una de las reivindicaciones 1 a 3, caracterizado porque la envolvente temporal está determinada por un cálculo de energía por sub-bloques.
3.
5. Procedimiento según la reivindicación 1, caracterizado porque comprende además una etapa de cálculo y de memorización de la envolvente temporal de la trama actual después de la etapa de atenuación en los sub-bloques determinados.
6. Procedimiento según la reivindicación 1, caracterizado porque un factor de atenuación de valor 1 es atribuido a las muestras de dicho sub-bloque que comprende la transición así como en las muestras de los sub-bloques siguientes en la trama actual.
7. Procedimiento según la reivindicación 4, caracterizado porque el factor de atenuación es determinado por sub45 bloque determinado según las etapas siguientes:
- cálculo de la relación de la energía máxima determinada en el sub-bloque que comprende una transición en la energía del sub-bloque actual;
- comparación de la relación con un primer umbral;
- en el caso de que la relación sea inferior o igual al primer umbral, la atribución de un valor que inhibe la atenuación en el factor de atenuación;
- en el caso de que la relación sea superior al primer umbral:
• comparación de la relación con un segundo umbral;
• en el caso de que la relación sea inferior o igual al segundo umbral, atribución de un valor de atenuación débil en el factor de atenuación;
• en el caso de que la relación sea superior al segundo umbral, atribución de un valor de atenuación fuerte al factor de atenuación.
8. Procedimiento según la reivindicación 1, caracterizado porque una función de alisado es determinada entre los factores calculados muestra por muestra.
9. Procedimiento según la reivindicación 1, caracterizado porque una corrección de factor es efectuada para el subbloque que precede al sub-bloque que comprende una transición, aplicando un valor de atenuación que inhibe la atenuación, en el factor de atenuación aplicado a un número predeterminado de muestras del sub-bloque que precede el sub-bloque que comprende una transición.
10. Dispositivo de atenuación de pre-ecos en una señal de audio digital generada a partir de un codificador por transformada, en el que el dispositivo asociado a un decodificador comprende, para tratar una trama actual de esta señal de audio digital:
- un módulo (101) de definición de una señal concatenada, a partir al menos de la señal reconstruida de la trama actual;
- un módulo (102) de división de dicha señal concatenada en sub-bloques de muestras de longitud determinada; 15
- un módulo (103) de cálculo de envolvente temporal de la señal concatenada;
- un módulo (104) de detección de transición de la envolvente temporal hacia una zona de fuerte energía;
- un módulo (104) de determinación de los sub-bloques de baja energía que precede un sub-bloque en el que una transición ha sido detectada; y caracterizado por
- un módulo (105) de atenuación en los sub-bloques determinados,
estando caracterizado el dispositivo porque el módulo de atenuación efectúa la atenuación según un factor de atenuación calculado para cada uno de los sub-bloques determinados, en función al menos de la envolvente temporal de la señal concatenada y de la envolvente temporal de la señal reconstruida de la trama precedente.
11. Decodificador de una señal de audio digital que comprende un dispositivo según la reivindicación 10.
3.
12. Programa informático que comprende unas instrucciones de código para la puesta en marcha de las etapas del procedimiento según una de las reivindicaciones 1 a 9, cuando estas instrucciones se ejecutan mediante un procesador.
Patentes similares o relacionadas:
Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]
Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]
Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]
Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]
Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]
Codificador y descodificador de audio para codificar y descodificar muestras de audio, del 6 de Enero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro […]
Códec de audio sin pérdidas escalable y herramienta de autoría, del 6 de Mayo de 2015, de DTS, INC: Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin […]
Codificador de extensión de ancho de banda, descodificador de extensión de ancho de banda y vocoder de fase, así como métodos correspondientes y programa de computadora, del 25 de Marzo de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de extensión de ancho de banda para codificar una señal de audio , la señal de audio que comprende una señal […]