Pos-filtro selectivo.

Un pos-filtro (440; 550; 740; 1040; 1140) de atenuación de ruido inter-armónico

, adaptado para recibir una señal de entrada, que comprende una señal preliminar de audio descodificada de acuerdo a una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación, y para suministrar una señal de audio de salida, comprendiendo adicionalmente el pos-filtro de atenuación de ruido inter-armónico una sección de control para operar selectivamente el pos-filtro en una de las siguientes modalidades:

i) una modalidad de filtrado, en la cual filtra la señal preliminar de audio para obtener una señal filtrada y suministra esto como la señal de audio de salida; y

ii) una modalidad de traspasamiento, en la cual suministra la señal preliminar de audio como la señal de audio de salida,

estando dicha sección de control configurada para ingresar a la modalidad de traspasamiento en respuesta al valor de una señal de pos-filtrado, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/060555.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: KJORLING, KRISTOFER, VILLEMOES, LARS, Resch,Barbara.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/20 (utilizando codificación específica de clase de sonido, codificadores híbridos o codificación basada en objeto)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/107 (Excitación de pulsaciones débiles, p. ej. utilizando libros de códigos algebraico)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/26 (prefiltrado o postfiltrado)

PDF original: ES-2484794_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Pos-filtro selectivo

Campo técnico

La presente invención se refiere, en general, a la codificación de audio digital y, más precisamente, a técnicas de codificación para señales de audio que contienen componentes de distintos caracteres.

Antecedentes

Una extendida clase de métodos de codificación para señales de audio que contienen habla o canto incluye la predicción lineal excitada por código (CELP) aplicada en la alternación en el tiempo con distintos métodos de codificación, que incluyen métodos de codificación del dominio de la frecuencia, especialmente adaptados para la música, o métodos de naturaleza general, para admitir variaciones en el carácter entre sucesivos periodos de tiempo de la señal de audio. Por ejemplo, un descodificador simplificado de Codificación Unificada de Habla y Audio (USAC; véase la norma ISO / IEC 23003-3) del Grupo de Expertos en Imágenes en Movimiento (MPEG) es operable en al menos tres modalidades de descodificación, la Codificación Avanzada de Audio (AAC; véase la norma ISO / IEC 13818-7) , la CELP algebraica (ACELP) y la excitación codificada por transformación (TCX) , según se muestra en la parte superior de la figura 2 adjunta.

Las diversas realizaciones de la CELP están adaptadas a las propiedades de los órganos humanos del habla y, posiblemente, al sentido humano del oído. Según se usa en esta solicitud, la CELP se referirá a todas las posibles realizaciones y variantes, incluyendo, pero sin limitarse a, la ACELP, la CELP de banda ancha y estrecha, la SB25 CELP (CELP de sub-banda) , la CELP de baja y alta velocidad, la RCELP (CELP relajada) , la LD-CELP (CELP de bajo retardo) , la CS-CELP (CELP de estructura conjugada) , la CS-ACELP (ACELP de estructura conjugada) , la PSI-CELP (CELP de innovación sincrónica en tono) y la VSELP (predicción lineal excitada por suma vectorial) . Los principios de la CELP son expuestos por R. Schroeder y S. Atal en los Anales de la Conferencia Internacional del IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP) , vol. 10, págs. 937 a 940, 1985, y algunas de sus aplicaciones están descritas en las referencias 25 a 29 citadas en la publicación de Chen y Gersho en las Transacciones del IEEE sobre Habla y Procesamiento de Audio, vol. 3, nº 1, de 1995. Según lo adicionalmente detallado en el artículo anterior, un descodificador de CELP (o, análogamente, un sintetizador de habla de CELP) puede incluir un predictor de tono, que restaura el componente periódico de una señal de habla codificada, y un libro de códigos de pulsos, desde el cual se añade una secuencia de innovación. El predictor de tono puede incluir, a su 35 vez, un predictor de retardo largo para restaurar el tono y un predictor de retardo corto para restaurar las regiones formantes por medio de la modelación del envolvente espectral. En este contexto, el tono se concibe, en general, como la frecuencia fundamental del componente sonoro tonal producido por las cuerdas vocales, y adicionalmente realzado por las partes resonantes del conducto vocal. Esta frecuencia, junto con sus armónicos, dominará el habla o el canto. En términos generales, los métodos de CELP son los más adecuados para el procesamiento del canto solo o unipersonal, para el cual la frecuencia del tono está bien definida y es relativamente fácil de determinar.

Para mejorar la calidad percibida del habla codificada por CELP, es práctica común combinarla con el pos-filtrado (o realce tonal, en otras palabras) . La Patente Estadounidense Nº 4.969.192 y la sección II del artículo de Chen y Gersho revelan propiedades deseables de tales pos-filtros, esto es, su capacidad de suprimir los componentes de 45 ruido situados entre los armónicos del tono vocal detectado (parte a largo plazo, véase la sección IV) . Se cree que una parte importante de este ruido emana del modelado del envolvente espectral. La parte a largo plazo de un posfiltro sencillo puede ser diseñada para que tenga la siguiente función de transferencia:

** (Ver fórmula) **

donde T es un periodo tonal estimado en términos del número de muestras y α es una ganancia del pos-filtro, según se muestra en las figuras 1 y 2. De manera similar a un filtro peine, un filtro de ese tipo atenúa las frecuencias 1/ (2T) , 3/ (2T) , 5/ (2T) , ..., que están situadas a mitad de camino entre los armónicos de la frecuencia tonal y las frecuencias adyacentes. La atenuación depende del valor de la ganancia α. Los pos-filtros levemente más sofisticados aplican 55 esta atenuación solamente a las frecuencias bajas â?" de aquí, el término habitualmente usado de pos-filtro bajo â?" donde el ruido es más perceptible. Esto puede ser expresado aplicando en cascada la función de transferencia HE descrita anteriormente y un filtro HLP de paso bajo. Así, el valor descodificado pos-procesado de SE proporcionado por el pos-filtro estará dado, en el dominio de transformación, por

** (Ver fórmula) **

donde

** (Ver fórmula) **

y S es la señal descodificada que es suministrada como entrada al pos-filtro. La Figura 3 muestra una realización de un pos-filtro con estas características, que es adicionalmente expuesto en la sección 6.1.3 de la Especificación Técnica ETSI TS 126 290, versión 6.3.0, edición 6. Como sugiere esta figura, la información tonal está codificada como un parámetro en la señal del flujo de bits y es extraída por un módulo de rastreo tonal, conectado comunicativamente con el filtro de predicción a largo plazo que lleva a cabo las operaciones expresadas por PLT.

La parte a largo plazo descrita en el párrafo anterior puede ser usada sola. Alternativamente, se dispone en serie con un filtro modelador del ruido que preserva los componentes en los intervalos de frecuencia correspondientes a las regiones formantes y que atenúa el ruido en otras regiones espectrales (parte a corto plazo; véase la sección III) , es decir, en los â?valles espectralesâ? de la envolvente de región formante. Como otra posible variación, este grupo de filtros está adicionalmente suplementado por un filtro de tipo de paso alto, para reducir un deterioro percibido, debido al declive espectral de la parte a corto plazo.

Los miembros de un comité de estandarización del MPEG pudieron acceder al documento XP00002658193 [M.

ésima Neuendorf (ed.) : WD7 de USAC, 92Reunión del MPEG, Dresde, N11299] en línea a partir del 26 de abril de 2010, y la Autoridad Examinadora Preliminar Internacional para esta solicitud ha expresado la opinión de que este documento estuvo públicamente disponible desde esa fecha. Tanto XP00002658193 como la Solicitud Internacional publicada como WO 99/38144 A1 revelan sistemas de procesamiento de audio con la aplicación selectiva del posfiltrado.

Las señales de audio que contienen una mezcla de componentes de distintos orígenes â?" por ejemplo, tonal, no tonal, vocal, instrumental, no musical â?" no siempre son reproducidas por las tecnologías disponibles de codificación digital de manera satisfactoria. Más precisamente, ha sido observado que las tecnologías disponibles son deficientes en la manipulación de tal material de audio no homogéneo, favoreciendo generalmente a uno de los componentes en perjuicio del otro. En particular, la música que contiene canto acompañado por uno o más instrumentos o partes corales, que ha sido codificada por métodos de la naturaleza descrita anteriormente, será a menudo descodificada con distorsiones perceptibles que arruinan parte de la experiencia auditiva.

Resumen de la invención

A fin de mitigar al menos algunos de los inconvenientes esbozados en la sección anterior, es un objeto de la presente invención proporcionar métodos y dispositivos adaptados para la codificación y descodificación... [Seguir leyendo]

 


Reivindicaciones:

1. Un pos-filtro (440; 550; 740; 1040; 1140) de atenuación de ruido inter-armónico, adaptado para recibir una señal de entrada, que comprende una señal preliminar de audio descodificada de acuerdo a una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación, y para suministrar una señal de audio de salida, comprendiendo adicionalmente el pos-filtro de atenuación de ruido inter-armónico una sección de control para operar selectivamente el pos-filtro en una de las siguientes modalidades:

i) una modalidad de filtrado, en la cual filtra la señal preliminar de audio para obtener una señal filtrada y suministra esto como la señal de audio de salida; y ii) una modalidad de traspasamiento, en la cual suministra la señal preliminar de audio como la señal de audio de salida, estando dicha sección de control configurada para ingresar a la modalidad de traspasamiento en respuesta al valor de una señal de pos-filtrado, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

2. El pos-filtro de la reivindicación 1, en el cual la señal de pos-filtrado está incluida en la señal de entrada.

3. El pos-filtro de la reivindicación 1, que comprende adicionalmente un módulo (1120) de decisión adaptado para estimar una frecuencia tonal de la señal preliminar de audio y para evaluar al menos uno de los siguientes criterios:

a) si la potencia de los componentes espectrales por debajo de la frecuencia de tono supera o no un umbral predeterminado;

b) si los componentes espectrales por debajo de la frecuencia de tono son o no tonales;

c) si la potencia de los componentes espectrales entre armónicos de la frecuencia de tono supera o no un umbral predeterminado; y d) si los componentes espectrales entre armónicos de la frecuencia de tono son o no tonales;

y, en respuesta a una determinación positiva, tomar una decisión para generar una señal de pos-filtrado negativa que inhabilita el pos-filtro.

4. Un sistema descodificador (400; 500; 700; 1000) para descodificar una señal de flujo de bits como una señal de tiempo de audio, que incluye:

una sección (410; 511, 512, 513; 711, 712, 713; 1011, 1013) de descodificación para descodificar una señal de flujo de bits como una señal preliminar de tiempo de audio; y el pos-filtro de atenuación de ruido inter-armónico de cualquiera de las reivindicaciones 1 a 3. 45

5. El sistema descodificador de la reivindicación 4,

en el cual el pos-filtro tiene ganancia variable que determina la atenuación inter-armónica y la sección de control incluye un controlador de ganancia operable para fijar el valor absoluto de la ganancia por debajo de un umbral predeterminado, por lo cual el pos-filtro es inhabilitado.

6. El sistema descodificador de la reivindicación 4 o 5,

en el cual el pos-filtro está adaptado para atenuar solamente aquellos componentes espectrales que estén situados 55 por debajo de una frecuencia predeterminada de corte.

7. El sistema descodificador de la reivindicación 4, comprendiendo adicionalmente la sección de descodificación un módulo (511; 711; 1011) descodificador de predicción lineal excitada por código, CELP, y un módulo (512; 712) descodificador de excitación codificada por transformación, TCX, para descodificar una señal de flujo de bits como una señal de tiempo de audio, estando la sección de control adaptada para operar el sistema descodificador al menos en las siguientes modalidades: 65 a) el módulo de TCX está habilitado y el pos-filtro está inhabilitado;

b) el módulo de CELP y el pos-filtro están habilitados; y c) el módulo de CELP está habilitado y el pos-filtro está inhabilitado, en donde la señal preliminar de tiempo de audio 5 y la señal de tiempo de audio coinciden.

8. El sistema descodificador de la reivindicación 6, comprendiendo adicionalmente la sección descodificadora un módulo (513; 713) descodificador de Codificación Avanzada de Audio, AAC, para descodificar una señal de flujo de bits como una señal de tiempo de audio, estando la sección de control adaptada para operar el descodificador también en la siguiente modalidad:

d) el módulo de AAC está habilitado y el pos-filtro está inhabilitado. 15

9. El sistema descodificador de la reivindicación 4, en el cual la señal del flujo de bits es un flujo de bits del Grupo de Expertos de Imágenes en Movimiento, MPEG, y está segmentada en tramas de tiempo, y la sección de control está adaptada para inhabilitar una trama de tiempo entera o una secuencia de tramas de tiempo enteras; y la sección de control está adicionalmente adaptada para recibir, para cada trama de tiempo, un campo de datos asociado a esta trama de tiempo, y es operable, en respuesta al valor del campo de datos, para inhabilitar el pos-filtro, por lo cual la señal preliminar de tiempo de audio es emitida como la señal de tiempo de audio.

10. Un método de descodificación de una señal de flujo de bits como una señal de tiempo de audio, que incluye las etapas de:

descodificar una señal de flujo de bits como una señal preliminar de tiempo de audio, en una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación; y pos-filtrar la señal preliminar de tiempo de audio atenuando el ruido inter-armónico, obteniendo por ello una señal de tiempo de audio, caracterizado porque la etapa de pos-filtrado es omitida selectivamente, en respuesta a información de pos-filtrado codificada en la señal del flujo de bits, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

11. Un sistema codificador (800) para codificar una señal de tiempo de audio como una señal de flujo de bits, que incluye una sección codificadora (810) operable en varias modalidades de codificación, para codificar una señal de tiempo de audio como una señal de flujo de bits, caracterizado por una sección (820) de decisión adaptada para decidir si el pos-filtrado, que incluye la atenuación del ruido inter-armónico, ha de ser inhabilitado o no en la descodificación de la señal de flujo de bits, por separado 45 de la decisión sobre la modalidad de codificación, y para codificar esta decisión en la señal de flujo de bits como información de pos-filtrado.

12. El sistema codificador de la reivindicación 11, estando la sección de decisión adaptada para:

detectar una co-presencia de un componente de señal con frecuencia fundamental dominante, y un componente de señal situado por debajo de la frecuencia fundamental y, optativamente, entre sus armónicos; y 55 en respuesta a una determinación positiva, tomar una decisión para inhabilitar.

13. El sistema codificador de la reivindicación 11, que comprende adicionalmente un módulo de codificación de predicción lineal excitada por código, CELP, incluyendo adicionalmente dicha sección de codificación un módulo de codificación de excitación codificada por transformación, TCX, en el cual la sección de decisión está adaptada para seleccionar una de las siguientes modalidades de codificación, preferiblemente sobre la base de una optimización de velocidad-distorsión.

a) codificación de TCX;

b) codificación de CELP con pos-filtrado; y c) codificación de CELP sin pos-filtrado, comprendiendo adicionalmente el sistema codificador un selector (814) de codificación, adaptado para seleccionar una de las siguientes super-modalidades:

i) codificación de Codificación Avanzada de Audio, AAC, en donde la sección de decisión está inhabilitada; y ii) codificación de TCX/CELP, en donde la sección de decisión está habilitada para seleccionar una de las modalidades de codificación a) , b) and c) .

14. Un método de codificación de una señal de tiempo de audio como una señal de flujo de bits, incluyendo el método la etapa de codificación de una señal de tiempo de audio como una señal de flujo de bits en una de varias modalidades de codificación, caracterizado por la etapa adicional de decidir si el pos-filtrado, que incluye la atenuación del ruido inter-armónico, ha de ser inhabilitado o no en la descodificación de la señal del flujo de bits, por separado de la decisión sobre la 20 modalidad de codificación, y la codificación de esta decisión en la señal de flujo de bits como información de posfiltrado.

15. Un producto de programa de ordenador que incluye un portador de datos que almacena instrucciones para realizar el método de la reivindicación 10 o 14.