Pos-filtro selectivo.

Un pos-filtro (440; 550; 740; 1040; 1140) de atenuación de ruido inter-armónico,

adaptado para recibir una señal de entrada, que comprende una señal preliminar de audio descodificada de acuerdo a una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación, y para suministrar una señal de audio de salida, comprendiendo adicionalmente el pos-filtro de atenuación de ruido inter-armónico una sección de control para operar selectivamente el pos-filtro en una de las siguientes modalidades:

i) una modalidad de filtrado, en la cual filtra la señal preliminar de audio para obtener una señal filtrada y suministra esto como la señal de audio de salida; y

ii) una modalidad de traspasamiento, en la cual suministra la señal preliminar de audio como la señal de audio de salida,

estando dicha sección de control configurada para ingresar a la modalidad de traspasamiento en respuesta al valor de una señal de pos-filtrado, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2011/060555.

Solicitante: DOLBY INTERNATIONAL AB.

Nacionalidad solicitante: Países Bajos.

Dirección: Apollo Building, 3E, Herikerbergweg 1-35 1101 CN Amsterdam Zuid-Oost PAISES BAJOS.

Inventor/es: KJORLING, KRISTOFER, VILLEMOES, LARS, Resch,Barbara.

Fecha de Publicación: 28 de Mayo de 2014.

Clasificación Internacional de Patentes:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
G10L19/107 G10L 19/00 […] › Excitación de pulsaciones débiles, p. ej. utilizando libros de códigos algebraico.
G10L19/20 G10L 19/00 […] › utilizando codificación específica de clase de sonido, codificadores híbridos o codificación basada en objeto.
G10L19/26 G10L 19/00 […] › prefiltrado o postfiltrado.

PDF original: ES-2484794_T3.pdf

Fragmento de la descripción:

Pos-filtro selectivo

Campo técnico

La presente invención se refiere, en general, a la codificación de audio digital y, más precisamente, a técnicas de codificación para señales de audio que contienen componentes de distintos caracteres.

Antecedentes

Una extendida clase de métodos de codificación para señales de audio que contienen habla o canto incluye la predicción lineal excitada por código (CELP) aplicada en la alternación en el tiempo con distintos métodos de codificación, que incluyen métodos de codificación del dominio de la frecuencia, especialmente adaptados para la música, o métodos de naturaleza general, para admitir variaciones en el carácter entre sucesivos periodos de tiempo de la señal de audio. Por ejemplo, un descodificador simplificado de Codificación Unificada de Habla y Audio (USAC; véase la norma ISO / IEC 23003-3) del Grupo de Expertos en Imágenes en Movimiento (MPEG) es operable en al menos tres modalidades de descodificación, la Codificación Avanzada de Audio (AAC; véase la norma ISO / IEC 13818-7) , la CELP algebraica (ACELP) y la excitación codificada por transformación (TCX) , según se muestra en la parte superior de la figura 2 adjunta.

Las diversas realizaciones de la CELP están adaptadas a las propiedades de los órganos humanos del habla y, posiblemente, al sentido humano del oído. Según se usa en esta solicitud, la CELP se referirá a todas las posibles realizaciones y variantes, incluyendo, pero sin limitarse a, la ACELP, la CELP de banda ancha y estrecha, la SB25 CELP (CELP de sub-banda) , la CELP de baja y alta velocidad, la RCELP (CELP relajada) , la LD-CELP (CELP de bajo retardo) , la CS-CELP (CELP de estructura conjugada) , la CS-ACELP (ACELP de estructura conjugada) , la PSI-CELP (CELP de innovación sincrónica en tono) y la VSELP (predicción lineal excitada por suma vectorial) . Los principios de la CELP son expuestos por R. Schroeder y S. Atal en los Anales de la Conferencia Internacional del IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP) , vol. 10, págs. 937 a 940, 1985, y algunas de sus aplicaciones están descritas en las referencias 25 a 29 citadas en la publicación de Chen y Gersho en las Transacciones del IEEE sobre Habla y Procesamiento de Audio, vol. 3, nº 1, de 1995. Según lo adicionalmente detallado en el artículo anterior, un descodificador de CELP (o, análogamente, un sintetizador de habla de CELP) puede incluir un predictor de tono, que restaura el componente periódico de una señal de habla codificada, y un libro de códigos de pulsos, desde el cual se añade una secuencia de innovación. El predictor de tono puede incluir, a su 35 vez, un predictor de retardo largo para restaurar el tono y un predictor de retardo corto para restaurar las regiones formantes por medio de la modelación del envolvente espectral. En este contexto, el tono se concibe, en general, como la frecuencia fundamental del componente sonoro tonal producido por las cuerdas vocales, y adicionalmente realzado por las partes resonantes del conducto vocal. Esta frecuencia, junto con sus armónicos, dominará el habla o el canto. En términos generales, los métodos de CELP son los más adecuados para el procesamiento del canto solo o unipersonal, para el cual la frecuencia del tono está bien definida y es relativamente fácil de determinar.

Para mejorar la calidad percibida del habla codificada por CELP, es práctica común combinarla con el pos-filtrado (o realce tonal, en otras palabras) . La Patente Estadounidense Nº 4.969.192 y la sección II del artículo de Chen y Gersho revelan propiedades deseables de tales pos-filtros, esto es, su capacidad de suprimir los componentes de 45 ruido situados entre los armónicos del tono vocal detectado (parte a largo plazo, véase la sección IV) . Se cree que una parte importante de este ruido emana del modelado del envolvente espectral. La parte a largo plazo de un posfiltro sencillo puede ser diseñada para que tenga la siguiente función de transferencia:

** (Ver fórmula) **

donde T es un periodo tonal estimado en términos del número de muestras y Î± es una ganancia del pos-filtro, según se muestra en las figuras 1 y 2. De manera similar a un filtro peine, un filtro de ese tipo atenúa las frecuencias 1/ (2T) , 3/ (2T) , 5/ (2T) , ..., que están situadas a mitad de camino entre los armónicos de la frecuencia tonal y las frecuencias adyacentes. La atenuación depende del valor de la ganancia Î±. Los pos-filtros levemente más sofisticados aplican 55 esta atenuación solamente a las frecuencias bajas â?" de aquí, el término habitualmente usado de pos-filtro bajo â?" donde el ruido es más perceptible. Esto puede ser expresado aplicando en cascada la función de transferencia HE descrita anteriormente y un filtro HLP de paso bajo. Así, el valor descodificado pos-procesado de SE proporcionado por el pos-filtro estará dado, en el dominio de transformación, por

** (Ver fórmula) **

donde

** (Ver fórmula) **

y S es la señal descodificada que es suministrada como entrada al pos-filtro. La Figura 3 muestra una realización de un pos-filtro con estas características, que es adicionalmente expuesto en la sección 6.1.3 de la Especificación Técnica ETSI TS 126 290, versión 6.3.0, edición 6. Como sugiere esta figura, la información tonal está codificada como un parámetro en la señal del flujo de bits y es extraída por un módulo de rastreo tonal, conectado comunicativamente con el filtro de predicción a largo plazo que lleva a cabo las operaciones expresadas por PLT.

La parte a largo plazo descrita en el párrafo anterior puede ser usada sola. Alternativamente, se dispone en serie con un filtro modelador del ruido que preserva los componentes en los intervalos de frecuencia correspondientes a las regiones formantes y que atenúa el ruido en otras regiones espectrales (parte a corto plazo; véase la sección III) , es decir, en los â?valles espectralesâ? de la envolvente de región formante. Como otra posible variación, este grupo de filtros está adicionalmente suplementado por un filtro de tipo de paso alto, para reducir un deterioro percibido, debido al declive espectral de la parte a corto plazo.

Los miembros de un comité de estandarización del MPEG pudieron acceder al documento XP00002658193 [M.

ésima Neuendorf (ed.) : WD7 de USAC, 92Reunión del MPEG, Dresde, N11299] en línea a partir del 26 de abril de 2010, y la Autoridad Examinadora Preliminar Internacional para esta solicitud ha expresado la opinión de que este documento estuvo públicamente disponible desde esa fecha. Tanto XP00002658193 como la Solicitud Internacional publicada como WO 99/38144 A1 revelan sistemas de procesamiento de audio con la aplicación selectiva del posfiltrado.

Las señales de audio que contienen una mezcla de componentes de distintos orígenes â?" por ejemplo, tonal, no tonal, vocal, instrumental, no musical â?" no siempre son reproducidas por las tecnologías disponibles de codificación digital de manera satisfactoria. Más precisamente, ha sido observado que las tecnologías disponibles son deficientes en la manipulación de tal material de audio no homogéneo, favoreciendo generalmente a uno de los componentes en perjuicio del otro. En particular, la música que contiene canto acompañado por uno o más instrumentos o partes corales, que ha sido codificada por métodos de la naturaleza descrita anteriormente, será a menudo descodificada con distorsiones perceptibles que arruinan parte de la experiencia auditiva.

Resumen de la invención

A fin de mitigar al menos algunos de los inconvenientes esbozados en la sección anterior, es un objeto de la presente invención proporcionar métodos y dispositivos adaptados para la codificación y descodificación de audio de las señales que contienen una mezcla de componentes de distintos orígenes. Como objetos específicos, la invención busca proporcionar aquellos métodos y dispositivos que sean adecuados desde el punto de vista de la eficacia de codificación o la fidelidad (percibida) de reproducción, o ambas.

La invención logra al menos uno de estos objetos según lo definido en las reivindicaciones independientes. Las reivindicaciones dependientes definen realizaciones de la invención.

Los inventores han percibido que algunas distorsiones percibidas en las señales de audio descodificadas de origen no homogéneo provienen de una conmutación inadecuada entre varias modalidades de codificación, de las cuales al menos una incluye el pos-filtrado en el descodificador y al menos una no lo hace. Más precisamente, los pos-filtros disponibles eliminan no solamente el ruido inter-armónico (y, donde corresponda, el ruido en los valles espectrales) , sino también... [Seguir leyendo]

Reivindicaciones:

1. Un pos-filtro (440; 550; 740; 1040; 1140) de atenuación de ruido inter-armónico, adaptado para recibir una señal de entrada, que comprende una señal preliminar de audio descodificada de acuerdo a una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación, y para suministrar una señal de audio de salida, comprendiendo adicionalmente el pos-filtro de atenuación de ruido inter-armónico una sección de control para operar selectivamente el pos-filtro en una de las siguientes modalidades:

i) una modalidad de filtrado, en la cual filtra la señal preliminar de audio para obtener una señal filtrada y suministra esto como la señal de audio de salida; y ii) una modalidad de traspasamiento, en la cual suministra la señal preliminar de audio como la señal de audio de salida, estando dicha sección de control configurada para ingresar a la modalidad de traspasamiento en respuesta al valor de una señal de pos-filtrado, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

2. El pos-filtro de la reivindicación 1, en el cual la señal de pos-filtrado está incluida en la señal de entrada.

3. El pos-filtro de la reivindicación 1, que comprende adicionalmente un módulo (1120) de decisión adaptado para estimar una frecuencia tonal de la señal preliminar de audio y para evaluar al menos uno de los siguientes criterios:

a) si la potencia de los componentes espectrales por debajo de la frecuencia de tono supera o no un umbral predeterminado;

b) si los componentes espectrales por debajo de la frecuencia de tono son o no tonales;

c) si la potencia de los componentes espectrales entre armónicos de la frecuencia de tono supera o no un umbral predeterminado; y d) si los componentes espectrales entre armónicos de la frecuencia de tono son o no tonales;

y, en respuesta a una determinación positiva, tomar una decisión para generar una señal de pos-filtrado negativa que inhabilita el pos-filtro.

4. Un sistema descodificador (400; 500; 700; 1000) para descodificar una señal de flujo de bits como una señal de tiempo de audio, que incluye:

una sección (410; 511, 512, 513; 711, 712, 713; 1011, 1013) de descodificación para descodificar una señal de flujo de bits como una señal preliminar de tiempo de audio; y el pos-filtro de atenuación de ruido inter-armónico de cualquiera de las reivindicaciones 1 a 3. 45

5. El sistema descodificador de la reivindicación 4,

en el cual el pos-filtro tiene ganancia variable que determina la atenuación inter-armónica y la sección de control incluye un controlador de ganancia operable para fijar el valor absoluto de la ganancia por debajo de un umbral predeterminado, por lo cual el pos-filtro es inhabilitado.

6. El sistema descodificador de la reivindicación 4 o 5,

en el cual el pos-filtro está adaptado para atenuar solamente aquellos componentes espectrales que estén situados 55 por debajo de una frecuencia predeterminada de corte.

7. El sistema descodificador de la reivindicación 4, comprendiendo adicionalmente la sección de descodificación un módulo (511; 711; 1011) descodificador de predicción lineal excitada por código, CELP, y un módulo (512; 712) descodificador de excitación codificada por transformación, TCX, para descodificar una señal de flujo de bits como una señal de tiempo de audio, estando la sección de control adaptada para operar el sistema descodificador al menos en las siguientes modalidades: 65 a) el módulo de TCX está habilitado y el pos-filtro está inhabilitado;

b) el módulo de CELP y el pos-filtro están habilitados; y c) el módulo de CELP está habilitado y el pos-filtro está inhabilitado, en donde la señal preliminar de tiempo de audio 5 y la señal de tiempo de audio coinciden.

8. El sistema descodificador de la reivindicación 6, comprendiendo adicionalmente la sección descodificadora un módulo (513; 713) descodificador de Codificación Avanzada de Audio, AAC, para descodificar una señal de flujo de bits como una señal de tiempo de audio, estando la sección de control adaptada para operar el descodificador también en la siguiente modalidad:

d) el módulo de AAC está habilitado y el pos-filtro está inhabilitado. 15

9. El sistema descodificador de la reivindicación 4, en el cual la señal del flujo de bits es un flujo de bits del Grupo de Expertos de Imágenes en Movimiento, MPEG, y está segmentada en tramas de tiempo, y la sección de control está adaptada para inhabilitar una trama de tiempo entera o una secuencia de tramas de tiempo enteras; y la sección de control está adicionalmente adaptada para recibir, para cada trama de tiempo, un campo de datos asociado a esta trama de tiempo, y es operable, en respuesta al valor del campo de datos, para inhabilitar el pos-filtro, por lo cual la señal preliminar de tiempo de audio es emitida como la señal de tiempo de audio.

10. Un método de descodificación de una señal de flujo de bits como una señal de tiempo de audio, que incluye las etapas de:

descodificar una señal de flujo de bits como una señal preliminar de tiempo de audio, en una entre una pluralidad de modalidades de descodificación, en donde la actividad de pos-filtro está convencionalmente asociada a modalidades específicas de descodificación; y pos-filtrar la señal preliminar de tiempo de audio atenuando el ruido inter-armónico, obteniendo por ello una señal de tiempo de audio, caracterizado porque la etapa de pos-filtrado es omitida selectivamente, en respuesta a información de pos-filtrado codificada en la señal del flujo de bits, por lo cual una modalidad de descodificación convencionalmente filtrada se aplica sin filtrar.

11. Un sistema codificador (800) para codificar una señal de tiempo de audio como una señal de flujo de bits, que incluye una sección codificadora (810) operable en varias modalidades de codificación, para codificar una señal de tiempo de audio como una señal de flujo de bits, caracterizado por una sección (820) de decisión adaptada para decidir si el pos-filtrado, que incluye la atenuación del ruido inter-armónico, ha de ser inhabilitado o no en la descodificación de la señal de flujo de bits, por separado 45 de la decisión sobre la modalidad de codificación, y para codificar esta decisión en la señal de flujo de bits como información de pos-filtrado.

12. El sistema codificador de la reivindicación 11, estando la sección de decisión adaptada para:

detectar una co-presencia de un componente de señal con frecuencia fundamental dominante, y un componente de señal situado por debajo de la frecuencia fundamental y, optativamente, entre sus armónicos; y 55 en respuesta a una determinación positiva, tomar una decisión para inhabilitar.

13. El sistema codificador de la reivindicación 11, que comprende adicionalmente un módulo de codificación de predicción lineal excitada por código, CELP, incluyendo adicionalmente dicha sección de codificación un módulo de codificación de excitación codificada por transformación, TCX, en el cual la sección de decisión está adaptada para seleccionar una de las siguientes modalidades de codificación, preferiblemente sobre la base de una optimización de velocidad-distorsión.

a) codificación de TCX;

b) codificación de CELP con pos-filtrado; y c) codificación de CELP sin pos-filtrado, comprendiendo adicionalmente el sistema codificador un selector (814) de codificación, adaptado para seleccionar una de las siguientes super-modalidades:

i) codificación de Codificación Avanzada de Audio, AAC, en donde la sección de decisión está inhabilitada; y ii) codificación de TCX/CELP, en donde la sección de decisión está habilitada para seleccionar una de las modalidades de codificación a) , b) and c) .

14. Un método de codificación de una señal de tiempo de audio como una señal de flujo de bits, incluyendo el método la etapa de codificación de una señal de tiempo de audio como una señal de flujo de bits en una de varias modalidades de codificación, caracterizado por la etapa adicional de decidir si el pos-filtrado, que incluye la atenuación del ruido inter-armónico, ha de ser inhabilitado o no en la descodificación de la señal del flujo de bits, por separado de la decisión sobre la 20 modalidad de codificación, y la codificación de esta decisión en la señal de flujo de bits como información de posfiltrado.

15. Un producto de programa de ordenador que incluye un portador de datos que almacena instrucciones para realizar el método de la reivindicación 10 o 14.

Patentes similares o relacionadas:

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]