CODIFICACIÓN POR TRANSFORMACIÓN MEJORADA DE HABLA Y SEÑALES DE AUDIO.

Un método de codificación por transformación perceptual de señales de audio en un sistema de telecomunicación,

dicho método que comprende los pasos de: determinar los coeficientes de transformación (210) representativos de una transformación de tiempo a frecuencia de una señal de audio de entrada segmentada en el tiempo; determinar un espectro de sub-bandas perceptuales (212) para dicha señal de audio de entrada en base a dichos coeficientes de transformación determinados; determinar los umbrales de enmascaramiento (214) para cada dicha sub-banda en base a dicho espectro determinado; calcular los factores de escala (216) para cada dicha sub-banda en base a dichos umbrales de enmascaramiento determinados; dicho método que se caracteriza por el paso de: adaptar dichos factores de escala calculados (218) para cada dicha sub-banda para impedir pérdida de energía para las sub-bandas relevantes perceptualmente

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/SE2008/050967.

Solicitante: TELEFONAKTIEBOLAGET L M ERICSSON (PUBL).

Nacionalidad solicitante: Suecia.

Dirección: STOCKHOLM S-164 83 SUECIA.

Inventor/es: BRIAND,Manuel, TALEB,Anisse.

Fecha de Publicación: 27 de Febrero de 2012.

Fecha Solicitud PCT: 26 de Agosto de 2008.

Clasificación PCT:

G10L19/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda.
H04B1/66 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04B TRANSMISION. › H04B 1/00 Detalles de los sistemas de transmision, no cubiertos por uno de los grupos H04B 3/00 - H04B 13/00; Detalles de los sistemas de transmisión no caracterizados por el medio utilizado para la transmisión. › para reducir el ancho de banda de las señales; para mejorar la eficacia de la transmisión (H04B 1/68 tiene prioridad).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2375192_T3.pdf

Fragmento de la descripción:

Codificación por transformación mejorada de habla y señales de audio Campo técnico La presente invención se refiere de manera general al procesamiento de señal tal como la compresión de señal y la codificación de audio, y más concretamente a la codificación de habla y audio por transformación mejorada y los dispositivos correspondientes. Antecedentes Un codificador es un dispositivo, circuitería, o programa informático que es capaz de analizar una señal tal como una señal de audio y sacar una señal en una forma codificada. La señal resultante se usa a menudo para propósitos de transmisión, almacenamiento, y/o cifrado. Por otra parte, un descodificador es un dispositivo, circuitería, o programa informático que es capaz de invertir la operación del codificador, en el que se recibe la señal codificada y saca una señal descodificada. En la mayoría de los codificadores de última tecnología tales como los codificadores de audio, cada trama de la señal de entrada se analiza y se transforma desde el dominio del tiempo al dominio de la frecuencia. El resultado de este análisis es cuantificado y codificado y luego transmitido o almacenado dependiendo de la aplicación. En el lado de recepción (o cuando se usa la señal codificada almacenada) un procedimiento de descodificación correspondiente seguido por un procedimiento de síntesis hace posible restaurar la señal en el dominio del tiempo. Los códec (codificador-descodificador) se emplean a menudo para la compresión/descompresión de información tal como datos de audio y vídeo para la transmisión eficiente sobre canales de comunicación de ancho de banda limitado. Los denominados codificadores por transformación o de manera más general, los códec de transformación normalmente se basan en torno a una transformación del dominio del tiempo a frecuencia tal como una DCT (Transformada de Coseno Discreta), una Transformada de Coseno Discreta Modificada (MDCT) o alguna otra transformada envuelta que permita una mejor eficiencia de codificación relativa a las propiedades del sistema de audición. Una característica común de los códec de transformación es que funcionan en bloques superpuestos de muestras es decir tramas superpuestas. Los coeficientes de codificación que resultan de un análisis de transformación o un análisis sub-banda equivalente de cada trama normalmente se cuantifican y almacenan o transmiten al lado de recepción como una secuencia de bits. El descodificador, tras la recepción de la secuencia de bits, realiza la descuantificación y la transformación inversa para reconstruir las tramas de señal. Los denominados codificadores perceptuales usan un modelo de codificación con pérdidas para el destino de recepción es decir el sistema auditivo humano, más que un modelo de señal fuente. La codificación de audio perceptual de esta manera supone la codificación de las señales de audio, incorporando conocimiento psicoacústico del sistema auditivo, para optimizar/reducir la cantidad de bits necesarios para reproducir fielmente la señal de audio original. Además, la codificación perceptual intenta eliminar, es decir no transmitir, o aproximar las partes de la señal que el destinatario humano no percibiría, es decir la codificación con pérdidas como opuesta a la codificación sin pérdidas de la señal fuente. El modelo típicamente se conoce como el modelo psicoacústico. En general, los codificadores perceptuales tendrán una relación señal a ruido (SNR) más baja que tendrá un codificador de forma de onda, y una calidad percibida más alta que un codificador sin pérdidas que funciona a una tasa de bit equivalente. Un codificador perceptual usa un patrón de enmascaramiento de estímulos para determinar el menor número de bits necesarios para codificar es decir cuantificar cada sub-banda de frecuencia, sin introducir ruido de cuantificación audible. Los codificadores perceptuales existentes que funcionan en el dominio de la frecuencia normalmente usan una combinación del denominado Umbral Absoluto de Audición (ATH) y tanto el esparcimiento de enmascaramiento tonal como de tipo ruido para calcular el denominado Umbral de Enmascaramiento (MT) [1]. En base a este umbral de enmascaramiento instantáneo, los modelos psicoacústicos existentes calculan los factores de escala que se usan para dar forma al espectro original de manera que el ruido de codificación se enmascare por los componentes de alto nivel de energía por ejemplo el ruido introducido por el codificador es inaudible [2]. El modelado perceptual se ha usado extensamente en la codificación de audio de alta tasa de bit. Los codificadores estandarizados, tales como de Capa III de MPEG-1 [3], la Codificación de Audio Avanzada MPEG-2 [4], logran calidad CD a tasas de 128 kbps y 64 kbps respectivamente para audio de banda ancha. Sin embargo, estos códec son por definición forzados a subestimar la cantidad de enmascaramiento para asegurar que la distorsión permanece inaudible. Además, los codificadores de audio de banda ancha normalmente usan un modelo de audición de alta complejidad (psicoacústico), que no es muy fiable a bajas tasas de bit (por debajo de 64 kbps). El documento de la técnica anterior US2004/0131204 revela un codificador perceptual que divide una señal de audio en bloques de tiempo sucesivos, cada bloque de tiempo se divide en bandas de frecuencia, y un factor de escala se 2 asigna a cada banda de frecuencia. Los bits por bloque aumentan con los valores de factor de escala y las variaciones banda a banda en los valores de factor de escala. Se determina un factor de escala preliminar para cada banda de frecuencia, y se optimizan los factores de escala para cada banda de frecuencia. Resumen Debido a los problemas anteriormente mencionados, hay una necesidad de un modelo psicoacústico mejorado fiable a tasas de bit bajas manteniendo una funcionalidad de baja complejidad. La presente invención supera estas y otras desventajas de las adaptaciones de la técnica anterior. De acuerdo con la invención, se proporciona un método de codificación por transformación perceptual de señales de audio, como se fija en adelante en la reivindicación 1, y una adaptación para la codificación por transformación perceptual de las señales de audio, como se fija en adelante en la reivindicación 8. Las ventajas adicionales ofrecidas por la invención se apreciarán cuando se lea la descripción más adelante de las realizaciones de la invención. Breve descripción de los dibujos La invención, junto con otros objetos y ventajas de la misma, se puede comprender mejor mediante la referencia a la siguiente descripción tomada junto con los dibujos anexos, en los cuales: La Fig. 1 ilustra el codificador ejemplar adecuado para codificar audio en la banda completa; La Fig. 2 ilustra un descodificador ejemplar adecuado para descodificar en la banda completa; La Fig. 3 ilustra un codificador por transformación perceptual genérico; La Fig. 4 ilustra un descodificador por transformación perceptual genérico; La Fig. 5 ilustra un diagrama de flujo de un método en un modelo psicoacústico de acuerdo con la presente invención; La Fig. 6 ilustra un diagrama de flujo adicional de una realización preferente de un método de acuerdo con la presente invención; La Fig. 7 ilustra otro diagrama de flujo de una realización de un método de acuerdo con la presente invención. Abreviaturas ATH Umbral Absoluto de Audición BS Espectro Bark DCT Transformada Discreta de Coseno DFT Transformada Discreta de Fourier ERB Ancho de banda Rectangular Equivalente IMDCT Transformada Discreta de Coseno Modificada Inversa MT Umbral de Enmascaramiento MDCT Transformada Discreta de Coseno Modificada SF Factor de Escala Descripción detallada La presente invención principalmente se refiere a la codificación por transformación, y específicamente a la codificación sub-banda. Para simplificar la comprensión de la siguiente descripción de las realizaciones de la presente invención, se describirán más adelante algunas definiciones clave. El procesamiento de señal en telecomunicación algunas veces utiliza compresión-expansión como un método de mejora de la representación de señal con rango dinámico limitado. El término es una combinación de comprensión y expansión, que indica de esta manera que el rango dinámico de una señal se comprime antes de la transmisión y se expande al valor original en el receptor. Esto permite a las señales con un rango dinámico grande que sean 3 transmitidas sobre instalaciones que tiene una capacidad de rango dinámico más pequeño. A continuación, la invención se describirá en relación a una realización de códec ejemplar y no limitante específico adecuado para la extensión de códec de la banda completa G.722 de la ITU-T, ahora renombrada G.719 de la ITU- T. En este ejemplo particular, el códec se presenta... [Seguir leyendo]

Reivindicaciones:

1. Un método de codificación por transformación perceptual de señales de audio en un sistema de telecomunicación, dicho método que comprende los pasos de: determinar los coeficientes de transformación (210) representativos de una transformación de tiempo a frecuencia de una señal de audio de entrada segmentada en el tiempo; determinar un espectro de sub-bandas perceptuales (212) para dicha señal de audio de entrada en base a dichos coeficientes de transformación determinados; determinar los umbrales de enmascaramiento (214) para cada dicha sub-banda en base a dicho espectro determinado; calcular los factores de escala (216) para cada dicha sub-banda en base a dichos umbrales de enmascaramiento determinados; dicho método que se caracteriza por el paso de: adaptar dichos factores de escala calculados (218) para cada dicha sub-banda para impedir pérdida de energía para las sub-bandas relevantes perceptualmente. 2. El método de acuerdo con la reivindicación 1, caracterizado por dicho paso de adaptación (218) que comprende la realización de la compresión-expansión adaptativa (219), y, el alisamiento (220) de dichos factores de escala para cada sub-banda citada. 3. El método de acuerdo con la reivindicación 2, caracterizado por realizar dicho paso de adaptación en base a una gama del cuantificador predeterminada. 4. El método de acuerdo con la reivindicación 1, caracterizado por dicho paso de determinación del umbral de enmascaramiento (214) que además comprende la normalización de dichos umbrales de enmascaramiento determinados, y calcular posteriormente dichos factores de escala en base a dichos umbrales de enmascaramiento normalizados. 5. El método de acuerdo con la reivindicación 2, caracterizado por el paso inicial adicional de normalización de los coeficientes de transformación determinados (211), y la realización de todos los pasos en base a dichos coeficientes de transformación normalizados. 6. El método de acuerdo con la reivindicación 1, caracterizado porque dicho espectro se basa al menos parcialmente en el espectro Bark. 7. El método de acuerdo con la reivindicación 4, caracterizado por dicho paso de normalización que comprende el cálculo de la raíz cuadrática media de dicha señal de audio de entrada en un dominio espectral transformado. 8. Una adaptación para la codificación por transformación perceptual de las señales de audio en un sistema de telecomunicación, que comprende: los medios de determinación de transformación (310) para determinar los coeficientes de transformación representativos de una transformación de tiempo a frecuencia de una señal de audio de entrada segmentada en el tiempo; los medios de espectro (312) para determinar un espectro de sub-bandas perceptual para dicha señal de audio de entrada en base a dichos coeficientes de transformación determinados; los medios de enmascaramiento (314) para determinar los umbrales de enmascaramiento para cada sub-banda citada en base a dicho espectro determinado; los medios de factor de escala (316) para calcular los factores de escala para cada sub-banda citada en base a dichos umbrales de enmascaramiento determinados; caracterizada porque dicha adaptación además comprende: los medios de adaptación (318) para adaptar dichos factores de escala calculados para cada sub-banda citada para impedir la pérdida de energía para las sub-bandas relevantes perceptualmente. 9. La adaptación de acuerdo con la reivindicación 8, caracterizada porque dichos medios de adaptación (318) comprenden medios adicionales para realizar la comprensión-expansión adaptativa (319) y el alisamiento (320) de dichos factores de escala para cada sub-banda citada. 10. La adaptación de acuerdo con la reivindicación 8, caracterizada por medios adicionales para la normalización (311) de dichos coeficientes de transformación determinados. 11 12 13 14 16 17 18 19

Patentes similares o relacionadas:

Sistema de filtro que comprende un convertidor de filtro y un compresor de filtro y método de funcionamiento del sistema de filtro, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Compresor de filtro para generar respuestas a los impulsos del filtro de subbanda comprimida de las respuestas a los impulsos del filtro de subbanda […]

Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo, del 15 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un aparato de codificación de señal de audio, que comprende: un transformador de tiempo-frecuencia que genera un espectro que comprende realizar […]

Aparato, método y programa informático para decodificar una señal de audio codificada, del 8 de Julio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para decodificar una señal de audio codificada que comprende una señal central codificada y datos paramétricos , que comprende: un decodificador […]

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]

Codificador de audio, decodificador de audio, procedimiento para codificar una señal de audio y procedimiento para decodificar una señal de audio codificada, del 24 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador para codificar una señal de audio , donde el codificador está configurado para codificar la señal de audio […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Reducción de solapamiento en dominio de tiempo para bancos de filtros no uniformes que usan análisis espectral seguido por síntesis parcial, del 3 de Junio de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un procesador de audio para procesar una señal de audio para obtener una representación de subbanda de la señal de audio , comprendiendo el procesador […]