CODIFICACIÓN DE SEÑALES.
Un procedimiento para codificar una trama en un codificador de un sistema de comunicación,
comprendiendo dicho procedimiento las etapas de: calcular un primer conjunto de parámetros asociado a la trama, en el que dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; seleccionar, en una primera etapa (204), una entre la excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; calcular un segundo conjunto de parámetros asociados a la trama; seleccionar, en una segunda etapa (210), una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y codificar la trama usando la seleccionada, entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, de la segunda etapa
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2005/001033.
Solicitante: NOKIA CORPORATION.
Nacionalidad solicitante: Finlandia.
Dirección: KEILALAHDENTIE 4 02150 ESPOO FINLANDIA.
Inventor/es: MAKINEN,JARI,M.
Fecha de Publicación: .
Fecha Solicitud PCT: 19 de Abril de 2005.
Fecha Concesión Europea: 29 de Septiembre de 2010.
Clasificación Internacional de Patentes:
- G10L19/14A1D
Clasificación PCT:
- G10L19/14
Clasificación antigua:
- G10L19/14
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania.
Fragmento de la descripción:
Campo de la Invención
La presente invención se refiere a un procedimiento para codificar una señal en un codificador de un sistema de comunicación.
Antecedentes de la Invención
Los sistemas de comunicación celular son ubicuos en la actualidad. Los sistemas de comunicación celular funcionan habitualmente de acuerdo a un estándar o especificación dados. Por ejemplo, el estándar o especificación puede definir los protocolos de comunicación y / o parámetros que se usarán para una conexión. Los ejemplos de los distintos estándares y / o especificaciones incluyen, sin limitarse a, el GSM (Sistema Global para Comunicaciones Móviles), el GSM / EDGE (Velocidades mejoradas de datos para la Evolución del GSM), el AMPS (Sistema Telefónico Móvil Estadounidense), el WCDMA (Acceso Múltiple por División de Código de Banda Ancha) o el UMTS (Sistema Universal de Telecomunicaciones Móviles) de 3ª generación (3G), el IMT 2000 (Telecomunicaciones Móviles Internacionales 2000), etc.
En un sistema de comunicaciones celulares y en las aplicaciones generales de procesamiento de señales, una señal se comprime a menudo a fin de reducir la cantidad de información necesaria para representar la señal. Por ejemplo, una señal de audio es habitualmente capturada como una señal analógica, digitalizada en un convertidor de analógico a digital (A / D) y codificada luego. En un sistema de comunicación celular, la señal codificada puede ser transmitida por la interfaz aérea inalámbrica entre un equipo de usuario, tal como un terminal móvil, y una estación base. Alternativamente, como en sistemas más generales de procesamiento de señales, la señal de audio codificada puede almacenarse en un medio de almacenamiento para el uso o reproducción posterior de la señal de audio.
La codificación comprime la señal y, como en un sistema de comunicación celular, puede transmitirse luego por la interfaz aérea con la cantidad mínima de datos, manteniendo a la vez un aceptable nivel de calidad de señal. Esto es especialmente importante, ya que la capacidad del canal de radio por la interfaz aérea inalámbrica está limitada en un sistema de comunicación celular.
Un procedimiento de codificación ideal codificará la señal de audio en tan pocos bits como sea posible, optimizando por ello la capacidad del canal, produciendo a la vez una señal descodificada que suene tan similar al audio original como sea posible. En la práctica, hay usualmente un equilibrio entre la velocidad de bits del procedimiento de compresión y la calidad de la voz descodificada.
La compresión o codificación puede ser con o sin pérdidas. En la compresión con pérdidas, se pierde alguna información durante la compresión, donde no es posible reconstruir totalmente la señal original a partir de la señal comprimida. En la compresión sin pérdidas normalmente no se pierde ninguna información y la señal original puede reconstruirse totalmente a partir de la señal comprimida.
Una señal de audio puede considerarse como una señal que contiene voz, música (o contenido no vocálico) o ambas. Las distintas características de la voz y la música dificultan diseñar un único procedimiento de codificación que funcione bien tanto para la voz como para la música. A menudo un procedimiento de codificación que es óptimo para señales de voz no es óptimo para música o señales de contenidos no vocálicos. Por lo tanto, para resolver este problema, se han desarrollado distintos procedimientos de codificación a fin de codificar la voz y la música. Sin embargo, la señal de audio debe clasificarse como voz o música antes de que pueda seleccionarse un procedimiento de codificación adecuado.
Clasificar una señal de audio bien como señal de voz o bien como señal de música, o contenido no vocálico, es una tarea difícil. La precisión requerida de la clasificación depende de la aplicación que usa la señal. En algunas aplicaciones la precisión es más crítica, como en el reconocimiento de la voz o en el archivo con fines de almacenamiento y recuperación.
Sin embargo, es posible que un procedimiento de codificación para partes de la señal de audio, que comprendan principalmente voz, sea también muy eficiente para partes que comprendan principalmente música. En efecto, es posible que un procedimiento de codificación para música con fuertes componentes tonales pueda ser muy adecuado para la voz. Por lo tanto, los procedimientos para clasificar una señal de audio basados estrictamente en si la señal está compuesta de voz o música no necesariamente tienen como resultado la selección del procedimiento de compresión óptimo para la señal de audio.
El códec adaptable de múltiples velocidades (AMR) es un procedimiento de codificación
desarrollado por el Proyecto de Sociedad de 3ª Generación (3GPP) para redes de comunicación de GSM / EDGE y WCDMA. Además, también se ha previsto que el AMR se usará en futuras redes conmutadas por paquetes. El AMR se basa en la codificación de excitación de la Predicción Lineal Excitada de Código Algebraico (ACELP). El AMR y los códecs adaptables de múltiples velocidades de banda ancha (AMR-WB) consisten, respectivamente, en tasas de 8 y 9 bits activos y también incluyen la funcionalidad de detección de inactividad vocal (VAD) y de transmisión discontinua (DTX). La tasa de muestreo en el códec AMR es de 8 kHz. En el códec AMR-WB la tasa de muestreo es de 16kHz.
Los detalles de los códecs AMR y AMR-WB pueden hallarse en las especificaciones técnicas 3GPP TS 26.090 y 3GPP TS 26.190. Detalles adicionales del códec AMW-WB y la VAD pueden hallarse en la especificación técnica 3GPP TS 26.194.
En otro procedimiento de codificación, el códec AMR-WB extendido (AMR-WB+), la codificación se basa en dos procedimientos distintos de excitación: la excitación por pulsos de ACELP y la excitación codificada por transformación (TCX). La excitación de ACELP es la misma que la usada ya en el códec AMR-WB original. La excitación TCX es una modificación específica de AMR-WB+.
La codificación de la excitación de ACELP funciona usando un modelo de cómo se genera una señal en el origen y extrae de la señal los parámetros del modelo. Más específicamente, la codificación de ACELP se basa en un modelo del sistema vocal humano, donde la garganta y la boca se modelan como un filtro lineal y una señal es generada por una vibración periódica de aire que excita el filtro. La señal es analizada, trama por trama, por el codificador y, para cada trama, un conjunto de parámetros que representan la señal modelada es generado y emitido por el codificador. El conjunto de parámetros puede incluir parámetros de excitación y los coeficientes para el filtro, así como otros parámetros. La salida de un codificador de este tipo se denomina a menudo una representación paramétrica de la señal de entrada. El conjunto de parámetros es usado por un descodificador debidamente configurado para regenerar la señal de entrada.
En el códec AMR-WB+, se calcula la codificación de predicción lineal (LPC) en cada trama de la señal para modelar el envolvente espectral de la señal como un filtro lineal. El resultado de la LPC, conocido como la excitación de la LPC, se codifica luego usando la excitación de ACELP o la excitación TCX.
Habitualmente, la excitación de ACELP utiliza predictores a largo plazo y parámetros de libro de códigos fijos, mientras que la excitación TCX utiliza Transformadas Rápidas de Fourier (FFT). Además, en el códec AMR-WB+, la excitación TCX puede llevarse a cabo usando una entre tres distintas longitudes de trama (20, 40 y 80 ms).
La excitación TCX se usa extensamente en la codificación de audio no vocálico. La superioridad de la codificación basada en la excitación TCX para señales no vocálicas se debe al uso del enmascaramiento perceptual y la codificación del dominio de frecuencia. Incluso aunque las técnicas de TCX brindan señales musicales de calidad superior, la calidad no es tan buena para señales vocálicas periódicas. Por el contrario, los códecs basados en el sistema de producción vocal humana, tales como ACELP, proporcionan señales vocálicas de calidad superior, pero señales musicales de mala calidad.
Por lo tanto, en general, la excitación de ACELP se usa mayormente para codificar señales de voz y la excitación TCX se usa mayormente para codificar música y otras señales no vocálicas. Sin embargo, no siempre es este el caso, ya que a veces una señal vocálica tiene partes...
Reivindicaciones:
1. Un procedimiento para codificar una trama en un codificador de un sistema de comunicación, comprendiendo dicho procedimiento las etapas de:
calcular un primer conjunto de parámetros asociado a la trama, en el que dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; seleccionar, en una primera etapa (204), una entre la excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; calcular un segundo conjunto de parámetros asociados a la trama; seleccionar, en una segunda etapa (210), una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y codificar la trama usando la seleccionada, entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, de la segunda etapa.
2. Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la excitación de predicción lineal excitada de código algebraico en la primera etapa, la selección en la segunda etapa comprende reseleccionar la excitación de predicción lineal excitada de código algebraico
o bien seleccionar, en cambio, la excitación codificada por transformación, según un primer algoritmo.
3. Un procedimiento según la reivindicación 2, en el cual el primer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
**(Ver fórmula)**
en la que:
LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
las diez tramas anteriores (20 ms); NormCorrn contiene dos valores de correlación normalizados de la trama actual n; SDn es la distancia espectral de la trama n; y Iphn indica la inclinación espectral.
4. Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la excitación codificada por transformación o la modalidad incierta en la primera etapa, la selección en la segunda etapa comprende reseleccionar la excitación codificada por transformación o seleccionar, en cambio, la excitación de predicción lineal excitada de código algebraico, según un segundo algoritmo.
5. Un procedimiento según la reivindicación 4, en el cual el segundo algoritmo comprende: detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
**(Ver fórmula)**
en la que:
Gainn contiene dos valores de ganancia de LTP de la trama actual n;
NormCorrn contiene dos valores de correlación normalizados de la trama actual n;
Lagn contiene dos valores de desfase de bucle abierto de la trama actual n;
NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga (80 ms) si se selecciona el procedimiento de excitación TCX;
Mag es una envoltura espectral de la transformada discreta de Fourier (DFT) creada a
partir de los coeficientes de filtro de LP, Ap, de la trama actual; y
DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer
elemento (mag(0)) del vector mag.
6. Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la modalidad incierta en la primera etapa, la selección comprende seleccionar una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, según un tercer algoritmo.
7. Un procedimiento según la reivindicación 6, en el cual el tercer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
**(Ver fórmula)**
35 en la que
SDn es la distancia espectral de la trama n; y LagDifbug es el almacén temporal que contiene los valores de desfase de bucle abierto de
las anteriores; Lagn contiene dos valores de desfase de bucle abierto de la trama actual n; Gainn contiene dos valores de ganancia de LTP de la trama actual n; NormCorrn contiene dos valores de correlación normalizados de la trama actual n; NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga
(80 ms) si se selecciona el procedimiento de excitación TCX; y MaxEnergybuf es el valor máximo del almacén temporal que contiene valores de energía.
8. Un procedimiento según la reivindicación 1, en el cual dicho segundo conjunto de parámetros comprende al menos uno entre parámetros espectrales, parámetros de predicción a largo plazo y parámetros de correlación asociados a la trama.
9. Un procedimiento según la reivindicación 1, en el cual, cuando se codifica la trama usando la excitación codificada por transformación, el procedimiento comprende adicionalmente:
seleccionar una longitud de la trama a codificar usando la excitación codificada por transformación, en base a la selección en la primera etapa y en la segunda etapa.
10. Un procedimiento según la reivindicación 9, en el cual la selección de la longitud de la trama a codificar depende de la razón entre señal y ruido de la trama.
11. Un procedimiento según la reivindicación 1, en el cual el codificador es un codificador adaptable extendido de múltiples velocidades y banda ancha.
12. Un procedimiento según la reivindicación 1, en el cual la trama es una trama de audio que comprende voz o contenido no vocálico, en el que el contenido no vocálico puede comprender música.
13. Un procedimiento según cualquier reivindicación precedente, en el cual dicho primer conjunto de parámetros son parámetros de banco de filtros.
14. Un codificador para codificar una trama en un sistema de comunicación, comprendiendo dicho codificador:
un primer módulo (202) de cálculo configurado para calcular un primer conjunto de parámetros asociado a la trama, en donde dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; un módulo (204) de selección de la primera etapa, configurado para seleccionar una entre la excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; un segundo módulo (206, 208) de cálculo, configurado para calcular un segundo conjunto de parámetros asociado a la trama; un módulo (210) de selección de la segunda etapa, configurado para seleccionar una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y un módulo de codificación configurado para codificar la trama usando la seleccionada, entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, del módulo de selección de la segunda etapa.
15. Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la excitación de predicción lineal excitada de código algebraico en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa reselecciona la excitación de predicción lineal excitada de código algebraico, o bien selecciona, en cambio, la excitación codificada por transformación, según un primer algoritmo.
25 16. Un codificador según la reivindicación 15, en el cual el primer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación: LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
**(Ver fórmula)**
las diez tramas anteriores (20 ms); NormCorrn contiene dos valores de correlación normalizados de la trama actual n; SDn es la distancia espectral de la trama n; y Iphn indica la inclinación espectral.
17. Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la excitación codificada por transformación o la modalidad incierta en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa reselecciona la excitación codificada por transformación, o bien selecciona la excitación de predicción lineal excitada de código algebraico, según un segundo algoritmo.
18. Un codificador según la reivindicación 17, en el cual el segundo algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
**(Ver fórmula)**
en la que:
Gainn contiene dos valores de ganancia de LTP de la trama actual n;
NormCorrn contiene dos valores de correlación normalizados de la trama actual n;
Lagn contiene dos valores de desfase de bucle abierto de la trama actual n;
NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga (80 ms) si se selecciona el procedimiento de excitación TCX;
Mag es una envoltura espectral de la transformada discreta de Fourier (DFT) creada a
partir de los coeficientes de filtro de LP, Ap, de la trama actual; y
DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer
elemento (mag(0)) del vector mag.
19. Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la modalidad incierta en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa selecciona una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, según un tercer algoritmo.
20. Un codificador según la reivindicación 19, en el cual el tercer algoritmo comprende: detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
**(Ver fórmula)**
en la que
SDn es la distancia espectral de la trama n; y LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
las anteriores; Lagn contiene dos valores de desfase de bucle abierto de la trama actual n; Gainn contiene dos valores de ganancia de LTP de la trama actual n; NormCorrn contiene dos valores de correlación normalizados de la trama actual n; NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga
(80 ms) si se selecciona el procedimiento de excitación TCX; y MaxEnergybuf es el valor máximo del almacén temporal que contiene valores de energía.
21. Un codificador según la reivindicación 14, en el cual dicho segundo conjunto de parámetros comprende al menos uno entre parámetros espectrales, parámetros de predicción a largo plazo y parámetros de correlación asociados a la trama.
22. Un codificador según la reivindicación 14, que comprende adicionalmente:
un módulo (214) de selección de la tercera etapa, configurado para seleccionar una longitud de la trama a codificar, usando la excitación codificada por transformación, en base a la selección en el módulo (204) de selección de la primera etapa y el módulo (210) de selección de la segunda etapa.
23. Un codificador según la reivindicación 22, en el cual el módulo (214) de selección de la tercera etapa está configurado para seleccionar una longitud de la trama a codificar, en base a una razón entre señal y ruido de la trama.
24. Un codificador según la reivindicación 14, en el cual el codificador comprende un codificador adaptable extendido de múltiples velocidades y banda ancha.
25. Un codificador según la reivindicación 14, en el cual la trama comprende una trama de audio que comprende voz o contenido no vocálico, en el que el contenido no vocálico puede comprender música.
26. Un codificador según cualquiera de las reivindicaciones 14 a 25, en el cual dicho primer
conjunto de parámetros son parámetros de banco de filtros.
27. Un medio legible por ordenador que comprende un programa de ordenador en el mismo, realizando el programa de ordenador el procedimiento de cualquiera de las reivindicaciones 1 5 a 13.
Patentes similares o relacionadas:
VOCODIFICADOR DE VELOCIDAD VARIABLE, del 2 de Diciembre de 2010, de QUALCOMM INCORPORATED: - Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía […]
Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]
Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]
Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]
Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]
Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]
Codificador y descodificador de audio para codificar y descodificar muestras de audio, del 6 de Enero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro […]
Códec de audio sin pérdidas escalable y herramienta de autoría, del 6 de Mayo de 2015, de DTS, INC: Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin […]