Método y dispositivo de codificación de voz transitoria, método y dispositivo de decodificación, sistema de procesamiento y medio de almacenamiento legible por ordenador.

Un método de codificación de señales transitorias para señales de voz o señales de audio, que comprende:

obtener

(11) una subtrama de referencia en la que se encuentra una envolvente en el tiempo máxima que tenga un valor máximo de amplitud con respecto a las envolventes en el tiempo de todas las subtramas de una señal de entrada, en donde la señal de entrada es una señal transitoria;

reducir (13) un valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia de tal modo que una primera diferencia sea mayor que un primer umbral establecido previamente, en donde la primera diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máximo; y

incluir (15) en un flujo de bits de codificación la envolvente en el tiempo ajustada obtenida por el paso de reducción.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CN2009/076194.

Solicitante: HUAWEI TECHNOLOGIES CO., LTD..

Nacionalidad solicitante: China.

Dirección: B1-3A Intellectual Property Department Huawei Administration Building Bantian Longgang District Shenzhen, Guangdong 518129 CHINA.

Inventor/es: XIAO, WEI, MIAO,LEI, HU,CHEN, ZHANG,QING, LIU,ZEXIN, CHEN,LONGYIN, HERVE,MARCEL TADDEI.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE IMAGENES, p. ej. TELEVISION > Sistemas de televisión (detalles H04N 3/00, H04N... > H04N7/24 (Sistemas para la transmisión de señales de televisión que utilizan la modulación por impulsos codificados (H04N 21/00  tiene prioridad))
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > G10L19/00 (Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p.ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H))
  • SECCION H — ELECTRICIDAD > CIRCUITOS ELECTRONICOS BASICOS > CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO,... > Conversión de un código, en el cual la información... > H03M7/30 (Compresión (análisis-síntesis de la voz para reducción de redundancia G10L 19/00; para transmisión de imágenes H04N ); Expansión; Supresión de datos innecesarios, p. ej. reducción de redundancia)

PDF original: ES-2540075_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Método y dispositivo de codificación de voz transitoria, método y dispositivo de decodificación, sistema de procesamiento y medio de almacenamiento legible por ordenador

Campo de la invención

La presente invención está relacionada con el campo de las tecnologías de la comunicación y, en particular, con un método y un dispositivo de codificación de voz transitoria, un método y un dispositivo de decodificación, un sistema de procesamiento y un medio de almacenamiento legible por ordenador.

Antecedentes de la invención

Debido a la limitación del número de tasas de bits para codificar señales de voz y la influencia de las características auditivas humanas, en un algoritmo de codificación de audio en una señal de voz siempre se codifica en primer lugar la información de banda de baja frecuencia. En comparación con la voz en banda estrecha, la voz en banda ancha tiene las propiedades de ser más completa y más natural; por lo tanto, se puede mejorar la calidad acústica mediante el aumento del ancho de banda para la transmisión de señales de voz. Cuando el número de tasas de bits para codificar señales de voz es pequeño, se puede adoptar una tecnología de extensión de ancho de banda con el fin de extender el rango de ancho de banda de las señales de voz y mejorar la calidad de las señales de voz.

En los últimos años, la tecnología de extensión de ancho de banda se ha desarrollado de forma significativa, y se han encontrado aplicaciones comerciales en varios campos, incluyendo la mejora acústica de altavoces bajos y la mejora de alta frecuencia de la voz y el sonido codificados.

Entre los métodos de extensión de ancho de banda actuales, la tecnología de codificación de la información de banda de baja frecuencia adopta algoritmos de codificación y decodificación existentes; y durante el proceso de codificación y decodificación de la información de banda de alta frecuencia, se adopta en general un pequeño número de bits con el fin de codificar la información de banda de alta frecuencia, y se recupera la información de banda de alta frecuencia en un extremo de decodificación mediante la utilización de la correlación entre las bandas de alta frecuencia y las de baja frecuencia.

La solicitud US24/196913A1 de publicación en EE UU, proporciona una técnica computacionalmente eficiente para codificación con compresión de una señal de audio, y proporciona, además, una técnica para mejorar la calidad de sonido de la señal de audio codificada. Esto se consigue mediante la inclusión de una detección de ataque más precisa y una técnica de cuantización computacionalmente eficiente. El codificador de audio mejorado convierte la señal de audio de entrada en una señal de audio digital. El codificador de audio divide a continuación la señal de audio digital en tramas más largas que tengan una longitud de trama de bloque larga y divide cada una de las tramas en múltiples bloques cortos. El codificador de audio calcula a continuación las características de la señal de audio del bloque corto para cada uno de los bloques cortos resultantes de la división en función de los cambios en la señal de audio de entrada. El codificador de audio compara, además, las características de los bloques cortos calculadas con un conjunto de valores umbral con el fin de detectar la presencia de un ataque en cada uno de los bloques cortos y cambia la longitud de trama del bloque largo de uno o más bloques cortos al detectar el ataque en los respectivos uno o más bloques cortos.

El artículo "Pre-echo reduction in the ITU-T G.729.1 coder (reducción del eco previo en el codificador del G.729.1 de la ITU-T)" presenta un nuevo método para considerar la distorsión del eco previo de transformar la codificación a tasas bajas. Se supone que la señal de entrada se va a codificar en dos etapas: primero en el dominio del tiempo y a continuación en el dominio transformado. Esto ocurre, por ejemplo, en el caso de CELP + codificación embebida transformada. La primera etapa reconstruye una señal que normalmente se encuentra libre de eco previo. Por lo tanto la codificación de transformada puede utilizar esta señal reconstruida en la información de un lado para detectar y reducir el eco previo. El método propuesto se implementa como un limitador adaptativo en el lado del decodificador y no necesita la transmisión de ningún dato auxiliar. Forma parte del codificador del G.729.1 de la ITU- T estandarizado recientemente, en el que se utiliza en dos subbandas separadas. Los resultados de la prueba experimental muestran que este método tiene un impacto significativo sobre la calidad en el G.729.1 con una complejidad muy pequeña.

Sin embargo, se ha hecho evidente que una señal transitoria tiene las siguientes características distintas con respecto a las de una señal no transitoria: en el dominio del tiempo, la energía de la señal de la señal transitoria tiene un cambio inmediato largo, mientras que en el dominio de la frecuencia, el espectro de frecuencia de la señal transitoria es uniforme. En la técnica anterior, no se modifica la envolvente en el tiempo de la señal transitoria, y debido a la influencia del procesamiento en el proceso de codificación de la señal como, por ejemplo, un proceso trama a trama, la transformada de tiempo-frecuencia y la envolvente de frecuencia, es probable que la señal transitoria genere un eco previo; por lo tanto, la técnica anterior tiene la desventaja de que el efecto de la señal transitoria recuperada en el extremo de decodificación no es satisfactorio.

Resumen de la invención

La presente invención se orienta a un método y un dispositivo de codificación de señales transitorias, un método y un dispositivo de decodificación, y un sistema de procesamiento para señales de voz o señales de audio, los cuales están configurados para mejorar la calidad de recuperación de las señales transitorias.

La invención se define en las reivindicaciones independientes; en las reivindicaciones dependientes se definen otros modos de realización. De acuerdo con el método y dispositivo de codificación de señales transitorias, el método y dispositivo de decodificación, y el sistema de procesamiento para señales de voz o señales de audio de la presente invención, se modifica la envolvente en el tiempo de acuerdo con las características de la señal transitoria de tal modo, que sea mayor la diferencia entre el valor de amplitud de la envolvente en el tiempo que tiene el valor máximo de amplitud y los valores de amplitud de las envolventes en el tiempo del resto de subtramas anteriores a la subtrama correspondiente a la envolvente en el tiempo que tiene el valor máximo de amplitud, mejorando de este modo el efecto de recuperación de la señal transitoria.

Breve descripción de los dibujos

Con el fin de hacer que sean más claras las soluciones técnicas bajo la presente invención, a continuación se describen los dibujos adjuntos para ¡lustrar los modos de realización o la técnica anterior. Evidentemente, los dibujos adjuntos tienen únicamente el propósito de ser ejemplos.

La FIG. 1 es un diagrama de flujo de un método de codificación de señales transitorias de acuerdo con un primer modo de realización;

la FIG. 2 es un diagrama de flujo de un método de codificación de señales transitorias de acuerdo con un segundo modo de realización;

la FIG. 3 es un diagrama de bloques de un modo de realización de un extremo de codificación que modifica una envolvente en el tiempo de una señal transitoria de acuerdo con el segundo modo de realización;

la FIG. 4 es un diagrama de flujo de un método de decodificación de señales transitorias de acuerdo con un tercer modo de realización;

la FIG. 5 es un diagrama de flujo... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de codificación de señales transitorias para señales de voz o señales de audio, que comprende:

obtener (11) una subtrama de referencia en la que se encuentra una envolvente en el tiempo máxima que tenga un valor máximo de amplitud con respecto a las envolventes en el tiempo de todas las subtramas de una señal de entrada, en donde la señal de entrada es una señal transitoria;

reducir (13) un valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia de tal modo que una primera diferencia sea mayor que un primer umbral establecido previamente, en donde la primera diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máximo; y

incluir (15) en un flujo de bits de codificación la envolvente en el tiempo ajustada obtenida por el paso de

reducción.

2. El método de codificación de señales transitorias de acuerdo con la reivindicación 1, que comprende,

además:

calcular un valor promedio de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia; y

reducir el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia de tal modo que una segunda diferencia sea mayor que un segundo umbral establecido previamente cuando el valor promedio de la amplitud sea menor que o igual a un valor de referencia establecido previamente, en donde la segunda diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima.

3. El método de codificación de señales transitorias de acuerdo con la reivindicación 2, en el que después de ajustar el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas distintas a la subtrama de referencia, el método comprende, además:

ajustar un valor de la amplitud de la envolvente en el tiempo de la subtrama de referencia de tal modo que una energía promedio de la envolvente en el tiempo ajustada de cada una de las subtramas de la señal transitoria sea mayor que un tercer umbral establecido previamente.

4. El método de codificación de señales transitorias de acuerdo con la reivindicación 1, que comprende, además:

determinar (25) un tipo de señal de la señal de entrada, e incluir la información del tipo de señal en el flujo de bits de codificación, en donde la información del tipo de señal está configurada para indicar si la señal de entrada es una señal transitoria o una señal no transitoria.

5. El método de codificación de señales transitorias de acuerdo con la reivindicación 4, en el que la determinación del tipo de señal de la señal de entrada comprende:

formar una trama larga con un número preestablecido de tramas consecutivas en la señal de entrada, y calcular una energía promedio de la trama larga;

dividir la trama larga en múltiples subtramas, y calcular una energía promedio de cada una de las subtramas;

calcular una tercera diferencia y una cuarta diferencia, respectivamente, en donde la tercera diferencia es una diferencia máxima entre la energía promedio de cada una de las subtramas y la energía promedio de la trama larga, y la cuarta diferencia es una diferencia máxima entre las energías promedio de dos subtramas consecutivas; y

determinar que la señal de entrada es una señal transitoria, cuando la energía promedio de la trama larga es mayor que un cuarto umbral, la tercera diferencia es mayor que un quinto umbral, y la cuarta diferencia es mayor que un sexto umbral; en caso contrario, determinar que la señal de entrada es una señal no transitoria.

6. Un método de decodificación de señales transitorias para señales de voz o señales de audio, que comprende:

obtener (41) una subtrama de referencia en la que se encuentra una envolvente en el tiempo máxima que tiene un valor máximo de amplitud entre las envolventes en el tiempo de todas las subtramas de una señal en el dominio del tiempo obtenida previamente, siendo la señal en el dominio del tiempo obtenida previamente una señal

transitoria;

reducir (43) un valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia de tal modo que una primera diferencia sea mayor que un primer umbral establecido previamente, en donde la primera diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima; y

modificar de acuerdo con la envolvente en el tiempo ajustada la señal en el dominio del tiempo obtenida previamente, con el fin de obtener una señal transitoria recuperada.

7. El método de decodificación de señales transitorias de acuerdo con la reivindicación 6, que comprende, además:

calcular un valor promedio de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia; y

reducir el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia de tal modo que una segunda diferencia sea mayor que un segundo umbral establecido previamente cuando el valor promedio de la amplitud sea menor que o igual a un valor de referencia establecido previamente, en donde la segunda diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima.

8. El método de decodlflcaclón de señales transitorias de acuerdo con la reivindicación 7, en el que después de haber ajustado el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas distintas de la subtrama de referencia, el método comprende, además:

ajustar un valor de la amplitud de la envolvente en el tiempo de la subtrama de referencia de tal modo que una energía promedio de la envolvente en el tiempo ajustada de cada una de las subtramas de la señal transitoria sea mayor que un tercer umbral establecido previamente.

9. El método de decodlflcaclón de señales transitorias de acuerdo con la reivindicación 6, en el que antes de la modificación de acuerdo con la envolvente en el tiempo ajustada de la señal en el dominio del tiempo obtenida previamente, el método comprende, además:

seleccionar un número preestablecido de puntos de muestreo en la subtrama de referencia; y

ajustar la amplitud de la señal de cada uno de los puntos de muestreo seleccionados de tal modo que una quinta diferencia sea mayor que un séptimo umbral, en donde la quinta diferencia es una diferencia entre el valor de la amplitud de la señal de cada uno de los puntos de muestreo seleccionados y un valor máximo de amplitud de la subtrama de referencia.

1. Un dispositivo de codificación de señales transitorias para señales de voz o señales de audio, que comprende:

un módulo (71) de obtención de la subtrama de referencia, configurado para obtener una subtrama de referencia en la que se encuentra una envolvente en el tiempo máxima que tiene un valor máximo de amplitud entre las envolventes en el tiempo de todas las subtramas de una señal de entrada, en donde la señal de entrada es una señal transitoria;

un primer módulo (72) de ajuste del valor de amplitud, configurado para reducir un valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia de tal modo que una primera diferencia sea mayor que un primer umbral establecido previamente, en donde la primera diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima; y

un módulo (73) de inserción en el flujo de bits, configurado para insertar en un flujo de bits de codificación la envolvente en el tiempo ajustada generada por el primer módulo de ajuste del valor de amplitud.

11. El dispositivo de codificación de señales transitorias de acuerdo con la reivindicación 1, que comprende, además:

un módulo (74) de cálculo de un valor promedio de la amplitud, configurado para calcular un valor promedio de la amplitud de las envolventes en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia; y

un segundo módulo (75) de ajuste del valor de amplitud, configurado para reducir el valor de la amplitud de la

envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia de tal modo que una segunda diferencia sea mayor que un segundo umbral establecido previamente cuando el valor de la amplitud promedio sea menor que o igual a un valor de referencia establecido previamente, en donde la segunda diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima.

12. El dispositivo de codificación de señales transitorias de acuerdo con la reivindicación 11, que comprende, además:

un tercer módulo (76) de ajuste del valor de amplitud, configurado para ajustar un valor de la amplitud de la envolvente en el tiempo de la subtrama de referencia de tal modo que una energía promedio de la envolvente en el tiempo ajustada de cada una de las subtramas de la señal transitoria sea mayor que un tercer umbral establecido previamente, después de haber ajustado el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas distintas a la subtrama de referencia.

13. El dispositivo de codificación de señales transitorias de acuerdo con la reivindicación 12, que comprende, además:

un modulo (77) de determinación del tipo de señal, configurado para determinar un tipo de señal de la señal de entrada, e incluir la información del tipo de señal en el flujo de bits de codificación, en donde la información del tipo de señal está configurada para indicar si la señal de entrada es una señal transitoria o una señal no transitoria.

14. El dispositivo de codificación de señales transitorias de acuerdo con la reivindicación 13, en el que el modulo (77) de determinación del tipo de señal comprende:

una unidad (771) de cálculo de energía promedio de una trama larga, configurada para formar una trama larga con un número preestablecido de tramas consecutivas de la señal de entrada y calcular una energía promedio de la trama larga;

una unidad (772) de cálculo de energía promedio de una subtrama, configurada para dividir la trama larga en múltiples subtramas y para calcular una energía promedio de cada una de las subtramas;

una unidad (773) de cálculo de diferencias, configurada para calcular una tercera diferencia y una cuarta diferencia, respectivamente, en donde la tercera diferencia es una diferencia máxima entre la energía promedio de cada una de las subtramas y la energía promedio de la trama larga, y la cuarta diferencia es una diferencia máxima entre las energías promedio de dos subtramas consecutivas; y

una unidad (774) de determinación del tipo de señal, configurada para determinar que la señal de entrada es una señal transitoria cuando la energía promedio de la trama larga es mayor que un cuarto umbral, la tercera diferencia es mayor que un quinto umbral, y la cuarta diferencia es mayor que un sexto umbral; en caso contrario, determinar que la señal de entrada es una señal no transitoria.

15. Un dispositivo de decodificación de señales transitorias para señales de voz o señales de audio, que comprende:

un módulo (91) de obtención de la subtrama de referencia, configurado para obtener una subtrama de referencia en la que se encuentra una envolvente en el tiempo máxima que tiene un valor máximo de amplitud de entre las envolventes en el tiempo de todas las subtramas de una señal en el dominio del tiempo obtenida previamente, siendo la señal en el dominio del tiempo obtenida previamente una señal transitoria;

un primer módulo (92) de ajuste del valor de amplitud, configurado para reducir un valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia de tal modo que una primera diferencia sea mayor que un primer umbral establecido previamente, en donde la primera diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas anteriores a la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima; y

un módulo (93) de modificación de la señal en el dominio del tiempo, configurado para modificar la señal en el dominio del tiempo obtenida previamente, de acuerdo con la envolvente en el tiempo ajustada generada por el primer módulo de ajuste del valor de amplitud, de tal modo que se obtiene una señal transitoria recuperada.

16. El dispositivo de decodificación de señales transitorias de acuerdo con la reivindicación 15, que comprende, además:

un módulo (94) de cálculo de un valor promedio de la amplitud, configurado para calcular un valor promedio de la amplitud de las envolventes en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia; y

un segundo módulo (95) de ajuste del valor de amplitud, configurado para reducir el valor de la amplitud de la

envolvente en el tiempo de cada una de las subtramas posteriores a la subtrama de referencia de tal modo que una segunda diferencia sea mayor que un segundo umbral establecido previamente cuando el valor promedio de la amplitud sea menor que o igual a un valor de referencia establecido previamente, en donde la segunda diferencia es una diferencia entre el valor de la amplitud de la envolvente en el tiempo de cada una de las subtramas posteriores a 5 la subtrama de referencia y el valor de la amplitud de la envolvente en el tiempo máxima.

17. Un sistema de procesamiento de señales transitorias para señales de voz o señales de audio, que comprende.

un dispositivo de codificación de señales transitorias de acuerdo con una cualquiera de las reivindicaciones 1-

14, y

un dispositivo de decodlflcaclón de señales transitorias, configurado para modificar una señal en el dominio del

tiempo obtenida previamente, de acuerdo con la envolvente en el tiempo en el flujo de bits de codificación recibido desde el dispositivo de codificación de señales transitorias, con el fin de obtener una señal transitoria recuperada.

18. Un sistema de procesamiento de señales transitorias para señales de voz o señales de audio, que comprende:

un dispositivo de codificación de señales transitorias, configurado para insertar una envolvente en el tiempo de

cada una de las subtramas de una señal transitoria en un flujo de bits de codificación; y

un dispositivo de decodificación de señales transitorias de acuerdo con una cualquiera de las reivindicaciones 15-16.

19. Un medio de almacenamiento legible por ordenador, que comprende un programa de ordenador, el cual 2 cuando es ejecutado por un procesador de un ordenador, ejecuta los pasos de acuerdo con una cualquiera de las

reivindicaciones 1 a 9.