Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes.

Un aparato (100, 100a, 500, 700) de codificación de habla adaptado para realizar codificación en una base trama a trama, comprendiendo el aparato de codificación de habla:

una sección

(101) de transformación adaptada para transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia;

una sección (102) de selección adaptada para dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas, y adaptada adicionalmente para seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas, y adaptada adicionalmente para generar una información de banda que indica la banda objetivo de cuantificación;

una sección (103) de cuantificación de forma adaptada para cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación;

una sección (105, 505, 705) de cuantificación de ganancia adaptada para codificar una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia; y

una sección (104) de determinación adaptada:

para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado, y

para determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado,

donde la sección de cuantificación de ganancia está adaptada:

para obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada cuando la sección de determinación ha determinado que la codificación predictiva se ha de realizar, y

para obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación cuando la sección de determinación ha determinado que la codificación predictiva no se ha de realizar.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/JP2007/073966.

Solicitante: Panasonic Intellectual Property Corporation of America.

Inventor/es: OSHIKIRI,MASAHIRO, YAMANASHI,TOMOFUMI.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/02 (utilizando análisis espectrales, p. ej. codificadores vocales de transformación o codificadores vocales subbanda)
  • SECCION H — ELECTRICIDAD > CIRCUITOS ELECTRONICOS BASICOS > CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO,... > Conversión de un código, en el cual la información... > H03M7/30 (Compresión (análisis-síntesis de la voz para reducción de redundancia G10L 19/00; para transmisión de imágenes H04N ); Expansión; Supresión de datos innecesarios, p. ej. reducción de redundancia)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/08 (Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/24 (Codecs de frecuencia variable, p. ej. para generar diferentes calidades utilizando una representación escalable como una codificación jerárquica o en capas)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/038 (Cuantificación vectorial, p. ej. audio TwinVQ)
  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis-síntesis de la voz o de señales... > G10L19/083 (siendo la función de excitación un incremento de excitación (G10L 25/90  tiene prioridad))

PDF original: ES-2474915_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Dispositivo de codificación, dispositivo de decodificación y métodos correspondientes

Campo técnico La presente invención se refiere a un aparato de codificación/aparato de decodificación y a un método de codificación/método de decodificación usado en un sistema de comunicación en el que se codifica y transmite una señal, y se recibe y decodifica.

Técnica anterior

Cuando se transmite una señal de habla/audio en un sistema de comunicación móvil o un sistema de comunicación de paquetes caracterizado por comunicación de internet, se usa a menudo tecnología de compresión/codificación para aumentar la eficacia de transmisión de señal de habla/audio. También, en los últimos años, se ha desarrollado un método de codificación/decodificación escalable que posibilita obtener una señal decodificada de buena calidad a partir de parte de información codificada incluso si ocurre un error de transmisión durante la transmisión.

Una tecnología de compresión/codificación anteriormente descrita es una tecnología de codificación predictiva de dominio de tiempo que aumenta la eficacia de compresión usando la correlación temporal de una señal de habla y/o señal de audio (en lo sucesivo denominada como “señal de habla/audio”) . Por ejemplo, en el Documento de Patente 1, se predice una señal de trama actual a partir de una señal de trama pasada, y el método de codificación predictiva cambia de acuerdo con el error de predicción. También, en el Documento Distinto de Patente 1, se describe una tecnología en la cual un método de codificación predictiva cambia de acuerdo con el grado de cambio en el dominio de tiempo de un parámetro de habla tal como LSF (Frecuencia Espectral de Línea) y el estado de aparición de error de trama.

Documento de Patente 1: Solicitud de Patente Japonesa Abierta a Inspección Pública Nº HEI 8-211900 Documento distinto de Patente 1: Thomas Eriksson, Jan Linden y Jan Skoglund, “Exploiting Inter-frame Correlation In Spectral Quantization, ” “Acoustics, Speech, and Signal Processing, ” 1996. ICASSP-96. Conference Proceedings, 7-10 de mayo de 1996 página (s) : 765 -768 vol. 2

El documento US 2003/093271 A1 tiene por objeto proporcionar un dispositivo de codificación que es capaz de codificar una señal de audio con una alta tasa de compresión, al proporcionar un dispositivo de decodificación que es capaz de decodificar la señal de audio codificada, y al reproducir datos espectrales de frecuencia de banda ancha y una señal de audio de banda ancha. Para conseguir este objetivo, el sistema del documento se centra en una unidad de extensión de banda y una unidad de codificación. Un espectro de frecuencia, transformado desde una señal de entrada en un dominio de tiempo, está dividido en un espectro de frecuencia inferior y unos datos de extensión que especifican un espectro de frecuencia superior. La unidad de codificación se hace funcionar para codificar el espectro de frecuencia inferior y los datos de extensión y para emitir el espectro de frecuencia inferior codificado y los datos de extensión.

Adicionalmente, se copia un espectro parcial como el espectro de frecuencia superior de entre una pluralidad de los espectros parciales que forman el espectro de frecuencia inferior. En relación con el espectro de frecuencia superior,

no el propio espectro ha de codificarse, sino principalmente los datos para copiar el espectro de frecuencia inferior, que sustituyen el espectro de frecuencia superior. Esto da como resultado que puede reducirse el efecto de que la cantidad de datos que se consume mediante la corriente de datos codificada que representa los componentes de frecuencia superior.

El artículo “APVQ Encoder Applied to Wideband Speech Coding” por Salavedra J. M. et al., 3 de octubre de 1996, se refiere a una técnica de codificación de habla de banda ancha en la que un codificador APVQ combina técnicas de codificación de subbanda, cuantificación de vector y predicción adaptativa. Se enseña que una señal de habla se divide en 16 subbandas por medio de un banco de filtro QMF, donde cada subbanda tiene un ancho de banda de frecuencia de 500 Hz. De acuerdo con el esquema de codificación desvelado, se forma un vector de señal con una 55 muestra de la señal de error de predicción normalizada que procede de diferentes subbandas y a continuación se cuantifica el vector. Una señal de error de predicción se normaliza mediante su ganancia y la señal de error de predicción normalizada se introduce a la cuantificación del vector, y por lo tanto se considera una cuantificación de vector de ganancia-forma adaptativa.

Divulgación de la invención

Problemas a resolver mediante la invención Sin embargo, con cualquiera de las anteriores tecnologías, se realiza codificación predictiva basándose en un 65 parámetro de dominio de tiempo en una base trama a trama, y no se menciona codificación predictiva basándose en un parámetro de dominio no de tiempo tal como un parámetro de dominio de frecuencia. Si un método de codificación predictiva basándose en un parámetro de dominio de tiempo, tal como se ha descrito anteriormente, se aplica simplemente a la codificación de parámetro de dominio de frecuencia, no hay problema si una banda objetivo de cuantificación es la misma en una trama pasada y trama actual, pero si la banda objetivo de cuantificación es diferente en una trama pasada y trama actual, el error de codificación y la degradación de calidad de audio de señal

decodificada aumenta en gran medida, y puede no ser capaz de decodificarse una señal de habla/audio.

Es un objeto de la presente invención proporcionar un aparato de codificación y así sucesivamente capaz de reducir la cantidad de información codificada de una señal de habla/audio, y capaz también de reducir el error de codificación de señal de habla/audio y la degradación de calidad de audio de señal decodificada, cuando un componente de frecuencia de una banda diferente se hace un objetivo de cuantificación en cada trama.

Medios para resolver los problemas Se define un aparato de codificación de acuerdo con la presente invención en la reivindicación 1. 15 Se define un aparato de decodificación de acuerdo con la presente invención en la reivindicación 16.

Se define un método de codificación de acuerdo con la presente invención en la reivindicación 17.

Se define un método de decodificación de acuerdo con la presente invención en la reivindicación 18.

Efecto ventajoso de la invención La presente invención reduce la cantidad de información codificada de una señal de habla/audio o similar, y puede evitar también la degradación de calidad de nitidez de una señal decodificada, habla decodificada y así sucesivamente, y puede reducir el error de codificación de una señal de habla/audio o similar y la degradación de calidad de señal decodificada.

Breve descripción de los dibujos La Figura 1 es un diagrama de bloques que muestra la configuración principal de un aparato de codificación de hablar de acuerdo con la realización 1 de la presente invención;

La Figura 2 es un dibujo que muestra un ejemplo de la configuración de regiones obtenidas mediante una sección de selección de banda de acuerdo con la realización 1 de la presente invención;

La Figura 3 es un diagrama de bloques que muestra la configuración principal de un aparato de decodificación de habla de acuerdo con la realización 1 de la presente invención; La Figura 4 es un diagrama de bloques que muestra la configuración principal de una variación de un aparato de codificación de habla de acuerdo con la realización no relacionada con la presente invención; La Figura 5 es un diagrama... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato (100, 100a, 500, 700) de codificación de habla adaptado para realizar codificación en una base trama a trama, comprendiendo el aparato de codificación de habla:

una sección (101) de transformación adaptada para transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia; una sección (102) de selección adaptada para dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas, y adaptada adicionalmente para seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas, y adaptada adicionalmente para generar una información de banda que indica la banda objetivo de cuantificación; una sección (103) de cuantificación de forma adaptada para cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación; una sección (105, 505, 705) de cuantificación de ganancia adaptada para codificar una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia; y una sección (104) de determinación adaptada:

para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado, y para determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado,

donde la sección de cuantificación de ganancia está adaptada:

para obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada cuando la sección de determinación ha determinado que la codificación predictiva se ha de realizar, y para obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación cuando la sección de determinación ha determinado que la codificación predictiva no se ha de realizar.

2. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia está adaptada adicionalmente para obtener la información codificada de ganancia realizando cuantificación de vector de la ganancia del parámetro de dominio de frecuencia.

3. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia está adaptada adicionalmente para obtener la información codificada de ganancia realizando cuantificación predictiva de la ganancia usando una ganancia de un parámetro de dominio de frecuencia en una trama pasada.

4. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está

adaptada adicionalmente para seleccionar una región para la que la energía es la más alta entre las regiones 45 compuestas de una pluralidad de subbandas como la banda objetivo de cuantificación.

5. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está adaptada adicionalmente para seleccionar una banda para la que la energía es la más alta entre las bandas candidatas como la banda objetivo de cuantificación, cuando las bandas candidatas existen para las que un número de subbandas comunes a la banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado y la energía es igual a o mayor que un valor predeterminado, y donde la sección de selección está adaptada adicionalmente para seleccionar una banda para la que la energía es la más alta en todas las bandas del dominio de frecuencia como la banda objetivo de cuantificación, cuando las bandas candidatas no existen.

6. El aparto de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está adaptada adicionalmente para seleccionar una banda más cercana a la banda objetivo de cuantificación seleccionada en el pasado entre las bandas para las que la energía es igual a o mayor que un valor predeterminado que la banda objetivo de cuantificación.

7. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de multiplicación por un factor de ponderación que es más grande cuanto más está una subbanda hacia un lado de banda baja.

8. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está

adaptada adicionalmente para seleccionar una subbanda fijada al lado de banda baja como la banda objetivo de cuantificación.

9. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de multiplicación por un factor de ponderación que es más grande cuanto más alta es la frecuencia de selección en el pasado de una subbanda.

10. El aparato de codificación de habla de acuerdo con la reivindicación 1, que comprende adicionalmente una sección (504) de interpolación adaptada para realizar interpolación en una ganancia de un parámetro de dominio de frecuencia en una subbanda no cuantificada en el pasado entre las subbandas indicadas mediante la información de banda usando información codificada de ganancia pasada, para obtener un valor de interpolación, donde la sección de cuantificación de ganancia está adaptada adicionalmente para usar también el valor de interpolación cuando realiza la codificación predictiva.

11. El aparato de codificación de habla acuerdo con la reivindicación 1, que comprende adicionalmente una sección

(704) de decisión adaptada para decidir un coeficiente de predicción de manera que un factor de ponderación de un valor de ganancia de una trama pasada es más grande cuanto más grande es una subbanda común a una banda objetivo de cuantificación de una trama pasada y una banda objetivo de cuantificación de una trama actual, donde la sección de cuantificación de ganancia está adaptada adicionalmente para usar el coeficiente de predicción cuando realiza la codificación predictiva.

12. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está adaptada adicionalmente para seleccionar de manera fija una subbanda predeterminada como parte de la banda objetivo de cuantificación.

13. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de selección está

adaptada adicionalmente para seleccionar la banda objetivo de cuantificación después de la multiplicación por un factor de ponderación que es más grande cuanto más está una subbanda hacia un lado de banda alta en parte de la banda objetivo de cuantificación.

14. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de ganancia está adaptada adicionalmente para realizar codificación predictiva en una ganancia de un parámetro de dominio de frecuencia en parte de la banda objetivo de cuantificación, y para realizar codificación no predictiva en una ganancia de un parámetro de dominio de frecuencia en una parte restante.

15. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cuantificación de

ganancia está adaptada adicionalmente para realizar cuantificación de vector de la ganancia de una pluralidad no consecutiva de subbandas.

16. Un aparato (200, 200a, 600, 800) de decodificación de habla que comprende:

una sección (201) de recepción adaptada para recibir información de banda que indica una banda objetivo de cuantificación, que está compuesta de un número natural de subbandas consecutivas de una pluralidad de subbandas, donde la pluralidad de subbandas es un parámetro de dominio de frecuencia subdividido de una señal de audio/habla de entrada; una sección (202) de descuantificación de forma adaptada para decodificar una información codificada de forma 45 en la que una forma de un parámetro de dominio de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una forma decodificada; una sección (204, 604, 804) de descuantificación de ganancia adaptada para decodificar una información codificada de ganancia, en la que una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una ganancia decodificada, y para decodificar un parámetro de frecuencia usando la forma decodificada y la ganancia decodificada para generar un parámetro de dominio de frecuencia decodificado; una sección (205) de transformación de domino de tiempo adaptada para transformar el parámetro de dominio de frecuencia decodificado a un dominio de tiempo para obtener una señal decodificada de dominio de tiempo; y una sección (203) de determinación adaptada:

para encontrar un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la información de banda recibida para determinar que la codificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada es igual a o mayor que un valor predeterminado, y para determinar que la decodificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado,

donde la sección de descuantificación de ganancia está adaptada:

para realizar decodificación predicativa de la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación de trama actual usando la ganancia obtenida en la decodificación de ganancia pasada, cuando la sección de determinación ha determinado que la decodificación predictiva se ha de realizar; y para realizar directamente descuantificación de la información codificada de ganancia, en la que la ganancia de un parámetro de dominio de frecuencia se cuantifica en la banda objetivo de cuantificación de trama actual

cuando la sección de determinación ha determinado que la decodificación predictiva no se ha de realizar.

17. Un método de codificación de habla para realizar codificación en una base trama a trama, comprendiendo el método las etapas de:

transformar una señal de audio/habla de entrada a un dominio de frecuencia para obtener un parámetro de dominio de frecuencia; dividir el parámetro de dominio de frecuencia en una pluralidad de subbandas; seleccionar una banda objetivo de cuantificación compuesta de un número natural de subbandas consecutivas de la pluralidad de subbandas;

generar una información de banda que indica la banda objetivo de cuantificación; cuantificar una forma del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de forma; codificar una ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación para obtener una información codificada de ganancia;

determinar que la codificación predicativa se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación seleccionada en el pasado es igual a o mayor que un valor predeterminado; determinar que la codificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado;

obtener la información codificada de ganancia realizando codificación predictiva en la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación usando información codificada de ganancia pasada, cuando se determina que la codificación predictiva se ha de realizar; y obtener la información codificada de ganancia cuantificando directamente la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación, cuando se determina que la codificación predictiva no se ha de realizar.

18. Un método de decodificación de habla que comprende las etapas de:

recibir información de banda que indica una banda objetivo de cuantificación, que está compuesta de un número natural de subbandas consecutivas de una pluralidad de subbandas, donde la pluralidad de subbandas es un parámetro de dominio de frecuencia subdividido de una señal de audio/habla de entrada; decodificar una información codificada de forma en la que una forma de un parámetro de domino de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una forma decodificada; decodificar una información codificada de ganancia, en la que una ganancia de un parámetro de dominio de frecuencia en la banda objetivo de cuantificación se cuantifica, para generar una ganancia decodificada; decodificar el parámetro de domino de frecuencia usando la forma decodificada y la ganancia decodificada para generar un parámetro de dominio de frecuencia decodificada; transformar el parámetro de dominio de frecuencia decodificada a un dominio de tiempo para obtener una señal decodificada de dominio de tiempo;

encontrar un número de subbandas comunes a una banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada usando la información de banda recibida; determinar que la decodificación predictiva se ha de realizar cuando el número de subbandas comunes a la banda objetivo de cuantificación de trama actual y una banda objetivo de cuantificación de trama pasada es igual a o mayor que un valor predeterminado;

determinar que la decodificación predictiva no se ha de realizar cuando el número de subbandas comunes es menor que el valor predeterminado; realizar decodificación predictiva de la ganancia del parámetro de dominio de frecuencia en la banda objetivo de cuantificación de trama actual usando la ganancia obtenida en la decodificación de ganancia pasada, cuando se determina que la decodificación predictiva se ha de realizar; y

realizar directamente descuantificación de la información codificada de ganancia, en la que la ganancia de un parámetro de dominio de frecuencia se cuantifica en la banda objetivo de cuantificación de trama actual, cuando se determina que la decodificación predictiva no se ha de realizar.