Cálculo de máscara de escalamiento selectiva basado en detección de picos.

Un aparato operativo para codificar una señal de audio, comprendiendo el aparato:



un selector de ganancia de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida, genera una máscara de escalamiento ψ (S) basada en el conjunto de picos detectados.

una unidad de escalamiento del generador del vector de ganancia, que genera un vector de ganancia g* en base a por lo menos la máscara de escamiento y el indice j representativo del vector de ganancia, escala el vector de audio reconstruido S con el vector de ganancia para producir una señal de audio reconstruida escalada;

un generador de señal de error del generador de vectores de ganancia que genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y

un transmisor del codificador de la capa de mejora que emite el indice del vector de ganacia basado en la distorsión generada.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2009/066927.

Solicitante: Motorola Mobility LLC .

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 600 North US Highway 45 Libertyville, IL 60048 ESTADOS UNIDOS DE AMERICA.

Inventor/es: ASHLEY,JAMES P, MITTAL,UDAR.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L19/14

PDF original: ES-2432625_T3.pdf

 


Fragmento de la descripción:

Cálculo de máscara de escalamiento selectiva basado en detección de picos.

Referencia a solicitudes relacionadas La presente invención está relacionada con las siguientes solicitudes de patente europea, que junto con esta solicitud son propiedad de Motorola Mobility, Inc.:

Solicitud EP 2 382 621 A0, titulada "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM";

Solicitud EP 2 382 622 A0, titulada "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM"; y

Solicitud EP 2 382 626 A0, titulada "SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION".

Campo de la descripción La presente descripción se refiere en general a sistemas de comunicación y, más en particular, a codificación de voz y señales de audio en dichos sistemas de comunicación.

Antecedentes La compresión de señales de audio y de voz digital es bien conocida. Generalmente, se requiere compresión para transmitir eficientemente señales sobre un canal de comunicaciones, o para almacenar señales comprimidas en un dispositivo multimedia digital, tal como un dispositivo de memoria de estado sólido o un disco duro de ordenador. Si bien existen muchas técnicas de compresión (o "codificación") , un método que ha seguido siendo muy popular para la codificación digital de la voz se conoce como predicción lineal con excitación por código (CELP, Code Excited Linear Prediction) , que es uno de la familia de algoritmos de codificación de "análisis por síntesis". Análisis por síntesis se refiere, en general, a un proceso de codificación mediante el que se utilizan múltiples parámetros de un modelo digital para sintetizar un conjunto de señales candidatas que se comparan con una señal de entrada y cuya distorsión se analiza. A continuación, un conjunto de parámetros que proporciona la mínima distorsión es transmitido o bien almacenado, y eventualmente utilizado para reconstruir una estimación de la señal de entrada original. CELP es un método particular de análisis por síntesis que utiliza uno o varios libros de códigos, cada uno de los cuales comprende esencialmente conjuntos de vectores de código que se recuperan del libro de códigos en respuesta a un índice del libro de códigos.

En los codificadores CELP actuales, existe un problema para mantener la reproducción de voz y audio de alta calidad a velocidades de datos razonablemente bajas. Esto es especialmente cierto para música u otras señales de audio genéricas que no encajan demasiado bien en el modelo de voz CELP. En este caso, el desajuste del modelo puede causar una calidad de audio severamente degradada que puede ser inaceptable para un usuario final del equipo que utiliza dichos métodos. Por lo tanto, sigue existiendo la necesidad de mejorar el comportamiento de los codificadores de voz de tipo CELP a bajas velocidades binarias, especialmente para música y otras entradas no de tipo voz.

Un documento de la técnica anterior en el campo de la codificación de voz/audio es el de Ramprashad S A: "A two stage hybrid embedded speech/ audio coding structure" ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 1998. PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON SEATTLE, WA, USA, 12 a 15 de mayo de 1998, Nueva York, NY, USA, IEEE, US, volumen 1, 12 de mayo de 1998 () , páginas 337 a 340, XP010279163 ISBN: 978-0-7803-4428-0.

Los objetivos anteriores se resuelven mediante las reivindicaciones de la presente invención.

Breve descripción de los dibujos Las figuras adjuntas, en las que los números de referencia iguales se refieren a elementos idéntica o funcionalmente similares en la totalidad de las diferentes vistas, junto con la siguiente descripción detallada se incorporan a la especificación y forman parte de la misma, y sirven para mostrar diversas realizaciones de conceptos que incluyen la invención reivindicada, y para explicar diversos principios y ventajas de estas realizaciones.

La figura 1 es un diagrama de bloques de un sistema de compresión de voz/audio integrado de la técnica anterior.

La figura 2 es un ejemplo más detallado del codificador de la capa de mejora de la figura 1.

La figura 3 es un ejemplo más detallado del codificador de la capa de mejora de la figura 1.

La figura 4 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora.

La figura 5 es un diagrama de bloques de un sistema de codificación integrado multicapa.

La figura 6 es un diagrama de bloques del codificador y el descodificador de la capa 4.

La figura 7 es un diagrama de flujo que muestra el funcionamiento de los codificadores de la figura 4 y la figura 6.

La figura 8 es un diagrama de bloques de un sistema de compresión de voz/audio integrado de la técnica anterior.

La figura 9 es un ejemplo más detallado del codificador de la capa de mejora de la figura 8.

La figura 10 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora, de acuerdo con diversas realizaciones.

La figura 11 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora, de acuerdo con diversas realizaciones.

La figura 12 es un diagrama de flujo de la codificación de la señal de audio de múltiples canales, de acuerdo con diversas realizaciones.

La figura 13 es un diagrama de flujo de la codificación de la señal de audio de múltiples canales, de acuerdo con diversas realizaciones.

La figura 14 es un diagrama de flujo de la descodificación de una señal de audio de múltiples canales, de acuerdo con diversas realizaciones.

La figura 15 es un gráfico de frecuencias de detección de pico basada en generación de máscaras, de acuerdo con diversas realizaciones.

La figura 16 es un gráfico de frecuencias del escalamiento de la capa central utilizando generación de máscaras de pico, de acuerdo con diversas realizaciones.

Las figuras 17 a 19 son diagramas de flujo que muestran metodología para codificación y descodificación utilizando generación de máscaras basada en detección de picos, de acuerdo con diversas realizaciones.

Los técnicos cualificados apreciarán que los elementos de las figuras se muestran por simplicidad y claridad y no necesariamente han sido dibujados a escala. Por ejemplo, las dimensiones de algunos de los elementos de las figuras pueden estar exageradas con respecto a otros elementos para ayudar a mejorar la comprensión de diversas realizaciones. Además, la descripción y los dibujos no necesariamente requieren el orden mostrado. Se apreciará además que ciertas acciones y/o etapas pueden estar descritas o representadas en un orden de ocurrencia específico, si bien los expertos en la materia comprenderán que dicha especificidad con respecto a la secuencia no es realmente necesaria. Los componentes de aparatos y métodos han sido representados en su caso mediante símbolos convencionales en los dibujos, mostrando solamente aquellos detalles específicos que son pertinentes para la comprensión de las diversas realizaciones, de manera que no se oscurezca la descripción con detalles que resultarán evidentes para los expertos en la materia en beneficio de la descripción del presente documento. Por lo tanto, se apreciará que para mayor simplicidad y claridad de la ilustración, los elementos comunes y bien conocidos que son útiles o necesarios en una realización comercialmente factible pueden no estar representados a efectos de facilitar una visión más clara de estas diversas realizaciones.

Descripción detallada Para solucionar la necesidad mencionada anteriormente, se describen en la presente memoria un método y un aparato para generar una capa de mejora del sistema de codificación de audio. En funcionamiento, una señal de entrada a codificar es recibida y codificada para producir una señal de audio codificada. A continuación, la señal de audio codificada es escalada con una serie de valores de ganancia para producir una serie de señales de audio codificadas escaladas, que tienen cada una un valor de ganancia asociado y se determinan una serie de valores de error existentes entre la señal de entrada y cada una de dicha serie de señales de audio codificadas escaladas. A continuación, se escoge un valor de ganancia que está asociado con una señal de audio codificada escalada dando como resultado un valor de error bajo, existente entre la señal de entrada y la señal de audio codificada escalada. Finalmente, el valor de error bajo es transmitido junto con el valor de ganancia como parte de una capa de mejora, a la señal de audio codificada.

En la figura 1 se muestra un sistema de compresión de voz/audio integrado... [Seguir leyendo]

 


Reivindicaciones:

1. Un aparato operativo para codificar una señal de audio, comprendiendo el aparato:

un selector de ganancia de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida, genera una máscara de escalamiento ψ (Ŝ) basada en el conjunto de picos detectados;

una unidad de escalamiento del generador del vector de ganancia, que genera un vector de ganancia g* en base a por lo menos la máscara de escalamiento y el índice j representativo del vector de ganancia, escala el vector de audio reconstruido Ŝ con el vector de ganancia para producir una señal de audio reconstruida escalada;

un generador de señal de error del generador de vectores de ganancia que genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y

un transmisor del codificador de la capa de mejora que emite el índice del vector de ganancia basado en la distorsión generada.

2. El aparato según la reivindicación 1, en el que el selector de ganancia detecta el conjunto de picos además de acuerdo con una función de detección de picos dada por:

donde β es un valor umbral.

3. El aparato según la reivindicación 1, que comprende un codificador que recibe una señal de audio de múltiples canales que comprende una serie de señales de audio y codifica la señal de audio de múltiples canales para generar una señal de audio codificada;

un generador de factor de equilibrio del codificador de la capa de mejora que recibe una señal de audio codificada y genera un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;

en el que el generador del vector de ganancia del codificador de la capa de mejora determina un valor de ganancia a aplicar a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a la señal de audio de múltiples canales, en el que el valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales,

en el que el transmisor transmite además una representación del valor de ganancia para por lo menos uno de transmisión y almacenamiento.

4. El aparato según la reivindicación 3, en el que la unidad de escalamiento del codificador de la capa de mejora que escala la señal de audio codificada con una serie de valores de ganancia para generar una serie de señales de audio codificadas candidatas, en el que por lo menos una de las señales de audio codificadas candidatas es escalada;

en el que la unidad de escalamiento y el generador del factor de equilibrio generan la estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a dicha por lo menos una señal de audio codificada escalada de dicha serie de señales de audio codificadas candidatas; y

en el que el selector de ganancia del codificador de la capa de mejora evalúa el valor de distorsión en base a la estimación de la señal de audio de múltiples canales y a la señal de audio de múltiples canales para determinar una representación de un valor de ganancia óptimo de dicha serie de valores de ganancia.

5. Un aparato operativo para codificar una señal de audio, comprendiendo el aparato:

un codificador que recibe la señal de audio y codifica la señal de audio para generar un vector de audio reconstruido Ŝ;

una unidad de escalamiento de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en el vector de audio reconstruido Ŝ de una señal de audio recibida, genera una máscara de escalamiento ψ (Ŝ) en base al conjunto de picos detectado, genera una serie de vectores de ganancia gj en base a la máscara de escalamiento, y escala el vector de audio reconstruido Ŝ con dicha serie de vectores de ganancia para producir una serie de señales de audio reconstruidas escaladas;

un generador de señal de error del generador de vectores de ganancia, que genera una serie de distorsiones en base a la señal de audio y a la serie de señales de audio reconstruidas escaladas;

un selector de ganancia del generador de vectores de ganancia que elige un vector de ganancia entre la serie de vectores de ganancia en base a la serie de distorsiones; y

un transmisor del codificador de la capa de mejora que entrega, para por lo menos uno de transmisión y almacenamiento, el índice representativo del vector de ganancia.

6. El aparato según la reivindicación 5, en el que se elige el vector de ganancia que corresponde a una distorsión mínima de la serie de distorsiones.

7. El aparato según la reivindicación 5, en el que la unidad de escalamiento detecta el conjunto de picos de acuerdo 10 con una función de detección de picos dada por:

donde β es un valor umbral.

8. El aparato según la reivindicación 1 o la reivindicación 5, en el que la señal de audio está integrada en múltiples 15 capas.

9. El aparato según la reivindicación 1 o la reivindicación 5, en el que el vector de audio reconstruido S está en el dominio de frecuencias y el conjunto de picos son picos en el dominio de frecuencias.

10. Un método para codificar una señal de audio, comprendiendo el método: detectar un conjunto de picos en un vector de audio reconstruido Ŝ de una señal de audio recibida; 20 generar una máscara de escalamiento ψ (Ŝ) basada en el conjunto de picos detectado;

generar un vector de ganancia g* basado en por lo menos la máscara de escalamiento y un índice j representativo del vector de ganancia;

escalar el vector de audio reconstruido Ŝ con el vector de ganancia para producir una señal de audio reconstruida escalada;

generar una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y entregar el índice del vector de ganancia en base a la distorsión generada.

11. El método según la reivindicación 10, en el que la detección del conjunto de picos comprende además una función de detección de picos dada por:

donde β es un valor umbral.

12. El método según la reivindicación 10, en el que la señal de audio está integrada en múltiples capas.

13. El método según la reivindicación 10, en el que el vector de audio reconstruido S está en el dominio de frecuencias y el conjunto de picos son picos del dominio de frecuencias. 35 14. El método según la reivindicación 10, que comprende además: recibir una señal de audio de múltiples canales que comprende una serie de señales de audio;

codificar la señal de audio de múltiples canales para generar una señal de audio codificada; generar un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;

determinar un valor de ganancia a aplicar a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a la señal de audio de múltiples canales, en el que el valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales; y

entregar una representación del valor de ganancia para por lo menos uno de transmisión y almacenamiento.

15. El método según la reivindicación 10, que comprende además: recibir una señal de audio de múltiples canales que comprende una serie de señales de audio; codificar la señal de audio de múltiples canales para generar una señal de audio codificada; escalar la señal de audio codificada con una serie de valores de ganancia para generar una serie de señales de

audio codificadas candidatas, en el que por lo menos una de las señales de audio codificadas candidatas es escalada; generar un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;

generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a dicha por lo

menos una señal de audio codificada escalada de la serie de señales de audio codificadas candidatas; evaluar un valor de distorsión en base a la estimación de la señal de audio de múltiples canales y a la señal de audio de múltiples canales para determinar una representación de un valor de ganancia óptimo de dicha serie de valores de ganancia;

entregar, para por lo menos uno de transmisión y almacenamiento, la representación del valor de ganancia óptimo. 15

DETERMINAR UN VALOR DE GANANCIA A APLICAR A LA SEÑAL DE AUDIO CODIFICADA PARA GENERAR UNA ESTIMACIÓN DE LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES EN BASE AL FACTOR DE EQUILIBRIO Y A LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES, CON EL VALOR DE GANANCIA CONFIGURADO PARA MINIMIZAR UN VALOR DE DISTORSIÓN ENTRE LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES Y LA ESTIMACIÓN DE LA SEÑAL DE AUDIO DE MÑULTIPLES CANALES


 

Patentes similares o relacionadas:

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]

Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]

Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]

Imagen de 'Codificador y decodificador de audio para codificar tramas de…'Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]

Codificador y descodificador de audio para codificar y descodificar muestras de audio, del 6 de Enero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro […]

Códec de audio sin pérdidas escalable y herramienta de autoría, del 6 de Mayo de 2015, de DTS, INC: Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin […]

Codificador de extensión de ancho de banda, descodificador de extensión de ancho de banda y vocoder de fase, así como métodos correspondientes y programa de computadora, del 25 de Marzo de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de extensión de ancho de banda para codificar una señal de audio , la señal de audio que comprende una señal […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .