PROCEDIMIENTO Y APARATO DE DETECCION DE COMPONENTES TONALES DE SEÑALES DE AUDIO.

Un procedimiento de procesamiento de señales de audio, comprendiendo dicho procedimiento:

llevar a cabo una operación de codificación en una porción de tiempo de una señal de audio digitalizada, en el que dicha operación de codificación incluye una pluralidad ordenada de iteraciones;

en cada una de la pluralidad ordenada de iteraciones, calcular un valor de una medida de ganancia de la operación de codificación;

para cada uno de una primera pluralidad de valores de umbral, determinar la iteración, entre la pluralidad ordenada, en la que se produce un cambio en un estado de una primera relación entre el valor calculado y el valor de umbral, y almacenar una indicación de la iteración; y

comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/061631.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 5775 MOREHOUSE DRIVE,SAN DIEGO, CA 92121.

Inventor/es: MANJUNATH, SHARATH, KANDHADAI,ANANTHAPADMANABHAN.

Fecha de Publicación: 29 de Octubre de 2010.

Fecha Concesión Europea: 21 de Julio de 2010.

Clasificación Internacional de Patentes:

G10L11/02D
G10L19/14A1

Clasificación PCT:

G10L19/14

PROCEDIMIENTO Y APARATO DE DETECCION DE COMPONENTES TONALES DE SEÑALES DE AUDIO.

Fragmento de la descripción:

Procedimiento y aparato de detección de componentes tonales de señales de audio.

Solicitudes relacionadas

Campo

La presente divulgación se refiere al procesamiento de señales.

Antecedentes

La transmisión de voz mediante técnicas digitales se ha generalizado, particularmente en la telefonía de larga distancia, la telefonía por conmutación de paquetes tal como voz sobre IP (VoIP) y la telefonía de radio digital tal como la telefonía celular. Tal proliferación ha creado interés en determinar la cantidad mínima de información que puede enviarse por un canal manteniendo al mismo tiempo la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente mediante muestro y digitalización, puede requerirse una velocidad de transmisión de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir una calidad de voz comparable a la de un teléfono por cable analógico convencional. Sin embargo, a través del uso del análisis de voz, seguido de una codificación, transmisión y resíntesis apropiadas en el receptor, puede conseguirse una reducción significativa en la velocidad de transmisión de datos.

Los dispositivos que están configurados para comprimir la voz mediante la extracción de parámetros relacionados con un modelo de generación de voz humana se denominan "codificadores de voz". Un codificador de voz incluye normalmente un codificador y un descodificador. El codificador divide la señal de voz entrante en bloques de tiempo (o "tramas"), analiza cada trama para extraer determinados parámetros relevantes y cuantifica los parámetros en una representación binaria, tal como un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten por el canal de comunicación (es decir, una conexión de red cableada o inalámbrica) hasta un receptor que incluye un descodificador. El descodificador recibe y procesa paquetes de datos, los descuantifica para generar los parámetros y vuelve a crear tramas de voz utilizando los parámetros descuantificados.

La función del codificador de voz es comprimir la señal de voz digitalizada en una señal de baja velocidad binaria eliminando las redundancias naturales que son inherentes en la voz. La compresión digital se consigue representando la trama de voz de entrada con un conjunto de parámetros y utilizando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz de entrada presenta un número de bits N_i y el paquete de datos correspondiente generado por el codificador de voz presenta un número de bits N_o, el factor de compresión conseguido por el codificador de voz es C_r = N_i/N_o. El reto es mantener una alta calidad de voz de la voz descodificada obteniendo al mismo tiempo el factor de compresión objetivo. El rendimiento de un codificador de voz depende de (1) la calidad del funcionamiento del modelo de voz, o de la combinación del proceso de análisis y el proceso de síntesis descritos anteriormente, y (2) de la calidad del proceso de cuantificación de parámetros llevado a cabo a la velocidad binaria objetivo de N_o bits por trama. El objetivo del modelo de voz es por tanto capturar el contenido de información de la señal de voz, para proporcionar una calidad de voz objetivo, con un pequeño conjunto de parámetros para cada trama.

Los codificadores de voz pueden implementarse como codificadores en el dominio de tiempo, los cuales tratan de capturar la forma de onda de la voz en el dominio de tiempo empleando un procesamiento de alta resolución en el tiempo para codificar pequeños segmentos de voz (normalmente subtramas de cinco milisegundos (ms)) a la vez. Para cada subtrama se obtiene un representante de alta precisión a partir de un espacio de libro de códigos mediante varios algoritmos de búsqueda conocidos en la técnica. Como alternativa, los codificadores de voz pueden implementarse como codificadores en el dominio de frecuencia, los cuales llevan a cabo un proceso de análisis para capturar el espectro de voz a corto plazo de la trama de voz de entrada con un conjunto de parámetros y utilizan un proceso de síntesis correspondiente para volver a crear la forma de onda de voz a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según técnicas de cuantificación conocidas, tales como las descritas en el documento Vector Quantization and Signal Compression (1992) de A. Gersho y R.M. Gray.

Un codificador de voz en el dominio de tiempo ampliamente conocido es el codificador predictivo lineal excitado por código (CELP). Un ejemplo de un codificador de este tipo se describe en el documento Digital Processing of Speech Signals 396-453 (1978), de L.B. Rabiner y R.W. Schafer. En un codificador CELP se eliminan las correlaciones, o redundancias, a corto plazo de la señal de voz mediante un análisis de predicción lineal (LP), el cual obtiene los coeficientes de un filtro de formantes a corto plazo. Aplicando el filtro de predicción a corto plazo a la trama de voz entrante se genera una señal de residuo LP, la cual se modela y se cuantifica adicionalmente con parámetros de filtro de predicción a largo plazo y un libro de códigos estocástico posterior. Por lo tanto, la codificación CELP divide la tarea de codificar la forma de onda de voz de dominio de tiempo en distintas tareas de codificación de los coeficientes de filtro a corto plazo LP y de codificación del residuo LP. La codificación en el dominio de tiempo puede llevarse a cabo a una velocidad fija (es decir, usando el mismo número de bits N_o para cada trama) o a una velocidad variable (en la que se utilizan diferentes velocidades binarias para diferente tipos de contenidos de trama). Los codificadores de velocidad variable tratan de utilizar solamente la cantidad de bits necesaria para codificar los parámetros de códec a un nivel adecuado para obtener una calidad objetivo. Un codificador CELP de velocidad variable a modo de ejemplo se describe en la patente estadounidense número 5.414.796 (Jacobs et al., expedida el 9 de mayo de 1995).

Los codificadores en el dominio de tiempo, tales como el codificador CELP, se basan normalmente en un alto número de bits N_o por trama para conservar la exactitud de la forma de onda de la voz en el dominio de tiempo. Tales codificadores proporcionan normalmente una excelente calidad de voz siempre que el número de bits N_o por trama sea relativamente grande (por ejemplo, 8 kbps o superior), y se utilizan de manera satisfactoria en aplicaciones comerciales de alta velocidad. Sin embargo, a bajas velocidades binarias (4 kbps o inferiores), un codificador en el dominio de tiempo puede fallar a la hora de conservar una alta calidad y un rendimiento robusto debido al número limitado de bits disponibles. Por ejemplo, el limitado espacio de libro de códigos disponible a una baja velocidad binaria puede afectar a la capacidad de correspondencia de formas de onda de un codificador convencional en el dominio de tiempo.

Un codificador de voz puede estar configurado para seleccionar un modo y/o una velocidad de codificación particulares según una o más cualidades de la señal que va a codificarse. Por ejemplo, un codificador de voz puede estar configurado para distinguir tramas que contienen voz de tramas que contienen señales que no son de voz, tales como tonos de señalización, y para utilizar diferentes modos de codificación para codificar las tramas de voz y las tramas que no son de voz.

La patente estadounidense número 4.689.760 (Lee et al.) da a conocer un procedimiento que puede aplicarse en la descodificación de audio para discriminar señales DTMF con respecto a señales de voz estableciendo umbrales de la energía residual de predicción lineal como una medida de ganancia de codificación. En particular, la velocidad del descenso de energía residual desde la primera hasta la última iteración de las iteraciones llevadas a cabo para una única trama de señal de audio se toma como una indicación para la discriminación voz-tono.

Resumen

Según la invención se proporciona un procedimiento de procesamiento de señales de audio como el expuesto en la reivindicación 1, un medio de almacenamiento de datos como el expuesto en la reivindicación 17 y un aparato para procesar señales de audio como el expuesto en la reivindicación 18. Realizaciones preferidas se exponen en las reivindicaciones dependientes.

Breve descripción de...

Reivindicaciones:

1. Un procedimiento de procesamiento de señales de audio, comprendiendo dicho procedimiento:

en cada una de la pluralidad ordenada de iteraciones, calcular un valor de una medida de ganancia de la operación de codificación;

para cada uno de una primera pluralidad de valores de umbral, determinar la iteración, entre la pluralidad ordenada, en la que se produce un cambio en un estado de una primera relación entre el valor calculado y el valor de umbral, y almacenar una indicación de la iteración; y

comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente.

2. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que dicha comparación de al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente incluye comparar la al menos una de las indicaciones almacenadas con un valor correspondiente de una segunda pluralidad de valores de umbral.

3. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que la operación de codificación es una operación de codificación predictiva lineal.

4. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que dicha realización de una operación de codificación incluye calcular una pluralidad de coeficientes de filtro relacionados con la porción de tiempo.

5. El procedimiento de procesamiento de señales de audio según la reivindicación 4, comprendiendo dicho procedimiento, en respuesta a un resultado de dicha comparación, reducir la magnitud de al menos uno de los coeficientes de filtro.

6. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que dicha realización de una operación de codificación incluye calcular una pluralidad de coeficientes de reflexión relacionados con la porción de tiempo.

7. El procedimiento de procesamiento de señales de audio según la reivindicación 6, en el que dicho cálculo de un valor de una medida de ganancia incluye calcular el valor en función de al menos uno de la pluralidad de coeficientes de reflexión.

8. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que la medida de ganancia de la operación de codificación es una entre A) una ganancia de predicción y B) un error de predicción.

9. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que dicha comparación de al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente incluye comparar al menos una de las indicaciones almacenadas con cada uno de un valor de umbral superior correspondiente y un valor de umbral inferior correspondiente.

10. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que la medida de ganancia de la operación de codificación está basada en una relación entre A) la energía de la porción de tiempo y B) la energía de un residuo de la iteración correspondiente de la operación de codificación.

11. El procedimiento de procesamiento de señales de audio según la reivindicación 1, en el que, para cada uno de la primera pluralidad de valores de umbral, el estado de la primera relación entre el valor calculado y el valor de umbral presenta A) un primer valor cuando el valor calculado es mayor que el valor de umbral y B) un segundo valor, diferente del primer valor, cuando el valor calculado es inferior al valor de umbral.

12. El procedimiento de procesamiento de señales de audio según la reivindicación 1, comprendiendo dicho procedimiento seleccionar, en función de un resultado de dicha comparación, un modo de codificación para la porción de tiempo.

13. El procedimiento de procesamiento de señales de audio según la reivindicación 1, comprendiendo dicho procedimiento, en respuesta a un resultado de dicha comparación, utilizar al menos un índice de libro de códigos para codificar una señal de excitación de la porción de tiempo.

14. El procedimiento de procesamiento de señales de audio según la reivindicación 1, comprendiendo dicho procedimiento, en respuesta a un resultado de dicha comparación, identificar una señal de multifrecuencia de doble tono incluida en la porción de tiempo.

15. El procedimiento de procesamiento de señales de audio según la reivindicación 1, comprendiendo dicho procedimiento, en respuesta a un resultado de dicha comparación, determinar una frecuencia de cada uno de los al menos dos componentes de frecuencia de la porción de tiempo.

16. El procedimiento de procesamiento de señales de audio según la reivindicación 1, comprendiendo dicho procedimiento, en función de al menos una de las indicaciones almacenadas, decidir que la porción de tiempo es una de entre A) una señal de voz y B) una señal tonal, donde dicha decisión incluye dicha comparación de al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente.

17. Un medio de almacenamiento de datos que contiene instrucciones legibles por máquina que describen el procedimiento según la reivindicación 1.

18. Un aparato de procesamiento de señales de audio, comprendiendo dicho aparato:

medios para llevar a cabo una operación de codificación en una porción de tiempo de una señal de audio digitalizada, en el que dicha operación de codificación incluye una pluralidad ordenada de iteraciones;

medios para calcular, en cada una de la pluralidad ordenada de iteraciones, un valor de una medida de ganancia de la operación de codificación;

medios para determinar, para cada uno de una primera pluralidad de valores de umbral, la iteración, entre la pluralidad ordenada, en la que se produce un cambio en un estado de una primera relación entre el valor calculado y el valor de umbral, y para almacenar una indicación de la iteración; y

medios para comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente.

19. El aparato de procesamiento de señales de audio según la reivindicación 18, en el que dichos medios para comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente están configurados para comparar la al menos una de las indicaciones almacenadas con un valor correspondiente de una segunda pluralidad de valores de umbral.

20. El aparato de procesamiento de señales de audio según la reivindicación 18, en el que la medida de ganancia de la operación de codificación es una entre A) una ganancia de predicción y B) un error de predicción.

21. El aparato de procesamiento de señales de audio según la reivindicación 18, en el que la medida de ganancia de la operación de codificación está basada en una relación entre A) la energía de la porción de tiempo y B) la energía de un residuo de la iteración correspondiente de la operación de codificación.

22. El aparato de procesamiento de señales de audio según la reivindicación 18, en el que dichos medios para comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente están configurados para comparar al menos una de las indicaciones almacenadas con cada uno de un valor de umbral superior correspondiente y un valor de umbral inferior correspondiente.

23. El aparato de procesamiento de señales de audio según la reivindicación 18, en el que, para cada uno de la primera pluralidad de valores de umbral, el estado de la primera relación entre el valor calculado y el valor de umbral presenta A) un primer valor cuando el valor calculado es mayor que el valor de umbral y B) un segundo valor, diferente del primer valor, cuando el valor calculado es inferior al valor de umbral.

24. El aparato de procesamiento de señales de audio según la reivindicación 18, comprendiendo dicho aparato medios para seleccionar, en función de una salida de dichos medios de comparación, un modo de codificación para la porción de tiempo.

25. El aparato según la reivindicación 18, en el que los medios para llevar a cabo una operación de codificación es un calculador de coeficientes (A110), configurado para llevar a cabo una operación de codificación para calcular una pluralidad de coeficientes; los medios de cálculo son un calculador de medidas de ganancia (A120); y los medios de comparación comprenden una primera unidad de comparación (A130) configurada para determinar, para cada uno de una primera pluralidad de valores de umbral, la iteración, entre la pluralidad ordenada, en la que se produce un cambio en un estado de una primera relación entre el valor calculado y el valor de umbral, y para almacenar una indicación de la iteración; y

una segunda unidad de comparación (A140) configurada para comparar al menos una de las indicaciones almacenadas con al menos un valor de umbral correspondiente.

26. El aparato de procesamiento de señales de audio según la reivindicación 25, en el que dicha segunda unidad de comparación (A140) está configurada para comparar la al menos una de las indicaciones almacenadas con un valor correspondiente de una segunda pluralidad de valores de umbral.

27. El aparato de procesamiento de señales de audio según la reivindicación 25, en el que dicha segunda unidad de comparación (A140) está configurada para comparar al menos una de las indicaciones almacenadas con cada uno de un valor de umbral superior correspondiente y un valor de umbral inferior correspondiente.

28. El aparato de procesamiento de señales de audio según la reivindicación 25, comprendiendo dicho aparato un selector de modo (202) configurado para seleccionar, en función de una salida de dicha segunda unidad de comparación (A140), un modo de codificación para la porción de tiempo.

29. Un teléfono celular que incluye el aparato según la reivindicación 25 y configurado para llevar a cabo, en función de una salida de dicha segunda unidad de comparación (A140), al menos uno de entre A) seleccionar un modo de codificación para la porción de tiempo y B) reducir una magnitud de al menos uno de entre la pluralidad de coeficientes.

30. Un codificador de voz que incluye el aparato según la reivindicación 25 y configurado para llevar a cabo, en función de una salida de dicha segunda unidad de comparación, al menos uno de entre A) seleccionar un modo de codificación para la porción de tiempo y B) reducir una magnitud de al menos uno de entre la pluralidad de coeficientes.

Patentes similares o relacionadas:

PRE-PROCESAMIENTO DE DATOS DIGITALES DE AUDIO PARA CODECS DE AUDIO DE MÓVIL, del 2 de Enero de 2012, de REALNETWORKS ASIA PACIFIC CO., LTD: Un método para el pre-procesamiento de datos de audio que contienen datos musicales a procesar por un códec de Codificación de Velocidad Variable Reforzada, para la transmisión […]

PROCEDIMIENTO Y APARATO PARA REALIZAR VOCODIFICACION CON TASA REDUCIDA Y TASA VARIABLE, del 13 de Agosto de 2010, de QUALCOMM INCORPORATED: Un procedimiento para codificar una trama de habla, que comprende las etapas de: derivar una pluralidad de parámetros de trama; seleccionar una primera modalidad de […]

PROCEDIMIENTO DE CODIFICACION MULTIPLE OPTIMIZADO, del 16 de Febrero de 2010, de FRANCE TELECOM: Procedimiento de codificación múltiple en compresión, en el que una señal de entrada está destinada a alimentar en paralelo al menos un primer […]

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]

Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]

Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]

Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]