Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.

Método para evaluar inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio

, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende:

- muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí;

- para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas;

El método se caracteriza adicionalmente por:

- proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada;

- seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral;

y

- derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada;

en donde dicho método comprende una etapa de determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para las condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/NL2012/050807.

Solicitante: NEDERLANDSE ORGANISATIE VOOR TOEGEPAST-NATUURWETENSCHAPPELIJK ONDERZOEK TNO.

Nacionalidad solicitante: Países Bajos.

Dirección: Anna van Buerenplein 1 2595 DA 's-Gravenhage PAISES BAJOS.

Inventor/es: BEERENDS, JOHN GERARD.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION G — FISICA > INSTRUMENTOS DE MUSICA; ACUSTICA > ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE... > Técnicas de análisis del habla o voz no restringidos... > G10L25/69 (para evaluar señales de voz sintéticas o decodificadas)
google+ twitter facebookPin it
Ilustración 1 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Ilustración 2 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Ilustración 3 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Ilustración 4 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Ilustración 5 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Ilustración 6 de Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.
Método de y aparato para evaluar inteligibilidad de una señal de voz degradada.

Texto extraído del PDF original:

DESCRIPCIÓN

Método de y aparato para evaluar inteligibilidad de una señal de voz degradada Campo de la invención La presente invención se relaciona con un método para evaluar la inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí, para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas, y proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada. La presente invención se relaciona adicionalmente con un aparato para realizar un método como se describió anteriormente, y con un producto de programa de ordenador.

Antecedentes Durante las últimas décadas se han desarrollado y desplegado métodos de medición de calidad de voz objetiva utilizando un método de medición perceptivo. En este método un algoritmo con base en la percepción simula el comportamiento de un sujeto que califica la calidad de un fragmento de audio en una prueba de escucha. Para obtener una calidad de voz sobre todo se utiliza la llamada prueba de escucha de calificación de categoría absoluta, donde los sujetos juzgan la calidad de un fragmento de voz degradado sin tener acceso al fragmento de voz de referencia limpio. Las pruebas de escucha llevadas a cabo en la Unión de Telecomunicaciones Internacional (ITU) utilizan principalmente una escala de opinión de 5 puntos de calificación de categoría absoluta (ACR), que en consecuencia, también se utiliza en los métodos objetivos de medición de calidad de voz que fueron estandarizaron por ITU, Medida de Calidad de Voz Perceptiva (PSQM (ITU-T Rec. P.861, 1996)), y su seguimiento de Evaluación Perceptiva de Calidad de Voz (PESQ (ITU -T Rec. P.862, 2000)). El enfoque de estos estándares de medición está en la calidad de voz de banda estrecha (ancho de banda de audio 100-3500 Hz), aunque se ideó una extensión de banda ancha (50 a 7000 Hz) en el 2005. La PESQ proporciona muy buenas correlaciones con pruebas de escucha subjetivas sobre datos de voz de banda estrecha y correlaciones aceptables para datos de banda ancha.

Como se han ido extendiendo nuevos servicios de voz de banda ancha por la industria de las telecomunicaciones, surge la necesidad de un estándar de medición avanzada de rendimiento comprobado, y capaz de mayores anchos de banda de audio. Por lo tanto el Grupo de Estudio 12 ITU-T (Sector ITU-Telecom) inició la estandarización de un nuevo algoritmo de evaluación de calidad de voz como una actualización de la tecnología de PESQ. El nuevo, estándar de medición, de tercera generación, POLQA (Evaluación de Calidad de Escucha Percibida Objetiva), supera las deficiencias del estándar PESQ P.862 tal como la evaluación errónea del impacto de las distorsiones de respuesta de frecuencia lineal, estiramiento/ compresión de tiempo como se encuentra en Voice-over -IP, cierto tipo de reverberaciones y distorsiones de códec.

Se conoce de acuerdo con la solicitud de patente EP2048657A1, un método y sistema para medición de inteligibilidad de voz de un sistema de transmisión de audio adaptado para obtener una función de densidad de perturbación, para corregir dicha función mediante una función de corrección derivada de un cálculo de corrección de las densidades de potencia de tono compensadas asociadas con la señal de entrada de una trama presente y una trama previa independiente. La función de densidad de perturbación corregida se agrega sobre la frecuencia y tiempo para obtener una medida para la inteligibilidad de voz. Aunque el POLQA (P.863) ofrece una serie de mejoras sobre los algoritmos de evaluación de calidad anteriores PSQM (P.861) y PESQ (P.862), las versiones actuales de POLQA, como PSQM y PESQ, no abordan una condición de calidad perceptiva subjetiva elemental, a saber la inteligibilidad. A pesar de que también depende de una serie de parámetros de calidad de audio, la inteligibilidad está más estrechamente relacionada con la calidad de la transferencia de información que con la calidad del sonido. En términos de los algoritmos de evaluación de calidad, la naturaleza de la inteligibilidad a diferencia de la calidad de sonido hace que los algoritmos produzcan una puntuación de evaluación que no coincide con la puntuación que se habría asignado si la señal de voz hubiera sido evaluada por una persona o un público. Sin perder de vista el objetivo de compartir información, un humano valorará una señal de voz inteligible por encima de una señal que sea menos inteligible, pero que sea similar en términos de calidad de sonido. Los algoritmos actualmente conocidos no han sido capaces de abordar correctamente esto al grado requerido. Resumen de la invención Es un objeto de la presente invención buscar una solución para la desventaja de la técnica anterior mencionada anteriormente, y proporcionar un algoritmo de evaluación de calidad para evaluación de señales de voz (degradadas) que se adaptan para tener en cuenta la inteligibilidad de la señal de voz para evaluación de la misma.

La presente invención logra este y otros objetivos en que se proporciona un método para evaluar la inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende: muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí; para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas; proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada; seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción de audición humana, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral; y derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicho método comprende una etapa para determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizando dicho por lo menos un parámetro de conmutación determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación. La presente invención aborda la inteligibilidad al reconocer que perturbaciones son para ser tratadas diferentes dependiendo de la potencia de audio de la señal degradada. Como un ejemplo, si la señal degradada es de un nivel débil en general, cierto tipo de perturbaciones (tales como por ejemplo el ruido normal) son consideradas mucho más molestas y perjudiciales para la inteligibilidad que cuando el nivel de potencia de audio total de la señal degradada es fuerte. Por lo tanto, es beneficioso tener en cuenta este efecto en la conmutación entre las diversas funciones de diferencia, para asegurarse de que los diversos tipos de perturbaciones que se tienen en cuenta correctamente en las diferentes condiciones representadas por las diversas funciones de diferencia.

Las ofertas de percepción humana de manera diferente con la perturbación dependen de la intensidad de la misma, provocando que una persona real evalúe la calidad de una señal también diferente, ya sea para las perturbaciones fuertes o débiles. Un ejemplo de esto es el efecto de enmascaramiento de la percepción humana (como se ilustra en la figura 5, y se describe en esta descripción). La percepción humana tiene la tendencia a enmascarar las señales audibles más débiles que dependen de su proximidad temporal de las señales más fuertes y dependientes de si éstas se reciben o no antes o después de la señal más fuerte. Un efecto de enmascaramiento similar se puede ver en el dominio de la frecuencia, ya que la percepción humana no es capaz de distinguir dos (casi) tonos simultáneos de frecuencia ligeramente diferente, en particular cuando uno de los tonos es más fuerte que el otro (la señal más débil está enmascarada por la señal más fuerte). Por lo tanto, una perturbación fuerte se experimentará como muy molesta ya que enmascara partes (o la totalidad) de la señal real. Por otra parte, las perturbaciones débiles pueden incluso no ser percibidas o notadas, ya que dichas perturbaciones pueden estar enmascaradas por la señal real, si es lo suficientemente fuerte. Con el fin de hacer una evaluación adecuada de la calidad en términos de inteligibilidad de una señal de voz, es necesario distinguir entre perturbaciones fuertes y débiles, utilizando un nivel de perturbación umbral, y tratar estas de manera diferente teniendo en cuenta el efecto de enmascaramiento de la percepción auditiva humana correctamente.

El PESQ y su predecesor PSQM habían tomado en cuenta la asimetría de la percepción humana en cierta medida al distinguir entre las perturbaciones agregadas por un lado y otras perturbaciones (tales como componentes de frecuencia ausentes) por otro lado. Aunque esta asimetría también es un efecto muy importante para tener en cuenta, se logra mejora adicional teniendo en cuenta la intensidad de la perturbación en combinación con el nivel de reproducción de la señal degradada. Esto produce cuatro versiones de una función de diferencia, como se utiliza en POLQA, y la evaluación requiere la conmutación entre diferentes versiones, para aplicar el tipo correcto de procesamiento bajo diversas condiciones. En las versiones anteriores de POLQA esta conmutación sólo depende de un nivel de perturbación umbral según lo determinado en una primera ejecución modelo. En la presente invención esta conmutación se realiza al utilizar la potencia de audio total de la señal degradada, o la relación de potencia de audio total entre la señal degradada y la señal de referencia (esto es efectivamente lo mismo, ya que el nivel de potencia total de la señal de referencia tiene un nivel constante), en combinación con el nivel de perturbación umbral que resulta en un nivel de umbral optimizado de conmutación de parámetro. Una realización más sofisticada y mejorada tiene en cuenta la relación de potencia de audio por trama entre la señal degradada y de referencia, para cada una de las tramas que se van a procesar. La conmutación luego se realiza, al comparar el nivel de perturbación actual de cada par de tramas con el nivel de umbral optimizado de parámetro de conmutación para tomar la decisión de qué versión de la función diferente, utilizar. De acuerdo con una realización, dicho procesamiento previo se realiza de acuerdo a un primer proceso previo optimizado y un segundo proceso previo optimizado tal como optimizar de forma diferente las perturbaciones que tienen un nivel de perturbación inferior o superior a dicho nivel de umbral optimizado de parámetro de conmutación; dicho suministro de dichas funciones de diferencia comprende proporcionar una primera función de diferencia desde dicho primer proceso previo optimizado para las perturbaciones por debajo de dicho nivel de umbral optimizado de parámetro de conmutación, y proporcionar una segunda función de diferencia desde dicho segundo proceso previo optimizado para perturbaciones iguales o superiores a dicho nivel de umbral optimizado de parámetro de conmutación; y dicha etapa de compensación se realiza en cualquiera de dicha primera función de diferencia o dicha segunda función de diferencia dependiente de si un nivel de perturbación real está por encima o por debajo de dicho umbral. Así de acuerdo con la invención, el nivel de perturbación umbral POLQA, que se utiliza en la conmutación entre las dos funciones de diferencia, se compensa por el nivel de la señal degradada utilizando un parámetro de conmutación. En una implementación preferida, el nivel de perturbación umbral se multiplica por una relación de potencia de la potencia de referencia y degradada que lleva a un nivel de umbral optimizado de parámetro de conmutación. Se puede aplicar la presente invención a los algoritmos de evaluación de calidad tales como POLQA o PESQ, o su predecesor PSQM. Estos algoritmos son desarrollados especialmente para evaluar las señales de voz degradadas.

Dentro del POLQA (algoritmo de evaluación de calidad de escucha percibida objetiva), el último algoritmo de evaluación de calidad, que se encuentra actualmente en fase de desarrollo, la señal de voz de referencia y la señal de voz degradada ambas se representan por lo menos en términos de tono y volumen. De acuerdo con un segundo aspecto, la invención se dirige a un producto de programa de ordenador que comprende un código ejecutable por ordenador para realizar un método como se describió anteriormente cuando se ejecuta por un ordenador. De acuerdo con un tercer aspecto, la invención se dirige a un aparato para realizar un método de acuerdo con el primer aspecto de la invención, para evaluar inteligibilidad de una señal de voz degradada, que comprende: una unidad de recepción para recibir dicha señal de voz degradada desde un sistema de transmisión de audio que transmite una señal de voz de referencia, y recibir dicha señal de voz de referencia; una unidad de muestreo para muestreo de dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, y para muestreo de dicha señal de voz degradada en una pluralidad de tramas de señal degradadas; una unidad de procesamiento para formar pares de tramas al asociar cada trama de señal de referencia con una trama de señal degradada correspondiente, para procesar previamente cada trama de señal de referencia y cada trama de señal degradada, y proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia; un selector para seleccionar por lo menos una de dichas funciones de diferencia, dicho selector se dispone para comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral para realizar dicha selección, una unidad de compensador para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano; y en donde dicha unidad de procesamiento se dispone adicionalmente para derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo que es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicha unidad de procesamiento se dispone adicionalmente para determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y proporcionar dicho parámetro de conmutación a dicho selector para utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para condiciones de nivel de potencia de audio de dicha señal degradada, para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación. Breve descripción de los dibujos La presente invención se explica adicionalmente por medio de realizaciones específicas, con referencia a los dibujos adjuntos, en donde: La Figura 1 proporciona una vista general de la primera parte del modelo perceptivo de POLQA en una realización de acuerdo con la invención; La Figura 2 proporciona una vista general ilustrativa de la alineación de frecuencia utilizada en el modelo perceptivo de POLQA en una realización de acuerdo con la invención; La Figura 3 proporciona una vista general de la segunda parte del modelo perceptivo de POLQA, que sigue a la primera parte ilustrada en la Figura 1, en una realización de acuerdo con la invención; La Figura 4 es una vista general de la tercera parte del modelo perceptivo de POLQA en una realización de acuerdo con la invención; La Figura 5 es una vista general esquemática de un método de enmascaramiento utilizado en el modelo POLQA en una realización de acuerdo con la invención; La Figura 6 es una ilustración esquemática de un volumen dependiente de ponderación de la perturbación. Descripción detallada Modelo Perceptivo POLQA El método básico de POLQA (ITU-T Rec. P.863) es el mismo que se utiliza en PESQ (ITU-T Rec. P.862), es decir, una entrada de referencia y señal de voz de salida degradada se mapean sobre una representación interna utilizando un modelo de percepción humana. La diferencia entre las dos representaciones internas se utiliza mediante un modelo cognitivo para predecir la calidad de voz percibida de la señal degradada. Una nueva idea importante implementada en POLQA es el método de idealización que elimina los bajos niveles de ruido en la señal de entrada de referencia y optimiza el timbre. Cambios importantes adicionales en el modelo perceptivo incluyen el modelado del impacto del nivel de reproducción de la calidad percibida y una división importante en el procesamiento de los niveles bajos y altos de distorsión. Una visión general del modelo perceptivo utilizado en POLQA se da en la Figura 1 a 4. La Figura 1 proporciona la primera parte del modelo perceptivo utilizado en el cálculo de la representación interna de la señal de entrada de referencia X(t) 3 y la señal de salida degradada Y(t) 5. Ambas se escalan 17, 46 y las representaciones 13, 14 internas en términos de tono –volumen- tiempo se calculan en una serie de etapas descritas adelante, después de lo cual se calcula una función 12 de diferencia, indicada en la Figura 1 con el operador 7 de cálculo de diferencia. Se calculan dos gustos diferentes de la función de diferencia perceptiva, uno para la perturbación total introducida por el sistema que utiliza operadores 7 y 8 bajo prueba y uno para las partes agregadas de la perturbación mediante operadores 9 y 10. Esto modela la asimetría en el impacto entre las degradaciones provocadas al dejar fuera componentes de frecuencia- tiempo desde la señal de referencia en comparación con las degradaciones provocadas por la introducción de nuevos componentes de tiempo-frecuencia. En POLQA ambos gustos se calculan en dos métodos diferentes, uno centrado en el rango normal de degradaciones y otro centrado en degradaciones ruidosas que resultan en cuatro cálculos 7, 8, 9 y 10 de función de diferencia indicados en la Figura 1.

Para las señales de salida degradadas con deformación 49 del dominio de frecuencia se utiliza un algoritmo 52 de alineación dado en la Figura 2. El procesamiento final para obtener las puntuaciones MOS-LQO se da en la Figura 3 y Figura 4. El POLQA comienza con el cálculo de algunos ajustes de constante básicos después de lo cual las densidades de potencia de tono (potencia como función del tiempo y frecuencia) de referencia y degradada se derivan de la frecuencia y tiempo y se alinean en señales de tiempo. A partir de las densidades de potencia de tono de las representaciones internas de referencia y degradada se derivan en una serie de etapas. Adicionalmente estas densidades también se utilizan para derivar 40 de los tres primeros indicadores de calidad POLQA para distorsiones 41 de respuesta de frecuencia (FREQ), el ruido 42 aditivo (RUIDO) y reverberaciones 43 de sala (REVERB). Estos tres indicadores 41, 42 y 43 de calidad se calculan por separado a partir del indicador de perturbación principal con el fin de permitir un análisis de impacto equilibrado sobre un gran rango de diferentes tipos de distorsión. Estos indicadores también se pueden utilizar para un análisis más detallado del tipo de degradaciones que se encuentran en la señal de voz utilizando un método de descomposición de degradación. De acuerdo con la invención, adicionalmente a los indicadores anteriores, también una relación de potencia total y una relación de potencia por trama se determina entre dicha señal degradada y dicha señal de referencia. Estos indicadores se utilizan para conmutar entre las diversas variantes de la función de diferencia, como se explicará más adelante. Como se ha indicado, cuatro variantes diferentes de las representaciones internas de referencia y degradada se calculan en 7, 8, 9 y 10; dos variantes se centran en las perturbaciones para distorsiones normales y grandes, y dos se centran en las perturbaciones adicionales para distorsiones normales y grandes. Estas cuatro variantes diferentes 7, 8, 9 y 10 son las entradas para el cálculo de las densidades de perturbación finales. Las representaciones internas de la referencia 3 se denominan como representaciones ideales, porque referencia se eliminan los bajos niveles de ruido en la (etapa 33) y distorsiones de timbre como se encuentra en la señal degradada que pueden haber resultado de un timbre no óptimo de las grabaciones de referencia originales parcialmente compensadas (etapa 35). Las cuatro variantes diferentes de las representaciones internas ideales y degradadas calculadas utilizando operadores 7, 8, 9 y 10 se utilizan para calcular dos densidades 142 y 143 de perturbación final, una en representación de la perturbación 142 final como una función de tiempo y frecuencia centrada en la degradación total y una en la representación de la perturbación 143 final como una función de tiempo y frecuencia, pero centrada en el procesamiento de la degradación agregada. La Figura 4 da una visión general del cálculo del MOS-LQO, la puntuación objetiva MOS, de las dos densidades 142 y 143 de perturbación final y los indicadores FREQ 41, RUIDO 42, REVERB 43. Cómputo previo de Ajustes de constante Tamaño de Ventana FFT que depende de la frecuencia de muestra El POLQA opera en tres índices de muestra diferentes 8, 16, y 48 kHz para los cuales el tamaño de la ventana W se fija a muestras 256, 512 y 2048 respectivamente con el fin de que coincidan con la ventana de análisis de tiempo del sistema auditivo humano. El solapamiento entre tramas sucesivas es 50% utilizando una ventana de Hann. Los espectros de potencia - la suma de las partes imaginarias cuadradas y reales cuadradas de los componentes FFT complejos - se almacenan en verdaderas matrices valoradas reales separadas para ambas, la señal de referencia y la señal degradada. La información de fase dentro de una sola trama se descarta en POLQA y todos los cálculos se basan solo en las representaciones de potencia. Cálculo de punto de inicio y parada En pruebas subjetivas, el ruido suele iniciar antes del comienzo de la actividad de voz en la señal de referencia. Sin embargo se puede esperar que llevar ruido en estado de equilibrio en una prueba subjetiva disminuye el impacto del ruido en estado de equilibrio, mientras que en las mediciones objetivas que tienen en cuenta llevar el ruido aumentará el impacto; por lo tanto, se espera que la omisión de ruidos que llegan y que salen sea el método perceptivo correcto. Por lo tanto, después de haber verificado la expectativa en los datos de formación disponibles, los puntos de inicio y parada utilizados en el procesamiento POLQA se calculan desde el principio y al final del archivo de referencia. La suma de los cinco valores de muestra sucesivos absolutos (utilizando el rango PCM de 16 bits normal - + 32,000) debe exceder 500 desde el principio y final del archivo de voz original con el fin de que esa posición sea designada como el inicio o el final. El intervalo entre este inicio y final se define como el intervalo de procesamiento activo. Las distorsiones fuera de este intervalo se ignoran en el procesamiento POLQA. Factor de escalado de potencia y volumen SP y SL Para la calibración de la transformación de tiempo a frecuencia FFT se genera una onda sinusoidal con una frecuencia de 1000 Hz y una amplitud de 40 dB SPL, utilizando una calibración de señal de referencia X(t) hacia 73 dB SPL. Esta onda sinusoidal se transforma en el dominio de frecuencia utilizando una FFT de ventana en las etapas 18 y 49 con una longitud determinada por la frecuencia de muestreo para X(t) y Y(t), respectivamente. Después de convertir el eje de frecuencias a la escala de Bark en 21 y 54, la amplitud pico de la densidad de potencia de tono resultante luego se normaliza a un valor de potencia de 104 mediante multiplicación con un factor 20 y 55 de escala de potencia SP para X(t) y Y(t) respectivamente.

El mismo tono de referencia 40 dB SPL se utiliza para calibrar la escala de volumen psicoacústica (Sone). Después de la deformación del eje de intensidad a una escala de volumen utilizando la ley de Zwicker la integral de la densidad de volumen sobre la escala de frecuencia Bark se normaliza en 30 y 58 a 1 Sone utilizando el factor de escalado de volumen SL 31 y 59 para X(t) y Y(t) respectivamente.

Escala y Cálculo de las densidades de potencia de tono La señal degradada Y(t) 5 se multiplica 46 por el factor de calibración C 47, que se encarga del mapeo de la sobrecarga dB en el dominio digital a dB SPL en el dominio acústico, y luego transforma 49 al dominio de tiempo-frecuencia con 50% de tramas de FFT superpuestas. La señal de referencia X(t) 3 se escala 17 hacia un nivel óptimo fijo predefinido de aproximadamente 73 dB SPL equivalente antes de que se transforme 18 al dominio de tiempo-frecuencia. Este procedimiento de calibración es fundamentalmente diferente del utilizado en PESQ donde la degradada y de referencia se escalan hacia el nivel óptimo fijo predefinido. El PESQ presupone que todo el juego se lleva a cabo en el mismo nivel de reproducción óptimo, mientras que se utilizan los niveles de pruebas subjetivas POLQA entre 20 dB a +6 con relación al nivel óptimo. En el modelo perceptivo POLQA uno no puede utilizar de esta manera una escala hacia un nivel óptimo fijo predefinido. Después de que la escala de nivel de señal de referencia y degradada se transforman 18, 49 al dominio frecuencia- tiempo utilizando el método FFT de ventana. Para los archivos donde se ha deformado el eje de frecuencia de la señal degradada, cuando se compara con la señal de referencia se lleva a cabo una antideformación en el dominio de la frecuencia en las tramas de FFT. En la primera etapa de esta antideformación el espectro de potencia FFT de referencia y degradado se procesa previamente para reducir la influencia de ambas distorsiones de respuesta de frecuencia muy estrecha, así como las diferencias de forma espectral totales en los siguientes cálculos. El procesamiento previo 77 consiste en la realización de un promedio de ventana deslizante en 78 sobre ambos espectros de potencia, tomar el logaritmo 79, y realizar una normalización de ventana de deslizamiento en 80. Luego los tonos de la referencia actual y trama degradado se calculan utilizando un algoritmo de tono subarmónico estocástico. La relación 74 de la referencia a la relación de tono degradado luego se utiliza para determinar (en la etapa 84) un rango de posibles factores de deformación. Si es posible, este rango de búsqueda se extiende al utilizar las relaciones de tono para el par de tramas precedente y siguiente.

El algoritmo de alineación de frecuencia luego itera a través del rango de búsqueda y deforma 85 el espectro de potencia degradado con el factor de deformación de la iteración actual, y procesa 88 el espectro de potencia deformado como se describió anteriormente. La correlación de la referencia procesada y el espectro degradado deformado procesado luego se calcula (en la etapa 89) para contenedores por debajo de 1500 Hz. Después de iteración completa a través del rango de búsqueda, el “mejor” factor de deformación (es decir, que resulta en mayor correlación) se recupera en la etapa 90. La correlación de la referencia procesada y mejores espectros de referencia y degradados deformados luego se compara contra la correlación de la referencia procesada original. El “mejor” factor de deformación luego se mantiene 97 si la correlación aumenta por un umbral establecido. Si es necesario, el factor de deformación se limita en 98 por un cambio relativo máximo al factor de deformación determinado para el par de tramas anterior.

Después de la antideformación que puede ser necesaria para alinear el eje de frecuencia de referencia y degradado, la escala de frecuencia en Hz se deforma en las etapas 21 y 54 hacia la escala de tono en Bark que refleja que a bajas frecuencias, el sistema auditivo humano tiene una resolución de frecuencia más fina que a altas frecuencias. Esto se implementa al agrupar bandas de FFT y sumar las potencias correspondientes de las bandas FFT con una normalización de las partes sumadas. La función de deformación que mapea la escala de frecuencia en hercios a la escala de tono en Bark se aproxima a los valores dados en la bibliografía para este propósito, y son conocidos por el lector experto. Las señales de referencia y degradadas resultantes se conocen como las densidades de potencia de tono PPX(f)n (no indicadas en la Figura 1) y PPY(f)n 56 con f la frecuencia en Bark y el índice n que representa el índice de trama.

Cálculo de Tramas de Voz Activa, silenciosas y súper silenciosas (etapa 25) El POLQA opera en tres clases de tramas, que se distinguen en la etapa 25: • tramas de voz activas donde el nivel de trama de la señal de referencia está por encima de un nivel que es de aproximadamente 20 dB por debajo del promedio, • tramas silenciosas donde el nivel de trama de la señal de referencia está por debajo de un nivel que es de aproximadamente 20 dB por debajo del promedio y • tramas súper silenciosas donde el nivel de trama de la señal de referencia está por debajo de un nivel que es de aproximadamente 35 dB por debajo del nivel promedio. Cálculo de Indicadores de frecuencia, ruido y reverberación y determinación de relaciones de potencia de audio En la etapa 40, una serie de parámetros y el indicador para uso posterior en el proceso y sistema de evaluación se determinan de ya sea la señal de referencia, o la señal degradada, o ambas. Aunque se calculan estos parámetros, de acuerdo con esta realización, en la etapa 40, se pueden determinar en una etapa diferente en el proceso y la invención no se limita a la determinación en la etapa 40 de cualquiera de los indicadores mencionados adelante, en particular, los indicadores PW_Rtotal 44 y 45 PW_Rtrama descritos adelante.

De acuerdo con la invención, la relación de potencia total de la potencia de audio de la señal degradada en comparación con la potencia de audio de la señal de referencia se determina en la etapa 40, y produce el indicador 44 de relación de potencia de audio total referenciado en la figura 1 como PW_Rtotal. Este indicador se utiliza de acuerdo con la presente invención para incluir el volumen total o potencia de audio de la señal degradada en el modelo POLQA, tal como para evaluar el impacto de los diferentes tipos de perturbaciones dependientes de manera diferente de si la señal degradada es fuerte o débil. Como se puede apreciar, la percepción humana también valora tipos específicos de distorsiones de forma diferente para débiles y fuertes para señales de audio. Aunque la etapa 40, como se describe aquí, determina la relación 44 de potencia de audio total entre la señal degradada y de referencia, se puede apreciar que la potencia total de la señal de referencia generalmente se mantiene a un nivel constante, por lo tanto el indicador 44 también se puede interpretar aritméticamente como una medida directa de la potencia de la señal degradada, multiplicado por una constante. Sin embargo, para la presente realización, el parámetro 44 de conmutación PW_Rtotal se puede determinar como sigue: PW_Rtotal = ((POTENCIAtotal, degradada + δ)/ (POTENCIAtotal, referencia + δ)) p, en donde POTENCIAtotal, degradada es la potencia de audio total de la señal degradada, POTENCIAtotal, referencia es la potencia de audio total de la señal de referencia, p una potencia de compresión y δ un factor de corrección requerido para evitar que el valor de PW_Rtotal sea demasiado grande como para ser práctico y para tener en cuenta detalles de la percepción humana.

Adicionalmente a la presente realización, y una mejora opcional pero preferida a la invención, la etapa 40 calcula la relación de potencia de audio por trama entre la señal degradada y la señal de referencia. Esto se incluye tal como para tener en cuenta el efecto de cualesquier variaciones (inesperadas) en la potencia de audio de la señal degradada (por ejemplo, provocada por un amplificador de disfunción). Aunque el indicador 45 PW_Rtrama se calcula por trama, la forma de calcular este parámetro de conmutación es similar al indicador 44 PW_Rtotal descrito anteriormente, es: PW.Rtrama = ((POTENCIAtrama, degradada + δ)/( POTENCIAtrama, referencia + δ))p, en donde POTENCIAtrama, degradada es la potencia de audio total de la señal degradada, POTENCIAtrama, referencia es la potencia de audio total de la señal de referencia, p una potencia de compresión y δ un factor de corrección requerido para evitar que el valor de PW_Rtrama sea demasiado grande como para ser práctico y para tener en cuenta detalles de la percepción humana. Aunque como se sugiere aquí p y δ son los mismos para el cálculo total y el cálculo por trama, el experto puede apreciar que los diferentes valores de p y δ se pueden utilizar para cada uno de los cálculos. Este PW_Rtotal, PW_Rtrama, o una combinación, se utiliza entonces para modificar el nivel de perturbación umbral que se utiliza en la conmutación entre las cuatro diferentes funciones de diferencia como se proporciona en la implementación POLQA estándar. El nivel de perturbación umbral modificado representa el nivel de umbral optimizado de parámetro de conmutación. El impacto global de las distorsiones de respuesta de frecuencia, ruido y reverberaciones de cuarto se cuantifica por separado en la etapa 40. Para el impacto de las distorsiones de respuesta de frecuencia globales totales, se calcula un indicador 41 a partir de los espectros promedio de las señales de referencia y degradada. Con el fin de hacer el estimado del impacto de las distorsiones de respuesta de frecuencia independientes del ruido aditivo, la densidad del espectro del ruido promedio de la trama degradada sobre la trama silenciosa de la señal de referencia se resta de la densidad de volumen de tono de la señal degradada. La densidad de volumen de tono resultante de la degradada y la densidad de volumen de tono de la referencia luego se promedian en cada banda de Bark sobre todas las tramas activas de voz para el archivo de referencia y degradado. La diferencia en la densidad de volumen de tono entre estas dos densidades luego se integra en el tono para derivar el indicador 41 para cuantificar el impacto de las distorsiones de respuesta de frecuencia (FREQ). Por el impacto de ruido aditivo, se calcula un indicador 42 a partir del espectro promedio de la señal degradada sobre las tramas silenciosas de la señal de referencia. La diferencia entre la densidad de volumen de tono promedio de las tramas degradadas sobre las tramas silenciosas y una densidad de volumen de tono de referencia cero determina una función de densidad de volumen de ruido que cuantifica el impacto de ruido aditivo. Esta función de densidad de volumen de ruido luego se integra, sobre el tono para obtener un indicador 42 de impacto de ruido (RUIDO). Este indicador 42 de este modo se calcula a partir de un silencio ideal para que una cadena transparente que se mide utilizando una señal de referencia ruidosa por lo tanto no proporcionará la máxima puntuación MOS en la medición de la calidad de la voz de extremo a extremo POLQA final. Para el impacto de reverberaciones de cuarto, se calcula la energía sobre la función de tiempo (ETC) a partir de la serie de tiempo de referencia y degradado. La ETC representa la envoltura de la respuesta de impulso. En una primera etapa, la reflexión más fuerte se calcula simplemente al determinar el valor máximo de la curva de la ETC después de sonido directo. En el modelo de POLQA, el sonido directo se define como todos los sonidos que llegan dentro de los 60 ms. Luego una segundo reflexión más fuerte se determina sobre el intervalo sin el sonido directo y sin tomar en cuenta las reflexiones que llegan dentro de los 100 ms de la reflexión más fuerte. Luego, la tercera reflexión más fuerte se determina sobre el intervalo sin el sonido directo y sin tomar en cuenta las reflexiones que llegan dentro de los 100 ms de la reflexión más fuerte y la segunda reflexión más fuerte. Las energías de las tres reflexiones más fuertes luego se combinan en un solo indicador 43 de reverberación (REVERB). Escala global y local de la señal de referencia hacia la señal degradada (etapa 26) La señal de referencia está ahora de acuerdo con la etapa 17 en el nivel ideal interno, es decir, aproximadamente 73 dB SPL equivalente, mientras que la señal degradada se representa en un nivel que coincide con el nivel de reproducción como resultado de 46. Antes se realiza una comparación entre la diferencia de señal de referencia y degradada, se compensa la diferencia de nivel global en la etapa 26. Adicionalmente los pequeños cambios en el nivel local se compensan parcialmente para tener en cuenta el hecho de que las pequeñas variaciones de nivel suficientes no son notorias a los sujetos en una situación de sólo escucha. La ecualización 26 de nivel global se lleva a cabo sobre la base de la potencia promedio d de señal de referencia y degradada utilizando componentes de frecuencia entre 400 y 3500 Hz. La señal de referencia se escala globalmente hacia la señal degradada y el impacto de la diferencia de nivel de reproducción global de esta manera se mantiene en esta etapa de procesamiento. Del mismo modo, para variar lentamente distintas distorsiones de ganancia, se lleva a cabo una escala local para los cambios de nivel hasta aproximadamente 3 dB utilizando el ancho de banda completo de ambos archivos de voz de referencia y degradado. Compensación parcial de la densidad de potencia de tono original para distorsiones de respuesta de frecuencia (etapa 27) Con el fin de modelar correctamente el impacto de las distorsiones de respuesta de frecuencia lineal, inducidas al filtrar en el sistema bajo prueba, se utiliza un método de compensación parcial en la etapa 27. Para modelar la imperceptibilidad de las distorsiones de respuesta de frecuencia lineal moderadas en las pruebas subjetivas, la señal de referencia parcialmente se filtra con las características de transferencia del sistema bajo prueba. Esto se lleva a cabo al calcular el espectro de potencia promedio de las densidades de potencia de tono originales y degradadas sobre todas las tramas de voz activas. Para el contenedor Bark, se calcula un factor de compensación 27 parcial a partir de la relación del espectro degradado con el espectro original. Modelado de los efectos de enmascaramiento, Cálculo de la excitación de densidad de volumen de tono El enmascaramiento se modela en las etapas 30 y 58 al calcular una representación borrosa de las densidades de potencia de tono. Tanto la borrosidad de dominio de tiempo y frecuencia se tienen en cuenta de acuerdo con los principios ilustrados en la Figura 5a a 5c. La borrosidad de dominio tiempo-frecuencia utiliza el método de convolución. A partir de esta representación borrosa, se vuelven a calcular las representaciones de la densidad de potencia de tono de referencia y degradada suprimiendo los componentes de tiempo- frecuencia de baja amplitud, que parcialmente se enmascaran por componentes fuertes en la vecindad en el plano tiempo-frecuencia. Esta supresión se lleva a cabo de dos maneras diferentes, una resta de la representación borrosa a partir de la representación no borrosa y una división de la representación no borrosa por la representación borrosa. Las representaciones borrosas, resultantes de la densidad de volumen de tono luego se transforman a representaciones de densidad de volumen de tono utilizando una versión modificada de la ley de potencia de Zwicker: siendo SL el factor de escalado de volumen, P0(f) el umbral de audición absoluta, fB y Pfn una corrección dependiente de frecuencia y nivel definida por: fb = -0.03* f + 1.06 para f <2.0 Bark fb = 1.0 para 2.0 ≤ f ≤ 2.0 Bark fb = -0.2* (f – 22.0) + 1.0 para> 22.0 Bark Pfn = (PPX(f)n + 600)0.008 con f que representa la frecuencia en Bark, PPX(f)n la densidad de potencia de tono en la celda f, n de tiempo frecuencia. Las dos matrices bidimensionales resultantes LX(f)n y LY(f)n se denominan densidades de volumen de tono, en la salida de la etapa 30 para la señal de referencia X (t) y la etapa 58 para la señal degradada Y(t) respectivamente. Supresión ruido de bajo nivel global en señales de referencia y degradadas Los bajos niveles de ruido en la señal de referencia, que no se ven afectados por el sistema bajo prueba (por ejemplo, un sistema transparente) se atribuirán al sistema bajo prueba por los sujetos debido al procedimiento de prueba de puntuación de categoría absoluta. Por lo tanto, estos bajos niveles de ruido tienen que ser suprimidos en el cálculo de la representación interna de la señal de referencia. Este “proceso de idealización” se lleva a cabo en la etapa 33 al calcular la densidad de volumen de ruido de estado en equilibrio promedio de la señal de referencia LX(f)n sobre las tramas súper silenciosas como una función del tono. Esta densidad de volumen de ruido promedio luego se resta parcialmente de todas las tramas de densidad de volumen de tono de la señal de referencia. El resultado es una representación interna idealizada de la señal de referencia, en la salida de la etapa 33. El ruido en estado de equilibrio que es audible en la señal degradada tiene un impacto menor que el ruido de estado no en equilibrio. Esto se mantiene para todos los niveles de ruido y el impacto de este efecto se puede modelar por la eliminación parcial de ruido en estado de equilibrio de la señal degradada. Esto se lleva a cabo en la etapa 60 al calcular la densidad media de volumen de ruido de estado estacionario promedio de las tramas de señal degradada LY(f)n para las cuales la trama correspondiente de la señal de referencia se clasifica como súper silenciosa, como una función del tono. Esta densidad de volumen de ruido promedio luego se resta parcialmente de todas las tramas de densidad de volumen de tono de la señal degradada. La compensación parcial utiliza una estrategia diferente para bajos y altos niveles de ruido. Para los bajos niveles de ruido, la compensación es solo marginal, mientras que la supresión que se utiliza se vuelve más agresiva para ruido aditivo fuerte. El resultado es una representación 61 interna de la señal degradada con un ruido aditivo que se adapta para el impacto subjetivo como se observa en las pruebas de escucha utilizando una representación libre de ruido idealizada de la señal de referencia.

En la presente realización, en la etapa 33 anterior, adicionalmente a realizar la supresión de ruido de bajo nivel global, también el indicador 32 VOLUMEN se determina para cada una de las tramas de señal de referencia. El Indicador de VOLUMEN o el valor VOLUMEN se utilizarán para determinar un factor de ponderación dependiente de volumen para tipos específicos de ponderación de distorsiones. La ponderación en sí misma se puede implementar en las etapas 125 y 125’ para las cuatro representaciones 7, 8, 9 y 10 de distorsiones proporcionadas por los operadores, al proporcionar las densidades 142 y 143 de perturbación final.

Aquí, se ha determinado el indicador de nivel de volumen en la etapa 33, pero uno puede apreciar que el indicador de nivel de volumen puede ser determinado para cada trama de la señal de referencia en otra parte del método. En la etapa 33 determinar el indicador de nivel de volumen es posible debido al hecho de que ya el ruido en estado de equilibrio promedio de densidad alta se determina para la señal de referencia LX(f)n sobre las tramas de súper silenciosas, que luego se utilizan en la construcción de la señal de referencia libre de ruido para todas las tramas de referencia. Sin embargo, aunque es posible implementar esto en la etapa 33, no es la forma más preferida de de implementación. Alternativamente, el indicador de nivel de volumen (VOLUMEN) se puede tomar de la señal de referencia en una etapa adicional a la siguiente etapa 35. Este etapa adicional también se indica en la figura 1 como un cuadro punteado 35’ con salida de línea de punteada (VOLUMEN) 32’. Si se implementa allí en la etapa 35’, ya no es necesario tomar indicador de nivel de volumen de la etapa 33, como el lector experto puede apreciar. Escala local de la Densidad de volumen de tono distorsionado para ganancia que varía en el tiempo entre señal degradada y de referencia (etapas 34 y 63) Las variaciones lentas en la ganancia son inaudibles y los pequeños cambios ya se compensan en el cálculo de la representación de señal de referencia. La compensación restante necesaria que puede ser calculada antes de la representación interna correcta se lleva a cabo en dos etapas; primero se compensa la referencia en la etapa 34 para niveles de señal, donde el volumen de señal degradada es menor que el volumen de señal de referencia, y la segunda degradada se compensa en la etapa 63 para niveles de señal donde el volumen de señal de referencia es menor que el volumen de la señal degradada. La primera compensación 34 escala la señal de referencia hacia un nivel más bajo para las partes de la señal donde la señal degradada muestra una severa pérdida de señal, tal como en situaciones de recortes de tiempo. El escalado es tal que la diferencia restante entre la referencia y la degradada representa el impacto de los recortes de tiempo en la calidad de la voz percibida local. Las partes en las que el volumen de señal de referencia es menor que el volumen de señal degradada no se compensan y por lo tanto el ruido aditivo y los golpecitos fuertes no se compensan en esta primera etapa.

La segunda compensación 63 escala la señal degradada hacia un nivel más bajo para las partes de la señal donde la señal degradada muestra golpecitos y para partes de la señal donde hay ruido en los intervalos de silencio. El escalado es tal que la diferencia restante entre la referencia y degradada representa el impacto de golpecitos y ruido aditivo que cambia lentamente sobre la calidad de voz percibida local. Mientras que los golpecitos se compensan en las partes activas silenciosas y de voz, el ruido se compensa sólo en las partes silenciosas. Compensación parcial de Densidad de volumen de tono original para Distorsiones de respuesta de frecuencia lineal (etapa 35) Las distorsiones de respuesta de frecuencia lineal imperceptible ya fueron compensadas al filtrar parcialmente la señal de referencia en el dominio de densidad de potencia de tono en la etapa 27. Con el fin de corregir adicionalmente la señal de referencia por el hecho de que las distorsiones lineales son menos objetables que las distorsiones no lineales, la señal de referencia ahora se filtra parcialmente en la etapa 35 en el dominio de volumen de tono. Esto se lleva a cabo al calcular el espectro de volumen promedio de las densidades de volumen de tono originales y degradadas sobre todas las tramas de voz activas. Para el contenedor Bark, un factor de compensación parcial se calcula a partir de la relación del espectro de volumen degradado con el espectro de volumen originales. Este factor de compensación parcial se utiliza para filtrar la señal de referencia con menor amplitud, suave, la versión de la respuesta de frecuencia del sistema bajo prueba. Después de este filtrado, la diferencia entre las densidades de volumen de tono degradadas y de referencia que resultan de las distorsiones de respuesta de frecuencia lineal se reduce a un nivel que representa el impacto de las distorsiones de respuesta de frecuencia lineal sobre la calidad de la voz percibida. Escalado Final y supresión de ruido de las densidades de volumen de tono Hasta este punto, todos los cálculos sobre las señales se llevan a cabo en el nivel de reproducción y como se utiliza en el experimento subjetivo. Para los niveles de reproducción bajos, esto dará como resultado una baja diferencia entre las densidades de volumen de tono de referencia y degradadas y, en general, en una estimación demasiado optimista de la calidad de voz que se escucha. Con el fin de compensar este efecto la señal degradada ahora se escala hacia un nivel “virtual” interno fijo en la etapa 64. Después de este escalado, la señal de referencia se escala en la etapa 36 hacia el nivel de señal degradada y la señal referencia y degradada están ahora listas para una operación de supresión de ruido final en 37 y 65 respectivamente. Esta supresión de ruido se encarga de las últimas partes de los niveles de ruido en estado de equilibrio en el dominio de volumen que aún tienen un demasiado grande impacto en el cálculo de la calidad de voz. Las señales 13 y 14 resultantes se encuentran ahora en el dominio de representación interno relevante perceptivo y a partir de las funciones tono-volumen-tiempo LX ideal ideal(f)n de etapa ideales 13 y tono -volumen-tiempo degradado LYdeg(f)- 14 se puede calcular las densidades de 142 y 143 de la perturbación. Cuatro variantes diferentes de las funciones tono- volumen -tiempo ideales y degradadas se calculan en 7, 8, 9 y 10, dos variantes (7 y 8) se centran en las perturbaciones de distorsiones normales y grandes, y dos (9 y 10) se centran en las perturbaciones adicionales para distorsiones normales y grandes. Cálculo de las densidades de perturbaciones finales Dos gustos diferentes de las densidades de perturbación se calculan 142 y 143. La primera de ellas, la densidad de perturbación normal, se basa en las funciones de diferencia 7 y 8, es decir, la diferencia entre el tono- volumen -tiempo ideal LXideal(f)n y la función tono -volumen-tiempo degradada LYdeg(f)n. En la segunda, la densidad de perturbación agregada, se deriva de las funciones de diferencia 9 y 10, es decir, de la función tono- volumen-tiempo ideal y la función tono- volumen- tiempo degradada utilizando versiones que se optimiza con respecto a las degradaciones introducidas (es decir, agregadas). En este cálculo de perturbación agregado, las partes de señal en donde la densidad de potencia degradada es mayor que la densidad de potencia de referencia se ponderan con un factor dependiente de la relación de potencia en cada celda de tono- tiempo, el factor de asimetría.

Con el fin de ser capaz de hacer frente a un amplio rango de distorsiones, también es necesario distinguir entre perturbaciones (grandes) fuertes y perturbaciones débiles (o normales). Por lo tanto, para distinguir entre la perturbación del normal y agregada y entre perturbaciones débiles y fuertes, se llevan a cabo cuatro versiones diferentes del procesamiento previo para proporcionar las cuatro funciones de diferencia 7, 8, 9 y 10. Dos etapas de procesamiento previo se centran en distorsiones pequeñas a medianas y están optimizados para evaluar distorsiones de dicho nivel en la evaluación de inteligibilidad, en donde una se optimiza para perturbación normal y la otra se optimiza para perturbación agregada. Con base en este procesamiento, se derivan las funciones 7 y 9 de diferencia. Otras dos etapas de procesamiento previo se han optimizado para tratar con distorsiones medias a fuertes, en donde una se optimiza para perturbación normal y la otra se optimiza para perturbación agregada. Con base en esto, se derivan las funciones 8 y 10 de diferencia. En la figura 1, ya que la optimización está en los detalles de la realización de cada uno de las etapas mientras que las etapas en sí mismas y el orden en que se llevan a cabo no es diferente entre las cuatro etapas de procesamiento previo, lo anterior simplemente se ilustra por los cuatro operadores 7, 8, 9, y 10 de diferencia en la parte inferior de la figura 1 sin la refundición de todos los detalles de las cuatro etapas de procesamiento previo por razones de claridad.

Teniendo disponible cada uno de los operadores 7, 8, 9 y 10 de diferencia, entonces es necesario seleccionar el operador de diferencia correcto que se va a utilizar para procesamiento adicional, tal como tener en cuenta los diferentes tipos de perturbaciones correctamente optimizados para la situación específica. Esta selección es realizada por el selector 123, que realiza una función de conmutación con el fin de optimizar la evaluación y adaptarla tanto como sea posible a la percepción humana real. Principalmente, de acuerdo con la presente invención, esta conmutación se realiza con base en el indicador 44 PW_Rtotal determinado en la etapa 40, que indica la relación de potencia de audio total entre la señal degradada y de referencia (es decir, teniendo efectivamente en cuenta si la señal degradada es una señal débil o una señal fuerte). Sin embargo, una mejora adicional opcionalmente, se puede lograr también teniendo en cuenta la relación de potencia de audio por trama entre la señal degradada y de referencia. Mientras que la relación de potencia de audio total proporciona información sobre cómo se percibe la señal degradada débil o fuerte, la relación de potencia de audio por trama indica que toma en cuenta los cambios repentinos en el nivel de potencia de la señal degradada, por ejemplo provocados por un amplificador o electrodoméstico con mal funcionamiento, una mala conexión en la línea, algún problema de conmutación en un nodo, un problema óptico o eléctrico, o cualquier otro problema que pueda dar lugar a (repentinos) variaciones en la potencia de audio recibido de la señal degradada.

Como se ilustra en la figura 3, tanto para el normal (7 y 8) y la perturbación agregada (9 y 10), se lleva a cabo conmutación entre a distorsiones pequeña a media y medio a grande en la etapa 123 sobre la base de las relaciones de potencia de audio total y por trama PW_Rtotal 44 y PW_Rtrama 45 entre la señal degradada y referencia proporcionada en la entrada 121 y 122, respectivamente, y una primera estimación del nivel de perturbación de la perturbación 7 normal centrado en distorsiones de nivel pequeñas a medias. Este método de procesamiento lleva a la necesidad de calcular cuatro funciones 100, 104, 108, y 112 de tono-volumen-tiempo ideales diferentes y cuatro funciones 101, 105, 109, y 113 de tono –volumen- tiempo degradadas diferentes con el fin de que sean capaces de calcular una única función 142 de perturbación y una única función 143 de perturbación agregada que se han compensado en las etapas 125 y 125’ para una serie de diferentes tipos de cantidades graves de distorsiones específicas (sub-etapas 127-140 (normal) y 127’-140’ (agregada)).

Las desviaciones graves del nivel de escucha óptima se cuantifican en 127 y 127’ por un indicador derivado directamente del nivel de señal de la señal degradada. Este indicador global (NIVEL) también se utiliza en el cálculo del MOS-LQO.

Las distorsiones graves introducidas por repeticiones de trama se cuantifican 128 y 128’ por un indicador derivado de la comparación de la correlación de tramas consecutivas de la señal de referencia con la correlación de tramas consecutivas de la señal degradada. Las desviaciones graves del timbre “ideal” óptimo de la señal degradada se cuantifican 129 y 129’ por un indicador derivado de la relación del volumen de banda de frecuencia superior y el volumen de banda de frecuencia inferior. Las compensaciones se llevan a cabo por trama y en un nivel global. Esta compensación calcula la potencia en las bandas de Bark inferior y superior (por debajo de 12 y por encima de 7 Bark, es decir, utilizando una superposición de 5 Bark) de la señal degradada y “castiga” cualquier desequilibrio grave, independientemente del hecho de que esto podría ser el resultado de un timbre de voz incorrecto del archivo de voz de referencia. Tenga en cuenta que una cadena transparente que utiliza señales de referencia mal grabadas, que contiene mucho ruido y/o un timbre de voz incorrecto, por lo tanto, no proporcionaría la máxima puntuación MOS en una medición de calidad de voz de extremo a extremo POLQA. Esta compensación también tiene un impacto al medir la calidad de los productos que sean transparentes. Cuando se utilizan señales de referencia que muestran una desviación significativa del timbre “ideal” óptimo del sistema bajo prueba será juzgado como no transparente incluso si el sistema no introduce ninguna degradación en la señal de referencia.

El impacto de los picos graves en la perturbación se cuantifica en 130 y 130’ en el indicador PLANITUD que también se utiliza en el cálculo del MOS-LQO. Las variaciones del nivel de ruido graves que se centran en la atención de los sujetos hacia el ruido se cuantifican en 131 y 131’ por un indicador de contraste de ruido derivado de las partes silenciosas de la señal de referencia. En las etapas 133 y 133’, se realiza una operación de perturbaciones ponderadas dependientes de si o no coinciden con la voz hablada real. Con el fin de evaluar la inteligibilidad de la señal degradada, las perturbaciones que se perciben durante los períodos de silencio no se consideran tan perjudiciales como las perturbaciones que se perciben durante voz hablada real. Por lo tanto, con base en el indicador VOLUMEN determinado en la etapa 33 (o etapa 35’ en la realización alternativa) a partir de la señal de referencia, un valor de ponderación se determina para ponderar cualesquier perturbaciones. El valor de ponderación se utiliza para ponderar la función de diferencia (es decir, las perturbaciones) para incorporar el impacto de las perturbaciones en la inteligibilidad de la señal de voz degradada en la evaluación. En particular, dado que el valor de ponderación se determina con base en el indicador VOLUMEN, el valor de ponderación puede ser representado por una función dependiente de volumen. En la presente realización, el valor de ponderación dependiente de volumen se determina al comparar el valor de volumen con un umbral. Si el indicador de volumen excede el umbral de las perturbaciones percibidas se toman en consideración completamente al realizar la evaluación. Por otro lado, si el valor de volumen es menor que el umbral, el valor de ponderación se hace dependiente del indicador de nivel de volumen; es decir, en la presente realización el valor de ponderación es igual al indicador de nivel de volumen (en el régimen en el que el VOLUMEN está por debajo del umbral). La ventaja es que para las partes débiles de la señal de voz, por ejemplo, en los extremos de las palabras habladas justo antes de una pausa o silencio, las perturbaciones se toman en cuenta parcialmente que son perjudiciales para la inteligibilidad. A modo de ejemplo, se puede apreciar que una cierta cantidad de ruido percibido mientras se pronuncia la letra ‘f’ al final de una palabra, puede provocar que un oyente perciba esto como la letra ‘s’. Esto podría ser perjudicial para la inteligibilidad. Por otra parte, el experto puede apreciar que también es posible (en una realización diferente) simplemente hacer caso omiso de cualquier ruido durante el silencio o pausas, al girar el valor de ponderación a cero cuando el valor de volumen está por debajo del umbral mencionado anteriormente. El método de ponderación de la perturbación en una manera dependiente de volumen se describe adicionalmente adelante en relación con la figura 6.

Se detectan saltos graves en la alineación y se cuantifica la alineación y el impacto en las etapas 136 y 136’ por un factor de compensación. Por último, la perturbación y las densidades de perturbación agregadas se recortan en 137 y 137’ a un nivel máximo y la varianza de la perturbación 138 y 138’ y los saltos de 140 y 140’ en el volumen se utilizan para compensar las estructuras de tiempo específicas de las perturbaciones. Esto produce la densidad de perturbación final D(f)n 142 para perturbación regular y la densidad de perturbación final DA(f)n 143 para perturbación agregada.

Agregación de perturbación sobre tono, esfuerzo, y tiempo, Mapeo de Puntuación MOS Intermedia Las densidades 143 de perturbación final D(f)n 142 y perturbación agregada DA(f)n e integran por trama sobre el eje de tono que resulta en dos perturbaciones diferentes por trama, uno derivado de la perturbación y otro derivado de la perturbación agregado, utilizando una integración 153 y 159 L1 (ver Figura 4): con Wf una serie de constantes proporcionales al ancho de contenedores de Bark.

Luego estas dos perturbaciones por trama se promedian sobre esfuerzos de voz de seis tramas consecutivas con una ponderación L4 155 y L1 160 para la perturbación y para la perturbación agregada, respectivamente.

Finalmente, una perturbación y una perturbación agregada se calculan por archivo de una ponderación L2 156 y 161 en el tiempo: La perturbación agregada se compensa en la etapa 161 para reverberaciones fuertes y ruido aditivo fuerte utilizando los indicadores REVERB 42 y RUIDO 43. Las dos perturbaciones luego se combinan 170 con el indicador 41 de frecuencia (FREQ) para derivar un indicador interno que se linealiza con un polinomio de regresión de tercer orden para obtener indicador 171intermedio similar a MOS.

Cálculo del POLQA MOS-LQO final La puntuación POLQA bruta se deriva del indicador intermedio similar a MOS utilizando cuatro compensaciones diferentes todas en la etapa 175: • dos compensaciones por las características de tiempo-frecuencia específicas de la perturbación, una calculada con una agregación L511 sobre la frecuencia 148, esfuerzos 149 y tiempo 150, y otra calculada con una agregación L313 sobre la frecuencia 145, esfuerzos 146 y tiempo 147 • una sola compensación para niveles de presentación muy bajos utilizando el indicador NIVEL • una sola compensación por grandes distorsiones de timbre utilizando el indicador PLANITUD La formación de este mapeo se lleva a cabo en un gran conjunto de degradaciones, que incluyen degradaciones que no forman parte de la prueba de características POLQA. Estas 176 puntuaciones MOS brutas están para la mayor parte ya linealizadas por el mapeo de polinomio de tercer orden utilizado en el cálculo del indicador 171 intermedio similar a MOS. Finalmente las puntuaciones 176 POLQA MOS brutas se mapean en 180 hacia las puntuaciones 181 MOS-LQO utilizando un polinomio de tercer orden que se optimiza para las 62 bases de datos que están disponibles en la etapa final de la estandarización POLQA. En el modo de banda estrecha la puntuación POLQA MOS-LQO máxima es de 4.5, mientras que en el modo de banda súper ancha este punto se encuentra en 4.75. Una consecuencia importante del proceso de idealización es que bajo algunas circunstancias, cuando la señal de referencia contiene ruido o cuando el timbre de voz está gravemente distorsionado, una cadena transparente no proporcionará la máxima puntuación MOS de 4.5 en el modo de banda estrecha o 4.75 en el modo de banda súper ancha. La Figura 6 ilustra una visión general de un método para ponderar la perturbación o ruido con respecto al valor de volumen. Aunque el método como se ilustra en la figura 6 sólo se centra en las partes relevantes relacionadas con la determinación del valor de volumen y la realización de la ponderación de distorsiones, se apreciará que este método se puede incorporar como parte de un método de evaluación tal como se describe en este documento, o una alternativa de los mismos. En la etapa 222, un valor de volumen se determina para cada trama de la señal 220 de referencia. Esta etapa se puede implementar en la etapa 33 de la figura 1, o como se describió anteriormente en la etapa 35’ también representada en la figura 1 como una alternativa preferida. El experto puede apreciar que el valor de volumen puede ser determinado en otro lugar en el método, siempre que el valor de volumen esté disponible a tiempo para realizar la ponderación. En la etapa 225, el valor de volumen determinado en la etapa 222 se compara con un umbral 226. El resultado de esta comparación pueden ser o bien que el valor de volumen sea mayor que el umbral 226, en cuyo caso el método continúa a través de 228; o que el valor de volumen puede ser menor que el umbral 226, en cuyo caso el método continúa a través de la ruta 231. Si el valor de volumen es mayor que el umbral (ruta 228), en la etapa 230 se determina el factor de ponderación dependiente de volumen. En la presente realización, el factor de ponderación se fija en 1.0 con el fin de tener en cuenta plenamente la perturbación en la señal degradada. El experto apreciará que la situación donde el valor de volumen es mayor que el umbral corresponde a la señal de voz que lleva información en el momento actual (la trama de señal de referencia coincide con las palabras reales que se hablan). El método no se limita a un factor de ponderación de 1.0 en la situación anteriormente mencionada; el experto puede optar por utilizar cualquier otro valor o dependencia que considere adecuada para una situación dada. El método se centra aquí principalmente en hacer una distinción entre las perturbaciones encontradas durante la voz y perturbaciones encontradas durante períodos (casi) de silencio, en el tratamiento de las perturbaciones de forma diferente en ambos regímenes. En caso de que el valor de volumen sea menor que el umbral y el método continúe a través de la ruta 231, en la etapa 233 el valor de ponderación se determina al ajustar el factor de ponderación que es dependiente del valor de volumen. Buenos resultados han sido experimentados al utilizar directamente el valor de volumen como factor de ponderación. Sin embargo, se puede aplicar cualquier dependencia adecuada, es decir, lineal, cuadrática, un polinomio de cualquier orden adecuado, u otra dependencia. Como se apreciará, el factor de ponderación debe ser menor de 1.0.

Como una alternativa al factor de ponderación dependiente de volumen descrito anteriormente, también es posible incluir la dependencia de frecuencia del volumen en el método. En ese caso, el factor de ponderación no sólo dependerá del volumen, sino también de la frecuencia de la perturbación en la señal de voz. El factor de ponderación determinado en cualquiera de las etapas 230 y 233 se utiliza como un valor 235 de entrada para la ponderación de la importancia de las perturbaciones en la etapa 240 como una función de si es o no la señal degradada que realmente lleva la voz hablada en la presente trama. En la etapa 240, la señal 238 de diferencia se recibe y el factor 235 de ponderación se aplica para proporcionar la salida deseada (SALIDA). La invención se puede poner en práctica de manera diferente a aquella descrita específicamente aquí, y el alcance de la invención no está limitado por las realizaciones específicas descritas anteriormente y los dibujos adjuntos, sino que puede variar dentro del alcance como se define en las reivindicaciones adjuntas. Signos de referencia 3 señal de referencia X(t) 5 señal degradada Y t), en amplitud- tiempo 7 Cálculo de la diferencia 8 primera variante de cálculo de diferencia 9 segunda variante de cálculo de diferencia 10 tercera variante de cálculo de diferencia 12 señal de diferencia 13 tono- volumen-tiempo ideal interno LXideal(f)n 14 tono- volumen-tiempo degradado interno LXdeg(f)n 17 escalado global hacia el nivel fijo 18 FFT de ventana 20 factor de escalado SP 21 deformación a Bark 25 Detección de trama (súper) silenciosa 26 escalado global y local para el nivel degradado 27 compensación de frecuencia parcial 30 excitación y deformación a Sone 31 factor de escalado de umbral absoluto SL 32 VOLUMEN 32’ VOLUMEN (determinado de acuerdo con la etapa alternativa 35’) 33 supresión de ruido de bajo nivel global 34 escalado local si Y <X 35 compensación de frecuencia parcial 35’ determinar volumen (alternativo) 36 escalado hacia el nivel degradado 37 supresión de ruido de bajo nivel global 40 indicadores FREQ RUIDO REVERB 41 indicador FREQ 42 indicador RUIDO 43 indicador REVERB 44 indicador PW_Rtotal (relación de potencia de audio total entre degradada y señal de referencia) 45 indicador PW_Rtrama (relación de potencia de audio por trama entre señal degradada y de referencia) 46 escalado hacia el nivel de reproducción 47 factor de calibración C 49 FFT de ventana 52 alineación de frecuencias 54 deformación a Bark 55 factor de escalado SP 56 tono- potencia- tiempo PPY(f)n de señal degradada 58 excitación y deformación a Sone 59 factor de escalado de umbral absoluto SL 60 supresión de ruido de alto nivel global 61 tono- volumen - tiempo de señal degradada 63 escalado local si Y> X 64 escalado hacia el nivel interno fijo 65 supresión de ruido de alto nivel global 70 espectro de referencia 72 espectro degradado 74 proporción de tono de referencia y degradado de corriente y +/- 1 trama circundante 77 procesamiento previo 78 suavidad de picos estrechos y valles en el espectro FFT 79 toma de registro del espectro, se aplica umbral para la intensidad mínima 80 forma de espectro de registro total plano utilizando ventana de deslizamiento 83 bucle de optimización 84 rango de factores de deformación: [relación de tono min. <= 1 <= relación de tono max.] 85 deformar espectro degradado 88 aplicar procesamiento previo 89 calcular correlación de espectros para contenedores <1500 Hz 90 seguir mejor factor de deformación 93 deformar espectro degradado 94 aplicar procesamiento previo 95 calcular correlación de espectros para contenedores <3000 Hz 97 mantener espectro degradado deformado si correlación suficiente restaura el original, de lo contrario 98 limitar el cambio del factor de deformación desde una trama hasta la siguiente 100 regular ideal 101 regular degradado 104 grandes distorsiones ideales 105 grandes distorsiones degradados 108 ideal agregado 109 degradado agregado 112 distorsiones grandes agregadas ideales 113 distorsiones grandes agregadas degradadas 116 selección regular de densidad de perturbación 117 selección de grandes distorsiones de densidad de perturbación 119 selección de densidad de perturbación agregada 120 selección de grandes distorsiones de densidad perturbación agregada 121 entrada PW_Rtotal a la función 123 de conmutación 122 entrada PW_Rtrama a la función 123 de conmutación 123 decisión de gran distorsión (conmutación) 125 factores de corrección para cantidades graves de distorsiones específicas 125’ factores de corrección para cantidades graves de distorsiones específicas 127 nivel 127’ nivel 128 repetición de trama 128’ repetición de trama 129 timbre 129 timbre 130 planitud espectral 130’ planitud espectral 131 contraste ruido en períodos de silencio 131’ contraste ruido en períodos de silencio 133 volumen dependiente de ponderación de perturbación 133’ volumen dependiente de ponderación de perturbación 134 volumen de señal de referencia 134 volumen de señal de referencia 136 alineación de saltos 136’ alineación de saltos 137 recorte para máxima degradación 137 recorte para máxima degradación 138 varianza de perturbación 138’ varianza de perturbación 140 saltos de volumen 140’ saltos de volumen 142 densidad de perturbación final D(f)n 143 densidad de perturbación agregada final DA(f)n 145 integración de frecuencia L3 146 integración de esfuerzo L1 147 integración en el tiempo L3 148 integración de frecuencia L5 149 integración de esfuerzo L1 150 integración en el tiempo L1 153 integración de frecuencia L1 155 integración de esfuerzo L4 156 integración en el tiempo L2 159 integración de frecuencia L1 160 integración de esfuerzo L1 161 integración en el tiempo L2 170 mapeo para puntuación MOS intermedia 171 indicador intermedio similar a MOS 175 compensaciones de escala MOS 176 puntuaciones MOS brutas 180 mapeo de MOS-LQO 181 MOS LQO 185 Intensidad en el tiempo para el tono sinusoidal corto 187 tono sinusoidal corto 188 umbral de enmascaramiento para un segundo tono sinusoidal corto 195 Intensidad sobre la frecuencia para tono sinusoidal corto 198 tono sinusoidal corto 199 umbral de enmascaramiento para un segundo tono sinusoidal corto 205 Intensidad sobre la frecuencia y la hora en gráfica 3D 211 umbral de enmascaramiento utilizado como fuerza de supresión que conduce a una representación interna afilada 220 tramas de señal de referencia 222 determinar VOLUMEN 225 comparar VOLUMEN para UMBRAL 226 UMBRAL 228 VOLUMEN> UMBRAL 230 FACTOR DE PONDERACIÓN = 1.0 231 VOLUMEN <UMBRAL 233 FACTOR DE PONDERACIÓN lineal dependiente de VOLUMEN 235 valor determinado para el VALOR DE PONDERACIÓN 238 señal/perturbación de diferencia 240 etapa de ponderación de perturbación

REIVINDICACIONES

1. Método para evaluar inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende: - muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí; - para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas; El método se caracteriza adicionalmente por: - proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada; - seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral; y - derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicho método comprende una etapa de determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para las condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación.

2. Método de acuerdo con la reivindicación 1, en donde dicho por lo menos un parámetro de conmutación incluye una potencia de audio total de dicha señal degradada determinada desde una pluralidad de tramas, o una relación de potencia de audio total entre dicha señal degradada y dicha señal de referencia determinada a partir de una pluralidad de tramas.

3. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicho por lo menos un parámetro de conmutación incluye uno por cada potencia de audio de trama de dicha señal degradada determinada para cada trama, o una relación de potencia de audio total por trama entre dicha señal degradada y dicha señal de referencia determinada para cada trama, para incluir variaciones en potencia de audio o relación de potencia de audio entre tramas. 4. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicha una o más funciones de diferencia incluyen por lo menos uno de un grupo que comprende uno por cada función de diferencia de perturbación agregada a trama que representa componentes de señal presentes en dicha señal degradada y ausentes en dicha señal de referencia, uno por cada función de diferencia de perturbación regular a trama que representa cualesquier perturbaciones en dicha señal degradada, una función de diferencia de perturbación de nivel fuerte que representa componentes de perturbación en dicha señal degradada para la que una diferencia en potencia de audio entre la señal de referencia y degradada excede un umbral predeterminado, una función de diferencia de perturbación de nivel normal que representa componentes de perturbación en dicha señal degradada para la que una diferencia en potencia de audio entre la referencia y señal degradada está por debajo de dicho umbral predeterminado, y funciones de diferencia que representan una combinación de dicha cada función de diferencia de perturbación agregada por trama con dicha función de diferencia de perturbación de nivel fuerte, una combinación de dicha cada función de diferencia de perturbación agregada por trama con dicha función de diferencia de perturbación de nivel normal, una combinación de dicha cada función de diferencia de perturbación regular por trama con dicha función de diferencia de perturbación de nivel fuerte, y una combinación de dicha cada función de diferencia de perturbación regular por trama con dicha función de diferencia de perturbación de nivel normal. 5. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicha etapa de compensación comprende compensar dicha por lo menos una de dichas funciones de diferencia con el fin de proporcionar una función de densidad de perturbación agregada y una función de densidad de perturbación normal.

6. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicha trama de señal de referencia comprende una representación de señal de referencia que representa dicha señal de voz de referencia por lo menos en términos de tono y volumen.

7. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicha trama de señal degradada comprende una representación de señal degradada que representa dicha señal de voz degradada por lo menos en términos de tono y volumen. 8. Método de acuerdo con cualquiera de las reivindicaciones previas, en donde dicho método para evaluar la inteligibilidad de dicha señal de voz degradada se basa en un algoritmo de evaluación de calidad de escucha percibida objetiva (POLQA). 9. Producto de programa de ordenador que comprende un código ejecutable por ordenador para realizar un método de acuerdo con cualquiera de las reivindicaciones previas cuando se ejecuta por un ordenador.

10. Aparato para realizar un método de acuerdo con cualquiera de las reivindicaciones 1 a 9, para evaluar inteligibilidad de una señal de voz degradada, que comprende: - una unidad de recepción para recibir dicha señal de voz degradada desde un sistema de transmisión de audio que transmite una señal de voz de referencia, y recibir dicha señal de voz de referencia; - una unidad de muestreo para muestreo de dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, y para muestreo de dicha señal de voz degradada en una pluralidad de tramas de señal degradadas; El aparato adicionalmente se caracteriza por - una unidad de procesamiento para formar pares de tramas al asociar cada trama de señal de referencia con una trama de señal degradada correspondiente, para procesar previamente cada trama de señal de referencia y cada trama de señal degradada, y proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia; - un selector para seleccionar por lo menos una de dichas funciones de diferencia, dicho selector se dispone para comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral para realizar dicha selección; una unidad de compensador para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como para proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano; y - en donde dicha unidad de procesamiento se dispone adicionalmente para derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo que es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicha unidad de procesamiento se dispone adicionalmente para determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y proporcionar dicho parámetro de conmutación a dicho selector para utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación. 11. Aparato de acuerdo con la reivindicación 10, en donde dicha unidad de procesamiento se dispone para determinar dicho por lo menos un parámetro de conmutación tal como incluir una potencia de audio total de dicha señal degradada determinada desde una pluralidad de tramas, o una relación de potencia de audio total entre dicha señal degradada y dicha señal de referencia determinada a partir de una pluralidad de tramas. 12. Aparato de acuerdo con la reivindicación 10 o 11, en donde dicha unidad de procesamiento se dispone para determinar dicho por lo menos un parámetro de conmutación tal como incluir una por cada potencia de audio de trama de dicha señal degradada determinada para cada trama, o una relación de potencia de audio total por trama entre dicha señal degradada y dicha señal de referencia determinada para cada trama, para incluir variaciones en potencia de audio o relación de potencia de audio entre tramas.

13. Aparato de acuerdo con por lo menos una de las reivindicaciones 10 a 12, en donde para proporcionar dicha una o más funciones de diferencia para cada trama, dicha unidad de procesamiento se dispone adicionalmente para proporcionar por lo menos uno de un grupo que comprende uno por cada función de diferencia de perturbación agregada a trama que representa componentes de señal presentes en dicha señal degradada y ausentes en dicha señal de referencia, uno por cada función de diferencia de perturbación regular a trama que representa cualesquier perturbaciones en dicha señal degradada, una función de diferencia de perturbación de nivel fuerte que representa componentes de perturbación en dicha señal degradada para la que una diferencia en potencia de audio entre la referencia y señal degradada excede un umbral predeterminado, una función de diferencia de perturbación de nivel normal que representa componentes de perturbación en dicha señal degradada para la que una diferencia en potencia de audio entre la referencia y señal degradada está por debajo de dicho umbral predeterminado, y funciones de diferencia que representan una combinación de dicha cada función de diferencia de perturbación agregada por trama con dicha función de diferencia de perturbación de nivel fuerte, una combinación de dicha cada función de diferencia de perturbación agregada por trama con dicha función de diferencia de perturbación de nivel normal, una combinación de dicha cada función de diferencia de perturbación regular por trama con dicha función de diferencia de perturbación de nivel fuerte, y una combinación de dicha cada función de diferencia de perturbación regular por trama con dicha función de diferencia de perturbación de nivel normal.

14. Aparato de acuerdo con por lo menos una de las reivindicaciones 10 a 13, en donde dicha unidad de compensador se dispone para compensar dicha función de diferencia de perturbación agregada para proporcionar una función de densidad de perturbación agregada, y para compensar dicha función de diferencia de perturbación normal para proporcionar una función de densidad de perturbación normal.