Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio.

Un método para determinar un indicador de calidad que representa una calidad percibida de una señal de salida de un sistema de audio con respecto a una señal de referencia,

donde la señal de referencia y la señal de salida se procesan y comparan, y el procesamiento incluye dividir la señal de referencia y la señal de salida en tramas de tiempo mutuamente correspondientes, en donde el procesamiento comprende, además:

- escalar la intensidad de la señal de referencia hacia un nivel de intensidad fijo;

- realizar mediciones sobre las tramas de tiempo dentro de la señal de referencia escalada para determinar las características de las tramas de tiempo de la señal de referencia; caracterizadas por que el método comprende además los pasos de:

- escalar la intensidad de la señal de referencia desde el nivel de intensidad fijo hacia el nivel de intensidad asociado a la señal de salida;

- escalar la intensidad de sonido de la señal de salida hacia un nivel de intensidad de sonido fijo en el dominio de intensidad de sonido perceptivo, utilizando el escalado de intensidad de sonido de la señal de salida las características de las tramas de tiempo de la señal de referencia; y

- escalar la intensidad de sonido de la señal de referencia desde un nivel de intensidad de sonido correspondiente a un nivel de intensidad asociado a la señal de salida hacia un nivel de intensidad de sonido asociado al nivel de intensidad de sonido de la señal de salida escalada en el dominio de intensidad de sonido perceptivo, utilizando la intensidad de sonido de la señal de referencia las características de las tramas de tiempo de la señal de referencia;

- realizar la sustracción perceptiva de la señal de referencia y la señal de salida para obtener una señal diferencia;

- y derivar el indicador de calidad a partir de la señal diferencia.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2010/061542.

Solicitante: KONINKLIJKE KPN N.V..

Nacionalidad solicitante: Países Bajos.

Dirección: MAANPLEIN 55 2516 CK THE HAGUE PAISES BAJOS.

Inventor/es: BEERENDS,JOHN, VAN VUGT,JEROEN.

Fecha de Publicación: 24 de Diciembre de 2014.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L25/69 G10L […] › G10L 25/00 Técnicas de análisis del habla o voz no restringidos a un solo de los grupos G10L 15/00 - G10L 21/00 (silenciar los amplificadores basados en semiconductores, cuando algunas de las características especiales de una señal son detectadas por un detector de voz, p. ej. detectar cuando no hay ninguna señal, H03G 3/34). › para evaluar señales de voz sintéticas o decodificadas.
H04M3/22 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Disposiciones de supervisión, de control o de ensayo.

PDF original: ES-2531556_T3.pdf

Ilustración 1 de Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio.

Ilustración 2 de Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio.

Ilustración 3 de Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio.

Ilustración 4 de Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio.

Fragmento de la descripción:

Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio

Campo de la invención

La invención está relacionada con un método para determinar un indicador de calidad que representa una calidad percibida de una señal de salida de un sistema de audio con respecto a una señal de referencia. La invención está relacionada, además, con un producto de programa de ordenador que comprende un código ejecutable de ordenador, por ejemplo almacenado en un medio legible por un ordenador, adaptado para poner en práctica dicho método cuando es ejecutado por un procesador. Por último, la invención está relacionada con un sistema para determinar un indicador de calidad que represente una calidad percibida de una señal de salida de un sistema de audio con respecto a una señal de entrada del sistema de audio que sirve como señal de referencia.

Antecedentes de la invención

La calidad de un dispositivo de audio se puede determinar de forma subjetiva u objetiva. Las pruebas subjetivas consumen tiempo, son caras y difíciles de reproducir. Por lo tanto, se han desarrollado varios métodos para medir de forma objetiva la calidad de una señal de salida, en particular una señal de voz, de un dispositivo de audio. En dichos métodos, se determina la calidad de la voz de una señal de salida tal como se recibe desde un sistema de procesamiento de señales de voz mediante la comparación con una señal de referencia.

Un método actual que se utiliza ampliamente para este propósito es el método descrito en la Recomendación P.862 de la ITU-T titulada "Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codees (Evaluación de percepción de la calidad de voz (PESQ): Un método objetivo para la evaluación de la calidad de voz extremo a extremo de redes de telefonía de banda estrecha y codees de voz)". En la recomendación P.862 de la ITU-T, se debe determinar la calidad de una señal de salida desde un sistema de procesamiento de señales de voz, cuya señal en general está distorsionada. La señal de salida y una señal de referencia, por ejemplo la señal de entrada del sistema de procesamiento de señales de voz, se mapean sobre señales de representación en función de un modelo de percepción psicofísico del sistema de audición humana. En función de estas señales, se determina una señal diferencia que representa la distorsión de la señal de salida comparada con la señal de referencia. En general se define un indicador de calidad que representa una calidad percibida de una señal de salida como un indicador que muestra una alta correlación con la calidad de voz percibida de forma subjetiva. El indicador de calidad se denomina comúnmente Puntuación de Opinión Media (MOS) ya que se determina mediante una prueba subjetiva en la que los sujetos (humanos) expresan su opinión sobre una escala de calidad. En general el indicador de calidad se deriva de una comparación de la representación interna de la señal de salida de un dispositivo sometido a evaluación con la representación interna de la señal de entrada al dispositivo sometido a evaluación. La representación interna se puede calcular transformando la señal desde el dominio externo físico al dominio interno psicofísico. En la recomendación P.862 de la ITU-T el núcleo del algoritmo que se utiliza en el cálculo de la representación psicofísica de la señal está compuesto por las siguientes operaciones principales, escalado a un nivel fijo, alineación de tiempo, transformación del dominio amplitud tiempo al dominio potencia tiempo frecuencia, ajuste de la escala de potencia y frecuencia. Las operaciones dan como resultado una representación interna en términos de intensidad sonora, tiempo y tono a partir del cual se pueden calcular las funciones diferencia. Estas funciones diferencia se utilizan a continuación para obtener un indicador único de calidad. Para cada archivo de voz se puede obtener de este modo una puntuación MOS y una puntuación de indicador de calidad que deberían tener la mayor correlación posible entre ellas. Como ejemplo se puede determinar la calidad de un codee de voz comparando las representaciones internas de la salida del codee con las representaciones internas de la entrada del codee. Para cada archivo de voz que se codifica utilizando el codee el indicador de calidad producirá un número que debería tener una correlación alta con la puntuación MOS determinada de forma subjetiva para el archivo de voz codificado/decodificado. La señal diferencia se procesa a continuación de acuerdo con un modelo cognitivo, en el que se han modelado ciertas propiedades de la percepción auditiva humana basándose en pruebas, con el fin de obtener una calidad de señal que sea una medida de la calidad de la percepción auditiva de la señal de salida.

Tal como ha indicado claramente la recomendación P.862 de la ITU-T, se sabe que PESQ proporciona predicciones inexactas cuando se utilizan niveles auditivos variables. PESQ asume un nivel de audición estándar de 79 dB SPL (Nivel de Presión Sónica) y compensa la señal de entrada cuando existen niveles de señal no óptimos. Por lo tanto no se tiene en cuenta el efecto subjetivo de la desviación respecto a los niveles de audición óptima. En los sistemas actuales de telecomunicaciones, en particular utilizando sistemas de Voz Sobre IP (VOIP) y tecnologías similares, se producen muy a menudo niveles de audición no óptima. En consecuencia, PESQ en general no proporciona predicciones óptimas de la percepción de las señales de voz procesadas en dichos sistemas de telecomunicación, los cuales se están convirtiendo cada vez en más habituales.

La publicación "Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for End-to-End Speech

quality assessment parí ll-Psychoacoustic model (Evaluación perceptiva de la Calidad de Voz (PESQ) El Nuevo Estándar de la ITU para el modelo Psicoacústico de evaluación de la calidad de Voz Extremo a Extremo parte II (por Beerends J G y otros, Revista de la sociedad de Ingeniería acústica, sociedad de Ingeniería acústica, Nueva York, NY, EE.UU., vol. 5, núm. 1) muestra un nuevo modelo para la evaluación perceptiva de la calidad de voz (PESQ) que fue estandarizado por la Unión Internacional de Telecomunicaciones como Recomendación P.862. A diferencia de los modelos de evaluación de codees anteriores, como por ejemplo PSQM y MNB (ITU-T P.861), PESQ permite predecir la calidad subjetiva con una buena correlación en un muy amplio rango de condiciones, las cuales pueden Incluir distorsiones de codificación, errores, ruido, filtrado, retardo, y retardo variable.

Resumen de la invención

Es deseable disponer de un método para determinar la calidad de las transmisiones de un sistema de audlo que proporcione una correlación mejorada entre la calidad de la voz como la determinada por una medición objetiva y la calidad de la voz como la determinada en una prueba subjetiva. Para este propósito, un modo de realización de la Invención está relacionado con un método para determinar un Indicador de calidad que representa una calidad percibida de una señal de salida de un sistema de audlo de acuerdo con la reivindicación 1. En otro modo de realización de acuerdo con la reivindicación 3, la separación de las acciones de escalado local permite una implementación por separado y/o una manipulación de las variaciones de nivel debido a cortes y pulsos de tiempo.

En un modo de realización adicional de acuerdo con la reivindicación 4, el nivel de ruido predeterminado se puede corresponder con un nivel de ruido que se considere que sea un nivel de ruido bajo deseable con el fin de servir como una representación ideal para la señal de salida. En todavía otro modo de realización adicional de acuerdo con la reivindicación 5, la supresión de ruido de la señal de salida puede permitir la supresión del ruido hasta un nivel de ruido que represente la perturbación experimentada por el dispositivo sometido a evaluación.

Se ha comprobado que una supresión de ruido adicional después de un escalado global en un modo de realización de acuerdo con la reivindicación 6 mejora aún más la correlación entre una calidad de voz medida de forma objetiva y una calidad de voz tal como la obtenida en los experimentos de calidad de escucha subjetiva. En algunos modos de realización de la invención, la invención está relacionada, además, con un producto de programa de ordenador de acuerdo con la reivindicación 8. Por último, en algunos modos de realización de la invención, la invención está relacionada, además, con un sistema para determinar un indicador de calidad que represente... [Seguir leyendo]

Reivindicaciones:

1. Un método para determinar un indicador de calidad que representa una calidad percibida de una señal de salida de un sistema de audio con respecto a una señal de referencia, donde la señal de referencia y la señal de salida se procesan y comparan, y el procesamiento incluye dividir la señal de referencia y la señal de salida en tramas de tiempo mutuamente correspondientes, en donde el procesamiento comprende, además:

- escalar la intensidad de la señal de referencia hacia un nivel de intensidad fijo;

- realizar mediciones sobre las tramas de tiempo dentro de la señal de referencia escalada para determinar las características de las tramas de tiempo de la señal de referencia; caracterizadas por que el método comprende además los pasos de:

- escalar la intensidad de la señal de referencia desde el nivel de intensidad fijo hacia el nivel de intensidad asociado a la señal de salida;

- escalar la intensidad de sonido de la señal de salida hacia un nivel de intensidad de sonido fijo en el dominio de intensidad de sonido perceptivo, utilizando el escalado de intensidad de sonido de la señal de salida las características de las tramas de tiempo de la señal de referencia; y

- escalar la intensidad de sonido de la señal de referencia desde un nivel de intensidad de sonido correspondiente a un nivel de intensidad asociado a la señal de salida hacia un nivel de intensidad de sonido asociado al nivel de intensidad de sonido de la señal de salida escalada en el dominio de intensidad de sonido perceptivo, utilizando la intensidad de sonido de la señal de referencia las características de las tramas de tiempo de la señal de referencia;

- realizar la sustracción perceptiva de la señal de referencia y la señal de salida para obtener una señal diferencia;

- y derivar el indicador de calidad a partir de la señal diferencia.

2. El método de la reivindicación 1, en donde el escalado de la intensidad de la señal de referencia desde el nivel de Intensidad fijo hacia un nivel de intensidad asociado a la señal de salida se basa en la multiplicación de la señal de referencia por un factor de escala, estando definido el factor de escala por:

- la determinación de un nivel de intensidad promedio de la señal de referencia para un número de tramas de tiempo;

- la determinación de un nivel de Intensidad promedio de la señal de salida para un número de tramas de tiempo correspondientes a las tramas de tiempo de la señal de referencia utilizadas para determinar el nivel de Intensidad promedio de la señal de referencia;

- la derivación de un factor de escala preliminar mediante la determinación de una fracción basada en el nivel de Intensidad promedio de la señal de referencia y el nivel de intensidad promedio de la señal de salida;

- la determinación de un factor de escala definiendo que el factor de escala sea igual al factor de escala preliminar si el factor de escala preliminar es más pequeño que un valor umbral, y en caso contrario que sea Igual al factor de escala preliminar Incrementado con un valor adicional dependiente del factor de escala preliminar.

3. El método de una cualquiera de las reivindicaciones precedentes, en donde el método, antes del escalado de la Intensidad de sonido del nivel de salida hasta un nivel de intensidad de sonido fijo comprende, además:

- escalar localmente el nivel de Intensidad de sonido de la señal de referencia hacia el nivel de intensidad de sonido de la señal de salida para las partes de la señal de referencia con un nivel de intensidad de sonido que sea más alto que el nivel de intensidad de sonido de la señal de salida; y

- escalar a continuación de forma local el nivel de intensidad de sonido de la señal de salida hacia el nivel de Intensidad de sonido de la señal de referencia para las partes de la señal de salida con un nivel de intensidad de sonido que sea más alto que el nivel de intensidad de sonido de la señal de referencia.

4. El método de una cualquiera de las reivindicaciones precedentes, en el que la señal de referencia en el dominio de intensidad de sonido perceptivo, antes de ser escalada hacia un nivel de intensidad de sonido asociado al nivel de intensidad de sonido de la señal de salida en el dominio de intensidad de sonido perceptivo, es objeto de una acción de eliminación de ruido para eliminar el ruido hasta un nivel de ruido determinado previamente.

5. El método de una cualquiera de las reivindicaciones precedentes, en el que la señal de salida en el dominio

de intensidad de sonido perceptivo, antes de ser escalada hacia un nivel de intensidad de sonido fijo, es objeto de un algoritmo de eliminación de ruido para eliminar el ruido hasta un nivel de ruido representativo de la perturbación.

6. El método de una cualquiera de las reivindicaciones precedentes, en el que la señal de referencia y la señal de salida en el dominio de intensidad de sonido perceptivo, antes de la comparación, son objeto de una eliminación de ruido global.

7. El método de la reivindicación 1 en el que el sistema de audio es un dispositivo de procesamiento de voz.

8. Un producto de programa de ordenador que comprende código ejecutable por un ordenador, por ejemplo almacenado en un medio legible por un ordenador, adaptado para llevar a cabo, cuando es ejecutado por un procesador, el método tal como se ha descrito por una cualquiera de las reivindicaciones 1-7.

9. Un sistema (2) para determinar un indicador de calidad que representa una calidad percibida de una señal de salida Y(t) de un sistema (1) de audio, por ejemplo un dispositivo de procesamiento de voz, con respecto a una señal de entrada X(t) del sistema de audio que sirve como una señal de referencia, comprendiendo el sistema:

- un dispositivo (3) de procesamiento previo para procesar previamente la señal de referencia y la señal de salida;

- un primer dispositivo (4a) de procesamiento para procesar la señal de referencia, y un segundo dispositivo (4b) de procesamiento para procesar la señal de salida con el fin de obtener señales de representación R(X), R(Y) para la señal de referencia y la señal de salida, respectivamente;

- un dispositivo (5) de diferenciación para combinar las señales de representación de la señal de referencia y la señal de salida con el fin de obtener una señal diferencial D; y

- un dispositivo (6) de modelado para procesar la señal diferencial con el fin de obtener una señal Q de calidad que representa una estimación de la calidad perceptiva del sistema de procesamiento de la voz;

en donde el dispositivo de procesamiento previo, el primer dispositivo de procesamiento y el segundo dispositivo de procesamiento forman un sistema de procesamiento para llevar a cabo el método de una cualquiera de las reivindicaciones 1-7.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]