Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha.

Un método para determinar una medida de la calidad de la voz de una señal de voz de salida (y) con respecto a una señal de voz de entrada (x),

en donde dicha señal de entrada (x) pasa a través de una ruta de la señal (100) de un sistema de transmisión de datos que produce dicha señal de salida (y), que comprende los pasos de

- procesar previamente dichas señales de entrada y/o salida,

- detectar pausas de la voz en las señales de entrada y salida procesadas previamente,

- determinar, a partir de las señales de entrada (x3) y de salida (y3) procesadas previamente, al menos un parámetro de la calidad que sea una medida de

- el ruido de fondo introducido en la señal de salida con respecto a la señal de entrada, y/o

- el centro de gravedad del espectro de dicho ruido de fondo, y/o

- la amplitud de dicho ruido de fondo, y/o

- el ruido de alta frecuencia introducido en la señal de salida con respecto a la señal de entrada, y/o

- el ruido correlacionado con la señal introducido en la señal de salida con respecto a la señal de entrada, en donde el al menos un parámetro de calidad que es una medida del ruido de fondo se determina comparando los espectros en frecuencia discretos de las señales de entrada y salida procesadas previamente dentro de dichas pausas de la voz, y

- determinar dicha medida de la calidad de la voz a partir de dicho al menos un parámetro de calidad.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11008485.

Solicitante: DEUTSCHE TELEKOM AG.

Nacionalidad solicitante: Alemania.

Dirección: FRIEDRICH-EBERT-ALLEE 140 53113 BONN ALEMANIA.

Inventor/es: GAUTIER-TURBIN,VALERIE, BARRIAC,VINCENT DIPL.-ING, CÔTÉ,NICOLAS DIPL.-ING, MÖLLER,SEBASTIAN PROF.DR.-ING, RAAKE,ALEXANDER DR.-ING, WÄLTERMANN,MARCEL DIPL-ING, HEUTE,ULRICH, SCHOLZ,KIRSTIN.

Fecha de Publicación: 20 de Mayo de 2013.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).

PDF original: ES-2403509_T3.pdf

Fragmento de la descripción:

Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha.

Campo de la invención La invención está relacionada con sistemas de comunicación en general, y específicamente con un método y un sistema para determinar la calidad de la transmisión de un sistema de comunicación, en particular de un sistema de comunicación adaptado para la transmisión de voz

Antecedentes de la invención Para la planificación, el diseño, la instalación, la optimización y la monitorización de redes de telecomunicación que proporcionan capacidades de transmisión de voz, se debe tener en cuenta la calidad que experimenta el usuario del servicio asociado. Normalmente, la calidad se cuantifica realizando experimentos de percepción con individuos en un entorno de laboratorio. Para evaluar la calidad de la voz transmitida, los individuos de prueba se someten a una situación de solo escucha o de conversación o bien reciben muestras de voz bajo estas condiciones, y evalúan la calidad de lo que han escuchado sobre varias escalas de evaluación. El Sector de Estandarización de Telecomunicaciones de la Unión Internacional de Telecomunicaciones proporciona guías para dichos experimentos y propone utilizar varias escalas de evaluación como se describen, por ejemplo, en la Rec. P.800 de la ITU-T, 1996, en la Rec. P.830 de la ITU-T, 1996, o en el Manual sobre Telefonometría de la ITU-T, 1992. La escala que se utiliza con más frecuencia es una escala de evaluación de categorías absolutas de 5 puntos sobre “calidad global”. La evaluación promedio de las evaluaciones objetivas obtenidas sobre esta escala se denomina Puntuación Media de Opinión, MOS. Las puntuaciones MOS se pueden cualificar en función de si se han obtenido en una situación de solo escucha o en una conversación y en función del contexto de los canales de transmisión de banda estrecha (ancho de banda de audio 300-3400 Hz) , banda ancha (50-7000 Hz) o mixta (banda estrecha y banda ancha) , tal y como se describe, por ejemplo, en la Rec. P.800.1 de la ITU-T (2006) .

Debido a los esfuerzos y costes necesarios para llevar a cabo test subjetivos, se han desarrollado algoritmos que estiman la puntuación subjetiva esperada en un experimento de percepción en función de las señales de voz, o de los parámetros que caracterizan la red de telecomunicaciones. Las señales de voz se pueden generar de forma artificial, por ejemplo utilizando simulaciones, o se pueden grabar en redes en funcionamiento. En función de si existe disponibilidad o no de señales de voz en la entrada del canal de transmisión que se consideran, se pueden distinguir distintos tipos de modelos basados en señales:

- un modelo de referencia completo, el cual estima las puntuaciones subjetivas de calidad de escucha calculando una distancia o similitud entre representaciones adecuadas de la señal de entrada y la de salida, o deduciendo una medida de la distorsión a partir de la comparación de las señales de entrada y salida, y transformando el resultado sobre una escala asociada a la calidad subjetiva,

- un modelo sin referencia, el cual estima las puntuaciones subjetivas de calidad de escucha únicamente en función de la señal de salida; esto se puede realizar, por ejemplo, mediante la generación de una referencia artificial por parte del propio algoritmo, y llevando a cabo un análisis posterior de comparación de señales, tal y como se ha enunciado más arriba, y

- un modelo da calidad de conversación, el cual estima la puntuación de calidad para una situación de solo escucha, solo habla y/o una conversación.

En el documento “Estimation of the Quality Dimension ‘Directness/Frecuency content’ for the Instrumental Assessment of Speech Quality (Estimación de la Dimensión de Calidad ‘Contenido Direccionalidad/Frecuencia’ para la Evaluación mediante Equipos de Calidad de la Voz) ” de K. Scholz y otros, Interspeech 2006 – ICSLP, vol. 3, 2006, páginas 1523-1526, se identifican tres dimensiones como relevantes para la evaluación de la calidad de una señal de voz que se ha transmitido sobre una red de telecomunicaciones moderna, estas son “contenido Direccionalidad/Frecuencia”, “Continuidad” y “Nivel de ruido”, en donde la calidad de voz total percibida de una señal de voz en términos de puntuación media de opinión (MOS) se puede expresar como una combinación lineal ponderada de las tres dimensiones de calidad que da como resultado una calidad global que cubre aproximadamente el 90% de la varianza total de las evaluaciones de la calidad de voz. Con respecto a una evaluación mediante equipos de la calidad de voz, se describe un método para la estimación de la dimensión de calidad “contenido Direccionalidad/Frecuencia”.

Existen varios tipos de modelos de referencia completos para los canales de transmisión de voz y audio. Estos consisten, en general, en un paso de proceso previo de las señales de entrada y salida, una transformación en una representación interna, un paso de comparación que devuelve un índice, seguido por unos pasos de integración y transformación que devuelven una puntuación de calidad estimada.

Para la transmisión de voz de banda estrecha, los modelos de referencia completos incluyen el modelo PESQ descrito en la Recomendación P.862 de la ITU-T (2001) , su precursor PSQM descrito en la Recomendación P.861 de la ITU-T (1998) , el modelo TOSQA descrito en la Contribución Com 12-19 de la ITU-T (2001) , así como el PAMS descrito en el documento “The Perceptual Analysis Measurement System for Robust End-to-end Speech Quality Assessment (El Sistema para Medida del Análisis de Percepción para la Evaluación Robusta de la Calidad de Voz Extremo a Extremo) ” de A.W. Rix y M.P. Hollier, Proc. ICASSP del IEEE, 2000, vol. 3, pág. 1515-1518. Se describen otros modelos en el documento “Objective Modelling of Speech Quality with Psychoacoustically Validated Auditor y Model (Modelado Objetivo de la Calidad de la Voz con un Modelo Auditivo Validado Psicoacústicamente) ” de M. Hansen y B. Kollmeier, 2000, J. Audio Eng. Soc., vol. 48, pág. 395-409, en el documento “Objective Estimation of Perceived Speech Quality – Part I: Development of the Measuring Normalizing Block Technique (Estimación Objetiva de la Calidad de Voz Percibida – Parte I: Desarrollo de la Técnica de Bloques de Normalización de Mediciones) ” de S. Voran, Trans. Speech Audio Process. del IEEE, 1999, vol. 7, núm. 4, pág. 371-382, en el documento “Instrumentelle Verfahren zur Sprachqualitätsschätzung – Modelle Auditiver Tests (Métodos Instrumentales para Estimar la Calidad de la Voz – Modelos de Pruebas Auditivas) ”, de J. Berger, 1998, tesis doctoral, Universidad de Kiel, Shaker Verlag, Aachen, en el documento “Psychoakustisch motivierte Maße zur instrumentellen Sprachgütebeurteilung (Dimensiones psicoacústicas motivadas para determinar la evaluación de la calidad de la voz) ” de M. Hauenstein, 1997, tesis doctoral, Universidad de Kiel, Shaker Verlag, Aachen, y en el documento “An Objective Measure for Predicting Subjective Quality of Speech Coders (Una medida objetiva para Predecir la Calidad Subjetiva de Codificadores de Voz) ” de S. Wang, A. Sekey y A. Gersho, 1992, J. Sel. Areas Comun. del IEEE, vol. 10, núm. 5, pág. 819-829.

El modelo de Wang, Sekey y Gersho utiliza una Distorsión Espectral de Corteza (BSD) la cual no incluye el efecto de enmascaramiento. El modelo PSQM (Medida de la calidad de la voz Percibida) se deriva del modelo PAQM (Medida de la Calidad de Audio Percibida) y se especializaba únicamente en la evaluación de la calidad de la voz. El PSQM incluye como nuevos efectos cognitivos la medida de la perturbación de nivel de ruido en un intervalo de silencio y una asimetría de la distorsión de percepción entre componentes que se encuentra o se introduce en el canal de transmisión. El modelo de Voran, denominado Bloque de Normalización de Medidas, utiliza una distancia auditiva entre las dos señales transformadas perceptivamente. El modelo de Hansen y Kollmeier utiliza un coeficiente de correlación entre las dos señales de voz transformadas a un estadio neural superior de percepción. El modelo PAMS (Sistema de Medición de Análisis de Percepción) es una extensión de la medida BSD que incluye nuevos elementos para anular los efectos debidos al retardo variable en los sistemas de Voz sobre IP y los filtros lineales en interfaces analógicas. El modelo TOSQA (Evaluación Objetiva de la Calidad de Voz en Telecomunicaciones; Berger, 1998) evalúa un canal de transmisión extremo a extremo incluyendo los terminales utilizando una medida de la... [Seguir leyendo]

Reivindicaciones:

1. Un método para determinar una medida de la calidad de la voz de una señal de voz de salida (y) con respecto a una señal de voz de entrada (x) , en donde dicha señal de entrada (x) pasa a través de una ruta de la señal (100) de un sistema de transmisión de datos que produce dicha señal de salida (y) , que comprende los pasos de

- procesar previamente dichas señales de entrada y/o salida,

- detectar pausas de la voz en las señales de entrada y salida procesadas previamente,

- determinar, a partir de las señales de entrada (x3) y de salida (y3) procesadas previamente, al menos un parámetro de la calidad que sea una medida de

-el ruido de fondo introducido en la señal de salida con respecto a la señal de entrada, y/o

- el centro de gravedad del espectro de dicho ruido de fondo, y/o

- la amplitud de dicho ruido de fondo, y/o

- el ruido de alta frecuencia introducido en la señal de salida con respecto a la señal de entrada, y/o

- el ruido correlacionado con la señal introducido en la señal de salida con respecto a la señal de entrada, en donde

el al menos un parámetro de calidad que es una medida del ruido de fondo se determina comparando los espectros en frecuencia discretos de las señales de entrada y salida procesadas previamente dentro de dichas pausas de la voz, y

- determinar dicha medida de la calidad de la voz a partir de dicho al menos un parámetro de calidad.

2. El método de la reivindicación 1, en el que la comparación de dichos espectros en frecuencia discretos comprende el cálculo de una diferencia ponderada sofométricamente entre los espectros en un rango de frecuencias predefinido con un límite inferior entre 0 Hz y 0, 5 kHz y un límite superior entre 3, 5 kHz y 8, 0 kHz.

3. El método de una cualquiera de las reivindicaciones 1 ó 2, que comprende un paso para el cálculo de la diferencia entre el centro de gravedad del espectro de dicho ruido de fondo y un valor predefinido que representa un centro de gravedad ideal, en el que, en particular, dicho valor predefinido es igual a 2 kHz.

4. El método de una cualquiera de las reivindicaciones 1 a 3, en el que el parámetro de calidad que es una medida del ruido de alta frecuencia se determina como una proporción ruido señal en un rango de frecuencias predefinido con un límite inferior entre 3, 5 kHz y 8, 0 kHz y un límite superior entre 5 kHz y 30 kHz.

5. El método de una cualquiera de las reivindicaciones 1 a 4, que comprende los pasos de

- determinar un espectro de corta duración de la magnitud media de la señal de salida procesada previamente, de la señal de entrada procesada previamente y de un ruido de fondo estimado,

- sustraer de dicho espectro de corta duración de la magnitud media de la señal de salida procesada previamente el espectro de corta duración de la magnitud media de la señal de entrada procesada previamente y el espectro de corta duración de la magnitud media del ruido de fondo estimado,

- normalizar el resultado de la sustracción a un espectro de corta duración de la magnitud media de la señal de entrada procesada previamente, y

- determinar el parámetro de la calidad que es una medida del ruido correlacionado con la señal a partir del resultado normalizado dentro de un rango de frecuencias predefinido con un límite inferior entre 0 Hz y 8 kHz y un límite superior entre 3, 5 kHz y 20 kHz.

6. El método de una cualquiera de las reivindicaciones 1 a 5, en el que el paso de procesamiento previo comprende los pasos de

-seleccionar una ventana en el dominio del tiempo para la señal de entrada y/o de salida a procesar, y/o

- filtrar la señal de entrada y/o de salida, y/o

- alinear el tiempo de las señales de entrada y salida, y/o

- ajustar el nivel de las señales de entrada y salida, y/o

- corregir las distorsiones en frecuencia de la señal de entrada y/o de salida, y/o

- seleccionar únicamente la señal de salida para su procesamiento.

7. El método de la reivindicación 6, en el que dicho ajuste de nivel de las señales de entrada y salida comprende normalizar ambas señales de entrada y salida respecto a un nivel de señal predefinido.

8. El método de la reivindicación 7, en el que dicho nivel de señal predefinido es, esencialmente, 79 dB SPL, 73 dB SPL ó65 dB SPL.

9. Un dispositivo (300, 400, 500, 600) para determinar una medida de la calidad de la voz de una señal de voz de salida (y) con respecto a una señal de voz de entrada (x) , en el que dicha señal de entrada (x) pasa a través de una ruta (100) de la señal de un sistema de transmisión de datos que produce dicha señal de salida (y) , adaptado para llevar a cabo un método de acuerdo con una cualquiera de las reivindicaciones 1 a 8.

10. El dispositivo de la reivindicación 9, que comprende

- una unidad de procesamiento previo (310, 410, 510, 610) con entradas para recibir dichas señales de voz de entrada (x) y salida (y) , y

- una unidad de procesamiento (320, 420, 520, 620) conectada a la salida de la unidad de procesamiento previo (310, 410, 510, 610) .

11. Un método para determinar una medida de la calidad de la voz de una señal de salida (y) con respecto a una señal de entrada (x) , en el que dicha señal de entrada (x) pasa a través de una ruta (100) de la señal de un sistema de transmisión de datos que produce dicha señal de salida (y) , que comprende los pasos de

- procesar dichas señales de entrada y salida para determinar una primera medida de la calidad de la voz,

- determinar al menos una segunda medida de la calidad de la voz mediante la ejecución de un método de acuerdo con una cualquiera de las reivindicaciones 1 a 8, y

- calcular una tercera medida de la calidad de la voz a partir de la primera medida de la calidad de la voz y la al menos una segunda medida de la calidad de la voz.

12. El método de la reivindicación 11, en donde dicha primera medida de la calidad de la voz se determina mediante un método basado en el modelo de referencia completa PESQ o TOSQA.

13. Un sistema (10) para determinar una medida de la calidad de la voz de una señal de voz de salida (y) con respecto a una señal de voz de entrada (x) , en donde dicha señal de entrada (x) pasa a través de una ruta (100) de la señal de un sistema de transmisión de datos que produce dicha señal de salida (y) , que comprende

- una primera unidad de procesamiento (200) para determinar una primera medida de la calidad de la voz a partir de dichas señales de voz de entrada y salida,

- al menos un dispositivo (300, 400, 500, 600) de acuerdo con la reivindicación 9 ó 10 para determinar una segunda medida de la calidad de la voz a partir de dichas señales de voz de entrada y salida, y

- una unidad de consolidación (710) conectada a las salidas de la primera unidad de procesamiento (200) y cada uno de dicho al menos un dispositivo (300, 400, 500, 600) , en donde dicha unidad de consolidación (710) tiene una salida para proporcionar dicha medida de la calidad de la voz y está adaptada para calcular un valor de salida a partir de las salidas de la primera unidad de procesamiento (200) y cada uno de dicho al menos un dispositivo (300, 400, 500, 600) en función de un algoritmo predefinido.

14. El sistema de acuerdo con la reivindicación 13 que comprende, además, una unidad de clasificación (720) conectada a la salida de la unidad de consolidación (710) para correlacionar la medida de la calidad de la voz dentro de una escala predefinida, en particular la escala MOS.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]