Extracción de secciones de señal de prueba para medir la calidad de una señal de audio.

Dispositivo para extraer una sección de señal de prueba de una señal de audio que comprende las siguientes características:

un dispositivo (10) para analizar una estructura temporal de la señal de audio con el objeto de distinguir una sección portadora de información de la señal de audio de una parte de pausa precedente no portadora de información de la señal de audio y una parte de pausa subsiguiente no portadora de información de la señal de audio; un dispositivo (12) para generar una secuencia de secciones de señal de prueba basándose en la sección portadora de información de la señal de prueba; y un dispositivo (20) para transmitir la sección de señal de prueba a un dispositivo de medición para la valoración de la calidad de un sistema de transmisión (600) desde el cual puede obtenerse la señal de audio, estando configurado el dispositivo (12) para la generación para añadir una o varias partes de pausa a la sección portadora de información de la señal de audio de modo que la sección de señal de prueba comprenda una relación predeterminada de longitud temporal de la sección portadora de información y longitud temporal de la sección o las secciones de pausa.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2004/006487.

Solicitante: Opticom, Dipl.-Ing. Michael Keyhl GmbH.

Nacionalidad solicitante: Alemania.

Dirección: Nägelsbachstrasse 38 91052 Erlangen ALEMANIA.

Inventor/es: KEYHL, MICHAEL, SCHMIDMER, CHRISTIAN, BITTO,ROLAND.

Fecha de Publicación: 4 de Julio de 2012.

Clasificación Internacional de Patentes:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
H04M3/22 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Disposiciones de supervisión, de control o de ensayo.

PDF original: ES-2389768_T3.pdf

Fragmento de la descripción:

Extracción de secciones de señal de prueba para medir la calidad de una señal de audio.

La presente invención se refiere a pruebas de audición para valorar la calidad de señales codificadas de audio y voz o para valorar la calidad de de una conexión telefónica tal como, por ejemplo, una conexión telefónica por cable o inalámbrica. En particular, la presente invención se refiere a la facilitación de secciones de señal de prueba para la realización de las denominadas mediciones subjetivas y/u objetivas para valorar la calidad.

Para la valoración mediante mediciones técnicas de la calidad de señales codificadas de audio y voz se emplean hoy en día procedimientos de medición estandarizados basados en la percepción (Perceptual Measurement, medición perceptual) . Procedimientos conocidos son el denominado procedimiento PESQ (PESQ = Perceptual Evaluation of Speech Quality = valoración perceptual de la calidad de la voz) , que se describe en el documento de estandarización ITU-T P.862 (02/2001) . Otro procedimiento de medición conocido para la valoración de la calidad es el denominado procedimiento PEAQ (PEAQ = Objective Measurements of Perceived Audio Quality = mediciones objetivas de la calidad de audio percibida) , que se muestra en el documento de estandarización Rec. ITU-R BS. 1387-1 (1998-2001) . Estos procedimientos u otros procedimientos para la valoración de la calidad tienen

en común el hecho de que una señal que ha de comprobarse (“señal de prueba”) , que normalmente es la señal de

salida de un sistema o una red o, en general, un elemento que ha de analizarse (DUT) , se compara con una señal original o también una señal de referencia, que normalmente es la señal de entrada al elemento DUT que ha de comprobarse.

En la figura 6 se muestra un “setting” (ajuste) general de este tipo. La señal de audio original que se alimenta a un DUT 600 representa en este caso la señal de referencia o la señal de entrada, mientras que la señal de salida tras el DUT 600 se utiliza o bien para realizar una prueba de audición con sujetos de prueba, tal como se indica mediante un sujeto 602, o bien para realizar un procedimiento de valoración de la calidad tal como, por ejemplo, PESQ o PEAQ, tal como se muestra mediante un modelo 604. Con ello, mediante la alimentación de la señal de salida procedente del DUT 600 al sujeto 602 puede realizarse una prueba de audición subjetiva que normalmente se realiza con varios sujetos de prueba en salas estandarizadas. Mediante la alimentación al modelo 604 de la señal de audio original antes del DUT 600, es decir, la señal de referencia, y la señal de audio distorsionada por el DUT, puede realizarse una comprobación objetiva, es decir, una evaluación algorítmica sin sujetos de prueba subjetivos.

El DUT 600 es normalmente un sistema cuya influencia en la calidad del audio debe valorarse. Un sistema de este tipo es, por ejemplo, una conexión de telecomunicaciones y, en particular, una conexión telefónica, que puede ser inalámbrica o por cable. Un DUT 600 alternativo es, por ejemplo, un tramo de codificador/decodificador para valorar el perjuicio de la calidad de un concepto de codificador con concepto de decodificador conectado posteriormente. La función del modelo, cuando el modelo opera en el marco previsto, debe ser una predicción de la calidad percibida que sujetos de prueba indicarían subjetivamente en una escala cuando escuchan la señal de salida del DUT 600.

En el caso del procedimiento PESQ, por ejemplo, la señal de audio original, es decir, la señal de audio antes del DUT 600, que es la señal de referencia, se compara, considerando un retardo temporal (delay) , con la señal de audio distorsionada por el DUT 600, empleándose para ello un modelo psico-acústico. En particular, tanto la señal de audio original antes del DUT 600 como también la señal de audio distorsionada tras el DUT 600 se transforman en una denominada representación interna que es análoga a la representación psicofísica de señales de audio en el sistema auditivo humano, considerándose particularmente parámetros como la escala Bark y la intensidad sonora (sonido) , tal como se conocen en la técnica. La representación psicofísica interna de la señal de audio original se compara entonces con la representación psicofísica interna de la señal de audio distorsionada para calcular, en función del modelo, uno o varios parámetros de error que permitan realizar una declaración cuantitativa de la calidad.

Un procedimiento de valoración de la calidad mostrado mediante la figura 6 se denomina también procedimiento “intrusivo” dado que es necesario alimentar la señal de referencia, es decir, la señal de audio original, al sistema que ha de comprobarse (DUT 600) . Entonces, en la salida del DUT se obtiene, tal como ya se ha expuesto, la señal de prueba que ha de valorarse, que en la figura 6 también se denomina señal de audio distorsionada o, en general, señal de audio. La salida del DUT 600 puede ser, por ejemplo, el extremo distante de una conexión telefónica de dos abonados, alimentándose la señal de audio original en el extremo cercano como señal de referencia. En este caso, el procedimiento de medición tal como, por ejemplo, PESQ, caracterizaría la calidad de la voz de una conexión telefónica.

Tal como ya se ha expuesto, los procedimientos de medición algorítmicos se basan en una combinación de hallazgos psico-acústicos y cognitivos sobre la percepción auditiva humana. El experimento que sirve de base a este procedimiento consiste, en primer lugar, en que se realiza una prueba de audición subjetiva en la que se presenta a un número estadísticamente suficiente de oyentes de prueba (“sujetos”) una serie de secuencias de voz o audio para su valoración. Los sujetos de prueba valoran estas secuencias mediante una escala

de calidad discreta o continua que en la técnica también se denomina “escala de opinión” y varía, por ejemplo, de 1 (“bad” = mala) a 5 (“excellent” = excelente) . Estas pruebas de audición subjetivas se muestran, por ejemplo, en el

documento de estandarización ITU-T P.800 (08/1996) .

Se ha mostrado que sujetos de prueba reales solo pueden valorar cualitativamente secuencias cortas. Si se presenta a los sujetos de prueba una secuencia más larga, es decir, una sección de señal de prueba más larga, entonces se establece una cierta “media estadística”. Dicho de otro modo, el proceso cognitivo del olvido de perturbaciones escuchadas conduce a un falseamiento de las declaraciones de los sujetos de la prueba, siendo este falseamiento inmanente al sistema debido al hecho de que los sujetos de la prueba son personas.

En consecuencia, por tanto, en procedimientos de prueba estandarizados tales como, por ejemplo, en el documento de estandarización Rec. ITU-R BS.1116-1 o Rec. ITU-R BS.1534, se prescriben secuencias de prueba que tienen una duración de normalmente entre 8 y 12 segundos, pero cuya longitud máxima no supera los 20 segundos. Estas secuencias de prueba son señales reales, sin embargo, no proceden estocástica o aleatoriamente de un escenario real, sino que son secuencias de prueba estandarizadas predeterminadas que pueden alimentarse en un experimento al DUT que ha de analizarse para obtener la señal de prueba de entrada, es decir, la señal de audio distorsionada por el DUT.

En los últimos tiempos se han presentado desarrollos que permiten realizar también pruebas no intrusivas que, por tanto, deben posibilitar una estimación de la calidad de la voz basándose exclusivamente en un análisis de la señal de prueba en el lado de recepción, es decir, sin alimentación de una señal de referencia al lado de emisión. Este tipo de desarrollos son especialmente ventajosos para realizaciones prácticas dado que, por ejemplo, permiten realizar una declaración sobre la calidad de la voz de una conexión de telefonía móvil únicamente en el terminal, sin que sea necesario ningún tipo de disposiciones técnicas de medición o precauciones o manipulaciones en la red telefónica, en cierto modo, para la alimentación de una señal de referencia. Cualquier conversación telefónica real debería poder someterse a una valoración de la calidad con un concepto no intrusivo de este tipo.

Este nuevo concepto no intrusivo está desarrollándose en estos momentos. Se parte de que, por motivos de comparación con conceptos de medición intrusivos, también se prescriben para el... [Seguir leyendo]

Reivindicaciones:

1. Dispositivo para extraer una sección de señal de prueba de una señal de audio que comprende las siguientes características: un dispositivo (10) para analizar una estructura temporal de la señal de audio con el objeto de distinguir una sección portadora de información de la señal de audio de una parte de pausa precedente no portadora de información de la señal de audio y una parte de pausa subsiguiente no portadora de información de la señal de audio; un dispositivo (12) para generar una secuencia de secciones de señal de prueba basándose en la sección portadora de información de la señal de prueba; y un dispositivo (20) para transmitir la sección de señal de prueba a un dispositivo de medición para la valoración de la calidad de un sistema de transmisión (600) desde el cual puede obtenerse la señal de audio, estando configurado el dispositivo (12) para la generación para añadir una o varias partes de pausa a la sección portadora de información de la señal de audio de modo que la sección de señal de prueba comprenda una relación predeterminada de longitud temporal de la sección portadora de información y longitud temporal de la sección o las secciones de pausa.

2. Dispositivo según la reivindicación 1, en el que la señal de audio presenta partes de voz y partes de pausa entre las partes de voz, y en el que el dispositivo (10) para el análisis está configurado para llevar a cabo una detección de actividad de voz con el objeto de detectar una parte de voz como una sección portadora de información dispuesta, en relación temporal, entre dos partes de pausa como secciones no portadoras de información.

3. Dispositivo según la reivindicación 1 o 2, en el que la señal de audio presenta partes de señal que tienen una potencia mínima predeterminada y partes de pausa que tienen una potencia inferior a la potencia de señal predeterminada, y en el que el dispositivo (10) para el análisis está configurado para llevar a cabo una detección de pausas para detectar dos partes de pausa sucesivas en el tiempo entre las cuales se dispone una parte de señal como una sección portadora de información.

4. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que la señal de audio presenta partes de ruido y partes de señal en medio, y en el que el dispositivo (10) para el análisis está configurado para llevar a cabo una detección de ruido con el objeto de detectar dos partes de ruido sucesivas en el tiempo para determinar una parte de señal que se disponga entre las partes de ruido como una sección portadora de información.

5. Dispositivo según la reivindicación 2, en el que el dispositivo (10) para el análisis está configurado adicionalmente para someter la parte de voz a una detección de voz y para analizar la sección portadora de información en relación con la voz y/o una relación de frases, y en el que el dispositivo (12) para la generación está configurado para considerar la voz y/o la relación de frases al generar la sección de señal de prueba.

6. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (12) para la generación está configurado para generar la sección de señal de prueba de modo que la misma tenga una longitud temporal superior o igual a una longitud mínima predeterminada e inferior o igual a una longitud máxima predeterminada.

7. Dispositivo según la reivindicación 6, en el que la longitud mínima predeterminada se sitúa entre 2 y 12 segundos, y en el que la longitud máxima predeterminada se sitúa entre 12 y 25 segundos.

8. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (12) para la generación está configurado para tomar al menos una parte de la sección portadora de información de la señal de audio sin modificar en la sección de señal de prueba.

9. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (12) para la generación está configurado para detectar una longitud temporal de la sección portadora de información con el objeto de determinar si la longitud temporal supera un valor máximo predeterminado, y, en el caso de superar el valor máximo predeterminado, disminuir progresivamente el volumen de sonido de una parte al comienzo o al final de la sección portadora de información para obtener una sección portadora de información modificada cuya longitud temporal sea menor que el valor máximo predeterminado, y, en un intervalo de transición entre una parte en la que se ha disminuido el volumen de sonido y una parte no modificada, obtener una modificación continua del nivel de la sección portadora de información modificada, y con el objeto de generar la sección de señal de prueba de modo que la misma incluya el intervalo de transición y la sección no modificada.

10. Dispositivo según cualquiera de las reivindicaciones 1 a 8, en el que el dispositivo (12) para la generación está configurado para, en el caso de que la longitud temporal de la sección portadora de información sea menor que una longitud máxima predeterminada, tomar toda la sección portadora de información en la sección de señal de prueba.

11. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (12) para la generación está configurado para generar dos secciones de señal de prueba sucesivas, situándose un punto final de una primera sección de señal de prueba, en relación con la señal de audio, temporalmente tras un punto de inicio de una segunda sección de señal de prueba sucesiva, de modo que tanto la primera sección de señal de prueba como también la segunda sección de señal de prueba tengan en común al menos una parte de una sección no portadora de información de la señal de audio.

12. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (10) para el análisis y el dispositivo (12) para la generación están configurados para transformar la señal de audio en una secuencia de secciones de señal de prueba de diferente longitud, siendo cada sección de señal de prueba más larga

o igual que una longitud mínima predeterminada y más corta o igual que una longitud máxima predeterminada.

13. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (10) para el análisis está configurado para emitir un mensaje cuando en la señal de audio no pueda detectarse ninguna sección portadora de información.

14. Dispositivo según la reivindicación 1, en el que la señal de audio presenta una parte de música, y en el que el dispositivo (10) para el análisis está configurado para realizar una detección de nivel, una detección de intensidad sonora o una detección de modulación con el objeto de diferenciar una sección no portadora de información de una sección portadora de información.

15. Dispositivo según cualquiera de las reivindicaciones anteriores, en el que el dispositivo (12) para la generación está configurado para generar una secuencia de secciones de señal de prueba y presenta además un dispositivo para la medición de la intensidad sonora para obtener, para cada sección de señal de prueba, un valor de intensidad sonora, pudiendo emplearse los valores de intensidad sonora de las secciones de señal de prueba de una retroalimentación de intensidad sonora para controlar, en función de la retroalimentación, un desarrollo de la intensidad sonora de la señal de audio.

16. Procedimiento para extraer una sección de señal de prueba de una señal de audio con los siguientes pasos: analizar (10) una estructura temporal de la señal de audio con el objeto de diferenciar una sección portadora de información de la señal de audio de una parte de pausa precedente no portadora de información de la señal de audio y una parte de pausa subsiguiente no portadora de información de la señal de audio; generar (12) la sección de señal de prueba basándose en la sección portadora de información de la señal de audio; y transmitir la sección portadora de información a un dispositivo de medición para la valoración de la calidad de un sistema de transmisión

(600) a partir del cual puede obtenerse la señal de audio, presentando la generación una adición de una o varias secciones de pausa a la sección portadora de información de la señal de audio de modo que la sección de señal de prueba presente una relación predeterminada de longitud temporal de la sección portadora de información y longitud temporal de la sección o las secciones de pausa.

17. Dispositivo para la medición de la calidad de un canal de transmisión con las siguientes características: un dispositivo para la recepción de una señal de audio del canal de transmisión; un dispositivo para la extracción de una o varias secciones de señal de prueba según cualquiera de las reivindicaciones 1 a 15; y un dispositivo para la valoración de la calidad del canal de transmisión basándose en la una sección o las varias secciones de señal de prueba.

18. Dispositivo según la reivindicación 17, en el que el dispositivo para la extracción está configurado para transformar la señal de audio en una secuencia de secciones de señal de prueba de diferente longitud, siendo cada una de las secciones de señal de prueba más larga o igual que una longitud mínima predeterminada y más corta o igual que una longitud máxima predeterminada, estando compuesta cada una de las secciones de señal de prueba, al menos en una proporción predeterminada, por una sección portadora de información de la señal de audio, y estando configurado el dispositivo para la valoración de la calidad para generar un valor de medición de la calidad para secciones de señal de prueba de la sucesión de secciones de señal de prueba.

19. Procedimiento para la medición de la calidad de un canal de transmisión con los siguientes pasos: recepción de una señal de audio del canal de transmisión; extracción de una o varias secciones de señal de prueba utilizando el procedimiento según la reivindicación 16; y valoración de la calidad del canal de transmisión basándose en la una sección o las varias secciones de señal de prueba.

20. Programa informático con un código de programación para la implementación del procedimiento para la extracción de una sección de señal de prueba según la reivindicación 16, o para la implementación del procedimiento para la medición de la calidad según la reivindicación 19 cuando el programa informático se ejecuta en un ordenador.

Patentes similares o relacionadas:

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]

Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]