PROCEDIMIENTO Y APARATO PARA AJUSTAR LA ESCALA DE TIEMPO DE UNA SEÑAL.
Aparato para ajustar la escala de tiempo de una señal que comprende:
medios (501) para recibir una señal de entrada que comprende una primera señal y datos de extensión; y
medios (503, 505) para generar una señal ajustada en la escala de tiempo de la primera señal; caracterizado el aparato porque comprende además:
medios (507) para generar una pluralidad de bloques de muestras en frecuencia para la señal ajustada en la escala de tiempo, correspondiendo cada bloque de muestras en frecuencia a un intervalo de tiempo fijado de la señal ajustada en la escala de tiempo, siendo el intervalo de tiempo fijado independiente de un factor de ajuste de la escala de tiempo;
medios para determinar una primera asociación (515) temporal entre un primer valor de parámetro de los datos de extensión y un primer bloque de muestras en frecuencia con un primer intervalo de tiempo asociado de la señal ajustada en la escala de tiempo;
medios (515) para determinar un segundo valor de parámetro asociado con un segundo bloque de muestras en frecuencia en respuesta a la primera asociación temporal y al primer valor de parámetro;
medios (509) para modificar datos del segundo bloque de muestras en frecuencia en respuesta al segundo valor de parámetro; y
medios para generar bloques (511, 513) de muestras de salida en el dominio del tiempo a partir de los bloques de muestras en frecuencia
Tipo: Resumen de patente/invención. Número de Solicitud: W05050159IB.
Solicitante: KONINKLIJKE PHILIPS ELECTRONICS N.V..
Nacionalidad solicitante: Países Bajos.
Dirección: GROENEWOUDSEWEG 1,5621 BA EINDHOVEN.
Inventor/es: OOMEN, ARNOLDUS W., J., SCHUIJERS, ERIK, G., P., GERRITS,ANDREAS,J.
Fecha de Publicación: .
Fecha Concesión Europea: 28 de Octubre de 2009.
Clasificación Internacional de Patentes:
- G10L19/00M
- G10L21/04 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Compresión o expansión temporales.
Clasificación PCT:
- G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L21/04 G10L 21/00 […] › Compresión o expansión temporales.
Clasificación antigua:
- G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L21/04 G10L 21/00 […] › Compresión o expansión temporales.
Fragmento de la descripción:
Procedimiento y aparato para ajustar la escala de tiempo de una señal.
Campo de la invención
La invención se refiere a un procedimiento y aparato para ajustar la escala de tiempo de una señal y en particular a un procedimiento y aparato para ajustar la escala de tiempo de una señal de audio.
Antecedentes de la invención
En los últimos años, la distribución y almacenamiento de contenido A/V en forma digital ha aumentado sustancialmente. Por consiguiente, se ha desarrollado un gran número de normas y protocolos de codificación.
Las técnicas de codificación y compresión de audio proporcionan codificación de audio muy eficaz que permite distribuir de manera conveniente archivos de audio de tamaño de datos relativamente bajo y alta calidad a través de redes de datos incluyendo por ejemplo Internet.
Un ejemplo de una norma de codificación es la norma de codificación Motion Picture Expert Group-4 (MPEG-4) que proporciona especificaciones de decodificador para codificación tanto de vídeo como de audio. Información adicional sobre la norma de codificación MPEG-4 puede encontrarse en "Coding of AudioVisual Objects", MPEG-4: ISO/IEC 14496.
Una técnica que puede aplicarse a señales de audio para alterar la velocidad y la duración de reproducción de una señal de audio sin alterar su tono percibido se conoce como ajuste de la escala de tiempo o ajuste de la escala de ritmo. Hay varias aplicaciones interesantes para el ajuste de la escala de tiempo, incluyendo por ejemplo sincronización de audio/vídeo, aprendizaje de idiomas, herramientas para personas con deficiencia auditiva, contestadores, audiolibros, etc. Un ejemplo de ajuste de la escala de tiempo se proporciona en la patente estadounidense US 2001/032072A1.
En general, el ajuste de la escala de tiempo se aplica como una técnica de postprocesamiento. Por tanto, para material codificado de forma de onda convencional, se introduce una cantidad adicional de complejidad, ya que tienen que realizarse tanto la decodificación normal como el procesamiento de ajuste de la escala de tiempo complejo. Además, el procesamiento de ajuste de la escala de tiempo normalmente introduce artefactos en la señal decodificada y por tanto empeora la calidad de la señal ajustada en la escala de tiempo. Para conseguir una calidad aceptable es necesario usar algoritmos de ajuste de la escala de tiempo muy complejos, lo que da como resultado mayores requisitos computacionales.
Una ventaja de la codificación paramétrica de audio en comparación con la codificación de forma de onda es que la representación paramétrica de una señal de audio facilita el procesamiento de efectos como, por ejemplo, procesamiento de ajuste de la escala de tiempo y/o tono con una complejidad relativamente baja. Un ejemplo de codificación paramétrica de audio puede encontrarse en "Advances in Parametric Coding for High-Quality Audio" de Erik Schuijers, Werner Oomen, Bert den Brinker y Jeroen Breebaart, Preimpresión 5852, 114º Convenio AES, Ámsterdam, Países Bajos, 22-25 de marzo de 2003.
Este esquema de codificación paramétrica está siendo sometido a normalización en la actualidad y actualmente se describe en MPEG-4 Extensión 2, "Coding of Moving Pictures and Audio, Parametric coding for High Quality Audio", ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11 y se normalizará formalmente en ISO/IEC 14496-3:2001/AMD2. Por motivos de comodidad, en esta memoria descriptiva se usará el término MPEG-4 extensión 2. Se- gún MPEG-4 Extensión 2, una señal de audio estéreo puede representarse mediante los siguientes datos de parámetro:
Datos de parámetro de transitorios que representan la parte no estacionaria de la señal de audio.
Datos de parámetro sinusoidales que representan la parte tonal de la señal de audio.
Datos de parámetro de ruido que representan la parte no tonal (o estocástica) de una señal de audio.
Datos de imagen estéreo.
MPEG-4 Extensión 2 proporciona señales estéreo que van a codificarse mediante un algoritmo de estéreo paramétrico (PS). En PS, la codificación de audio estéreo se consigue codificando una señal de audio estéreo como una señal mono y una pequeña cantidad de parámetros de imagen estéreo. La señal mono resultante puede codificarse entonces mediante un codificador mono (paramétrico). En el decodificador, el canal codificado mono se expande en canales estéreo aplicando los parámetros de imagen estéreo a la señal mono decodificada. Los parámetros estéreo consisten en diferencias de intensidad entre canales (IID), diferencias de tiempo o fase entre canales (ITD o IPD) y coherencia entre canales (ICC) (o correlaciones cruzadas entre canales).
La figura 1 ilustra un ejemplo de un decodificador estéreo paramétrico de MPEG-4 Extensión 2 según la técnica anterior.
El decodificador 100 comprende un receptor 101 que recibe un flujo de bits de MPEG-4 Extensión 2 entrante y lo demultiplexa. El receptor 101 está acoplado a una unidad 103 decodificadora a la que se alimentan los datos de parámetro transitorios, sinusoidales y de ruido. En respuesta, la unidad 103 decodificadora genera una señal mono.
La unidad 103 decodificadora está acoplada a un procesador 105 estéreo que está acoplado adicionalmente al receptor 101. El procesador 105 estéreo recibe la señal mono desde la unidad 103 decodificadora y los datos de imagen estéreo desde el receptor 101 y en respuesta genera una señal estéreo según el algoritmo de decodificación estéreo paramétrica de MPEG-4 Extensión 2.
La codificación de audio paramétrica permite realizar un ajuste de la escala de tiempo de complejidad relativamente baja en el decodificador. La figura 2 ilustra un ejemplo de un decodificador 200 estéreo paramétrico de ajuste de escala de tiempo y/o tono de MPEG-4 Ext. 2 según la técnica anterior. El decodificador 200 es idéntico al decodificador 100 de la figura 1 excepto porque comprende además una unidad 201 de ajuste de la escala de tiempo/tono. Los bloques correspondientes del decodificador 200 y el decodificador 100 tienen los mismos símbolos de referencia en las figuras 1 y 2.
La unidad 201 de ajuste de la escala de tiempo/tono está acoplada entre el receptor 100 y la unidad 103 decodificadora. La unidad 201 de ajuste de la escala de tiempo/tono puede operarse para modificar los datos de parámetro antes de que se usen para generar la señal decodificada. Por tanto, los parámetros pueden modificarse para conseguir un ritmo y tono deseados.
La figura 3 ilustra un decodificador 300 estéreo paramétrico según la técnica anterior. El decodificador 300 estéreo paramétrico recibe la señal mono en el dominio del tiempo desde la unidad 103 decodificadora y en respuesta genera una señal decorrelacionada en un decorrelador 305. La señal mono se alimenta adicionalmente a un primer procesador 303 de transformación de dominio que genera una representación en el dominio de la frecuencia de la señal mono. De forma similar, la señal decorrelacionada se alimenta a un segundo procesador 305 de transformación de dominio que genera una representación en el dominio de la frecuencia de la señal decorrelacionada.
El primer y el segundo procesador 303, 305 de transformación de dominio están acoplados a una unidad 307 de decodificador estéreo paramétrico en la que las señales se procesan para generar canales en el dominio de la frecuencia izquierdo y derecho. Específicamente, los parámetros de imagen estéreo de MPEG-4 Ext. 2 son parámetros dependientes de la frecuencia variables en el tiempo. Por consiguiente, las muestras en el dominio de la frecuencia se modifican mediante:
- ajuste a escala (que representa los parámetros de diferencia de intensidad entre canales),
- rotación (que representa los parámetros de diferencia de fase entre canales) y
- mezcla (que representa los parámetros de coherencia entre canales).
Como resultado se generan las representaciones en el dominio de la frecuencia para las señales izquierda y derecha.
La unidad 307 de decodificador estéreo paramétrico está acoplada a un primer procesador 309 de transformación inversa y a un segundo procesador 311 de transformación inversa a los que se alimentan los canales izquierdo y derecho en el dominio de la frecuencia respectivamente y en respuesta genera los canales izquierdo y derecho en el dominio del tiempo.
De manera convencional, las transformaciones del dominio del tiempo al dominio de la frecuencia...
Reivindicaciones:
1. Aparato para ajustar la escala de tiempo de una señal que comprende:
2. Aparato según la reivindicación 1, en el que los medios para determinar la primera asociación (515) temporal pueden operarse para determinar el primer bloque de muestras en frecuencia como aquél que tiene un intervalo de tiempo asociado correspondiente a un instante de tiempo asociado con el primer valor de parámetro.
3. Aparato según la reivindicación 1, en el que la primera asociación temporal comprende una indicación de una posición de tiempo del valor de parámetro dentro del primer intervalo de tiempo.
4. Aparato según la reivindicación 1, que comprende además medios (515) para determinar una segunda asociación temporal entre un tercer valor de parámetro de los datos de extensión y un tercer bloque de muestras en frecuencia; y en el que los medios (515) para determinar el segundo valor de parámetro pueden operarse para realizar una interpolación en respuesta al primer valor de parámetro, la primera asociación temporal, el tercer valor de parámetro y la segunda asociación temporal.
5. Aparato según la reivindicación 4, en el que la interpolación es una interpolación lineal.
6. Aparato según la reivindicación 1, en el que los medios (515) para determinar la primera asociación temporal pueden operarse para determinar la primera asociación temporal en respuesta a una asociación temporal previa.
7. Aparato según la reivindicación 1, que comprende además medios (515) para determinar un desfase de tiempo ajustado a escala entre valores de parámetro consecutivos de los datos de extensión y en el que los medios (515) para determinar la primera asociación temporal pueden operarse para determinar un instante de tiempo del primer valor de parámetro en respuesta a un valor de parámetro previo y al desfase de tiempo ajustado a escala y para generar la asociación temporal en respuesta al instante de tiempo.
8. Aparato según la reivindicación 7, en el que los medios (515) para determinar el segundo valor de parámetro pueden operarse para asociar el primer valor de parámetro con una posición de tiempo nominal dentro del primer intervalo de tiempo en respuesta a la asociación temporal y para determinar el segundo valor de parámetro en respuesta al primer valor de parámetro y a la posición de tiempo nominal.
9. Aparato según la reivindicación 8, en el que los medios (515) para determinar el segundo valor de parámetro pueden operarse para determinar el segundo valor de parámetro en respuesta a una interpolación en respuesta al primer valor de parámetro y a la posición de tiempo nominal.
10. Aparato según la reivindicación 1, en el que la señal de entrada es una señal de audio codificada de manera paramétrica.
11. Aparato según la reivindicación 1, en el que los medios (507) para generar los bloques de muestras en frecuencia comprenden bancos de filtros modulados de manera exponencial compleja.
12. Aparato según la reivindicación 1, en el que los datos de extensión comprenden datos estéreo paramétricos.
13. Aparato según la reivindicación 12, en el que el primer valor de parámetro es un valor de parámetro de un parámetro de imagen estéreo seleccionado del grupo que consiste en:
- a. parámetros de diferencias de intensidad entre canales;
- b. parámetros de diferencias de tiempo o fase entre canales; y
- c. parámetros de coherencia ente canales.
14. Aparato según la reivindicación 1, en el que los medios (509) de modificación pueden operarse para modificar los datos del segundo bloque de muestras en frecuencia para generar al menos un primer bloque de muestras en frecuencia de canal estéreo.
15. Procedimiento para ajustar la escala de tiempo de una señal, comprendiendo el procedimiento las etapas de:
16. Programa informático que permite llevar a cabo un procedimiento según la reivindicación 15.
17. Soporte de grabación que comprende una programa informático según la reivindicación 16.
Patentes similares o relacionadas:
Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 24 de Julio de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que tiene un evento transitorio que comprende: un procesador de señal para procesar una señal de audio reducida […]
Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad, del 29 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un escalador de tiempo para la provisión de una versión de escala de tiempo de una señal de audio de entrada (210; […]
Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 22 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que comprende un evento transitorio que comprende: un procesador de señal para procesar una señal de […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 1 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que comprende un evento transitorio en una primera porción de tiempo de la señal de audio, comprendiendo el […]
Transposición armónica basada en bloque de subbanda mejorado de producto cruzado, del 12 de Febrero de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal extendida en tiempo y/o transpuesta en frecuencia a partir de una señal de entrada, el sistema que comprende: un banco […]
Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad, del 31 de Enero de 2018, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un escalador de tiempo para la provisión de una versión de escala de tiempo de una señal de audio de […]
Transposición armónica mejorada, del 26 de Julio de 2017, de DOLBY INTERNATIONAL AB: Un sistema para transponer una señal de audio de entrada según un factor de transposición T, comprendiendo el sistema: - medios para extraer una trama […]