Procedimiento y aparato para el ajuste automático de la velocidad de reproducción de datos de audio.

Un procedimiento para el ajuste automático de la velocidad de reproducción de datos de audio que comprende:

identificar (502) una primera condición en los datos de audio relativa a una velocidad del habla y una segunda condición en los datos de audio relativa a ruido de fondo convirtiendo (501) los datos de audio desde un dominio temporal a un dominio frecuencial, extrayendo características de los datos de audio en el dominio frecuencial y midiendo (503) una tasa de cambio de las características extraídas en el dominio frecuencial generando uno o más valores (401-403; 501-503) de control de la velocidad de reproducción en respuesta a la primera condición, y comparar (504) las características con un modelo de voz para generar uno o más valores adicionales de control de la velocidad de reproducción en respuesta a la segunda condición; y

ajustar automáticamente (506) una velocidad de reproducción de los datos de audio en respuesta a todos los valores (404; 506) de control de la velocidad de reproducción.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2007/067013.

Solicitante: INTEL CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 2200 MISSION COLLEGE BOULEVARD SANTA CLARA, CA 95052 ESTADOS UNIDOS DE AMERICA.

Inventor/es: SHIRES,Glen.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G10L21/04 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00  tiene prioridad). › Compresión o expansión temporales.
  • G11B20/10 G […] › G11 REGISTRO DE LA INFORMACION.G11B REGISTRO DE LA INFORMACION BASADO EN UN MOVIMIENTO RELATIVO ENTRE EL SOPORTE DE REGISTRO Y EL TRANSDUCTOR (registro de valores medidos según un procedimiento que no necesita el uso de un transductor para la reproducción G01D 9/00; aparatos de registro o de reproducción que utilizan una banda marcada por un procedimiento mecánico, p. ej. una banda de papel perforada, o que utilizan soportes de registro individuales, p. ej. fichas perforadas o fichas magnéticas G06K; transferencia de datos de un tipo de soporte de registro a otro G06K 1/18; circuitos para el acoplamiento de la salida de un dispositivo de reproducción a un receptor radio H04B 1/20; cabezas de lectura para gramófonos o transductores acústicos electromecánicos o sus circuitos H04R). › G11B 20/00 Tratamiento de la señal, no específica del procedimiento de registro o reproducción; Circuitos correspondientes. › Registro o reproducción digitales.

PDF original: ES-2377017_T3.pdf

 


Fragmento de la descripción:

Procedimiento y aparato para el ajuste automático de la velocidad de reproducción de datos de audio Campo técnico Las realizaciones de la presente invención son pertinentes a los reproductores multimedia que reproducen datos de audio. Más específicamente, las realizaciones de la presente invención versan acerca de un procedimiento y un aparato para el ajuste automático de la velocidad de reproducción de datos de audio.

Antecedentes Existen reproductores multimedia que permiten la reproducción de grabaciones de audio y de sesiones de audiovídeo a una velocidad que es superior a la velocidad normal. Esto permite que los usuarios escuchen y vean estas sesiones en un periodo de tiempo menor. El uso de estas características puede ser común, por ejemplo, en aplicaciones empresariales, en las que los empleados ven y/o escuchan sesiones de formación, reuniones, conferencias y presentaciones. El uso de estas características también puede ser común en aplicaciones de ocio, por ejemplo, cuando los usuarios escuchan la radio o audio bajo demanda o ven la televisión. Estas características permiten que la reproducción a mayor velocidad esté libre de fallos de audio y vídeo.

Típicamente, los usuarios descubren que la reproducción de datos de audio resulta inteligible y comprensible a velocidades de reproducción aproximadamente entre 1, 2 y 1, 9 veces la velocidad normal de reproducción. Sin embargo, la velocidad óptima puede variar durante la reproducción debido a la velocidad de la voz de la persona que habla, al ruido de fondo, a la presencia de pausas de silencio o rellenadas, y a otros criterios que pueden cambiar en el curso de la reproducción de los datos de audio.

Los reproductores multimedia actuales permiten que los usuarios ajusten manualmente la velocidad de reproducción de los datos de audio. Cuando la velocidad óptima de reproducción cambia frecuentemente en el curso de la reproducción de datos de audio, realizar ajustes manualmente puede resultar inconveniente. Además, cuando se realiza un ajuste manual, un oyente puede reaccionar solamente a cambios en los datos de audio. La demora experimentada en la detección y la reacción al cambio en los datos de audio puede dar como resultado la reproducción de porciones de datos de audio a una velocidad que resulte incomprensible para el oyente. Esto puede hacer que el oyente vuelva a reproducir los datos de audio, negando así algunos de los beneficios de la reproducción a mayor velocidad.

El ajuste automático de la velocidad de reproducción de los datos de audio ha sido dado a conocer previamente. En lo que sigue se identifican dos ejemplos de publicaciones anteriores a modo de antecedente de la presente invención.

La publicación de solicitud de patente estadounidense US 2002/0010916 A1 da a conocer un procedimiento y un aparato que controla la velocidad de reproducción de datos de audio correspondientes a un flujo de voz en continuo. Usando un reconocimiento de voz, se determina la tasa de velocidad de los datos de audio y se la compara con una tasa diana. En base a esta comparación, se aumenta o se disminuye la tasa para que coincida con la tasa diana.

La publicación de solicitud de patente estadounidense US 2005/0149329 A1 describe un aparato para cambiar la velocidad de reproducción de voz grabada que incluye una memoria que almacena una pluralidad de mensajes de voz grabados y una pluralidad de tablas de características. Cada tabla de características está asociada con un mensaje individual de los mensajes vocales e incluye parámetros intermedios basados en los estados de fluctuación de las tramas de voz del mensaje grabado de voz asociado. Un módulo de reproducción recibe una entrada que especifica un mensaje de voz grabado en la memoria que debe ser reproducido y la velocidad con la que el mensaje de voz grabado debe ser reproducido. En respuesta a esta entrada, el módulo de reproducción usa un conjunto de reglas de decisión para modificar el mensaje de voz especificado en base a los parámetros de las tramas de voz en la tabla de características asociada con el mensaje de voz especificado y la velocidad de reproducción especificada, antes de la reproducción del mensaje de voz especificado.

La presente invención proporciona un procedimiento para la gestión de datos de audio, según se define en la reivindicación 1, un medio accesible por máquina, según se define en la reivindicación 5, para la implementación de tal procedimiento y un aparato de ajuste de la velocidad de reproducción, según se define en la reivindicación 6. Notablemente, los datos de audio se convierten de un dominio temporal a un dominio frecuencial, se extraen características de los datos de audio en un dominio frecuencial y las tasas de cambio de las características extraídas en el dominio frecuencial se usan y se miden para generar uno o más parámetros de control de la velocidad de reproducción que son usados después para ajustar automáticamente la velocidad de reproducción de los datos de audio.

Breve descripción de los dibujos Las características y las ventajas de las realizaciones de la presente invención están ilustradas a título de ejemplo y no se pretende que limiten el alcance de las realizaciones de la presente invención a las realizaciones particulares mostradas.

La Figura 1 es un diagrama de bloques de un sistema ejemplar en el cual puede implementarse una realización ejemplar de la presente invención.

La Figura 2 es un diagrama de bloques de una unidad de ajuste de la velocidad de reproducción según una realización ejemplar de la presente invención.

La Figura 3 es un diagrama de bloques de una unidad integradora de la tasa de cambio según una realización ejemplar de la presente invención.

La Figura 4 es un diagrama de flujo que ilustra un procedimiento para la gestión de datos de audio según una primera realización de la presente invención.

La Figura 5 es un diagrama de flujo que ilustra un procedimiento para la gestión de datos de audio según una segunda realización de la presente invención.

La Figura 6 es un diagrama de flujo que ilustra un procedimiento para la generación de un valor de control de la velocidad de reproducción según una realización de la presente invención.

Descripción detallada En la descripción siguiente, se presenta nomenclatura específica con fines de explicación para proporcionar una comprensión cabal de realizaciones de la presente invención. Sin embargo, será evidente para un experto en la técnica que estos detalles específicos pueden no ser requeridos para poner en práctica las realizaciones de la presente invención. En otros casos, se muestran en forma de diagrama de bloques circuitos, dispositivos y procedimientos bien conocidos para evitar oscurecer innecesariamente realizaciones de la presente invención.

La Figura 1 es un diagrama de bloques de una primera realización de un sistema en el que puede implementarse una realización de la presente invención. El sistema es un sistema 100 de ordenador. El sistema 100 de ordenador incluye uno o más procesadores que procesan señales de datos. Según se muestra, el sistema 100 de ordenador incluye un primer procesador 101 y un procesador enésimo 105, pudiendo n ser cualquier número. Los procesadores 101 y 105 pueden ser microprocesadores de ordenador de conjunto complejo de instrucciones, microprocesadores informáticos de conjunto reducido de instrucciones, microprocesadores con palabras de instrucciones muy largas, procesadores que implementen una combinación de conjuntos de instrucciones u otros dispositivos procesadores. Los procesadores 101 y 105 pueden ser procesadores de núcleos múltiples, con múltiples núcleos procesadores en cada chip. Los procesadores 101 y 105 están acoplados a un bus 110 de CPU que transmite señales de datos entre los procesadores 101 y 105 y otros componentes en el sistema 100 de ordenador.

El sistema 100 de ordenador incluye una memoria 113. La memoria 113 incluye una memoria principal que puede ser un dispositivo de memoria dinámica de acceso aleatorio (DRAM) . La memoria 113 puede almacenar instrucciones y código representados por señales de datos que pueden ser ejecutados por los procesadores 101 y 105. Una memoria de almacenamiento temporal (almacenamiento temporal del procesador) puede residir en cada uno de los procesadores 101 y 105 para almacenar señales de datos procedentes de la memoria 113. El almacenamiento temporal puede acelerar los accesos a memoria de los procesadores 101 y 105 aprovechando... [Seguir leyendo]

 


Reivindicaciones:

1. Un procedimiento para el ajuste automático de la velocidad de reproducción de datos de audio que comprende:

identificar (502) una primera condición en los datos de audio relativa a una velocidad del habla y una segunda condición en los datos de audio relativa a ruido de fondo convirtiendo (501) los datos de audio 5 desde un dominio temporal a un dominio frecuencial, extrayendo características de los datos de audio en el dominio frecuencial y midiendo (503) una tasa de cambio de las características extraídas en el dominio frecuencial generando uno o más valores (401-403.

50. 503) de control de la velocidad de reproducción en respuesta a la primera condición, y comparar (504) las características con un modelo de voz para generar uno o más valores adicionales de control de la velocidad de reproducción en respuesta a la segunda condición; y ajustar automáticamente (506) una velocidad de reproducción de los datos de audio en respuesta a todos los valores (404; 506) de control de la velocidad de reproducción.

2. El procedimiento de la reivindicación 1 en el que el ajuste automático de una velocidad de reproducción de los datos de audio en respuesta a todos los valores de control de la velocidad de reproducción comprende:

tomar una media de todos los valores de control de la velocidad de reproducción generados; y aplicar la media de todos los valores (506) de control de la velocidad de reproducción.

3. El procedimiento de la reivindicación 1 en el que las características comprenden, al menos, una de:

(a) energías de subbanda; o

(b) características (502) de fonema.

20 4. El procedimiento de la reivindicación 1 en el que el ajuste de la velocidad de reproducción de los datos de audio comprende llevar a cabo, al menos, uno de:

(a) muestreo selectivo;

(b) solapamiento y suma sincronizados; o

(c) escalado armónico.

25 5. Un medio de almacenamiento de instrucciones accesible por máquina que, cuando se ejecuta, hace que la máquina lleve a cabo el procedimiento de una cualquiera de las reivindicaciones 1-4.

6. Un aparato (200) de ajuste de la velocidad de reproducción que comprende:

una unidad extractora (210) de características para convertir datos de audio de un dominio temporal a un dominio frecuencial e identificar características de los datos de audio en el dominio frecuencial;

una unidad integradora (220) de la tasa de cambio para identificar una condición relativa a una velocidad del habla a partir del cambio de la tasa de las características identificadas en el dominio frecuencial y generar uno o más valores de control de la velocidad de reproducción;

una unidad comparadora (230) para comparar las características de los datos de audio identificados en el dominio frecuencial con características en modelos de voz para identificar una condición relativa al ruido de fondo y para generar otro u otros valores de control de la velocidad de reproducción; y una unidad procesadora (240) de datos de audio para ajustar una velocidad de reproducción de los datos de audio en respuesta a todos los valores de control de la velocidad de reproducción.

7. El ajuste de la velocidad de reproducción de la reivindicación 6 en el que la unidad procesadora (240) de datos de audio toma una media de los uno o más valores de control de la velocidad de reproducción generados a 40 partir del integrador de la tasa de cambio y de la unidad comparadora.

8. El aparato de ajuste de la velocidad de reproducción de la reivindicación 6 en el que la unidad procesadora (240) de datos de audio toma una media ponderada de los uno o más valores de control de la velocidad de reproducción generados a partir del integrador de la tasa de cambio y de la unidad comparadora.

9. El aparato de ajuste de la velocidad de reproducción de la reivindicación 6 en el que la unidad procesadora 45 (240) de datos de audio toma un mínimo o un máximo de los uno o más valores de control de la velocidad de reproducción generados a partir del integrador de la tasa de cambio y de la unidad comparadora.


 

Patentes similares o relacionadas:

Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 24 de Julio de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que tiene un evento transitorio que comprende: un procesador de señal para procesar una señal de audio reducida […]

Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad, del 29 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un escalador de tiempo para la provisión de una versión de escala de tiempo de una señal de audio de entrada (210; […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 22 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que comprende un evento transitorio que comprende: un procesador de señal para procesar una señal de […]

Dispositivo y método para manipular una señal de audio que tiene un evento transitorio, del 1 de Mayo de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para manipular una señal de audio que comprende un evento transitorio en una primera porción de tiempo de la señal de audio, comprendiendo el […]

Transposición armónica basada en bloque de subbanda mejorado de producto cruzado, del 12 de Febrero de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal extendida en tiempo y/o transpuesta en frecuencia a partir de una señal de entrada, el sistema que comprende: un banco […]

Escalador de tiempo, decodificador de audio, procedimiento y programa informático mediante el uso de un control de calidad, del 31 de Enero de 2018, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un escalador de tiempo para la provisión de una versión de escala de tiempo de una señal de audio de […]

Transposición armónica mejorada, del 26 de Julio de 2017, de DOLBY INTERNATIONAL AB: Un sistema para transponer una señal de audio de entrada según un factor de transposición T, comprendiendo el sistema: - medios para extraer una trama […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .