PRE-PROCESAMIENTO DE DATOS DIGITALES DE AUDIO PARA CODECS DE AUDIO DE MÓVIL.

Un método para el pre-procesamiento de datos de audio que contienen datos musicales a procesar por un códec de Codificación de Velocidad Variable Reforzada,

para la transmisión en un sistema de comunicaciones inalámbricas, estando dicho códec optimizado para la voz humana y funcionando a tres velocidades de codificación, comprendiendo el método el paso de, para al menos un intervalo de datos que ha de codificarse por el códec a la velocidad de codificación más baja y que no está definido como intervalo de SILENCIO, ajustar las amplitudes de los datos de audio dentro de dicho al menos un intervalo de datos, de forma que los datos de audio dentro del al menos un intervalo de datos, se codifican a la velocidad de codificación máxima y, cuando los datos de audio se descodifican en el terminal receptor, se puede reducir la pausa intermitente de la música.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/KR2003/002117.

Solicitante: REALNETWORKS ASIA PACIFIC CO., LTD.

Nacionalidad solicitante: República de Corea.

Dirección: K1 REIT BUILDING 463 CHUNGJEONG-RO-3-GA SEODAEMUN-GU SEOUL REPUBLICA DE COREA.

Inventor/es: NAM,Young Han, PARK,Seop Hyeong, HA,Tae Kyoon, JEON,Yun Ho.

Fecha de Publicación: 2 de Enero de 2012.

Fecha Solicitud PCT: 14 de Octubre de 2003.

Clasificación Internacional de Patentes:

G10L19/14A1
G10L19/14P1

Clasificación PCT:

G10L19/12 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Determinación o codificación de una excitación de código, p. ej. en codificadores vocales de predicción lineal excitados por código [CELP].

Clasificación antigua:

G10L19/12 G10L 19/00 […] › Determinación o codificación de una excitación de código, p. ej. en codificadores vocales de predicción lineal excitados por código [CELP].

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2371455_T3.pdf

Fragmento de la descripción:

Pre-procesamiento de datos digitales de audio para codecs de audio de móvil Campo técnico La presente invención está dirigida a un método para el pre-procesamiento de datos de audio, con el fin de mejorar la calidad de la música descodificada en los terminales receptores, tales como los teléfonos móviles; y más en particular, a un método para el pre-procesamiento de datos de audio con el fin de mitigar una degradación de la señal musical, que puede originarse cuando los datos de audio se codifican/descodifican en un sistema de comunicaciones inalámbricas que utilice codificadores-decodificadores (o codecs) de habla optimizados solamente para señales de voz humana. Técnica anterior El ancho de banda del canal de un sistema de comunicaciones inalámbricas es mucho más estrecho que el de un sistema convencional de comunicaciones telefónicas de 64 kbps, y por tanto los datos de audio en un sistema de comunicaciones inalámbricas se comprimen antes de ser transmitidos. Los métodos para comprimir datos de audio en un sistema de comunicaciones inalámbricas incluyen el QCELP (Predicción Lineal Provocada por Código QualComm) de IS-95, el EVRC (Codificación de Velocidad Variable Reforzada), el VSELP (Predicción Lineal Provocada por Vector Suma) de GSM (Sistema Global para las Comunicaciones Móviles), el PRE-LTP (LPC Provocada por Impulsos Normales con Predicción a Largo Plazo), y el ACELP (Predicción Lineal Provocada con Código Algebraico). Todos estos métodos listados están basados en la LPC (Codificación Lineal Predecible). Los métodos de compresión de audio basados en la LPC utilizan un modelo optimizado para las voces humanas y por tanto son eficientes para comprimir la voz a una velocidad baja o media de codificación. En un método de codificación utilizado en un sistema inalámbrico, para utilizar eficientemente el uso del ancho de banda y disminuir el consumo de potencia, los datos de audio se comprimen y transmiten solamente cuando se detecta la voz del que habla utilizando lo que se llama función de VAD (Detección de la Actividad de Voz). Recientemente, se han hecho disponibles varios servicios para proporcionar música a usuarios de teléfonos. Uno de los cuales es denominado Servicio de coloración que facilita al usuario designar una melodía de su elección de manera que las personas que hacen una llamada al abonado escuchen música en lugar de un tono de llamada tradicional, mientras que el abonado no contesta al teléfono. Como este servicio se hizo muy popular primero en Corea, donde se originó, y después en otros países, la transmisión de datos musicales a un teléfono celular ha ido aumentando. Sin embargo, como se ha explicado anteriormente, el método de compresión de audio basado en la LPC es adecuado para la voz humana que tiene componentes de frecuencia limitados. Cuando se procesa música o señales con componentes de frecuencia en la mayoría de la gama de frecuencias audibles (20 ~ 20.000 Hz) en un códec convencional basado en LPC y se transmiten a través de un teléfono celular, ocurre una distorsión de la señal, lo cual origina una pausa en la música o hace un sonido que tiene solamente una parte de los componentes de frecuencia originales. Hay varias razones por las que se degrada la calidad del sonido de los datos de audio después de haber comprimido los datos de audio utilizando codecs basados en LPC, especialmente los codecs EVRC. La degradación de la calidad del sonido tiene lugar de la siguiente manera. (i) Pérdida completa de los componentes de frecuencia en un ancho de banda de alta frecuencia. (ii) Pérdida parcial de componentes de frecuencia en un ancho de banda de baja frecuencia. (iii) Pausa intermitente de la música. La primera causa de degradación no puede ser evitada en tanto y cuanto los componentes de alta frecuencia se eliminan utilizando un filtro de paso bajo de 4 kHz (o 3,4 kHz), cuando se comprimen datos de audio utilizando un códec de audio de ancho de banda estrecho. El segundo fenómeno es debido a la característica intrínseca de los métodos de compresión de audio basados en la LPC. De acuerdo con los métodos de compresión basados en LPC, se obtiene un tono y una frecuencia formante en una señal de entrada y después, a partir de un libro de código, se deduce una señal de excitación para minimizar la diferencia entre la señal de entrada y la señal compuesta calculada por el tono y la frecuencia formante de la señal de entrada. Es difícil extraer un tono desde una señal musical polifónica, mientras que es fácil en el caso de la voz humana. Además, el componente formante de la música es muy diferente del de la voz de una persona. Consecuentemente, se espera que la señal de error de predicción para los datos de música fuera mucho mayor que los de la señal del habla humana, y por tanto se pierden muchos componentes de frecuencia incluidos en los datos de audio originales. Los dos problemas anteriores, es decir, la pérdida de componentes de alta y baja frecuencia, son debidos a la característica inherente al códec de audio optimizado para señales de voz, y son inevitables en cierta medida. 2 E03751533 10-11-2011 Las pausas en la señal de audio son originadas por la velocidad variable de la codificación utilizada por la EVRC. Un codificador de EVRC procesa los datos de audio con tres velocidades (que son de 1,1/2 y 1/8). ·Entre estas velocidades, la velocidad de 1/8 significa que el codificador EVRC determina que la señal de entrada es un ruido y no una señal de voz. Debido a que los sonidos de un instrumento de percusión, tal como un tambor, incluyen componentes del espectro que tienden a ser percibidos como ruidos por los codecs de audio, la música que incluye este tipo de sonidos hace una pausa frecuentemente. Además, los codecs de audio consideran los sonidos que tienen amplitudes bajas como ruidos, lo cual degrada también la calidad del sonido. El documento WO 02/065457 divulga un sistema de codificación del habla con un clasificador de música. Se dispone un codificador para recibir una señal de entrada y proporciona una cadena de bits basada en la codificación del habla de una parte de la señal de entrada. El codificador proporciona una clasificación de la entrada como una de ruido, habla y música. El clasificador de música analiza o determina las propiedades de la señal de entrada. El clasificador de música compara las propiedades de la señal con umbrales, para determinar la clasificación de la señal de entrada. El documento US 5.742.734 divulga un método y un dispositivo para determinar la velocidad de codificación del habla en un codificador de voz de velocidad variable. Divulgación de la invención La presente invención proporciona un método para el pre-procesamiento de la señal de audio a transmitir por un sistema inalámbrico, con el fin de mejorar la calidad del sonido de los datos de audio recibidos en un terminal receptor de un abonado. La presente invención proporciona un método para mitigar el deterioro de la calidad del sonido musical que tiene lugar cuando la señal musical se procesa con códigos optimizados para la voz humana, tal como los codecs EVRC. Otro objeto de la presente invención es proporcionar un método y un sistema para el preprocesamiento de datos de audio, de una manera que no interfiera con el sistema de comunicaciones inalámbricas existente. Consecuentemente, el método de pre-procesamiento de la presente invención es útil en cuanto que puede utilizarse sin modificar un sistema existente. La presente invención puede ser aplicada también de una manera similar a otros codecs optimizados para la voz humana distintos al EVRC. Con el fin de conseguir el objeto anterior, la presente invención proporciona un método y un sistema para el preprocesamiento de datos de audio a procesar por un códec con velocidad de codificación variable, de acuerdo con las reivindicaciones independientes 1 y 3, respectivamente. Breve descripción de los dibujos El objeto y características anteriores de la presente invención quedarán más claros a partir de la siguiente descripción de modos de realización preferidos, ofrecidos conjuntamente con los dibujos que se acompañan. La figura 1 es un diagrama de bloques de un codificador EVRC. La figura 2A es un gráfico que muestra una señal de trama residual de una señal que tiene un componente de frecuencia dominante. La figura 2B es un gráfico que muestra una señal de trama residual de una señal que tiene una diversidad de frecuencias. La figura 3A es un gráfico que muestra la autocorrelación de la residual para una señal que tiene un componente de frecuencia dominante. La figura 3B es un gráfico que muestra la autocorrelación de la residual para una señal que tiene una diversidad de frecuencias. La figura 4 es un diagrama de flujo para realizar el pre-procesamiento del AGC (Control Automático de... [Seguir leyendo]

Reivindicaciones:

1. Un método para el pre-procesamiento de datos de audio que contienen datos musicales a procesar por un códec de Codificación de Velocidad Variable Reforzada, para la transmisión en un sistema de comunicaciones inalámbricas, estando dicho códec optimizado para la voz humana y funcionando a tres velocidades de codificación, comprendiendo el método el paso de, para al menos un intervalo de datos que ha de codificarse por el códec a la velocidad de codificación más baja y que no está definido como intervalo de SILENCIO, ajustar las amplitudes de los datos de audio dentro de dicho al menos un intervalo de datos, de forma que los datos de audio dentro del al menos un intervalo de datos, se codifican a la velocidad de codificación máxima y, cuando los datos de audio se descodifican en el terminal receptor, se puede reducir la pausa intermitente de la música. 2. Un método según la reivindicación 1, en el que el paso de ajuste comprende: - calcular niveles de señal de los datos de audio; - decidir los coeficientes de ganancia suavizada basándose en los niveles de la señal; y - generar datos de audio pre-procesados multiplicando los coeficientes de ganancia suavizada de los datos de audio dentro del intervalo decidido. 3. Un dispositivo para el pre-procesamiento de datos de audio que contienen datos musicales para ser codificados por un códec de Codificación de Velocidad Variable Reforzada para su transmisión por un sistema de comunicaciones inalámbricas, estando dicho códec optimizado para la voz humana y funcionando a tres velocidades de codificación, comprendiendo el dispositivo, para el al menos un intervalo de datos que ha de codificarse por el códec a la velocidad de codificación más baja y que no esté definido como intervalo de SILENCIO, medios para ajustar las amplitudes de los datos de audio dentro de dicho al menos un intervalo de datos, de forma que los datos de audio dentro del al menos un intervalo de datos se codifica a la velocidad máxima de codificación y, cuando los datos de audio se descodifican en el terminal receptor, se puede reducir la pausa intermitente de la música. 12 E03751533 10-11-2011 13 E03751533 10-11-2011 14 E03751533 10-11-2011 E03751533 10-11-2011 16 E03751533 10-11-2011 17 E03751533 10-11-2011 18 E03751533 10-11-2011 19 E03751533 10-11-2011 E03751533 10-11-2011 21 E03751533 10-11-2011 22 E03751533 10-11-2011 23 E03751533 10-11-2011

Patentes similares o relacionadas:

CODIFICACIÓN DE SEÑALES AUDIO-DIGITALES, del 26 de Julio de 2011, de FRANCE TELECOM: Método de codificación de una señal de audio de entrada en donde dicha señal de audio de entrada está combinada con una señal intermedia de contra-reacción que forma una señal […]

CODIFICACION DE AUDIO, del 19 de Enero de 2010, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Dispositivo para la codificación de una señal de audio de una secuencia de valores de audio en una señal codificada, con un medio para […]

PROCEDIMIENTO Y APARATO DE DETECCION DE COMPONENTES TONALES DE SEÑALES DE AUDIO, del 29 de Octubre de 2010, de QUALCOMM INCORPORATED: Un procedimiento de procesamiento de señales de audio, comprendiendo dicho procedimiento: llevar a cabo una operación de codificación en una porción de […]

PROCEDIMIENTO Y APARATO PARA REALIZAR VOCODIFICACION CON TASA REDUCIDA Y TASA VARIABLE, del 13 de Agosto de 2010, de QUALCOMM INCORPORATED: Un procedimiento para codificar una trama de habla, que comprende las etapas de: derivar una pluralidad de parámetros de trama; seleccionar una primera modalidad de […]

PROCEDIMIENTO DE CODIFICACION MULTIPLE OPTIMIZADO, del 16 de Febrero de 2010, de FRANCE TELECOM: Procedimiento de codificación múltiple en compresión, en el que una señal de entrada está destinada a alimentar en paralelo al menos un primer […]

Codificación de audio, del 10 de Junio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de codificación de audio, que comprende: realizar procesamiento de transformación de tiempo-frecuencia sobre una señal en el dominio del […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y disposición para suavizar ruido estacionario de fondo, del 25 de Diciembre de 2019, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para suavizar ruido de fondo, comprendiendo el método: recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz […]