PROCEDIMIENTO Y APARATO PARA UN FILTRADO DE ANTIDISPERSIÓN DE UNA SEÑAL ENSANCHADA DE EXCITACIÓN DE PREDICCIÓN DE VELOCIDAD DE ANCHO DE BANDA.
Un procedimiento para generar una señal de excitación de banda alta,
comprendiendo dicho procedimiento: generar (A400) una señal (S160) ensanchada de manera espectral ensanchando el espectro de una señal (S80) que está basada en una señal codificada de excitación de banda baja; realizar un filtrado (600) de antidispersión de una señal (S80) que está basada en la señal codificada de excitación de banda baja, en el que la señal de excitación de banda alta está basada en la señal ensanchada de manera espectral, y en el que la señal de excitación de banda alta está basada en un resultado de dicha acción de filtrado de antidispersión; y en el que la acción de dicho filtrado de antidispersión está basada en un valor de al menos uno de entre un parámetro de inclinación espectral, un parámetro de ganancia de tono y un parámetro de modo de voz
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/012233.
Solicitante: QUALCOMM INCORPORATED.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: 5775 MOREHOUSE DRIVE SAN DIEGO, CA CALIFORNIA 92121 ESTADOS UNIDOS DE AMERICA.
Inventor/es: VOS,KOEN,BERNARD, KANDHADAI,ANANTHAPADMANABHAN,A.
Fecha de Publicación: .
Fecha Solicitud PCT: 3 de Abril de 2006.
Clasificación PCT:
- G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).
Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.
PDF original: ES-2358125_T3.pdf
Fragmento de la descripción:
CAMPO DE LA INVENCIÓN
Esta invención se refiere al procesamiento de señales.
ANTECEDENTES
Tradicionalmente, las comunicaciones de voz a través de la red telefónica pública conmutada (PSTN) han tenido limitado el ancho de banda al intervalo de frecuencias comprendido entre 300 y 3400 kHz. Las nuevas redes de comunicaciones de voz, tales como telefonía celular y voz sobre IP (Protocolo de Internet, VoIP), pueden tener otros límites de ancho de banda diferentes y puede ser deseable transmitir y recibir comunicaciones de voz que incluyan un intervalo de frecuencias de banda ancha en tales redes. Por ejemplo, puede ser deseable soportar un intervalo de frecuencias de audio con un valor inferior de 50 Hz y/o con un valor superior de 7 u 8 kHz. También puede ser deseable soportar otras aplicaciones, tales como conferencias de audio o de audio/vídeo de alta calidad, que puedan tener contenido de voz y audio en intervalos fuera de los límites PSTN tradicionales.
La ampliación del intervalo soportado por un codificador de voz en frecuencias superiores puede mejorar la inteligibilidad. Por ejemplo, la información que diferencia sonidos fricativos tales como 's' y 'f' está presente principalmente en las altas frecuencias. La ampliación de banda alta también puede mejorar otras características de la voz, tales como la presencia. Por ejemplo, incluso una vocal sonora puede presentar energía espectral muy por encima del límite PSTN.
Un enfoque a la codificación de voz de banda ancha requiere escalar una técnica de codificación de voz de banda estrecha (por ejemplo, una técnica configurada para codificar el intervalo comprendido entre 0 y 4 kHz) para cubrir el espectro de banda ancha. Por ejemplo, una señal de voz puede muestrearse a una tasa superior para incluir componentes a altas frecuencias, y una técnica de codificación de banda estrecha puede reconfigurarse para utilizar más coeficientes de filtro para representar esta señal de banda ancha. Sin embargo, las técnicas de codificación de banda estrecha tales como CELP (predicción lineal excitada por libro de códigos) requieren un gran esfuerzo computacional y un codificador CELP de banda ancha puede consumir demasiados ciclos de procesamiento para que resulte práctico en muchas aplicaciones móviles y en otras aplicaciones embebidas. La codificación de todo el espectro de una señal de banda ancha en una calidad deseada utilizando una técnica de este tipo también puede dar lugar a un incremento inaceptablemente grande del ancho de banda. Además, la transcodificación de una señal codificada de este tipo sería necesaria incluso antes de que su parte de banda estrecha pudiera transmitirse a y/o descodificarse por un sistema que solo soporte codificación de banda estrecha.
Otro enfoque a la codificación de voz de banda ancha requiere extrapolar la envolvente espectral de banda alta a partir de la envolvente espectral de banda estrecha codificada. Aunque un enfoque de este tipo puede implementarse sin aumentar el ancho de banda y sin necesidad de transcodificación, la envolvente espectral aproximada o la estructura de formantes de la parte de banda alta de una señal de voz no pueden predecirse generalmente de manera precisa a partir de la envolvente espectral de la parte de banda estrecha.
Puede ser deseable implementar la codificación de voz de banda ancha de manera que al menos la parte de banda estrecha de la señal codificada pueda enviarse a través de un canal de banda estrecha (tal como un canal PSTN) sin transcodificación u otra modificación significativa. La eficacia de la extensión de codificación de banda ancha también puede ser deseable, por ejemplo, para evitar una reducción significativa del número de usuarios que pueden recibir servicio en aplicaciones tales como telefonía celular inalámbrica y difusión a través de canales cableados y canales inalámbricos.
Un procedimiento y un aparato para una codificación de voz flexible con escalabilidades de ancho de banda se conocen a partir del documento "A Bitrate and Bandwidth scalable CELP Coder" de Toshiyuki et al., actas de la Conferencia Internacional de Seattle IEEE 1998, WA, USA, del 12 al 15 de mayo de 1998, Nueva York, NY, USA, IEEE, US, vol. 1, 12 de mayo de 1998 (12/05/1998), páginas 341 a 344, XP010279059 ISBN: 0-7803-4428-6. Según este procedimiento se utiliza una cuantificación vectorial de múltiples impulsos para la codificación, donde la herramienta de ampliación de ancho de banda codifica directamente una señal de voz de banda ancha sin utilizar una estructura de subbandas. Para la descodificación, la señal de voz de banda estrecha se extrae de una parte del flujo de bits codificado mediante un descodificador MP-CELP escalable de velocidad binaria, mientras que la señal de voz de banda ancha se obtiene utilizando todo el flujo de bits a través del descodificador MP-CELP escalable de velocidad binaria y de una herramienta de descodificación de ampliación de ancho de banda.
Otro procedimiento se describe en el documento EP 1 300 833 A2, en el que una representación de envolvente espectral de ancho de banda se genera a partir de una representación espectral de banda estrecha de entrada utilizando coeficientes predictivos lineales (LPC). Este procedimiento también utiliza coeficientes de correlación y coeficientes de área asociados con los LPC de banda estrecha, donde esta representación está relacionada con un modelo de tubo acústico discretizado. Este procedimiento también aplica filtrado para reducir las deficiencias de una excitación de banda alta generada.
RESUMEN La invención proporciona un procedimiento para generar una señal de excitación de banda alta según la reivindicación 1,
un medio de almacenamiento de datos según la reivindicación 18, un aparato según la reivindicación 19 y un programa informático según la reivindicación 40. BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1a muestra un diagrama de bloques de un codificador A100 de voz de banda ancha según una realización. La figura 1b muestra un diagrama de bloques de una implementación A102 del codificador A100 de voz de banda ancha. La figura 2a muestra un diagrama de bloques de un descodificador B100 de voz de banda ancha según una realización. La figura 2b muestra un diagrama de bloques de una implementación B102 del codificador B100 de voz de banda ancha. La figura 3a muestra un diagrama de bloques de una implementación A112 de un banco A110 de filtros. La figura 3b muestra un diagrama de bloques de una implementación B122 de un banco B120 de filtros. La figura 4a muestra una cobertura de ancho de banda de una banda alta y de una banda baja de un ejemplo del banco
A110 de filtros.
La figura 4b muestra una cobertura de ancho de banda de una banda alta y de una banda baja de otro ejemplo del banco A110 de filtros. La figura 4c muestra un diagrama de bloques de una implementación A114 de un banco A112 de filtros. La figura 4d muestra un diagrama de bloques de una implementación B124 de un banco B122 de filtros. La figura 5a muestra un ejemplo de una representación gráfica de la amplitud logarítmica frente a la frecuencia de una
señal de voz. La figura 5b muestra un diagrama de bloques de un sistema de codificación básico de predicción lineal. La figura 6 muestra un diagrama de bloques de una implementación A122 de un codificador A120 de banda estrecha. La figura 7 muestra un diagrama de bloques de una implementación B112 de un descodificador B110 de banda estrecha. La figura 8a muestra un ejemplo de una representación gráfica de la amplitud logarítmica frente a la frecuencia de una
señal residual de voz sonora.
La figura 8b muestra un ejemplo de una representación gráfica de la amplitud logarítmica frente al tiempo de una señal residual de voz sonora. La figura 9 muestra un diagrama de bloques de un sistema de codificación básico de predicción lineal que también lleva a
cabo una predicción a largo plazo. La figura 10 muestra un diagrama de bloques de una implementación A202 de un codificador A200 de banda alta. La figura 11 muestra un diagrama de bloques de una implementación A302 de un generador A300 de excitación de banda
alta. La figura 12 muestra un diagrama de bloques de una implementación A402 de un ensanchador A400 de espectro. La figura 12a muestra representaciones gráficas de espectros de señales en varios puntos en un ejemplo de una
operación de ensanchamiento espectral.
La figura 12b muestra representaciones gráficas de espectros... [Seguir leyendo]
Reivindicaciones:
1. Un procedimiento para generar una señal de excitación de banda alta, comprendiendo dicho procedimiento:
generar (A400) una señal (S160) ensanchada de manera espectral ensanchando el espectro de una señal (S80) que está basada en una señal codificada de excitación de banda baja;
realizar un filtrado (600) de antidispersión de una señal (S80) que está basada en la señal codificada de excitación de banda baja,
en el que la señal de excitación de banda alta está basada en la señal ensanchada de manera espectral, y
en el que la señal de excitación de banda alta está basada en un resultado de dicha acción de filtrado de antidispersión;
y en el que la acción de dicho filtrado de antidispersión está basada en un valor de al menos uno de entre un parámetro de inclinación espectral, un parámetro de ganancia de tono y un parámetro de modo de voz.
2. El procedimiento según la reivindicación 1, en el que dicha acción de filtrado de antidispersión incluye realizar un filtrado de antidispersión de la señal ensanchada de manera espectral.
3. El procedimiento según la reivindicación 1, en el que dicha acción de filtrado de antidispersión incluye realizar un filtrado de antidispersión de la señal de excitación de banda alta.
4. El procedimiento según la reivindicación 1, en el que dicha acción de filtrado de antidispersión de una señal incluye realizar una operación de filtrado en la señal según una función de transferencia de todo paso.
5. El procedimiento según la reivindicación 1, en el que dicha acción de filtrado de antidispersión de una señal incluye cambiar el espectro de fase de la señal sin modificar sustancialmente el espectro de magnitud de la señal.
6. El procedimiento según la reivindicación 1, en el que dicha generación de una señal ensanchada de manera espectral comprende ensanchar de manera armónica el espectro de una señal que está basada en la señal codificada de excitación de banda baja para obtener la señal ensanchada de manera espectral.
7. El procedimiento según la reivindicación 1, en el que dicha generación de una señal ensanchada de manera espectral comprende aplicar una función no lineal a una señal que está basada en la señal codificada de excitación de banda baja para generar la señal ensanchada de manera espectral.
8. El procedimiento según la reivindicación 7, en el que la función no lineal comprende al menos una de entre la función de valor absoluto, la función de elevación al cuadrado y una función de truncamiento.
9. El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento mezclar una señal que está basada en la señal ensanchada de manera espectral con una señal de ruido modulada, en el que la señal de excitación de banda alta está basada en la señal mezclada.
10. El procedimiento según la reivindicación 9, en el que dicha mezcla incluye calcular una suma ponderada de la señal de ruido modulada y una señal que está basada en la señal ensanchada de manera espectral, en el que la señal de excitación de banda alta está basada en la suma ponderada.
11. El procedimiento según la reivindicación 9, en el que dicha señal de ruido modulada está basada en un resultado de modular una señal de ruido según una envolvente de dominio de tiempo de una señal basada en al menos una de entre la señal codificada de excitación de banda baja y la señal ensanchada de manera espectral.
12. El procedimiento según la reivindicación 11, comprendiendo dicho procedimiento generar la señal de ruido según una función determinista de información en una señal de voz codificada.
13. El procedimiento según la reivindicación 1, en el que dicha generación de una señal ensanchada de manera espectral incluye ensanchar de manera armónica el espectro de una señal muestreada de manera ascendente que está basada en la señal codificada de excitación de banda baja.
14. El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento al menos uno de entre (A) aplanar de manera espectral la señal ensanchada de manera espectral y (B) aplanar de manera espectral la señal de excitación de banda alta.
15. El procedimiento según la reivindicación 14, en el que dicho aplanamiento espectral comprende:
calcular una pluralidad de coeficientes de filtro en función de una señal que va a aplanarse de manera espectral; y
filtrar la señal que va a aplanarse de manera espectral con un filtro blanqueador configurado según la pluralidad de coeficientes de filtro.
16. El procedimiento según la reivindicación 15, en el que dicho cálculo de una pluralidad de coeficientes de filtro incluye realizar un análisis de predicción lineal de la señal que va a aplanarse de manera espectral.
17. El procedimiento según la reivindicación 1, comprendiendo dicho procedimiento al menos uno de (i) codificar una señal de voz de banda alta según la señal de excitación de banda alta y (ii) descodificar una señal de voz de banda alta según la señal de excitación de banda alta.
18. El procedimiento según la reivindicación 1, que comprende además
decidir si realizar dicho filtrado de antidispersión, donde dicha decisión está basada en un valor de al menos uno de entre un parámetro de inclinación espectral, un parámetro de ganancia de tono y un parámetro de modo de voz.
19. Un medio de almacenamiento de datos que presenta instrucciones ejecutables por máquina adaptadas para realizar el procedimiento de procesamiento de señales según la reivindicación 1, cuando dichas instrucciones se ejecutan en un ordenador.
20. Un aparato, que comprende:
un ensanchador (A400) de espectro configurado para generar una señal (S160) ensanchada de manera espectral ensanchando el espectro de una señal (S80) que está basada en una señal codificada de excitación de banda baja;
un filtro (600) de antidispersión configurado para filtrar una señal (S80) que está basada en la señal codificada de excitación de banda baja,
en el que la señal de excitación de banda alta está basada en la señal ensanchada de manera espectral, y
en el que la señal de excitación de banda alta está basada en una salida de dicho filtro de antidispersión, y
lógica de decisión configurada para decidir si filtrar una señal que está basada en la señal codificada de excitación de banda baja con dicho filtro de antidispersión, donde dicha lógica de decisión está configurada para decidir en función de un valor de al menos uno de entre un parámetro de inclinación espectral, un parámetro de ganancia de tono y un parámetro de modo de voz.
21. El aparato según la reivindicación 20, en el que dicho filtro de antidispersión está configurado para filtrar la señal ensanchada de manera espectral.
22. El aparato según la reivindicación 20, en el que dicho filtro de antidispersión está configurado para filtrar la señal de excitación de banda alta.
23. El aparato según la reivindicación 20, en el que dicho filtro de antidispersión está configurado para filtrar la señal según una función de transferencia de todo paso.
24. El aparato según la reivindicación 20, en el que dicho filtro de antidispersión está configurado para cambiar el espectro de fase de la señal sin modificar sustancialmente el espectro de magnitud de la señal.
25. El aparato según la reivindicación 20, en el que dicho ensanchador de espectro está configurado para ensanchar de manera armónica el espectro de una señal que está basada en la señal codificada de excitación de banda baja para obtener la señal ensanchada de manera espectral.
26. El aparato según la reivindicación 20, en el que dicho ensanchador de espectro está configurado para aplicar una función no lineal a una señal que está basada en la señal codificada de excitación de banda baja para generar la señal ensanchada de manera espectral.
27. El aparato según la reivindicación 26, en el que la función no lineal comprende al menos una de entre la función de valor absoluto, la función de elevación al cuadrado y una función de truncamiento.
28. El aparato según la reivindicación 20, comprendiendo dicho aparato un combinador configurado para mezclar una señal que está basada en la señal ensanchada de manera espectral con una señal de ruido modulada, en el
que la señal de excitación de banda alta está basada en una salida de dicho combinador.
29. El aparato según la reivindicación 28, en el que dicho mezclador está configurado para calcular una suma ponderada de la señal de ruido modulada y una señal que está basada en la señal ensanchada de manera espectral, en el que la señal de excitación de banda alta está basada en la suma ponderada.
30. El aparato según la reivindicación 28, incluyendo dicho aparato un segundo combinador configurado para modular una señal de ruido según una envolvente de dominio de tiempo de una señal basada en al menos una de entre la señal codificada de excitación de banda baja y la señal ensanchada de manera espectral, en el que la señal de ruido modulada está basada en una salida de dicho segundo combinador.
31. El aparato según la reivindicación 30, comprendiendo dicho aparato un generador de ruido configurado para generar la señal de ruido según una función determinista de información en una señal de voz codificada.
32. El aparato según la reivindicación 20, en el que dicho ensanchador de espectro está configurado para ensanchar de manera armónica el espectro de una señal muestreada de manera ascendente que está basada en la señal codificada de excitación de banda baja.
33. El aparato según la reivindicación 20, comprendiendo dicho aparato un aplanador espectral configurado para aplanar de manera espectral al menos una de entre la señal ensanchada de manera espectral y la señal de excitación de banda alta.
34. El aparato según la reivindicación 33, en el que dicho aplanador espectral está configurado para calcular una pluralidad de coeficientes de filtro en función de una señal que va a aplanarse de manera espectral y para filtrar la señal que va a aplanarse de manera espectral con un filtro blanqueador configurado según la pluralidad de coeficientes de filtro.
35. El aparato según la reivindicación 34, en el que dicho aplanador espectral está configurado para calcular la pluralidad de coeficientes de filtro en función de un análisis de predicción lineal de la señal que va a aplanarse de manera espectral.
36. El aparato según la reivindicación 20, comprendiendo dicho aparato al menos uno de (i) un codificador de voz de banda alta configurado para codificar una señal de voz de banda alta según la señal de excitación de banda alta y (ii) un descodificador de voz de banda alta configurado para descodificar una señal de voz de banda alta según la señal de excitación de banda alta.
37. El aparato según la reivindicación 20, comprendiendo dicho aparato un teléfono celular.
38. El aparato según la reivindicación 20, comprendiendo dicho aparato un dispositivo configurado para transmitir una pluralidad de paquetes compatibles con una versión del Protocolo de Internet, en el que la pluralidad de paquetes describe la señal de excitación de banda estrecha.
39. El aparato según la reivindicación 20, comprendiendo dicho aparato un dispositivo configurado para recibir una pluralidad de paquetes compatibles con una versión del Protocolo de Internet, en el que la pluralidad de paquetes describe la señal de excitación de banda estrecha.
40. El aparato según la reivindicación 20, comprendiendo dicho aparato un teléfono celular.
41. Programa informático que comprende instrucciones ejecutables por ordenador adaptadas para realizar las etapas del procedimiento según cualquiera de las reivindicaciones 1 a 18 cuando el programa informático se ejecuta en un ordenador.
Patentes similares o relacionadas:
SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]
Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]
Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]
Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]
Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]
Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]
Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]
Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]