ALISAMIENTO DE DISCONTINUIDADES ENTRE TRAMAS DE HABLA.

Un procedimiento para suavizar la discontinuidad entre una trama de habla perdida y una trama de habla actual en un dispositivo de comunicación,

que comprende: construir una señal de habla para la trama de habla actual; extraer prototipos de período de pitch a partir de una memoria de pitch dañada con anterioridad a la reconstrucción de la trama de habla perdida, y reconstruir la señal de habla para la trama de habla actual de acuerdo con la una interpolación de forma de onda

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E09163673.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 5775 MOREHOUSE DRIVE SAN DIEGO, CA 92121-1714 ESTADOS UNIDOS DE AMERICA.

Inventor/es: CHOY, EDDIE, LUN, TIK, MANJUNATH, SHARATH, HUANG,PENJUNG.

Fecha de Publicación: 1 de Junio de 2011.

Fecha Solicitud PCT: 18 de Abril de 2001.

Clasificación Internacional de Patentes:

G10L19/00E
G10L21/02 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

Clasificación PCT:

G10L19/00 G10L […] › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L21/02 G10L 21/00 […] › Mejora de la inteligibilidad de la voz, p. ej. reducción de ruido o eliminación de ecos (reducción de efectos de eco en los sistemas de transmisión en línea H04B 3/20; supresión de eco en teléfonos de manos libres H04M 9/08).

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Finlandia, Chipre.

PDF original: ES-2360176_T3.pdf

ALISAMIENTO DE DISCONTINUIDADES ENTRE TRAMAS DE HABLA.

Fragmento de la descripción:

Antecedentes de la Invención

I. Campo de la Invención

La presente invención pertenece en general al campo del procesamiento de habla, y más específicamente a procedimientos y aparatos para compensar los borrados de trama en codificadores de habla de tasa variable.

II. Antecedentes

La transmisión de voz mediante técnicas digitales ha experimentado una difusión, en particular en aplicaciones de radiotelefonía digital y de larga distancia. Esto, a su vez, ha originado interés en cuanto a la determinación de al menos la cantidad de información que puede ser enviada por un canal mientras se mantiene la calidad percibida del habla reconstruida. Si el habla se transmite simplemente mediante muestreo y digitalización, se precisa una tasa de datos del orden de sesenta y cuatro kilobits por segundo (Kbps) para conseguir la calidad de habla de la telefonía analógica convencional. Sin embargo, mediante el uso de análisis de habla, seguido de la codificación adecuada, transmisión y re-síntesis en el receptor, se puede alcanzar una reducción significativa en la tasa de datos.

Los dispositivos para comprimir el habla encuentran uso en muchos campos de las telecomunicaciones. Un ejemplo de campo es el de las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, los teléfonos inalámbricos, radiobúsqueda, bucles inalámbricos locales, telefonía inalámbrica del tipo de los sistemas celulares y de telefonía PCS, telefonía móvil de Protocolo de Internet (IP), y sistemas de comunicación por satélite. Una aplicación particularmente importante consiste en la telefonía inalámbrica para abonados móviles.

Se han desarrollado diversas interfaces sobre-el-aire para sistema de comunicación inalámbrica que incluyen, por ejemplo, acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA), y acceso múltiple por división de código (CDMA). En relación con estos últimos, se han establecido diversos estándares domésticos e internacionales que incluyen, por ejemplo, el Servicio de Teléfono Móvil Avanzado (AMPS), el Sistema Global para Comunicaciones Móviles (GSM), y el Estándar Interim 95 (IS-95). Un sistema ejemplar de comunicación de telefonía inalámbrica es un sistema de acceso múltiple por división de código (CDMA). El estándar IS-95 y sus derivados, el IS-95A, ANSI J-STD-008, IS-95B, los estándares US-95C e IS-2000 propuestos de tercera generación, etc. (mencionados en su conjunto en la presente memoria como IS-95), han sido promulgados por la Telecommunication Industry Association (TIA), y otros cuerpos de normas bien conocidos para especificar el uso de una interfaz sobre-el-aire de CDMA para sistemas de comunicación celular o de telefonía PCS. Sistemas ejemplares de comunicación inalámbrica configurados sustancialmente de acuerdo con el uso del estándar IS-95, han sido descritos en los documentos de Patente U.S. núms. 5.103.459 y 4.901.307.

Los dispositivos que emplean técnicas para comprimir el habla mediante extracción de parámetros que se relacionan con un modelo de generación de habla humana, se denominan codificadores de habla. Un codificador de habla divide la señal de habla entrante en bloques de tiempo, o tramas de análisis. Los codificadores de habla comprenden típicamente un codificador y un descodificador. El codificador analiza la trama de habla entrante para extraer ciertos parámetros relevantes, y a continuación cuantifica los parámetros en una representación binaria, es decir, un conjunto de bits o paquete de datos binarios. Los paquetes de datos son transmitidos por el canal de comunicación hasta un receptor y un descodificador. El descodificador procesa los paquetes de datos, descuantifica los mismos para generar los parámetros, y re-sintetiza las tramas de habla utilizando los parámetros descuantificados.

La función del codificador de habla consiste en comprimir la señal de habla digitalizada en una señal de baja tasa de bit, eliminando todas las redundancias naturales inherentes al habla. La compresión digital se consigue representando la trama de habla de entrada con un conjunto de parámetros, y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de habla de entrada tiene un número de bits Ni, y el paquete de datos producido por el codificador de habla tiene un número de bits N0, el factor de compresión alcanzado por el codificador de habla es Cr = Ni/N0. El reto consiste en conservar la alta calidad de voz del habla descodificada mientras se consigue el factor de compresión objetivo. El rendimiento del codificador de habla depende de (1) lo bien que se realice el modelo de habla, o la combinación del proceso de análisis y síntesis descrito en lo que antecede, y (2) lo bien que se realice el proceso de cuantificación de parámetro a la tasa de bit objetivo de N0 bits por trama. La meta del modelo de habla consiste por lo tanto en capturar la esencia de la señal de habla, o la calidad de la voz objetivo, con un pequeño conjunto de parámetros para cada trama.

Quizás sea más importante en el diseño de un codificador de habla la búsqueda de un buen conjunto de parámetros (incluyendo los vectores) para describir la señal de habla. Un buen conjunto de parámetros requiere un bajo ancho de banda del sistema para la reconstrucción de una señal de habla perceptivamente precisa. El pitch, la potencia de señal, la envolvente (o formantes) espectral, los espectros de amplitud, y los espectros de fase, son ejemplos de parámetros de codificación de habla.

Los codificadores de habla pueden ser implementados como codificadores en el dominio del tiempo, que pretenden capturar la forma de onda de habla en el dominio del tiempo, empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos de habla (típicamente, sub-tramas de 5 milisegundos (ms)) cada vez. Para cada sub-trama, se halla un representante de alta precisión a partir de un espacio de código de claves por medio de varios algoritmos de búsqueda conocidos en el estado de la técnica. Alternativamente, los codificadores de habla pueden ser implementados como codificadores de dominio frecuencial, que pretenden capturar el espectro de habla a corto plazo de la trama de habla entrante con un conjunto de parámetros (análisis), y que emplean un proceso de síntesis correspondiente para volver a crear la forma de onda de habla a partir de parámetros espectrales. El cuantificador de parámetro conserva los parámetros representándolos con representaciones almacenadas de vectores de código, de acuerdo con técnicas de cuantificación conocidas descritas en A. Gersho &

R. M. Gray, Cuantificación de Vector y Compresión de Señal (1992).

Un codificador de habla en el dominio del tiempo bien conocido, es el codificador Predictivo Lineal Excitado por Código (CELP) descrito en L.B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Habla, 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de habla, son retiradas mediante un análisis de predicción lineal (LP), que halla los coeficientes de un filtro formante de corto plazo. La aplicación del filtro de predicción a corto plazo a la trama de habla entrante, genera una señal de residuo de LP, que es además modelada y cuantificada con parámetros de filtro de predicción a largo plazo y un código de claves estocástico consiguiente. De ese modo, la codificación CELP divide la tarea de codificar la forma de onda de habla en el dominio del tiempo, en las tareas separadas de codificación de los coeficientes de filtro a corto plazo de LP y codificación del residuo de LP. La codificación en el dominio del tiempo puede ser llevada a cabo a tasa fija (es decir, utilizando el mismo número de bits, N0 para cada trama), o a tasa variable (en la que se utilizan diferentes tasas de bit para diferentes tipos de contenidos de tramas). Los codificadores de tasa variable intentan utilizar solamente la cantidad de bits necesarios para codificar los parámetros códec a un nivel adecuado para obtener una calidad objetiva. Un ejemplo de codificador CELP de tasa variable ha sido descrito en la Patente U.S. núm.

5.414.796.

Los codificadores en el dominio del tiempo, tal como el codificador CELP, se basan típicamente en un alto número de bits, N0, por trama para conservar la precisión de la forma de onda del habla en el dominio del tiempo. Tales codificadores suministran típicamente una voz excelente, calidad proporcionada... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para suavizar la discontinuidad entre una trama de habla perdida y una trama de habla actual en un dispositivo de comunicación, que comprende:

construir una señal de habla para la trama de habla actual;

extraer prototipos de período de pitch a partir de una memoria de pitch dañada con anterioridad a la reconstrucción de la trama de habla perdida, y

reconstruir la señal de habla para la trama de habla actual de acuerdo con la una interpolación de forma de onda.

2. El procedimiento de acuerdo con la reivindicación 1, en el que la trama de habla perdida comprende una trama de 20 ms, comprendiendo con preferencia 160 muestras.

3. El procedimiento de acuerdo con la reivindicación 1, en el que la señal de habla comprende una señal residual de Predicción Lineal.

4. El procedimiento de acuerdo con la reivindicación 1, en el que la señal de habla está codificada con una de una pluralidad de tasas de bit variables.

5. El procedimiento de acuerdo con la reivindicación 1, en el que, de acuerdo con un modo de codificación de período de pitch prototipo, solamente se codifica un subconjunto de los períodos dentro de cada trama, y la interpolación de forma de onda de los prototipos de período de pitch reconstruye los restantes períodos de la señal de habla.

6. Un aparato para alisar una discontinuidad entre una trama de habla perdida y una trama de habla actual en un dispositivo de comunicación, que comprende:

medios para construir una señal de habla para la trama de habla actual;

medios para extraer prototipos de período de pitch desde una memoria de pitch dañada con anterioridad a la reconstrucción de la trama de habla perdida, y

medios para reconstruir la señal de habla para la trama de habla actual de acuerdo con una interpolación de formas de onda.

7. El aparato de acuerdo con la reivindicación 6, en el que la señal de habla comprende una señal residual de Predicción Lineal.

8. El aparato de acuerdo con la reivindicación 6, en el que la señal de habla se codifica con una de una pluralidad de tasas de bit variables.

9. El aparato de acuerdo con la reivindicación 6, en el que el dispositivo de comunicación comprende un teléfono celular.

10. El aparato de acuerdo con la reivindicación 6, que comprende además medios para codificar solamente un subconjunto de los períodos dentro de cada trama de acuerdo con un procedimiento de codificación de período de pitch prototipo, y medios para reconstruir los períodos restantes de la señal de habla mediante interpolación de forma de onda de los períodos de pitch.

11. El aparato de la reivindicación 6, en el que los medios para la construcción de la señal de habla, los medios para la extracción de los prototipos de período de pitch y los medios para la reconstrucción de la señal de habla, comprenden un procesador.

12. Un medio de almacenamiento que comprende instrucciones que son ejecutables por medio de un procesador para implementar el procedimiento de cualquiera de las reivindicaciones 1 a 5.

Patentes similares o relacionadas:

SISTEMA Y DISPOSITIVO INALÁMBRICO Y PONIBLE PARA REGISTRO, PROCESAMIENTO Y REPRODUCCIÓN DE SONIDOS EN PERSONAS CON DISTROFIA EN EL SISTEMA RESPIRATORIO, del 5 de Marzo de 2020, de ARAGÓN HAN, Daniel: La invención se refiere a un sistema y dispositivo para el registro, procesamiento y reproducción de sonidos en personas con distrofia en el […]

Métodos, aparatos y sistema para codificar y decodificar una señal, del 8 de Enero de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal, que comprende: realizar un proceso de decisión de clasificación sobre una señal de banda de alta frecuencia de una señal […]

Métodos para codificar y decodificar una señal de audio, decodificador de audio y codificador de audio, del 1 de Enero de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un método para codificar una señal de audio, comprendiendo el método: (a) recibir una señal de audio ; (b) generar una señal de audio codificada; […]

Método y aparato para la mejora multisensorial del habla en un dispositivo móvil, del 13 de Noviembre de 2019, de Zhigu Holdings Limited: Un dispositivo móvil de mano, que comprende: un micrófono de conducción de aire que está configurado para convertir ondas acústicas en una señal […]

Método y dispositivo de enriquecimiento espectral, del 14 de Junio de 2019, de Orange: Procedimiento de enriquecimiento del contenido espectral de una señal que tiene un espectro incompleto incluyendo una primera banda espectral, comprendiendo […]

Transposición armónica basada en bloque de sub bandas mejorada, del 22 de Mayo de 2019, de DOLBY INTERNATIONAL AB: Un sistema configurado para generar una señal transpuesta en frecuencia y/o extendida en el tiempo a partir de una señal de entrada de audio, […]

Procedimiento y aparato de procesamiento de señales de voz/audio, del 15 de Mayo de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento de procesamiento de señales de voz/audio, que comprende: cuando una señal de voz/audio conmuta desde una señal de frecuencia ancha a una […]

Sistema y método para emitir y controlar especialmente una señal de audio en un entorno usando una medida de inteligibilidad objetivo, del 27 de Marzo de 2019, de ROBERT BOSCH GMBH: Sistema para emitir una senal de audio en un entorno , comprendiendo el sistema : una fuente de audio para proporcionar la senal de audio, […]