Codificación de una señal de voz y procesamiento de una señal de voz codificada.

Un procedimiento de codificación de tramas de una señal de voz,

comprendiendo dicho procedimiento:

producir (T110) una primera trama codificada que esté basada en una primera trama de la señal de voz ytenga una longitud de p bits, siendo p un entero positivo distinto de cero;

producir (T120) una segunda trama codificada que esté basada en una segunda trama de la señal de voz ytenga una longitud de q bits, siendo q un entero positivo distinto de cero y distinto de p; y

producir (T130) una tercera trama codificada que esté basada en una tercera trama de la señal de voz ytenga una longitud de r bits, siendo r un entero positivo distinto de cero menor que q,

en el que la segunda trama es una trama inactiva que aparece después de la primera trama,

en el que la tercera trama es una trama inactiva que aparece después de la segunda trama,

en el que todas las tramas de la señal de voz entre las tramas primera y tercera son inactivas, y

en el que la segunda trama codificada incluye (A) una descripción de una envolvente espectral, en unaprimera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama y (B) unadescripción de una envolvente espectral, en una segunda banda de frecuencias distinta de la primerabanda de frecuencias, de una porción de la señal de voz que incluye la segunda trama.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2007/074886.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: Attn: International IP Administration 5775 Morehouse Drive San Diego, CA 92121 ESTADOS UNIDOS DE AMERICA.

Inventor/es: KANDHADAI,ANANTHAPADMANABHAN,A, RAJENDRAN,VIVEK.

Fecha de Publicación: 7 de Junio de 2013.

Clasificación Internacional de Patentes:

G10L19/24 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Codecs de frecuencia variable, p. ej. para generar diferentes calidades utilizando una representación escalable como una codificación jerárquica o en capas.
G10L21/038 G10L […] › G10L 21/00 Tratamiento de la señal de la voz para producir otra señal audible o no audible, p. ej. visual o táctil, con el fin de modificar su calidad o su inteligibilidad (G10L 19/00 tiene prioridad). › utilizando técnicas de extensión de banda.

PDF original: ES-2406681_T3.pdf

Fragmento de la descripción:

Codificación de una señal de voz y procesamiento de una señal de voz codificada La presente invención versa acerca del procesamiento de señales de voz.

La transmisión de la voz mediante técnicas digitales se ha difundido ampliamente, particularmente en la telefonía de larga distancia, en la telefonía conmutada por paquetes tal como la voz sobre IP (también denominada VoIP, denotando IP el protocolo de Internet) y en la radiotelefonía digital como la telefonía celular. Tal proliferación ha creado un interés en reducir la cantidad de información usada para transferir una comunicación de voz por un canal de transmisión mientras se mantiene la calidad percibida de la voz reconstruida.

Los dispositivos que están configurados para comprimir la voz extrayendo parámetros que se relacionan con un modelo de generación de la voz humana, se denominan “cifradores de voz”. Generalmente, un cifrador de voz incluye un codificador y un decodificador. Normalmente, el codificador divide la señal entrante de voz (una señal digital que representa información de audio) en segmentos de tiempo denominados “tramas”, analiza cada trama para extraer ciertos parámetros relevantes y cuantifica los parámetros en una trama codificada. Las tramas codificadas son transmitidas por un canal de transmisión (es decir, una conexión cableada o inalámbrica de red) a un receptor que incluye un decodificador. El decodificador recibe y procesa tramas codificadas, las descuantifica para producir los parámetros y recrea las tramas de voz usando los parámetros descuantificados.

En una conversación típica, cada interlocutor guarda silencio durante aproximadamente el sesenta por ciento del tiempo. Los decodificadores de voz se configuran habitualmente para distinguir las tramas de la señal de voz que contienen voz (“tramas activas”) de las tramas de la señal de voz que contienen solo silencio o ruido de fondo (“tramas inactivas”) . Tal codificador puede configurarse para usar diferentes modos y/o tasas de cifrado para codificar tramas activas e inactivas. Por ejemplo, los codificadores de voz se configuran normalmente para usar menos bits para codificar una trama inactiva que para codificar una trama activa. Un cifrador de voz puede usar una tasa menor de bits para las tramas inactivas para soportar la transferencia de la señal de voz a una menor media tasa de bits con ninguna o poca pérdida percibida de la calidad.

La FIG. 1 de los dibujos adjuntos ilustra un resultado de codificación de una zona de una señal de voz que incluye transiciones entre tramas activas y tramas inactivas. Cada barra de la figura indica una correspondiente trama, indicando la altura de la barra la tasa de bits a la que está codificada la trama, e indicando el tiempo el eje horizontal. En este caso, las tramas activas son codificadas a una tasa de bits mayor rH y las tramas inactivas son codificadas a una tasa de bits menor rL.

Ejemplos de tasa de bits rH incluyen 171 bits por trama, ochenta bits por trama y cuarenta bits por trama; y ejemplos de tasa de bits rL incluyen dieciséis bits por trama. en el contexto de sistemas de telefonía celular (especialmente sistemas que se atienen a la Norma Transitoria (IS) -95 promulgada por la Telecommunications Industr y Association, Arlington, Virginia, o una normal industrial similar) , estas cuatro tasas de bits también se denominan “de tasa máxima”, “de media tasa”, “de un cuarto de tasa” y “de un octavo tasa”, respectivamente. En un ejemplo particular del resultado mostrado en la FIG. 1, la tasa rH es de tasa máxima y la tasa rL es de un octavo de tasa.

Las comunicaciones de voz en la red telefónica pública conmutada (PSTN) han estado limitadas tradicionalmente en el ancho de banda a un intervalo de frecuencias de 300-3400 kilohercios (kHz) . Las redes más recientes para comunicaciones de voz, como las redes que usan telefonía celular y/o VoIP, pueden no tener los mismos límites de ancho de banda, y puede ser deseable para aparatos que usen tales redes que tengan la capacidad de transmitir y recibir comunicaciones de voz que incluyan un intervalo de frecuencias de banda ancha. Por ejemplo, puede ser deseable que tales aparatos soporten un intervalo de frecuencias de audio que baje hasta 50 Hz y/o que suba hasta 7 u 8 kHz. También puede ser deseable que tal aparato soporte otras aplicaciones, como audio de alta calidad o la audio/videoconferencia, la distribución de servicios multimedia como música y/o televisión, etc., que puedan tener un contenido de voz de audio en intervalos fuera de los límites de la PSTN tradicional.

La extensión del intervalo soportado por un cifrador de voz a frecuencias mayores puede mejorar la inteligibilidad. Por ejemplo, la información en una señal de voz que diferencia fricativas como “s” y “f” está en gran medida en las frecuencias elevadas. La extensión a la banda alta también puede mejorar otras calidades de la señal de voz decodificada, tal como la presencia. Por ejemplo, incluso una vocal sonora puede tener energía espectral por encima del intervalo de frecuencias de la PSTN.

Aunque puede resultar deseable que un cifrador de voz soporte un intervalo de frecuencias de banda ancha, también es deseable limitar la cantidad de información usada para transferir una comunicación de voz por el canal de transmisión. Puede configurarse un cifrador de voz para llevar a cabo una transmisión discontinua (DTX) , por ejemplo de modo que se transmitan descripciones por menos de la totalidad de las tramas inactivas de una señal de voz.

El documento EP 1061506 describe un aparato de codificación de voz para codificar a tasa variable entre intervalos con voz y sordos de una señal de voz de entrada. En operación, el aparato divide la señal de voz de entrada en

unidades prefijadas en el eje temporal y verifica si el intervalo sordo es un intervalo de ruido de fondo o un intervalo de voz en función de cambios temporales del nivel de señal y de la envolvente espectral de la unidad prefijada. La asignación de bits de codificación distingue entre parámetros del intervalo de ruido de fondo, parámetros del intervalo de voz y parámetros del intervalo con voz.

Según un aspecto de la presente invención, se proporciona un procedimiento de codificación de tramas de una señal de voz que comprende producir una primera trama codificada que está basada en una primera trama de la señal de voz y que tiene una longitud de p bits, siendo p un entero positivo distinto de cero; producir una segunda trama codificada que está basada en una segunda trama de la señal de voz y que tiene una longitud de q bits, siendo q un entero positivo distinto de cero y distinto de p; y producir una tercera trama codificada que está basada en una tercera trama de la señal de voz y que tiene una longitud de r bits, siendo r un entero positivo distinto de cero menor que q, en el que la segunda trama es una trama activa que aparece después de la primera trama, en el que la tercera trama es una trama inactiva que aparece después de la segunda trama, en el que todas las tramas de la señal de voz entre las tramas primera y tercera son inactivas, y en el que la segunda trama codificada incluye (A) una descripción de una envolvente espectral, en una primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama y (B) una descripción de una envolvente espectral, en una segunda banda de frecuencias distinta de la primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama.

Según otro aspecto de la invención, se proporciona un aparato para codificar tramas de una señal de voz, comprendiendo dicho aparato un medio para producir, con base en una primera trama de la señal de voz, una primera trama codificada que tiene una longitud de p bits, siendo p un entero positivo distinto de cero; un medio para producir, con base en una segunda trama de la señal de voz, una segunda trama codificada que tiene una longitud de q bits, siendo q un entero positivo distinto de cero y distinto de p; y un medio para producir, con base en una tercera trama de la señal de voz, una tercera trama codificada que tiene una longitud de r bits, siendo r un entero positivo distinto de cero menor que q, en el que la segunda trama es una trama inactiva que aparece después de la primera trama, en el que la tercera trama es una trama inactiva que aparece después de la segunda trama, en el que todas las tramas de la señal de voz entre las tramas primera y tercera son inactivas, y en el que el medio para producir una segunda trama codificada está configurado para producir la segunda trama codificada de forma que incluya (A) una descripción... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento de codificación de tramas de una señal de voz, comprendiendo dicho procedimiento:

producir (T110) una primera trama codificada que esté basada en una primera trama de la señal de voz y tenga una longitud de p bits, siendo p un entero positivo distinto de cero;

producir (T120) una segunda trama codificada que esté basada en una segunda trama de la señal de voz y tenga una longitud de q bits, siendo q un entero positivo distinto de cero y distinto de p; y producir (T130) una tercera trama codificada que esté basada en una tercera trama de la señal de voz y tenga una longitud de r bits, siendo r un entero positivo distinto de cero menor que q, en el que la segunda trama es una trama inactiva que aparece después de la primera trama,

en el que la tercera trama es una trama inactiva que aparece después de la segunda trama, en el que todas las tramas de la señal de voz entre las tramas primera y tercera son inactivas, y en el que la segunda trama codificada incluye (A) una descripción de una envolvente espectral, en una primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama y (B) una descripción de una envolvente espectral, en una segunda banda de frecuencias distinta de la primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama.

2. El procedimiento según la reivindicación 1 en el que al menos parte de la segunda banda de frecuencias es más alta que la primera banda de frecuencias.

3. El procedimiento según la reivindicación 2 en el que las bandas de frecuencias primera y segunda se solapan en al menos doscientos hercios.

4. El procedimiento según la reivindicación 1 en el que al menos una entre la descripción de una envolvente espectral en una primera banda de frecuencias y la descripción de una envolvente espectral en una segunda banda de frecuencias se basa en una media de al menos dos descripciones de envolventes espectrales de porciones correspondientes de la señal de voz, incluyendo cada porción correspondiente una trama inactiva de la señal de voz.

5. El procedimiento según la reivindicación 1 en el que la segunda trama codificada se basa en información procedente de al menos dos tramas inactivas de la señal de voz.

6. El procedimiento según la reivindicación 1 en el que la tercera trama codificada (A) incluye una descripción de una envolvente espectral, en una primera banda de frecuencias, de una porción de la señal de voz que incluye la tercera trama y (B) no incluye una descripción de una envolvente espectral en la segunda banda de frecuencias.

7. El procedimiento según la reivindicación 1 en el que la segunda trama codificada incluye una descripción de una envolvente temporal de una porción de la señal de voz que incluye la segunda trama y en el que la tercera trama codificada incluye una descripción de una envolvente temporal de una porción de la señal de voz que incluye la tercera trama.

8. El procedimiento según la reivindicación 1 en el que la segunda trama codificada incluye (A) una descripción de una envolvente temporal, para una primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama y (B) una descripción de una envolvente temporal, para una segunda banda de frecuencias distinta de la primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama, y en el que la tercera trama codificada no incluye una descripción de una envolvente temporal

para la segunda banda de frecuencias.

9. El procedimiento según la reivindicación 1 en el que la longitud de la secuencia más reciente de tramas activas consecutivas con respecto a la segunda trama es al menos igual a un valor umbral predeterminado.

10. Un aparato para codificar tramas de una señal de voz, comprendiendo dicho aparato:

un medio (T110) para producir, con base en una primera trama de la señal de voz, una primera trama 45 codificada que tenga una longitud de p bits, siendo p un entero positivo distinto de cero; un medio (T120) para producir, con base en una segunda trama de la señal de voz, una segunda trama codificada que tenga una longitud de q bits, siendo q un entero positivo distinto de cero y distinto de p; y un medio (T130) para producir, con base en una tercera trama de la señal de voz, una tercera trama codificada que tenga una longitud de r bits, siendo r un entero positivo distinto de cero menor que q,

en el que la segunda trama es una trama inactiva que aparece después de la primera trama, en el que la tercera trama es una trama inactiva que aparece después de la segunda trama, en el que todas las tramas de la señal de voz entre las tramas primera y tercera son inactivas, y en el que el medio para producir una segunda trama codificada está configurado para producir la segunda trama codificada de forma que incluya (A) una descripción de una envolvente espectral, en una primera 55 banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama y (B) una descripción de una envolvente espectral, en una segunda banda de frecuencias distinta de la primera banda de frecuencias, de una porción de la señal de voz que incluye la segunda trama.

11. El aparato de la reivindicación 10 en el que el medio para producir una tercera trama codificada está configurado para producir la tercera trama codificada, de forma que (A) incluya una descripción de una envolvente espectral en la primera banda de frecuencias y (B) no incluya una descripción de una envolvente espectral en la segunda banda de frecuencias.

12. Un producto de programa de ordenador que comprende un medio legible por ordenador, comprendiendo dicho medio un código para hacer que al menos un ordenador lleve a cabo un procedimiento según una cualquiera de las reivindicaciones 1 a 9.

13. Un procedimiento para procesar una señal de voz codificada, comprendiendo dicho procedimiento:

con base en la información procedente de una primera trama codificada de la señal de voz codificada, obtener (T210) una descripción de una envolvente espectral de una primera trama de una señal de voz en (A) una primera banda de frecuencias y (B) una segunda banda de frecuencias diferente de la primera banda de frecuencias;

con base en la información procedente de una segunda trama codificada de la señal de voz codificada, obtener (T220) una descripción de una envolvente espectral de una segunda trama de una señal de voz en la primera banda de frecuencias; y con base en la información procedente de la primera trama codificada, obtener una descripción de una envolvente espectral de la segunda trama en la segunda banda de frecuencias,

en el que la primera trama codificada es codificada según un esquema de codificación de banda ancha, y en el que la segunda trama codificada es codificada según un esquema de codificación de banda estrecha.

14. Un aparato para procesar una señal de voz codificada, comprendiendo dicho aparato:

un medio (T210) para obtener, con base en la información procedente de una primera trama codificada de la señal de voz codificada, una descripción de una envolvente espectral de una primera trama de una señal

de voz en (A) una primera banda de frecuencias y (B) una segunda banda de frecuencias diferente de la primera banda de frecuencias; un medio (T220) para obtener, con base en la información procedente de una segunda trama codificada de la señal de voz codificada, una descripción de una envolvente espectral de una segunda trama de la señal de voz en la primera banda de frecuencias; y

un medio (T230) para obtener, con base en la información procedente de la primera trama codificada, una descripción de una envolvente espectral de la segunda trama en la segunda banda de frecuencias,

estando codificada la primera trama codificada según un esquema de codificación de banda ancha, y estando codificada la segunda trama codificada según un esquema de codificación de banda estrecha.

banda estrecha banda alta disponible para otrouso tipo de voz

esquema de codificación 1: CELPde tasa máxima (171 bits) 153 bits (28 para espectral, 125 para excitación) 16 bits (8 para espectral, 8 para temporal) 2 bits con voz

esquema de codificación 2: NELPde media tasa (80 bits) 47 bits (28 para espectral, 19 parsatemporal) 27 bits (12 para espectral, 15 para temporal) 6 bits sin voz

esquema de codificación 3: NELPde una tasa de un octavo (16 bits) 15 bits (10 para espectral, 5 para temporal) (ningún bit) 1 bit inactiva

FIG. 18A

Patentes similares o relacionadas:

Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario, del 24 de Junio de 2020, de VOICEAGE CORPORATION: Un método de codificación de sonido estéreo para codificar canales izquierdo y derecho de una señal de sonido estéreo, que comprende: mezclar por […]

Estimación de ruido de fondo en señales de audio, del 24 de Junio de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para la estimación de ruido de fondo en un segmento de señal de audio que comprende una pluralidad de subbandas, comprendiendo el método: calcular una […]

Sistema para trasmitir adaptativamente objetos de audio, del 8 de Abril de 2020, de DTS LLC: Un sistema para adaptar la trasmisión de un flujo de audio orientado a objetos, el sistema comprendiendo: un monitor de recursos de red configurado para recibir una solicitud […]

Codificación en capas para representaciones de sonido o de campo sonido comprimidas, del 11 de Marzo de 2020, de DOLBY INTERNATIONAL AB: Procedimiento de decodificación de una representación Ambisonics de orden superior, HOA, comprimida de un sonido o un campo de sonido, […]

Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]

Sintetizador de señales de audio y codificador de señales de audio, del 4 de Marzo de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Sintetizador de señales de audio para generar una señal de audio de síntesis que tiene una primera banda de frecuencia y una segunda banda de frecuencia […]

Decodificación de secuencias de bits de audio con metadatos de replicación de banda espectral mejorada en al menos un elemento de relleno, del 1 de Enero de 2020, de DOLBY INTERNATIONAL AB: Unidad de procesamiento de audio que comprende: una memoria intermedia configurada para almacenar al menos un bloque de una secuencia de bits de audio […]

Codificación y descodificación de una señal de sonido, del 25 de Septiembre de 2019, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un dispositivo de codificación de señales de sonido, que comprende: una primera unidad de codificación que está adaptada para obtener un primer […]