Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento.

Un procedimiento de descodificación de segmentos del habla sordos,

que comprende: recuperar (606) un grupo de ganancias cuantificadas usando índices recibidos asociados a una pluralidad de subtramas;

generar (608) una señal de ruido aleatorio que comprende números aleatorios asociados a cada una de la pluralidad de subtramas; seleccionar (608) un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio asociados a cada una de la pluralidad de subtramas; ajustar a escala (610) los números aleatorios de mayor amplitud seleccionados por las ganancias recuperadas asociadas a cada subtrama para producir una señal de ruido aleatorio ajustada a escala. filtrar (612) un paso banda y conformar la señal de ruido aleatorio ajustada a escala; y

seleccionar (616) un segundo filtro basado en un indicador de selección de filtros recibidos y conformar además la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E08001922.

Solicitante: QUALCOMM INCORPORATED.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 5775 MOREHOUSE DRIVE SAN DIEGO CA 92121-1714 ESTADOS UNIDOS DE AMERICA.

Inventor/es: HUANG,PENGJUN.

Fecha de Publicación: 14 de Marzo de 2012.

Clasificación Internacional de Patentes:

G10L11/06
G10L19/04 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › utilizando técnicas de predicción.
G10L19/06 G10L 19/00 […] › Determinación o codificación de las características del espectro, p. ej. de los coeficientes de predicción a corto plazo.
G10L19/08 G10L 19/00 […] › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.
G10L19/12 G10L 19/00 […] › Determinación o codificación de una excitación de código, p. ej. en codificadores vocales de predicción lineal excitados por código [CELP].
G10L19/14
H03M7/30 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03M CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO, EN GENERAL (por medio de fluidos F15C 4/00; convertidores ópticos analógico/digitales G02F 7/00; codificación, decodificación o conversión de código especialmente adaptada a aplicaciones particulares, ver las subclases apropiadas, p. ej. G01D, G01R, G06F, G06T, G09G, G10L, G11B, G11C, H04B, H04L, H04M, H04N; cifrado o descifrado para la criptografía o para otros fines que implican la necesidad de secreto G09C). › H03M 7/00 Conversión de un código, en el cual la información está representada por una secuencia dada o por un número de dígitos, en un código en el cual la misma información está representada por una secuencia o por un número de dígitos diferentes. › Compresión (análisis-síntesis de la voz para reducción de redundancia G10L 19/00; para transmisión de imágenes H04N ); Expansión; Supresión de datos innecesarios, p. ej. reducción de redundancia.

PDF original: ES-2380962_T3.pdf

Fragmento de la descripción:

Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento Antecedentes I. Campo de la invención Las realizaciones dadas a conocer se refieren al campo del procesamiento del habla. Más en particular, las realizaciones dadas a conocer se refieren a un procedimiento y un aparato novedosos y mejorados para codificación de baja tasa de transmisión de bits de segmentos sordos del habla.

II. Antecedentes La transmisión de voz mediante técnicas digitales se ha generalizado, en particular en aplicaciones telefónicas de radio digital y larga distancia. Esto, a su vez, ha creado interés en determinar la mínima cantidad de información que puede enviarse a través de un canal mientras se mantiene la calidad percibida del habla reconstruida. Si el habla se transmite simplemente muestreando y digitalizando, se requiere una tasa de transmisión de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir la calidad del habla del teléfono analógico convencional. Sin embardo, mediante el uso del análisis del habla, seguido por la codificación, transmisión y resíntesis apropiadas en el receptor, puede conseguirse una reducción significativa en la tasa de transmisión de datos.

Los dispositivos que emplean técnicas para comprimir el habla extrayendo parámetros que se refieren a un modelo de generación del habla humana se denominan codificadores del habla. Un codificador del habla divide la señal de habla entrante en bloques de tiempo, o tramas de análisis. Los codificadores del habla comprenden normalmente un codificador y un descodificador, o un códec. El codificador analiza la trama de habla entrante para extraer ciertos parámetros pertinentes, y entonces cuantifica los parámetros en una representación binaria, es decir, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten a través del canal de comunicación a un receptor y un descodificador. El descodificador procesa los paquetes de datos, los descuantifica para producir los parámetros, y entonces resintetiza las tramas de habla utilizando los parámetros descuantificados.

La función del codificador del habla es comprimir la señal de habla digitalizada en una señal de baja tasa de transmisión de bits eliminando todas las redundancias naturales intrínsecas del habla. La compresión digital se consigue representando la trama de habla de entrada con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de habla de entrada tiene un número de bits N1 y el paquete de datos producido por el codificador del habla tiene un número de bits N0, el factor de compresión conseguido por el codificador del habla es Cr = N1/N0. El reto es mantener una alta calidad de voz del habla descodificada mientras se consigue el factor de compresión objetivo. El rendimiento de un codificador del habla depende de (1) cómo de bien se realice el modelo del habla, o la combinación del proceso de análisis y síntesis descrito anteriormente, y (2) cómo de bien se realice el proceso de cuantificación de parámetros a la tasa de transmisión de bits objetivo de N0 bits por trama. Por tanto, el objetivo del modelo del habla es capturar la esencia de la señal de habla, o la calidad de voz objetivo, con un pequeño conjunto de parámetros para cada trama.

Los codificadores del habla pueden implementarse como codificadores en el dominio del tiempo, que intentan capturar la forma de onda del habla en el dominio del tiempo empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos del habla (normalmente subtramas de 5 milisegundos (ms) ) cada vez. Para cada subtrama, se encuentra una alta precisión representativa de un espacio de libro de código por medio de diversos algoritmos de búsqueda conocidos en la técnica. Como alternativa, los codificadores del habla pueden implementarse como codificadores en el domino de la frecuencia, que intentan capturar el espectro del habla a corto plazo de la trama de habla de entrada con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la forma de onda del habla a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según técnicas de cuantificación conocidas descritas en A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992) .

Un codificador del habla en el dominio del tiempo ampliamente conocido es el codificador Predictivo Lineal Excitado por Código (CELP) descrito en L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978) , que está incorporado en su totalidad en el presente documento por referencia. En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de habla se eliminan mediante un análisis de predicción lineal (LP) , que encuentra los coeficientes de un filtro formante a corto plazo. Aplicar el filtro de predicción a corto plazo a la trama de habla entrante genera una señal de residuo LP, que se modela y cuantifica adicionalmente con parámetros de filtro de predicción a largo plazo y un libro de código estocástico posterior. Por tanto, la codificación CELP divide la tarea de codificar la forma de onda del habla en el dominio del tiempo en las tareas separadas de codificación de los coeficientes de filtro a corto plazo LP y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una tasa fija (es decir, utilizando el mismo número de bits, N0, para cada trama) o a una tasa variable (en la que se utilizan diferentes tasas de transmisión de bits para diferentes tipos de contenidos de trama) . Los codificadores de tasa variable intentan utilizar sólo la cantidad de bits necesaria para codificar los parámetros de códec a un nivel adecuado para obtener una calidad objetivo. Un codificador CELP de tasa variable ejemplar se describe en la patente estadounidense nº 5.414.796, que está transferida al cesionario de las realizaciones dadas a conocer actualmente e incorporada en su totalidad en el presente documento por referencia.

Los codificadores en el dominio del tiempo tales como el codificador CELP se basan normalmente en un alto número de bits, N0, por trama para conservar la precisión de la forma de onda del habla en el dominio del tiempo. Normalmente tales codificadores proporcionan una calidad de voz excelente dado el número de bits, N0, por trama relativamente grande (por ejemplo, 8 kbps o superior) . Sin embargo, a bajas tasas de transmisión de bits (4 kbps e inferiores) , los codificadores en el dominio del tiempo no conservan la alta calidad y el rendimiento robusto debido al número limitado de bits disponibles. A bajas tasas de transmisión de bits, el espacio de libro de código limitado recorta la capacidad de ajuste de forma de onda de codificadores en el dominio del tiempo convencionales, que se utilizan tan satisfactoriamente en aplicaciones comerciales de tasa superior.

Normalmente, los esquemas CELP emplean un filtro de predicción a corto plazo (STP) y un filtro de predicción a largo plazo (LTP) . Se emplea un enfoque de Análisis por Síntesis (AbS) en un codificador para encontrar los retardos y ganancias LTP, así como los mejores índices y ganancias de libro de código estocástico. Los codificadores CELP del estado de la técnica actual tales como el Codificador de Tasa Variable Mejorada (EVRC) pueden conseguir habla sintetizada de buena calidad a una tasa de transmisión de datos de aproximadamente 8 kilobits por segundo.

También se conoce que el habla sorda no muestra periodicidad. El ancho de banda consumido que codifica el filtro LTP en los esquemas CELP convencionales no se utiliza tan eficazmente para habla sorda como para habla sonora, en la que la periodicidad del habla es fuerte y el filtrado LTP es significativo. Por lo tanto, es deseable un esquema de codificación más eficaz (es decir tasa de transmisión de bits inferior) para habla sorda.

Para codificar a tasas de transmisión de bits inferiores, se han desarrollado diversos procedimientos de codificación espectral del habla, o en el dominio de la frecuencia, en los que la señal de habla se analiza como una evolución variable en el tiempo de espectros. Véase, por ejemplo, R.J. McAulay & T.F. Quatieri, Sinusoidal, Coding, in Speech Coding and Synthesis ch. 4 (W.B. Kleijn & K.K. Paliwal eds., 1995) . En codificadores espectrales, el objetivo es modelar, o predecir, el espectro del habla a corto plazo de cada trama de entrada de habla con un conjunto... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento de descodificación de segmentos del habla sordos, que comprende: recuperar (606) un grupo de ganancias cuantificadas usando índices recibidos asociados a una pluralidad de subtramas;

generar (608) una señal de ruido aleatorio que comprende números aleatorios asociados a cada una de la pluralidad de subtramas; seleccionar (608) un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio asociados a cada una de la pluralidad de subtramas; ajustar a escala (610) los números aleatorios de mayor amplitud seleccionados por las ganancias recuperadas asociadas a cada subtrama para producir una señal de ruido aleatorio ajustada a escala. filtrar (612) un paso banda y conformar la señal de ruido aleatorio ajustada a escala; y. seleccionar (616) un segundo filtro basado en un indicador de selección de filtros recibidos y conformar además la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.

2. El procedimiento de la reivindicación 1, que comprende además filtrar el ruido aleatorio ajustado a escala.

3. El procedimiento de la reivindicación 1, en el que la pluralidad de subtramas comprenden divisiones de diez subtramas por trama de habla sorda codificada.

4. El procedimiento de la reivindicación 1, en el que la pluralidad de subtramas comprende divisiones de ganancias de subtrama divididas en subgrupos.

5. El procedimiento de la reivindicación 4, en el que los subgrupos comprenden dividir un grupo de diez ganancias 20 de subtrama en dos grupos de cinco ganancias de subtrama cada una.

6. El procedimiento de la reivindicación 3, en el que la trama de habla sorda codificada comprende 160 muestras por trama muestreadas a ocho kilohercios por segundo durante 20 milisegundos.

7. El procedimiento según la reivindicación 1, en el que el porcentaje predeterminado de números aleatorios de mayor amplitud es del veinticinco por ciento.

8. El procedimiento según la reivindicación 4, en el que dos factores de normalización se recuperan para dos subgrupos de cinco ganancias de subtrama cada uno.

9. Un descodificador (214) para descodificar segmentos de habla sorda, que comprende: medios para recuperar un grupo de ganancias cuantificadas usando índices recibidos para una pluralidad de subtramas;

medios para generar una señal de ruido aleatorio que comprende números aleatorios para cada una de la pluralidad de subtramas; medios para seleccionar un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio para cada una de la pluralidad de subtramas; y medios para ajustar a escala los números aleatorios de mayor amplitud seleccionados mediante las ganancias recuperadas para cada subtrama para producir una señal de ruido aleatorio ajustada a escala. medios para filtrado paso banda y conformar la señal de ruido aleatorio ajustada a escala. medios para seleccionar un segundo filtro basado en un indicador de selección de filtros recibidos y además ajustar a escala la señal de ruido aleatorio con el filtro seleccionado.

10. El descodificador (214) de la reivindicación 9, que comprende medios para filtrar adicionalmente el ruido 40 aleatorio ajustado a escala.

11. El descodificador (214) de la reivindicación 9, en el que los medios para seleccionar un porcentaje predeterminado de los números aleatorios de mayor amplitud de la señal de ruido aleatorio comprenden medios para seleccionar el veinticinco por ciento de los números aleatorios de mayor amplitud.

12. El descodificador (214) de la reivindicación 9, en el que dichos medios se expresan como: 45 un descuantificador (406) de ganancia configurado para recuperar dicho grupo de ganancias cuantificadas,

usando los índices recibidos para dicha pluralidad de subtramas;

un generador (402) de números aleatorios configurado para generar dicha señal de ruido aleatorio, que comprende números aleatorios para cada uno de la pluralidad de subtramas;

un selector (404) de números aleatorios configurado para seleccionar dicho porcentaje predeterminado de los 5 números aleatorios de mayor amplitud de la señal de ruido aleatorio para cada una de la pluralidad de subtramas;

un selector de números aleatorios y multiplicador (405) configurado a escala de los números aleatorios de mayor amplitud seleccionados por las ganancias recuperadas para cada subtrama, para producir dicha señal de ruido aleatorio ajustada a escala.

un filtrado (407) paso banda y un primer filtro de conformación (409) para filtrar y conformar la señal de ruido aleatorio ajustada a escala; y un segundo filtro de conformación (410) configurado para seleccionar dicho segundo filtro basado en un indicador de selección de filtros y la configuración adicional de la señal de ruido aleatorio ajustada a escala con el filtro seleccionado.

13. El descodificador de la reivindicación 12, que comprende un postfiltro (414) configurado para filtrar adicionalmente el ruido aleatorio ajustado a escala.

14. El descodificador de la reivindicación 12, en el que el selector (404) de números aleatorios configurado para seleccionar un porcentaje predeterminado de números aleatorios de mayor amplitud de la señal de ruido aleatorio está configurado además para seleccionar el 25% de números aleatorios de mayor amplitud.

Patentes similares o relacionadas:

Decodificación de audio estéreo paramétrico, del 9 de Enero de 2019, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor para desmultiplexar un flujo de bits para obtener una señal mono y parámetros de amplitud estéreo; […]

Receptor y método para decodificar flujo de datos codificado estéreofónico paramétrico, del 20 de Septiembre de 2017, de DOLBY INTERNATIONAL AB: Receptor, que comprende: un demultiplexor configurado para extraer una señal monofónica codificada y parámetros de amplitud estereofónica […]

Método de codificación, método de descodificación, codificador, descodificador, programa y medio de grabación, del 29 de Marzo de 2017, de NIPPON TELEGRAPH AND TELEPHONE CORPORATION: Un método de codificación de voz o de señales acústicas que comprende adquirir códigos correspondientes a residuos de predicción obtenidos según […]

Dispositivo de codificación de sonido y procedimiento de codificación de sonido, del 25 de Enero de 2017, de III Holdings 12, LLC: Un aparato de codificación de voz que comprende: una sección de análisis de parámetro de predicción que calcula una diferencia de retardo y una relación […]

Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas, del 2 de Febrero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio adaptado para codificar tramas de una señal de audio muestreada para obtener tramas codificadas, en el que una […]

Codificador y descodificador de audio para codificar y descodificar muestras de audio, del 6 de Enero de 2016, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de audio para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro […]

Códec de audio sin pérdidas escalable y herramienta de autoría, del 6 de Mayo de 2015, de DTS, INC: Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin […]

Codificador de extensión de ancho de banda, descodificador de extensión de ancho de banda y vocoder de fase, así como métodos correspondientes y programa de computadora, del 25 de Marzo de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un codificador de extensión de ancho de banda para codificar una señal de audio , la señal de audio que comprende una señal […]