FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Un flujo de bits que representa una señal de audio, que comprende información principal codificada para una trama actual (740) que hace referencia a un segmento de una trama previa;

e información codificada redundante (760), caracterizado porque se selecciona el segmento de una trama previa para ser utilizado en la descodificación de la trama actual; y la información codificada redundante es para descodificar la trama actual, la información codificada redundante comprendiendo información del histórico de señal asociada con el segmento de referencia de la trama previa

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/012686.

Solicitante: MICROSOFT CORPORATION.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: ONE MICROSOFT WAY REDMOND, WASHINGTON 98052-6399 ESTADOS UNIDOS DE AMERICA.

Inventor/es: WANG, TIAN, KOISHIDA, KAZUHITO, CHEN,WEI-GE, KHALIL,Hosam A, SUN,Xiaoqin.

Fecha de Publicación: 6 de Mayo de 2011.

Fecha Solicitud PCT: 5 de Abril de 2006.

Clasificación Internacional de Patentes:

G10L19/00E

Clasificación PCT:

G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
G10L19/08 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2358213_T3.pdf

Ilustración 1 de FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Ilustración 2 de FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Ilustración 3 de FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Ilustración 4 de FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Ilustración 5 de FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

FLUJO REDUNDANTE DE BITS DE AUDIO Y MÉTODOS DE PROCESAMIENTO DE FLUJO DE BITS DE AUDIO.

Fragmento de la descripción:

Las técnicas y herramientas descritas se refieren a códecs (codificadores-descodificadores), y a codificación sub-banda, tablas de código, y/o codificación redundante.

ANTECEDENTES 5

Con el surgimiento de las redes de telefonía inalámbrica digital, las emisiones de audio en tiempo real sobre la red Internet, y la telefonía de Internet, el procesamiento digital y la distribución de la voz se han hecho habituales. Los ingenieros utilizan una variedad de técnicas para procesar eficientemente la voz manteniendo al mismo tiempo la calidad. Para comprender estas técnicas, resulta de ayuda comprender cómo la información de audio es representada y procesada en un ordenador. 10

I. Representación de la Información de Audio en un Ordenador

Un ordenador procesa información de audio como una serie de números que representan el audio. Un solo número puede representar una muestra de audio, que es un valor de amplitud en un momento concreto. Diversos factores afectan a la calidad del audio, incluyendo la profundidad de la muestra y la velocidad de muestreo.

La profundidad de la muestra (o precisión) indica el rango de números utilizados para representar una muestra. Más 15 valores posibles para cada muestra producen habitualmente una salida de calidad superior, debido a que pueden ser representadas variaciones más sutiles en la amplitud. Una muestra de ocho bits tiene 256 posibles valores, mientras que una muestra de 16 bits tiene 65 536 posibles valores.

La velocidad de muestreo (medida habitualmente como el número de muestras por segundo) afecta asimismo a la calidad. Cuanto mayor es la velocidad de muestreo, mayor es la calidad debido a que pueden ser representadas 20 más frecuencias de sonido. Algunas velocidades de muestreo habituales son 8000, 11 025, 22 050, 32 000, 44 100, 48 000 y 96 000 muestras/segundo (Hz). La tabla 1 muestra varios formatos de audio con diferentes niveles de calidad, junto con los correspondientes costes de velocidad binaria en bruto.

Tabla 1: Velocidades binarias para audio de diferentes calidades

Profundidad de la Muestra (bits/muestra)

Velocidad de Muestreo (muestras/segundo)

Modo del Canal

Velocidad binaria en Bruto (bits/segundo)

8 000

mono

64 000

11 025

mono

88 200

44 100

estéreo

1 411 200

Tal como muestra la tabla 1, el coste del audio de alta calidad es una velocidad binaria elevada. La información de audio de alta calidad consume grandes cantidades de almacenamiento informático y de capacidad de transmisión. Muchos ordenadores y redes informáticas carecen de los recursos para procesar el audio digital en bruto. La compresión (denominada asimismo codificación o cifrado) reduce el coste de almacenar y transmitir información de 30 audio, convirtiendo la información en una versión con velocidad binaria menor. La compresión puede ser sin pérdidas (en la cual no sufre la calidad) o con pérdidas (en la cual sufre la calidad, pero la reducción de la velocidad binaria a partir de la compresión sin pérdidas subsiguiente, es más dramática). La descompresión (denominada asimismo descodificación) extrae una versión reconstruida de la información original, a partir de la forma comprimida. Un códec es un sistema de codificador/descodificador. 35

II. Codificadores y Descodificadores de Voz

Un objetivo de la compresión de audio es representar digitalmente señales de audio para proporcionar una calidad de señal máxima para una cantidad de bits dada. Dicho de otra forma, este objetivo consiste en representar las

señales de audio con los mínimos bits para un nivel de calidad dado. Otros objetivos tales como la resistencia a errores de transmisión y la limitación del retardo global debido a la codificación/transmisión/descodificación, son de aplicación en algunos escenarios.

Diferentes clases de señales de audio tienen características diferentes. La música se caracteriza por rangos grandes de frecuencias y amplitudes, y a menudo incluye dos o más canales. Por otra parte, la voz se caracteriza por rangos 5 menores de frecuencias y amplitudes, y habitualmente se representa en un solo canal. Ciertos códecs y técnicas de procesamiento están adaptados para música y audio en general; otros códecs y técnicas de procesamiento están adaptados para voz.

Un tipo de códec de voz convencional utiliza predicción lineal para conseguir compresión. La codificación de la voz comprende varias etapas. El codificador halla y cuantifica coeficientes para un filtro de predicción lineal, que se 10 utiliza para predecir valores de muestra como combinaciones lineales de valores de muestra precedentes. Una señal residual (representada como una señal de "excitación") indica partes de la señal original no predichas con precisión mediante el filtrado. En algunas etapas, el códec de voz utiliza diferentes técnicas de compresión para segmentos con voz (caracterizados por la vibración de las cuerdas vocales), segmentos sin voz, y segmentos de silencio, puesto que las diferentes clases de discurso hablado tienen características diferentes. Habitualmente, los segmentos 15 con voz presentan patrones de expresión de la voz muy repetitivos, incluso en el dominio residual. Para segmentos con voz, el codificador consigue más compresión comparando la señal residual actual con ciclos residuales previos, y codificando la señal residual actual en términos de información de retardo o desfase relativa a los ciclos previos. El codificador trata otras discrepancias entre la señal original y la representación codificada, predicha, utilizando tablas de código diseñadas especialmente. 20

Muchos códecs de voz explotan de algún modo la redundancia temporal en una señal. Tal como se ha mencionado anteriormente, un método común utiliza predicción a largo plazo de parámetros de paso para predecir una señal de excitación actual en términos de retardo o desfase relativos a ciclos de excitación previos. Explotar la redundancia temporal puede mejorar sensiblemente la eficiencia de la compresión en términos de calidad y velocidad binaria, pero al coste de introducir en el códec una dependencia con la memoria (un descodificador depende de una parte, 25 descodificada previamente, de la señal para descodificar correctamente otra parte de la señal). Muchos códecs de voz eficientes tienen una dependencia significativa con la memoria.

Aunque los códecs de voz como los descritos anteriormente tienen un buen rendimiento global para muchas aplicaciones, tienen varios inconvenientes. En concreto, aparecen varios inconvenientes cuando los códecs de voz son utilizados junto con recursos de red dinámicos. En dichos escenarios, la voz codificada puede perderse debido a 30 una escasez temporal del ancho de banda, o a otros problemas.

A. Códecs de Banda Estrecha y de Banda Ancha

Muchos códecs de voz estándar fueron diseñados para señales de banda estrecha con una velocidad de muestreo de ocho kHz. Si bien la velocidad de muestreo de ocho kHz es adecuada en muchas situaciones, en otras situaciones pueden ser deseable velocidades de muestreo superiores, tal como para representar frecuencias 35 superiores.

Habitualmente, las señales de voz con velocidades de muestreo de, por lo menos, 16 kHz se denominan voz de banda ancha. Si bien estos códecs de banda ancha son deseables para representar patrones de voz de alta frecuencia, habitualmente requieren velocidades binarias superiores que los códecs de banda estrecha. Dichas velocidades binarias pueden no ser factibles en algunos tipos de redes o bajo ciertas condiciones de la red. 40

B. Dependencia Ineficiente de la Memoria en Condiciones de Red Dinámicas

Cuando la voz codificada está fallando, tal como por haberse perdido, retrasado, deteriorado o hacerse inutilizable por otra razón en el tránsito o en cualquier otro lugar, el rendimiento de los códecs de voz puede verse afectado debido a la dependencia de la memoria con la información perdida. La pérdida de información por una señal de excitación dificulta la reconstrucción posterior que depende de la señal perdida. Si se han perdido ciclos anteriores, 45 la información de desfase puede no ser útil, puesto que apunta a información que el descodificador... [Seguir leyendo]

Reivindicaciones:

1. Un flujo de bits que representa una señal de audio, que comprende

información principal codificada para una trama actual (740) que hace referencia a un segmento de una trama previa; e

información codificada redundante (760), 5

caracterizado porque

se selecciona el segmento de una trama previa para ser utilizado en la descodificación de la trama actual; y

la información codificada redundante es para descodificar la trama actual, la información codificada redundante comprendiendo información del histórico de señal asociada con el segmento de referencia de la trama previa.

2. El flujo de bits de la reivindicación 1, en el que la información principal codificada y la información redundante son 10 codificadas de acuerdo con una técnica de codificación.

3. El flujo de bits de la reivindicación 1, en el que la información del histórico de señal comprende un histórico de excitación para el segmento de referencia, pero no un histórico de excitación para uno o más segmentos a los que no se hace referencia, de la trama previa.

4. El flujo de bits de la reivindicación 1, en el que la información del histórico de señal se codifica a un nivel de 15 calidad ajustado dependiendo, por lo menos en parte, de la probabilidad de utilización de la información codificada redundante, en la descodificación de la trama actual.

5. Un método para el procesamiento de un flujo de bits que representa una señal de audio, en una herramienta de procesamiento de audio, que comprende la etapa de:

- codificar información principal para una trama actual que hace referencia a un segmento de una trama 20 previa a utilizar en la descodificación de la trama actual; y además caracterizado por las etapas de:

- codificar información redundante para descodificar la trama actual, la información codificada redundante comprendiendo información del histórico de señal asociada con el segmento de referencia de la trama previa; y

- entregar un resultado. 25

6. El método de la reivindicación 5, en el que la información principal y la información redundante son codificadas de acuerdo con una técnica de codificación.

7. El método de la reivindicación 5, en el que la herramienta de procesamiento de audio es un codificador de voz en tiempo real, y el resultado es la voz codificada.

8. El método de la reivindicación 5, en el que la información del histórico de señal comprende un histórico de 30 excitación para el segmento de referencia, pero no un histórico de excitación para uno o más segmentos a los que no se hace referencia, de la trama previa.

9. El método de cualquiera de las reivindicaciones 5 a 8, en el que la información del histórico de señal se codifica a un nivel de calidad ajustado dependiendo, por lo menos en parte, de la probabilidad de utilización de la información codificada redundante, en la descodificación de la trama actual. 35

10. Un método para el procesamiento de un flujo de bits que representa una señal de audio, en una herramienta de procesamiento de audio, que comprende las etapas de:

- descodificar información principal codificada, para una trama actual que hace referencia a un segmento de una trama previa a utilizar en la descodificación de la trama actual; y además caracterizado por la etapa de: 40

- descodificar información codificada redundante, para descodificar la trama actual, la información codificada redundante comprendiendo información del histórico de señal asociada con el segmento de referencia de la trama previa; y

- entregar un resultado.

11. El método de la reivindicación 10, en el que la información principal codificada y la información codificada redundante, son codificadas de acuerdo con una técnica de codificación.

12. El método de la reivindicación 10, en el que la herramienta de procesamiento de audio es un descodificador de voz, y en el que el procesamiento comprende utilizar la información codificada redundante en la descodificación de 5 la trama actual esté, o no, disponible para el descodificador la trama previa.

13. El método de la reivindicación 10, en el que la herramienta de procesamiento de audio es un descodificador de voz, y en el que el procesamiento comprende utilizar la información codificada redundante, en la descodificación de la trama actual, solamente si la trama previa no está disponible para el descodificador.

14. El flujo de bits de la reivindicación 10, en el que la información del histórico de señal se codifica a un nivel de 10 calidad ajustado dependiendo, por lo menos en parte, de la probabilidad de utilización de la información codificada redundante, en la descodificación de la trama actual.

15. El método de la reivindicación 10, en el que la herramienta de procesamiento de audio es un descodificador de voz, y en el que el procesamiento comprende utilizar la información codificada redundante en la descodificación de la trama previa, cuando la trama previa no está disponible para el descodificador. 15

Patentes similares o relacionadas:

MÉTODO DE TRATAMIENTO DE SEÑALES, APARATO DE TRATAMIENTO Y DESCODIFICADOR DE VOZ, del 13 de Febrero de 2012, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de tratamiento de señales para tratar una señal sintetizada en ocultación de pérdida de paquetes, que comprende: recibir una trama buena a continuación de una […]

SÍNTESIS DE BLOQUES PERDIDOS DE UNA SEÑAL AUDIO-DIGITAL, del 26 de Julio de 2011, de FRANCE TELECOM: Método de síntesis de una señal audio-digital representado por bloques sucesivos de muestras, en donde, a la recepción de dicha señal, para sustituir al menos un bloque no […]

ALISAMIENTO DE DISCONTINUIDADES ENTRE TRAMAS DE HABLA, del 1 de Junio de 2011, de QUALCOMM INCORPORATED: Un procedimiento para suavizar la discontinuidad entre una trama de habla perdida y una trama de habla actual en un dispositivo de comunicación, que comprende: […]

PROCEDIMIENTO Y DISPOSITIVO DE RECONSTRUCCION ESPECTRAL DE UNA SEÑAL DE AUDIO, del 24 de Septiembre de 2010, de FRANCE TELECOM: Procedimiento de codificación de una señal de audio, en el que una parte del espectro de frecuencia de la señal de audio es codificada con un codificador de limitación de banda […]

METODO Y APARATO PARA OBTENER UN FACTOR DE ATENUACION, del 11 de Junio de 2010, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes, cuyo método comprende: obtener una tendencia al […]

METODO Y DISPOSITIVO PARA REALIZAR UNA OCULTACION DE TRAMAS BORRADAS EN UNA SEÑAL DE BANDA SUPERIOR, del 16 de Noviembre de 2009, de HUAWEI TECHNOLOGIES CO., LTD.: Método para realizar una ocultación de tramas borradas en una señal de banda superior, que comprende: calcular una intensidad periódica de la señal de banda […]

Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]

Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]