Dispositivo de codificación de audio y método de codificación de audio.
Un aparato de codificación de habla que comprende:
una sección de cálculo (221) que calcula unos valores de correlación en unas posiciones de impulso decandidata usando una señal objetivo y una pluralidad de impulsos que forman un libro de códigos fijo,
y calcula,de una forma por impulsos, unos valores representativos de los impulsos usando los valores máximos de losvalores de correlación; y
una sección de clasificación (222) que clasifica los valores representativos adquiridos de una forma porimpulsos;
caracterizado por
agrupar, la sección de clasificación (222), los impulsos que se corresponden con los valores representativosclasificados en una pluralidad de subconjuntos predeterminados de al menos dos impulsos, y determinar unprimer subconjunto en el que ha de buscarse en primer lugar entre la pluralidad de subconjuntos usando losvalores representativos que se corresponden con los impulsos agrupados; y
una sección de búsqueda (224) que busca en el libro de códigos fijo usando el primer subconjunto y adquiereun código que indica las posiciones y las polaridades de la pluralidad de impulsos para minimizar la distorsiónde codificación.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/JP2008/001999.
Solicitante: PANASONIC CORPORATION.
Nacionalidad solicitante: Japón.
Dirección: 1006, OAZA KADOMA KADOMA-SHI, OSAKA 571-8501 JAPON.
Inventor/es: MORII,TOSHIYUKI.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L19/00 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H).
- G10L19/08 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.
- G10L19/10 G10L 19/00 […] › siendo la función de excitación una excitación de impulsos múltiples.
- G10L19/107 G10L 19/00 […] › Excitación de pulsaciones débiles, p. ej. utilizando libros de códigos algebraico.
- H03M7/30 ELECTRICIDAD. › H03 CIRCUITOS ELECTRONICOS BASICOS. › H03M CODIFICACION, DECODIFICACION O CONVERSION DE CODIGO, EN GENERAL (por medio de fluidos F15C 4/00; convertidores ópticos analógico/digitales G02F 7/00; codificación, decodificación o conversión de código especialmente adaptada a aplicaciones particulares, ver las subclases apropiadas, p. ej. G01D, G01R, G06F, G06T, G09G, G10L, G11B, G11C, H04B, H04L, H04M, H04N; cifrado o descifrado para la criptografía o para otros fines que implican la necesidad de secreto G09C). › H03M 7/00 Conversión de un código, en el cual la información está representada por una secuencia dada o por un número de dígitos, en un código en el cual la misma información está representada por una secuencia o por un número de dígitos diferentes. › Compresión (análisis-síntesis de la voz para reducción de redundancia G10L 19/00; para transmisión de imágenes H04N ); Expansión; Supresión de datos innecesarios, p. ej. reducción de redundancia.
PDF original: ES-2428572_T3.pdf
Fragmento de la descripción:
Dispositivo de codificación de audio y método de codificación de audio
Campo de la técnica La presente invención se refiere a un aparato de codificación de habla y a un método de codificación de habla. En particular, la presente invención se refiere a un aparato de codificación de habla y a un método de codificación de habla para realizar una búsqueda de libro de códigos fijo.
Técnica anterior
En la comunicación móvil, la codificación de compresión para la información digital acerca del habla y las imágenes es esencial para un uso eficiente de las bandas de transmisión. En especial, las expectativas para las técnicas de códec (codificación y descodificación) de habla que se usan ampliamente para los teléfonos móviles son altas, y se demanda una mejora adicional de la calidad de sonido para una codificación de alta eficiencia convencional del rendimiento de alta compresión.
Recientemente, se encuentra en curso la normalización de códec escalonables que tienen una configuración de múltiples capas por, por ejemplo, UIT-T (Unión Internacional de las Telecomunicaciones -Sector de Normalización de las Telecomunicaciones) y MPEG (Moving Picture Expert Group, Grupo de Expertos en Imágenes en Movimiento) , y se demanda un códec de habla más eficiente y de una calidad más alta.
El rendimiento de la técnica de codificación de habla, que ha mejorado de forma significativa mediante el esquema básico “CELP (Code Excited Linear Prediction, Predicción Lineal Excitada por Código) ”, el modelado del sistema vocal del habla y la adopción de una cuantificación de vectores con habilidad, se mejora adicionalmente mediante unas técnicas de excitación fijas usando un pequeño número de impulsos, tal como el libro de códigos algebraico que se divulga en el Documento no de Patente 1. La recomendación G.729 de la UIT-T y la norma AMR (Adaptive Multi-Rate, Múltiples Velocidades Adaptativas) de ETSI (European Telecommunication Standard Institute, Instituto Europeo de Normas de Telecomunicaciones) proponen un códec de CELP representativo usando un libro de códigos algebraico, y se usan ampliamente por todo el planeta.
En el caso de realizar la codificación de habla usando un libro de códigos algebraico, teniendo en cuenta la influencia mutua entre los impulsos que forman el libro de códigos algebraico, es deseable buscar en todas las combinaciones de los impulsos (en lo sucesivo en el presente documento “búsqueda completa”) . No obstante, cuando el número de impulsos aumenta, la cantidad de cálculos que se requieren para una búsqueda aumenta de manera exponencial. Como contraste con esto, el Documento no de Patente 2 divulga, por ejemplo, una búsqueda parcial, una búsqueda por eliminación y una búsqueda de Viterbi como métodos de búsqueda de libro de códigos algebraico para reducir la cantidad de cálculos de forma significativa y mantener sustancialmente el rendimiento en el caso de la búsqueda completa al mismo tiempo.
Entre estas, en especial, la búsqueda parcial es el método más simple que proporciona un efecto de reducción de la cantidad de cálculos de forma significativa. En el presente caso, la búsqueda parcial es el método de dividir un lazo cerrado en una pluralidad de lazos cerrados más pequeños y de realizar una búsqueda de lazo abierto en la 45 pluralidad de lazos cerrados. En esta búsqueda parcial, es posible reducir la cantidad de cálculos de forma significativa de acuerdo con el número de divisiones. Asimismo, la búsqueda parcial se usa en los esquemas de las normas internacionales y en la búsqueda de libro de códigos algebraico de la norma AMR de ETSI, que es el códec convencional de los teléfonos móviles de tercera generación, la búsqueda parcial se realiza después de dividir cuatro impulsos en dos subconjuntos.
Por ejemplo, si hay cuatro impulsos que tienen ocho posiciones de candidata, hay 84 (es decir, 4096) combinaciones de los impulsos que es necesario evaluar, para buscar cuatro impulsos en un lazo cerrado. Como contraste con esto, la norma AMR de ETSI divide cuatro impulsos en dos subconjuntos de dos impulsos y realiza una búsqueda en sus lazos cerrados de forma individual. Por lo tanto, el número de combinaciones de los impulsos que van a 55 evaluarse en la norma AMR de ETSI es 2 x 82 (es decir, 128) , que es una trigésima segunda parte de la cantidad de cálculos en el caso de la búsqueda completa. Además, la evaluación en la norma AMR de ETSI se realiza para dos impulsos, que son menos de cuatro impulsos, de tal modo que la cantidad de cálculos se reduce adicionalmente.
El documento EP 2 116 996 A 1 describe un dispositivo de codificación para realizar una búsqueda de libro de códigos de fuente de sonido fija con una pequeña cantidad de cálculos incluso en una codificación de sonido de velocidad de bits baja sin hacer que baje la eficiencia de la codificación.
Una unidad de cálculo de valores umbral evalúa un valor de correlación de las posiciones de candidata clasificados en cada canal a lo largo de una pluralidad de canales con el fin de identificar la posición de candidata de cada canal 65 y añade los valores de correlación de las posiciones de candidata de los canales respectivos con el fin de obtener un valor umbral. Una unidad de clasificación de posiciones de candidata clasifica las posiciones de candidata de impulso de acuerdo con la correlación entre un sonido combinada de los impulsos dispuestos en una posición de impulso de cada canal y un objetivo de cuantificación.
Una unidad de control de búsqueda realiza un control de tal modo que la búsqueda se realiza en la posición de candidata de impulso clasificada. Si la suma de los valores de correlación que ya se han buscado en el canal en el que ha de buscarse se encuentra por debajo del valor umbral, una señal de control se emite a una unidad de terminación de búsqueda. La unidad de terminal de búsqueda termina la búsqueda en la candidata de posición de impulso por la señal de control introducida a partir de la unidad de control de búsqueda.
Documento no de Patente 1: Salami, Laflamme, Adoul, “8kbit/s ACELP Coding of Speech with 10ms Speech-Frame: a Candidate for CCITT Standardization”, IEEE Proc. ICASSP94, págs. II-97n Documento no de Patente 2: T. Nomura, K. Ozawa, M. Serizawa, “Efficient pulse excitation search methods in CELP”, Proc. of the 1996 spring meeting of the Acoustic Society of Japan. 2-P-5, págs. 311-312, marzo de 1996
Divulgación de la invención
Problemas que ha de resolver la invención No obstante, en general, el rendimiento de la codificación de habla mediante una búsqueda parcial de libro de códigos algebraico es más bajo que en el caso de la búsqueda completa, debido a que las posiciones de dos impulsos que se determinan en un primer lugar no siempre son óptimas.
Por lo tanto, en la búsqueda parcial, el rendimiento de la codificación de habla puede mejorarse adicionalmente dependiendo de qué impulsos se seleccionan para formar un subconjunto en el que ha de buscarse en primer lugar. Por ejemplo, es posible adoptar el método de seleccionar dos impulsos de entre cuatro impulsos de una forma aleatoria y de realizar una búsqueda y, después de que este proceso se repita varias veces, encontrar el par de los impulsos mediante el cual el rendimiento de codificación es el más alto. Por ejemplo, mediante la provisión de cuatro tipos de pares de subconjunto y mediante la búsqueda en estos cuatro pares de forma individual, es posible hacer
que el rendimiento de la codificación de habla se acerque al rendimiento de codificación en la búsqueda completa. En el presente caso, se requieren 128 (82 ! 2) ! 4 (es decir, 512) patrones de cálculos, lo que es un octavo de la cantidad de cálculos en el caso de la búsqueda completa. En el presente caso, en los ejemplos anteriores, los subconjuntos se forman de una forma arbitraria, y no hay razón específica alguna para que haya de buscarse en primer lugar en par alguno entre cuatro tipos de pares. Por lo tanto, si se realiza una búsqueda en una pluralidad de casos de forma individual, el rendimiento de codificación resultante muestra grandes variaciones, y el rendimiento de codificación total es insuficiente.
Por lo tanto, un objeto de la presente invención es la provisión de un aparato de codificación de habla y un método de codificación de habla para realizar una búsqueda parcial de libro de códigos algebraico y mejorar el rendimiento de codificación. El presente objeto se consigue mediante la presente invención tal como se reivindica en las reivindicaciones independientes. Las realizaciones ventajosas y preferidas de la presente invención se definen mediante... [Seguir leyendo]
Reivindicaciones:
1. Un aparato de codificación de habla que comprende:
una sección de cálculo (221) que calcula unos valores de correlación en unas posiciones de impulso de candidata usando una señal objetivo y una pluralidad de impulsos que forman un libro de códigos fijo, y calcula, de una forma por impulsos, unos valores representativos de los impulsos usando los valores máximos de los valores de correlación; y una sección de clasificación (222) que clasifica los valores representativos adquiridos de una forma por
impulsos;
caracterizado por
agrupar, la sección de clasificación (222) , los impulsos que se corresponden con los valores representativos clasificados en una pluralidad de subconjuntos predeterminados de al menos dos impulsos, y determinar un primer subconjunto en el que ha de buscarse en primer lugar entre la pluralidad de subconjuntos usando los valores representativos que se corresponden con los impulsos agrupados; y una sección de búsqueda (224) que busca en el libro de códigos fijo usando el primer subconjunto y adquiere un código que indica las posiciones y las polaridades de la pluralidad de impulsos para minimizar la distorsión de codificación.
la sección de cálculo (221) calcula un valor máximo de correlación de cada impulso como los valores representativos que están asociados con el impulso.
4. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde:
la sección de clasificación (222) agrupa los impulsos que se corresponden con los valores representativos clasificados en una pluralidad de combinaciones de una pluralidad de subconjuntos predeterminados, y determina los primeros subconjuntos en la pluralidad de combinaciones, respectivamente; y la sección de búsqueda (224) busca en el libro de códigos fijo usando los primeros subconjuntos y adquiere el
código para minimizar la distorsión de codificación.
5. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de cálculo (221) calcula, como un valor representativo que está asociado con el impulso, un valor máximo de correlación de cada impulso mediante la adición de un segundo valor más alto de correlación multiplicado por una velocidad determinada a un valor máximo del valor de correlación de una forma por impulsos.
6. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de clasificación (222) genera una pluralidad de combinaciones de los valores representativos que se corresponden con los impulsos agrupados, y determina el primer subconjunto sobre la base de un resultado de comparación de las combinaciones 45 multiplicadas por un valor predeterminado.
7. El aparato de codificación de habla de acuerdo con la reivindicación 1, donde la sección de clasificación (222) reorganiza los impulsos que van a agruparse en la pluralidad de subconjuntos en un orden predeterminado.
8. Un método de codificación de habla que comprende las etapas de:
calcular unos valores de correlación en unas posiciones de impulso de candidata usando una señal objetivo y una pluralidad de impulsos que forman un libro de códigos fijo, y calcular, de una forma por impulsos, unos valores representativos de los impulsos usando los valores máximos de los valores de correlación 55 clasificar los valores representativos adquiridos de una forma por impulsos;
caracterizado por
agrupar los impulsos que se corresponden con los valores representativos clasificados en una pluralidad de subconjuntos predeterminados de al menos dos impulsos y determinar un primer subconjunto en el que ha de buscarse en primer lugar entre la pluralidad de subconjuntos usando los valores representativos que se 60 corresponden con los impulsos agrupados; y buscar en el libro de códigos fijo usando el primer subconjunto y generar un código que indica las posiciones y las polaridades de la pluralidad de impulsos para minimizar la distorsión de codificación.
Patentes similares o relacionadas:
Almacenamiento eficiente de registros de códigos cifrados estructurados múltiples, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: medios para formar un vector de código base combinando componentes 5 de vector de un sub-vector señalado por […]
Sistema decodificador, método de decodificación y programa informático respectivo, del 15 de Julio de 2020, de DOLBY INTERNATIONAL AB: Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: […]
Codificación de las posiciones de los picos espectrales, del 27 de Mayo de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método de codificación de las posiciones de los picos espectrales de un segmento de una señal de audio, comprendiendo el método: - determinar cuál […]
Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC, del 20 de Mayo de 2020, de VOICEAGE CORPORATION: Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda para proporcionar una […]
Procesamiento avanzado basado en un banco de filtros con modulación exponencial compleja y métodos para señalizar el tiempo adaptativos, del 8 de Abril de 2020, de DOLBY INTERNATIONAL AB: Aparato para generar una señal de decorrelación que usa una señal de entrada, comprendiendo: un banco de filtros de sub-banda complejo para filtrar […]
Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS), del 11 de Marzo de 2020, de DTS, INC: Un método de codificación de audio multicanal, en un flujo de datos de audio de tasa de bits variable sin pérdida, VBR, que comprende: bloquear […]