Cuantificación de la frecuencia fundamental para el reconocimiento de voz distribuido.
Un método para un sistema de procesamiento de información para cuantificar la información de la frecuenciafundamental de audio,
que comprende:
capturar audio que representa una trama numerada de una pluralidad de tramas numeradas;
calcular una clase de trama, en la que una clase es una cualquiera de entre una clase sonora y una clasesorda;
si la trama es una clase sonora, calcular una frecuencia fundamental para la trama;
si la trama es una trama numerada par y una clase sonora, calcular una palabra clave de una primera longitudcuantificando la frecuencia fundamental de la trama de manera absoluta;
si la trama es una trama numerada par y una clase sorda, calcular una palabra clave de la primera longitud queindique una trama de clase sorda;
si la trama es una trama numerada impar y una clase sonora, y al menos una de las tres tramasinmediatamente anteriores a la trama es fiable, calcular una palabra clave de una segunda longitudcuantificando la frecuencia fundamental de la trama diferencial que hace referencia a una frecuenciafundamental cuantificada de la trama fiable anterior más cercana, en la que la primera longitud es mayor que lasegunda longitud;
si la trama es una trama numerada impar y una clase sonora, y cada una de las tres tramas inmediatamenteanteriores a la trama no es fiable, calcular una palabra clave de la segunda longitud cuantificando la frecuenciafundamental de la trama de manera absoluta; y
si la trama es una trama numerada impar y una clase sorda, calcular una palabra clave de la segunda longitudque indique una trama de clase sorda;
en el que una trama numerada par es fiable si es una clase sonora, y en el que una trama numerada impar esfiable si es una clase sonora y la frecuencia fundamental de la trama se cuantifica de manera absoluta o secuantifica de manera diferencial en referencia a una frecuencia fundamental de la trama inmediatamenteanterior.
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2004/003425.
Solicitante: Motorola Mobility LLC .
Nacionalidad solicitante: Estados Unidos de América.
Dirección: 600 North US Highway 45 Libertyville, IL 60048 ESTADOS UNIDOS DE AMERICA.
Inventor/es: RAMABADRAN, TENKASI V.,, SORIN,ALEXANDER.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L15/28 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Detalles estructurales de sistemas de reconocimiento de la voz.
- G10L19/08 G10L […] › G10L 19/00 Técnicas de análisis-síntesis de la voz o de señales de audio para la reducción de la redundancia, p. ej. en codificadores vocales; Codificación o decodificación de la voz o de señales de audio, utilizando modelos filtro-fuente o el análisis psicoacústico (en instrumentos musicales G10H). › Determinación o codificación de la función de excitación; Determinación de los parámetros de predicción a largo plazo.
PDF original: ES-2395717_T3.pdf
Fragmento de la descripción:
Cuantificación de la frecuencia fundamental para el reconocimiento de voz distribuido
Referencia cruzada a una solicitud relacionada La presente solicitud de patente está relacionada con la solicitud de patente de Estados Unidos co-pendiente y de propiedad común número 10/360.582, número de expediente del mandatario CML00872M, titulada "Class Quantization For Distributed Speech Recognition", presentada en la misma fecha con la presente solicitud de patente.
Campo de la invención La presente invención se refiere, en general, al campo de los sistemas de reconocimiento de voz distribuidos, y más específicamente se refiere al reconocimiento de voz distribuido para las comunicaciones de ancho de banda estrecho y comunicaciones inalámbricas.
Antecedentes de la invención Con la llegada de los buscapersonas y los teléfonos móviles la industria de los servicios inalámbricos ha crecido hasta convertirse en una industria de billones de dólares. La mayor parte de los ingresos de los proveedores de servicios inalámbricos (WSP) proceden de las suscripciones. Como tal, la capacidad de un WSP para ejecutar una red con éxito depende de la calidad del servicio proporcionado a los abonados a través de una red que tiene un ancho de banda limitado. Para este fin, los WSP están constantemente buscando maneras de mitigar la cantidad de información que se transmite a través de la red mientras se mantiene una alta calidad del servicio a los abonados.
Recientemente, el reconocimiento de voz ha disfrutado de éxito en la industria del servicio inalámbrico. El reconocimiento de voz se usa para una diversidad de aplicaciones y servicios. Por ejemplo, un abonado del servicio inalámbrico puede estar provisto de una característica de marcación rápida mediante la que el abonado dice el nombre de un destinatario de una llamada en el dispositivo inalámbrico. El nombre del destinatario se reconoce usando el reconocimiento de voz y se inicia una llamada entre el abonado y el destinatario. En otro ejemplo, la información (411) del llamante puede utilizar el reconocimiento de voz para reconocer el nombre de un destinatario a quien un abonado está intentando hacer una llamada.
Como el reconocimiento de voz gana aceptación en la comunidad inalámbrica, el reconocimiento de voz distribuido (DSR) ha surgido como una tecnología emergente. El DSR se refiere a una trama en la que se distribuye la extracción de características y las partes de reconocimiento de patrones de un sistema de reconocimiento de voz. Esto es, el sistema de extracción de características y las partes de reconocimiento de patrones del reconocimiento de voz se realiza mediante dos unidades de procesamiento diferentes en dos localizaciones diferentes. Específicamente, el proceso de extracción de características se realiza en el extremo frontal, es decir, el dispositivo inalámbrico, y el proceso de reconocimiento de patrones se realiza en el extremo trasero, es decir, por el proveedor de servicios inalámbricos. El DSR mejora el reconocimiento de voz para las tareas más complicadas, tales como la reserva de avión automatizada con la información de vuelo hablada o las transacciones de corretaje con características similares.
El Instituto Europeo de Normas de Telecomunicaciones (ETSI) promulga un conjunto de normas para el DSR. Las normas DRS del ETSI ES 201 108 (de abril de 2000) y ES 202 050 (de julio de 2002) definen la extracción de características y algoritmos de compresión en el extremo frontal. Estas normas, sin embargo, no incorporan reconstrucción de voz en el extremo trasero, lo que puede ser importante en algunas aplicaciones. Como resultado, se han liberado los nuevos elementos Wl-030 y 034-Wl de trabajo por el ETSI para extender las normas anteriores (ES 201 108 y ES 202 050, respectivamente) , para incluir la reconstrucción de voz en el extremo trasero, así como el reconocimiento del lenguaje tonal.
En las normas de DSR actuales, las características que se extraen, se comprimen, y se transmiten al extremo trasero son 13 coeficientes cepstrales en las frecuencias de Mel (MFCC) , C0 - C12, y el logaritmo de la trama de energía, log-E. Estas características se actualizan cada 10 ms o 100 veces por segundo. En las propuestas de las normas extendidas (es decir, los elementos de trabajo descritos anteriormente) , la información de frecuencia fundamental y de clase (o sonoridad) se obtienen también para cada trama y se transmiten, además, a los MFCC y al log-E. Esto aumenta la cantidad de información que se transmite por el dispositivo inalámbrico en la red y consume ancho de banda adicional. De esta manera, es deseable que la representación de la información de clase y de la frecuencia fundamental sea tan compacta como sea posible con el fin de mantener baja la velocidad de bits.
Ha sido un problema continuo representar la información de frecuencia fundamental de forma compacta sin sacrificar exactitud y robustez frente a los errores del canal de comunicación. Uno de los enfoques para cuantificar la frecuencia fundamental se presenta en el documento de Estados Unidos 6199037 B1. En general, los codificadores de voz (por ejemplo, el codificador predictivo lineal de excitación mixta, que es la norma federal de Estados Unidos a 2400 bps) cuantifican, de manera absoluta la información de la frecuencia fundamental usando 7 o más bits por trama. En las normas DSR extendidas, es importante mantener la velocidad de bits adicional, debido a la información de frecuencia fundamental y de clase, tan baja como sea posible. Se han adoptado una combinación de técnicas absolutas y diferenciales para cuantificar la información de período de la frecuencia fundamental usando solamente 6 bits por trama, de esta manera se ahorra al menos 1 bit por trama. Sin embargo, esto puede generar, potencialmente, problemas en términos de exactitud y robustez para los errores del canal.
Por lo tanto, existe una necesidad de superar los problemas con la técnica anterior como se ha tratado anteriormente.
Sumario de la invención Brevemente, de acuerdo con la presente invención, se desvela un sistema, método, programa informático y medio legible por ordenador para cuantificar la información de la frecuencia fundamental de audio de acuerdo con las reivindicaciones adjuntas 1, 6, 11 y 21. En una realización de la presente invención, el método para un sistema de procesamiento de información incluye capturar audio que represente una trama numerada de una pluralidad de tramas numeradas. El método incluye además calcular una clase de la trama, en la que una clase es una cualquiera de entre una clase sonora y una clase sorda. Si la trama es una clase sonora, se calcula una frecuencia fundamental para la trama. Si la trama es una trama numerada par y una clase sonora, se calcula una palabra clave de una primera longitud cuantificando la frecuencia fundamental de la trama de manera absoluta. Si la trama es una trama numerada par y una clase sorda, se calcula una palabra clave de la primera longitud que indique una trama de clase sorda. Si la trama es una trama numerada impar y una clase sonora, y al menos una de las tres tramas inmediatamente anteriores a la trama es fiable, se calcula una palabra clave de una segunda longitud cuantificando la frecuencia fundamental de la trama de manera diferencial que hace referencia a una frecuencia fundamental cuantificada de la trama fiable anterior más cercana, en la que la primera longitud es mayor que la segunda longitud. Si la trama es una trama numerada impar y una clase sonora, y cada una de las tres tramas inmediatamente anteriores a la trama no es fiable, se calcula una palabra clave de la segunda longitud cuantificando la frecuencia fundamental de la trama de manera absoluta. Si la trama es una trama numerada impar y una clase sorda, se calcula una palabra clave de la segunda longitud que indique una trama de clase sorda.
En esta realización una trama numerada par es fiable si es una clase sonora y una trama numerada impar es fiable si es una clase sonora y la frecuencia fundamental de la trama se cuantifica de manera absoluta o se cuantifica de manera diferencial en referencia a una frecuencia fundamental de la trama inmediatamente anterior.
En otra realización de la presente invención, un sistema de procesamiento de información para cuantificar la información de la frecuencia fundamental de audio, incluye un micrófono para capturar audio que representa una trama numerada de una pluralidad de tramas numeradas. El sistema de procesamiento de información incluye además un procesador de señal digital para calcular una clase de la trama, en la que una clase es una cualquiera de entre una clase sonora y una clase sorda. Si la trama es una clase sonora, el procesador calcula una frecuencia fundamental... [Seguir leyendo]
Reivindicaciones:
1. Un método para un sistema de procesamiento de información para cuantificar la información de la frecuencia fundamental de audio, que comprende:
capturar audio que representa una trama numerada de una pluralidad de tramas numeradas; calcular una clase de trama, en la que una clase es una cualquiera de entre una clase sonora y una clase sorda; si la trama es una clase sonora, calcular una frecuencia fundamental para la trama; si la trama es una trama numerada par y una clase sonora, calcular una palabra clave de una primera longitud cuantificando la frecuencia fundamental de la trama de manera absoluta; si la trama es una trama numerada par y una clase sorda, calcular una palabra clave de la primera longitud que indique una trama de clase sorda; si la trama es una trama numerada impar y una clase sonora, y al menos una de las tres tramas inmediatamente anteriores a la trama es fiable, calcular una palabra clave de una segunda longitud cuantificando la frecuencia fundamental de la trama diferencial que hace referencia a una frecuencia fundamental cuantificada de la trama fiable anterior más cercana, en la que la primera longitud es mayor que la segunda longitud; si la trama es una trama numerada impar y una clase sonora, y cada una de las tres tramas inmediatamente anteriores a la trama no es fiable, calcular una palabra clave de la segunda longitud cuantificando la frecuencia fundamental de la trama de manera absoluta; y si la trama es una trama numerada impar y una clase sorda, calcular una palabra clave de la segunda longitud que indique una trama de clase sorda; en el que una trama numerada par es fiable si es una clase sonora, y en el que una trama numerada impar es fiable si es una clase sonora y la frecuencia fundamental de la trama se cuantifica de manera absoluta o se cuantifica de manera diferencial en referencia a una frecuencia fundamental de la trama inmediatamente anterior.
2. El método de la reivindicación 1, en el que el sistema de procesamiento de información es uno cualquiera de entre un equipo cliente y un dispositivo inalámbrico, tal como un teléfono móvil.
3. El método de la reivindicación 2, en el que el audio se refiere a la voz.
4. El método de la reivindicación 3, en el que una trama incluye desde aproximadamente 20 a aproximadamente 30 milisegundos de audio, y las tramas sucesivas pueden solaparse entre si desde aproximadamente 10 a aproximadamente 15 milisegundos.
5. El método de la reivindicación 1, que comprende además:
transmitir la palabra clave que se calculó a un servidor.
6. Un sistema de procesamiento de información para cuantificar la información de la frecuencia fundamental de audio, que comprende:
un medio para capturar audio que representa una trama numerada de una pluralidad de tramas numeradas; un medio para calcular una clase de la trama, en la que una clase es una cualquiera de entre una clase sonora y una clase sorda; si la trama es una clase sonora, un medio para calcular una frecuencia fundamental para la trama; si la trama es una trama numerada par y una clase sonora, un medio para calcular una palabra clave de una primera longitud cuantificando la frecuencia fundamental de la trama de manera absoluta; si la trama es una trama numerada par y una clase sorda, un medio para calcular una palabra clave de la primera longitud que indique una trama de clase sorda; si la trama es una trama numerada impar y una clase sonora, y al menos una de las tres tramas inmediatamente anteriores a la trama es fiable, un medio para calcular una palabra clave de una segunda longitud cuantificando la frecuencia fundamental de la trama de manera diferencial que hace referencia a una frecuencia fundamental cuantificada de la trama fiable anterior más cercana, en la que la primera longitud es mayor que la segunda longitud; si la trama es una trama numerada impar y una clase sonora, y cada una de las tres tramas inmediatamente anteriores a la trama no es fiable, un medio para calcular una palabra clave de la segunda longitud cuantificando la frecuencia fundamental de la trama de manera absoluta; y si la trama es una trama numerada impar y una clase sorda, un medio para calcular una palabra clave de la segunda longitud que indique una trama de clase sorda; en el que una trama numerada par es fiable si es una clase sonora, y en el que una trama numerada impar es fiable si es una clase sonora y la frecuencia fundamental de la trama se cuantifica de manera absoluta o se cuantifica de manera diferencial en referencia a una frecuencia fundamental de la trama inmediatamente anterior.
7. El sistema de procesamiento de información de la reivindicación 6, en el que el sistema de procesamiento de información es uno cualquiera de entre un equipo cliente y un dispositivo inalámbrico, tal como un teléfono móvil.
8. El sistema de procesamiento de información de la reivindicación 7, en el que el audio se refiere a la voz. 5
9. El sistema de procesamiento de información de la reivindicación 6, que comprende además:
un transmisor para transmitir la palabra clave que se calculó a un servidor.
10. El sistema de procesamiento de información de la reivindicación 8, en el que una trama incluye desde aproximadamente 20 a aproximadamente 30 milisegundos de audio, y las tramas sucesivas pueden solaparse entre si desde aproximadamente 10 a aproximadamente 15 milisegundos.
11. Un programa informático que comprende instrucciones de programa, adaptado para realizar las etapas del
método de una cualquiera de las reivindicaciones 1-5, cuando dicho programa se ejecuta en un sistema de procesamiento de información.
12. Un medio legible por ordenador que lleva un programa informático de acuerdo con la reivindicación 11.
Patentes similares o relacionadas:
Método de codificación de impulsos de las señales de excitación, del 29 de Julio de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método para codificar una señal de voz, que comprende: la obtención de la distribución de impulsos de la señal de voz, en una pista, de los impulsos a codificarse […]
Método de predicción y dispositivo de decodificación para la señal de la banda de expansión del ancho de banda, del 24 de Junio de 2020, de Crystal Clear Codec, LLC: Un método para predecir una señal de banda de frecuencia de extensión del ancho de banda, que comprende: demultiplexación de un flujo de bits recibido y […]
Mejora del contenido insonoro para decodificador CELP de tasa baja, del 17 de Junio de 2020, de VoiceAge EVS LLC: Un dispositivo para modificar, durante la decodificación de una señal de sonido, una síntesis de una excitación de dominio de tiempo decodificada […]
Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo, del 29 de Abril de 2020, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un decodificador de audio para proporcionar una información de audio decodificada en base a una información de audio codificada , comprendiendo […]
Método de generación y procesado de señal de ruido, codificador/decodificador y sistema de codificación/decodificación, del 22 de Abril de 2020, de HUAWEI TECHNOLOGIES CO., LTD.: Un método de procesado de señal de ruido basado en predicción lineal, en donde el método comprende: adquirir (S51) una señal de ruido, y obtener un coeficiente de predicción […]
Método y disposición para suavizar ruido estacionario de fondo, del 25 de Diciembre de 2019, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método para suavizar ruido de fondo, comprendiendo el método: recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz […]
Aparato y método para la renderización de audio empleando una definición de distancia geométrica, del 25 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Aparato para reproducir un objeto de audio asociado con una posición, que comprende: un calculador de distancia para calcular distancias de la […]
Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo, del 4 de Diciembre de 2019, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Un decodificador de audio para proporcionar una información de audio decodificada basándose en una información de audio […]