Un sistema a gran escala, independiente del usuario e independiente del dispositivo de conversión del mensaje vocal a texto.

Un sistema de mensajería vocal a gran escala, independiente del usuario e independiente del dispositivo,

que permite convertir un mensaje vocal no estructurado en texto para una presentación visual en una pantalla; caracterizado porque el sistema comprende (i) subsistemas puestos en práctica por ordenador, así como (ii) una conexión de red para proporcionar una transcripción y un control de calidad a operadores humanos; estando el sistema adaptado para optimizar la eficacia de los operadores humanos comprendiendo, además:

un subsistema de retícula puesta en práctica por ordenador para generar una retícula de posibles secuencias de frases o palabras y para permitir a un operador humano guiar un subsistema de conversión presentando una o más palabras o frases convertidas candidatas a partir de la retícula y para permitir al operador seleccionar la palabra o la frase candidata o bien, introduciendo uno o varios caracteres para una palabra convertida diferente, iniciar operativamente el subsistema de conversión para proponer una palabra o frase alternativa.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/GB2007/000483.

Solicitante: Spinvox Limited.

Nacionalidad solicitante: Reino Unido.

Dirección: Wethered House Pound Lane Marlow, Buckinghamshire SL7 2AF REINO UNIDO.

Inventor/es: DOULTON,DANIEL MICHAEL.

Fecha de Publicación: 23 de Agosto de 2013.

Clasificación Internacional de Patentes:

H04M3/533 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Sistemas de mensajería de voz.

PDF original: ES-2420559_T3.pdf

Fragmento de la descripción:

Un sistema a gran escala, independiente del usuario e independiente del dispositivo de conversión del mensaje vocal a texto.

ANTECEDENTES DE LA INVENCIÓN

1. Campo de la invención La invención se refiere a un sistema, a gran escala, de mensajería vocal, independiente del usuario e independiente del dispositivo, que convierte mensajes vocales no estructurados en texto para su presentación visual en una pantalla. Conviene señalar inicialmente los retos operativos con los que se enfrenta un sistema de mensajería vocal, independiente del usuario, a gran escala que puede convertir mensajes vocales no estructurados en texto. En primer lugar, ‘a gran escala’ significa que el sistema debe ser susceptible de su escalamiento a muy grandes números, a modo de ejemplo, 500, 000 o más abonados (normalmente se trata de abonados a un operador de telefonía móvil) y no obstante, permitir tiempos de procesamiento efectivo y rápido, siendo un mensaje, en general, solamente de utilidad si serecibe dentro de 2 a 5 minutos desde que se deja. Ésta es una exigencia bastante más estricta que la mayor parte de las puestas en práctica del sistema de reconocimiento ASR. En segundo lugar, la expresión ‘independiente del usuario’ significa que no hay absolutamente ninguna necesidad para un usuario para capacitar al sistema para reconocer sus modelos de expresión o voz (a diferencia de los sistemas de dictado de voz convencionales) . En tercer lugar, la expresión ‘independiente del dispositivo’ significa que el sistema no está obligado a recibir entradas desde un dispositivo de entrada particular; algunos sistemas de la técnica anterior requieren la entrada desde, a modo de ejemplo, un teléfono de tono táctil. En cuarto lugar, el término ‘no estructurado’ significa que los mensajes no tienen ninguna estructura predefinida, a diferencia de la respuesta a las solicitudes vocales. En quinto lugar, la expresión ‘mensajes vocales’ se refiere a un campo de aplicaciones muy específico y bastante estrecho que plantea diferentes retos a quienes tienen que enfrentarse a numerosos sistemas de reconocimiento de voz automatizado (ASR) convencionales. A modo de ejemplo, los mensajes de correo de voz, para un teléfono móvil, suelen incluir vacilaciones, ‘ers’ y ‘ums’. Un método de ASR convencional tendría que convertir fielmente todas las expresiones orales, incluso sonidos sin significado. El conjunto de la transcripción verbal o prolija caracteriza el método de la mayoría de los participantes en el campo del reconocimiento de voz automático ASR. No obstante, en realidad, no es adecuado, en absoluto, para el dominio de la mensajería vocal. En el dominio de la mensajería vocal, el reto creativo no es una transcripción exacta o prolija en absoluto, sino que, en cambio, captura el significado en la manera más útil para el destinatario previsto.

Solamente mediante un enfoque satisfactorio de estos cinco requisitos es posible tener una puesta en práctica correcta.

2. Descripción de la técnica anterior

La conversión desde voz a texto (STT) utiliza el reconocimiento de voz automático (ASR) y se ha aplicado, hasta ahora, principalmente a las tareas de dictado y de órdenes. El uso de la tecnología de ASR para convertir un correo de voz en texto es una nueva aplicación con varias características que son específicas de las tareas. Puede hacerse referencia al documento WO 2004/095821, que da a conocer un sistema de correo de voz, a través de Spinvox Limited, que permite que el correo de voz, para un teléfono móvil, se convierta en texto de SMS y se envíe al teléfono móvil. La gestión del correo de voz en la forma de texto es una opción atractiva. Suele ser más rápido leer que escuchar mensajes y, una vez en forma de texto, los mensajes de correo de voz se pueden memorizar y buscar tan fácilmente como un correo electrónico o un texto de mensajes cortos SMS. En una forma de realización, los abonados al servicio SpinVox desvían su correo de voz a un número de teléfono de SpinVox dedicado. Los abonados llamantes dejan mensajes de correo de voz como es habitual para el abonado. A continuación, SpinVox convierte los mensajes de voz a texto, con el objetivo de capturar el significado completo así como los elementos estilísticos e idiomáticos del mensaje, pero sin convertirlo necesariamente palabra por palabra. La conversión se realiza con un nivel importante de entrada por operadores humanos. El texto se envía luego al abonado como un texto de mensajes cortos SMS o correo electrónico. En consecuencia, los abonados pueden gestionar el correo de voz tan fácil y rápidamente como los mensajes de texto y de correo electrónico y pueden utilizar aplicaciones de clientes para integrar su correo de voz – ahora en forma de texto archivable y susceptible de búsqueda – con sus otros mensajes.

El problema con los sistemas de transcripción que están basados significativamente en operadores humanos, sin embargo, es que pueden ser costosos y difíciles de establecer a más escala – p.e., a una base de usuarios de 500, 000 o más abonados. En consecuencia, no es factible para los principales operadores de telefonía móvil o celular ofrecerlos a su base de abonados porque, para los tiempos de respuesta rápida requeridos, es simplemente demasiado caro tener operadores humanos a la escucha y transcribiendo la integridad de cada mensaje; de este modo, el coste por mensaje transcrito sería prohibitivamente alto. Por lo tanto, el problema técnico fundamental es diseñar un sistema basado en tecnología de la información IT que permita al operador humano de transcripción actuar con la máxima eficacia.

En el documento WO 2004/095821 se consideraba algún grado de procesamiento de extremo frontal de ASR combinado con operadores humanos: esencialmente era un sistema híbrido; la presente invención desarrolla esta idea inventiva y define tareas concretas que el sistema de tecnología de la información IT pueda hacer, con lo que se aumenta, en gran medida, la eficacia del sistema completo.

Los sistemas híbridos son conocidos en otros contextos, pero el método convencional para la conversión de voz es eliminar por completo el elemento humano; éste es el reto operativo para los expertos en las técnicas de ASR, en particular, las técnicas de STT. Por lo tanto, consideraremos ahora algunos de los antecedentes técnicos para STT.

La tecnología básica de la conversión de voz a texto (STT) es la clasificación. La clasificación tiene como objetivo determinar a qué ‘clase’ pertenecen algunos datos dados. La estimación de probabilidad máxima (MLE) , como numerosas herramientas estadísticas, utiliza un modelo subyacente del proceso de generación de datos – bien sea la acción de tirar una moneda o el sistema de generación de la voz humana. Los parámetros del modelo subyacente se estiman con el fin de hacer máxima la probabilidad de que el modelo generara los datos. Las decisiones sobre la clasificación se realizan, a continuación, comparando las características obtenidas a partir de los datos de la prueba con los parámetros del modelo obtenidos de los datos de capacitación para cada clase. Los datos de pruebas se clasifican luego como pertenecientes a la clase con la mejor coincidencia. La función de la probabilidad describe cómo la probabilidad de observar los datos varía con los parámetros del modelo. La máxima probabilidad puede encontrarse desde los puntos de inversión en la función de probabilidad si la función y sus derivadas están disponibles o pueden estimarse. Métodos para la estimación de la probabilidad máxima incluyen el descenso del gradiente simple así como los métodos de Gauss-Newton más rápidos. Sin embargo, si la función de probabilidad y sus derivadas no están disponibles se pueden utilizar algoritmos basados en los principios de Expectativa – Maximización (EM) que, comenzando desde una estimación inicial, convergen en un máximo local de la función de probabilidad de los datos observados.

En el caso de STT, se utiliza una clasificación supervisada en donde las clases se definen por los datos de capacitación más comúnmente como unidades trifónicas, lo que significa un fonema particular hablado en el contexto del fonema precedente y siguiente. (La clasificación no supervisada, en donde las clases se deducen por el clasificador, se puede considerar como un agrupamiento de los datos) . La clasificación en STT se requiere no solamente para determinar a qué clase trifónica pertenece cada sonido en la señal de voz sino que, es muy importante conocer qué secuencia de trifonos es la más probable. Esto último se suele conseguir creando modelos de voz con un modelo... [Seguir leyendo]

Reivindicaciones:

1. Un sistema de mensajería vocal a gran escala, independiente del usuario e independiente del dispositivo, que permite convertir un mensaje vocal no estructurado en texto para una presentación visual en una pantalla; caracterizado porque el sistema comprende (i) subsistemas puestos en práctica por ordenador, así como (ii) una conexión de red para proporcionar una transcripción y un control de calidad a operadores humanos; estando el sistema adaptado para optimizar la eficacia de los operadores humanos comprendiendo, además:

un subsistema de retícula puesta en práctica por ordenador para generar una retícula de posibles secuencias de frases o palabras y para permitir a un operador humano guiar un subsistema de conversión presentando una o más palabras o frases convertidas candidatas a partir de la retícula y para permitir al operador seleccionar la palabra o la frase candidata o bien, introduciendo uno o varios caracteres para una palabra convertida diferente, iniciar operativamente el subsistema de conversión para proponer una palabra o frase alternativa.

2. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para recibir entradas procedentes de un subsistema que gestiona la información de registro histórico de llamada del par.

3. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para recibir entradas procedentes de recursos de conversión.

4. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para recibir entradas procedentes de un subsistema de contexto que tiene conocimiento del contexto de un mensaje.

5. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para aprender, a partir de las entradas del operador humano, palabras o frases probables que corresponden a un modelo sonoro.

6. El sistema según la reivindicación 1, en donde el operador humano debe seleccionar solamente una sola tecla para aceptar una palabra o una frase.

7. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para proporcionar automáticamente mayúsculas iniciales y signos de puntuación.

8. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para proponer números, nombres reales, direcciones web, direcciones de correo electrónico, direcciones físicas, información de localización u otras coordenadas candidatas.

9. El sistema según la reivindicación 1, en donde el subsistema de retícula está configurado para realizar automáticamente la distinción entre las partes del mensaje que son susceptibles de ser importantes y las que son susceptibles de no tener importancia.

10. El sistema según la reivindicación 1, en donde las partes sin importancia del mensaje son confirmadas por el operador, como perteneciente a una clase propuesta por el subsistema de retícula y a continuación, se convierten únicamente por un motor de reconocimiento vocal ASR del aparato (1) .

11. El sistema según la reivindicación 1, en donde el operador humano puede pronunciar la palabra correcta en el destino del sistema de conversión, que está configurado para su transcripción automática más adelante.

12. El sistema según la reivindicación 3, en donde los recursos de conversión analizan una palabra o una frase convertida con respecto a un cuerpo de conocimiento en línea.

13. El sistema según la reivindicación 12, en donde el cuerpo de conocimiento en línea es Internet, accesible por un motor de búsqueda.

14. El sistema según la reivindicación 13, en donde el cuerpo de conocimiento en línea es una base de datos de motor de búsqueda.

15. El sistema según una cualquiera de las reivindicaciones precedentes, en donde el mensaje es uno de los mensajes siguientes:

(a) un correo de voz destinado a un teléfono móvil y el sistema está configurado para convertir el mensaje vocal en texto y enviar el mensaje vocal a ese teléfono móvil o

(b) un mensaje vocal destinado a un servicio de mensajería instantánea y el sistema está configurado para convertir el mensaje vocal en texto y enviar el mensaje vocal a un servicio de mensajería instantánea para su presentación visual en una pantalla o

(c) un mensaje vocal destinado a un servicio web y el sistema está configurado para convertir el mensaje vocal en texto y enviar el mensaje vocal a un servidor para una presentación visual como parte del servicio web.

16. El sistema según cualquier reivindicación precedente, en donde el mensaje es uno de los mensajes siguientes: 5

(a) un mensaje vocal destinado a convertirse al formato de texto y enviarse bajo la forma de mensaje de texto o

(b) un mensaje vocal destinado a convertirse al formato de texto y enviarse en tanto como mensaje de correo

electrónico o 10

(c) un mensaje vocal destinado a convertirse al formato de texto y enviarse bajo la forma de una nota o de un memorándum, por correo electrónico o texto, a un expedidor del mensaje.

17. Un método que permite proporcionar un sistema de mensajería vocal a gran escala, independiente del usuario e independiente del dispositivo, que convierte un mensaje vocal no estructurado en texto para una presentación visual en una pantalla, caracterizado por cuanto que el sistema comprende: (i) subsistemas puestos en práctica por ordenador así como (ii) una conexión de red para proporcionar una transcripción y un control de calidad a operadores humanos; optimizando el método la eficacia de los operadores humanos comprendiendo las etapas de:

un subsistema de retícula puesto en práctica por ordenador, que genera una retícula de posibles secuencias de palabras o frases y que permite a un operador humano guiar un subsistema de conversión presentándole una o más palabras o frases convertidas candidatas a partir de la retícula y que permite al operador seleccionar la palabra o la frase candidata o, introduciendo uno o varios caracteres para una palabra o una frase convertida diferente, para iniciar operativamente el subsistema de conversión para proponer una palabra o frase alternativa.

Calidad de la voz y confianza en el Reconocedor

Motor de ASR

Modelos de Reconocedor de voz Control de calidad Procesamiento lenguaje postconversión Voz Correo de voz

Clasificación de voz y unidad decisión sobre estrategia de conversión Mejora de la voz

Figura 1

Entrada mensaje de voz

Aplicación de Control de Calidad QC Gestor de cola de espera (TAT)

Preprocesamiento

Adaptación de canal, lenguaje, ruido ASR

Multi-motor, independiente del usuario que habla

Figura 2

Postprocesamiento

Frases de lenguaje natural Salida de texto convertido Corregir: hi jonathan i will be in the stag and hounds at seven forty see you soon andy Salida en pantalla | hi john it's tam i will be into stagecoach after four to meet you soon amy

Entrada: <accept_word> Salida: hi | john it's tam i will be into stagecoach after four to meet you soon amy

Entrada: 3 * <accept_char> Salida: hi jo | hn it's tam i will be into stagecoach after four to meet you soon amy

Entrada: n Salida: hi jon | athan i will be into stagecoach after four to meet you soon amy

Entrada: 4 * <accept_word> 3 * <accept_char> Salida: hi jonathan i will be in | to stagecoach after four to meet you soon amy

Entrada: <space> Salida: hi jonathan i will be in | the stadium from after four to meet you soon amy

Entrada: <accept_word> 4 * <accept_char> Salida: hi jonathan i will be in the sta | dium from after four to meet you soon amy

Entrada: g Salida: hi jonathan i will be in the stag | ecoach after four to meet you soon amy

Entrada: " Salida: hi jonathan i will be in the stag | and hounds after four to meet you soon amy

Entrada: 3 * <accept_word> 2 * <accept_char> Salida: hi jonathan i will be in the stag and hounds a | fter four to meet you soon amy

Figura 3

Entrada: t Salida: hi jonathan i will be in the stag and hounds at | seven forty see you soon amy

Entrada: 6 * <accept_word> 2 * <accept_cbar> Salida: hi jonathan i will be in the stag and hounds at seven forty see you soon a | my

Entrada: n Salida: hi jonathan i will be in the stag and hounds at seven fourty see you soon a | ndy

Entrada: <accept_utterance>

Salida en pantalla: | HEY john it's tam i will be into stagecoach after four to SOON amy

Figura 4

Patentes similares o relacionadas:

Sistema y procedimiento para coger una llamada previamente dirigida a través de mensajería de voz, del 14 de Mayo de 2019, de Orange: Procedimiento de vinculación de una primera entidad cliente con una segunda entidad cliente en una red de comunicación, habiéndose suscrito la primera entidad […]

Sistema y procedimiento de mensajería unificada en telefonía por inter/intranet, del 26 de Febrero de 2019, de THE TRUSTEES OF COLUMBIA UNIVERSITY IN THE CITY OF NEW YORK: Un sistema de telefonía por red adaptado para proporcionar servicios de transmisión unificada de mensajes que comprende: una red de datos, al menos […]

Procedimiento y sistema de transferencia de información de voz, del 22 de Enero de 2019, de Tencent Technology (Shenzhen) Co., Ltd: Un procedimiento de transmisión de mensajes de voz, que comprende: recibir datos de voz recolectados por un primer terminal de intercomunicación (S101, S301, […]

Sistema para dejar y recuperar mensajes, del 23 de Mayo de 2018, de Google LLC: Un sistema para acceder a mensajes en una ubicación particular, el sistema comprende: un receptor configurado para recibir señales de identificación desde […]

Procedimiento y sistema de telecomunicación que ofrece una pluralidad de medios de acceso mutuamente coherentes a una base de mensajes, del 7 de Marzo de 2018, de Orange: Procedimiento de telecomunicación destinado a ser implementado mediante un sistema de comunicación, comprendiendo el procedimiento - una etapa de […]

Motor de intención para mejorar la capacidad de respuesta en comunicaciones remotas interactivas, del 3 de Enero de 2018, de QUALCOMM INCORPORATED: Un procedimiento para responder a una llamada de un llamante situado en un dispositivo de comunicación , que comprende: conectar la llamada […]

Procedimiento de respuesta a un mensaje recibido en un terminal de usuario a través de una aplicación de mensajería en una red de comunicación, del 27 de Septiembre de 2017, de Orange: Procedimiento de tratamiento, en un terminal de un primer usuario, de un mensaje recibido en dicho terminal a través de una aplicación de mensajería […]

Método y dispositivos para la determinación del idioma para la transcripción de voz a texto de llamadas telefónicas, del 19 de Julio de 2017, de Saronikos Trading and Services, Unipessoal Lda: Método para determinar un idioma entre una pluralidad de idiomas disponibles de una transcripción de voz a texto de llamadas telefónicas entre un llamante y un receptor […]