SISTEMA Y MÉTODO PARA ANALIZAR EL CONTENIDO DE UNA CONVERSACIÓN DE VOZ.

Sistema y método para analizar el contenido de una conversación de voz.

El sistema comprende:

a) un bloque de comunicación que establece y gestiona la sesión de comunicación entre las partes de dicha conversación; y

b) un bloque de extracción que extrae al menos parte de dicha conversación;

estando el sistema caracterizado porque dicho bloque de extracción funciona durante dicha conversación de voz y está dispuesto para entregar, directamente o a través de al menos una entidad intermedia, los resultados de dicha extracción a al menos una de dichas partes durante dicha conversación de voz.

El método está dispuesto para llevar a cabo la extracción de dicha conversación de voz y la presentación de los resultados de dicha extracción.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P201130858.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: URDIALES,Diego, SANTIAGO,Miguel Ángel, ORDÁS,Isabel.

Fecha de Publicación: 21 de Junio de 2013.

Clasificación Internacional de Patentes:

G10L15/26 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Sistemas de síntesis de texto a partir de la voz (G10L 15/08 tiene prioridad).
H04M3/42 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Sistemas que proporcionan servicios o funciones especiales a los abonados (especialmente adaptada para redes de comunicación inalámbricas H04W 4/00).

Fragmento de la descripción:

Sistema y método para analizar el contenido de una conversación de voz.

Campo de la técnica La presente invención se refiere en general, en un primer aspecto, a un sistema para analizar el contenido de una conversación de voz entre dos o más partes, y más particularmente a un sistema que comprende extraer los detalles de dicha conversación por medio de un bloque de extracción y presentar los resultados de dicha extracción a al menos una de dichas partes durante dicha conversación de voz.

Un segundo aspecto de la invención se refiere a un método dispuesto para llevar a cabo la extracción de dicha conversación de voz y la presentación de los resultados de dicha extracción.

Estado de la técnica anterior

Actualmente, la única información disponible generalmente para las partes que están llevando a cabo una conversación de voz (normalmente, una llamada telefónica) es la identidad de las partes, incluyendo posiblemente los dispositivos usados por las mismas para conectarse a la conversación (teléfono móvil, teléfono fijo, etc.) y la duración de la conversación hasta ese momento. La información del contenido de la conversación, útil para soportar la conversación, no está disponible. No hay ninguna forma automatizada para que las partes recuperen algo del contenido de dicha conversación mientras aún está activa (es decir, durante la llamada) . También es complicado revisar el contenido de la conversación después de haber finalizado.

Para tener acceso a la información tratada en dicha conversación de voz mientras que la conversación está en curso, es posible tomar notas manualmente durante la conversación. Asimismo, algunos servicios de llamadas de voz ofrecen un servicio de chat integrado que también puede usarse para reflejar manualmente algunos fragmentos del contenido de la conversación de manera que sean visibles para todas las partes en la conversación.

Para revisar el contenido de la conversación después de haber finalizado, es posible revisar las notas manuales. También es posible usar cualquiera de los servicios de grabación de llamadas disponibles para grabar la llamada, de modo que su contenido esté disponible después de haber finalizado.

Existen algunos desarrollos en el procesamiento del habla que se han dirigido a la identificación de detalles específicos en el habla, tales como [1]. Asimismo, las tecnologías de reconocimiento de voz, tales como las descritas en [2], ofrecen una funcionalidad más avanzada, que permite la identificación de palabras específicas o patrones sencillos pronunciados en el habla.

Finalmente, un método patentado descrito en [3] es útil para adjuntar anotaciones a una base de datos que contiene información de llamadas de voz.

- Problemas con las soluciones existentes

Un enfoque manual para recuperar el contenido de una conversación tiene algunos inconvenientes importantes. Tomar notas manuales durante la conversación afecta la conversación, dando lugar a menudo a pausas en el habla mientras que una de las partes escribe o teclea. Además, en general las notas no son visibles para todas las partes, por tanto, solamente beneficia a la parte que las toma. Sin embargo, si se toman las notas, son útiles para realizar un seguimiento del contenido de la conversación después de haber finalizado.

Usar el canal de chat asociado para reflejar manualmente los detalles del contenido de la conversación tiene la misma desventaja de que afecta al flujo de la conversación, aunque tiene la ventaja de hacer que esos detalles sean visibles para todas las partes en la conversación.

Ninguno de los métodos manuales es muy adecuado para conversaciones mientras uno se desplaza, por ejemplo, andando por la calle.

Grabar la conversación permite a las partes recuperar la información después de haber finalizado la llamada. Sin embargo, es prácticamente imposible usar la información grabada antes de que finalice la llamada. Además, es complicado buscar detalles específicos en el audio grabado. Finalmente, la grabación puede no estar disponible de manera automática para todas las partes, siendo necesario en su lugar que la grabadora comparta manualmente el audio grabado con todas las partes en la conversación después de haber finalizado.

Las soluciones actuales basadas en procesamiento del habla no tratan completamente el problema de soportar la conversación en curso.

La tecnología descrita en [1] puede usarse para crear automáticamente anotaciones básicas del contenido de la conversación (específicamente, secuencias alfanuméricas, tales como números telefónicos o palabras deletreadas) . Estas anotaciones básicas pueden ser una primera etapa hacia el soporte de conversaciones de voz. Sin embargo, [1] no describe ningún mecanismo en el que estas anotaciones puedan hacerse disponibles para las partes durante la llamada.

[2] presenta un mecanismo para obtener anotaciones más significativas (palabras o patrones simples) del procesamiento de audio. De nuevo, estas técnicas pueden usarse para extraer información, sin embargo, no se proporciona ninguna indicación en cuanto a la forma en que puede presentarse esa información a los usuarios durante la llamada.

Finalmente, [3] se centra en el método para enlazar anotaciones de llamada (es decir información acerca del contenido de una llamada, sin especificar cómo se obtiene esta información) con la grabación correspondiente a la llamada en una base de datos de registro de llamadas. Este método puede usarse para realizar el enlace en el extremo final, sin embargo, sin embargo, no se proporciona ninguna indicación de cómo las anotaciones pueden llegar a las partes durante la llamada.

Descripción de la invención Es necesario ofrecer una alternativa al estado de la técnica que cubra los vacíos encontrados en el mismo, particularmente en relación con la falta de propuestas que realmente permitan presentar los resultados de la extracción de una conversación de voz en tiempo real o casi en tiempo real.

Para ello la presente invención proporciona, en un primer aspecto, un sistema para analizar el contenido de una conversación de voz, que comprende:

a) un bloque de comunicación que establece y gestiona la sesión de comunicación entre las partes de dicha conversación; y

b) un bloque de extracción que extrae al menos parte de dicha conversación;

Al contrario que las propuestas conocidas, el sistema de la invención, de una forma característica, comprende además realizar dicha extracción durante la conversación de voz y su entrega, directamente o a través de al menos una entidad intermedia, y mostrar los resultados de dicha extracción a al menos una de las partes durante dicha conversación de voz.

Otras realizaciones del método del primer aspecto de la invención se describen según las reivindicaciones adjuntas 2 a 13, y en una sección posterior con relación a la descripción detallada de diversas realizaciones.

Un segundo aspecto de la presente invención comprende un método para analizar el contenido de una conversación de voz, que comprende:

a) establecer una sesión de comunicación entre las partes de dicha conversación de voz; y

b) extraer al menos parte de dicha conversación para analizar su contenido.

Al contrario que las propuestas conocidas, en el método de la invención, en una forma característica, dicha extracción de la etapa b) se realiza durante dicha conversación de voz y el método comprende además presentar los resultados de dicha extracción a al menos una de dichas partes durante dicha conversación de voz.

Breve descripción de los dibujos Las ventajas y características anteriores y otras se entenderán más completamente a partir de la siguiente descripción detallada de realizaciones, con referencia a los dibujos adjuntos, que deben considerarse de una forma ilustrativa y no limitativa, en los que:

la figura 1 muestra un esquema general del sistema propuesto de la presente invención.

La figura 2 muestra, según una realización del sistema propuesto en la invención, el esquema general del sistema cuando la conversación de voz se realiza a través de una llamada VoIP.

La figura 3 muestra, según una realización del sistema propuesto en la invención, la arquitectura del módulo de extracción de detalles.

La figura 4 muestra, según una realización del sistema propuesto en la invención, el esquema general del sistema cuando la conversación de voz se realiza a través de una llamada telefónica regular PSTN/PLMN.

La figura 5 muestra, según una realización del sistema propuesto en la invención, el esquema general del sistema cuando la...

Reivindicaciones:

1. Sistema para analizar el contenido de una conversación de voz, que comprende:

a) un bloque (13) de comunicación que establece y gestiona la sesión de comunicación entre las partes (11, 12) de dicha conversación; y

b) un bloque (14) de extracción que extrae al menos parte de dicha conversación;

estando el sistema caracterizado porque dicho bloque (14) de extracción funciona durante dicha conversación de voz, extrayendo parte de la conversación duplicando, al menos una vez, el flujo de audio generado por cada una de dichas partes (11, 12) y correlacionando los resultados de diferentes hilos de procesamiento y está dispuesto para mostrar, directamente o a través de al menos una entidad intermedia, los resultados de dicha extracción a al menos una de dichas partes (11, 12) durante dicha conversación de voz.

2. Sistema según la reivindicación 1, en el que dicho bloque (13) de comunicación hace uso de protocolos de gestión de sesión convencionales para establecer dicha conversación de voz entre dichas partes (11, 12) .

3. Sistema según la reivindicación 2, en el que dicha entidad intermedia es dicho bloque (13) de comunicación.

4. Sistema según la reivindicación 3, en el que dicho bloque (13) de comunicación establece y gestiona adicionalmente la comunicación con el bloque (14) de extracción y envía los resultados de dicha extracción realizada en dicho bloque de extracción a al menos una de dichas partes (11, 12) .

5. Sistema según la reivindicación 1, en el que dichos hilos de procesamiento consisten en al menos un hilo de reconocimiento de palabra y un hilo de transcripción de audio a texto seguidos por el análisis de dicho texto.

6. Sistema según la reivindicación 1 a 5, en el que dicho bloque (14) de extracción reside en un servidor de una red y comprende además un servidor de protocolo de control de recursos multimedia, o MRCP, para adquirir las entradas de audio y para proporcionar los resultados de dicha extracción.

7. Sistema según las reivindicaciones 1 a 6, en el que dicha conversación de voz es una llamada VoIP y dicho protocolo de gestión de sesión convencional es un protocolo de inicio de sesión, o SIP.

8. Sistema según la reivindicación 7, en el que dicho bloque (13) de comunicación comprende además:

- un núcleo SIP que realiza al menos el registro de cada una de dichas partes y la recepción de peticiones de inicio de llamada;

- un proxy de medios que establece una sesión de comunicación con el módulo de extracción y con cada una de dichas partes; y

- un servidor de aplicación que controla la comunicación entre dicho proxy de medios y dichas partes.

9. Sistema según las reivindicaciones 1 a 8, en el que dicha conversación de voz se realiza a través de llamadas telefónicas regulares de la red móvil terrestre pública o la red telefónica pública conmutada.

10. Sistema según la reivindicación 9, en el que dicho bloque (13) de comunicación comprende además un servidor de notificación que envía los resultados de dicha extracción a al menos una de dichas partes (11, 12) , y un servidor de aplicación que envía las entradas de audio a dicho bloque de extracción y el resultado de dicha extracción a dicho bloque de comunicación.

11. Sistema según las reivindicaciones 1 a 6, en el que dicha conversación de voz se realiza a través de una red convergente que soporta medios telefónicos tradicionales junto con medios IP.

12. Sistema según la reivindicación 11, en el que dicho bloque (13) de comunicación comprende además una centralita de conmutación privada virtual que establece y gestiona la comunicación entre usuarios telefónicos tradicionales con usuarios VoIP.

13. Método para analizar el contenido de una conversación de voz, que comprende:

a) establecer una sesión de comunicación entre las partes de dicha conversación de voz; y

b) extraer al menos parte de dicha conversación para analizar su contenido,

estando el método caracterizado porque dicha extracción de la etapa b) se realiza durante dicha conversación de voz, extrayendo parte de la conversación duplicando, al menos una vez, el flujo de audio generado por cada una de dichas partes y comprendiendo además el método presentar los resultados de dicha extracción a al menos una de dichas partes durante dicha conversación de voz.

14. Método según la reivindicación 14, en el que dicha extracción comprende al menos combinar técnicas de reconocimiento de palabra y la transcripción de audio a texto seguidos por el análisis del texto.

Figura 1 Figura 2

Patentes similares o relacionadas:

Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]

Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición, del 5 de Diciembre de 2018, de Guedon, Christophe: Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas […]

Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento, del 4 de Abril de 2018, de Orange: Procedimiento de sincronización entre, por una parte, una operación de procesamiento por reconocimiento automático de la voz de una secuencia […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 7 de Diciembre de 2017, de XESOL I MAS D MAS I, S.L: Se describe en este documento un procedimiento y un dispositivo que permiten llevar a cabo interacción mediante voz para comunicación durante […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 30 de Noviembre de 2017, de XESOL I MAS D MAS I, S.L: Método de interacción mediante voz para comunicación durante conducción de vehículos y dispositivo que lo implementa. Se describe en este documento un procedimiento […]

Procedimiento y sistema para obtener información relevante de una comunicación por voz, del 6 de Abril de 2016, de TELEFONICA, S.A.: Procedimiento para obtener información relevante de una comunicación por voz proporcionada entre al menos dos usuarios, en el que la comunicación por voz comprende […]

Sistema y método para realizar consultas textuales en comunicaciones de voz, del 6 de Enero de 2016, de JaJah Ltd: Un sistema para realizar consultas textuales en comunicaciones de voz, comprendiendo el sistema: un servicio de índices para almacenar […]

Mezclador de pistas de audio semántico, del 16 de Diciembre de 2015, de FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.: Mezclador de audio para mezclar una pluralidad de pistas de audio para dar una senal de mezcla (MS), comprendiendo el mezclador de audio: […]