PROCEDIMIENTO PARA PROPORCIONAR UN SERVICIO DE VOZ INTERACTIVO SOBRE UNA PLATAFORMA ACCESIBLE A UN TERMINAL CLIENTE, SERVICIO DE VOZ, PROGRAMA INFORMÁTICO Y SERVIDOR CORRESPONDIENTES.

Procedimiento de puesta a disposición de un servicio de voz interactivo en formato VoiceXML,

de entre un conjunto de servicios de voz interactivos, en una plataforma accesible para un terminal cliente, constituyendo dicha plataforma un elemento intermedio entre dicho terminal y un servidor; caracterizado porque dicho servicio de voz interactivo comprende un archivo de descripción (12) que describe dicho servicio y al menos un componente de software específico a dicho servicio; cuando dicho terminal cliente accede a dicho servicio de voz interactivo, el procedimiento comprende una etapa de interpretación de dicho archivo de descripción (12) y de dicho al menos un componente de software específico a dicho servicio, comprendiendo además dicho procedimiento: - una etapa para generar una página de diálogo de dicho servicio, en formato VoiceXML, según un estado actual de dicho diálogo y de dicho archivo de descripción (12); - una etapa para delegar una operación de procesamiento a realizar por dicho servicio de voz en dicho componente de software específico según dicho estado actual de dicho diálogo y de dicho archivo de descripción (12); y porque dicho servidor accede, durante dicha etapa de generación y dicha etapa de delegación, a un archivo de descripción (15) que describe características de dicha plataforma, con el fin de que dicho servicio de voz interactivo se adapte a dicha plataforma

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2006/060314.

Solicitante: FRANCE TELECOM.

Nacionalidad solicitante: Francia.

Dirección: 6 PLACE D'ALLERAY 75015 PARIS FRANCIA.

Inventor/es: PAILLET,ERIC, TEZE,Vincent, GYSS,Jean François.

Fecha de Publicación: 31 de Enero de 2012.

Fecha Solicitud PCT: 27 de Febrero de 2006.

Clasificación PCT:

G10L15/22 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Procedimientos utilizados durante el proceso de reconocimiento de la voz, p. ej. diálogo hombre-máquina.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia.

PDF original: ES-2373114_T3.pdf

Fragmento de la descripción:

Procedimiento para proporcionar un servicio de voz interactivo sobre una plataforma accesible a un terminal cliente, servicio de voz, programa informático y servidor correspondientes 1. Campo de la invención El campo de la invención es el de los servicios de voz interactivos, a los cuales un usuario puede acceder a partir de un teléfono fijo, un teléfono móvil o un ordenador aplicando la tecnología de voz sobre IP. Más concretamente, la invención se refiere a tales servicios basados en el uso de páginas VoiceXML (que es un lenguaje XML (eXtended Markup Language) tal como se describe en VoiceXML Version 2.0 Specification W3C Recommendation, 16 de marzo de 2004, http://www.w3.org/TR/voicexm120/, normalizado a W3C por el World Wide Web Consortium, y que define interacciones de voz) o de cualquier otro formalismo equivalente, por ejemplo: SALT (Speech Applications Language Tags) tal como se describe en Speech Applications Language Tags 1.0 Specification, 15 de julio de 2002, http://www.saltforum.org/default.asp, X+V (por XHTML y Voice, siendo X+V un formato de descripción de interacciones multimodales) tal como se describe en XHTML+Voice Profile 1.0 Specification W3C Note, 21 de diciembre de 2001, http://www.w3.org/TR/xhtml+voice... A título de ejemplo, el centro de llamadas Service Clients Wanadoo (marca registrada) proporciona asistencia técnica a los usuarios de Wanadoo (marca registrada) mediante un servicio de voz interactivo. Este servicio de voz interactivo recibe llamadas de los usuarios, y a continuación las redirige hacia un servicio o un asesor técnico apropiado. Tal servicio de voz permite, además, proporcionar una información a un usuario, sin intervención de un asesor técnico. 2. Soluciones de la técnica anterior Una técnica bien conocida que permite diseñar y desarrollar servicios de voz interactivos se basa en el uso de páginas VoiceXML. Un documento VoiceXML define interacciones de voz y/o sonoras entre un usuario (desde su teléfono, por ejemplo) y una plataforma de aplicación de un servicio de voz dado que debe ser conducido por el interpretador VoiceXML situado en la plataforma. Una sesión de usuario consiste de este modo en varios diálogos cargados por la plataforma según las respuestas del usuario. Aunque algunos de los formatos de descripción de servicios de voz interactivos están normalizados y han alcanzado una madurez industrial (por ejemplo la versión 2.0 del VoiceXML), pocos proveedores de plataforma integran el conjunto de las recomendaciones de las normas (VoiceXML, SALT, X+V...). En algunos caso, algunos comportamientos difieren de un proveedor de plataforma a otro, o bien porque la norma se ha interpretado de manera diferente, o bien porque la plataforma no está actualizada, es decir, no respeta todas las exigencias de la norma. De este modo, a pesar de estos formatos de descripción normalizados, no existe aún compatibilidad total entre plataformas Asimismo, estos formatos normalizados no ofrecen en general ninguna funcionalidad específica (tratamiento del lenguaje natural, redireccionamiento de las llamadas, etc.), lo cual requiere desarrollos adicionales más o menos complejos en las plataformas Finalmente, en la mayoría de los casos, la sola utilización de estos formatos normalizados, en particular de páginas VoiceXML, es insuficiente ya que los lenguajes que se les asocia, a menudo interpretados, sólo proponen una solución para describir interacciones con recursos de voz (difusión de mensajes guía grabados o sintetizados, reconocimiento de voz) pero no permiten describir la estructura de un diálogo ni las interacciones con el sistema de información. Por mensaje guía, se entiende, según una definición comúnmente admitida, cualquier tipo de guías sonoras difundidas hacia el usuario. Estas guías sonoras pueden generarse por un módulo de síntesis de voz (TTS, Text To Speech) o haber sido grabadas previamente en un archivo. Por lo tanto, la mayoría de las veces, hay que completar con componentes de software (por ejemplo servlets, o módulos de extensión de las funciones del servidor de aplicaciones) y páginas dinámicas (por ejemplo JSP (Java Server Page), que es una norma que permite desarrollar aplicaciones cuyo contenido es dinámico) en el servidor de aplicaciones (desempeñando la función de sistema de información) para definir completamente el servicio de voz interactivo. 2 E06708544 02-12-2011 Todos estos puntos complican el diseño, la aplicación y el mantenimiento de los diferentes componentes de los servicios de voz interactivos. Esta complejidad se caracteriza en particular por una fuerte imbricación de los datos relativos a la presentación de las informaciones que se utilizan para el tratamiento y las transiciones entre los diferentes estados del diálogo del servicio de voz. Los documentos D1: DESAI (US 2003/078779 A1), D2: BALL SPEECH-ENABLED SERVICES USING TELEPORTAL SOFTWARE ND VOICE XML, D3: SIEMENS (EP 0848373 A), D4: UNYSYS CORPORATION (WO 02/091364 A1) y D5: FRANCE TELECOM (US 2005/091958) ilustran el estado de la técnica anterior. El documento D1 describe la arquitectura de un servidor de respuesta de voz denominado Anita. También describe un procedimiento de navegación en los diferentes nodos que componen una red a partir de este servidor. El documento D2 es un artículo de prensa relativo a un sistema denominado TelePortal. Este sistema aplica un marco de desarrollo de los servicios de voz interactivos que integra una separación entre la lógica de negocio y la presentación de la información, del mismo modo que se realiza desde hace tiempo en los sistemas clásicos mediante el uso del patrón de diseño MVC. El documento D3 describe un procedimiento y un sistema que permiten convertir documentos HTML en informaciones utilizables por los servicios de voz interactivos con el fin de proponer una distribución dinámica de los contenidos de las páginas web en forma sonora. El documento D4 se refiere a un sistema cliente/servidor que permite mantener una conversación con un usuario mediante una interfaz telefónica. La parte de cliente del sistema integra un navegador capaz de interpretar los documentos VoiceXML. La parte de servidor del sistema incluye un interpretador de flujo de diálogo (DFI) que usa las informaciones proporcionadas por el cliente para generar, dinámicamente, respuestas destinadas al usuario. Los archivos generados incluyen mensajes guía, archivos de gramáticas y otras informaciones. El documento D5 se refiere a la mutualización de la creación de los servicios de voz con el fin de permitir una creación y un mantenimiento fáciles de los servicios. Este documento proporciona un procedimiento de creación de servicios de voz interactivos que es sencillo y que no requiere conocimientos profundos. Los documentos D6 ("A Portable, Server-Side Dialog Framework for VoiceXML" de BOB CARPENTER, SASHA CASKEY, KRISHNA DAYANIDHI, CAROLINE DROUIN, ROBERTO PIERACCINI, SPEECHWORKS INTERNATIONAL ET AL., ICSLP 2002: 7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, DENVER, COLORADO; (ICSLP), ADELAIDE: CAUSAL PRODUCTIONS, AU, 16 de septiembre de 2002 (16/09/2002), página 2705, X P0070117201 S B N: 978-1-876346-40-9) y D7 ("Mainstreaming speech-enabled Web applications" de Juan Huerta, David Lubensky, David Nahamoo, Roberto Pieraccini, T.V. Raman y Charle Wiecha, IBM T.J. Watson Research Center, diciembre de 2004 (14/12/2004), son asimismo documentos, no patentes, que ilustran el estado de la técnica anterior. El documento D6 se refiere a un marco de desarrollo de aplicaciones de voz. El documento D7 se refiere asimismo a un marco de desarrollo de aplicaciones de voz. En particular, el documento D6 describe un archivo de descripción de servicio de voz en la sección "ETUDE DIALOG MANAGER". Este archivo de descripción se presenta en formato UML (fig.2). Un archivo en formato VoiceXML también se crea usando servlets genéricos para la gestión estándar del diálogo, acciones y errores (comparar con la sección REPEAT AND BACKUP). La gestión del diálogo se realiza también generando páginas de tipo JSP, y un servlet genérico de tipo Aplicación se utiliza para los componentes de software específicos (recursos de servidor específicos de diálogo). En el documento D7, el 1º y 2º párrafos de la página 6 describen las herramientas necesarias para construir componentes de software específicos a partir de los componentes genéricos. 3. Objetivos de la invención La invención tiene especialmente como objetivo resolver los inconvenientes de la técnica anterior. Más concretamente, un objetivo de la invención es proporcionar una técnica de implementación de servicios de voz interactivos que permita describir estos servicios de manera sencilla, legible y genérica. Otro objetivo de la invención es proporcionar una técnica que permita describir la estructura de los diálogos y las 3 E06708544... [Seguir leyendo]

Reivindicaciones:

1. Procedimiento de puesta a disposición de un servicio de voz interactivo en formato VoiceXML, de entre un conjunto de servicios de voz interactivos, en una plataforma accesible para un terminal cliente, constituyendo dicha plataforma un elemento intermedio entre dicho terminal y un servidor; caracterizado porque dicho servicio de voz interactivo comprende un archivo de descripción (12) que describe dicho servicio y al menos un componente de software específico a dicho servicio; cuando dicho terminal cliente accede a dicho servicio de voz interactivo, el procedimiento comprende una etapa de interpretación de dicho archivo de descripción (12) y de dicho al menos un componente de software específico a dicho servicio, comprendiendo además dicho procedimiento: - una etapa para generar una página de diálogo de dicho servicio, en formato VoiceXML, según un estado actual de dicho diálogo y de dicho archivo de descripción (12); - una etapa para delegar una operación de procesamiento a realizar por dicho servicio de voz en dicho componente de software específico según dicho estado actual de dicho diálogo y de dicho archivo de descripción (12); y porque dicho servidor accede, durante dicha etapa de generación y dicha etapa de delegación, a un archivo de descripción (15) que describe características de dicha plataforma, con el fin de que dicho servicio de voz interactivo se adapte a dicha plataforma. 2. Procedimiento de suministro según la reivindicación 1, caracterizado porque dicho archivo de descripción (12) asociado a dicho servicio comprende: - al menos un elemento estático (11) de dicho servicio que puede interpretarse por un motor de fases ; y/o - al menos un referenciamiento hacia al menos un segundo componente de software específico a dicho servicio, que permite generar al menos un elemento dinámico y/o complejo (13) de dicho servicio. 3. Procedimiento de suministro según la reivindicación 2, caracterizado porque dicho componente de software genera dinámicamente al menos una página de diálogo a partir de al menos una norma predeterminada. 4. Procedimiento de suministro según la reivindicación 1, caracterizado porque se implementa mediante un motor de fases que es genérico para dicho conjunto de servicios de voz interactivos. 5. Procedimiento de suministro según una cualquiera de las reivindicaciones 3 y 4, caracterizado porque dicho motor de fases (20) comprende medios para: - descodificar dicho archivo de descripción (12) asociado a dicho servicio; - suministrar una lista de al menos un mensaje guía; - generar al menos una transición de estado de dicho servicio; - cargar al menos una gramática; - delegar al menos una operación de procesamiento en dicho al menos un componente de software específico. 6. Procedimiento de suministro según la reivindicación 1, caracterizado porque dicho procedimiento se implementa en un servidor que también lleva a cabo, previa solicitud (10) de dicha plataforma, una etapa de generación de al menos una página de diálogo de dicho servicio a partir de al menos algunos de dichos elementos siguientes: - al menos uno de dichos elementos estáticos (11); - al menos uno de dichos elementos dinámicos y/o complejos (13); - al menos una característica de dicha plataforma, extraída de dicho archivo de descripción (15) que describe características de dicha plataforma. 7. Procedimiento de suministro según la reivindicación 1, caracterizado porque dichas páginas de diálogo se generan dinámicamente según al menos un formalismo predeterminado de descripción de interacciones. 8. Producto de programa informático (523) que comprende instrucciones de código de programa para la ejecución 14 E06708544 02-12-2011 de las etapas del procedimiento para proporcionar un servicio de voz interactivo según una cualquiera de las reivindicaciones 1 a 7 cuando dicho programa se ejecuta en y/o por un procesador. 9. Servidor que comprende medios de generación de al menos una página de diálogo de un servicio de voz interactivo en formato VoiceXML, de entre un conjunto de servicios de voz interactivos, accesible en una plataforma para un terminal cliente, constituyendo dicha plataforma un elemento intermedio entre dicho terminal y dicho servidor; caracterizado porque dicho servidor comprende además medios de mando que permiten interpretar un archivo de descripción (12) que describe dicho servicio y al menos un componente de software específico a dicho servicio, con el fin de permitir dicha generación de dicha página de diálogo, comprendiendo además dicho servidor: - medios para generar una página de diálogo de dicho servicio, en formato VoiceXML, según un estado actual de dicho diálogo y de dicho archivo de descripción (12); - medios para delegar una operación de procesamiento a realizar por dicho servicio de voz en dicho componente de software específico según dicho estado actual de dicho diálogo y de dicho archivo de descripción (12); y porque dicho servidor comprende medios para acceder, durante dicha generación y dicha delegación, a un archivo de descripción (15) que describe características de dicha plataforma, con el fin de que dicho servicio de voz interactivo se adapte a dicha plataforma. E06708544 02-12-2011 16 E06708544 02-12-2011 17 E06708544 02-12-2011

Patentes similares o relacionadas:

Procedimiento y aparato para activación de aplicación mediante entrada de voz, del 17 de Junio de 2020, de QUALCOMM INCORPORATED: Un procedimiento, realizado en un dispositivo electrónico, para activar una aplicación de asistente de voz, siendo la aplicación de asistente de voz una aplicación […]

Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz, del 10 de Junio de 2020, de QUALCOMM INCORPORATED: Un procedimiento para activar una función de asistente de voz en un dispositivo móvil, comprendiendo el procedimiento: recibir un flujo de sonido de entrada por […]

Dispositivo electrónico para proporcionar servicio de reconocimiento de voz y procedimiento del mismo, del 3 de Junio de 2020, de SAMSUNG ELECTRONICS CO., LTD.: Un dispositivo electrónico que comprende: un micrófono ; un visualizador ; un circuito de comunicación; una memoria […]

Método y aparato de intercambio de información, del 20 de Mayo de 2020, de Advanced New Technologies Co., Ltd: Un método de intercambio de información, realizado en un dispositivo terminal, caracterizado porque el método comprende: determinar […]

Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados, del 20 de Mayo de 2020, de Cerence Operating Company: Un sistema para detectar al menos una palabra de activación designada para al menos una aplicación controlada por voz, comprendiendo el sistema: al menos un micrófono; […]

Método y sistema de postratamiento de un resultado de reconocimiento de voz, del 20 de Mayo de 2020, de ZETES Industries S.A: Método de postratamiento de un resultado de reconocimiento de voz, comprendiendo dicho resultado un inicio , un fin y una pluralidad […]

Sistema de alarma de seguridad con procesamiento del habla adaptativo, del 27 de Noviembre de 2019, de HONEYWELL INTERNATIONAL INC.: Un sistema de monitorización que comprende un dispositivo de interfaz de usuario que puede operar de manera manual acoplado, al menos de forma intermitente, […]

Interfaz de entrada de voz incremental con retroalimentación en tiempo real, del 28 de Agosto de 2019, de Veveo, Inc: Un procedimiento implementado por ordenador para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que […]