INTERACCION MULTIMODAL SOBRE APLICACIONES DE TELEVISION DIGITAL.

La invención propone un método de interacción multimodal sobre aplicaciones de televisión digital donde la aplicación multimodal reside en un servidor web y es descargada por un navegador (110) que reside en el propio descodificador de televisión (100).

Utilizando un sistema distribuido de componentes y a través de los protocolos de comunicaciones se pueden realizar todos los procesos de análisis de interacción multimodal en tiempo real. El sistema permite la interacción del usuario con la aplicación mediante el uso del mando a distancia o de la voz.

Tipo: Patente de Invención. Resumen de patente/invención. Número de Solicitud: P200930385.

Solicitante: TELEFONICA, S.A..

Nacionalidad solicitante: España.

Inventor/es: GOMEZ SOTO,JOSE LUIS, MIELGO FERNANDEZ,SUSANA.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06F17/30 SECCION G — FISICA.G06 COMPUTO; CALCULO; CONTEO.G06F TRATAMIENTO DE DATOS DIGITALES ELECTRICOS (computadores en los que una parte del cálculo se efectúa hidráulica o neumáticamente G06D, ópticamente G06E; sistemas de computadores basados en modelos de cálculo específicos G06N). › G06F 17/00 Equipo o métodos de tratamiento de datos o de cálculo digital, especialmente adaptados para funciones específicas. › Recuperación de la información; Estructura de bases de datos a este efecto.
  • G06F3/16 G06F […] › G06F 3/00 Disposiciones de entrada para la transferencia de datos destinados a ser procesados en una forma utilizable por el computador; Disposiciones de salida para la transferencia de datos desde la unidad de procesamiento a la unidad de salida, p. ej. disposiciones de interfaz. › Entrada acústica; Salida acústica (conversión de la voz en información digital o viceversa G10L).
  • G10L15/00 G […] › G10 INSTRUMENTOS DE MUSICA; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACION O DESCODIFICACION DEL AUDIO O LA VOZ.Reconocimiento de la voz (G10L 17/00 tiene prioridad).

Fragmento de la descripción:

Interacción multimodal sobre aplicaciones de televisión digital.

Campo de la invención

La presente invención se aplica al sector de la televisión digital, más concretamente al campo de las interacciones hombre-máquina sobre terminales como descodificadores de televisión digital o teléfonos móviles capaces de ejecutar aplicaciones interactivas que se visualicen sobre un televisor.

Antecedentes de la invención

Un sistema multimodal debe permitir simultáneamente diferentes métodos o mecanismos de entrada (teclado, voz, imágenes, etc.), recogiendo la información de cada uno de ellos según se necesite, por ejemplo, a veces, el usuario podría decir alguna cosa mediante un comando vocal, pero otras veces podría seleccionar un nombre de una lista mediante el uso del teclado e incluso podría seleccionar un menú o una parte de la pantalla apuntando con su propio dedo haciendo que el motor de la interfaz multimodal sea capaz de detectar el método de interacción que el usuario libremente ha escogido (descartando información incongruente recibida a través de los otros métodos).

En lo que respecta al diseño de interfaces de usuario, estos tradicionalmente se han basado en la metáfora del escritorio, desarrollada décadas atrás en los laboratorios de Xeros, y que intenta trasladar todos los objetos y tareas que normalmente se realizan en una oficina real al mundo de los ordenadores; así por ejemplo, tanto los archivos reales como los electrónicos pueden ser almacenados, la tradicional máquina de escribir tiene su equivalente en el procesador de textos, el folio en blanco equivale al documento en blanco del procesador, etc. De esta forma se consigue que el modelo mental que tiene el usuario cuando realiza estas tareas tradicionales se mantenga con pocos cambios cuando se traslada al campo de los ordenadores, es decir, tratar de alcanzar el mayor grado de familiaridad entre objetos y acciones. Esta metáfora de escritorio se ha implementado a través del paradigma WIPM (en inglés, Windows, Icons, Pointers and Menus) que son los principales elementos que sostienen la inmensa mayoría de las interfaces gráficas actuales.

Sin embargo este paradigma resulta claramente inapropiado en un entorno de TV Digital interactiva por varias razones. La primera de ellas está relacionada con la propia naturaleza de las tareas que realiza un usuario sobre una aplicación interactiva (más distendidas y próximas a un entorno de entretenimiento, social, etc.) las cuales hacen que sean muy diferentes a las de una oficina real. Como segundo punto hay que señalar que el dispositivo con el que interactúa el usuario (mando a distancia) es muy diferente en funcionalidad y accesibilidad al del teclado y ratón, lo cual impone muchas restricciones a la hora de realizar tareas sobre un entorno de TV Digital (por ejemplo, la introducción de texto a través del mando a distancia para realizar una simple búsqueda puede convertirse en una tarea costosa). Durante bastantes años, y desde su aparición, el mando a distancia usado en el entorno de la TV se ha convertido en el dispositivo por excelencia y a través de él ha sido posible controlar una gran variedad de dispositivos y funciones asociadas a los mismos. Sin embargo, los modelos de tareas empleados en cualquiera de los servicios interactivos actualmente desplegados a nivel comercial sobre cualquiera de las tecnologías de distribución y entornos de desarrollo de los mismos, hacen que en numerosas ocasiones su utilización resulte ineficiente presentando grandes problemas de usabilidad, lo que se traduce en una desmotivación y perdida de interés en la exploración por parte de los usuarios (usabilidad se define como la eficiencia y satisfacción con la que un producto permite alcanzar objetivos específicos, como por ejemplo la compra de un partido de fútbol, a usuarios específicos, como por ejemplo los tele espectadores, en un contexto de uso específico, como por ejemplo el salón de una vivienda).

Si además tenemos en cuenta que numerosas personas tienen problemas de accesibilidad al utilizar un mando a distancia tradicional, podemos concluir que claramente el mecanismo de interacción tradicional con la televisión se ha quedado desfasado y sobrepasado por los nuevos servicios interactivos ejecutados sobre los decodificadores de televisión digital.

Tareas como la introducción de texto con el mando a distancia a la hora de realizar una búsqueda en una EPG (Electronic Programing Guide o Guía Electrónica de Programación) o la posibilidad de enviar un mensaje a través de una aplicación interactiva de TV, se puede convertir en una tarea costosa que hará que finalmente el usuario pueda perder el interés por su utilización. A la hora de introducir estos datos se suele utilizar un teclado virtual que aparece en pantalla y que puede tener una apariencia similar al teclado de un teléfono móvil o bien el de un teclado ANSI. En cualquier caso el proceso resulta lento, no todo el mundo está acostumbrado a utilizar el mando a distancia como si se tratase de un teclado de un teléfono móvil y además no son infrecuentes los errores que se cometen al utilizar este mecanismo (el mando a distancia funciona por infrarrojos que en función de la luz del entorno, objetos ubicados entre el usuario y el receptor, etc. puede hacer que la pulsación de teclas no se traduzca en una introducción de caracteres). Casi todos los estudios y tests de usabilidad que se realizan sobre las aplicaciones interactivas señalan este proceso como algo costoso para el usuario.

También cabe señalar que la TV tiene un carácter mucho más social, y el usuario normalmente se encuentra en un ambiente mucho más distendido, sentado a 3-4 metros del TV, y con un actitud de mucho menor concentración que la que exige trabajar con un ordenador. Es claro, que muchas de las tareas que se realizan sobre un ordenador a través de un interfaz gráfico tradicional no se podrán realizar o tendrán que ser realizadas de una forma muy diferente. Todo lo anterior ha hecho que necesariamente esta metáfora del escritorio se haya abandonado en los desarrollos de aplicaciones de TV Digital.

Las aplicaciones interactivas sobre TV Digital, además, se ejecutan sobre una única ventana presentada simultáneamente (en lugar de varias como los interfaces gráficos de PC, por ejemplo) por todas las restricciones arriba señaladas. Sobre esta ventana se disponen los diferentes objetos multimedia que componen la escena (textos, gráficos, vídeos, etc.) tratando de que todos ellos estén sincronizados en base a una línea temporal generando un conjunto de escenas que describen las diferentes acciones o pasos que debe completar el usuario hasta conseguir su objetivo. Por ejemplo, en la compra de una película de un sistema interactivo de vídeo bajo demanda, el usuario inicialmente debe entrar en esa sección, realizar una búsqueda del contenido en base a algún criterio, introducir los datos, seleccionar el contenido, introducir un PIN de compra, etc. De forma sincronizada van apareciendo los diferentes objetos en la escena a medida que el usuario interactúa con ellos.

Aunque este concepto basado en la descripción de escenas y la presentación simultánea de objetos (vídeos, textos, gráficos) pueda parecer sencillo resulta costoso desde un punto de vista de procesamiento gráfico y en especial se acentúa sobre aquellos dispositivos -como descodificadores de TV- donde los modelos de negocio, por razones de coste, imponen restricciones importantes en los componentes electrónicos que constituyen el dispositivo. Sin embargo ya existen en la industria tecnologías y mecanismos que soportan este paradigma a nivel de la capa de presentación.

Si quisiéramos trasladar el concepto de sincronización de objetos en la capa de presentación a la de sincronización de los diferentes mecanismos de interacción (mando a distancia, interacción mediante comandos vocales, etc.) veríamos que sobre los entornos de TV Digital apenas se han desarrollado arquitecturas que soporten esta sincronización de mecanismos de interacción. Por ejemplo, podríamos querer, volviendo a la aplicación interactiva de la compra de una película de vídeo bajo demanda, realizar la búsqueda del contenido mediante un comando vocal que se de al sistema, pero luego introducir -por cuestiones de privacidad- el PIN de compra mediante el mando a distancia tradicional. La gestión simultanea de los diferentes mecanismos de interacción resulta compleja desde un punto de vista semántico (por ejemplo, cuando se dan órdenes contrarias y simultáneas a través de una interfaz vocal y gráfica) y costosa en recursos de procesamiento...

 


Reivindicaciones:

1. Método de interacción multimodal sobre aplicaciones interactivas de TV Digital, donde la televisión está provista de un descodificador en red (100) que incorpora un navegador asociado (110), caracterizado por los siguientes pasos:

a. Conexión del navegador a un servidor en red y descarga de una aplicación multimodal y sus etiquetas descriptivas que se generan en respuesta a un evento de interacción producido por un usuario durante el diálogo hombre-máquina. b. Envío por parte del navegador de las etiquetas que caracterizan la aplicación multimodal a un intérprete (300) que reside en un servidor en red. c. Interpretación de las etiquetas por parte del intérprete, que ordena la ejecución de acciones correspondientes a las etiquetas. d. Repetición de los pasos a-c hasta que el usuario salga de la aplicación.

2. Método según la reivindicación 1 caracterizado porque en el paso a. los eventos son gráficos y/o voz.

3. Método según la reivindicación 2 caracterizado porque se asocia un módulo externo (120) al navegador (110) con la función de transferir las etiquetas descriptivas del diálogo de voz al intérprete de dichas etiquetas (300) mediante un protocolo IP.

4. Método según la reivindicación 3 caracterizado porque el intérprete (300) de las etiquetas descriptivas del diálogo de voz coordina y controla todos los eventos de voz.

5. Método según la reivindicación 4, caracterizado porque el intérprete (300) de las etiquetas descriptivas del diálogo de voz se comunica con uno o varios servidores que proporcionan recursos de voz mediante el protocolo MRCP.

6. Método según la reivindicación 5 caracterizado porque el interprete (300) de las etiquetas descriptivas del diálogo de voz analiza la estructura de la aplicación multimodal y envía los correspondientes comandos al servidor de voz que cumple el protocolo MRCP.

7. Método según la reivindicación 6 caracterizado porque el interprete (300) de las etiquetas descriptivas del diálogo de voz se comunica con el módulo externo (120) asociado al navegador del descodificador y le transfiere los datos necesarios para que éste establezca una sesión mediante SIP con el servidor de voz MRCP (460).

8. Método según la reivindicación 7, caracterizado porque el descodificador recibe y envía los datos de voz al servidor MRCP (460) mediante el protocolo RTP.

9. Método según la reivindicación 8, caracterizado porque el módulo externo (120) asociado al navegador establece una comunicación con un cliente RTP (170) obteniéndose de este modo el estado de la comunicación entre el descodificador y el servidor de voz MRCP (460).

10. Método según cualquiera de las reivindicaciones 5-9 caracterizado porque el descodificador (100) dispone de una aplicación (190) capaz de recoger los datos provenientes de cualquier dispositivo externo que recoja datos de audio y sea capaz de enviarlo mediante una conexión IP a los servidores de voz.

11. Método según la reivindicación 10 caracterizado porque dicha aplicación es capaz de comprimir dichos datos de audio al formato compatible con un servidor MRCP y enviarlos a través del protocolo RTP hasta el servidor de voz (400).

12. Método según la reivindicación 11, caracterizado porque el descodificador dispone de una aplicación (180) capaz de recoger los datos de audio provenientes del canal RTP, descomprimirlos al formato reproducible por el descodificador y enviarlos a un dispositivo electrónico existente en él encargado de la generación de audio.

13. Método según cualquiera de las reivindicaciones 3-12 caracterizado porque la comunicación entre el navegador (110) existente en el descodificador y el módulo externo (120) se realiza a través de una interfaz de programación de aplicaciones.

14. Método según cualquiera de las reivindicaciones anteriores, caracterizado porque las aplicaciones multimodales ejecutadas en el navegador (110) son preprocesadas, separando la lógica multimodal de la lógica de servicio antes de ser mostradas al usuario.

15. Sistema capaz de llevar a cabo cualquiera de los métodos de las reivindicaciones 1 a 14.

16. Uso del sistema de la reivindicación 15 en un servicio de televisión digital de pago por visión.


 

Patentes similares o relacionadas:

Dispositivo de procesamiento de información, método de procesamiento de información, programa de procesamiento de información y soporte de registro, del 1 de Mayo de 2019, de RAKUTEN, INC: Dispositivo de procesamiento de información que comprende: un medio (12b) de memoria de palabra de área local que almacena una palabra de área […]

Método para proporcionar una estructura de índice en una base de datos, del 1 de Mayo de 2019, de Capish International AB: Metodo para proporcionar una estructura de indice en una base de datos que comprende una pluralidad de tipos de objetos, donde cada tipo de objetos […]

SISTEMA PARA LA DETECCIÓN REMOTA DEL USO DEL CINTURÓN DE SEGURIDAD EN UN VEHÍCULO, del 18 de Abril de 2019, de CASANOVA RENT VOLKS, S.A. DE C.V: La presente invención se refiere a la industria automotriz, particularmente está relacionada con los cinturones de seguridad con que están equipados los vehículos, […]

Proporcionar vistas de datos únicas basadas en cambios o reglas, del 3 de Abril de 2019, de Palantir Technologies, Inc: Un método, que comprende: crear y almacenar, en un a base de datos de revisión, versiones de uno o más objetos de datos; en el que […]

Buscar automáticamente elementos relacionados contextualmente de una tarea, del 3 de Abril de 2019, de Microsoft Technology Licensing, LLC: Un sistema contextual implementado por ordenador para producir resultados basándose en un elemento de referencia, siendo el elemento de referencia […]

Un indicador de región de vídeo que indica que hay disponible contenido de vídeo, del 1 de Abril de 2019, de Nokia Technologies OY: Un método que comprende: determinar una localización de navegación interactiva; provocar la visualización de una imagen en perspectiva […]

Coautoría para un sistema de gestión de documentos, del 6 de Marzo de 2019, de M-Files Oy: Un método en un sistema de gestión de documentos, en donde dicho sistema de gestión de documentos almacena objetos electrónicos en un servidor […]

Tratamiento de peticiones de datos, del 4 de Marzo de 2019, de AMADEUS S.A.S.: Un método para tratar peticiones de datos dirigidas a un entorno de base de datos, comprendiendo el entorno de base de datos al menos una primera plataforma que proporciona […]

Otras patentes de TELEFONICA, S.A.