UN MÉTODO DE VISUALIZACIÓN DE SUBTÍTULOS Y UN DISPOSITIVO DE CONTROL DE VIDEOCOMUNICACIÓN.

Un método de visualización de subtítulos procesado por una Unidad de Control Multipunto,

MCU, en una conferencia multipunto, comprendiendo la unidad MCU una pluralidad de módulos de reconocimiento de voz y una pluralidad de módulos de codificación de vídeo, configurando e iniciando la unidad MCU la pluralidad de módulos de reconocimiento de voz y de módulos de codificación de vídeo, en donde el número de módulos de reconocimiento de voz a iniciarse se establece en el sistema y comprendiendo el método las etapas que consisten en:

establecer una videocomunicación entre sitios operativos;

recibir, por medio de la MCU, señales de voz y señales de vídeo de cada sitio operativo y decodificar las señales de voz;

realizar, por la MCU, una mezcla de audio y obtener un número de los sitios operativos con volumen máximo durante el proceso de mezcla de audio, en donde el número de los sitios operativos con máximo volumen corresponde al número de los módulos de reconocimiento de voz iniciados por la MCU;

reconocer y convertir, respectivamente, por el número de los módulos de reconocimiento de voz, las señales de voz de los sitios operativos con el máximo volumen para las señales de texto correspondientes y enviar las señales de texto a los módulos de codificación de vídeo correspondientes a los sitios operativos;

superponer y codificar, por los módulos de codificación de vídeo, las señales de texto y las correspondientes señales de vídeo, que necesitan recibirse por, y visualizarse para, otros sitios operativos de conferencia y enviar las señales de texto, superpuestas y codificadas, y las señales de vídeo a los sitios operativos a través de la videocomunicación.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CN2008/070195.

Solicitante: HUAWEI TECHNOLOGIES CO., LTD..

Nacionalidad solicitante: China.

Dirección: Huawei Administration Building Bantian Longgang District, Shenzhen Guangdong 518129 CHINA.

Inventor/es: LIU,Zhihui, YUE,Zhonghui.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • G06F17/30
  • G09B21/00 FISICA.G09 ENSEÑANZA; CRIPTOGRAFIA; PRESENTACION; PUBLICIDAD; PRECINTOS.G09B MATERIAL EDUCATIVO O DE DEMOSTRACION; MEDIOS DE ENSEÑANZA O DE COMUNICACION DESTINADOS A LOS CIEGOS, SORDOS O MUDOS; MODELOS; PLANETARIOS; GLOBOS; MAPAS GEOGRAFICOS; DIAGRAMAS.Medios de enseñanza o de comunicación destinados a los ciegos, sordos o mudos (presentación sonora del objeto a estudiar G09B 5/04).
  • G09B21/04 G09B […] › G09B 21/00 Medios de enseñanza o de comunicación destinados a los ciegos, sordos o mudos (presentación sonora del objeto a estudiar G09B 5/04). › Dispositivos para la conversación con los sordos-ciegos.
  • G10L15/26 G […] › G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Sistemas de síntesis de texto a partir de la voz (G10L 15/08 tiene prioridad).
  • H04L29/06 ELECTRICIDAD.H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS.H04L TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION TELEGRAFICA (disposiciones comunes a las comunicaciones telegráficas y telefónicas H04M). › H04L 29/00 Disposiciones, aparatos, circuitos o sistemas no cubiertos por uno solo de los grupos H04L 1/00 - H04L 27/00. › caracterizadas por un protocolo.
  • H04L29/08 H04L 29/00 […] › Procedimiento de control de la transmisión, p. ej. procedimiento de control del nivel del enlace.
  • H04M3/42 H04 […] › H04M COMUNICACIONES TELEFONICAS (circuitos para el control de otros aparatos vía cable telefónico y que no implican aparatos de conmutación telefónica G08). › H04M 3/00 Centrales automáticas o semiautomáticas. › Sistemas que proporcionan servicios o funciones especiales a los abonados (especialmente adaptada para redes de comunicación inalámbricas H04W 4/00).
  • H04N7/14 H04 […] › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas de doble vía (H04N 7/173 tiene prioridad).
  • H04N7/15 H04N 7/00 […] › Sistemas para conferencias.

PDF original: ES-2375537_T3.pdf

 


Fragmento de la descripción:

Un método de visualización de subtítulos y un dispositivo de control de videocomunicación ANTECEDENTES DE LA INVENCIÓN

CAMPO DE LA TECNOLOGÍA

La presente invención se refiere a un campo de la comunicación y más en particular, a un método de visualización de subtítulos y un sistema y dispositivo de videocomunicación.

ANTECEDENTES DE LA INVENCIÓN

Con el desarrollo de tecnologías tales como Protocolo de Voz sobre Internet (IP) (VoIP) , Procesamiento Digital de Señales (DSP) y ancho de banda de red, los usuarios pueden ahora efectuar, de forma cómoda, llamadas a larga distancia a través de un sistema de videoconferencia y ver las expresiones y acciones de la parte opuesta a través de imágenes. Un sistema de videoconferencia convencional suele incluir terminales de vídeo, una red de transmisión y una unidad de control multipunto (MCU) . El terminal de vídeo está adaptado para recibir una entrada de audio y vídeo local, codificar un flujo de códigos de audio y de vídeo y enviar el flujo de códigos de audio y de vídeo codificado a un extremo lejano a través de la red de transmisión. El terminal de vídeo está también adaptado para recibir y decodificar el flujo de códigos de audio y de vídeo desde el extremo lejano y para recuperar el sonido y las imágenes del extremo lejano a través de altavoces y monitores locales. La unidad MCU está principalmente adaptada para realizar un control de conferencias y un intercambio de medios, por ejemplo, una o más conferencias multipunto se pueden celebrar a través de la MCU. La MCU recibe, además, los flujos de códigos de audio y de vídeo desde los terminales, realiza una mezcla de audio, combina múltiples tramas y envía los flujos de códigos de audio y de vídeo procesados a los terminales correspondientes. Sin embargo, el sistema de videocomunicación convencional, en su mayor parte, no soporta una función de visualización de subtítulos en tiempo real. Si el subtítulo se visualiza en tiempo real durante la conferencia, el sonido de un altavoz se convierte en caracteres y los caracteres se visualizan, de forma síncrona, en una pantalla, se mejora la experiencia visual de los usuarios y las personas con dificultades auditivas o barrera de lenguaje pueden realizar la comunicación utilizando el sistema de vídeo con el fin de superar la dificultad de comunicación.

En una solución existente de la videoconferencia con la presentación visual de subtítulos, durante una conferencia, el subtítulo que necesita enviarse se aplica a la entrada del terminal a través de una interfaz, siendo el texto de entrada superpuesto sobre la imagen y dicha imagen se codifica y envía a un extremo receptor. Después de recibir la imagen, el extremo receptor decodifica y visualiza la imagen. Sin embargo, el defecto de la técnica anterior es que se requiere una entrada manual excesiva, por lo que el contenido de los subtítulos, que se van a visualizar, debe editarse por anticipado y el contenido de los subtítulos no se puede transmitir en tiempo real, por lo que el método de visualización de subtítulos sólo suele ser aplicable a la notificación de información de la conferencia.

La patente de Estados Unidos nº 5.774.857 da a conocer un dispositivo de comunicación con visualización de subtítulos. Un teléfono y algunas interfaces de usuarios, por ejemplo, un teclado, están exteriormente conectados a un extremo receptor y un módulo de reconocimiento de voz está integrado. Cuando un usuario establece una llamada a través del teléfono, el dispositivo recibe señales de voz desde un extremo lejano y a continuación, un módulo de reconocimiento de voz convierte las señales de voz recibidas en señales de texto, un modulador de radiofrecuencia (RF) modula las señales de texto a señales de banda base de vídeo y envía las señales a un aparato de TV para su presentación visual.

El documento US 7.039.675 B1 está relacionado con el reconocimiento de voz simple en una videoconferencia. Da a conocer un método y un aparato para un terminal de uso general que se conecta a un sistema de videoconferencia multipunto, a través de Internet, para participar en la sesión de videoconferencia. Se centra en el reconocimiento y conversión de las señales de audio mezcladas en señales de texto y para enviar las señales de texto al terminal de uso general.

El documento US 2004/119814 A1 da a conocer un terminal de videoconferencia lejano para participar en una conferencia a través de enlaces de comunicaciones inalámbricos. Además, da a conocer que el dispositivo del cliente puede recibir texto que acompaña al vídeo y multiplexar el texto con el vídeo para proporcionar una señal de vídeo cerrada con subtítulos.

El documento CN 1 283 931 A da a conocer un método de superposición de subtítulos.

Willebeek-Lemair M H et al: “Unidades de control multipunto para sesiones de videoconferencias”, Processing of the Conference on Local Computer Networks, 2 de octubre de 1994, páginas 356–364, da a conocer una infraestructura de unidad de control multipunto para sesiones de videoconferencias.

Clark W J: “Conferencias multimedia multipunto”, IEEE Communications Magazine, IEEE Service Center, Piscataway, Estados Unidos, tomo 30, nº 5, 1 de mayo de 1992, páginas 44–50, da a conocer un método para sesiones de conferencia multimedia multipunto y la función de mezcla de audio se puede poner en práctica en la MCU.

Sin embargo, durante la puesta en práctica de la presente invención, los inventores encuentran al menos los problemas técnicos siguientes.

En el dispositivo existente, el modulador de RF modula las señales de texto en señales de RF y modula las señales de RF para la presentación visual de señales de banda base de vídeo, por lo que se aumenta, en gran medida, la complejidad de la visualización de los subtítulos y se tiene un rendimiento en tiempo real no favorable. A continuación, el módulo de reconocimiento de voz del dispositivo está dispuesto en el extremo receptor, lo que no es conveniente para la formación en reconocimiento de voz de los usuarios. Además, en la conferencia multipunto, si las señales de voz recibidas por el dispositivo existente son señales sintetizadas de voz de una pluralidad de personas, el módulo de reconocimiento de voz único no puede reconocer las diferentes señales de voz al mismo tiempo, por lo que las señales de reconocimiento están desordenadas y el subtítulo no se puede visualizar de forma correcta.

SUMARIO DE LA INVENCIÓN

Con el fin de resolver los problemas de un sistema de videocomunicación existente en el sentido de que una tecnología de visualización de subtítulos es complicada y su rendimiento en tiempo real es desfavorable, la presente invención da a conocer un método de visualización de subtítulos y un dispositivo de control de videocomunicación según las reivindicaciones independientes 1 y 2, respectivamente. El método de visualización de subtítulos es simple y el rendimiento en tiempo real es alto.

En comparación con la técnica anterior, las soluciones técnicas en las formas de realización de la presente invención presentan al menos las ventajas siguientes. En las formas de realización de la presente invención, las señales de voz se reconocen para las señales de texto y las señales de texto son directamente superpuestas sobre las señales de vídeo para su codificación y transmisión, de modo que los usuarios puedan decodificar directamente y visualizar imágenes e información de caracteres correspondientes a una voz y el método es simple y el rendimiento en tiempo real es alto.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Para ilustrar las soluciones técnicas, según las formas de realización de la presente invención, o en la técnica anterior, con mayor claridad, se hace referencia, a continuación, a los dibujos adjuntos para describir las formas de realización o la técnica anterior, de una forma concisa.

La Figura 1 es una vista esquemática simple de principios de una comunicación punto a punto de un sistema y dispositivo de videocomunicación según una primera forma de realización de la presente invención;

La Figura 2 es una vista esquemática simple de principios de una comunicación punto a punto de un sistema y dispositivo de videocomunicación según una segunda forma de realización de la presente invención;

La Figura 3 es una vista esquemática simple de principios de una... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de visualización de subtítulos procesado por una Unidad de Control Multipunto, MCU, en una conferencia multipunto, comprendiendo la unidad MCU una pluralidad de módulos de reconocimiento de voz y una pluralidad de módulos de codificación de vídeo, configurando e iniciando la unidad MCU la pluralidad de módulos de reconocimiento de voz y de módulos de codificación de vídeo, en donde el número de módulos de reconocimiento de voz a iniciarse se establece en el sistema y comprendiendo el método las etapas que consisten en:

establecer una videocomunicación entre sitios operativos; 10 recibir, por medio de la MCU, señales de voz y señales de vídeo de cada sitio operativo y decodificar las señales de voz;

realizar, por la MCU, una mezcla de audio y obtener un número de los sitios operativos con volumen máximo durante el proceso de mezcla de audio, en donde el número de los sitios operativos con máximo volumen corresponde al número 15 de los módulos de reconocimiento de voz iniciados por la MCU;

reconocer y convertir, respectivamente, por el número de los módulos de reconocimiento de voz, las señales de voz de los sitios operativos con el máximo volumen para las señales de texto correspondientes y enviar las señales de texto a los módulos de codificación de vídeo correspondientes a los sitios operativos;

superponer y codificar, por los módulos de codificación de vídeo, las señales de texto y las correspondientes señales de vídeo, que necesitan recibirse por, y visualizarse para, otros sitios operativos de conferencia y enviar las señales de texto, superpuestas y codificadas, y las señales de vídeo a los sitios operativos a través de la videocomunicación.

2. Un dispositivo de control de videocomunicación, que comprende una unidad de control multipunto, MCU, y una pluralidad de dispositivos de terminales de vídeo, estando la pluralidad de dispositivos terminales de vídeo conectados a la MCU, comprendiendo cada uno de los dispositivos terminales de vídeo un módulo de captura de voz y un módulo de captura de imagen, integrando la MCU una pluralidad de módulos de reconocimiento de voz y una pluralidad de módulos de codificación de vídeo, en donde la unidad MCU está adaptada para poner en práctica el método de visualización de subtítulos según la reivindicación 1.

Señal de audio Codificación voz

Micrófonodigital Flujo de códigos de audio

Reconocimientode voz Red Dispositivo deVoz sintetizadaentrada

Información de texto

Flujo de códigos Señal de vídeo de vídeo

Cámara dedigital vídeo Superposición código deimagen y subtítulo

Decodificación Altavozaudio

Decodificación Presentación imagen visual Figura 1

Codificación Reconocimiento

vídeo

Decodificación Mezcla dede voz

Terminal 1

audio

Terminal 1

Codificación audio

Terminal 2

Decodificación audio audio Reconocimiento

Codificación de voz

vídeo Terminal 2

Codificación audio Procesamiento por MCU

Figura 2

Terminal 2

Terminal 3

Otros terminales Figura 3

Establecer una videoconferencia Determinar y establecer una cantidad de señales de voz reconocidas Seleccionar las señales de voz con una cantidad correspondiente en función de su cantidad Reconocer y convertir las señales de voz a información de texto Superponer la información de texto sobre las señales de vídeo para codificación y envío

Otros participantes de la conferencia reciben y decodifican las señales de vídeo y ven imágenes y subtítulos

Figura 4


 

Patentes similares o relacionadas:

Procedimiento y dispositivo para el procesamiento de una solicitud de servicio, del 29 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un procedimiento para el procesamiento de una solicitud de servicio, comprendiendo el procedimiento: recibir (S201), mediante un nodo de consenso, una solicitud […]

Procedimiento y dispositivo para su uso en la gestión de riesgos de información de aplicación, del 22 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un procedimiento para la gestión de riesgos de información de aplicación en un dispositivo de red, comprendiendo el procedimiento: recibir información […]

Gestión de memoria intermedia recomendada de red de una aplicación de servicio en un dispositivo de radio, del 22 de Julio de 2020, de TELEFONAKTIEBOLAGET LM ERICSSON (PUBL): Un método llevado a cabo por un nodo de red en una red de comunicación por radio , comprendiendo el método: obtener (S1) una predicción del ancho […]

Método, servidor y sistema de inicio de sesión de confianza, del 22 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un método de inicio de sesión de confianza implementado por computadora aplicado a un sistema de inicio de sesión de confianza que comprende un primer sistema de aplicación […]

Método y aparato para configurar un identificador de dispositivo móvil, del 22 de Julio de 2020, de Advanced New Technologies Co., Ltd: Un método implementado por servidor para configurar un identificador de dispositivo móvil, que comprende: obtener una lista de aplicaciones, APP, […]

Método para un nivel mejorado de autenticación relacionado con una aplicación de cliente de software en un dispositivo informático de cliente que comprende una entidad de módulo de identidad de abonado con un kit de herramientas de módulo de identidad de abonado así como una miniaplicación de módulo de identidad de abonado, sistema, dispositivo informático de cliente y entidad de módulo de identidad de abonado para un nivel mejorado de autenticación relacionado con una aplicación de cliente de software en el dispositivo informático de cliente, programa que comprende un código de programa legible por ordenador y producto de programa informático, del 22 de Julio de 2020, de DEUTSCHE TELEKOM AG: Un método para un nivel mejorado de autenticación relacionado con una aplicación de cliente de software en un dispositivo informático […]

Método para atender solicitudes de acceso a información de ubicación, del 22 de Julio de 2020, de Nokia Technologies OY: Un aparato que comprende: al menos un procesador; y al menos una memoria que incluye un código de programa informático para uno o más programas, […]

Sincronización de una aplicación en un dispositivo auxiliar, del 22 de Julio de 2020, de OPENTV, INC.: Un método que comprende, mediante un dispositivo de medios: acceder, utilizando un módulo de recepción, un flujo de datos que incluye contenido […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .