Procesado de audio en una conferencia con múltiples participantes.

Un procedimiento para crear un efecto de panoramización estéreo en una conferencia multimedia entre unapluralidad de participantes,

comprendiendo el procedimiento:

determinar que un segundo participante en la conferencia realiza una acción que provoca un efecto de sonidode interfaz de usuario que se reproducirá en un dispositivo de un primer participante;

identificar una ubicación de una presentación de vídeo del segundo participante en un dispositivo devisualización del primer participante que muestra presentaciones de vídeo de al menos el segundoparticipante y un tercer participante; y

en base a la ubicación identificada, panoramizar el efecto de sonido para la acción llevada a cabo a través delos altavoces de audio en el dispositivo del primer participante a fin de que el sonido asociado a la acciónaparezca como originario del lugar identificado de la presentación del video del segundo participante.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E12164796.

Solicitante: APPLE INC..

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 1 INFINITE LOOP CUPERTINO, CA 95014 ESTADOS UNIDOS DE AMERICA.

Inventor/es: JEONG,Hyeonkuk, SALSBURY,Ryan.

Fecha de Publicación: 13 de Noviembre de 2013.

Clasificación Internacional de Patentes:

H04N7/15 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas para conferencias.

PDF original: ES-2445923_T3.pdf

Fragmento de la descripción:

Procesado de audio en una conferencia con múltiples participantes

CAMPO DE LA INVENCIÓN

La presente invención se refiere al procesado de audio en una conferencia con múltiples participantes.

ANTECEDENTES DE LA INVENCIÓN

Con la proliferación de los ordenadores de propósito general, ha habido un aumento de la demanda para la realización de conferencias a través de ordenadores personales o de negocios. En tales conferencias, es deseable identificar rápidamente a los participantes que están hablando en un momento dado. Tal identificación, sin embargo, se vuelve difícil a medida que se añaden más participantes, en especial para los participantes que sólo reciben datos de audio. Esto se debe a que las aplicaciones de conferencia anteriores no proporcionan ninguna pista visual o auditiva para ayudar a identificar hablantes activos durante una conferencia. Por lo tanto, existe una necesidad en la técnica de aplicaciones de conferencia que ayuden a un participante a identificar rápidamente los participantes que hablan activamente en la conferencia.

RESUMEN DE LA INVENCIÓN

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio con múltiples participantes a través de una red de ordenadores. Esta arquitectura tiene un distribuidor central que recibe señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando la señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones utilizan entonces los signos de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de la señal para activar la panoramización de audio.

En algunas realizaciones, el distribuidor central produce una única señal mezclada que incluye el audio de todos los participantes. Esta corriente (junto con los indicios de intensidad de señal) se envía a todos los participantes. Durante la reproducción de este flujo, un participante silenciará la reproducción de fondo si el participante mismo es el principal contribuyente. Este plan proporciona supresión de eco sin necesidad de flujos separados y distintos para cada participante. Este sistema requiere menos computación del distribuidor central. También, a través de multidifusión IP, el distribuidor central puede reducir sus necesidades de ancho de banda.

Los ordenadores del distribuidor central y de los participantes pueden tomar distintas formas. En otras palabras, estos ordenadores pueden integrarse en cualquier tipo de dispositivo, como un ordenador de mesa independiente, ordenador portátil, y/o ordenador de mano u otro dispositivo de electrónica de consumo o de comunicación, centro multimedia, concentrador, etc.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Las características novedosas de la invención se exponen en las reivindicaciones adjuntas. Sin embargo con fines de explicación, se exponen varias realizaciones en las siguientes figuras.

La Figura 1 ilustra un ejemplo de la arquitectura de conferencia de audio/video de algunas realizaciones de la invención.

Las Figuras 2 y 3 ilustran cómo algunas realizaciones intercambian contenido de audio en una conferencia de audio/video con múltiples participantes.

La Figura 4 muestra los componentes software de la aplicación de conferencia de audio/video de algunas realizaciones de la invención.

La Figura 5 ilustra el módulo de punto focal de algunas realizaciones de la invención.

La Figura 6 es un diagrama de flujo que muestra la generación de audio mezclado por el punto focal en algunas de las realizaciones.

La Figura 7 ilustra cómo el protocolo RTP es utilizado por el módulo de punto focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 8 ilustra el punto no focal de algunas realizaciones de la invención.

La Figura 9 ilustra cómo el protocolo RTP es utilizado por el módulo de punto no focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 10 ilustra conceptualmente el flujo de la operación de decodificación del punto no focal no en algunas realizaciones.

La Figura 11 ilustra los medidores de nivel de audio que se muestran en algunas realizaciones de la invención.

La Figura 12 muestra una disposición ejemplar de las imágenes de los participantes sobre una de las pantallas de los participantes.

La Figura 13 es un diagrama de flujo que ilustra el proceso mediante el cual algunas realizaciones de la invención realizan la panoramización de audio.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

En la siguiente descripción, se exponen numerosos detalles con fines de explicación. Sin embargo, un experto en la técnica se dará cuenta de que la invención puede ser llevada a cabo sin el uso de estos detalles específicos. En otros casos, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloques para no oscurecer la descripción de la invención con detalles innecesarios.

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio/video con múltiples participantes. Esta arquitectura tiene un distribuidor central que recibe las señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando de señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones a continuación, utilizan los indicios de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de señal para activar la panoramización de audio.

Varias realizaciones detalladas de la invención se describen a continuación. En estas realizaciones, el distribuidor central es el ordenador de uno de los participantes en la conferencia de audio/video. Un experto se dará cuenta de que otras realizaciones se implementan de forma diferente. Por ejemplo, en algunas realizaciones el distribuidor central no es el ordenador de ninguno de los participantes en la conferencia.

I. VISIÓN GENERAL

La Figura 1 ilustra un ejemplo de arquitectura de conferencia 100 de algunas realizaciones de la invención. Esta arquitectura permite que varios participantes participen en una conferencia a través de varios ordenadores que están conectados mediante una red de ordenadores. En el ejemplo ilustrado en Figura 1, cuatro participantes A, B, C y D se participan en la conferencia a través de sus cuatro ordenadores y una red 105-120 (no mostrada) que conecta estos ordenadores. La red que conecta a estos ordenador s pueden ser cualquier red, como una red de área local, una red de área extensa, una red de redes (por ejemplo, Internet) , etc.

La conferencia puede ser una conferencia de audio/video, o una conferencia solamente de audio, o una conferencia de audio/video para algunos de los participantes y una conferencia sólo de audio para los demás participantes. Durante la conferencia, el ordenador 105 de uno de los participantes (participante D en este ejemplo) sirve como distribuidor central de contenido de audio y/o vídeo (es decir, contenido de audio/video) , como se muestra en Figura 1. Este distribuidor central 125 se denomina más adelante punto focal de la conferencia de múltiples participantes. Los ordenadores de los demás participantes se denominan a continuación máquinas no focales u ordenadores no focales.

Además, la discusión a continuación se centra en las operaciones de audio de los ordenadores focales y no focales. El funcionamiento de vídeo de estos ordenadores... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para crear un efecto de panoramización estéreo en una conferencia multimedia entre una pluralidad de participantes, comprendiendo el procedimiento:

determinar que un segundo participante en la conferencia realiza una acción que provoca un efecto de sonido 5 de interfaz de usuario que se reproducirá en un dispositivo de un primer participante;

identificar una ubicación de una presentación de vídeo del segundo participante en un dispositivo de visualización del primer participante que muestra presentaciones de vídeo de al menos el segundo participante y un tercer participante; y

en base a la ubicación identificada, panoramizar el efecto de sonido para la acción llevada a cabo a través de los altavoces de audio en el dispositivo del primer participante a fin de que el sonido asociado a la acción aparezca como originario del lugar identificado de la presentación del video del segundo participante.

2. El procedimiento según la reivindicación 1, en el que panoramizar el efecto de sonido de interfaz de usuario comprende crear un retardo en al menos uno de los altavoces de audio del primer participante.

3. El procedimiento según la reivindicación 1, en el que la acción que desencadena el efecto de sonido de 15 interfaz de usuario a reproducir comprende unirse a la conferencia.

4. El procedimiento según la reivindicación 1, en el que la acción que desencadena el efecto de sonido de interfaz de usuario a reproducir comprende salirse de la conferencia.

5. El procedimiento según la reivindicación 1, en el que la panoramización comprende reducir una amplitud de audio de al menos uno de los altavoces de audio del primer participante.

6. El procedimiento según la reivindicación 1, en el que el dispositivo del primer participante es un dispositivo distribuidor central para la conferencia multimedia.

7. El procedimiento según la reivindicación 1, en el que el dispositivo del primer participante es un dispositivo distribuidor no central para la conferencia multimedia.

8. Un medio legible por máquina que almacena un programa de ordenador que cuando se ejecuta por al menos

una unidad de procesamiento de un dispositivo de un primer participante crea un efecto de panoramización estéreo en una conferencia multimedia entre una pluralidad de participantes, incluyendo al primer participante, comprendiendo el programa de ordenador conjuntos de instrucciones para:

determinar que un segundo participante en la conferencia realiza una acción que provoca un efecto de sonido de interfaz de usuario que se reproducirá en un dispositivo de un primer participante;

en base a la ubicación identificada, panoramizar el efecto de sonido para la acción que se realiza a través de los altavoces de audio en el dispositivo del primer participante a fin de que el sonido asociado a la acción aparezca como originario del lugar identificado de la presentación del video del segundo participante.

9. El medio legible por máquina según la reivindicación 8, en el que el conjunto de instrucciones para panoramizar el efecto de sonido comprende conjuntos de instrucciones para:

crear un retardo en al menos uno de los altavoces de audio del primer participante; y

reducir una amplitud de audio del al menos un altavoz de audio del primer participante.

10. El medio legible por máquina según la reivindicación 8, en el que la presentación de vídeo del segundo participante se encuentra en el lado derecho del dispositivo de visualización del primer participante, en el que el al menos un altavoz de audio es un altavoz izquierdo del primer participante.

11. El medio legible por máquina según la reivindicación 8, en el que la acción que desencadena el efecto de sonido de interfaz de usuario a reproducir comprende uno de unirse y salir de la conferencia.

12. El medio legible por máquina según la reivindicación 8, en el que el segundo dispositivo de participante es un dispositivo distribuidor central de la conferencia multimedia, comprendiendo además el programa de ordenador conjuntos de instrucciones para:

recibir una señal de audio mezclada desde el segundo dispositivo participante, la señal de audio mixto 5 comprendiendo señales de audio de los segundos y terceros participantes; y

panoramizar el audio mezclado a través de los altavoces de audio con el fin de crear un efecto de que una localización percibida de una señal de audio de un participante en particular coincide con la ubicación de la representación de vídeo del participante en particular en el dispositivo de visualización.

13. El medio legible por máquina según la reivindicación 8, en el que el primer dispositivo participante es un dispositivo distribuidor central de la conferencia multimedia, comprendiendo además el programa de ordenador conjuntos de instrucciones para:

recibir señales de audio desde los segundo y tercer dispositivos participantes; y

generar señales de audio mezcladas de las señales de audio recibidas y audio capturado localmente en el primer dispositivo participante.

14. El medio legible por máquina según la reivindicación 13, en el que el programa de ordenador comprende un conjunto de instrucciones para transmitir las señales de audio mezcladas a los segundo y tercer dispositivos participantes.

15. El medio legible por máquina según la reivindicación 13, en el que el programa de ordenador comprende un conjunto de instrucciones para entregar una señal de audio mezclada en el primer dispositivo participante.

Patentes similares o relacionadas:

Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple, del 20 de Abril de 2020, de LÓPEZ FERNÁNDEZ, Luis: Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple. Un sistema y […]

Método y sistema para mejorar y ampliar la funcionalidad de una videollamada, del 12 de Febrero de 2020, de DEUTSCHE TELEKOM AG: Método para mejorar la funcionalidad de una videollamada utilizando una red de telecomunicaciones, en donde la videollamada representa un […]

Sistema de conferencias para la formación de intérpretes, del 29 de Enero de 2020, de Televic Education NV: Un sistema de conferencias adecuado para la formación de intérpretes, comprendiendo el sistema de conferencias: - una unidad central , - una unidad de […]

Sistema de conferencia, método para operar la unidad de delegado y programa informático, del 14 de Noviembre de 2019, de ROBERT BOSCH GMBH: Sistema de conferencia que comprende al menos una unidad de delegado , comprendiendo la unidad de delegado un micrófono , un medio de señalización (6, […]

INTERFAZ DE SERVICIO DEL USUARIO Y PLATAFORMA DE GESTIÓN PARA VIDEOCONFERENCIA Y ACTIVIDADES DE COLABORACIÓN, del 23 de Mayo de 2019, de LATIN TELECOMUNICACIONES S.A: Un método, sistema y plataforma son presentados para permitir una interacción más completa y profunda entre usuarios en una sala de reunión y multiples fuente […]

Cámara para comunicar una transmisión continua multimedia a un Cliente Remoto, del 8 de Mayo de 2019, de Librestream Technologies Inc: Una Cámara Móvil de Transmisión Continua , operable por un operador para comunicarse con al menos un Cliente Remoto que comprende: una carcasa […]

Procedimiento, dispositivo y sistema para establecer concatenación entre controladores multipunto, del 25 de Abril de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento para establecer una cascada de servidores de control multipunto , que comprende: predefinir y almacenar información de conferencia en una […]

COMUNICADOR PARA ENFERMERIA, del 25 de Abril de 2017, de BUSCATEL COMUNICACIONES S.L: 1. Comunicador para enfermería, actividades hospitalarias o residenciales similares que, comprendiendo una pluralidad de terminales de habitación y […]