Procesado de audio en una conferencia con múltiples participantes.

Un procedimiento para distribuir contenido de audio en una conferencia de audio/video con múltiplesparticipantes ,

comprendiendo el procedimiento:

en un primer dispositivo de un primer participante en la conferencia:

recibir señales de audio de por lo menos segundos y terceros dispositivos que participan en la conferencia;generar datos representativos de la intensidad de las señales de audio recibidas;

generar señales de audio mezclado a partir de las señales de audio recibidas y una señal local de audiocapturada en el primer dispositivo;

a cada señal particular de audio mezclado, agregarle un conjunto de datos de intensidad generados para lasseñales que se mezclan para producir la señal particular de audio mezclado; y

transmitir las señales de audio mezclado con los datos de intensidad a los segundos y terceros dispositivosde la conferencia.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2006/016123.

Solicitante: APPLE INC..

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 1 INFINITE LOOP CUPERTINO, CA 95014 ESTADOS UNIDOS DE AMERICA.

Inventor/es: JEONG,Hyeonkuk, SALSBURY,Ryan.

Fecha de Publicación: 16 de Mayo de 2012.

Clasificación Internacional de Patentes:

H04N7/15 ELECTRICIDAD. › H04 TECNICA DE LAS COMUNICACIONES ELECTRICAS. › H04N TRANSMISION DE IMAGENES, p. ej. TELEVISION. › H04N 7/00 Sistemas de televisión (detalles H04N 3/00, H04N 5/00; métodos y arreglos, para la codificación, decodificación, compresión o descompresión de señales de vídeo digital H04N 19/00; distribución selectiva de contenido H04N 21/00). › Sistemas para conferencias.

PDF original: ES-2388179_T3.pdf

Fragmento de la descripción:

Procesado de audio en una conferencia con múltiples participantes

CAMPO DE LA INVENCIÓN

La presente invención se refiere al procesado de audio en una conferencia con múltiples participantes.

ANTECEDENTES DE LA INVENCIÓN

Con la proliferación de los ordenadores de propósito general, ha habido un aumento de la demanda para la realización de conferencias a través de ordenadores personales o de negocios. En tales conferencias, es deseable identificar rápidamente a los participantes que están hablando en un momento dado. Tal identificación, sin embargo, se vuelve difícil a medida que se añaden más participantes, en especial para los participantes que sólo reciben datos de audio. Esto se debe a que las aplicaciones de conferencia anteriores no proporcionan ningún pista visual o auditiva para ayudar a identificar hablantes activos durante una conferencia. Por lo tanto, existe una necesidad en la técnica de aplicaciones de conferencia que ayuden a un participante a identificar rápidamente los participantes que hablan activamente en la conferencia.

RESUMEN DE LA INVENCIÓN

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio con múltiples participantes a través de una red de ordenadores. Esta arquitectura tiene un distribuidor central que recibe señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando la señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones utilizan entonces los signos de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de la señal para activar el audio panoramización.

En algunas realizaciones, el distribuidor central produce una única señal mezclada que incluye el audio de todos los participantes. Esta corriente (junto con los indicios de intensidad de señal) se envía a todos los participantes. Durante la reproducción de este flujo, un participante silenciará la reproducción de fondo si el participante mismo es el principal contribuyente. Este plan proporciona supresión de eco sin necesidad de flujos separados y distintos para cada participante. Este sistema requiere menos computación del distribuidor central. También, a través de multidifusión IP, el distribuidor central puede reducir sus necesidades de ancho de banda.

Los ordenadores del distribuidor central y de los participantes pueden tomar distintas formas. En otras palabras, estos ordenador s pueden integrarse en cualquier tipo de dispositivo, como un ordenadore de mesa independiente, ordenador portátil, y/o ordenador de mano u otro dispositivo de electrónica de consumo o de comunicación, centro multimedia, concentrador, etc.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Las características novedosas de la invención se exponen en las reivindicaciones adjuntas. Sin embargo con fines de explicación, se exponen varias realizaciones en las siguientes figuras.

La Figura 1 ilustra un ejemplo de la arquitectura de conferencia de audio/video de algunas realizaciones de la invención.

Las Figuras 2 y 3 ilustran cómo algunas realizaciones intercambian contenido de audio en una conferencia de audio/video con múltiples participantes.

La Figura 4 muestra los componentes software de la aplicación de conferencia de audio/video de algunas realizaciones de la invención.

La Figura 5 ilustra el módulo de punto focal de algunas realizaciones de la invención.

La Figura 6 es un diagrama de flujo que muestra la generación de audio mezclado por el punto focal en algunas de las realizaciones.

La Figura 7 ilustra cómo el protocolo RTP es utilizado por el módulo de punto focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 8 ilustra el punto no focal de algunas realizaciones de la invención.

La Figura 9 ilustra cómo el protocolo RTP es utilizado por el módulo de punto no focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 10 ilustra conceptualmente el flujo de la operación de decoficicación del punto no focal no en algunas realizaciones.

La Figura 11 ilustra los medidores de nivel de audio que se muestran en algunas realizaciones de la invención.

La Figura 12 muestra una disposición ejemplar de las imágenes de los participantes sobre una de los pantallas de los participantes.

La Figura 13 es un diagrama de flujo que ilustra el proceso mediante el cual algunas realizaciones de la invención realizan el barrido de audio.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

En la siguiente descripción, se exponen numerosos detalles con fines de explicación. Sin embargo, un experto en la técnica se dará cuenta de que la invención puede ser llevada a cabo sin el uso de estos detalles específicos. En otros casos, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloques para no oscurecer la descripción de la invención con detalles innecesarios.

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio/video con múltiples participantes. Esta arquitectura tiene un distribuidor central que recibe las señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando de señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones a continuación, utilizan los indicios de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de señal para activar el barrido de audio.

Varias realizaciones detalladas de la invención se describen a continuación. En estas realizaciones, el distribuidor central es el ordenador de uno de los participantes en la conferencia de audio/video. Un experto se dará cuenta de que otras realizaciones se implementan de forma diferente. Por ejemplo, en algunas realizaciones el distribuidor central no es el ordenador de ninguno de los participantes en la conferencia.

I. VISIÓN GENERAL

La Figura 1 ilustra un ejemplo de arquitectura de conferencia 100 de algunas realizaciones de la invención. Esta arquitectura permite que varios participantes participen en una conferencia a través de varios ordenadores que están conectados mediante una red de ordenadores. En el ejemplo ilustrado en Figura 1, cuatro participantes A, B, C y D se participan en la conferencia a través de sus cuatro ordenadores y una red 105-120 (no mostrada) que conecta estos ordenadores. La red que conecta a estos ordenador s pueden ser cualquier red, como una red de área local, una red de área extensa, una red de redes (por ejemplo, Internet) , etc

La conferencia puede ser una conferencia de audio/video, o una conferencia solamente de audio, o una conferencia de audio/video para algunos de los participantes y una conferencia sólo de audio para los demás participantes. Durante la conferencia, el ordenador 105 de uno de los participantes (participante D en este ejemplo) sirve como distribuidor central de contenido de audio y/o vídeo (es decir, contenido de audio/video)... [Seguir leyendo]

Reivindicaciones:

1. Un procedimiento para distribuir contenido de audio en una conferencia de audio/video con múltiples participantes , comprendiendo el procedimiento:

en un primer dispositivo de un primer participante en la conferencia:

recibir señales de audio de por lo menos segundos y terceros dispositivos que participan en la conferencia;

generar datos representativos de la intensidad de las señales de audio recibidas;

generar señales de audio mezclado a partir de las señales de audio recibidas y una señal local de audio capturada en el primer dispositivo;

a cada señal particular de audio mezclado, agregarle un conjunto de datos de intensidad generados para las 10 señales que se mezclan para producir la señal particular de audio mezclado; y

transmitir las señales de audio mezclado con los datos de intensidad a los segundos y terceros dispositivos de la conferencia.

2. El procedimiento según la reivindicación 1 que comprende además reproducir localmente una señal de audio mezclado en el primer dispositivo.

3. El procedimiento según la reivindicación 1, en el que generar los datos comprende cálcular la intensidad de cada señal de audio recibida como una valor cuadrático medio (RMS) de la intensidad de la señal de audio recibida.

4. El procedimiento según la reivindicación 1, en el que generar una señal de audio mezclado para un

participante en particular comprende generar una señal de audio mezclado sin la señal de audio del 20 participante en particular.

5. Un procedimiento para participar en una conferencia de medios con múltiples participantes, comprendiendo el procedimiento:

desde un primer dispositivo que participa en la conferencia de medios, transmitir una señal de audio capturada en el primer dispositivo a un segundo dispositivo que participa en la conferencia de medios, en 25 donde el segundo dispositivo actúa como un distribuidor central de señales de audio para la conferencia de medios;

en el primer dispositivo, recibir una señal de audio mezclado desde el segundo dispositivo, la señal de audio mezclado generada en el segundo dispositivo a partir de al menos (i) una señal de audio capturada en un tercer dispositivo que participa en la conferencia y (ii) una señal de audio capturada en el segundo dispositivo,

en donde un conjunto de datos indicativos de intensidades de señal para cada una de las señales de audio diferentes utilizadas para generar la señal de audio mezclado se añaden a la señal de audio mezclado, y

utilizar el conjunto de datos de intensidad de señal para entregar la señal de audio meclada recibida en el primer dispositivo.

6. El procedimiento según la reivindicación 5, donde el audio recibido mezclado está en paquetes de protocolo 35 de tiempo real (RTP) que comprenden los datos de intensidad.

7. El procedimiento según la reivindicación 1, que comprende además utilizar los datos de intensidad generados de una señal de audio particular recibida para eliminar el ruido no incluyendo la señal de audio particular recibida en la señal de audio mezclado cuando la señal de audio particular es más débil que las señales de audio procedentes de otros dispositivos.

8. El procedimiento según la reivindicación 1, en el que los datos de intensidad generados de cada señal de audio se utilizan para asignar un peso a cada señal de audio, en donde los pesos asignados se utilizan para evitar que la señal de audio de un participante neutralice las señales de audio de otros participantes.

9. El procedimiento según la reivindicación 5 que comprende además mostar representaciones de participantes en el segundo y tercer dispositivos en lugares diferentes de una pantalla en el primer dispositivo.

45 10. El procedimiento según la reivindicación 9, en donde el uso del conjunto de datos de intensidad de señal comprende barrer la señal de audio mezclado a lo largo de altavoces de audio en el primer dispositivo con el fin de crear un efecto de que una ubicación percibida de una señal de audio de un participante particular coincide con la ubicación del participante particular en el área de visualización.

11. Un medio legible por ordenador de un primer dispositivo de un primer participante en una conferencia con múltiples participantes, el medio legible por ordenador almacenando un programa de ordenador que cuando

es ejecutado por al menos un procesador del primer dispositivo distribuye contenido de audio, el programa de ordenador comprendiendo conjuntos de instrucciones para:

recibir señales de audio de por lo menos segundos y terceros dispositivos que participan en la conferencia;

generar datos representativos de la intensidad de las señales de audio recibidas;

generar señales de audio mezclado a partir de las señales de audio recibidas y una señal local de audio 10 capturada en el primer dispositivo;

a cada señal particular de audio mezclado, agregarle un conjunto de datos de intensidad generados para las señales que se mezclan para producir la señal particular de audio mezclado; y

transmitir las señales de audio mezclado con los datos de intensidad a los segundos y terceros dispositivos de la conferencia.

12. El medio legible por ordenador según la reivindicación 11, en el que el conjunto de instrucciones para generar señales de audio mezclado comprende conjuntos de instrucciones para:

generar una primera señal de audio mezclado para transmitir al segundo dispositivo utilizando la señal de audio recibida del tercer dispositivo y la señal local de audio capturada en el primer dispositivo, y

generar una segunda señal de audio mezclado para transmitir al tercer dispositivo utilizando la señal de audio 20 recibida del segundo dispositivo y la señal local de audio capturada en el primer dispositivo.

13. El medio legible por ordenador según la reivindicación 11, en el que el conjunto de instrucciones para generar las señales de audio mezclado comprende un conjunto de instrucciones para generar una tercera señal de audio mezclado que comprende las señales recibidas de audio del segundo y tercer dispositivo, sin la señal de audio capturada localmente .

14. El medio legible por ordenador según la reivindicación 13, en el que el programa de ordenador comprende además un conjunto de instrucciones para reproducir la tercera señal de audio mezclado en el primer dispositivo.

15. Un medio legible por ordenador de un primer dispositivo de un primer participante en una conferencia de múltiples participantes, el medio legible por ordenador almacenando un programa de ordenador que al ser

ejecutado por al menos un procesador del primer dispositivo recibe contenido de audio para la conferencia, el programa de ordenador comprendiendo conjuntos de instrucciones para:

transmitir una señal de audio capturada en el primer dispositivo a un segundo dispositivo que participa en la conferencia de medios, en donde el segundo dispositivo actúa como un distribuidor central de señales de audio para la conferencia de medios;

recibir una señal de audio mezclado desde el segundo dispositivo, la señal de audio mezclado generada en el segundo dispositivo a partir de al menos (i) una señal de audio capturada en un tercer dispositivo que participa en la conferencia y (ii) una señal de audio capturada en el segundo dispositivo, en donde un conjunto de datos indicativos de intensidades de señal para cada una de las señales de audio diferentes utilizadas para generar la señal de audio mezclado se añaden a la señal de audio mezclado, y

utilizar el conjunto de datos de intensidad de señal para reproducir la señal de audio mezclado recibida en el primer dispositivo.

16. El medio legible por ordenador según la reivindicación 15, en el que el segundo dispositivo genera todas las señales de audio mezclado durante la conferencia.

17. El medio legible por ordenador según la reivindicación 15, en el que el programa de ordenador comprende

45 además un conjunto de instrucciones para el uso del conjunto de datos de intensidad de señal para mostrar un medidor de nivel para cada dispositivo que participa en la conferencia.

18. El medio legible por ordenador según la reivindicación 15, en el que la señal de audio mezclado se reproduce a través de un conjunto de altavoces en el primer dispositivo, en el que el conjunto de instrucciones para el uso del conjunto de datos de intensidad de señal con el fin de emitir la señal de audio recibida mezclado comprende un conjunto de instrucciones para crear un retraso en al menos uno de los altavoces en función en los datos de intensidad de señal.

Figura 11

Figura 12

Patentes similares o relacionadas:

Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple, del 20 de Abril de 2020, de LÓPEZ FERNÁNDEZ, Luis: Sistema y método para la asignación inteligente de ancho de banda en sistemas de comunicación multimedia de pista múltiple. Un sistema y […]

Método y sistema para mejorar y ampliar la funcionalidad de una videollamada, del 12 de Febrero de 2020, de DEUTSCHE TELEKOM AG: Método para mejorar la funcionalidad de una videollamada utilizando una red de telecomunicaciones, en donde la videollamada representa un […]

Sistema de conferencias para la formación de intérpretes, del 29 de Enero de 2020, de Televic Education NV: Un sistema de conferencias adecuado para la formación de intérpretes, comprendiendo el sistema de conferencias: - una unidad central , - una unidad de […]

Sistema de conferencia, método para operar la unidad de delegado y programa informático, del 14 de Noviembre de 2019, de ROBERT BOSCH GMBH: Sistema de conferencia que comprende al menos una unidad de delegado , comprendiendo la unidad de delegado un micrófono , un medio de señalización (6, […]

INTERFAZ DE SERVICIO DEL USUARIO Y PLATAFORMA DE GESTIÓN PARA VIDEOCONFERENCIA Y ACTIVIDADES DE COLABORACIÓN, del 23 de Mayo de 2019, de LATIN TELECOMUNICACIONES S.A: Un método, sistema y plataforma son presentados para permitir una interacción más completa y profunda entre usuarios en una sala de reunión y multiples fuente […]

Cámara para comunicar una transmisión continua multimedia a un Cliente Remoto, del 8 de Mayo de 2019, de Librestream Technologies Inc: Una Cámara Móvil de Transmisión Continua , operable por un operador para comunicarse con al menos un Cliente Remoto que comprende: una carcasa […]

Procedimiento, dispositivo y sistema para establecer concatenación entre controladores multipunto, del 25 de Abril de 2019, de HUAWEI TECHNOLOGIES CO., LTD.: Un procedimiento para establecer una cascada de servidores de control multipunto , que comprende: predefinir y almacenar información de conferencia en una […]

COMUNICADOR PARA ENFERMERIA, del 25 de Abril de 2017, de BUSCATEL COMUNICACIONES S.L: 1. Comunicador para enfermería, actividades hospitalarias o residenciales similares que, comprendiendo una pluralidad de terminales de habitación y […]