Procedimiento de identificación de un protocolo en el origen de un flujo de datos.

Procedimiento de identificación de un protocolo en el origen de un flujo de paquetes que incluye las etapas siguientes:

- una captura

(102) del flujo del protocolo que se va a identificar,

- una clasificación estadística del flujo, que comprende una extracción de parámetros de clasificación y una comparación de los parámetros de clasificación con modelos estadísticos construidos durante una fase de aprendizaje,

caracterizado porque la clasificación estadística incluye:

- una primera fase (108) de clasificación estadística global que comprende una etapa (114) de extracción de parámetros globales de clasificación calculados por aplicación de fórmulas estadísticas en una parte o la totalidad del flujo, y una etapa (114) de tratamiento de los parámetros globales de clasificación a partir de un modelo estadístico construido durante una fase de aprendizaje;

- una segunda fase (110) de clasificación secuencial que comprende una etapa (116) de extracción de parámetros secuenciales de clasificación representativos de la cadena temporal de paquetes que constituyen el flujo, y una etapa (118) de tratamiento de los parámetros secuenciales de clasificación a partir de un modelo estadístico construido durante una fase de aprendizaje; y

- una etapa (120) de síntesis de los resultados de las fases de clasificación primera y segunda (108, 110) para identificar el protocolo en el origen del flujo.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/FR2011/050541.

Solicitante: THALES.

Nacionalidad solicitante: Francia.

Dirección: 45, RUE DE VILLIERS 92200 NEUILLY-SUR-SEINE FRANCIA.

Inventor/es: DUBOIS,RENAUD, MOREL,MATHIEU, GOMPEL,PAUL.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION... > Disposiciones, aparatos, circuitos o sistemas no... > H04L29/06 (caracterizadas por un protocolo)
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION... > Redes de datos de conmutación (interconexión o... > H04L12/24 (Disposiciones para el mantenimiento o la gestión)
  • SECCION H — ELECTRICIDAD > TECNICA DE LAS COMUNICACIONES ELECTRICAS > TRANSMISION DE INFORMACION DIGITAL, p. ej. COMUNICACION... > Redes de datos de conmutación (interconexión o... > H04L12/26 (Disposiciones de vigilancia; Disposiciones de ensayo)

PDF original: ES-2546129_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Procedimiento de identificación de un protocolo en el origen de un flujo de datos [0001] La presente invención se refiere a un procedimiento de identificación de un protocolo en el origen de un flujo de datos del tipo que incluye las etapas siguientes:

- una captura del flujo del protocolo que se va a identificar, -una clasificación estadística del flujo, que comprende una extracción de parámetros de clasificación y una comparación de los parámetros de clasificación con modelos estadísticos construidos durante una fase de aprendizaje.

En el campo de la seguridad de los sistemas de información, el control de los flujos de entrada y de salida de una red de defensa o de una empresa es crucial. El control de estos flujos se realiza generalmente en un equipo de pasarela, situado en la frontera entre la red local y el mundo exterior, es decir, la red Internet. El objetivo de dicho control es asegurar la conformidad de los flujos que pasan con la política de seguridad de la empresa. Esta política puede consistir, por ejemplo, en autorizar únicamente la navegación web, a la vez que se prohíben los intercambios de archivos de tipo FTP o entre homólogos (P2P) con el exterior, así como cualquier conexión directa con servidores distantes SMTP, SSH u otros.

Se han desarrollado numerosas herramientas para asegurar el respeto de estas políticas de seguridad. Los procedimientos que las usan pueden clasificarse en tres grandes categorías:

filtrado de nivel red y transporte por análisis de protocolos (cortafuegos) ;

filtrado por análisis del contenido de los datos de aplicación del flujo (servidores obligatorios) ; y análisis comportamental elemental para identificar los comportamientos sospechosos (IDS o IDPS 30 comportamentales) .

El conjunto de estas protecciones puede ser, no obstante, sorteado por un usuario de la red local, usando un túnel de aplicación con un servidor distante controlado.

Este procedimiento consiste en encapsular los datos de aplicación de un protocolo prohibido en el interior de tramas de un protocolo autorizado para que atraviese la pasarela. El servidor controlado distante, controlado por el usuario, extrae las tramas encapsuladas y las retransmite hacia su verdadero destino.

El protocolo más usado para establecer esta clase de túneles es el protocolo HTTP, ya que este último casi siempre es autorizado por las pasarelas. Así, el software GNU httptunnel, http//www.nocrew.org/software/httptunnel.html, Lars Brinkhoff permite encapsular las tramas de un protocolo cualquiera (por ejemplo, SSH o P2P) en peticiones HTTP. Los datos útiles se camuflan en campos determinados de la petición, con ayuda de técnicas próximas a las de la esteganografía.

De forma similar, el software Stunnel universal SSL wrapper, http//www.stunnel.org/ permite encapsular la mayor parte de los protocolos en una conexión SSL/TLS, en el puerto 443. Los flujos resultantes son identificados así por las herramientas de filtrado como flujos HTTPs legítimos.

Si se puede esperar que un servidor obligatorio perfeccionado detecte una anomalía en las peticiones 50 HTTP generadas por HTTPTunnel, los flujos generados por Stunnel están cifrados, lo que impide realizar inspecciones del contenido de los paquetes.

Un enfoque para identificar el flujo no deseable que circula por dicho túnel consiste en determinar el protocolo en el origen de un flujo de datos (es decir, el protocolo encapsulado en el caso de un túnel) , usando un 55 número reducido de parámetros difícilmente falsificables por un atacante. Una vez identificado este protocolo, se puede aplicar la política de seguridad de la red local para decidir el filtrado o no del flujo.

Para detectar la presencia de túneles ilegítimos, el uso de números de puerto se manifiesta inútil, y la inspección en profundidad del contenido de los paquetes es a menudo fuente de errores, dado que los diseñadores

de los programas de software de tunelización son especialmente ingeniosos cuando se trata de ocultar los datos en un flujo legítimo, por no decir imposible si el flujo se cifra como en el caso de los túneles HTTPs.

Los procedimientos presentados a continuación usan herramientas estadísticas para aprovechar las 5 informaciones residuales en los flujos después del cifrado o encapsulación en otro protocolo. En particular, se busca identificar una huella estadística inherente para cada protocolo a partir de un número reducido de parámetros.

Para que un procedimiento de clasificación de flujos estadísticos pueda usarse, es necesario realizar dos hipótesis:

cada protocolo o clase de protocolo (HTTP, SSH, P2P, VoIP, ...) induce un comportamiento característico en términos de paquetes de datos generados, tanto para el tamaño de estos paquetes como para el tiempo entre paquetes. Por ejemplo, un flujo SSH estará compuesto mayoritariamente por "pequeños" paquetes intercambiados en los dos sentidos (las pulsaciones del teclado, y después sus respuestas de "eco") , mientras que un flujo HTTP

típico consistirá en una petición de tamaño medio, seguida de la respuesta del servidor en varios paquetes de gran tamaño; y la encapsulación de un protocolo en un túnel HTTP/HTTPs o similar no modifica notablemente su comportamiento característico (o al menos los comportamientos de los diferentes protocolos encapsulados siguen siendo distintos) .

El uso de procedimientos de clasificación estadística para identificar el protocolo en el origen de un flujo se ha descrito en la bibliografía en la que se estudian diferentes procedimientos. En particular en N. Williams, S. Zander and G. Armitage, a preliminar y performance comparison of five machine learning algorithms for practical IP traffic flow classification, ACM SIGICOMM06, 2006.

El artículo presenta una síntesis comparativa de varios procedimientos de clasificación aplicados en la clasificación de flujos de datos. Williams muestra que entre los numerosos algoritmos (procedimiento de Bayes, redes bayesianas, C4.5, árboles de Bayes, SVM, etc.) , los de mayor rendimiento son SVM y C4.5.

El documento WO-2009/021.892-A1 describe un procedimiento y una instalación de clasificación de tráficos en las redes IP. La invención que describe aplica un procedimiento estadístico basado en un árbol de decisión (algoritmo C4.5) para determinar el protocolo en el origen de un flujo cifrado.

MAHBOD TAVALLAEE Y COL.: "Online Classification of Network Flows", COMMUNICATION

NETWORKS AND SERVICES RESEARCH CONFERENCE, 2009. CNSR 09. SEVENTH ANNUAL, IEEE, PISCATAWAY, NJ, EE.UU., 11 de mayo de 2009 (2009-05-11) , páginas 78-85, describe un procedimiento de clasificación de flujos de paquetes que aplica varios niveles de clasificación.

DUSI M Y COL.: "Using GMM and SVM-Based Techniques for the Classification of SSH-Encr y pted Traffic", COMMUNICATIONS, 2009. ICC 09. IEEE INTERNATIONAL CONFERENCE SE, IEEE, PISCATAWAY, NJ, EE.UU., 14 de junio de 2009 (2009-06-14) , páginas 1-6, describe dos procedimientos de clasificación de flujos cifrados.

Todos estos procedimientos son eficaces pero producen un número importante de falsos positivos, es 45 decir, de clarificación de flujos que se sabe que están prohibidos pero que son autorizados.

La invención tiene por objeto proponer un procedimiento de clasificación que permita reducir el número de falsos positivos.

Para este fin, la invención tiene por objeto un procedimiento de identificación de un protocolo en el origen de un flujo de datos del tipo citado anteriormente, caracterizado porque la clasificación estadística incluye:

- una primera fase de clasificación estadística global que comprende una etapa de extracción... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento de identificación de un protocolo en el origen de un flujo de paquetes que incluye las etapas siguientes:

- una captura (102) del flujo del protocolo que se va a identificar, -una clasificación estadística del flujo, que comprende una extracción de parámetros de clasificación y una comparación de los parámetros de clasificación con modelos estadísticos construidos durante una fase de aprendizaje, caracterizado porque la clasificación estadística incluye:

- una primera fase (108) de clasificación estadística global que comprende una etapa (114) de extracción de parámetros globales de clasificación calculados por aplicación de fórmulas estadísticas en una parte o la totalidad del flujo, y una etapa (114) de tratamiento de los parámetros globales de clasificación a partir de un modelo estadístico construido durante una fase de aprendizaje;

- una segunda fase (110) de clasificación secuencial que comprende una etapa (116) de extracción de parámetros secuenciales de clasificación representativos de la cadena temporal de paquetes que constituyen el flujo, y una etapa (118) de tratamiento de los parámetros secuenciales de clasificación a partir de un modelo estadístico construido durante una fase de aprendizaje; y -una etapa (120) de síntesis de los resultados de las fases de clasificación primera y segunda (108, 110) para 25 identificar el protocolo en el origen del flujo.

2. Procedimiento según la reivindicación 1, caracterizado porque la etapa (114) de tratamiento de los parámetros globales de clasificación a partir de modelos estadísticos construidos durante una fase de aprendizaje comprende la aplicación del algoritmo Random Forest.

3. Procedimiento según la reivindicación 1 ó 2, caracterizado porque los parámetros globales de clasificación incluyen al menos un parámetro entre:

el número de paquetes transmitidos, en sentido clienteservidor; 35

el número de octetos transmitidos, en sentido clienteservidor;

el tamaño medio de los paquetes IP, en sentido clienteservidor; 40 el tamaño máximo de los paquetes IP, en sentido clienteservidor;

el tiempo mínimo entre llegadas de dos paquetes IP, en sentido clienteservidor;

el tiempo máximo de llegadas entre dos paquetes IP, en sentido clienteservidor; 45

el número de octetos transmitidos, en sentido servidorcliente;

el tamaño máximo de los paquetes IP, en sentido servidorcliente; 50 la varianza del tamaño de los paquetes IP, en sentido servidorcliente; y

la relación número octetos de subida/número total octetos intercambiados.

4. Procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque la 55 etapa (118) de tratamiento de los parámetros secuenciales de clasificación a partir de modelos estadísticos construidos durante una fase de aprendizaje comprende la aplicación de modelos ocultos de Markov.

5. Procedimiento según la reivindicación 4, caracterizado porque la fase de aprendizaje incluye una etapa de construcción de un modelo oculto de Markov para cada protocolo identificable y porque la etapa (118) de 11

tratamiento incluye la determinación del modelo oculto de Markov cuya probabilidad de que el flujo haya sido emitido por el protocolo asociado es la mayor.

6. Procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque los parámetros secuenciales de clasificación comprenden al menos un parámetro entre el tamaño del paquete y el tiempo entre paquetes.

7. Procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque la etapa (120) de síntesis de los resultados comprende la aplicación de la fórmula de Bayes para proporcionar la 10 probabilidad de la existencia de un protocolo nn p pi (| k) + p ' p ' ( | ik)

k k k =1 k =1

p" = i 2

en la que dado un flujo F y un conjunto de protocolos posibles [a1...an], pi y pi representan respectivamente la probabilidad de que F pertenezca al protocolo ai según el método RandomForest aplicado en la fase (108) y según el método del banco de modelos ocultos de Markov aplicado en la fase (110) .

p"i es la probabilidad fusionada de que F pertenezca al protocolo ai;

p (i/k) (respectivamente p (i/k) ) es la probabilidad de que el flujo pertenezca al protocolo ai sabiendo que la primera fase de clasificación (108) , respectivamente la segunda fase de clasificación (110) , ha clasificado el flujo como perteneciente al protocolo ak.

8. Procedimiento según una cualquiera de las reivindicaciones precedentes, caracterizado porque incluye, al final de la etapa de síntesis, una etapa (122) de filtrado adicional.

9. Procedimiento según la reivindicación 8, caracterizado porque la etapa de filtrado comprende la 30 consideración de la historia de los resultados según una heurística predeterminada.

10. Instalación de identificación de un protocolo en el origen de un flujo de paquetes que incluye:

- medios de captura del flujo del protocolo que se va a identificar, -medios de clasificación estadística del flujo, que comprende medios de extracción de parámetros de clasificación y medios de comparación de los parámetros de clasificación con modelos estadísticos construidos durante una fase de aprendizaje, caracterizada porque los medios de clasificación estadística incluyen:

- primeros medios de clasificación estadística global que comprenden medios de extracción de parámetros globales de clasificación calculados por la aplicación de una fórmula estadística en una parte o la totalidad del flujo, y medios de tratamiento de los parámetros globales de clasificación a partir de un modelo estadístico construido durante una 45 fase de aprendizaje;

- segundos medios de clasificación secuencial que comprenden medios de extracción de parámetros secuenciales de clasificación representativos de la cadena temporal de paquetes que constituyen el flujo, y medios de tratamiento de los parámetros secuenciales de clasificación a partir de un modelo estadístico construido durante una fase de 50 aprendizaje; y -medios de síntesis de los resultados de los medios de clasificación primeros y segundos para identificar el protocolo en el origen del flujo.