Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados...

34
Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias. 18 Maio 2016 Paulo Damasceno Barreto Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 1

Transcript of Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados...

Page 1: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 1

Estudo comparativo entre treinamento

supervisionado e não supervisionado em

agrupamento de dados nos IDSs baseados em

anomalias.18 Maio 2016

Paulo Damasceno Barreto

Page 2: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

2

Incidentes reportados ao CERT.br

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte:http://www.cert.br/stats/incidentes/

Page 3: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 3

Crescimento dos ataques a servidores WEB

Incidentes de segurança caem 31% em 2015, mas ataques a servidores web aumentam 128%

Fonte: Roberta Prescott - 15/03/2016

ABRANET – Associação Braseira de Internet

http://www.abranet.org.br/Noticias/Incidentes-de-seguranca-caem-31%25-em-2015,-mas-ataques-a-servidores-web-aumentam-128%25-1010.html#.VzHR5m7R9pg

Page 4: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

4

Principais ataques a servidores web

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte: GUPTA E THILAGAN (2013)

Page 5: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 5

IDS – Intrusion Detection System

O objetivo do IDS é identificar ataques reais e gerar alertas

Page 6: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

6

Classificações Possíveis das requisições

VP (Verdadeiros Positivos): quantidade de ataques corretamente identificados;

FP (Falsos Positivos): Quantidade de requisições normais erroneamente classificadas como ataque;

VN (Verdadeiros Negativos): quantidade de requisições normais (que não foram erroneamente classificados como ataques);

FN (Falsos Negativos): quantidade de ataques que não foram identificados e erroneamente classificados como requisições normais. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 7: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

7

Tipificação dos IDS

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 8: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

8

Tipificação dos IDS

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 9: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

9

Agrupamento de dados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Clustering ou agrupamento é a tarefa de inserir objetos dispersos em grupos de forma que objetos no mesmo cluster sejam mais similares do que objetos pertencentes a outros clusters.

Page 10: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

10

Agrupamento de dados com k-means

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

O algoritmo de agrupamento K-means utiliza o conceito de centroides, que representam o centro de um agrupamento. Este centro (centroide) é calculado de modo não supervisionado (automaticamente) durante o processo de agrupamento de acordo com os valores dos elementos que serão agrupados.

Fonte Imagem: Ricardo Prudencio - http://slideplayer.com.br/slide/1593946/

Page 11: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

11

Campos do cabeçalho HTTP usados no agrupamento.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

1. IP de Origem2. Caminho de Referência (Resource Path), 3. Métodos (Method),4. Nome de domínio ou endereço IP do site web

(Host),5. Agente do usuário. (User-Agent), 6. Cookie,7. URL de referencia (Referer)8. Conteúdo (Content).

Page 12: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

12

Transformação de dados em valores numéricos

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

A conversão precisa representar a similaridade entre os campos para que fiquem próximos no processo de agrupamento e desta forma estabelecer limiares mínimos e máximos consistentes.

Em requisições normais, os tamanhos dos campos possuem valores parecidos e os limiares mínimos e máximos num processo de agrupamento são consistentes e possuem similaridade entre si.

Page 13: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

13

Estabelecendo os limites de cada grupo

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Determinar os limites é um dos grandes desafios no processo de agrupamento.

Page 14: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

14

Estabelecendo os limites de cada grupo

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Os elementos que não pertencem a grupo algum (outliers) são classificados como ataque

Page 15: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

15

Treinamento de um IDS baseado em anomalia com agrupamento de dados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

o treinamento é a observação do comportamento da rede com o objetivo de estabelecer um modelo de comportamento normal e determinar os limites dos agrupamentos.

Page 16: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 16

Treinamento Não Supervisionado

As requisições não possuem filtro ou controle de modo que podem conter ataques. Se a quantidade de requisições maliciosas representarem uma significativa porcentagem de conexões, o treinamento fica comprometido pois o IDS entenderá que os ataques são requisições normais.

Page 17: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 17

Treinamento Não Supervisionado

A fim de compensar os desvios gerados por requisições maliciosas existentes durante o treinamento, ajustes são realizados nos limites dos agrupamentos.

Page 18: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 18

Treinamento Supervisionado

O ambiente de rede é controlado de modo que todas as requisições HTTP são normais.

Page 19: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

19

Treinamento SupervisionadoX

Treinamento Não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Qual oferece melhores resultados ?

Page 20: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

20

Treinamento SupervisionadoX

Treinamento Não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

O objetivo é apresentar um estudo comparativo entre treinamento supervisionado e não supervisionado em IDSs baseados em anomalias com agrupamento de dados e através das analises comparativas dos resultados, determinar qual técnica oferece melhor resultado nas taxas de detecção de intrusão (VP) e falso positivo (FP) e consequentemente determinar qual técnica oferece melhor limite de agrupamento.

Page 21: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

21

Origem dos dados testados da base CELEPAR – Tecnologia da informação e comunicação do Paraná.

Esta base formou-se de requisições a 2 servidores web em 2010 em rede puramente IPv4. Foram gerados aproximadamente 5 milhões de requisições, separados em 20 arquivos com aproximadamente 250.000 requisições cada. O primeiro servidor web (WS1) é um portal de noticias criado com a ferramenta DRUPAL baseado em PHP. O outro servidor web (WS2) também disponibiliza notícias e possui diversos fóruns, desenvolvidos com a ferramenta XOOPS, também em PHP, acessados por centenas de pessoas.Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 22: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

22

Dados usados no teste

São realizados testes com um total de 2.477.693 requisições analisadas e catalogadas da base de dados CELEPAR, com 2.499.730 requisições catalogados nos primeiros 10 arquivos, sendo que 2.477.693 são requisições normais e 22.037 são anomalias ou ataques.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 23: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

23

Dados usados no teste

As requisições normais foram separadas dos ataques e anomalias gerando vinte arquivos. Dez arquivos com requisições normais e dez arquivos com ataques e anomalias. Desta forma os testes são mais precisos para definir o desempenho do IDS nas taxas de FP, FN, VP e VN.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 24: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 24

Escopo dos testes e resultados

Os testes realizados limitam-se a classificar as requisições como normais ou ataques.

Page 25: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

25

Testes com Treinamento supervisionado

O segundo arquivo (teste2) da base de dados CELEPAR possui 249.998 registros e foi escolhido para ser usado como base de dados de treinamento. Todos os 7.698 registros classificados como ataques e anomalias foram excluídos para o treinamento.

Nenhum ajuste aos limites dos agrupamentos foi realizado após o treinamento.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 26: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

26

Resultado dos testes com Treinamento supervisionado nas bases de dados de requisições normais.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 27: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

27

Resultado dos testes com Treinamento supervisionado nas bases de dados de ataques

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 28: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

28

Testes com Treinamento não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Diversas baterias de testes foram realizadas a fim de determinar qual o melhor ajuste nos limites dos agrupamentos.

Testes foram realizados, primeiro sem alterar os limites dos agrupamentos, sem seguida, os limites foram reduzidos em 3%, 7% e 10%.

Observou-se que na medida em que os limites eram reduzidos, a taxa de detecção também aumentava. Entretanto, a taxa de falsos positivos aumentava também. Portanto, na busca do melhor equilíbrio entre a taxa de detecção e de falso positivo, o melhor valor foi a redução dos limites em 7%.

Page 29: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

29

Testes com Treinamento não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Foi usado a mesma base de dados (teste2) da base de dados CELEPAR que possui 249.998. Todos os 7.698 registros de ataques foram mantidos. A quantidade de requisições maliciosas representam 3,08% do total de requisições.

Page 30: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

30

Resultado dos testes em requisições normais com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 31: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

31

Resultado dos testes em requisições de ataques com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 32: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

32

Comparação dos Resultados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Page 33: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 33

Conclusão O treinamento supervisionado obteve melhor

resultado em todos os aspectos. A eficácia superior do IDs demonstra que a melhor consistência dos limites dos agrupamentos obtida é com treinamento supervisionado e reflete diretamente na capacidade de detecção e consequentemente menores taxas de falsos positivos.

 Ajustes nos limites dos agrupamentos não são suficientes para compensar dados maliciosos inseridos no treinamento, mesmo estes sendo em pouca quantidade.

Page 34: Estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados nos IDSs baseados em anomalias

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 34

Obrigado!Paulo Barreto – IPT - [email protected] 11 98635-0751