Weka Report Presentation

21
Relatório de Utilização da Ferramenta Weka Francisco Glaubos 9 de junho de 2014 1 / 21

Transcript of Weka Report Presentation

Page 1: Weka Report Presentation

Relatório de Utilização da Ferramenta Weka

Francisco Glaubos

9 de junho de 2014

1 / 21

Page 2: Weka Report Presentation

A base de dados

I Nome: Breast CancerI Fonte: Instituto de Oncologia, Iuguslávia.I Objetivo: Mostrar pacientes com câncer de mama que

possuem ou não, recorrência de sintomas após o tratamento.I 286 instâncias e nove atributos.

2 / 21

Page 3: Weka Report Presentation

I Class: Não-Recorrência ou Recorrência de sintomas do câncerde mama nos pacientes após o tratamento.

I age: Idade do paciente no momento do diagnóstico.I menopause: Estado de menopausa do paciente no momento

do diagnóstico.I tumor-size: O tamanho do tumor em milímetros.I inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram

o câncer de mama no momento do exame histológico.I nodes-cap: A penetração do tumor na cápsula do linfonodo

ou não.

3 / 21

Page 4: Weka Report Presentation

I deg-malign: Faixa de grau 1 a 3, que define o grauhistológico do tumor, o nível de malignidade do tumor.

I breast: O câncer poder ocorrer em qualquer mama.I breast-quad: Se for considerado o mamilo como um ponto

central, a mama pode ser dividida em quatro quadrantes.I irradiat: Se o paciente possui ou não histórico de terapia de

radiação (raio-x).

4 / 21

Page 5: Weka Report Presentation

Classificação

I Nayve BayesI IBKI J48I Configuração padrão: Cross-validation folds = 10

5 / 21

Page 6: Weka Report Presentation

Nayve BayesI classificou corretamente 205 e incorretamente 81 instânciasI 33 classificadas como reccurence-events ⇒

no-reccurence-eventsI 48 classificadas como no-reccurence-events ⇒

recurrence-events

6 / 21

Page 7: Weka Report Presentation

IBKI 1o teste: A classe atribuída é a predominante entre um ponto

P e o vizinho mais próximo. K = 1.

Figura : Resultados do método IBK com k=1.

7 / 21

Page 8: Weka Report Presentation

1 2 3 4 5 6

72.5

73

73.5

74

74.5

k-vizinhos mais próximos

instâncias

corretam

ente

classificadas

(%)

8 / 21

Page 9: Weka Report Presentation

Figura : Resultados do método IBK com k=4.

9 / 21

Page 10: Weka Report Presentation

J48I minNumObj = 2 e fator de confiança = 0.3I 214 classificadas corretamente e 72 incorretamente.

Figura : Árvore gerada pela ferramenta Weka após a execução do J48.10 / 21

Page 11: Weka Report Presentation

I Seja c : fator de confiança e f (c) qualidade da classificação.I Hipótese: limc→0 f (c) = 75.52. A ferramenta Weka não

permitiu valores muito pequenos para c.

69 70 71 72 73 74 75 760

0.2

0.4

0.6

quantidade de instâncias corretamente classificadas (%)

valordo

confi

dencefactor

11 / 21

Page 12: Weka Report Presentation

Comparação: Classificação Global X Classificação Local

Figura : Desempenho global dos classificadores

12 / 21

Page 13: Weka Report Presentation

Figura : Desempenho local dos classificadores em relação a classeno-recurrence-events

13 / 21

Page 14: Weka Report Presentation

Regras de Associação

I Abordagem AprioriI 1o Teste: Modelo Suporte/ConfiançaI supMin=0.5 Confiança=0.9

1. R1: inv − nodes = 0− 2, irradiat = no,Class = no − recurrence − events ⇒ node − caps = noconfiança:(0.99)

2. R2: inv − nodes = 0− 2, irradiat = no ⇒ node − caps = noconfiança:(0.97)

3. R3: node − caps = no, irradiat = no,Class = no − recurrence − events ⇒ inv − nodes = 0− 2confiança:(0.96)

Obs.: Dificuldade de extrair classe como consequente.Confiança=0.5

14 / 21

Page 15: Weka Report Presentation

Lift

1. R4: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26)

2. R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26)

3. R6: node − caps = no ⇒ inv − nodes = 0− 2, irradiat = noconf:(0.8) lift:(1.25)

I Lift > 1I Da regra R4: os itens inv − nodes = 0− 2 e

node − caps = no, irradiat = no possuem dependênciapositiva (o suporte real da regra é 1.26 vezes maior que osuporte esperado).

15 / 21

Page 16: Weka Report Presentation

Leverage, Conviction

I leverage: 0 a 0.25, Conviction: min=0.9

1. R7: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26) < lev:(0.13)> conv:(1.97)

2. R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26) < lev:(0.13)> conv:(4)

3. R9: inv − nodes = 0− 2⇒ node − caps = no conf:(0.94)lift:(1.22) <lev:(0.12)> conv:(3.67)

I Dependência mais frequente: inv − nodes = 0− 2 enode − caps = no

I R7=R4, R8=R5 e a regra R9 tomou a posição que era de R6

16 / 21

Page 17: Weka Report Presentation

Clusterização: SimpleKmeans

I Número de clusters (K=2).I Distância Euclidiana. (Distância de Manhattan não alterou os

resultados)

I Alguns atributos não distinguiram bem os clusters

17 / 21

Page 18: Weka Report Presentation

1 1.5 2 2.5 3 3.5 4

80

100

120

140

160

valor do parâmetro K

instâncias

incorretam

ente

clusteriz

adas

Figura : Qualidade da clusterização em função da variância do K.

Conclusão: Execuções com K6=2 clusterizam pior que K=2. Amedida que se aproxima de K=2, a clusterização melhora. 18 / 21

Page 19: Weka Report Presentation

DBSCANI Após alguns testes, o melhor valor para epsilon foi 1.5I 1a Conclusão Parcial: A medida que se incrementa o

minPoints, menos instâncias são clusterizadas incorretamente.

2 3 4 5 6 750

60

70

80

valor do minPoints

instâncias

incorretam

ente

clusteriz

adas

Figura : Qualidade da clusterização com epsilon fixo em 1.5.

19 / 21

Page 20: Weka Report Presentation

I 2a Conclusão Parcial: Menos instâncias foram clusterizadas

2 3 4 5 6 710

20

30

40

50

60

valor do minPoints

instâncias

nãoclusteriz

adas

Figura : Instâncias não clusterizadas com epsilon fixo em 1.5.

20 / 21

Page 21: Weka Report Presentation

DBSCAN: Conclusão Final

1. A clusterização realmente melhora com o incremento dosminPoints?

2. o Método garante a qualidade das clusterizadas e nãoclusteriza outras?

21 / 21