Weka Report Presentation
-
Upload
glaubos-climaco -
Category
Technology
-
view
108 -
download
3
Transcript of Weka Report Presentation
Relatório de Utilização da Ferramenta Weka
Francisco Glaubos
9 de junho de 2014
1 / 21
A base de dados
I Nome: Breast CancerI Fonte: Instituto de Oncologia, Iuguslávia.I Objetivo: Mostrar pacientes com câncer de mama que
possuem ou não, recorrência de sintomas após o tratamento.I 286 instâncias e nove atributos.
2 / 21
I Class: Não-Recorrência ou Recorrência de sintomas do câncerde mama nos pacientes após o tratamento.
I age: Idade do paciente no momento do diagnóstico.I menopause: Estado de menopausa do paciente no momento
do diagnóstico.I tumor-size: O tamanho do tumor em milímetros.I inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram
o câncer de mama no momento do exame histológico.I nodes-cap: A penetração do tumor na cápsula do linfonodo
ou não.
3 / 21
I deg-malign: Faixa de grau 1 a 3, que define o grauhistológico do tumor, o nível de malignidade do tumor.
I breast: O câncer poder ocorrer em qualquer mama.I breast-quad: Se for considerado o mamilo como um ponto
central, a mama pode ser dividida em quatro quadrantes.I irradiat: Se o paciente possui ou não histórico de terapia de
radiação (raio-x).
4 / 21
Classificação
I Nayve BayesI IBKI J48I Configuração padrão: Cross-validation folds = 10
5 / 21
Nayve BayesI classificou corretamente 205 e incorretamente 81 instânciasI 33 classificadas como reccurence-events ⇒
no-reccurence-eventsI 48 classificadas como no-reccurence-events ⇒
recurrence-events
6 / 21
IBKI 1o teste: A classe atribuída é a predominante entre um ponto
P e o vizinho mais próximo. K = 1.
Figura : Resultados do método IBK com k=1.
7 / 21
1 2 3 4 5 6
72.5
73
73.5
74
74.5
k-vizinhos mais próximos
instâncias
corretam
ente
classificadas
(%)
8 / 21
Figura : Resultados do método IBK com k=4.
9 / 21
J48I minNumObj = 2 e fator de confiança = 0.3I 214 classificadas corretamente e 72 incorretamente.
Figura : Árvore gerada pela ferramenta Weka após a execução do J48.10 / 21
I Seja c : fator de confiança e f (c) qualidade da classificação.I Hipótese: limc→0 f (c) = 75.52. A ferramenta Weka não
permitiu valores muito pequenos para c.
69 70 71 72 73 74 75 760
0.2
0.4
0.6
quantidade de instâncias corretamente classificadas (%)
valordo
confi
dencefactor
11 / 21
Comparação: Classificação Global X Classificação Local
Figura : Desempenho global dos classificadores
12 / 21
Figura : Desempenho local dos classificadores em relação a classeno-recurrence-events
13 / 21
Regras de Associação
I Abordagem AprioriI 1o Teste: Modelo Suporte/ConfiançaI supMin=0.5 Confiança=0.9
1. R1: inv − nodes = 0− 2, irradiat = no,Class = no − recurrence − events ⇒ node − caps = noconfiança:(0.99)
2. R2: inv − nodes = 0− 2, irradiat = no ⇒ node − caps = noconfiança:(0.97)
3. R3: node − caps = no, irradiat = no,Class = no − recurrence − events ⇒ inv − nodes = 0− 2confiança:(0.96)
Obs.: Dificuldade de extrair classe como consequente.Confiança=0.5
14 / 21
Lift
1. R4: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26)
2. R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26)
3. R6: node − caps = no ⇒ inv − nodes = 0− 2, irradiat = noconf:(0.8) lift:(1.25)
I Lift > 1I Da regra R4: os itens inv − nodes = 0− 2 e
node − caps = no, irradiat = no possuem dependênciapositiva (o suporte real da regra é 1.26 vezes maior que osuporte esperado).
15 / 21
Leverage, Conviction
I leverage: 0 a 0.25, Conviction: min=0.9
1. R7: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26) < lev:(0.13)> conv:(1.97)
2. R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26) < lev:(0.13)> conv:(4)
3. R9: inv − nodes = 0− 2⇒ node − caps = no conf:(0.94)lift:(1.22) <lev:(0.12)> conv:(3.67)
I Dependência mais frequente: inv − nodes = 0− 2 enode − caps = no
I R7=R4, R8=R5 e a regra R9 tomou a posição que era de R6
16 / 21
Clusterização: SimpleKmeans
I Número de clusters (K=2).I Distância Euclidiana. (Distância de Manhattan não alterou os
resultados)
I Alguns atributos não distinguiram bem os clusters
17 / 21
1 1.5 2 2.5 3 3.5 4
80
100
120
140
160
valor do parâmetro K
instâncias
incorretam
ente
clusteriz
adas
Figura : Qualidade da clusterização em função da variância do K.
Conclusão: Execuções com K6=2 clusterizam pior que K=2. Amedida que se aproxima de K=2, a clusterização melhora. 18 / 21
DBSCANI Após alguns testes, o melhor valor para epsilon foi 1.5I 1a Conclusão Parcial: A medida que se incrementa o
minPoints, menos instâncias são clusterizadas incorretamente.
2 3 4 5 6 750
60
70
80
valor do minPoints
instâncias
incorretam
ente
clusteriz
adas
Figura : Qualidade da clusterização com epsilon fixo em 1.5.
19 / 21
I 2a Conclusão Parcial: Menos instâncias foram clusterizadas
2 3 4 5 6 710
20
30
40
50
60
valor do minPoints
instâncias
nãoclusteriz
adas
Figura : Instâncias não clusterizadas com epsilon fixo em 1.5.
20 / 21
DBSCAN: Conclusão Final
1. A clusterização realmente melhora com o incremento dosminPoints?
2. o Método garante a qualidade das clusterizadas e nãoclusteriza outras?
21 / 21