Relatório Utilização da Ferramenta Weka

Relatório de Utilização da Ferramenta Weka

Francisco Glaubos Nunes Clímaco

2 de junho de 2014

1 IntroduçãoEste é um relatório de trabalho proposto no qual o objetivo era escolher umabase de dados, aplicar as tarefas de mineração de dados: classificação, associaçãoe clusterização e analisar os resultados obtidos por cada método de cada tarefa.

1.1 A base de dadosA base utilizada neste trabalho foi a Breast Cancer, que foi obtida a partir doCentro Médico da Universidade, Instituto de Oncologia, Ljubljana, Iugoslávia[2]. Esta base possui informações acerca de pacientes com câncer de mama einclui no total 286 instâncias: 201 de uma classe, 85 de outra classe e 277 semvalores ausentes, estas são descritas por nove atributos (Tabela 1) , alguns sãolineares e outros são nominais:

1. Class: Não-Recorrência ou Recorrência de sintomas do câncer de mamanos pacientes após o tratamento.

2. age: Idade do paciente no momento do diagnóstico.

3. menopause: Estado de menopausa do paciente no momento do diagnós-tico.

4. tumor-size: O tamanho do tumor em milímetros.

5. inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram o câncer demama no momento do exame histológico.

6. nodes-cap: A penetração do tumor na cápsula do linfonodo ou não.

7. deg-malign: Faixa de grau 1 a 3, que define o grau histológico do tumor,o nível de malignidade do tumor.

8. breast:O câncer poder ocorrer em qualquer mama.

9. breast-quad: Se for considerado o mamilo como um ponto central, a mamapode ser dividida em quatro quadrantes.

10. irradiat: Se o paciente possui ou não histórico de terapia de radiação (raio-x).

1

Atributo ValorClass: no-recurrence-events, recurrence-events.age: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.menopause: lt40, ge40, premeno.tumor-size: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59.inv-nodes: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26,27-29, 30-32, 33-35, 36-39.node-caps: yes, no.deg-malig: 1, 2, 3.breast: left, right.breast-quad: left-up, left-low, right-up, right-low, central.irradiat: yes, no.

Tabela 1: Base de dados Breast Cancer.

Uma visualização gráfica da Tabela 1, em forma de histograma mostrandocada atributo da base de dados e seu domínio foi gerada pela ferramenta Wekae pode ser vista na Figura 1.

Figura 1: Representação gráfica dos atributos, gerada pela ferramenta Weka.

1.2 TarefasCom o objetivo de extrair informações relevantes em relação a base de dadosBreast Cancer, utilizou-se três tipos de tarefas de mineração de dados: classifica-ção, associação e clusterização. Para a análise de classificação foram utilizadoso método Nayve Bayes, IBK e J48. No IBK foi variado o valor do atributoK, a fim de se observar melhor sua influência no sucesso de classificação destemétodo.

Na tarefa de associação foi utilizado o algoritmo Apriori com o objetivo deextrair regras de associação variando alguns parâmetros como suporte mínimo,confiança, Lift e Leverage, e após uma análise dos resultados.

Para realizar a tarefa de clusterização, foram executados os procedimentos

2

K-means e DSCAN, variando os parâmetros de entrada e posteriormente reali-zando uma análise dos resultados com base nos centróides dos clusters.

2 Tarefas de Mineração de Dados

2.1 ClassificaçãoClassificação é o processo que visa encontrar modelos ou funções que descrevamou distinguam classes ou conceitos de dados, com o intuito de permitir que omodelo ou função preveja a classe daqueles objetos que não possuem um labelque indique sua classe [1]. Para os experimentos utilizou-se por default o Cross-Validation com k=10.

2.1.1 Nayve Bayes

É um classificador probabilístico baseado no Teorema de Bayes.Sua ideia prin-cipal é calcular a probabilidade de certa instância de entrada pertencer a cadauma das classes.

Este método foi executado pela ferramenta Weka e os resultados estão naFigura 2. O resumo dos resultados dessa execução pode ser apresentado daseguinte forma: o algoritmo Nayve Bayes classificou corretamente 205 e incor-retamente 81 instâncias, e a partir da matriz de confusão ainda pode-se con-cluir que 33 instâncias foram classificadas como reccurence-events, quando defato pertencem a classe no-reccurence-events, e que 48 foram da mesma formaincorretamente classificadas como no-reccurence-events quando na verdade per-tencem a classe reccurence-events.

Figura 2: Resultados da execução do método Nayve Bayes.

3

2.1.2 IBK

É uma estratégia baseada no algoritmo K-NN, no qual parte da ideia de queem um espaço n-dimensional, um ponto P e os seus K vizinhos mais próximos,pertencem a mesma classe. A proximidade entre dois pontos nesse espaço é cal-culada por meio da distância Euclidiana entre estes pontos, foi testado tambémcom a distância de Manhattan, porém os resultados são os mesmos.

A seguir na Figura 3, o resultado da execução do IBK com k=1, ou seja, ainstância irá pertencer a classe predominante entre si e seu vizinho mais próximo.

Figura 3: Resultados do método IBK com k=1.

De forma empírica, foi-se alterando o valor do parâmetro K de forma cres-cente a partir de K=1 e foi observado que os resultados melhoraram até certoponto: variando o valor de K de 1 até 4, as instâncias são melhores classificadasa medida que K cresce, porém quando K recebe o valor 5, a qualidade de clas-sificação das instâncias diminui. O gráfico abaixo representa o comportamentode K em função da qualidade de classificação:

4

1 2 3 4 5 6

72.5

73

73.5

74

74.5

k-vizinhos mais próximos

instân

cias

corretam

ente

classificad

as(%

)

Na Figura 4, o resultado da melhor calssificação do IBK: 213 instâncias clas-sificadas corretamente (74.47%) e 73 (25.52%) classificadas incorretamente, ea partir da matriz de confusão, sete instâncias classificadas como reccurence-events, quando deveriam ser da classe no-reccurence-events e 66 instâncias clas-sificadas de forma incorreta como no-reccurence-events, pois pertencem a classerecurrence-events.

Figura 4: Resultados do método IBK com k=4.

5

2.1.3 J48

É uma implementação Java do algoritmo C4.5, presente na ferramenta Weka.O C4.5 é uma estratégia que cria uma árvore de decisão baseada na entrada deum conjunto de dados com seus respectivos labels. Os resultados da execuçãodo J48 podem ser visualizados na Figura 5, utilizou-se a configuração default daferramenta Weka: número mínimo de objetos por folha = 2 e fator de confiança= 0.3.

Figura 5: Resultados do método j48

Após a obtenção do resultado com a configuração default testou-se o J48 va-riando o atributo confidence factor. De acordo com o incremento ou decrementodeste fator de confiança, pode-se obter uma árvore de decisão mais ou menosdetalhada, uma vez que quando se diminui o fator de confiança se força umapoda maior na árvore, gerando consequentemente um modelo mais genérico,Figura 6.

6

Figura 6: Árvore gerada pela ferramenta Weka após a execução do J48.

A Figura 7 a seguir mostra os resultados da variação do confidence factor esua influência direta na qualidade de classificação do J48.

69 70 71 72 73 74 75 760

0.2

0.4

0.6

quantidade de instâncias corretamente classificadas (%)

valordo

confi

dencefactor

Figura 7: Representação do crescimento da qualidade de classificação em funçãodo confidence factor.

7

Analizando o gráfico da Figura 7, pode-se observar que o fator de confiançaigual a 0.3 definido por default não convergia para o pior caso de classifica-ção, mas também não era o ideal para o J48, ao decrementá-lo observou-se quea quantidade de instâncias corretamente classificadas aumentou, entretanto, apartir do momento exato em que o confidence factor é igual 0.2, a qualidadede classificação se mantém constante (75.5245%). Não se pode afirmar maisa respeito de maneira empírica devido há uma limitação na ferramenta Weka(quando se atribui valores muito pequenos ao confidence factor, aparece a se-guinte mensagem de erro: Problem evaluating classifier), mas há uma possibi-lidade de o limite da qualidade de classificação manter-se constante quando ofator de confiança tende a zero.

2.1.4 Comparação entre as estratégias utilizadas

Ao se comparar os resultados obtidos pelas três estratégias abordadas para clas-sificação da base, se observou que globalmente o método com melhor desempe-nho foi o J48 que classificou corretamente 216 instâncias e incorretamente 70(utilizando confidence factor igual a 0.2), em seguida o melhor classificador paraa base foi o IBK com k igual a 4 que classificou corretamente 213 instâncias e 73de forma incorreta, e por último o Nayve Bayes com o pior desempenho, obteve205 instâncias classificadas de maneira correta e 85 incorreta. Figura 8.

Figura 8: Desempenho global dos classificadores

Contudo, foi observado que localmente essa classificação dos classificadoresnão se repete, pois analizando de forma isolada a classe no-recurrence-events,nota-se que o IBK classificou corretamente 194 instâncias pertecentes a estaclasse, enquanto o J48 classificou 191 corretamente e seguido pelo Nayve Bayesque de maneira correta classificou 180 instâncias dessa classe. Este tipo deobservação também é válida referente a classe recurrence-events. Figura 9.

8

Figura 9: Desempenho local dos classificadores em relação a classe no-recurrence-events

2.2 AssociaçãoPode ser definida como a tarefa de extrair regras de associação que representampadrões entre itens de uma aplicação, com certa frequência [1].

2.2.1 Apriori

É uma estratégia que parte da seguinte ideia: se um padrão de tamanho k nãoé frequente, então seu super-padrão de tamanho k+1 também não será.

Primeiramente buscou-se utilizar o Modelo Suporte/Confiança, com suportemínimo igual a 0.5 e confiança igual a 0.9. As três melhores regras geradas poresse método foram:

• R1: inv−nodes = 0−2, irradiat = no, Class = no−recurrence−events⇒ node− caps = no confiança:(0.99)

• R2: inv − nodes = 0 − 2, irradiat = no ⇒ node − caps = no confi-ança:(0.97)

• R3: node−caps = no, irradiat = no, Class = no−recurrence−events⇒inv − nodes = 0− 2 confiança:(0.96)

O Modelo Suporte/Confiança gera um número grande de regras de associa-ção, e que muitas vezes são redundantes, óbvias e até contraditórias, não sendointeressante ao usuário. Para resolver esse problema, outras medidas de inte-resse são utilizadas para se definir quais regras são de fato relevantes ao usuário[3].

Por meio da medida Lift é possível verificar o quanto mais frequente é o con-sequente quando seu antecedente ocorre, se para uma regra tem-se Lift=1, entãoo antecedente e o consequente desta regra são independentes, e para minMetric

9

Lift > 1, quanto maior o Lift, mais relevante será a regra. Para o experimento,foi definido minMetric do Lift=1.1 e a seguir as três melhores regras extraídas:

• R4: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no conf:(0.83)lift:(1.26)

• R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2 conf:(0.94)lift:(1.26)

• R6: node − caps = no ⇒ inv − nodes = 0 − 2, irradiat = no conf:(0.8)lift:(1.25)

Da regra R4, concluiu-se que os itens inv−nodes = 0−2 e node−caps = no,irradiat = no possuem dependência positiva (o suporte real da regra é 1.26 vezesmaior que o suporte esperado). O mesmo raciocínio serve para as regras R5 eR6.

Uma outra medida explorada foi a Rule Interest (RI) ou leverage, que indicaa diferença entre o suporte real e o suporte esperado de uma regra de asso-ciação. Esta medida varia entre -0.25 e 0.25, quanto maior este valor, maisinteressante será a regra. Assim como a medida Lift, o RI verifica a dependên-cia do consequente em relação ao seu antecedente, portanto, uma outra medida(Conviction) será utilizada para verificar se de fato a regra obtida utilizandoessas duas medidas é relevante. Os resultados da utilização do RI e verificaçãocom minMetric do Conviction igual a 0.9 são detalhados abaixo:

• R7: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no conf:(0.83)lift:(1.26) < lev:(0.13)> conv:(1.97)

• R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2 conf:(0.94)lift:(1.26) < lev:(0.13)> conv:(4)

• R9: inv − nodes = 0 − 2 ⇒ node − caps = no conf:(0.94) lift:(1.22)<lev:(0.12)> conv:(3.67)

A partir dessas novas três melhores regras geradas observou-se que após autilização do RI e a verificação de convicção, R7=R4, R8=R5 e a regra R9tomou a posição que era de R6, ou seja, R4 e R5 encontradas na extraçãoanterior de fato eram regras relevantes, enquanto que R6 nem tanto, por essemotivo R6 sai do conjunto das melhores três regras e dá lugar a R9 que possuiuma convicção melhor.

2.3 ClusterizaçãoÉ o processo de agrupamento de um conjunto de objetos dentro de classes deobjetos similares [1]. Para a execução deste experimento, o atributo classe foidesconsiderado, porém utilizado posteriormente para verificar a qualidade daclusterização obtida.

2.3.1 SimpleKmeans

É um algoritmo baseado na ideia do K-means, onde se tem como entrada oparâmetro k, que diz respeito ao número de clusters que o método irá gerar. Paraa primeira execução deste algoritmo foi-se utilizado k=2 e Distância Euclidianacomo parâmetros, os resultados pode ser vistos na Figura 10.

10

Figura 10: Centroides dos clusters para o SimpleKmeans.

Por meio da Figura 10, pode-se perceber que alguns atributos não distin-guiram bem os clusters, por exemplo o atributo menopause que teve seu valorpremeno pertencente tanto ao cluster 0 como ao 1. Dessa forma, 25.5245% dasinstâncias não foram corretamente clusterizadas. Apesar de a base de dados jápossuir dois grupos definidos (no-recurrence-events e recurrence-events), testou-se a variância do K a fim de se obter uma possível melhoria na clusterização.

1 1.5 2 2.5 3 3.5 4

80

100

120

140

160

valor do parâmetro K

instân

cias

incorretam

ente

clusterizada

s

Figura 11: Qualidade da clusterização em função da variância do K.

Os resultados da Figura 11 mostram que exatamente dois clusters clusteri-zam melhor as instâncias, todos os valores de K6=2 clusterizam pior que K=2, ea medida que se aproxima de K=2, a clusterização melhora.

2.3.2 DBSCAN

É um método baseado em densidade e não utiliza o número de clusters desejadoscomo parâmetro de entrada. O parâmetro de entrada epsilon significa o raiode vizinhança com o qual o algoritmo irá trabalhar e minPoints, o número

11

instâncias não clusterizadas epsilon minPoints258 0.9 2286 (todas) 0.9 3286 (todas) 0.9 4286 (todas) 0.9 61 2 21 2 31 2 41 2 6

Tabela 2: Variação dos parâmetros epsilon e minPoints.

mínimo de pontos necessários para se ter uma região densa. O experimento foiexecutado inicialmente com o epsilon=0.9 e minPoints=6 que são definidos porpadrão na ferramenta Weka. Posteriormente, encetou-se com limite inferior davariação, minPoints=2, porque baseado no conhecimento prévio da existênciade duas classe na base de dados, intuitivamente o valor 2 iria resultar em umaclusterização melhor, e com limite superior o valor 6, porque para valores maioresque 6 o resultado era constante.

A partir da Tabela 2 pode-se notar que com o parâmetro epsilon=0.9 osresultados são ruins, pois em todos os casos (com exceção do minPoints iguala 2) de variação do minPoints o algoritmo não consegue clusterizar nenhumainstância. Porém, com o valor de epsilon alterado para 2, os resultados jámelhoram bastante, apenas uma instância não consegue ser clusterizada e issose repete para todas as variações de minPoints.

Após identificar um epsilon que permita uma boa clusterização, verificou-sea qualidade desta tarefa. De início utilizou-se o que se tinha de melhor atéentão (epsilon=2) e foi-se variando os valores de minPoints. O resultado desseexperimento foi que não importa o valor que minPoints assumisse, sempre 85instâncias eram clusterizadas incorretamente.

Uma nova tentativa de calibração de parâmetros foi feita, desta vez descon-siderando a intuição de o valor 2 ser o limite inferior das variações de epsilon.Após alguns testes o epsilon foi calibrado para 1.5, por um lado, esse novo va-lor aumentou a qualidade de clusterização das instâncias (Figura 12), mas poroutro, decrementou o número de instâncias clusterizadas (Figura 13). Apesardestes resultados, não foi possível saber se a qualidade de clusterização aumen-tou realmente ou se clusterizou-se com mais qualidade instâncias mais fáceis eas mais difíceis de serem clusterizadas simplesmente não foram utilizadas, comose o algoritmo DBSCAN decrementasse sua possibilidade de errar com esse novovalor de epsilon.

12

2 3 4 5 6 7

50

60

70

80

valor do minPoints

instân

cias

incorretam

ente

clusterizada

s

Figura 12: Qualidade da clusterização com epsilon fixo em 1.5.

2 3 4 5 6 7

10

20

30

40

50

60

valor do minPoints

instân

cias

nãoclusterizada

s

Figura 13: Instâncias não clusterizadas com epsilon fixo em 1.5.

3 ConclusãoA realização de experimentos por meio das tarefas de mineração de dados foiinteressante, uma vez que foi possível observar como de fato a classificação, aextração de regras de associação e a clusterização funcionam com bases reais.Apesar de não se possuir um conhecimento adequado sobre a ferramenta Wekaque permitisse um aproveitamento melhor durante as análises de resultados,acredito que o resultado de aprendizagem sobre mineração de dados em geralfoi positivo.

Sobre os resultados dos experimentos, a tarefa que obteve um êxito maior

13

em relação a base breast cancer foi a tarefa de classificação, além de classificarbem as instâncias, observou-se uma flexibilidade interessante em relação à clas-sificação global e local de tal maneira que o usuário pode obter resultados bonsreferentes a apenas uma classe ou as duas, ou seja, em função da perspectiva dousuário sobre a base de dados.

Após todos os experimentos, concluiu-se principalmente que os parâmetrosde entrada utilizados nas estratégias é um fator determinante para o sucessodestas. Durante os experimentos, foi observado que se faz necessário um traba-lho exaustivo na calibragem dos parâmetros até que se obtenha um resultado dequalidade, nesse sentido, uma ideia para automatizar esse processo seria a im-plementação de uma meta-heurísitca que recebesse como entrada, um problema:a base de dados, o algoritmo e seu parâmetros, e retornasse uma solução: umconjunto de parâmetros que melhor atendesse às necessidades do algoritmo emfunção da base.

4 Referências Bibliográficas-[1] Jiawei Han. 2005. Data Mining: Concepts and Techniques. Morgan Kauf-mann Publishers Inc., San Francisco, CA, USA.[2] Website: http://archive.ics.uci.edu/ml/datasets/Breast+Cancer. Acessadoem 30/04/2014.[3] GONÇALVES, E. C. - “Regras de Associação e suas Medidas de InteresseObjetivas e Subjetivas”

14

Relatório Utilização da Ferramenta Weka

Technology

Transcript of Relatório Utilização da Ferramenta Weka