DIEGO RICARDO DE ARAUJO
DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO
INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA
Seleção de Características através de
Nearest Shrunken Centroids
2
IntroduçãoClassificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
4
Descoberta de Conhecimento em Bases de Dados
Crescente fluxo de dados Dados coletados e acumulados
rapidamente
Transformação de informação em conhecimento útil
5
Descoberta de Conhecimento em Bases de Dados
Pré-processamento: dados preparados para mineração
Mineração de dados: extração de conhecimento através de métodos inteligentes
AvaliaçãoApresentação: representação e
visualização do conhecimento para o usuário
7
Mineração de Dados
Análise de grandes base de dados
Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões
8
Mineração de Dados
9
Introdução
Classificação de DadosSeleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
11
Processo de classificaçãoTreinamento
Aprendizado de conhecimento a partir de amostras com classes conhecidas
12
Processo de classificaçãoTeste
Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas
14
Avaliação dos Métodos de Classificação
Acurácia: índice de exatidão de classificação de amostras desconhecidas
Desempenho: velocidade e custo computacional referente a utilização do classificador
15
Avaliação dos Métodos de ClassificaçãoRobustez: capacidade de realizar predições
corretas a partir de conjuntos de dados com amostras incompletas ou com ruído
Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados
Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados
17
Método Nearest Centroid
Centróide
Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de
classe
18
Método Nearest CentroidMatematicamente
Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n
xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)
A cada classe k, estão associadas nk amostras que compõem o modelo de dados.
19
Método Nearest Centroid
Matematicamente O i-ésimo componente dos centróides
Geral
De classekCi ijik nxx
k/
nxx n
j iji /1
20
Método Nearest Centroid
Função de distância
Sendo
Classificação
k
12
2** log2
p
i i
ikik s
xxx
22 1
k Ci
ikijik
xxKn
s nnkk / 11
K
k k
21
Introdução
Classificação de Dados
Seleção de CaracterísticasSistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
22
Seleção de Características
Teoria Maior quantidade de atributos: maior
poder de discernimento
Prática Informações irrelevantes confundem e
retardam os sistemas de aprendizado
23
Seleção de Características
Motivação
Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados
24
Seleção de Características
Eliminação de atributos irrelevantes/redundantes do modelo de dados
Busca da melhoria do processo de descoberta de conhecimento
26
Método Nearest Shrunken Centroid
Distância estatística
Sendo
ik
iikik sm
xxd
nnm kk /1/1
ikikiik dsmxx
27
Método Nearest Shrunken Centroid
Função de limiarização suave
ikikik ddsignd .'
28
Método Nearest Shrunken Centroid
Dessa forma
Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação
ikikiik dsmxx ''
k
12
2** log2
p
i i
ikik s
xxx
29
Shrunken Centroids
30
Introdução
Classificação de Dados
Seleção de Características
Sistema InteligenteTestes Comparativos
Resultados
Considerações Finais
31
Sistema Inteligente
32
Sistema Inteligente
File: arquivo físico da base de dados *.arff *.dat
Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe
33
Sistema Inteligente
DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)
Centroid: centróide de um conjunto de amostras
34
Sistema Inteligente
NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)
35
Sistema Inteligente
Shrinker Seleção de características Realiza a redução dos centróides
shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds
36
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos Resultados
Considerações Finais
38
Metodologia
Sub-divisão das bases de dados Testes de classificação
75% conjunto de treinamento 25% conjunto de teste
Seleção de características Dados originais Dados reduzidos
39
MetodologiaValidação Cruzada
40
Metodologia
Validação Cruzada
Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação
41
Metodologia
Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate
42
Metodologia
Classificadores utilizados NSC
Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest
43
Testes ComparativosPor Base de Dados
44
Breast
45
Colon
46
Glasses
47
Iris
48
Leukemia
49
Lymphoma
50
Prostate
51
Testes ComparativosPor Classificador
52
NSC
53
Naive-Bayes
54
SMO
55
Multilayer Perceptron
56
J48
57
Random Forest
58
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
ResultadosConsiderações Finais
59
Resultados
Média por Base de Dados
Média por Classificador
60
Resultados
Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho
Maiores índices Bases de dados de alto nível dimensional
61
Resultados
Acurácia Perda pouco significativa de acurácia Melhores índices
Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)
Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)
62
Resultados
Desempenho x Acurácia Ganho de desempenho e de acurácia
Bases de dados de alto nível dimensional
63
Introdução
Classificação de Dados
Seleção de Características
Sistema Inteligente
Testes Comparativos
Resultados
Considerações Finais
64
Considerações Finais
Ganho considerável de desempenho
Queda pouco significativa de acurácia
Melhores resultados em bases de dados de alto nível dimensional
65
Considerações Finais
Trabalhos Futuros
Estudos comparativos
Outros métodos de seleção de características
Variação da proporção entre número de amostras de treinamento e teste
Top Related