Download - Seleção de Características através de Nearest Shrunken Centroids

Transcript

Page 1: Seleção de Características através de Nearest Shrunken Centroids

DIEGO RICARDO DE ARAUJO

DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO

INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA

Seleção de Características através de

Nearest Shrunken Centroids

IntroduçãoClassificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 3: Seleção de Características através de Nearest Shrunken Centroids

Descoberta de Conhecimento em Bases de Dados

Crescente fluxo de dados Dados coletados e acumulados

rapidamente

Transformação de informação em conhecimento útil

Page 4: Seleção de Características através de Nearest Shrunken Centroids

Descoberta de Conhecimento em Bases de Dados

Pré-processamento: dados preparados para mineração

Mineração de dados: extração de conhecimento através de métodos inteligentes

AvaliaçãoApresentação: representação e

visualização do conhecimento para o usuário

Page 5: Seleção de Características através de Nearest Shrunken Centroids

Mineração de Dados

Análise de grandes base de dados

Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões

Page 6: Seleção de Características através de Nearest Shrunken Centroids

Mineração de Dados

Page 7: Seleção de Características através de Nearest Shrunken Centroids

Introdução

Classificação de DadosSeleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 8: Seleção de Características através de Nearest Shrunken Centroids

Processo de classificaçãoTreinamento

Aprendizado de conhecimento a partir de amostras com classes conhecidas

Page 9: Seleção de Características através de Nearest Shrunken Centroids

Processo de classificaçãoTeste

Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas

Page 10: Seleção de Características através de Nearest Shrunken Centroids

Avaliação dos Métodos de Classificação

Acurácia: índice de exatidão de classificação de amostras desconhecidas

Desempenho: velocidade e custo computacional referente a utilização do classificador

Page 11: Seleção de Características através de Nearest Shrunken Centroids

Avaliação dos Métodos de ClassificaçãoRobustez: capacidade de realizar predições

corretas a partir de conjuntos de dados com amostras incompletas ou com ruído

Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados

Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados

Page 12: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Centroid

Centróide

Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de

classe

Page 13: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest CentroidMatematicamente

Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n

xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)

A cada classe k, estão associadas nk amostras que compõem o modelo de dados.

Page 14: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Centroid

Matematicamente O i-ésimo componente dos centróides

Geral

De classekCi ijik nxx

nxx n

j iji /1

Page 15: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Centroid

Função de distância

Sendo

Classificação

2** log2

i i

ikik s

xxx

22 1

k Ci

ikijik

xxKn

s nnkk / 11

k k

Page 16: Seleção de Características através de Nearest Shrunken Centroids

Introdução

Classificação de Dados

Seleção de CaracterísticasSistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Seleção de Características

Teoria Maior quantidade de atributos: maior

poder de discernimento

Prática Informações irrelevantes confundem e

retardam os sistemas de aprendizado

Seleção de Características

Motivação

Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados

Seleção de Características

Eliminação de atributos irrelevantes/redundantes do modelo de dados

Busca da melhoria do processo de descoberta de conhecimento

Page 20: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Shrunken Centroid

Distância estatística

Sendo

iikik sm

xxd

nnm kk /1/1

ikikiik dsmxx

Page 21: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Shrunken Centroid

Função de limiarização suave

ikikik ddsignd .'

Page 22: Seleção de Características através de Nearest Shrunken Centroids

Método Nearest Shrunken Centroid

Dessa forma

Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação

ikikiik dsmxx ''

2** log2

i i

ikik s

xxx

Shrunken Centroids

Introdução

Classificação de Dados

Seleção de Características

Sistema InteligenteTestes Comparativos

Resultados

Considerações Finais

Page 25: Seleção de Características através de Nearest Shrunken Centroids

Sistema Inteligente

Page 26: Seleção de Características através de Nearest Shrunken Centroids

Sistema Inteligente

File: arquivo físico da base de dados *.arff *.dat

Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe

Page 27: Seleção de Características através de Nearest Shrunken Centroids

Sistema Inteligente

DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)

Centroid: centróide de um conjunto de amostras

Page 28: Seleção de Características através de Nearest Shrunken Centroids

Sistema Inteligente

NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)

Page 29: Seleção de Características através de Nearest Shrunken Centroids

Sistema Inteligente

Shrinker Seleção de características Realiza a redução dos centróides

shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds

Page 30: Seleção de Características através de Nearest Shrunken Centroids

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos Resultados

Considerações Finais

Page 31: Seleção de Características através de Nearest Shrunken Centroids

Metodologia

Sub-divisão das bases de dados Testes de classificação

75% conjunto de treinamento 25% conjunto de teste

Seleção de características Dados originais Dados reduzidos

Page 32: Seleção de Características através de Nearest Shrunken Centroids

MetodologiaValidação Cruzada

Page 33: Seleção de Características através de Nearest Shrunken Centroids

Metodologia

Validação Cruzada

Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação

Page 34: Seleção de Características através de Nearest Shrunken Centroids

Metodologia

Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate

Page 35: Seleção de Características através de Nearest Shrunken Centroids

Metodologia

Classificadores utilizados NSC

Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest

Page 36: Seleção de Características através de Nearest Shrunken Centroids

Testes ComparativosPor Base de Dados

Page 37: Seleção de Características através de Nearest Shrunken Centroids

Breast

Page 38: Seleção de Características através de Nearest Shrunken Centroids

Colon

Page 39: Seleção de Características através de Nearest Shrunken Centroids

Glasses

Page 40: Seleção de Características através de Nearest Shrunken Centroids

Iris

Page 41: Seleção de Características através de Nearest Shrunken Centroids

Leukemia

Page 42: Seleção de Características através de Nearest Shrunken Centroids

Lymphoma

Page 43: Seleção de Características através de Nearest Shrunken Centroids

Prostate

Page 44: Seleção de Características através de Nearest Shrunken Centroids

Testes ComparativosPor Classificador

Page 45: Seleção de Características através de Nearest Shrunken Centroids

NSC

Page 46: Seleção de Características através de Nearest Shrunken Centroids

Naive-Bayes

Page 47: Seleção de Características através de Nearest Shrunken Centroids

SMO

Page 48: Seleção de Características através de Nearest Shrunken Centroids

Multilayer Perceptron

Page 49: Seleção de Características através de Nearest Shrunken Centroids

J48

Page 50: Seleção de Características através de Nearest Shrunken Centroids

Random Forest

Page 51: Seleção de Características através de Nearest Shrunken Centroids

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

ResultadosConsiderações Finais

Page 52: Seleção de Características através de Nearest Shrunken Centroids

Resultados

Média por Base de Dados

Média por Classificador

Page 53: Seleção de Características através de Nearest Shrunken Centroids

Resultados

Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho

Maiores índices Bases de dados de alto nível dimensional

Page 54: Seleção de Características através de Nearest Shrunken Centroids

Resultados

Acurácia Perda pouco significativa de acurácia Melhores índices

Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)

Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)

Page 55: Seleção de Características através de Nearest Shrunken Centroids

Resultados

Desempenho x Acurácia Ganho de desempenho e de acurácia

Bases de dados de alto nível dimensional

Page 56: Seleção de Características através de Nearest Shrunken Centroids

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Page 57: Seleção de Características através de Nearest Shrunken Centroids

Considerações Finais

Ganho considerável de desempenho

Queda pouco significativa de acurácia

Melhores resultados em bases de dados de alto nível dimensional

Page 58: Seleção de Características através de Nearest Shrunken Centroids

Considerações Finais

Trabalhos Futuros

Estudos comparativos

Outros métodos de seleção de características

Variação da proporção entre número de amostras de treinamento e teste

Top Related

O ProjetoO Projeto Objetivos A seleção dos alunos Características Apresentações Cidades beneficiadas Público Apoio ao projeto Retorno Institucional Idealizadores.

Seleção Dinâmica de Atributos para Comitês de Classi cadores · Lista de abreviaturas e siglas AM Aprendizado de Máquina k -NN k-Nearest Neighbour SVM Support ectorV Machine

EFEITO DA SELEÇÃO PARA CARACTERÍSTICAS DE … · 2.2 Parâmetros Qualitativos da Produção de Células Espermáticas Os espermatozoides completamente desenvolvidos são células

FICA TÉCNICA - Geotecnologias S.A....Sinapore SINGAPUR +65-6348-221 Pone Please visit for te latest product information and to locate your nearest distributor. Specifications and

Interpretação e aplicação das características no processo de seleção

Seleção genética para características de precocidade ... · disponibilidade de nutrientes, muito comum na estação seca (Matos, 2013). Alguns estudos demonstraram, entretanto,

Seleção de Características

Herança Monogênica Introdução: Homem Genética 6000 anos atrás = luta pela sobrevivência (seleção de plantas e animais) Transmissão de características hereditárias.