Aprendizagem de Máquina Uma visão geral de diversos...

Aprendizagem de Máquina

Bagging, Boosting, Support Vector Machines e Combinação de

Classificadores

Alessandro L. Koerich

Mestrado em Informática AplicadaPontifícia Universidade Católica do Paraná (PUCPR)

Mestrado em Informática Aplicada Aprendizagem de Máquina 2Alessandro L. Koerich (alekoe@ppgia.pucpr.br)

Plano de Aula

Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:

Bagging e Boosting

Kernel Methods (SVM)

Combinação de Classificadores

Hidden Markov Models (HMMs)

Referências

Duda R., Hart P., Stork D. PatternClassification 2ed. Willey Interscience, 2002. Capítulos 5 & 9

Transparências de Andrew W. Moore (CMU)

Support Vector Machines (SVM)

Baseia-se no pré–processamento dos dados para representar padrões em uma elevada dimensão, tipicamente, muito mais elevada do que a dimensão original dos atributos.

Com um mapeamento não–linear apropriado ϕ(.) para uma dimensão suficientemente alta, dados de duas categorias diferentes podem ser sempre separados por um hiperplano

Assumindo que cada padrão xk foi transformado para yk = ϕ(xk). Para cada um dos n padrões, k=1, 2, …, n, fazemos zk=1 conforme o padrão k está em ω1 e ω2.

Um discriminante linear em um espaço yaumentado é

g(y) = a’ y

Tanto o vetor de pesos quanto o vetor de padrões transformado estão aumentados. Então, um hiperplano de separação assegura:

zkg(yk) ≥ 1 k=1,2, …n.

Margem: qualquer distância positiva a partir do hiperplano de decisão.

O objetivo no treinamento de um SVM é encontrar o hiperplano de separação com a margem mais elevada.

Espera–se que quanto maior a margem melhor será a generalização do classificador.

A distância de qualquer hiperplano até um a padrão (transformado) y é |g(y)| / ||a||, e assumindo que uma margem positiva b existe, a equação anterior implica:

A meta é encontrar o vetor peso a que maximiza b.

ygz kk ,...,1 )(

O vetor solução pode ser escalado arbitrariamente e ainda preservar o hiperplano.

Para assegurar a singularidade impomos a restrição b ||a||= 1, isto é, exigimos uma solução para minimizar também ||a||2

ygz kk ,...,1 )(

Os vetores de suporte são os padrões de treinamento (transformados) para os quais zkg(yk) ≥ 1 representa uma desigualdade, isto é, os vetores de suporte são (igualmente), próximos do hiperplano.

Os vetores de suporte são as amostras de treinamento que definem o hiperplano de separação ótimo e são os padrões mais difíceis de classificar.

Informalmente, estes são os padrões mais informativos para a tarefa de classificação.

Um método conceitualmente simples para o treinamento de SVM’s é baseado em uma pequena modificação da regra de treinamento do Perceptron.

Um SVM pode ser treinado escolhendo o padrão atual pior classificado.

Durante a maior parte do período de treinamento, tal padrão é um no lado errado da fronteira de decisão atual, o mais distante da fronteira

No final do período de treinamento, tal padrão será um dos vetores de suporte.

Se N representa o número total de vetores de suporte, então para n padrões de treinamento, o valor esperado da taxa de erro de generalização é limitada de acordo com:

onde a expectativa é sobre todos conjuntos de treinamento de tamanho n escolhidos das distribuições descrevendo as categorias.

Nerro sn

εε ≤

Este limite é independente da dimensionalidade do espaço de vetores transformados, determinado por ϕ(.).

Limite Deixe–um–de fora (leave–one–outbound)

Supondo n pontos no conjunto de treinamento, treinamos um SVM com n–1 deles e testamos sobre o único ponto remanescente.

Se o ponto remanescente por acaso é um vetor de suporte para o caso de n amostras completas, então, haverá erro. Caso contrário, não haverá.

Note que se pudermos encontrar uma transformação ϕ (.) que separa bem os dados, então o número esperado de vetores de suporte é pequeno. Então, a taxa de erro esperada será baixa.

Treinamento SVM

Primeiro passo: escolher as funções não lineares que mapeiam a entrada para um espaço dimensional mais elevado.

Esta escolha depende do conhecimento do projetista do domínio do problema. Escolhas possíveis: polinomiais, Gaussianas, ou outras funções base.

Treinamento SVM

A dimensionalidade do espaço mapeado pode ser arbitrariamente elevada

Começamos remodelando o problema de minimização da magnitude do vetor de pesos restrito pela separação em um problema sem restrições pelo método dos multiplicadores indeterminados de Lagrange.

Treinamento SVM

Construímos a função

E buscamos minimizar L(.) em relação ao vetor de pesos a, e maximizá–lo em relação aos multiplicadores indeterminados αk≥0

−−=n

tkk yazaaL

),( αα

Resumo

Um benefício importante do método SVM é que a complexidade do classificador resultante é caracterizada por vários vetores de suporte ao invés da dimensionalidade do espaço transformado.

Conseqüentemente, SVMs tendem a ser menos propensos a problemas de sobreajuste relativamente a outros métodos.

Bias e Variância

Não há um melhor classificador global

Devemos estar preparados para explorar diversos métodos ou modelos na resolução de um dado problema de classificação.

Como medir a “compatibilidade” ou “alinhamento” de um algoritmo de aprendizagem com o problema de classificação ?

Bias e Variância

O bias mede a precisão ou qualidade da compatibilidade: alto bias indica uma compatibilidade pobre.

A variância mede a precisão ou singularidade da compatibilidade: alta variância implica uma compatibilidade fraca.

Bias e Variância

Reamostragem para o Projeto de Classificadores

Quando aplicamos algum algoritmo de aprendizagem sobre um novo problema com distribuição conhecida, como podemos determinar o bias e a variância ?

As figuras anteriores sugerem um método usando múltiplas amostras.

Meta: usar reamostragem e técnicas relacionadas para melhorar a classificação.

Bagging

Utiliza múltiplas versões de um conjunto de treinamento, cada um criado pegando aleatoriamente n’ < n amostras do conjunto de treinamento D, com reposição.

Cada um destas versões é utilizada para treinar diferentes “classificadores componentes” e a decisão da classificação final é baseada no voto de cada componente.

Bagging

Tradicionalmente, os classificadores componentes tem todos a mesma forma geral (todos HMMs, ou todos NN, ou todos Árvores de Decisão), somente o valor dos parâmetros finais diferem entre eles.

Boosting

O objetivo de boosting é melhorar a precisão de qualquer algoritmo de aprendizagem.

Primeiro criamos um classificador com precisão sobre o conjunto de treinamento maior do que a média

Então, adicionamos novos classificadores componentes para formar um conjunto (ensemble) cuja regra de decisão tenha uma alta precisão arbitrária sobre o conjunto de treinamento.

Boosting

Exemplo: Criação de três classificadores componentes para um problema de duas categorias.

Selecionamos aleatoriamente um conjunto de n1< n padrões a partir do conjunto de treinamento completo D (sem reposição) → D1

Treinamos o classificador C1 com D1.

Boosting

Agora buscamos um segundo conjunto de treinamento D2, que seja o “mais informativo”, dado o “classificador componente” C1.

Especificamente, metade dos padrões em D2devem ser classificados corretamente por C1, metade, incorretamente.

D2 é criado da seguinte maneira:

Boosting

Primeiro (jogamos uma moeda → cara) selecionamos exemplos remanescentes em D e apresentamos um a um a C1 até C1 classificar incorretamente um padrão.

Adicionamos este exemplo classificado incorretamente a D2.

(jogamos a moeda novamente → cara) Continuamos a procurar em D um outro padrão classificado incorretamente por C1 para adicioná–lo em C2.

Continuamos até que nenhum outro padrão puder ser adicionado desta maneira em D2.

Boosting

Treinamos um segundo “classificador componente” C2 com D2.

Em seguida, procuramos um terceiro conjunto de dados D3 que não é bem classificado pela votação de C1 e C2 classificar incorretamente um padrão.

Boosting

Se C1 e C2 discordarem, adicionamos este padrão ao terceiro conjunto de treinamento D3, caso contrário, ignoramos o padrão.

D3 contem somente os exemplos não bem representados pela decisão combinada de C1 e C2.

Treinamos o último “classificador componente” C3 com D3.

Boosting

Considerando o uso do ensemble dos 3 classificadores componentes treinados para classificar um padrão de teste x.

A classificação é baseada nos votos dos classificadores componentes.

Se C1 e C2 concordam na categoria (classe) de x, usamos este rótulo;

Caso eles discordem, usamos a classe dada por C3.

Ver AdaBoost (adaptive boosting)

Boosting

Modelos de Markov Escondidos (HMM)

Ver apresentação sobre HMMs.

Classificadores cuja decisão é baseada nas saídas de classificadores componentes.

Este classificadores são chamados:Mixture–of–Expert Models

Ensemble Classifiers

Modular Classifiers

Pooled Classifiers

Combinação de classificadores é particularmente interessante se cada um de seus classificadores componentes for altamente treinado (i.e. expert) em uma região diferente do espaço de atributos.

Existem diversos métodos para a combinação de classificadores:

Alguns métodos utilizam as saídas de todos os classificadores enquanto outros utilizam somente a saída de alguns classificadores.

Arquiteturas para a combinação: paralela, serial, híbrida.

Alguns métodos geram novos classificadores criando diferentes subconjuntos de dados a partir dos dados originais (bagging, boosting)

A saída dos classificadores pode ser de diferentes tipos: abstratas, ranks e níveis de confiança, probabilidades,etc.

Algumas técnicas de combinação podem ser treinadas para melhorar a performance, enquanto outras são estáticas.

Regras de votação, soma, produto, média, etc.

Aprendizagem de Máquina Uma visão geral de diversos...

Documents

Transcript of Aprendizagem de Máquina Uma visão geral de diversos...

MANUAL DO USUÁRIO - Koerich

E O AMOR CONTINUA - pensesite.com.br E o Amor Continua... · JANE FURTADO KOERICH – Médium: Francisco C. Xavier. JANE FURTADO KOERICH ... SILVIO ROMERO DE OLIVEIRA JÚNIOR –

Computação Evolutiva: Programação Genética Luiz Eduardo S. Oliveira, Ph.D. soares@ppgia.pucpr.br soares Pontifícia Universidade.

Visión Computacional (VC) - Programa de Pós-Graduação ...alekoe/Papers/Apresentacao-CERMA2005.pdf · rápida para capturar mais "imagens" do objeto enquanto ele se move. Taxa

FERNANDO KOERICH RAMOSsiaibib01.univali.br/pdf/Fernando Koerich Ramos e Gustavo Batistin... · momentos; ao Felipe, amigo do peito e companheiro; ao Fernando, que tive os primeiros

Busca Heurística - ppgia.pucpr.br

Redes TCP/IP CSMA/CD Prof. Edgard Jamhour email: jamhour@ppgia.pucpr.brjamhour@ppgia.pucpr.br URL: jamhour.

20271 MANUAL INSTRUÇÃO COIFAS - Koerich

Conﬁabilidade+ - eng.eletrica.ufpr.breng.eletrica.ufpr.br/~koerich/TE256/4... · Introdução+ • A+abordagem+mais+comum+parapredizer+a conﬁabilidade+é+esGmar+acontribuição+de+cada

Decreto Estadual nº 02/2015 Açougue Hayde Koerich e Sá – Médica Veterinária Divisão de Alimentos - DIVS.

Referências Introdução - Programa de Pós-Graduação ...alekoe/AM/2005/4-AprendizagemBayesiana-ApreMaq.pdf · Agora podemos usar o teorema de Bayes para estimar P(h|D) para cada

1 CORBA Um Padrão Industrial para Objetos Distribuídos Alcides Calsavara alcides@ppgia.pucpr.br PUCPR - CCET.

Manual do Usuário Segurança - Koerich

Eduardo Carlos Hamerski Jr hamerski@ppgia.pucpr.br 09/05/2002.

Introdução a Visão Computacional Hardware para Visão ...alekoe/Papers/Seminario-TVGlobo-Abril2007... · Hardware para Visão Computacional Alessandro L. Koerich ... • A melhoria

Aprendizagem de Máquina Desde que os computadores foram ...alekoe/AM/2007/1-Introducao-ApreMaq-2007.pdf · Aprendizagem de Máquina Introdução Alessandro L. Koerich 2007 Mestrado/Doutorado

UNIVERSIDADE DO SUL DE SANTA CATARINA GABRIEL KOERICH …

Jaime sandim-Relatos Da chegada em Sertao (Vila Koerich-Colonia Santana)

Currículo profissional - Ana Luiza Koerich Rios

E O AMOR CONTINUA - files.comunidades.netfiles.comunidades.net/portaldoespirito/229__E_o_Amor_Continua_1983.… · JANE FURTADO KOERICH – Médium: Francisco C. Xavier. JANE FURTADO