Combinação de Classificadores - UDESC · • Podemos combinar descritores para melhorar o...

Combinação de Classificadores

(fusão)

André Tavares da [email protected]

Livro da Kuncheva

Roteiro• Sistemas com múltiplos classificadores

• Fusão por voto majoritário– voto majoritário ponderado

• Fusão por Bayes

• Fusão por métodos multinomiais– Behavior Knowledge Space (BKS) e Wernecke (WER)

• Perfil de decisão– Discriminante linear e quadrático, árvore de decisão,

k-vizinhos

Sistemas com múltiplos classificadores

• Podemos combinar descritores para melhorar o desempenho de classificadores.

• Da mesma forma, é possível combinar classificadores, principalmente instáveis, tais como redes neurais e árvores de decisão.

• Neste contexto, existem duas abordagens principais: fusão e seleção.


• A fusão assume que cada classificador tem conhecimento sobre todo o espaço de características. A classificação, portanto, resulta da opinião coletiva de todos.

• A seleção assume que cada classificador é especialista em uma parte do espaço de características. Ao detectar que um objeto cai em uma região do espaço, sua classificação é feita pelo especialista desta região.


• Métodos híbridos ponderam a opinião de cada especialista com base na proximidade da amostra com sua região de domínio, e o resultado é a combinação ponderada das opiniões.

• Neste caso, não deve haver mais que 50% de superposição entre o(s) conjunto(s) de treinamento dos classificadores básicos e o conjunto de treinamento da coleção.

Sistemas com múltiplos classificadores• Seja {D

1,D

2,..., D

L} uma coleção com L classificadores.

Existem quatro tipos de saída para esta coleção:

a. Nível abstrato: Cada classificador Di , i = 1,2,...,L,

produz um rótulo si Ω = {∈ w

1, w

2,...,w

c }. Assim, para

qualquer x ∈ Z , a coleção produz um vetor s = [s

1,s

2,...,s

L ]t Ω∈

L.

b. Nível de possibilidade: Cada Di , i = 1,2,...,L, produz

um subconjunto de possíveis rótulos para x ordenados pela possibilidade de serem corretos. Recomendado para problemas com muitas classes (e.g., reconhecimento de fala, caractere, e face).

Sistemas com múltiplos classificadoresc. Nível de medida: Cada D

i, i=1,2,...,L, produz um

vetor [di,1

,di,2

,...,di,c

]t de medidas em [0,1] que

representam o aceite (suporte) da hipótese que x é da classe w

j , j=1,2,...,c. A coleção produz uma matriz

L × c de medidas (perfil de decisão).

d. Nível oráculo: Este tipo só é usado com Z1 , onde

sabemos se Di produz a saída correta ou errada para x.

Neste caso, a coleção produz um vetor [y1,y

2,...,y

L]t de

valores binários yi {0,1}, ∈ i=1,2,..,L, que indicam uma

classificação correta ou errada.

Fusão por voto majoritário• Seja [d

i,1,d

i,2,...,d

i,c]t um vetor tal que d

i,j {0, 1} indica a ∈

saída do classificador Di , i=1,2,...,L, com relação à amostra

x pertencer ou não à classe wj , j=1,2,...,c. O voto majoritário

(plurality/majority vote) escolhe a classe wk onde

• A decisão final pode ainda levar em conta uma classe extra w

c+1 (nenhuma das alternativas) quando a medida acima não

ultrapassa um limiar αL, onde 0 < α ≤ 1, para a classe wk.

Fusão por voto majoritário• Uma justificativa para este método ser o mais

usado é que sob determinadas condições, ele realmente aumenta a probabilidade de acerto na classificação. A escolha pode ser por unanimidade, maioria simples (50% + 1) ou mais votado.

Maioria versus Unanimidade• Um exemplo interessante para mostrar as vantagens do

voto por maioria sobre o voto por unanimidade é o diagnóstico médico de HIV. Neste contexto, a sensibilidade u de um classificador é a probabilidadeP(T|A) de um verdadeiro positivo (teste positivo dado que o indivíduo está infectado) e a especificidade v de um classificador é a probabilidade P(T|A) de um verdadeiro negativo. Assim, a probabilidade de acerto do classificador é p=uP(A) + v[1-P(A)], onde P(A) é a probabilidade de um indivíduo estar infectado devido à prevalência da doença na sua população.

Voto majoritário ponderado• O voto majoritário ponderado atribui um peso b

i ao

classificador Di. A motivação é dar maior

importância (peso maior) para a opinião do classificador com maior exatidão. Por conveniência, a soma de todos os pesos deve ser 1 (o peso é relacionado à probabilidade de acerto do classificador).

• Em alguns casos, o voto ponderado pode não ser melhor que o voto do melhor classificador, mas normalmente é mais exato que o voto majoritário.

Voto majoritário ponderado

• Suponha, por exemplo, uma coleção D1,D

2,...,D

5

de classificadores independentes com probabilidades de acerto 0.9, 0.9, 0.6, 0.6, 0.6, onde b

i = p

i , i=1,2,...,5.

• A probabilidade de acerto da coleção por voto majoritário é a soma das probabilidades de três, quatro e cinco classificadores estarem corretos, considerando as possíveis combinações.

Voto majoritário ponderado• Considerando os pesos 1/3, 1/3, 1/9, 1/9, 1/9 para os

respectivos classificadores. A coleção acerta quando os dois primeiros acertam, independente do resultado dos demais, pois a nota da classe que eles indicam será 2/3, e as demais classes dividirão os 1/3 restante.

• Quando eles discordam, e um está correto e o outro errado, o voto da coleção será decidido pelo voto da maioria dos demais (basta que dois deles votem na classe correta para que a coleção acerte).

Probabilidade de acerto paravoto majoritário simples

Pmaj = 3 × 0.9 × 0.9 × 0.6 × 0.4 × 0.4

+ 6 × 0.9 × 0.1 × 0.6 × 0.6 × 0.4

+ 3 × 0.9 × 0.9 × 0.6 × 0.6 × 0.4

+ 2 × 0.9 × 0.1 × 0.6 × 0.6 × 0.6

+ 1 × 0.9 × 0.9 × 0.6 × 0.6 × 0.6

+ 1 × 0.1 × 0.1 × 0.6 × 0.6 × 0.6

= 0.877

Probabilidade de acerto paravoto majoritário ponderado

• Considerando todas possibilidades:

Pmaj = 0.9 × 0.9

+ 6 × 0.9 × 0.1 × 0.6 × 0.6 × 0.4

+ 2 × 0.9 × 0.1 × 0.6 × 0.6 × 0.6

= 0.927

Voto majoritário ponderado

• Na verdade o cálculo de probabilidade é um pouco mais complexo (ver livro da Kuncheva, seção 4.3), mas de forma geral o voto majoritário ponderado normalmente tem uma resposta mais correta que a do voto majoritário simples.

Fusão por Bayes

• Supondo independência estatística (Bayes inocente), P(s|w

j) = ΠLP(s

i|w

j). Sendo P(s

i) a

probabilidade de Di escolher uma classe s

i Ω, ∈

pela regra de Bayes:

para j=1,2,...,c.

P (w j∣s)=P (w j) P (s∣w j)

P (s)=

P (w j)∏i=1

L

P (si∣w j)

P (s)

Fusão por Bayes

• Supondo independência estatística (Bayes inocente), P(s|w

j) = ΠLP(s

i|w

j). Sendo P(s

i) a

probabilidade de Di escolher uma classe s

i Ω, ∈

pela regra de Bayes:

para j=1,2,...,c. Como estimar as probabilidades?

P (w j∣s)=P (w j) P (s∣w j)

P (s)=

P (w j)∏i=1

L

P (si∣w j)

P (s)

Fusão por Bayes• Para cada classificador D

i, existe uma matriz

Ci = {cij,k

} de confusão, c × c, onde os elementos

cij,k

indicam o número de vezes que Di escolheu a

classe wk quando a classe verdadeira era w

j.

• Seja nj o total de objetos da classe w

j , j=1,2,...,c,

em Z1. Pode-se considerar ci

j,k/n

j como estimativa

para P(si|w

j) e n

j/N

1 como estimativa para P(w

j).

Fusão por métodos multinomiais• Estes métodos buscam estimar P(w

j|s),

j=1,2,...,c, para todas as combinações de votoss Ω∈ L.

• A maior probabilidade a posteriori determina a classe w

j para a amostra x que produz saída

s = [s1,s

2,...,s

L]t na coleção de classificadores.

• Dois métodos multinomiais são: Behavior Knowledge Space (BKS) e método de Wernecke (WER).

Método BKS• O BKS usa os objetos rotulados de Z

1 para

construir uma tabela (histograma 2D) 2c × c, onde cada célula contém o número de vezes em que ocorre uma dada saída s (2c possibilidades) para uma dada classe w

j , j=1,2,...,c.

• Para uma dada saída s, P(wk|s) é obtida

dividindo-se o número de elementos da classe wk

em Z1, os quais produzem saída s, pelo total de

elementos de Z1 com saída s.

Método BKS

• A classe wk com maior valor de P(w

k|s) atribui

seu rótulo à s.

• Empates são resolvidos arbitrariamente e saídas com todas células vazias são rotuladas por voto majoritário.

• A construção da tabela é um treinamento da coleção, então ao menos 50% das amostras devem ser diferentes das usadas para treinar cada classificador.

Método BKS• Suponha, por exemplo, L=3, c=2, e que 100

objetos de Z1 produzem uma mesma saída

s = [s1 s

2 s

3]t = [w

2 w

1 w

2]t, sendo que 40 desses

objetos têm de fato rótulo w2 e 60 têm rótulo w

1.

• O rótulo w1 será atribuído à s, apesar de w

2 ser a

classe indicada pela maioria dos classificadores. Assim, qualquer objeto de teste com saída s será classificado em w

1.

Método WER• O BKS requer muitas amostras e frequentemente fica

supertreinado.

• O WER reduz o problema por considerar 95% de intervalo de confiança em torno das frequências em cada célula.

• Para uma dada saída s, se existirem superposições entre os intervalos das classes e da classe w

k com maior

frequência, wk não é escolhida para s.

• Neste caso, o classificador com menor erro rotula s.

Perfil de decisão• Cada classificador D

i, i=1,2,...,L, gera uma saída para

cada uma das c classes (nível de medida).

• Todos os valores di,j(x) (aceite para a hipótese que x

pertence à classe wj) estão no intervalo [0,1].

• Quanto maior o valor de aceitação (suporte), maior a probabilidade da classe ser w

j.

• Estes valores são organizados em uma matriz denominada perfil de decisão (decision profile), sendo utilizada por diversos métodos de combinação de classificadores.

Perfil de decisão

• Para uma dada amostra x ∈ Rn e Ω = {w1,w

2,...,w

c}, cada

classificador Di , i=1,2,...,L, deve produzir um valor d

i,j

[0,1], indicando o aceite (suporte) para a hipótese que ∈x pertence à classe w

j. O perfil de decisão DP(x) é

Perfil de decisão

• As colunas indicam os suportes (probabilidade de aceite) para uma dada classe w

j. Cada amostra

produzirá uma matriz.

• Os métodos de fusão de valores contínuos encontram um suporte final μ

j(x) para cada

classe wj , j=1,2,...,c, com base no perfil de

decisão DP(x).

Perfil de decisão

• Estes métodos se dividem em fusão consciente das classes e fusão indiferente às classes.

• A fusão consciente explora as colunas de DP(x), enquanto a fusão indiferente trata os valoresd

i,j(x) como características de um espaço

intermediário, e usa um classificador extra para tomar a decisão final.

• Estamos interessados em saber como usar e/ou treinar estas arquiteturas.

Como obter di,j(x) normalizados?

• Muito embora não seja difícil obter valores contínuos nas saídas dos classificadores, um aspecto importante é a normalização desses valores no intervalo [0,1].

• Esta normalização funciona como uma nova estimativa de probabilidades a posteriori ou funções discriminantes para cada classe referente a um dado classificador.

• Seguem alguns exemplos para classificadores básicos.

Discriminantes linear e quadrático

• Classificadores baseados em funções discriminantes g

j(x), linear e quadrática, podem

ser normalizados por:

g ' j (x )=eg j ( x)

∑k =1

c

eg k ( x)

Classificação por k-vizinhos

• No caso da classificação por k-vizinhos, a estimativa P(w

j|x) também pode ser obtida por:

onde d(x,x(j)) é a distância entre x e seu j-ésimo vizinho mais próximo x(j).

P (w j∣x )=

∑∀ x ( j )

∈w j

1

d ( x , x( j))

∑j=1

k1

d ( x , x( j ))

Árvores de decisão

• Seja kj , j=1,2,...,c, o número de amostras de

treinamento da classe wj em um dado nó folha t

de uma árvore de decisão.

• Se a amostra x cai neste nó, então dizemos queP(w

j|x) = k

j/K, onde K é a soma de todos os k

j.

• O problema é que para K pequeno, esta estimativa não é confiável (uma alternativa é o estimador de Laplace).

Combinação de classificadoresusando perfil de decisão

• Fusão consciente das classes– treinável e não treinável

• Fusão indiferente às classes

• Templates de Decisão

• Combinação Dempster-Shafer

Combinação de Classificadores - UDESC · • Podemos combinar descritores para melhorar o...

Documents

Transcript of Combinação de Classificadores - UDESC · • Podemos combinar descritores para melhorar o...