Combinação de Classificadores - UDESC · • Podemos combinar descritores para melhorar o...
-
Upload
nguyenkhue -
Category
Documents
-
view
218 -
download
0
Transcript of Combinação de Classificadores - UDESC · • Podemos combinar descritores para melhorar o...
Roteiro• Sistemas com múltiplos classificadores
• Fusão por voto majoritário– voto majoritário ponderado
• Fusão por Bayes
• Fusão por métodos multinomiais– Behavior Knowledge Space (BKS) e Wernecke (WER)
• Perfil de decisão– Discriminante linear e quadrático, árvore de decisão,
k-vizinhos
Sistemas com múltiplos classificadores
• Podemos combinar descritores para melhorar o desempenho de classificadores.
• Da mesma forma, é possível combinar classificadores, principalmente instáveis, tais como redes neurais e árvores de decisão.
• Neste contexto, existem duas abordagens principais: fusão e seleção.
Sistemas com múltiplos classificadores
• A fusão assume que cada classificador tem conhecimento sobre todo o espaço de características. A classificação, portanto, resulta da opinião coletiva de todos.
• A seleção assume que cada classificador é especialista em uma parte do espaço de características. Ao detectar que um objeto cai em uma região do espaço, sua classificação é feita pelo especialista desta região.
Sistemas com múltiplos classificadores
• Métodos híbridos ponderam a opinião de cada especialista com base na proximidade da amostra com sua região de domínio, e o resultado é a combinação ponderada das opiniões.
• Neste caso, não deve haver mais que 50% de superposição entre o(s) conjunto(s) de treinamento dos classificadores básicos e o conjunto de treinamento da coleção.
Sistemas com múltiplos classificadores• Seja {D
1,D
2,..., D
L} uma coleção com L classificadores.
Existem quatro tipos de saída para esta coleção:
a. Nível abstrato: Cada classificador Di , i = 1,2,...,L,
produz um rótulo si Ω = {∈ w
1, w
2,...,w
c }. Assim, para
qualquer x ∈ Z , a coleção produz um vetor s = [s
1,s
2,...,s
L ]t Ω∈
L.
b. Nível de possibilidade: Cada Di , i = 1,2,...,L, produz
um subconjunto de possíveis rótulos para x ordenados pela possibilidade de serem corretos. Recomendado para problemas com muitas classes (e.g., reconhecimento de fala, caractere, e face).
Sistemas com múltiplos classificadoresc. Nível de medida: Cada D
i, i=1,2,...,L, produz um
vetor [di,1
,di,2
,...,di,c
]t de medidas em [0,1] que
representam o aceite (suporte) da hipótese que x é da classe w
j , j=1,2,...,c. A coleção produz uma matriz
L × c de medidas (perfil de decisão).
d. Nível oráculo: Este tipo só é usado com Z1 , onde
sabemos se Di produz a saída correta ou errada para x.
Neste caso, a coleção produz um vetor [y1,y
2,...,y
L]t de
valores binários yi {0,1}, ∈ i=1,2,..,L, que indicam uma
classificação correta ou errada.
Fusão por voto majoritário• Seja [d
i,1,d
i,2,...,d
i,c]t um vetor tal que d
i,j {0, 1} indica a ∈
saída do classificador Di , i=1,2,...,L, com relação à amostra
x pertencer ou não à classe wj , j=1,2,...,c. O voto majoritário
(plurality/majority vote) escolhe a classe wk onde
• A decisão final pode ainda levar em conta uma classe extra w
c+1 (nenhuma das alternativas) quando a medida acima não
ultrapassa um limiar αL, onde 0 < α ≤ 1, para a classe wk.
Fusão por voto majoritário• Uma justificativa para este método ser o mais
usado é que sob determinadas condições, ele realmente aumenta a probabilidade de acerto na classificação. A escolha pode ser por unanimidade, maioria simples (50% + 1) ou mais votado.
Maioria versus Unanimidade• Um exemplo interessante para mostrar as vantagens do
voto por maioria sobre o voto por unanimidade é o diagnóstico médico de HIV. Neste contexto, a sensibilidade u de um classificador é a probabilidadeP(T|A) de um verdadeiro positivo (teste positivo dado que o indivíduo está infectado) e a especificidade v de um classificador é a probabilidade P(T|A) de um verdadeiro negativo. Assim, a probabilidade de acerto do classificador é p=uP(A) + v[1-P(A)], onde P(A) é a probabilidade de um indivíduo estar infectado devido à prevalência da doença na sua população.
Voto majoritário ponderado• O voto majoritário ponderado atribui um peso b
i ao
classificador Di. A motivação é dar maior
importância (peso maior) para a opinião do classificador com maior exatidão. Por conveniência, a soma de todos os pesos deve ser 1 (o peso é relacionado à probabilidade de acerto do classificador).
• Em alguns casos, o voto ponderado pode não ser melhor que o voto do melhor classificador, mas normalmente é mais exato que o voto majoritário.
Voto majoritário ponderado
• Suponha, por exemplo, uma coleção D1,D
2,...,D
5
de classificadores independentes com probabilidades de acerto 0.9, 0.9, 0.6, 0.6, 0.6, onde b
i = p
i , i=1,2,...,5.
• A probabilidade de acerto da coleção por voto majoritário é a soma das probabilidades de três, quatro e cinco classificadores estarem corretos, considerando as possíveis combinações.
Voto majoritário ponderado• Considerando os pesos 1/3, 1/3, 1/9, 1/9, 1/9 para os
respectivos classificadores. A coleção acerta quando os dois primeiros acertam, independente do resultado dos demais, pois a nota da classe que eles indicam será 2/3, e as demais classes dividirão os 1/3 restante.
• Quando eles discordam, e um está correto e o outro errado, o voto da coleção será decidido pelo voto da maioria dos demais (basta que dois deles votem na classe correta para que a coleção acerte).
Probabilidade de acerto paravoto majoritário simples
Pmaj = 3 × 0.9 × 0.9 × 0.6 × 0.4 × 0.4
+ 6 × 0.9 × 0.1 × 0.6 × 0.6 × 0.4
+ 3 × 0.9 × 0.9 × 0.6 × 0.6 × 0.4
+ 2 × 0.9 × 0.1 × 0.6 × 0.6 × 0.6
+ 1 × 0.9 × 0.9 × 0.6 × 0.6 × 0.6
+ 1 × 0.1 × 0.1 × 0.6 × 0.6 × 0.6
= 0.877
Probabilidade de acerto paravoto majoritário ponderado
• Considerando todas possibilidades:
Pmaj = 0.9 × 0.9
+ 6 × 0.9 × 0.1 × 0.6 × 0.6 × 0.4
+ 2 × 0.9 × 0.1 × 0.6 × 0.6 × 0.6
= 0.927
Voto majoritário ponderado
• Na verdade o cálculo de probabilidade é um pouco mais complexo (ver livro da Kuncheva, seção 4.3), mas de forma geral o voto majoritário ponderado normalmente tem uma resposta mais correta que a do voto majoritário simples.
Fusão por Bayes
• Supondo independência estatística (Bayes inocente), P(s|w
j) = ΠLP(s
i|w
j). Sendo P(s
i) a
probabilidade de Di escolher uma classe s
i Ω, ∈
pela regra de Bayes:
para j=1,2,...,c.
P (w j∣s)=P (w j) P (s∣w j)
P (s)=
P (w j)∏i=1
L
P (si∣w j)
P (s)
Fusão por Bayes
• Supondo independência estatística (Bayes inocente), P(s|w
j) = ΠLP(s
i|w
j). Sendo P(s
i) a
probabilidade de Di escolher uma classe s
i Ω, ∈
pela regra de Bayes:
para j=1,2,...,c. Como estimar as probabilidades?
P (w j∣s)=P (w j) P (s∣w j)
P (s)=
P (w j)∏i=1
L
P (si∣w j)
P (s)
Fusão por Bayes• Para cada classificador D
i, existe uma matriz
Ci = {cij,k
} de confusão, c × c, onde os elementos
cij,k
indicam o número de vezes que Di escolheu a
classe wk quando a classe verdadeira era w
j.
• Seja nj o total de objetos da classe w
j , j=1,2,...,c,
em Z1. Pode-se considerar ci
j,k/n
j como estimativa
para P(si|w
j) e n
j/N
1 como estimativa para P(w
j).
Fusão por métodos multinomiais• Estes métodos buscam estimar P(w
j|s),
j=1,2,...,c, para todas as combinações de votoss Ω∈ L.
• A maior probabilidade a posteriori determina a classe w
j para a amostra x que produz saída
s = [s1,s
2,...,s
L]t na coleção de classificadores.
• Dois métodos multinomiais são: Behavior Knowledge Space (BKS) e método de Wernecke (WER).
Método BKS• O BKS usa os objetos rotulados de Z
1 para
construir uma tabela (histograma 2D) 2c × c, onde cada célula contém o número de vezes em que ocorre uma dada saída s (2c possibilidades) para uma dada classe w
j , j=1,2,...,c.
• Para uma dada saída s, P(wk|s) é obtida
dividindo-se o número de elementos da classe wk
em Z1, os quais produzem saída s, pelo total de
elementos de Z1 com saída s.
Método BKS
• A classe wk com maior valor de P(w
k|s) atribui
seu rótulo à s.
• Empates são resolvidos arbitrariamente e saídas com todas células vazias são rotuladas por voto majoritário.
• A construção da tabela é um treinamento da coleção, então ao menos 50% das amostras devem ser diferentes das usadas para treinar cada classificador.
Método BKS• Suponha, por exemplo, L=3, c=2, e que 100
objetos de Z1 produzem uma mesma saída
s = [s1 s
2 s
3]t = [w
2 w
1 w
2]t, sendo que 40 desses
objetos têm de fato rótulo w2 e 60 têm rótulo w
1.
• O rótulo w1 será atribuído à s, apesar de w
2 ser a
classe indicada pela maioria dos classificadores. Assim, qualquer objeto de teste com saída s será classificado em w
1.
Método WER• O BKS requer muitas amostras e frequentemente fica
supertreinado.
• O WER reduz o problema por considerar 95% de intervalo de confiança em torno das frequências em cada célula.
• Para uma dada saída s, se existirem superposições entre os intervalos das classes e da classe w
k com maior
frequência, wk não é escolhida para s.
• Neste caso, o classificador com menor erro rotula s.
Perfil de decisão• Cada classificador D
i, i=1,2,...,L, gera uma saída para
cada uma das c classes (nível de medida).
• Todos os valores di,j(x) (aceite para a hipótese que x
pertence à classe wj) estão no intervalo [0,1].
• Quanto maior o valor de aceitação (suporte), maior a probabilidade da classe ser w
j.
• Estes valores são organizados em uma matriz denominada perfil de decisão (decision profile), sendo utilizada por diversos métodos de combinação de classificadores.
Perfil de decisão
• Para uma dada amostra x ∈ Rn e Ω = {w1,w
2,...,w
c}, cada
classificador Di , i=1,2,...,L, deve produzir um valor d
i,j
[0,1], indicando o aceite (suporte) para a hipótese que ∈x pertence à classe w
j. O perfil de decisão DP(x) é
Perfil de decisão
• As colunas indicam os suportes (probabilidade de aceite) para uma dada classe w
j. Cada amostra
produzirá uma matriz.
• Os métodos de fusão de valores contínuos encontram um suporte final μ
j(x) para cada
classe wj , j=1,2,...,c, com base no perfil de
decisão DP(x).
Perfil de decisão
• Estes métodos se dividem em fusão consciente das classes e fusão indiferente às classes.
• A fusão consciente explora as colunas de DP(x), enquanto a fusão indiferente trata os valoresd
i,j(x) como características de um espaço
intermediário, e usa um classificador extra para tomar a decisão final.
• Estamos interessados em saber como usar e/ou treinar estas arquiteturas.
Como obter di,j(x) normalizados?
• Muito embora não seja difícil obter valores contínuos nas saídas dos classificadores, um aspecto importante é a normalização desses valores no intervalo [0,1].
• Esta normalização funciona como uma nova estimativa de probabilidades a posteriori ou funções discriminantes para cada classe referente a um dado classificador.
• Seguem alguns exemplos para classificadores básicos.
Discriminantes linear e quadrático
• Classificadores baseados em funções discriminantes g
j(x), linear e quadrática, podem
ser normalizados por:
g ' j (x )=eg j ( x)
∑k =1
c
eg k ( x)
Classificação por k-vizinhos
• No caso da classificação por k-vizinhos, a estimativa P(w
j|x) também pode ser obtida por:
onde d(x,x(j)) é a distância entre x e seu j-ésimo vizinho mais próximo x(j).
P (w j∣x )=
∑∀ x ( j )
∈w j
1
d ( x , x( j))
∑j=1
k1
d ( x , x( j ))
Árvores de decisão
• Seja kj , j=1,2,...,c, o número de amostras de
treinamento da classe wj em um dado nó folha t
de uma árvore de decisão.
• Se a amostra x cai neste nó, então dizemos queP(w
j|x) = k
j/K, onde K é a soma de todos os k
j.
• O problema é que para K pequeno, esta estimativa não é confiável (uma alternativa é o estimador de Laplace).
Combinação de classificadoresusando perfil de decisão
• Fusão consciente das classes– treinável e não treinável
• Fusão indiferente às classes
• Templates de Decisão
• Combinação Dempster-Shafer