Reconhecimento de Padrões Teoria da Decisão Bayesiana David Menotti, Ph.D. Universidade Federal...
Transcript of Reconhecimento de Padrões Teoria da Decisão Bayesiana David Menotti, Ph.D. Universidade Federal...
Reconhecimento de Padrões
Teoria da Decisão Bayesiana
David Menotti, Ph.D.www.decom.ufop.br/menotti
Universidade Federal de Ouro Preto (UFOP)Programa de Pós-Graduação em Ciência da Computação (PPGCC)
Teoria da Decisão Bayesiana
• Abordagem estatística fundamental em problemas de classificação.
• Quantificar o custo/benefício entre diferentes decisões de classificação usando probabilidades e custos associados à classificação.– Cada ação tem um custo associado.– O risco mais simples é o erro de classificação– Construir classificadores que minimizem o risco.
Terminologia
• Classes ω (variável aleatória)– ω1 para robalo, ω2 para salmão.
• Probabilidades a priori P(ω1) and P(ω2 ) – Conhecimento a priori de pescar robalo ou
salmão.
• Função de densidade probabilidade p(x)– Frequência com a qual encontramos uma
determinada característica– Evidências.
Terminologia• Densidade de probabilidade condicional
– p(x/ωj) (Likelihood)– Frequência com que encontramos uma determinada
característica dado que a mesma pertence a classe ωj
Terminologia
• Probabilidade a posteriori P(ωj /x)
– Probabilidade que o peixe pertença a classe ωj dado a característica x.
• Regra de decisão usando somente priors– ω1 Se P(ω1) > P(ω2); Senão ω2 .
– Essa regra nos faria tomar a mesma decisão todas as vezes.
Regra de Decisão usando Bayes
( / ) ( )( / )
( )j j
j
p x P likelihood priorP x
p x evidence
onde2
1
( ) ( / ) ( )j jj
p x p x P
Escolha ω1 Se P(ω1 |x) > P(ω2|x); Senão escolha ω2 or
Escolha ω1 Se p(x|ω1)P(ω1) > p(x/ω2)P(ω2); Senão ω2
Regra de Decisão usando Bayes
1 2
2 1( ) ( )
3 3P P
Probabilidade de Erro
• A probabilidade de erro usando Bayes é dada por– P(error/x) = min[P(ω1|x), P(ω2|x)]
Obtendo as probabilidades
• Essa teoria funciona somente quando conhecemos as funções.
• Abordagem objetiva– As probabilidades são obtidas através de
experimentos
• Abordagem subjetiva– As probabilidades refletem um grau de
confiança baseada em opinião ou conhecimento prévio.
Exemplo
• Faça uma pesquisa no campus da UFOP, perguntando valor e altura do carro que a pessoa possui– C1: preço > 50k– C2: preço < 50k– Característica X: Altura do carro.
• Usando Bayes, podemos calcular a probabilidade a posteriori.
( / ) ( )( / )
( )i i
i
p x C P CP C x
p x
Exemplo (cont)
• Determinando priors• Para cada carro, perguntar o preço e altura.
– Por exemplo, 1209 carros• C1 = 221 e C2 = 988
1
2
221( ) 0.183
1209988
( ) 0.8171209
P C
P C
Exemplo (cont)
• Determinar a distribuição de probabilidade
Exemplo (cont)
• Para cada barra do histrograma discretizado, calcular a probabilidade a posteriori.
1 11
1 1 2 2
( 1.0 / ) ( )( / 1.0)
( 1.0 / ) ( ) ( 1.0 / ) ( )
0.2081*0.1830.438
0.2081*0.183 0.0597*0.817
p x C P CP C x
p x C P C p x C P C
Note que deve Somar 1
Teoria Generalizada
• Uso de mais de uma característica
• Mais de duas classes
• Possibilita outras ações além da classificação (rejeição)
• Introduz uma função de erro mais genérica (loss function)– Associa custos com cada ação.
Terminologia
• Características formam um vetor
• Conjunto finito de classes ω1, ω2, …, ωc
• Conjunto finito de ações α1, α2, …, αl
• Loss function λ(αi / ωj)
• A perda por tomar uma ação αi quando a classificação for ωj
• Bayes
dRx
( / ) ( )( / )
( )j j
j
p PP
p
xx
x
1
( ) ( / ) ( )c
j jj
where p p P scale factor
x xonde
Minimização do Risco
• Risco condicional (Expected loss) de tomar uma ação αi
• Esse risco pode ser minimizado selecionando-se uma ação que minimiza o risco condicional.
1
( / ) ( / ) ( / )c
i i j jj
R a a P
x x
Minimização do Risco
• A regra de Bayes que minimiza R– Computando R(αi / x) para cada αi dado um x.
– Escolher uma ação αi com o mínimo R(αi /x)
ExemploProblema com duas Classes
• Duas possíveis ações– α1 corresponde a decidir por ω1
– α2 corresponde a decidir por ω2
• Notaçãoλij=λ(αi,ωj)
• Os riscos condicionais são
onde
Referências
• (ML 3.1) Decision theory (Basic Framework)
– http://www.youtube.com/watch?v=KYRAO8f5rXA• (ML 3.2) Minimizing conditional expected loss
– http://www.youtube.com/watch?v=NC_cTB1PHyQ• (ML 3.3) Choosing f to minimize expected loss
– http://www.youtube.com/watch?v=--nMFiqwoZA• (ML 3.4) Square loss
– http://www.youtube.com/watch?v=AihhnWyl-J0• (ML 3.5, 3.6 and 3.7) The Big Picture (parts 1, 2, and 3)
– http://www.youtube.com/watch?v=frbX2JH-_Aw
– http://www.youtube.com/watch?v=Ih4R42qPRWo
– http://www.youtube.com/watch?v=VP3DxMxXw3Q