Post on 10-Feb-2019
Modelos de Markov Não Observáveis e Gramáticas
Estocásticas Regulares
Ana L. N. Fred
Instituto Superior Técnico
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM vs SFSG:
•São instâncias de uma classe mais geral de modelos: redes estocásticas de estados finitos (Stochastic Finite-State Networks)
•conj. finito de estados
•distribuições de probabilidade que definem transições entre estados e a produção de sequências finitas de observações
•baseados na teoria dos processos estocásticos, as suas origens são diferentes:
•teoria da informação - modelos de Markov
•extensões da teoria das linguagens formais•gramáticas estocásticas regulares•autómatos estocásticos de estados finitos
•Ambos geram uma sequência interna (não-observável) de símbolos (estados) e uma sequência externa (observável) de símbolos usando regrasprobabilísticas.
•Assumem fomalismos diferentes e mecanismos distintos de inferência.
•A probabilidade de uma sequência é calculada de uma forma semelhante
(Stochastic Finite State Grammars)
Gramáticas Estocásticas de Estados Finitos
(Hidden Markov Models)
Modelos de Markov Não Observáveis
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Relações formais entre modelos no contexto das linguagens geradas
[ ]
regular aestocástic linguagem -
finitos) estados de autómato umpor aceite (
regular é que tal),(
-
1)(
se 0)(
1,0:
aestocástic linguagem),(
linguagem -
em símbolos de ãoconcatenaç -
alfabeto -
*
*
*
*
==
=∉=
→ΣΣ⊆
=Σ⊆
ΣΣΣ
∑ ∈
LpLSRL
languageweightedWL
xp
Lxxp
p
LpLSL
L
Lx
{ }cba ,,=Σbbaaa
accaabbacbabb
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Modelos de Markov
{ }[ ]
[ ]
[ ]∑∑∑
∈
∈Σ∈
∈∈′
=≡→
∀=≡→Σ×
∀=′≡→×
≡Σ≡=Σ=
Qqa
QqQq
i
B(q,aQB
qA(q,QQA
qQBAQH
1) inicial estado do adeprobabilid de ãodistribuiç1,0:
, 1) símbolo de observação de adeprobabilid de ãodistribuiç1,0:
, 1) transiçãode adeprobabilid de matriz 1,0:
observação de símbolos de conjunto estados de finito conjunto
),,,,(
ππ
π
∑−
==nqq nnnn
HxqBqqA
xqBqqAxqBqxpHxp�
�1 ),(),( ),(),(),()()()|(
1
2221111π
Probabilidade de observação da sequência
Σ∈= in xxxxx , , 21 �
HMM
Proposição:
. cada para em adeprobabilid de ãodistribuiçuma define , em definido HMM um Dado
n
Nn
pH
∈Σ
Σ
1
)))),(()(,()(
)))),(()(,(),()((),(),(
),(),(),()(
)(
21
21 1
11
1
1211
21111
1
2221111
1
=
=
=
=
=
∑ ∑∑∑ ∑∑ ∑
∑∑∑
−
−
Σ∈
q qnn
q
x xnn
qq x
qq nnnnxx
xx nH
n
nn
nn
nn
qqAqqAq
xqBqqAxqBqxqBqqA
xqBqqAxqBq
xxp
��
��
�
�
�
��
�
π
π
π
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM usando restrições temporaisLRHMM ( left-to-right HMM)
q0
q1
q2
qn
{ }
final estado inicial estado
0),( então se que talordenados estados de finito conjunto
),,,,,(
≡≡
=′′<≡=
Σ=
f
i
i
fiLR
qqAqqqQ
qqBAQH
∑− −
=12 ),(),(
),(),(),()(1
2221
nqq nffn
iiHLRxqBqqA
xqBqqAxqBxp� �
Probabilidade de observação da sequência
Σ∈= in xxxxx , , 21 �
LRHMM - modelo esquerda-direita
HLR define uma função [ ]1,0: * →ΣHLRp
A introdução do conceito de estado final modifica as propriedades de geração estatística de strings
Proposição:
HMMHLR
HLRHMMHLRHMM
Γ⊄ΓΓ⊄Γ∅≠ΓΓ �
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMT -HMM with observation probability distribution in the transitions
HMMT - definição alternativa (equivalente) de um HMM em que a distribuição de probabilidade de observação de símbolo é atribuída às transições em vez de aos estados.
[ ]0),( se , 1),,(
1,0: teanteriomen definidos como ,,
),,,,(
, ≠′∀=′→×Σ×
Σ=
∈′Σ∈
∑ qqAqaqBQQB
AQBAQHT
Qqqa
ππ
∑−−
=nqq nnnnn
HTqxqBqqA
qxqBqqAqxp�
�0 ),,(),( ),,(),()()(
11
110100π
Probabilidade de observação da sequência
Σ∈= in xxxxx , , 21 �
Proposição:
)()(, que tal),,,,( HMMT um existe ),,,,( HMM cada Para
* xpxpBAQHTBAQH
HTHx=∀′′′Σ′=
Σ=Σ∈ππ
Proposição:
)()(, que tal),,,,( HMM um existe ),,,,( HMMT cada Para
* xpxpBAQHBAQHT
HTHx=∀′′′Σ′=
Σ=Σ∈π
π
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Demonstração:
a) As novas distribuições verificam a definição de HMMT:
b)A equivalência é mostrada por: para todo o x com |x|=n
Proposição:
)()(, que tal),,,,( HMMT um existe ),,,,( HMM cada Para
* xpxpBAQHTBAQH
HTHx=∀′′′Σ′=
Σ=Σ∈ππ
{ }
Qqqq
QqaqaBqaqB
QqqaqaBqaqB
QqqqqA
QqqqqAqqAQqqQQ
∈∀=′=′∈∀Σ∈∀=′
∈′∀Σ∈∀′=′′∈∀=′
∈′∀′=′′∉=′
0)( e 1)(
,),(),,(
,,),(),,(
)(),(
,),(),( com Seja
0
0
0
00
ππ
π
�
QqqaBqaqB
QqqaBqaqB
qqqA
QqqqAqqA
aa
aa
QqQq
QqQq
∈∀==′∈′∀=′=′′
==′∈∀=′=′′
∑∑∑∑
∑∑∑∑
Σ∈Σ∈
Σ∈Σ∈
∈∈
∈′∈′
1),(),,(
1),(),,(
1)(),(
1),(),(
0
0 π
)( ),(),(
),(),()(
),,(),( ),,(),()()(
1
0
1
21111
11
110100
xpqxBqqA
qqAqxBq
qxqBqqAqxqBqqAqxp
H
qq nnnn
qq nnnnn
HT
n
n
=
=
′′′′′=
∑
∑
−
−−
�
�
�
�
π
π
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
q1
q3
q2
B(a,q 1)
π(q 1) π(q 3)
π(q 2)
A(q 1,q3)
A(q2,q
3)A(q 1,q2)
B(a,q 3)
HMM
q1
q3
q2B(a,q 1)
A(q2,q
3)A(q 1,q2)
B(a,q 3)
HMMT
q0
π(q 1)
π(q 2)π(q 3)
B(a,q 2)
B(q 0,a,q 2)=B(a,q 2)
A(q 1,q3)
B(a,q 3)
B(a,q 3)B(a,q 2)
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Demonstração:
a) As novas distribuições verificam a definição de HMM:
b)A equivalência é mostrada por: para todo o x com |x|=n
Proposição:
{ }
),()()),((
),,()),(,(
contrário caso0
se),()),()),,(( 0),( e ,|),(
Seja
qqAqqq
qaqBqqaB
qqqqAqqqqAqqAQqqqqQ
′=′′′=′′
=′′=′′′′′′=′′′′′′′
≠′∈′′=′
ππ
∑∑∑∑
∑∑
′′
Σ∈Σ∈
′′′′′′′′
=′=′′∈′∀=′=′′∈′∀=′′′′=′′′′′′′
qqqq
aa
qqq
qqAqqq
QqqqaqBqqaB
QqqqqAqqqqA
,),(
),(
1),()()),((
,1),,()),(,(
,1),()),(,),((
ππ
)( ),,(),(
),,(),( ),,(),()(
)),(,( )),(),,(()),(,(
)),(),,(()),(,(),()(
11
22121
110100
1
112212
211010110
0
0
xpqxqBqqA
qxqBqqAqxqBqqAq
qqxBqqqqAqqxB
qqqqAqqxBqqxp
HT
nnnnn
nnn
nnnn
qqH
n
n
=
=
′′′
′′′=
−−
−
−−−
∑
∑
�
�
�
�
π
π
)()(, que tal),,,,( HMM um existe ),,,,( HMMT cada Para
* xpxpBAQHBAQHT
HTHx=∀′′′Σ′=
Σ=Σ∈π
π
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
q0q1
q2
π0π1
π2
A(q 2,q1)A(q 0,q2)
HMMT
A(q1,q2)A(q 2,q1)
HMM
A(q 2,q1)
B(q 2,a,q 1)
B(q 0,a,q 2)
A(q1,q2)
B(q 1,a,q 2)q0q2
q2q1
q1q2B(q 0,a,q 2)
π0A(q 0q 2) π1A(q 1q 2)
π2A(q 2q 1)
B(q 2,a,q 1)
B(q 1,a,q 2)
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMTF - HMM with observation probability distribution in the transitions and
final state
HMMTF - HMMTF com a restrição de um estado final “absorvente”
{ }[ ]
final estado no terminamsequências as Todasproibidas são s transiçõeas todasqual no final, estado
inicial estado
0),( se , 1),,( 1,0:
1),(),,,,,(
,
≡≡
≠′∀=′→×Σ×
∀=′Σ=
∈′Σ∈
′ −∈
∑∑
f
i
Qqqa
q qQq
fi
qqAqaqBQQB
qqAqqBAQHTF
f
∑− −−
=11 ),,(),(
),,(),()(11
111
nqq fnnfn
iiHTFqxqBqqA
qxqBqqAxp� �
Probabilidade de observação da sequência
Σ∈= in xxxxx , , 21 �
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMTF <=> SFSG
Proposição:
Proposição:
)()(, que tal),,,,( com ),,(SFSG uma existe ),,,,,( HMMTF um Dado
* xpxpSRNGGGqqBAQHTF
HTFGexe
fi
=∀Σ==Σ=
Σ∈µ
{ }{ }
{ }),,(),()(),,(),()( 0),,(|)( e 0),,(|)(
;
ff
f
f
if
qaqBqqAaqqaqBqqAqaq
qaqBaqqqqaqBqaqR
qSqQN
=→′′=′→
≠→≠′≠′′→=
=−=
µµ
�
)()(, que tal, ),,,,,( HMMTF, um existe ),,( SFSG, uma Dado
* xpxpqqBAQHTFGG
HTFGexfi
e=∀Σ=
=Σ∈
µ
{ }
RaqqqA
RqaqqqA
qqAaqqaqB
aqqqA
qqAqaqqaqB
qaqqqA
SqqqNQ
f
NaNqff
Nqa
f
NaNqq
Nqqa
iNff
∉→=∉′→=′
∀∀→=
∀→=∀∀′′→=′
∀′→=′==
∈∈
∈
∈∈′
∈′
∉
∑
∑
)( se0),(
)( se0),(
,),(/)(),,(
)(),(
,),(/)(),,(
)(),(
,
,
,
µ
µµ
µ�
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
qi qfq1
A(q1 ,qf)A(qi,q1 )
HMMT SFSG
B(q i,a,q1)
B(q i,b,q1)
qi Tq1
aa
µ(q i->a q 1)=A(q i,q1)B(q i,a,q1)
B(q 1,a,q f)
bµ(q i->b q 1)=
A(q i,q1)B(q i,b,q1)
µ(q1->a )=A(q 1,q f)B(q 1,a,q f)
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
qi q fq1
A(q1 ,qf)=µ(q1 ->a)
A(qi,q1 )=µ(qi->a q1 )+µ(qi->b q1)
HMMTSFSG
B(q i,a,q 1)=µ(q i->a q 1)/A(q i,q 1)
qi Tq1
aaµ(q i->a q 1)
b
µ(q i->b q 1)
µ(q 1->a )
B(q i,b,q 1)=µ(q i->b q 1)/A(q i,q 1)
B(q 1,a,q f)=1
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM SFSG:
• inferida a partir do
conjunto de treino
•Método da apresentação estocástica (equivalente a ML para gramáticas nãoambíguas)
Prob. de observação de uma sequência:
Estrutura• definidaa priori
Estimação de Parâmetros •Viterbi•Baum-Welch (EM)
p x A q q B q xt t t tt
n
q qn
( ) ( , ) ( , )= −=
∏∑ 111�
p x A x At t tt
n
i
D
( ) Pr( )= →−==
∏∑ 111
σ 0
0 ,1 ,2 ,3 ,7
0
1
2
1
0
T
0
0
1
0 , 11
21
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Gramáticas de Estados Finitos
• 0010010010014
• 0010010014
• G=(N,Σ,R,S)
• N={n1,n2,n3,n4}
Σ={0,1,4}
S=n1
• R: n1 -> 0 n2
n2 -> 0 n3
n3 -> 1 n4 | 1 n1
n4 -> 4
• Derivação de uma sequência:
n1
0 n2
00 n3
001 n1
0010 n2
00100 n3
001001 n4
0010014
n1
n2
n3
n4
0
0
1
T
4
1
n1
0 n2
0 n3
1 n1
0 n2
0 n3
1 n4
4
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
SFSG - Gramáticas estocásticas de estados finitos
SFSG
Derivação de x a partir de S de acordo com G é uma sequência de regras D(x)=(r1,r2,…,rn(x) que permite obterx a partir de Spor sucessiva aplicação de regras em D(x).
Probabilidade associada à derivação D(x):
[ ]{ }∑ ∈Σ∈
=→→
Σ==
εµ
µ
µ
�NBa
e
aBAR
SRNGGG
,1)(
1,0: regular gramática - ),,,(
),(
)()()())(( )(21 xnrrrxDp µµµ �=
Probabilidade de geração da sequência
Σ∈= in xxxxx , , 21 �
= ∑ )( derivações as todaspara))((
para derivação uma existe não se0)(
)(
xDxDp
xxp
xD
Ge
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Proposição: ∑Σ∈
≤*
1)(SFSG uma Dadax
Ge xp
econsistent se-diz
gramática a 1)( se SFSG, uma Dada*
∑Σ∈
=x
Ge xp
1)(
)( , Quando
))( )((1
*
*
21 21
1
11
≤∴
→∞→
→→−=
∑
∑
∑ ∑
Σ∈
Σ∈
−
∈
xGe
xGen
nnn
aaa NCCCn
xp
xpPn
CaCCaSP
n n
µµ
� �
�
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Reconhecimento de Objectos
Metodologia
Extração de Contornos
Descrição em string
ClassificaçãoMAP
TreinoHMM/SFSG
Baseado num método de
comparação com limiar
8 directional differential chain code
Extração de contornos
•O contorno do objecto é amostrado em 50 pontosequi-espaçados
•o ângulo entre segmentos consecutivos é quantifcado em 8 níveis.
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Base de Dados de Imagem•15 tipos de ferramentas•50 imagens por ferramenta, divididas em conjunto de treino e de teste•incluem-se diferentes poses
Exemplos de Ferramentas
000000005000000000000401205000017000001660000000030000000057000000010007603076000100000000500000000300000000500000000000050030500001700000075000000003
00000000500000000010000060000016100000076000000003 0000000050000000001000066000010000000016600000000300000000660000001610000067000010000000066000000003
t1 t2 t3
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
t4 t5 t6
t7 t8 t9
t11 t12 t13
t14 t15
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Aparato ExperimentalAprendizagem do Modelo
•Cada objecto é modelado por um HMM ou uma SFSG, treinado de acordo com:
HMM: Topologias:•Totalmente ligada (10 & 20 estados)•Esquerda-direita (20 & 50 estados)
Estimação de Parâmetros:•Baum-Welch•Viterbi
SFSG: Topologia:
•inferida a partir dos dados de treino usando o método das k-tails (k=1, … 10)
•o número de estados depende da estrutura dos dados
Estimação de Parâmetros:•Método da apresentação estocástica
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
ResultadosHMM:Os melhores resultados foram obtidos com o algoritmo de BW
SFSG:
Ponto inicial fixo Ponto inicial arbitrário
Totalmenteligada
99.7 99.5
Esquerda-direita 100 98.9
Pe: % erro; Pm: % não reconhecimento; Pec: % erro com prob-NN
Rec: % global de reconhecimento * Classificaçãonearest-neighborprobabilística
Ana L. N. Fred IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Conclusões
•A abordagem sintáctica permite uma automatização total dos processos de modelação e reconhecimento => as estruturas obtidas por SFSGs e HMMs são diferentes, as primeiras dependendo da complexidade estrutural dos dados.
• No respeitante à estimação de parâmetros o método de apresentação estocástica é semelhante ao algoritmo de Viterbi usado no treino dos HMMs.
Os resultados experimentais revelam:
•elevados níveis de reconhecimento por ambos os métodos
•HMMs são mais robustos no sentido em que possuem uma maior capacidade de generalização do que as SFSGs. Esta dificuldade é ultrapassada usando parsers correctores de erros (regra de decisão o vizinho mais próximo probabilistico) à custa de um maior custo computacional.
•As SFSGs conduzem geralmente a modelos de menordimensão.