Post on 26-Dec-2018
MP-208: Filtragem Otima com Aplicacoes AeroespaciaisCapıtulo 3: Estimacao de Parametros
Davi Antonio dos Santos
Departamento de MecatronicaInstituto Tecnologico de Aeronautica
davists@ita.br
Sao Jose dos Campos, BrasilSetembro de 2016
1 / 27
Sumario
1 Introducao
2 Mınimos Quadrados
3 Maxima Verossimilhanca
4 Maxima Probabilidade a Posteriori
5 Mınimo Erro Quadratico Medio
6 Limitante Inferior de Cramer-Rao
2 / 27
Introducao
Motivacao:
Em geral, interessamo-nos por duas aplicacoes de estimacao de parametros:
Identificacao de parametros de modelos dinamicos.
Calibracao de sensores.
3 / 27
Introducao
Abordagens:
Ha duas abordagens de estimacao de parametros:
Estimacao classica: O parametro que se deseja estimar e modeladocomo uma constante determinıstica desconhecida.
Estimacao Bayesiana: O parametro que se deseja estimar e modeladocomo uma realizacao de uma variavel aleatoria. Neste caso, temosdisponıvel informacao probabilıstica a priori relativa ao parametro.
4 / 27
Introducao
Problema Geral:
Seja um conjunto de medidas y1:k , com yi modelado por
yi = hi (θ, vi ) , i = 1, 2, ..., k (1)
onde hi : Rp × Rn → Rm e uma funcao conhecida e vi ∈ Rn e um vetorerro. O vetor θ ∈ Rp contem os parametros desconhecidos que desejamosestimar.
Em geral, o estimador θ ∈ Rp de θ a partir de y1:k tem a forma
θ = g (y1:k) (2)
onde g e uma funcao obtida segundo algum criterio de otimalidade.5 / 27
Introducao
Criterios:
Os criterios usuais de estimacao de parametros sao os seguintes:
Mınimo Quadrados (Classico)
Maxima Verossimilhanca (Classico)
Maxima Probabilidade a Posteriori (Bayesiano)
Mınimo Erro Quadratico Medio (Bayesiano)
6 / 27
Mınimos Quadrados
Definicao do Problema:
Seja um conjunto de medidas y1:k , com yi ∈ Rm modelado por
yi = hi (θ) + vi , i = 1, 2, ..., k (3)
onde hi : Rp × Rn → Rm e uma funcao conhecida e vi ∈ Rm e um erroaditivo; θ ∈ Rp e o vetor de parametros.
Considere que θ seja uma constante desconhecida.
7 / 27
Mınimos Quadrados
O estimador de mınimos quadrados (LS1) θk ∈ Rp de θ a partir de y1:k edado por
θk = arg minθ
Jk(θ) (4)
onde
Jk(θ) ,k∑
i=1
(yi − hi (θ)
)TWi
(yi − hi (θ)
)(5)
e Wi ∈ Rm×m e uma matriz de pesos.
1Least squares.8 / 27
Mınimos Quadrados
Solucao Explıcita para o Modelo Linear:
Considere que (3) seja um modelo linear na forma
yi = Hiθ + vi , i = 1, 2, ..., k (6)
Neste caso, o estimador LS definido em (4) e dado explicitamente por
θk =
k∑i=1
HTi WiHi
−1k∑
i=1
HTi Wiyi (7)
Observacao: Note que em nenhum momento estabelecemos propriedadespara o erro de medicao vi , i = 1, ..., k.
9 / 27
Maxima Verossimilhanca
Definicao do Problema:
Seja um conjunto de medidas y1:k , com yi ∈ Rm modelado por
yi = hi (θ) + vi , i = 1, 2, ..., k (8)
onde hi : Rp × Rn → Rm e uma funcao conhecida e vi ∈ Rm e um erroaditivo; θ ∈ Rp e o vetor de parametros.
Considere que θ seja uma constante desconhecida.
10 / 27
Maxima Verossimilhanca
O estimador de maxima verossimilhanca θk ∈ Rp de θ a partir de y1:k edado por
θk = arg maxθ
Λk(θ) (9)
onde
Λk(θ) , fY1:k(y1:k ;θ) (10)
e a funcao verossimilhanca, que consiste na pdf conjunta de Y1:k dado θ.
11 / 27
Maxima Verossimilhanca
Solucao Explıcita para o Modelo Linear Gaussiano:
Considere que (8) seja um modelo linear Gaussiano na forma
yi = Hiθ + vi , i = 1, 2, ..., k (11)
onde v1:k e uma realizacao de uma uma sequencia aleatoria descorrela-cionada V1:k , com Vi ∼ N (0,R).
Neste caso, o estimador ML definido em (9) e dado explicitamente por
θk =
k∑i=1
HTi R−1Hi
−1k∑
i=1
HTi R−1yi (12)
Observacao: Note que escolhendo Wi = R−1, o estimador LS dado em(7) coincide com o estimador ML dada em (12).
12 / 27
Maxima Verossimilhanca
Propriedades:
Seja o vetor aleatorio erro de estimacao Θk , Θk − θ. O estimador MLdado em (12) tem as seguintes propriedades:
1 Vies:
E(Θk
)= 0
Dizemos neste caso que o estimador (12) e nao viesado.
2 Covariancia:
E(ΘkΘ
Tk
)=
k∑i=1
HTi R−1Hi
−1
Note que fazendo k → ∞, a expressao acima tende a zero, o queequivale dizer que Θk → θ em media quadratica. Neste caso, dizemosque o estimador em questao e consistente.
13 / 27
Maxima Probabilidade a Posteriori
Definicao do Problema:
Seja um conjunto de medidas y1:k , com yi ∈ Rm modelado por
yi = hi (θ) + vi , i = 1, 2, ..., k (13)
onde hi : Rp × Rn → Rm e uma funcao conhecida e vi ∈ Rm e um erroaditivo modelado como a realizacao de um vetor aleatorio Vi ; θ ∈ Rp e ovetor de parametros.
Considere que θ seja uma realizacao de um vetor aleatorio Θ com pdfconhecida fΘ(θ).
14 / 27
Maxima Probabilidade a Posteriori
O estimador de maxima probabilidade a posteriori (MAP2) θk ∈ Rp de θ apartir de y1:k e dado por
θk = arg maxθ
fΘ|Y1:k(θ|y1:k) (14)
onde fΘ|Y1:k(θ|y1:k) e a pdf a posteriori dada pelo teorema de Bayes:
fΘ|Y1:k(θ|y1:k) =
fY1:k |Θ(y1:k |θ)fΘ(θ)
fY1:k(y1:k)
(15)
onde fY1:k |Θ(y1:k |θ) e a funcao verossimilhanca de Y1:k dado Θ = θ, fΘ(θ)e a pdf a priori de Θ e fY1:k
(y1:k) e um fator normalizador.
2Maximum a posteriori probability.15 / 27
Maxima Probabilidade a Posteriori
Solucao Explıcita para o Modelo Linear Gaussiano:
Considere que (13) seja um modelo linear Gaussiano na forma
yi = Hiθ + vi , i = 1, 2, ..., k (16)
onde θ e uma realizacao de um vetor aleatorio Θ ∼ N (mΘ,PΘ), v1:k
e uma realizacao de uma sequencia aleatoria descorrelacionada V1:k comVi ∼ N (0,R), e Hi ∈ Rm×p e uma matriz conhecida.
Neste caso, o estimador MAP (14) e dado explicitamente por
θk = PkP−1Θ mΘ + Pk
k∑i=1
HTi R−1yi (17)
com
Pk ,
k∑i=1
HTi R−1Hi + P−1
Θ
−1
∈ Rp×p (18)
16 / 27
Maxima Probabilidade a Posteriori
Propriedades:
Seja o vetor aleatorio erro de estimacao Θk , Θk −Θ. O estimador MAPdado em (17) tem as seguintes propriedades:
1 Vies:E(Θk
)= 0
Note que o estimador (17) e nao viesado.
2 Covariancia: Defina Θk , Θk − E (Θk). A covariancia de Θk e
E(ΘkΘ
Tk
)= Pk
k∑i=1
HTi R−1PYi
R−1HiPk
onde PYi= HiPΘHT
i + R.
17 / 27
Maxima Probabilidade a Posteriori
3 Erro Quadratico Medio (MSE3):
E(ΘkΘ
Tk
)= PkP−1
Θ mΘmTΘP−1
Θ Pk + P1
(PΘ + mΘmT
Θ
)P1 +
PkP−1Θ mΘmT
ΘP1 + P1mΘmTΘP−1
Θ Pk +
Pk
k∑i=1
HTi R−1HiPk
onde
P1 ,
Pk
k∑i=1
HTi R−1Hi − Ip
Note que o estimador (17) e consistente, pois o MSE converge para0 quando k → ∞, o que equivale dizer que Θk → Θ em mediaquadratica.
3Mean square error.18 / 27
Mınimo Erro Quadratico Medio
Definicao do Problema:
Seja um conjunto de medidas y1:k , com yi ∈ Rm modelado por
yi = hi (θ) + vi , i = 1, 2, ..., k (19)
onde hi : Rp × Rn → Rm e uma funcao conhecida e vi ∈ Rm e um erroaditivo modelado como a realizacao de um vetor aleatorio; θ ∈ Rp e o vetorde parametros.
Considere que θ seja uma realizacao de um vetor aleatorio Θ com pdfconhecida fΘ(θ).O estimador de mınimo erro quadratico medio (MMSE4) θk ∈ Rp de θ apartir de y1:k e dado por
θk = arg minθ
E
((θ −Θ
)T (θ −Θ
)|Y1:k
)(20)
4Minimum mean square error.19 / 27
Mınimo Erro Quadratico Medio
O estimador de mınimo erro quadratico medio (MMSE5) θk ∈ Rp de θ apartir de y1:k e dado por
θk = arg minθ
E
((θ −Θ
)T (θ −Θ
)|Y1:k
)(21)
5Minimum mean square error.20 / 27
Mınimo Erro Quadratico Medio
Solucao Geral:
Mostraremos que, para qualquer modelo de medidas (19), a solucao (geral)do problema (20) e dada pela seguinte media condicional:
θk = E(Θ|Y1:k
)(22)
que e calculada mediante a pdf a posteriori dada pelo teorema de Bayes:
fΘ|Y1:k(θ|y1:k) =
fY1:k |Θ(y1:k |θ)fΘ(θ)
fY1:k(y1:k)
(23)
onde fY1:k |Θ(y1:k |θ) e a funcao verossimilhanca de Y1:k dado Θ = θ, fΘ(θ)e a pdf a priori de Θ e fY1:k
(y1:k) e um fator normalizador.
21 / 27
Mınimo Erro Quadratico Medio
Solucao Explıcita para o Modelo Linear Gaussiano:
Considere que (19) seja um modelo linear Gaussiano na forma
yi = Hiθ + vi , i = 1, 2, ..., k (24)
onde θ e uma realizacao de um vetor aleatorio Θ ∼ N (mΘ,PΘ), v1:k
e uma realizacao de uma sequencia aleatoria descorrelacionada V1:k comVi ∼ N (0,R), e Hi ∈ Rm×p e uma matriz conhecida.
Neste caso, o estimador MMSE (22) e dado explicitamente por
θk = PkP−1Θ mΘ + Pk
k∑i=1
HTi R−1yi (25)
onde Pk e a matriz definida em (18).
22 / 27
Mınimo Erro Quadratico Medio
Propriedades:
O estimador MMSE (25) e identico ao MAP (17). Isso se deve a Gaussian-idade de Θ condicionado em Y1:k , i.e.,
fΘ|Y1:k
(θ|y1:k
)= N
(mΘ|Y ,PΘ|Y
)(26)
commΘ|Y = θk (27)
PΘ|Y = Pk (28)
Sendo assim, esses estimadores tem as mesmas propriedades.
23 / 27
Limitante Inferior de Cramer-Rao
Para Parametros Determinısticos:
Neste caso, o limitante inferior de Cramer-Rao (CRLB6) estabelece que acovariancia (ou MSE) de um estimador nao viesado e limitada inferiormente:
E
((Θk − θ
)(Θk − θ
)T)≥ J−1 (29)
onde J e a matriz de informacao de Fisher, dada por
J , −E(∇θ∇T
θ ln Λk(θ))
(30)
= E((∇θ ln Λk(θ)
) (∇θ ln Λk(θ)
)T)(31)
onde Λk(θ) e a funcao verossimilhanca (definida no slide 9).
6Cramer-Rao lower bound.24 / 27
Limitante Inferior de Cramer-Rao
Para Parametros Aleatorios:
Neste caso, o CRLB tem a mesma forma de (29)-(31), porem:
no lugar do vetor de parametros determinıstico θ, inserimos o vetoraleatorio Θ.
a funcao verossimilhanca consiste agora na seguinte pdf condicional:
Λk(Θ) = fY1:k |Θ(Y1:k |Θ)
Observacao:
Note que no caso determinıstico, as esperancas em (30)-(31) sao tomadasao longo de Y1:k . No caso aleatorio, essas esperancas sao tomadas ao longode Y1:k e de Θ.
25 / 27
Limitante Inferior de Cramer-Rao
Modelo Linear Gaussiano com Parametros Determinısticos:
Seja o modelo linear Gaussiano
yi = Hiθ + vi ∈ Rm, i = 1, 2, ..., k (32)
onde θ e um vetor determinıstico desconhecido, v1:k e uma realizacao deuma sequencia aleatoria descorrelacionada V1:k com Vi ∼ N (0,R), e Hi ∈Rm×p e uma matriz conhecida.
Neste caso, a matriz de informacao de Fisher e dada por
J =k∑
i=1
HTi Q−1Hi (33)
Note que J e igual ao inverso da covariancia do estimador ML. Por suacovariancia ter atingido o limitante, dizemos que o estimador ML e eficiente.
26 / 27
Referencia
Bar-Shalom, Y.; Li, X.R.; Kirubarajan, T. Estimation with Applica-tions to Tracking and Navigation. New York: John Wiley & Sons,2001.
27 / 27