Inferência para Cadeias de Markov

Post on 15-Dec-2015

260 views 24 download

description

Cadeias de Markov: processo Estocástico.Autora: Nancy L. Garcia1

Transcript of Inferência para Cadeias de Markov

Inferência para Cadeias de Markov

Nancy L. Garcia1

1UNICAMP, Brasil

2o. Semestre de 2012

Inferência clássica

Seja uma amostra aleatória X0,X1,X2, . . . ,Xn:I X0,X1,X2, . . . ,Xn são i.i.d.I distribuição de probabilidade conjunta:

P(X0 ∈ A0, . . . ,Xn ∈ An) =n∏

i=0

P(Xi ∈ Ai) =n∏

i=0

P(X ∈ Ai),

onde X tem a mesma distribuição das Xi ’s.Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove noi-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimodia do j-ésimo ano.Faz sentido pensar que estas v.a’s são i.i.d.?

Processos Estocásticos

Um processo estocástico é uma coleção de v.a’s

{Xt , α ∈ T}

onde T é um conjunto de índices que pode ser discretocontínuo. Em geral, T = N ou [0,∞).Neste caso, sempre é possível escrever a distribuição conjuntade um número finito destas v.a.’s

P(Xt0 ∈ A0, . . . ,Xtn ∈ An) =

P(Xt0 ∈ A0)n∏

i=1

P(Xti ∈ Ai |Xt0 ∈ A0, . . . ,Xti−1 ∈ Ai−1).

A teoria de Processos Estocásticos estuda diversasespecificações para as probabilidades condicionais acima eobtém resultados similares aos clássicos:

I Lei dos Grandes Números (Teorema Ergódico);I Teorema Central do Limite;I Lei Assintótica;I Estimação de máxima verossimilhança;I Testes de hipóteses;I Estimação não paramétrica.

I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.

I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.

I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.

I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.

I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.

I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.

I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.

I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.

I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.

I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.

I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.

I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.

I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.

I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.

I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.

I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.

I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.

I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.

Aplicações de Cadeias de Markov

I Física, química, biologia, ciências sociais, jogos, música,linguística, neurociência, bioinformática, reconhecimentode imagens, reconhecimento de assinaturas, etc.

I Por exemplo, o “PageRank” de uma página da web comousado pelo Google é completamente definido através deuma cadeia de Markov.

Propriedade de Markov

I Espaço de estados discreto e tempo discretoI X0,X1, . . . v.a.’s discretas com valores possíveis I

enumerável.

P(Xn = x |X0 = x0,X1 = x1, . . . ,Xn−1 = xn−1) =

P(Xn = x |Xn−1 = xn−1)

para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.

Exemplo 1: Sejam Y0,Y1, . . . v.a.’s discretas i.i.d.. Defina

Sn = Y0 + . . .+ Yn

Neste caso,

P(Sn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(Sn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(xn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)

= P(xn−1 + Yn = x) = P(Sn = x |Sn−1 = xn−1).

Propriedade de Markov

Definições equivalentes

P(Xn = x |Xn0 = x0,Xn1 = x1, . . . ,Xnk = xk ) = P(Xn = x |Xnk = xk )

para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1.

P(Xn+m = x |X0 = x0,X1 = x1, . . . ,Xn = xn) = P(Xn = x |Xn = xn)

para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.

I Cadeia de Markov homogênea

P(Xn = j |Xn−1 = i) = P(X1 = j |X0 = i) := pij

para todo n ≥ 1 e todos os valores de i , j ∈ I.I Matriz de transição

P = (pij)

A matriz de transição é uma matriz estocástica, i.e.,

pij ≥ 0, ,∑

j

pij = 1.

I Matriz de transição em n-passos

Pn = (pij(n))

ondepij(n) = P(Xn = j |X0 = i)

Note que P1 = P, mais ainda

pij(2) = P(X2 = j |X0 = i)

=∑k∈I

P(X2 = j ,X1 = k |X0 = i)

=∑k∈I

P(X2 = j |X1 = k)P(X1 = k |X0 = i)

=∑k∈I

pkjpik .

Portanto, P2 = P2.

Equações de Chapman-Kolmogorov

pij(n + m) =∑

k pkj(n)pik (m)

Consequentemente, Pn+m = PnPm e Pn = Pn.

Distribuições marginais

Definaµ(n)i = P(Xn = i).

eµ(n) = (µ

(n)i , i ∈ I).

Note que

µ(1)i = P(X1 = i) =

∑k

P(X1 = i ,X0 = k)

=∑

k

P(X1 = i |X0 = k)P(X0 = k)

=∑

k

pkiµ(0)k

µ(2)i = P(X2 = i) =

∑j

P(X2 = i ,X1 = j)

=∑

j

P(X2 = i |X1 = j)P(X1 = j)

=∑

j

pjiµ(1)j =

∑j

pji∑

k

pkjµ(0)k

Em geral,

µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn

Exemplo: Snoqualmie FallsI dados diários para se choveu ou não, pelo menos, 0,01 cmI 36 anosI Janeiro para obter um sistema homogêneo e estacionário.I = {0,1} Matriz de transição

P =

[p00 p01p10 p11

]Será que os dados não são independentes?

Hoje0 1

0 186 (91) 123 (223) 309Ontem

1 128 (223) 643 (543) 771314 766 1080

Os valores entre parenteses são os valores esperados sob ahipótese de independência. X 2 = 202,89 e χ2

1;1% = 6,63.

Função de verossimilhança

L(P,x) = P(X0 = x0)n−1∏i=0

P(Xi+1 = xi+1|Xi = xi)

= P(X0 = x0)n−1∏i=0

pxi ,xi+1

= P(X0 = x0)∏

k ,l∈Ipnk,l

k ,l

onde nk ,l = número de vezes em que Xi = k ,Xi+1 = l .

No exemplo de Snoqualmie Falls,

L(P,x) =

36∏j=1

P(X0,j = x0,j)

p18600 p123

01 p12810 p643

11 .

Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não,podemos usar as 36 amostras para estimar esta probabilidade.• p00 + p01 = 1 e p10 + p11 = 1,

P1,0 = n1,0/(n0,0 + n1,0)

eP1,1 = n1,1/(n0,1 + n1,1)

As estimativas de MV são dadas por:

p1,0 = 123/309 = 0,398 p1,1 = 643/771 = 0,834

Exemplo - Ferrugem asiática:

I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.

I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.

I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.

Exemplo - Ferrugem asiática:

I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.

I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.

I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.

Exemplo - Ferrugem asiática:

I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.

I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.

I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.

As variáveis coletadas:1. molhamento foliar (codificada como 1 se há molhamento

superior a oito horas e 0 caso contrário),2. velocidade do vento em m/s,3. umidade relativa do ar,4. precipitação em mm e temperatura média em oC.

Quatro estações meteorológicas:I Lucas do Rio verde (MT),I Rio Verde (GO),I Passo Fundo (RS) eI Holambra (SP)

Dados enviados diariamente para o CEPAGRI - Unicamp(Centro de Pesquisas Meteorológicas e Climáticas Aplicadas àAgricultura).

Fonsechi (2006)

I Modelo de Regressão Logístico para variáveis bináriasI variáveis dependem do tempo anterior, por exemplo, se

choveu no tempo t − 1 influencia se haverá molhamentoou não no tempo t . Obviamente não podemos esperarindependência de um tempo para o outro.

Modelo

P(Y | X) =n∏

i=1

P(Yi | Y1, . . . ,Yi−1,X)

onde Y é a variável resposta e X é a matriz de covariáveis.

Pode-se definir o i-ésimo logito como:

θi = log[

P(Yi = 1|Y1, . . . ,Yi−1,Xi)

P(Yi = 0|Y1, . . . ,Yi−1,Xi)

]e assumir que θi é função linear de Y1, . . . ,Yi−1,Xi .

Temos, então, um problema de regressão no qual a resposta Yié binária, mas o conjunto de valores da variável explicativamuda de acordo com i .

Para introduzir dependência no modelo é necessário criarvariáveis auxiliares que são funções lineares dos Y ′i s:

Zi =

{2Yi − 1 se Yi = 0 ou 10 se Yi desconhecido

Definimos a regressão logística da seguinte forma:

θ1 = α + βX1

θi = α +i−1∑j=1

γjZj + βXi , i = 1, . . . ,n

em que α, β e γ′s são parâmetros que variam no intervalo(−∞,∞) e a dependência foi introduzida no modelo atravésdas variáveis Z ′i s presentes nos logitos.

Temos

P(Y|X) =n∏

i=1

eθi

(1 + eθi ).

Para (j < i)I Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta

em eγj ,I Yj desconhecido não muda a chance,I Yj=0 diminui a chance em eγj

I um aumento de uma unidade em Xi aumenta a chance dodia i ter molhamento em eβ.

O modelo na forma matricial fica:

θ = [θ1 . . . θn]′ ,

Z = [Z1 . . .Zn]′ ,

λ = [α γ1 γ2 . . . γn−1 β]′ ,

A =

1 0 0 . . . 0 X11 Z1 0 . . . 0 X21 Z1 Z2 . . . 0 X3...

......

......

...1 Z1 Z2 . . . Zn−1 Xn

.

Então o modelo torna-se:

θ = Aλ (1)

Estruturas Markovianas de Dependência

Com a estrutura de primeira ordem o modelo torna-se:

P(Y|X) = P(Y1|X )n∏

i=2

P(Yi |Yi−1,X ).

Com a estrutura de segunda ordem o modelo torna-se:

P(Y|X) = P(Y1|X)P(Y2|Y1,X)Pn∏

i=3

P(Yi |Yi−1,Yi−2,X).

Portanto, a probabilidade de ter molhamento foliar no dia i sódepende da resposta do dia imediatamente anterior (ou doisdias). Nesse caso, os logitos podem ser escritos como:

θi = α + γZi−1 + βXi .

Método de análise

I Foi utilizado o software livre R (www.r-project.org)I Para as quatro estações testou-se o modelo com estrutura

Markoviana de dependência de primeira e segunda ordemI Ajustou-se primeiramente um modelo com todas as

covariáveis (Modelo completo) e depois utilizou-sestepwise para selecior as covariáveis que realmente sãosignificativas ao modelo (Modelo reduzido). Critério AIC.

I Para verificar a adequação do modelo foi utilizado aestatística “deviance” (−2logL, sendo L a funcão deverossimilhança), essa estatística tem distribuição χ2

n−p−1,sendo n − p − 1 o graus de liberdade, n é o número deobservações e p é o número de parâmetros.

Passo Fundo - Estrutura Markoviana de 1a ordem

Tabela: Modelo Completo

Parâmetro Estimação teste-tIntercepto -13.80594 6.03e-06Z 0.68004 0.00104UR 0.15166 2.50e-08Temp média 0.0995 0.12957Velocidade Vento -0.24003 0.28894Chuva 0.05070 0.28251

Passo Fundo - Estrutura Markoviana de 1a ordem

Tabela: Modelo Reduzido

Parâmetro Estimação teste-tIntercepto -15.67279 5.97e-08Z 0.66143 0.00103UR 0.16491 4.24e-11Temp média 0.10751 0.09699

Para Passo Fundo, com estrutura markoviana comdependência de primeira ordem a deviance foi 161,1 e o valortabelado da χ2

223 é 189.43, ou seja, pelo teste de bondade deajuste esse modelo é adequado.

Passo Fundo - Estrutura Markoviana de segundaordem

Tabela: Modelo Completo

Parâmetro Estimação teste-tIntercepto -13.80594 8.99e-06Z1 0.52782 0.0197Z2 0.36670 0.0960UR 0.15069 4.24e-08Temp média 0.10047 0.1332Velocidade Vento -0.25198 0.2793Chuva 0.055070 0.2512

Tabela: Modelo Reduzido

Parâmetro Estimação teste-tIntercepto -15.79363 6.88e-08Z1 0.51292 0.0204Z2 0.34475 0.1150UR 0.16604 5.61e-11Temp média 0.10841 0.100

Apesar de ter utilizado o método stepwise para selecionar omelhor modelo ainda há variáveis não significativas no modeloao nível de significância de 10%, sendo ela a variável querepresenta a estrutura de dependência de segunda ordem, ouseja, o modelo para passo fundo, com dependência deprimeira ordem é o mais adequado para o conjunto de dadosde Passo Fundo.

Conclusão

I Verificou-se a eficiência da utilização do Modelo LogísticoRegressivo para a estimação de molhamento foliar nacultura da soja.

I Para as quatro estações testadas, o modelo que melhorajusta aos dados meteorológicos é o logístico regressivocom estrutura markoviana de primeira ordem, ou seja, omodelo que leva em consideração a dependência do diaanterior para a ocorrência de molhamento foliar.

I Com as previsões meteorológicas e o uso do modeloproposto será possível um melhor monitoramento dacultura da soja, acionando os produtores de soja paraalertá-los quando houver indícios da ocorrência demolhamento foliar superior a 8 horas, ajudando assim omomento certo para aplicação de fungicida.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Urna de Ehrenfest

I Modelo para troca de calor ou gases entre dois corposisolados.

I Temos duas caixas com um total de d bolas numeradas de1 a d .

I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.

I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.

I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.

Xn é uma cadeia de Markov com espaço de estados{0,1, . . . ,d} e matriz de transição

P(x , y) =

(x/d), y = x − 1,

1− (x/d), y = x + 1,0, caso contrário

Ruína do jogador

Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.

I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.

I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.

I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.

Ruína do jogador

Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.

I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.

I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.

I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.

Ruína do jogador

Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.

I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.

I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.

I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.

Esta é uma CM com espaço de estados {0,1, . . .}onde 0 é um estado absorvente e para x ≥ 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Se houver um adversário que inicia o jogo comd − i reais e o jogo termina quando o capital do1o. jogador atinge 0 ou d o espaço de estados é{0,1, . . .} onde 0 e d são estado absorventes epara 1 ≤ x ≤ d − 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Esta é uma CM com espaço de estados {0,1, . . .}onde 0 é um estado absorvente e para x ≥ 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Se houver um adversário que inicia o jogo comd − i reais e o jogo termina quando o capital do1o. jogador atinge 0 ou d o espaço de estados é{0,1, . . .} onde 0 e d são estado absorventes epara 1 ≤ x ≤ d − 1

P(x , y) =

1− p, y = x − 1,

p, y = x + 1,0, caso contrário

Cadeias de nascimento e morte

I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.

I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.

I Considere que a matriez de transição seja:

P(x , y) =

qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário

onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1.

Classificação de estados:

Seja A um subconjunto do espaço de estados I. O tempo dechegada a A é definido como:

TA =

{min{n > 0; Xn ∈ A}, se Xn atinge A,

∞, caso contrário

Notaçao:A = {a} usamos a notação: Ta.Denotaremos por Px (·) as probabilidades dosdiversos eventos quando o estado inicial dacadeia for x . Assim,

Px (X1 = a,X2 = b) = P(X1 = a,X2 = b|X0 = x).

Uma identidade importante:

Pn(x , y) =∑n

m=1 Px (Ty = m)Pn−m(y , y), n ≥ 1

Se a é um estado absorvente então

Pn−m(a,a) = 1, para1 ≤ m ≤ n.

e

Pn(x ,a) =n∑

m=1

Px (Ta = m)Pn−m(a,a)

=n∑

m=1

Px (Ta = m) = Px (Ta ≤ n).

Observe que

Px (Ty = 1) = Px (X1 = y) = P(x , y)

e que

Px (Ty = 2) =∑z 6=y

Px (X1 = z,X2 = y) =∑z 6=y

P(x , z)P(z, y).

Em geral,

Px (Ty = n + 1) =∑

z 6=y P(x , z)Pz(Ty = n), n ≥ 1

Estados recorrentes e transientes

I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.

I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .

I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.

I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.

Estados recorrentes e transientes

I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.

I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .

I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.

I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.

Estados recorrentes e transientes

I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.

I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .

I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.

I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.

Estados recorrentes e transientes

I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.

I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .

I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.

I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.

Para cada estado y ∈ I defina a v.a.

N(y) =∞∑

n=1

1y (Xn)

o número de vezes que a CM visita o estado y .Note que:

Px (N(y) ≥ 1) = Px (Ty <∞) = ρxy .

É fácil ver que a propriedade de Markov diz que: aprobabilidade da cadeia começando em x visitar pela primeiravez y após m passos e retornar a y n passos depois é

Px (Ty = m)Py (Ty = n).

Portanto,

Px (N(y) ≥ 2) =∞∑

m=1

∞∑n=1

Px (Ty = m)Py (Ty = n)

=

( ∞∑m=1

Px (Ty = m)

)( ∞∑n=1

Py (Ty = n)

)= ρxyρyy .

Similarmente,

Px (N(y) ≥ m) = ρxyρm−1yy , m ≥ 1.

Usando o fato quePx (N(y) = m) = Px (N(y) ≥ m)− Px (N(y) ≥ m + 1).

Px (N(y) = m) = ρxyρm−1yy (1− ρyy ), m ≥ 1.

e

Px (N(y) = 0) = (1− ρxy ).

Observe que

Ex (N(y)) = Ex

( ∞∑n=1

1y (Xn)

)

=∞∑

n=1

Ex (1y (Xn))

=∞∑

n=1

Pn(x , y).

Defina

G(x , y) = Ex (N(y)) =∑∞

n=1 Pn(x , y).

O seguinte teorema descreve a diferença fundamental entreestados transientes e estados recorrentes:Teorema: (i) Seja y um estado transiente. Então:

Px (N(y) <∞) = 1

eG(x , y) =

ρxy

1− ρyy.

(ii) Seja y um estado recorrente. Então:

Py (N(y) =∞) = 1 e G(y , y) = 1.

Mais ainda,

Px (N(y) =∞) = Px (Ty <∞) = ρxy .

Se ρxy = 0 então G(x , y) = 0 enquanto que ρxy > 0 implicaque G(x , y) =∞.

Seja y um estado transiente. Como

∞∑n=1

Pn(x , y) = G(x , y) <∞ ⇒ limn

Pn(x , y) = 0.

Uma CM é dita ser transiente se todos os seus estados sãotransientes e recorrente se todos os seus estados sãorecorrentes.É fácil ver que toda CM finita precisa ter pelo menos um estadorecorrente, i.e. não pode ter todos os seus estados transientes:

0 =∑y∈I

limn

Pn(x , y)

CM finita = limn

∑y∈I

Pn(x , y)

= limn

Px (Xn ∈ I)

= 1.

Decomposição do espaço de estados:

Sejam x e y ∈ I

x → y , se ρxy > 0.

I x → y se, e somente se, Pn(x , y) > 0 para algum n.I x → y e y → z então x → z.I Teorema: Seja x um estado recorrente e suponha que

x → y . Então y é recorrente e ρxy = ρyx = 1.

I Um conjunto não vazio C ⊂ I é dito ser fechado senenhum estado de dentro de C leva a um estado fora deC, i.e., se

ρxy = 0, x ∈ C, y 6∈ C.

I Equivalentemente, C é fechado se, e somente se,

Pn(x , y) = 0, x ∈ C, y 6∈ C, para todo n ≥ 1.

I Se C é um conjunto fechado então uma CM começandoem C ficará em C com probabilidade 1.

I Se A é um estado absorvente, então {a} é fechado.

I Um conjunto fechado é dito ser irredutível se x → y paratodos x , y ∈ C.

I Segue do Teorema anterior que se C é uma classefechada e irredutível, então ou todo estado de C érecorrente, ou todo estado de C é recorrente.

I Seja C uma classe fechada irredutível de estadosrecorrentes. então ρxy = 1, Px (N(y) =∞) = 1 eG(x , y) =∞ para todas as escolhas de x , y ∈ C.

I Uma cadeia de Markov irredutível é uma cadeia cujoespaço de estados I é fechado e irredutível. Segue quetais cadeias ou são transientes ou são recorrentes.

Teorema: Seja C um conjunto finito de estados. Então todosos estados em C são recorrentes.

Considere uma CM com um número finito de estados.I Se a CM é irredutível, deve ser recorrente.I Se a CM não é irredutível verificamos quais são as classes

irredutíveis e quais estados são recorrentes e transientes.

Exemplo: I = {0,1,2,3,4,5}

1 0 0 0 0 014

12

14 0 0 0

0 15

25

15 0 1

50 0 0 1

613

12

0 0 0 12 0 1

20 0 0 1

4 0 34

Note que a matriz abaixo traz os valores + e 0 de acordo comx → y , i.e, ρxy > 0.

+ 0 0 0 0 0+ + + + + ++ + + + + +0 0 0 + + +0 0 0 + + +0 0 0 + + +

Obviamente, se P(x , y) > 0 então ρxy > 0, mas a recíprocanão é verdadeira pois P(2,0) = 0 e ρ20 > 0 pois

P2(2,0) = P(2,1)P(1,0) =15

14

=1

20> 0.

I 0 é um estado absorvente, portanto é recorrente.I Também vemos pela matriz acima que {3,4,5} é uma

classe finita, fechada e irredutível portanto todos os seusestados são recorrentes.

I 2→ 0 e 1→ 0 mas 0 6→ 2 e 0 6→ 1, sendo assim 1 e 2 temque ser estados transientes.

Sejam:IT o conjunto de estados transientes;IR o conjunto de estados recorrentes.

Neste exemplo, IT = {1,2} e IR = {0} ∪ {3,4,5}.Sempre é possível decompor IR numa união disjunta (finita ouenumerável) de classes irredutíveis.

Probabilidades de absorção

Seja C uma das classes fechadas irredutíveis de estadosrecorrentes e defina:

ρC(x) := Px (TC <∞)

a probabilidade de que a CM começando em x eventualmenteatinja C ( e permaneça em C para sempre). Claramente,

ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x 6∈ C

Como calcular ρC(x) se x for transiente?

I Se temos somente um número finito de estadostransientes, em particular se I é finito, pode-se encontrarρC(x), x ∈ IT através de um sistema linear de equações.

I Observe que se x ∈ IT , uma cadeia somente pode serabsorvido em C se, (i) for absorvindo em C no instante 1;ou (ii) continuar em IT no instante 1 e ser absorvido em Cem um tempo futuro.

I O evento (i) tem probabilidade∑

y∈C P(x , y) e o evento (ii)tem probabilidade

∑y∈IT

P(x , y)ρC(y).

ρC(x) =∑

y∈C P(x , y) +∑

y∈ITP(x , y)ρC(y), x ∈ IT .

A equação acima pode ser resolvida se IT é finito. No caso deIT não é claro como resolver o sistema, nem mesmo garantirque o sistema tenha solução única.

Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando osistema de equções temos,

ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20

ρ20 = (1/5)ρ10 + (2/5)ρ20

A solução é: ρ10 = (3/5) e ρ20 = (1/5).Note que uma vez que uma CM começando em um estadotransiente x entra em uma classe fechada, irredutível deestados recorrentes, visita todos os estados de C comprobabilidade 1. Assim,

ρxy = ρC(x), para todo y ∈ C.

Portanto,ρ13 = ρ14 = ρ15 = 2/5,

ρ23 = ρ24 = ρ25 = 4/5.

Cadeias de nascimento e morte

I CM irredutível: ou todos os estados recorrentes, ou todosestados transientes.

I CM irredutível finita: todos os estados recorrentes.I O que fazer no caso I infinito?

I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.

I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.

I Considere que a matriez de transição seja:

P(x , y) =

qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário

onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1. Noteque q0 = 0 e pd = 0 se d <∞.

I Assuma que px ,qx > 0 para 0 < x < d .

Para a < b ∈ I, seja

u(x) = Px (Ta < Tb), a < x < b

eu(a) = 1, u(b) = 0.

Portanto, é fácil ver que

u(y) = qyu(y − 1) + ryu(y) + pyu(y + 1), a < y < b.

Como ry = 1− py − qy temos

u(y + 1)− u(y) =qy

py(u(y)− u(y − 1)), a < y < b.

Defina γ0 = 1 e

γy =q1···qyp1···py

, 0 < y < d .

Temos,

u(x) =

∑b−1y=x γy∑b−1y=a γy

, a < x < b.

Portanto, da definição de u(x) temos

Px (Ta < Tb) =∑b−1

y=x γy∑b−1y=a γy

, a < x < b.

Px (Tb < Ta) =∑x−1

y=a γy∑b−1y=a γy

, a < x < b.

Exemplo:I Um jogador na roleta faz uma sequência de apostas de

$1.00.I Ele tem probabilidades 9/19 e 10/19 de ganhar e perder

respectivamente.I O jogador decide que ele pára de jogar se ele lucra $25.00

ou se ele perde $10.00.(a) Ache a probabilidade dele parar de jogar ganhando.(b) Ache sua perda esperada.

I Xn: capital do jogador no tempo n com X0 = 10.I Xn é uma cadeia de nascimento e morte comI = {0,1, . . . ,35}

I taxas px = 9/19,0 < x < 35 e qx = 10/19,0 < x < 35.I Os estados 0 e 35 são aobsorventes.

Aplicar a fórmula para a = 0, x = 10,b = 35. Portanto,

γy = (10/9)y , 0 ≤ y ≤ 34,

Probabilidade de ganhar:

P10(T35 < T0) =

∑9y=0(10/9)y∑34y=0(10/9)y

=(10/9)10 − 1(10/9)35 − 1

= 0.047.

Perda esperada: 10− 35× (0.047) = 8.36.

Distribuição estacionária

I Seja Xn,n ≥ 0 uma CM com espaço de estados I e matrizde transição P.

I Uma distribuição estacionária π(x), x ∈ I satisfaz:1. π(x) ≥ 0, x ∈ I;2.∑

x∈I π(x) = 1;3.

∑x∈I π(x)P(x , y) = π(y), y ∈ I.

Distribuição limite

I Suponha que temos

limn→∞

Pn(x , y) = π(y), y ∈ I.

I Neste capítulo queremos determinar quando temosdistribuição estacionária, quando temos distribuição limitee quando elas são iguais.

Propriedades de distribuições estacionáriasSeja π uma distribuição estacionária para P. Então:∑

x∈Iπ(x)P2(x , y) =

∑x∈I

π(x)∑

z

P(x , z)P(z, y)

=∑

z

(∑x

π(x)P(x , z)

)P(z, y)

=∑

z

π(z)P(z, y) = π(y).

Portanto, por indução, usando a fórmula

Pn+1(x , y) =∑

z

Pn(x , z)P(z, y),

temos ∑x∈I π(x)Pn(x , y) = π(y), y ∈ I.

I Se π0 = π temos que

P(Xn = y) = π(y), y ∈ I

e a distribuição de Xn é independente de n.I Suponha reciprocamente que πn não dependa de n, então

a distribuição de X0 e X1 são idênticas eπ0(y) = π1(y) =

∑x π0(x)P(x , y). Consequentemente,

π0 é distribuição estacionária.I A distribuição de Xn é independente de n se, e

somente se, π0 é estacionária.

Suponha que π é distribuição estacionária e

limn→∞

Pn(x , y) = π(y), y ∈ I.

então P(Xn = y) =∑

x π0(x)Pn(x , y), y ∈ I.Tirando o limite nos dois lados da equação e passando o limitedentro do somatório, temos

limn→∞

Pn(x , y) =∑

x

π0(x)π(y), y ∈ I.

Como∑

x π0(x) = 1 temos

limn→∞ Pn(x , y) = π(y), y ∈ I.

I Temos que se π é uma distribuição estacionária e

limn→∞

Pn(x , y) = π(y), y ∈ I

, a distribuição πn se aproxima de π independemtementeda distribuição inicial.

I Portanto, π é a única distribuição estacionária, senãousaríamos a outra distribuição para π0 e teríamos π = π0.

I Suponha que observamos nosso sistema por um tempolongo, digamos n0 passos e seja

Yn = Xn0+n,

As v.a.’s Yn formam uma CM com a mesma matriz detransição P. Se N0 for suficientemente grande, podemossupor que a distribuição marginal de Yn é a mesma dadistribuição estacionária π.

Exemplo 1:

P =

[1− p p

q 1− q

]Se p + q > 0 temos

π(0) =q

p + qπ(1) =

pp + q

.

Cadeias de nascimento e morte

Considere uma cadeia de nascimento e morte comI = {0,1, . . .}. Vamos assumir que a cadeia é irredutível i.e.,

px > 0, 0 ≤ x <∞

qx > 0, 0 < x <∞.

O sistema de equações∑x

π(x)P(x , y) = π(y)

será:r0π(0) + q1π(1) = π(0)

py−1π(y − 1) + ryπ(y) + qy+1π(y + 1) = π(y), y ≥ 1.

Como px + rx + q + x = 1, temos

(1− p0)π(0) + q1π(1) = π(0)

py−1π(y−1)+(1−py−qy )π(y)+qy+1π(y +1) = π(y), y ≥ 1.

Portanto,

qy+1π(y + 1)− pyπ(y) = qyπ(y)− py−1π(y − 1), y ≥ 1

e consequentemente, por indução

qy+1π(y + 1)− pyπ(y) = 0, y ≥ 0.

Neste caso, obtemos

π(y + 1) =py

qy+1π(y).

Usando novamente indução é fácil ver que:

π(x) =p0 · p1 · · · px−1

q1 · q2 · · · qxπ(0).

Finalmente, se chamamos

π0 = 1, , πx =p0 · p1 · · · px−1

q1 · q2 · · · qx, x ≥ 1,

temos

π(x) = πxπ(0), x ≥ 0.

Temos que verificar se as soluções de (1) satisfazem∑x π(x) = 1.

Caso 1:∑

x πx <∞.

1 =∑

x

π(x) =

(∑x

πx

)π(0)

Portanto,

π(0) = 1∑x πx

, π(x) = πx∑x πx

x ≥ 1.

Caso 2:∑

x πx =∞.

∑x

π(x) =

(∑x

πx

)π(0) =

{0, se π(0) = 0∞, se π(0) > 0

Portanto, não existe distribuição estacionária.Todas as deduções anteriores valem para o caso de cadeiasde nascimento e morte finitas, i.e. d <∞.

Urna de Ehrenfest

d = 3

P =

0 1 0 0

1/3 0 2/3 00 2/3 0 1/30 0 1 0

Esta é uma cadeia de nascimento e morte irredutível com

π0 = 1, π1 = 3, π2 = 3, π3 = 1.

Portanto, a única distribuição estacionária é dada por:

π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.

Note que neste caso, Pn(x , y) = 0 para valores ímpares de n.Assim,

Pn(x , x) 6→ π(x).

Urna de Ehrenfest modificada: Suponha que temos omesmo esquema da urna de Ehrenfest, mas a cada trocajogamos independentemente uma moeda e se esta sair caradecidimos não mudar a bola de urna.

P =

1/2 1/ 0 01/6 1/2 2/6 00 2/ 1/2 1/60 0 1/2 1/2

Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1.Portanto, a única distribuição estacionária é dada por:

π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.

Neste caso, veremos mais tarde,

Pn(x , y)→ π(y), para todo y, quando n→∞.

Condições de balanço detalhado

π(x)p(x , y) = π(y)p(y , x) ⇒ π(y) =∑

x

π(x)p(x , y)

pois∑

x p(y , x) = 1.

Estados recorrentes positivos e recorrentes nulos

Um estado é recorrente se

ρyy = Py (Ty < +∞) = 1

Se y é recorrente então:y é recorrente positivo se my = Ey (Ty ) < +∞;y é recorrente nulo se my = Ey (Ty ) = +∞;

Número médio de visitas a um estado recorrente:

Defina Nn(y) o número de visitas ao estado y nos instantes1,2, . . . ,n. Isto é, Nn(y) =

∑nm=1 1y (Xm).

Defina Gn(x , y) o número médio de visitas ao estado y dadoque X0 = x durante os instantes 1,2, . . . ,n

Gn(x , y) =n∑

m=1

Ex [1y (Xm)] =n∑

m=1

Pm(x , y).

1.- Seja y um estado transiente. então

limn

Nn(y) = N(y) <∞ com probabilidade 1,

elim

nGn(x , y) = G(x , y) < +∞.

Portanto,

limn

Nn(y)

n= 0 com probabilidade 1,

elim

n

Gn(x , y)

n= 0, x ∈ S.

Seja y um estado recorrente. Então:

limn

Nn(y)

n=

1Ty<∞

mycom probabilidade 1,

elim

n

Gn(x , y)

n=ρxy

my, x ∈ S.

Intuição: Uma vez que a cadeia chega ao estado y ela retornaa y , “em média uma vez a cada my unidades de tempo”.Assim, se y pode ser alcançado eventualmente e n é grande, aproporção de tempo que a cadeia gasta no estado y éaproximadamente 1/my .

Corolário: Seja C um conjunto fechado irredutível de estadosrecorrentes. Então,

limn

Gn(x , y)

n=

1my

, x , c ∈ C

e se P(X0 ∈ C) = 1,

limn

Nn(y)

n=

1my

com probabilidade 1.

Note que as fórmulas valem para my = +∞.

Teorema: Seja x um estado recorrente positivo e suponha quex → y . então y é recorrente positivo.Portanto, em uma classe de estados fechada, irredutível outodos os estados são transientes, ou todos os estados sãorecorrentes positivos ou todos os estados são recorrentesnulos.

I Se C é uma classe fechada e finita então C tem pelomenos um estado recorrente positivo.

I Se C é uma classe fechada, irredutível e finita de estadosentão todo estado é recorrente positivo.

I Uma cadeia de Markov irredutível com um número finitode estados é recorrente positiva.

I Uma cadeia de Markov tendo um número finito de estadosnão tem estados recorrentes nulos.Note que se y é um estado recorrente, então y estácontido numa classe fechada de estados recorrentes.Como esta classe é necessariamente finita, ela contémpelo menos um estado recorrente positivo e portanto todossão recorrentes positivos.

Existência e unicidade das distribuições estacionáriasTeorema: Seja π uma distribução estacionária. Se x étransiente ou recorrente nulo, então π(x) = 0.Prova: Se x é transiente ou recorrente nulo então

limn

Gn(z, x)

n= 0, z ∈ S.

Portanto, se pudermos trocar a ordem da soma e do limite:

π(x) limn

∑z

π(z) limn

Gn(z, x)

n= 0.

Teorema: Seja uma cadeia de Markov irredutível, recorrentepositiva então existe uma única distribuição estacionária πdada por:

π(y) =1

my, y ∈ S.

Consequências:Uma cadeia de Markov é positiva recorrente éirredutível se, e somente se tem uma únicadistribuição estacionária.Se uma cadeia de Markov tem um número finitode estados e é irredutível então ela tem uma únicadistribuição estacionária.Seja Xn,n ≥ 0 uma cadeia de Markov irredutível,recorrente positiva com distribuição estacionáriaπ. então com probabilidade 1,

minn

Nn(y)

n= π(y), y ∈ S.

Cadeia redutíveis:

Teorema: Seja C um conjunto irredutível fechado de estadosrecorrentes positivos. Então a cadeia de Markov tem umaúnica distribuição estacionária concentrada em C, isto é,π(x) = 0, se x 6∈ C e π(x) = 1/mx se x ∈ C.Suponha que a cadeia tenha dois conjuntos irredutíveisfechados de estados recorrentes positivos C0 e C1. então acadeia tem uma distribuição estacionária π0 concentrada emC0 e uma distribuição estacionária π1 concentrada em C1.Mais ainda, as distribuições

πα(x) = (1− α)π0(x) + απ1(x)

também são estacionárias para a CM.

Teorema Central do Limite

Referências: Doeblin (1938) e Kendall (1957)Considere uma cadeia de Markov X0,X1, . . . compossivelmente infinitos estados I = {1,2, . . .} ergódica. Assim,todos os tempos de retorno my são finitos.Seja f : I → R e defina

Sn =n∑

m=1

f (Xm).

Sejam as v.a’s T (1)y < T (2)

y < . . . os tempos de visita a y . Isto é,

T (k)y = min{n > T (k−1)

y ; Xn = y}

Teorema ergódico

Assim, as v.a’s

f (XT (k)

y +1) + · · ·+ f (X

T (k+1)y

), k = 1,2, . . .

são iid com esperança finita

µf ,y = E(

f (XT (k)

y +1) + · · ·+ f (X

T (k+1)y

)).

O Teorema ergódico diz que

Sn

n→

µy

myem probabilidade.

CLT - cont.

Agora escreva,

Zk =

T (k+1)y∑

m=T (k)y +1

f (Xm)−µy

my

(T (k+1)

y − T (k)y

).

Assim, Z1,Z2, . . . são iid E(Zi) = 0 e defina

σ2y = Var(Z1).

Teorema: Se µy existe e σy é finita e não nulas e os tempos derecorrencia T (k)

y tem segundo momento finito então

Sn − (µy/my )n√σ2

y n/my

⇒ N(0,1).

Teoria de verossimilhança para Cadeias de Markov

Função de verossimilhança

L(P,x) = P(X0 = x0)n−1∏i=0

P(Xi+1 = xi+1|Xi = xi)

= P(X0 = x0)n−1∏i=0

pxi ,xi+1

= P(X0 = x0)∏

k ,l∈IpNk,l (n)

k ,l

onde Nk ,l(n) = número de vezes em que Xi = k ,Xi+1 = l nosinstantes 1, . . . ,n.

Notação: Nij(n) = Nij e nij(n) = nij ,

L(π0,P,x) = π0(x0)n−1∏i=0

P(Xi+1 = xi+1|Xi = xi)

= π0(x0)n−1∏i=0

pxi ,xi+1 = π0(x0)∏

k ,l∈IpNk,l (n)

k ,l

= π0(x0)∏k∈I

Lk (P)

onde Lk (P) =∏

l∈I pNk,l (n)k ,l depende somente dos elementos

na k -ésima linha da matrix P.Seja l(π0,P,x) = log L(π0,P,x). Então temos as equações,

l(π0,P,x) = l0(π0, x0) +∑k∈I

lk (P,x).

Queremos maximizar l sujeita a condições que∑x

π0(x) = 1e que∑j∈I

P(k , j) = 1

para todo k ∈ I. Usando multiplicadores de Lagrange eescrevendo ni =

∑j∈I temos as estimativas de MV

pij =nij

niquando ni > 0 π0(i) = 1(i = x0).

Se ni = 0 colocamos pij = 0, j 6= i .Seja

I = {i ∈ I : ni > 0}

a porção observada do espaço de estados. Obviamente, I éfinito. Note que (pij , i , j ∈ I) é uma matriz estocástica sobre I.Denote esta matriz por P.

Teorema: Se (Xn) é uma cadeia de Markov ergódica(irredutível, recorrente positiva), então Pij → pij comprobabilidade 1 para todo i , j ∈ S independentemente dadistribuição inicial.Lembre-se que

1n

Nij(n)→ π(i)pij

e1n

Ni(n)→ π(i).

Teorema: Se (Xn) é uma cadeia de Markov ergódica, entãoindependentemente da distribuição inicial[√

Ni(n)(Pij(n)− pij)]

i,j∈I→ N(0,Σ)

onde

σij,kl =

pij(1− pij), (i .j) = (k , l)−pijpil , i = k , j 6= l

0, caso contrário.

Obs.: A covariância assintótica tem uma estrutura multinomialdentro das linhas e independência entre as linhas.

Aplicação a Snoqualmie FallsUsando o resultado do Teorema anterior vemos que P01 e P11são assintóticamente independentes. Mais ainda

P11 ≈ N(p11,p11(1− p11)/nπ(1))

onde π é a distribuição estacionária da CM.Podemos estimar a variância usando

P11 =N11

N1e π(1) =

N1

n

onde

N11 =36∑

i=1

N(i)11 , . . .

Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080,intervalos de confiança assintóticos de 95%:

IC(p11,95%) = (0.808; 0.860) IC(p01,95%) = (0.343; .453).

Note que cada intervalo tem 95% de confiança, masconjuntamente, usando a independência assintótica,(.95)2 = .903. a fim de encontrar uma região de confiança com95% devemos usar intervalos individuais com 97.5%, obtendoo retângulo:

(.775; .893)× (.272; .524).

Algumas vezes, é natural parametrizar o modelo.

Eugen OneginO próprio Markov deu um exemplo de Cadeia de Markov em1924. Markov estudou um extrato de um poema de Puskinchamado Eugen Onegin e classificou 20.000 caracteresconsecutivos em vogais e consoantes.

Vogal seguinte Consoante seguinte TotalVogal 1106 7536 8638

Consoante 7533 3829 11362Total 8639 11361 20000

É bastante óbvio que a escolha de vogal e consoante para aletra seguinte não é independente da letra atual. Um modelomuito simples é assumir que a troca se faz de forma constante,isto é a matrix de transição é:

P =

[1− p p

p 1− p

]

Teoria assintóticaPor simplicidade no caso paramétrico vamos assumir espaçode estados finito. Assuma que as probabilidades de transiçãodependam somente de um parâmetro θ, tomando valores emum espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintescondições de regularidade:

1. D = {(i , j); pij > 0} não depende de θ.2. Cada pij(θ) é 3-vezes continuamente diferenciável.3. A matriz de dimensão d × r , ∂pij(θ)/∂θk , i , j ∈ D,

k = 1, . . . , r e d é a cardinalidade de D, tem posto r .4. Para cada θ existe somente uma classe ergódica e

nenhum estado transiente.

Podemos escrver a verossimilhança como

l(θ,x) =∑

D

nij log pij(θ).

Diferenciando esta expressão obtemos as equações deverossimilhança:

∂θkln(θ) =

∑D

ni jpij(θ)

∂pij(θ)

∂θk= 0, k = 1, . . . , k .

Seja θ0 o verdadeiro valor do parâmtro.

Teorema: Assuma as condições de regularidade:(i) Existe uma solução θ das equações de verossimilhança queé consistente;(ii)√

n(θ − θ0)→ N(0, I−1(θ0)), onde I é a matriz deinformação:

Iuv (θ0) =∑

(i,j)∈D

π(i ,θ0)

pij(θ0)

∂pij(θ0)

∂θu

∂pij(θ0)

∂θv.

(iii) Var√

n(θ − θ0) pode ser estimada de forma consistentepelo inverso da informação observada[

−Nij

n∇2 log pij(θ)

]−1

.

Exemplo: Eugen Onegin Estimamos p pela equação:

l(p) = (n00 + n11) log(1− p) + (n01 + n10) log p,

onde 0 = vogal e 1 = consoante. O máximo é obtido em:

P =N01 + N10

ne p =

7532 + 753320000

= 0.753.

A segunda derivada da verossimilahnça é:

l ′′(p) = −n00 + n11

(1− p)2 +n01 + n10

p2

Portanto, o erro padrão assintótico estimado é(−l ′′(p))−1/2 = (p(1− p)/n)1/2 = (.753× .247/20000)1/2. Oque nos dá um IC de nível 95% como:

(.747; .759)

Note que nem p01 = .872 nem p10 = .663 pertence a esteintervalo, indicando que o modelo de um parmâmetro não éadequado.

Teorema: Assuma as condições de regularidade. Seja θ oEMV sob a hipótse paramétrica H0. Também, seja P o EMVnão paramétrico e θ0 o verdadeiro valor do parâmetro, quandoH0 é verdadeira. Então:(i) 2

(l(θ)− l(θ0)

)D→ χ2(r);

(ii) 2(

l(P)− l(θ))D→ χ2(d(d − 1)− r);

(iii) As estatísticas em (i) e (ii) são assintóticqamenteindependentes.

Teorema: Assuma as condições de regularidade. Sejam θ0 oEMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e θ1 o EMV sob ahipótese θ ∈ Θ0 ∪Θ1. Então para se testar H0 : θ ∈ Θ0 vs.H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é:

−2(

l(θ0)− l(θ1))D→ χ2(s)

onde s = dim(Θ1 ∪Θ0)− dim(Θ0).

Teste para independência: Suponha que queremos testar ahipótese de que a seqüência X1,X2, . . . tomando valores emI = {0,1, . . . ,K} é independente vs. a hipótese de quepertença a uma CM de ordem 1. Em termos de parametrizaçãosimplesmente colocamos: H0 : pij = θj para todo i , j ∈ I.Neste caso, precisamos calcular o máximo sob as duashipóteses (independência e CM de ordem 1).

CM de ordem 1: Pij = Nij/Ni .Sob a hipótese de independência temos uma distribuiçãomultinomial, com n.j =

∑i nij observações da categoria com

probabilidade θj . A verossimilhança é:

l(θ) =K−1∑j=0

n.jθj + n.K (1−K−1∑j=0

θj),

a qual é maximizada por θj = N.j/n. Portanto, a estatística darazão de verossimilhança é dada por:

2(

l(P)− l(θ))

= 2∑i,j

Nij logNij/Ni

N.j/n

a qual assintoticamente tem uma distribuição χ2 comK (K + 1)− K = K 2 graus de liberdade. No modelo deSnoqualmie Falls K = 1.

Em Inferência usamos o teste chi-quadrado de Pearson:

X =∑ (Nij − Nip0

ij )2

Nip0ij

Eugen Onegin Queremos testar a hipótese H0 : p01 = p10Os valores esperados para a estatística de Pearson sãocalculados multiplicando-se as somas das linhas(n0,n1) = (8.638; 11.362) pela matriz de transição estimadasob H0:

P =

(0.247 0.7530.753 0.247

)obtendo

(Eij) =

(2131.4 6506.68558.4 2803.6

)

A Estatística chiquadrado para testar a hipóteseuni-dimensional é:

χ2 =∑

ij

(nij − ni p0ij )

2

ni p0ij

= 1217.7.

O valor exato da estatística exata da verossimilhança é 1217.7.(Aproximação excelente!!!)