Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior...

38
Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências Exatas Seminário da disciplina de Inferência Bayesiana Professora: Dra. Roseli Aparecida Leandro

Transcript of Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior...

Page 1: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Ítalo Marcus da Mota FrazãoLuzia Pedroso de Oliveira

Universidade de São PauloEscola Superior de Agricultura “Luiz de Queiroz”

Departamento de Ciências Exatas

Seminário da disciplina de Inferência BayesianaProfessora: Dra. Roseli Aparecida Leandro

Page 2: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Introdução

Proposta do Artigo

Metropolis Adjusted Langevin Algorithm – MALA

Hamiltonian Monte Carlo – HMC

Conceitos Geométricos em MCMC

Riemann Manifold Metropolis Adjusted Langevin Algorithm – mMALA

Riemann Manifold Hamiltoniano Monte Carlo, RM – HMC

Exemplos

SUMÁRIO

Page 3: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Seja uma função densidade de probabilidade não-normalizada, com , então a densidade normalizada é dada por:

Acontece que, em muitos problemas estatísticos a integral em não pode ser resolvida analiticamente.

Métodos de Monte Carlo para estimativas de integrais são, portanto, necessários.

INTRODUÇÃO

)(~

p

D

dp

pp)(

)()( ~

~

Page 4: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Metodologia predominante para amostragem de uma densidade de probabilidade é o método de Monte Carlo via Cadeia de Markov (MCMC).

Metropolis-Hastings: Indiscutivelmente um dos mais influentes e bem sucedidos algoritmos de Monte Carlo.

Este algoritmo propõe transições com densidade que são então aceitas com probabilidade:

que garante que a cadeia de Markov é reversível com relação à densidade alvo

* )|( * q

)|()()|()(,1min),( *

***

qpqp

)(p

Page 5: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Em dimensões altas, quando D é grande, o passeio aleatório se torna ineficiente, resultando em uma baixa taxa de aceitação e amostras altamente correlacionadas.

Conseqüência: pequeno tamanho da amostra efetiva da cadeia.

Uma série de sugestões foram propostas para superar tal ineficiência, garantindo o equilíbrio e a ergodicidade da cadeia, porém colocam restrições sobre o que pode ser alcançado em aliviar este problema.

Grande avanços foram feitos neste sentido com as propostas:

Metropolis Adjusted Langevian Algorithm (MALA)

Hamiltonian Monte Carlo method (HMC)

Page 6: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Apesar dos potenciais ganhos de eficiência obtidos com os mecanismos MALA e HMC, a afinação desses métodos MCMC continuam a ser uma grande questão, especialmente desafiadora, para os problemas de inferência.

O artigo em questão pretende abordar estas questões de uma forma sistemática por meio quadro geométrico global para o desenvolvimento de métodos gerais MCMC.

Page 7: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Métodos de amostragem Metropolis Langevin Ajustadas e Monte Carlo Hamiltoniano definidos no espaço de Riemann para resolver as deficiências existentes em algoritmos Monte Carlo quando amostrado a partir de uma densidade alvo que pode ser de alta dimensão e apresentar fortes correlações

A metodologia proposta explora a geometria Riemanniana do espaço paramétrico de modelos estatísticos e assim automaticamente se adapta à estrutura local quando simulando caminho através deste espaço, proporcionando a convergência altamente eficiente e exploração da densidade alvo.

PROPOSTA DO ARTIGO

Page 8: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Processo derivado de uma difusão Langevin discretizada, com um termo final baseado no gradiente de informação da densidade alvo.

Considere um vetor aleatório com densidade . Seja então, o logaritmo da densidade.

O algoritmo Metropolis Langevin Ajustada é baseado em uma difusão Langevin, com distribuição estacionária definido por uma equação diferencial estocástica (EDE), em que a discretização de primeira ordem de Euler desta EDE dá o seguinte mecanismo proposto:

METROPOLIS ADJUSTED LANGEVIN ALGORITHM - MALA

D )(p

)](log[)( pL

)(p

nnnn zL )(2

21

Page 9: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Em que: e é a dimensão do passo de integração.

Problema: A convergência para a distribuição invariante, , não é garantida para finito, devido ao erro de integração de primeira ordem introduzido.

Esta discrepância pode ser corrigida empregando uma probabilidade de aceitação Metropolis após cada passo de integração, garantindo assim a convergência.

),0|(~ IzNz

)(p

Page 10: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Foi proposto, da mesma forma que no caso MALA, na literatura física estatística como um meio eficiente de simular estados de um sistema físico que foi então aplicado a problemas de inferência estatística.

Consideremos novamente a variável aleatória com densidade

Neste método, uma variável auxiliar independente é introduzida, com densidade

A densidade conjunta segue uma forma fatorada como:

HAMILTONIAN MONTE CARLO - HMC

D )(p

Dp ),0|()( MpNpp

),0|()()()(),( MpNpppppp

Page 11: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Denotando o logaritmo da densidade desejada como

O negativo do logaritmo da verossimilhança conjunta é :

A analogia física de é um Hamiltoniano, que descreve a soma de uma função energia potencial definido na posição e um termo

de energia cinética em que a variável auxiliar p é interpretada

como uma variável cinética e a matriz de covariância M denota uma matriz de massa.

)](log[)( pL

pMpMLpH TD 1

21])2log[(

21)(),(

),( pH )(L

2

1 pMpT

Page 12: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

O mecanismo de atualização é baseado no integrador Stormer-Verlet ou Integrador Leapfrog (Duane et al. 1987) e é dado por:

que nada mais é que uma difusão Langevin discreta pré-condicionada, como empregado em MALA.

A escolha da matriz de massa M, vai ser crítico para o desempenho do HMC, porém não existe um princípio orientador de como ela deve ser escolhida.

Page 13: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

A relação entre geometria diferencial e estatística tem sido recentemente empregada no desenvolvimento, principalmente assintótico, da teoria estatística.

Conceitos geométricos, como por exemplo, distância e curvatura, são de interesse natural na metodologia estatística.

Rao (1945) define, formalmente, a distância entre duas funções densidade.

Mostrou-se ainda que a matriz de informação de Fisher, , é positiva definida e uma métrica do espaço Riemanniano.

Portanto, o espaço das funções densidade de probabilidade é dotado de uma geometria natural de Riemann.

CONCEITOS GEOMÉTRICOS EM MCMC

)(G

Page 14: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Ainda em 1945 Rao mostrou que expressões para a curvatura do espaço entre duas densidades poderia, em principio, ser encontradas.

Estas idéias foram formalizadas no estudo Information Geometry (Amari and Nagaoka, 2000)

Numa perspectiva Bayesiana, a verossimilhança conjunta dos dados e parâmetros define um tensor métrico, que é a informação de Fischer mais o Hessiano negativo do logaritmo da distribuição a priori.

Em suma, o espaço paramétrico de um modelo estatístico é um espaço Riemanniano. Portanto, uma estrutura geométrica natural da densidade

é definida pelo espaço de Riemann e um tensor métrico associado.

Então, dada a estrutura geométrica do espaço paramétrico de modelos estatísticos, a adoção adequada de uma métrica de posição especifica dentro de um esquema MCMC deve render transições mais eficazes no algoritmo geral.

)(p

Page 15: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Dada a estrutura geométrica para modelos de probabilidade, uma difusão Langevin com medida invariante , , pode ser definida diretamente sobre o espaço Riemanniano com tensor métrico

A equação diferencial estocástica definindo a difusão Langevin é dada por:

em que, o gradiente natural é e o movimento Browniano no espaço Riemanniano é dado por:

RIEMANN MANIFOLD METROPOLIS ADJUSTED LANGEVIN ALGORITHM

)(p D)(G

)()]([21)(

~~tbddttLtd

))(())(()]([ 1~

tLtGtL

Page 16: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

O primeiro termo da equação acima refere-se à curvatura local do espaço e se reduz a zero se esta curvatura for constante em todos os lugares.

Algoritmo de atualização:

Page 17: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Aqui o Hamiltoniano que forma a base do HMC será definido de uma forma geral sobre o espaço de Riemann.

A definição de um Hamiltoniano em um espaço de Riemann é simples e é uma técnica empregada em mecanismos geométricos para resolver equações diferenciais parciais.

Um Hamiltoniano definido no espaço de Riemann segue como:

e é a base para o método RM HAMILTONIAN MONTE CARLO.

RM HAMILTONIAN MONTE CARLO

Page 18: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Para N observações retiradas de uma distribuição o tensor métrico baseado na informação de Fisher é :

Isto define um espaço de Riemann com curvatura constante que é um espaço hiperbólico na metade superior direita do plano definido por coordenadas horizontal e vertical

EXEMPLO),|( xN

2

2

200

),(

NN

G

e

Page 19: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Figura 1: Os contornos acima representam a amostra estimada de em que a amostra de tamanho N=30 foi

retirada de uma .)|,( Xp

)10,0|( XN

Page 20: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Ambas difusões MALA e mMALA foram simuladas a partir de pontos iniciais com tamanho do passo para 200 passos .

A Figura da esquerda, mostra o “caminho” da amostra de um processo MALA. Como o espaço é hiperbólico e uma métrica Euclidiana é empregada, a proposta leva à passos ineficientes, de comprimentos quase que iguais.

A Figura da direita mostra a proposta mMALA, que é baseada na métrica do espaço hiperbólico com constante de curvatura negativa e, como tal, as distâncias percorridas por cada etapa refletem as distâncias naturais neste espaço, resultando em muito mais eficiência na “travessia” do espaço.

400 00 e 75.0

Page 21: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Figura 2: Os mesmos dados amostrais são usados e os valores iniciais

são . O tamanho do passo é reduzido para

215 00 e2.0

Page 22: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

A Figuras 3 e 4 fornece uma demonstração intuitiva visual das diferenças em HMC e RM-HMC quando convergindo para uma amostra de uma densidade alvo.

Figura 3: Contornos plotados de um modelo de volatilidade estocástica.

Page 23: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Figura 4: Aqui temos uma vista dos “caminhos” da cadeia de Markov. É claro que RM-HMC efetivamente normaliza os gradientes em cada direção. Entretanto, HMC apresenta fortes gradientes na direção horizontal comparado com a direção vertical, logo leva mais tempo para explorar o espaço inteiro.

Page 24: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Exemplo: Modelo Bayesiano de Regressão Logística

Page 25: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Exemplo: Modelo Bayesiano de Regressão Logística

Page 26: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.
Page 27: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

X matriz do delineamento de dimensão ( )? linha da matriz XN tamanho da amostraD no de covariáveist variável resposta binária com distribuição Bernoullifunção de ligação: logística com priori apropriada (no ex N(0,) ) com conhecido

Exemplo: Modelo Bayesiano de Regressão Logística

(log joint likelihood?)

Page 28: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Termos necessários para a aplicação dos métodos RM-HMC e mMala• derivada de :

• 2a. derivada de :

• tensor métrico: matriz de informação de Fisher + negativo da Hessiana do logaritmo da priori

• derivadas do tensor métrico em que a matriz tem elementos

em que a matriz diagonal tem elementos

Page 29: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Exemplo: Modelo Bayesiano de Regressão Logística

• São analisados 6 conjuntos de dados (Michie et al, 1994; Ripley, 1996), com características bem abrangentes

Desvios padrões das distribuições marginais a posteriori variando de 0,0004 a 9,9

Page 30: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Exemplo: Modelo Bayesiano de Regressão Logística• Objetivo: obter para cada conjunto de dados uma amostra

da distribuição conjunta a posteriori (o, 1, 2,… k| dados), em que o é o intercepto e i , i=1,…k são os coeficientes das variáveis regressoras no modelo logístico com variável resposta Bernoulli.

• Para os conjuntos de dados, exceto Ripley, um modelo de regressão linear logístico com intercepto foi ajustado. No caso do Ripley foram considerados também os termos quadrático e cúbico.

• Utilizou-se as prioris i ~ N(0,100)

Page 31: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

• Para os 6 conjuntos de dados são comparados os métodos RM-HMC e mMALA propostos no artigo, juntamente com alguns já existentes.

Exemplo: Modelo Bayesiano de Regressão Logística

Page 32: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

• Em cada conjunto de dados os métodos foram rodados 10 vezes e os resultados médios foram gravados.

• Os autores reproduziram os resultados de Holmes and Held(2005), considerando um burning de 5000. As próximas 500o iterações foram utilizadas.

• O tempo de CPU necessário para obter as amostras foi também registrado para cada caso.

• Os métodos foram implementados no MATLAB.

Exemplo: Modelo Bayesiano de Regressão Logística

Page 33: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

• Os autores comparam a eficiência desses métodos através dos tamanhos efetivos das amostras (ESS) das posterioris marginais.

Ex: cadeia gerada pelo método M_H

soma das autocorrelações amostrais.

Page 34: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.
Page 35: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Dados Heart, “Trace plot” n=1000 e gráficos autocorrelacões

MétodosMetropolisIWLSAux. Var.HMCmMALASimplified mMalaRM-HMC

para um dos parâmetros com média ao redor de -7

Page 36: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Algorítmos M-H e Manifold MALA

No caso de distribuição assimétrica usar a razão R a seguir, em que q é a distribuição proposta

Algorítmo M-H

Algoritmo Manifold MALA

Page 37: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Algorítmo RMHMC with Generalised Leapfrog

Page 38: Ítalo Marcus da Mota Frazão Luzia Pedroso de Oliveira Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Departamento de Ciências.

Duane. S. Kennedy. A. D. Pendleton. B. J. and Roweth. D. (1987) Hybrid Monte Carlo, Physics Letters. B., 55, pp. 2774–2777.

Rao. C. R. Information and Accuracy Attainable in the Estimation of Statistical Parameters. Bulletin of the Calcutta Mathematical Society. 37. pp 81 – 91.

Amari. S. and Nagaoka. H. (2000) Methods of Information Geometry, Oxford University Press

• Michie, D., Spiegelhalter, D. J., and Taylor, C. C. (1994). Machine Learning, Neural and Statistical Classification. Prentice Hall, Englewood Cliffs, N.J.

• Ripley. B. D. (1996) Pattern Recognition and Neural Networks. Cambridge University press.

• Seefeld, K. Linder, E. Statistics Using R with Biological Examples. 2007

REFERÊNCIAS