Redes Neurais: Processos Gaussianos

18
Processos Gaussianos Processos Gaussianos Renato Vicente Renato Vicente Rvicente Rvicente @if.usp. @if.usp. br br 1 1 1 1 /01, /01, mpmmf mpmmf , IME/FEA , IME/FEA USP USP

Transcript of Redes Neurais: Processos Gaussianos

Page 1: Redes Neurais: Processos Gaussianos

Processos GaussianosProcessos Gaussianos

Renato VicenteRenato [email protected][email protected]

1111/01, /01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP

Page 2: Redes Neurais: Processos Gaussianos

Gaussian Processes (GPs)Gaussian Processes (GPs)

Inferência e PrevisãoInferência e PrevisãoMétodo NãoMétodo Não--ParamétricoParamétricoSplines Splines como GPs como GPs Kernel Models Kernel Models como GPscomo GPsRedes Neurais Multicamadas como GPsRedes Neurais Multicamadas como GPs

Page 3: Redes Neurais: Processos Gaussianos

InferênciaInferência

{ } 1

NN n n

X x=

={ } 1

NN n n

t=

=t

x t

x w

( ( ) | , ) ( | , )N N N NP y x X ou P w Xt t

( | ; )P t y α

*( )y x

y

Page 4: Redes Neurais: Processos Gaussianos

Previsão: aproximaçãoPrevisão: aproximação

*1( )Ny x yδ+ ±1N Nx X+ ∉ *w wδ±

[ ]( ) ln ( | , ) ( )* arg min ( )

N NE w P w X P ww E w

= −

=

t

( | , ) ( )( | , )( | )

N NN N

N N

P w X P wP w XP X

=tt

t

21( *| , )exp ( *) ( *)2N N j j k k

jk j k

Ewamostradode P w X w w w ww w

⎡ ⎤∂− − −⎢ ⎥

∂ ∂⎢ ⎥⎣ ⎦∑t

Page 5: Redes Neurais: Processos Gaussianos

Previsão: Via Monte Carlo Previsão: Via Monte Carlo

1N Nx X+ ∉( | , )N NP w Xt

1 1( | , , )N N N NP t x X+ + t

1 1 1 1 ,( | , , ) ( | , ) ( | )HN N N N N N N NP t x X d w P t w x P w X+ + + += ∫t t

Gera R amostras de

Via Monte Carlo:

,( | )N NP w Xt

1 1 1 11

1( | , , ) ( | , )R

RN N N N N N

rP t x X P t w x

R+ + + +=

≈ ∑t

Page 6: Redes Neurais: Processos Gaussianos

Métodos NãoMétodos Não--ParamétricosParamétricos

[ ] [ ] [ ]| ( ), ( )( ) | ,

( | )N N

N NN N

P y x X P y xP y x X

P X=

tt

t

Probabilidade no espaço de funções [ ]( )P y x

Page 7: Redes Neurais: Processos Gaussianos

Gaussian Process Gaussian Process (GP)(GP)

[ ]( )P y x é uma gaussiana

11 1( ) exp22

P CCπ

−⎧ ⎫= − ⋅⎨ ⎬⎩ ⎭

x x x

[ ] expP y y yZ

⎧ ⎫= −⎨ ⎬⎩ ⎭

1 1 A2

Operador Linear

Produto escalar funcional

Page 8: Redes Neurais: Processos Gaussianos

Operador Linear no espaço de funçõesOperador Linear no espaço de funções

No No

No No

NR

j jk kjk

y A x⋅ = ∑y Ax

L2

( ) ( , ) ( )dx dx x x x xϕ φ ϕ φ′ ′ ′= ∫ ∫A A

Page 9: Redes Neurais: Processos Gaussianos

Splines Splines e GPse GPs

Regressão utilizando Regressão utilizando splinessplines..Encontrar uma função que minimize o funcional abaixo:Encontrar uma função que minimize o funcional abaixo:

[ ]2

2

1

1 1 ( )[ ] ( )2 2

pN

n n pn

AJUSTE AOS DADOS REGULARIDADE

d y xE y y x t dxdx

β α=

⎡ ⎤= − − − ⎢ ⎥

⎣ ⎦∑ ∫

[ ]ln | , ,N NP y X βt [ ]ln |P y α

[ ]ln | , , ,N NP y X β αt

Page 10: Redes Neurais: Processos Gaussianos

SplinesSplines e GPse GPs

1 12 2

2

††

( , )

ln [ | ] ( )2

( ) ( )212

p

p p

p p

A x x

P y dx D y x

dx D y x D y x

y D D y

αα

α

α α

⎡ ⎤= − ⎣ ⎦

= −

⎡ ⎤= − ⎣ ⎦

1 1[ | , ] exp2

P y y A yZ

μ α μ μ⎡ ⎤= − − −⎢ ⎥⎣ ⎦

com ( ) 0xμ =

Page 11: Redes Neurais: Processos Gaussianos

Kernel ModelsKernel Models e GPse GPs

Um modelo de Um modelo de kernelkernel é uma combinação linear de é uma combinação linear de H H funções de base. Uma regressão consiste no ajuste dos funções de base. Uma regressão consiste no ajuste dos coeficientes da combinação:coeficientes da combinação:

( , ) ( )H

h hh

y w φ=

=∑1

x w x

kernel

Page 12: Redes Neurais: Processos Gaussianos

Kernel Models Kernel Models e GPse GPs

Suponhamos um conjunto de N vetores (entradas):Suponhamos um conjunto de N vetores (entradas):

Se definirmos a matriz Se definirmos a matriz RR com N linhas e H colunas como:com N linhas e H colunas como:

As saídas serãoAs saídas serão

{ }Nn n=1

x

( )nh h nR φ= x

n nh hh

y R w=∑

Page 13: Redes Neurais: Processos Gaussianos

Kernel Models Kernel Models e GPse GPs

Se supusermos que o prior sobre os parâmetros é gaussiano com Se supusermos que o prior sobre os parâmetros é gaussiano com matriz de covariância totalmente simétrica:matriz de covariância totalmente simétrica:

A covariância das funções y representada pelos modelos de A covariância das funções y representada pelos modelos de kernel kernel será:será:

( ) expPσπ σ

⎡ ⎤= − ⋅⎢ ⎥⎣ ⎦22

1 1w w w22 I

jk

nm n m nj j mk k nj mk j kj k j k

nj mjj

Q y y R w R w R R w w

R Rσ δ

σ

=

= = =

=

∑ ∑ ∑∑

∑2

2

Page 14: Redes Neurais: Processos Gaussianos

Kernel ModelsKernel Models

Para qualquer conjunto de N vetores Para qualquer conjunto de N vetores

gaussiana implica em gaussiana implica em

gaussianagaussiana

é um processo gaussianoé um processo gaussiano

{ }Nn n=1

x

( )P w

( ( ), , ( ))NP y y1x x

[ ]P y

Page 15: Redes Neurais: Processos Gaussianos

Exemplo: Mistura de Gaussianas em 1dExemplo: Mistura de Gaussianas em 1d

Suponhamos a seguinte forma para o Suponhamos a seguinte forma para o kernelkernel::

A covariância de P(y) será:A covariância de P(y) será:

( ) exp ( )h hx x cr

φ ⎡ ⎤= − −⎢ ⎥⎣ ⎦2

2

12

max

min

( ) ( )exp exp

( ) ( )exp exp

n j m jnm

j

cn m

c c

x c x cQ

r r

x c x ccc r r

σ

σ=

⎡ ⎤ ⎡ ⎤− −= − −⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤− −

= Δ − −⎢ ⎥ ⎢ ⎥Δ ⎣ ⎦ ⎣ ⎦

2 22

2 2

2 22

2 2

2 2

2 2

Page 16: Redes Neurais: Processos Gaussianos

Exemplo: Mistura de Gaussianas em 1dExemplo: Mistura de Gaussianas em 1d

Levando ao limite de infinitas funções de base Levando ao limite de infinitas funções de base com com e e podemos substituir podemos substituir

a soma por uma integrala soma por uma integral

H →∞cΔ → 0 S

22

max

min

( ) ( )exp exp

( )exp ( , )

cn m

nmc

n mn m

x c x cQ S dcr r

x xS r C x xr

π

⎡ ⎤ ⎡ ⎤− −= − −⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦

⎡ ⎤−= − =⎢ ⎥

⎣ ⎦

∫2 2

22 2

22 2

2

2 2

4

Page 17: Redes Neurais: Processos Gaussianos

Redes Neurais Multicamada e GPsRedes Neurais Multicamada e GPs

Uma rede neural com uma camada escondida e saída linear Uma rede neural com uma camada escondida e saída linear representa a seguinte família de funções:representa a seguinte família de funções:

Se uma distribuição a priori gaussiana para os parâmetros Se uma distribuição a priori gaussiana para os parâmetros w w é é assumida, P[y] tende para um processo gaussiano conforme assumida, P[y] tende para um processo gaussiano conforme

(R. (R. NealNeal, , Priors Priors for for Infinite NetworksInfinite Networks) )

( ) ( ) ( ) ( )( ; ) tanhH I

h hi i hh i

y w w x w w= =

⎛ ⎞= + +⎜ ⎟⎝ ⎠

∑ ∑2 1 1 20 0

1 1x w

H →∞

Page 18: Redes Neurais: Processos Gaussianos

BibliografiaBibliografiaNeal, R. M. (1994) ``Priors for infinite networks'', Technical

Report CRG-TR-94-1, Dept. of Computer Science, University of Toronto (http://www.cs.utoronto.ca/~radford/publications.html)

D. MacKay Introduction to Gaussian Processes

(http://wol.ra.phy.cam.ac.uk/mackay/BayesGP.html)

M. Gibbs Bayesian Gaussian Processes for Regression and Classification (PhD Thesis, University of Cambridge)

(http://wol.ra.phy.cam.ac.uk/mng10/GP/GP.html)

Veja também: http://www.gatsby.ucl.ac.uk/~edward/gp/