Estimação Bayesiana de Sinais Baseada em Ôndulas Mário A. T. Figueiredo Instituto de...

Post on 22-Apr-2015

107 views 2 download

Transcript of Estimação Bayesiana de Sinais Baseada em Ôndulas Mário A. T. Figueiredo Instituto de...

Estimação Bayesiana de

Sinais Baseada em Ôndulas

Mário A. T. FigueiredoInstituto de Telecomunicações, and Departamento de Engenharia Electrotécnica e de Computadores Instituto Superior TécnicoLisboa, PORTUGAL

W

SinalOriginal

y

“Discrete wavelet

transform”(DWT)

W -1

DWT inversa

Sinalprocessado

Exemplos: compressão estimação (e.g., “denoising”)

1

Coeficientesobservados

Coeficientesprocessados

Regra de processamento

Processamento de sinais baseado na transformada discreta

Sinal discreto

Wx

DWT (periódica)

W x

Coeficientes

Decorrelação “mais branco” do que x

2

Ortonormal W W = I T

Esparsa é dominada por “poucos” coeficientes “grandes”

x = [x1,…xn] = [1,…,n]

Características da DWT

y = x + nRuído branco gaussiano

Sinal originalSinal ruidoso

DWT

Wy = Wx + Wn

(W é ortonormal)

3

Wy

WT^

Estimator x

x = W (Wy)T^

+ n’

Estimação baseada em ôndulas (remoção de ruído)

4

0 5000 10000 15000-6

-4

-2

0

2

4

6

0 5000 10000 1500010

-40

10-30

10-20

10-10

100

Representação dominada por “poucos” coeficientes “grandes”

0 5000 10000 1500010

-5

10-4

10-3

10-2

10-1

100

DWT

DFTSinal “vulgar”

Coeficientes da DWT: esparsos

5

0 5000 10000 15000-6

-4

-2

0

2

4

6

0 2 4 6 8 100

500

1000

1500

2000

0 20 40 60 80 1000

10

20

30

40

50

60

70

0 5000 10000 15000-10

-5

0

5

10

Sinal “vulgar”

Ruído branco gaussiano

Histograma dos valores absolutos

Histograma dos valores absolutos

~104

DWT

DWT

Coeficientes da DWT: esparsos

Sugere : - Manter os coeficientes grandes que dominam a representação - Eliminar os pequenos, “provavelmente” dominados por ruído.

6

Valores de n’Valores de

p()

Esparsa, ou“heavy tailed”

e n’ têm características estatísticas diferentes

Gaussianap(n’)

= n’ Como estimar ?

Remoção de ruído baseada na DWT

7

Objectivo: Manter os coeficientes “grandes” e eliminar os restantes.

Questões: qual ( ) ? Que limiar ?

Regras de limiar (“thresholding rules”)

“hard”“soft”

s

H

Donoho and Johnstone (1994), outros...

^ ^

Remoção de ruído baseada na DWT

8

Métodos para escolha de limiar:

- Limiar universal (VisuShrink) Donoho & Johnstone (1994).

- Limiar que depende do nível da decomposição e estimado a partir dos coeficientes observados com base no “Steins unbiased risk estimator” (SURE) (SureShrink); Donoho & Johnstone (1995).

- Validação cruzada (“cross-validation”); Weyrich & Warhola (1994) e Nason (1994).

- Métodos bayesianos; Vidakovik (1994), Chipman, Kolaczyk, & McCulloch (1995), Crouse, Nowak, & Baraniuk (1997), Figueiredo & Nowak (1998).

Remoção de ruído baseada na DW”T: técnicas propostas

9

0 1000 2000 3000 4000-10

-5

0

5

10

Sinal original

0 1000 2000 3000 4000-10

-5

0

5

10

Sinal ruidoso

0 1000 2000 3000 4000-10

-5

0

5

10

Sinal estimado“soft threshold”“Sure criterion”

Remoção de ruído baseada na DWT: Exemplo

10

= n’Modelo de observação:n’ ~ i.i.d. gaussianos média nula variância 2

Função de verosimilhança: pN

Conhecimento a priori: p

Lei de Bayes: p() = pp

p

Probabilidade (conhecimento) a posteriori

Função de custo L(’) - Custo associado com a estimativa ’ quando o verdadeiro valor é

Revisão: estimação bayesiana

11

Objectivo: regra de estimação ^

Critério: minimizar o valor expectável a posteriori do custo (“posterior expected loss”)

dpL )|()ˆ,(minarg

ˆ

|)ˆ,(minarg)(ˆ

LE

Exemplos:

L(’) = ||’ dpE )|(|)(

(média a posteriori)

L(’) = )|(maxarg)(

p

(máximo a posteriori - MAP)

'0

'1

Revisão: estimação bayesiana

12

y = x + nDWT

Wy = Wx + Wn + n’

Modelo de observação / função de verosimilhançaRelembrar...

Ruído brancogaussiano

(W é ortonormal)

p(y|x) = N(x,2I)

p() = N(,2I)

Funções de veromilhança semelhantesnos domínios do sinal e da DWT

Remoção de ruído baseada na DWT: Formulação bayesiana

13

…induz, no “domínio do sinal”,

pX(x) dx = p(Wx) d pX(x) = p(Wx)

…porque det(W)=1, dx = d

Propriedade de descorrelação da DWT. Coeficientes a priori independentes.

Ni

i...1

)(p)(p

Função densidade de probabilidade a priori, no “domínio dos coeficientes”

p) com = Wx

Formulação bayesiana

Teoria da decisão bayesianaVerosimilhança“prior”Custo L(x,x’)

14

x = (y) regra de estimaçãoóptima

^

x = WTBayes () = WT Bayes (Wy) ^

Sob certas condições (fracas) no custo L(x,x’) :

Wy

WTEstimador

Bayes(.)x = WT

Formulação bayesiana

15

Verosimilhança e probabilidade a priori exprimem independência

Estimação independente;i.e., coeficiente por coeficiente

Justifica que se considere apenas um coeficiente .

p| ~ N(,2) Função de verosimilhança simples

Pergunta: o que deve exprimir a fdp a priori, p() ?

Resposta: o carácter esparso dos coeficientes da DWT

Formulação bayesiana: escolha do “prior”

16

1)(pProposta:

)(p

Exprime total ignorância acerca da “escala” em que está representado

…no seguinte sentido:

Mudança de escala (por ex., de volt para milivolt): ’= k

'

1)'(

p Outra interpretação:

p(log(|)) = const.

Formulação bayesiana: escolha do “prior”

17

1)(pCaracterísticas de:

)(p

Extremamente “heavy-tailed”

Tão “heavy-tailed” que é impróprio.…não é uma função densidade deprobabilidade “vulgar”.

dp )(

Limite de uma família de Student-t

Formulação bayesiana: escolha do “prior”

18

Lei de Bayes:

d)(p)|(p

)(p)|(p

)p(

)(p)|(p)|(p

Escreva-se:K

)('p

d)(p'

)('p)(p

1d)(p' Em que p’() está não normalizada:

Obviamente:

d)(p')|(p

)(p')|(p)|(p

Conclusão: p() não depende da normalização do “prior”

Revisão: estimação bayesiana com “prior” impróprio

19

d)(p')|(p

)(p')|(p)|(p

Lei de Bayes com “prior” não normalizado

Exemplo clássico: estimador de máxima verosimilhança:

)|(pmaxargˆMV

)|(pmaxargd)|(p

)|(pmaxargˆ

MAP

A

A

…não é mais do que um estimador MAP com p’() = const.=A

Revisão: estimação bayesiana com “prior” impróprio

1)(pDificuldade: com

)(p

20

d)(p)|(p

...a própria fdp a posteriori é imprópria:

Solução: Escrita alternativa para p(): Bayes hierárquico. Aplicação de uma técnica de Bayes empírica (“empirical Bayes”)

O “prior”proposto

21

1)(pA fdp a priori

é equivalente ao seguinte modelo hierárquico:

p| =N(,2)

p| = N(,2)

p2) 2

1

22 )|,(p)|(p d

222 d)(p)|(p)(p

)|(p

1)(p

“Prior” de Jeffreys

)(p

)(p)|(p

Estimação bayesiana hierárquica

p2)

2

1

Invariante sob mudanças de escala (ignorância)

p2)

2

1

a b a b 2

22

mesma área,mesma probabilidade

)alog()blog(d1

]}ba,[Pr{ 2b

a 22

)alog()blog(d1

]}ba,[Pr{ 2b

a 22

)alog()blog(

=

Universal:não depende deescolha de escala

Estimação bayesiana: “prior” de Jeffreys

23

)|(pmaxarg 222

)(p)|(pmaxarg 222

1. Estimar 2 com base na fdp marginal:

2. Utilizar essa estimativa no critério de Bayes: = Bayes (|2)

Estimaçao bayesiana empírica

24

p|2) = N(,2 + 2)

z

z+

p| = N(,2)

...porque + n

N(,2)

N(,2)

p2) ~ “prior de Jeffreys”

2

2

2

3

p| = N(,2)

22 3

= E[| , ] =^2 + 2

Estimaçao bayesiana empírica

0

0

IdentidadeNova regra

25

22 3ˆ

23 23

23 Limiar “universal”

Nova regra de “threshold/shrinkage”

0

0

"Hard threshold""Soft threshold"Nova regra

26

Nova regra versus “hard” e “soft” “thresholding” (com o mesmo limiar)

23 23

Nova regra versus “hard” e “soft” “thresholding”

27 Comparação de desempenho: sinal “Blocks”

28 Comparação de desempenho: sinal “Bumps”

29 Comparação de desempenho: sinal “Doppler”

30 Comparação de desempenho: sinal “HeaviSine”

31

+ ruídoprocessamento

Exemplo em restauração de imagens

32

+ ruídoprocessamento

Exemplo em restauração de imagens