Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso...

39
MAC5701 – T´opicos em Ciˆ encia da Computa¸ c˜ao Pir ˆ amides de Imagens Daniel Andr´ e Vaquero [email protected] Orientador: Prof. Dr. Junior Barrera [email protected] Mestrado em Ciˆ encia da Computa¸ ao Instituto de Matem´ atica e Estat´ ıstica Universidade de S˜ ao Paulo 08 de dezembro de 2004 Resumo Em Vis˜ ao Computacional e Processamento de Imagens, uma das t´ ecnicas bastante utilizadas para realizar a decomposi¸ ao de uma imagem em diferentes n´ ıveis de resolu¸ ao consiste na cria¸ ao de uma pirˆ amide de imagens. Neste trabalho ´ e apresentada a teoria de pirˆ amides, acompanhada por diversos exemplos de decomposi¸ oes piramidais e suas propri- edades. Algumas aplica¸ oes que utilizam estruturas piramidais s˜ ao brevemente discutidas, entre elas o projeto de classificadores multiresolu¸ ao, que constitui parte da pesquisa em que estamos trabalhando no mestrado. 1

Transcript of Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso...

Page 1: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

MAC5701 – Topicos em Ciencia da Computacao

Piramides de Imagens

Daniel Andre Vaquero

[email protected]

Orientador: Prof. Dr. Junior Barrera

[email protected]

Mestrado em Ciencia da Computacao

Instituto de Matematica e Estatıstica

Universidade de Sao Paulo

08 de dezembro de 2004

Resumo

Em Visao Computacional e Processamento de Imagens, uma das tecnicas bastanteutilizadas para realizar a decomposicao de uma imagem em diferentes nıveis de resolucaoconsiste na criacao de uma piramide de imagens. Neste trabalho e apresentada a teoria depiramides, acompanhada por diversos exemplos de decomposicoes piramidais e suas propri-edades. Algumas aplicacoes que utilizam estruturas piramidais sao brevemente discutidas,entre elas o projeto de classificadores multiresolucao, que constitui parte da pesquisa emque estamos trabalhando no mestrado.

1

Page 2: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Sumario

1 Introducao 3

2 Fundamentos e notacao 3

3 Piramides de imagens 7

3.1 Nota sobre os operadores de adicao e subtracao . . . . . . . . . . . . . . . . . . 10

4 Exemplos 11

4.1 Piramide usando amostragem diadica simples . . . . . . . . . . . . . . . . . . . 114.2 Piramide de Burt-Adelson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.3 Granulometrias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.4 Esqueletos morfologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.4.1 Esqueleto de Lantuejoul . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.4.2 Esqueleto de Goutsias-Schonfeld . . . . . . . . . . . . . . . . . . . . . . 154.4.3 Esqueleto de Kresch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.5 Piramide de Toet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.6 Piramide da mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.7 Piramide de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.8 Piramide de Haar morfologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.9 Piramide de Heijmans-Toet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.10 Piramides de adjuncao morfologica . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.10.1 Piramides nao-flat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.11 Piramide de Sun-Maragos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.12 Piramide de aberturas ou fechamentos . . . . . . . . . . . . . . . . . . . . . . . 234.13 Piramide baseada em amostragem “quincunx” . . . . . . . . . . . . . . . . . . . 244.14 Piramide de filtros alternados sequenciais . . . . . . . . . . . . . . . . . . . . . 264.15 Piramide de difusao anisotropica . . . . . . . . . . . . . . . . . . . . . . . . . . 274.16 Piramide da diferenca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.17 Piramides com quantizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.17.1 Piramide morfologica com quantizacao . . . . . . . . . . . . . . . . . . . 29

5 Aplicacoes 30

5.1 Compressao e codificacao de imagens . . . . . . . . . . . . . . . . . . . . . . . . 305.2 Transmissao progressiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.3 Localizacao de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.4 Projeto multiresolucao de operadores morfologicos . . . . . . . . . . . . . . . . 33

6 Consideracoes finais e trabalho futuro 35

A Execucao do plano de estudos 36

2

Page 3: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

1 Introducao

Ao olharmos para uma imagem, em geral observamos regioes de texturas, cores ou nıveis decinza similares, que se combinam para formar objetos. Se os objetos sao pequenos ou possuembaixo contraste, pode ser necessario examina-los em alta resolucao; se eles sao grandes oupossuem alto contraste, uma visao mais grosseira e suficiente. Se ambos os tipos de objetosaparecem em uma imagem, pode ser vantajoso analisa-los em multiplas resolucoes [9]. Amudanca de resolucao tambem pode levar a criacao, eliminacao ou fusao de caracterısticas daimagem. Isto serve como motivacao para um importante paradigma em visao computacionale processamento de imagens: o processamento multiresolucao. Alem disso, ha evidencias deque o sistema visual humano processa informacao visual de forma multiresolucao [3], sensorespodem fornecer dados em varias resolucoes, e algoritmos multiresolucao para processamentode imagens oferecem vantagens do ponto de vista computacional e em geral sao robustos.

Esta monografia apresenta o assunto estudado neste semestre como conteudo da disciplinaMAC5701: piramides de imagens. As piramides constituem um mecanismo bastante utilizadopara realizar a decomposicao de uma imagem em diferentes nıveis de resolucao. Muitas vezestambem e interessante estudar o caso de sinais unidimensionais; desta forma, em varios dosexemplos apresentaremos as decomposicoes tanto no caso de sinais unidimensionais quantono caso de imagens (sinais bidimensionais).

Este texto esta organizado da seguinte forma. Inicialmente, na Secao 2 e feita uma breverevisao de Morfologia Matematica, teoria cujos conceitos sao empregados nas partes sub-sequentes do texto. Alem disso, definimos a notacao que sera utilizada. Em seguida, na Secao3 e apresentado o conceito de piramide de imagens, e a Secao 4 mostra numerosos exemplosde decomposicoes piramidais e suas propriedades. Alguns exemplos de aplicacao de piramidesem processamento de imagens e visao computacional sao entao apresentados na Secao 5, e,finalmente, na Secao 6 sao expostas algumas consideracoes sobre o assunto e sua relacao coma pesquisa em que estamos trabalhando no mestrado. O Apendice A descreve as atividadesrealizadas, comparando-as com o plano de estudos da disciplina.

2 Fundamentos e notacao

Nesta secao, exibiremos alguns conceitos basicos e resultados da teoria de Morfologia Ma-tematica, e definiremos a notacao que sera utilizada. Tais conceitos serao importantes para acompreensao do texto, visto que grande parte das piramides que foram estudadas sao cons-truıdas usando operadores morfologicos. Informalmente, em processamento de imagens po-demos entender os operadores morfologicos como transformacoes cujos resultados dependemde como a forma de um dado conjunto, conhecido como elemento estruturante, relaciona-secom as formas dos objetos presentes na imagem. Para uma discussao mais detalhada, o leitorpode consultar [32, 14, 33].

Um conjunto L munido de uma ordem parcial ≤ e um reticulado completo se todo subcon-junto K de L tem um supremo (menor limitante superior)

K e um ınfimo (maior limitante

3

Page 4: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

inferior)∧

K. Dizemos que L e uma cadeia completa se L for um reticulado completo em quex ≤ y ou y ≤ x para todo par x, y ∈ L. Um exemplo simples de cadeia completa e o conjuntoR = R∪ {−∞,∞} com a ordenacao usual dos numeros reais. Se T e um reticulado completoe E e um conjunto nao vazio, o conjunto Fun(E,T ) = T E que inclui todas as funcoes de Eem T e um reticulado completo de acordo com a ordenacao pontual

x ≤ y se x(p) ≤ y(p), ∀p ∈ E, x, y ∈ Fun(E,T ). (2.1)

Utilizaremos a notacao Fun(E,T ) para representar os sinais cujo domınio e E e cujosvalores estao em T . O menor elemento de T (

T ) e denotado por ⊥, e o maior elemento deT (

T ) e denotado por >.Ao considerarmos sinais d-dimensionais, estamos interessados no caso em que E e o espaco

discreto Zd de dimensao d. Dado um sinal x ∈ Fun(Zd,T ) e um vetor k = (k1, k2, . . . , kd) ∈

Zd, definimos o operador de translacao τ = τ(k1,k2,...,kd) como

τ(x)(n) = τ(x)(n1, n2, . . . , nd) = x(n1−k1, n2−k2, . . . , nd−kd) = x(n−k), n, k ∈ Zd. (2.2)

Dado um mapeamento ψ : Fun(Zd,T ) → Fun(Zd,T ), dizemos que ψ e invariante portranslacao se

ψτ = τψ, (2.3)

para todo operador de translacao τ .Dois operadores morfologicos basicos em Fun(Zd,T ) sao a dilatacao δA e a erosao εA:

δA(x)(n) = (x⊕A)(n) =∨

k∈A

x(n− k) (2.4)

εA(x)(n) = (xA)(n) =∧

k∈A

x(n+ k) (2.5)

Onde A ⊆ Zd e um conjunto denominado elemento estruturante. Ao considerarmos sinais

binarios, a representacao destes por funcoes de E em {0, 1} e equivalente a representacao porsubconjuntos de E [1]. Neste caso, a dilatacao e a erosao sao equivalentes a adicao [26] e asubtracao de Minkowski [13], de onde vem o uso da notacao ⊕ e . Se b e uma funcao dedomınio em A e imagem em T , podemos estender a definicao de δA e εA para

δA(x)(n) = (x⊕A)(n) =∨

k∈A

x(n− k) u b(k) (2.6)

εA(x)(n) = (xA)(n) =∧

k∈A

x(n+ k) − b(k) (2.7)

4

Page 5: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Onde

tu v =

⊥ se t = ⊥,⊥ se t > ⊥ e t+ v ≤ ⊥,t+ v se t > ⊥ e ⊥ ≤ t+ v ≤ >,> se t > ⊥ e t+ v ≥ >.

(2.8)

t − v =

⊥ se t < > e t− v ≤ ⊥,t− v se t < > e ⊥ ≤ t− v ≤ >,> se t < > e t− v > >,> se t = >.

(2.9)

e ⊥ e > sao, respectivamente, o menor e o maior elemento de T . Neste caso, dizemos queA e um elemento estruturante nao-flat. Existe uma relacao importante entre as erosoes e asdilatacoes:

y ⊕A ≤ x⇔ y ≤ xA, x, y ∈ Fun(Zd,T ). (2.10)

Esta relacao e conhecida como adjuncao e e um ponto fundamental no arcabouco de reticuladoscompletos da Morfologia Matematica [14].

Definicao 2.1 Sejam L e M reticulados completos, e considere dois operadores ε : L → Me δ : M → L. Dizemos que (ε, δ) constitui uma adjuncao entre L e M se

δ(y) ≤ x⇔ y ≤ ε(x), x ∈ L, y ∈ M. (2.11)

Se (ε, δ) forma uma adjuncao entre L e M, entao ε satisfaz a propriedade

ε(∧

i∈I

xi) =∧

i∈I

ε(xi), (2.12)

para qualquer famılia de sinais {xi | i ∈ I} ⊆ L, onde I e um conjunto de ındices. O operadorδ tem a propriedade dual

δ(∨

i∈I

yi) =∨

i∈I

δ(yi), (2.13)

para qualquer famılia de sinais {yi | i ∈ I} ⊆ M (I e um conjunto de ındices). Em particular,temos como consequencia que ε e δ sao operadores crescentes (dizemos que um operador ψ ecrescente se para todo x, y com x ≤ y entao ψ(x) ≤ ψ(y)). Um operador ε que satisfaz (2.12)e chamado de erosao, enquanto um operador δ que satisfaz (2.13) e chamado de dilatacao.O operador identidade em L e denotado por id. Se ψ e um operador definido de L em L,entao adotaremos a convencao ψ0 = id e denotaremos por ψj , para j > 0 a composicao deoperadores ψ · · ·ψ (j vezes). A imagem de ψ sera denotada por Ran(ψ). A seguinte proposicaoe valida:

5

Page 6: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Proposicao 2.2 Seja (ε, δ) uma adjuncao entre dois reticulados completos L e M. Entaovalem as seguintes relacoes:

εδε = ε e δεδ = δ (2.14)

εδ ≥ id e δε ≤ id. (2.15)

Um operador ν sobre um reticulado completo L e uma negacao se for uma bijecao queinverte a ordenacao (isto e, x ≤ y ⇔ ν(y) ≤ ν(x)) tal que ν2 = id. Por exemplo, para todo x ∈Fun(E,T ), ν(x) = −x, se T = R, enquanto ν(x) = N−1−x, se T = {0, 1, . . . , N−1}. SejamL e M dois reticulados completos cujas negacoes sao νL e νM, respectivamente. Podemosassociar a um operador ψ : L → M o operador dual ψ∗ = νMψνL. Se (ε, δ) e uma adjuncaoentre reticulados completos L e M, e se ambos os reticulados possuırem uma operacao denegacao, entao o par (δ∗, ε∗) forma uma adjuncao entre M e L.

Definicao 2.3 Seja ψ : L → L um operador que mapeia o reticulado L sobre ele mesmo.

(a) Dizemos que ψ e idempotente se ψ2 = ψ.

(b) Se ψ e crescente e idempotente, entao ψ e um filtro.

(c) Um filtro ψ que satisfaz ψ ≤ id (isto e, ψ e anti-extensivo) e uma abertura.

(d) Um filtro ψ que satisfaz ψ ≥ id (isto e, ψ e extensivo) e um fechamento.

Proposicao 2.4 Seja (ε, δ) uma adjuncao entre dois reticulados completos L e M. Entao,εδ e um fechamento sobre M e δε e uma abertura sobre L.

Pela propriedade 2.10, o par (εA, δA), dado por (2.4) e (2.5) constitui uma adjuncao emFun(Zd,T ). Portanto, a composicao αA = δAεA e uma abertura, e a composicao βA = εAδAe um fechamento, de acordo com a Definicao 2.3. Os operadores αA e βA sao chamados deabertura e fechamento pelo elemento estruturante A. Usaremos a seguinte notacao:

αA(x) = x ◦A (2.16)

βA(x) = x • A (2.17)

Na pratica, ao trabalharmos com imagens digitais consideramos o reticulado Fun(E,T )munido da ordenacao pontual, onde o conjunto E e um subconjunto finito de Z

2; em geral,E e uma grade retangular. O conjunto T representa o intervalo de valores que os pixels deuma imagem podem assumir. Por exemplo, em imagens binarias T = {0, 1}, e em imagensem nıveis de cinza T = {0, . . . , N − 1}, onde N e o numero de diferentes nıveis de cinza quea imagem pode ter (em geral, N = 2k).

6

Page 7: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

3 Piramides de imagens

Em processamento de sinais, o conceito de resolucao e fundamental e pode ser definido deformas diferentes dependendo da aplicacao sendo estudada [38]. No decorrer deste texto, esuficiente supor que a resolucao espacial de uma imagem digital e o numero de pixels desta, eque a resolucao em profundidade e o numero de bits utilizado para representar os valores deum pixel da imagem [8].

Ao analisar uma imagem, as vezes pode ser util fazermos uma decomposicao desta empartes separadas de modo que nao haja perda de informacao. A teoria de piramides provemaneiras de realizar a decomposicao de imagens em multiplos nıveis de resolucao [11].

Considere uma colecao de representacoes de uma imagem em resolucoes espaciais distin-tas, empilhadas uma sobre a outra, com a imagem de maior resolucao na base da pilha eas imagens subsequentes aparecendo sobre ela em ordem decrescente de resolucao. Isto gerauma estrutura semelhante a uma piramide, como pode ser visto na Figura 1. O procedimentotradicional para obtencao de uma imagem de menor resolucao consiste em realizar uma filtra-gem passa-baixas seguida por uma amostragem [19]. Em [12, 11, 10, 15], Goutsias e Heijmansapresentam o conceito de piramide sob um enfoque mais formal, que reproduzimos abaixo.Esta formalizacao vale para sinais de dimensoes arbitrarias.

Figura 1: Estrutura piramidal (adaptado de [38])

Suponha que temos uma sequencia de espacos de sinais V0, V1, V2, . . . e uma sequenciade espacos de sinais W1,W2, . . . tais que o domınio dos sinais em Wj+1 e igual ao domıniodos sinais em Vj , para j ≥ 0. Suponha tambem que para cada j ≥ 0 temos operadoresψ↑

j : Vj → Vj+1, ω↑

j : Vj → Wj+1 e Ψ↓

j : Vj+1 ×Wj+1 → Vj . Estes operadores devem ser tais

que Ψ↓

j(x, y) = ψ↓

j(x)+y, para x ∈ Vj+1 e y ∈Wj+1, e ψ↓

j : Vj+1 → Vj e um operador escolhido

de modo que a condicao de reconstrucao perfeita seja satisfeita: Ψ↓

j(ψ↑

j (x), ω↑

j (x)) = x, para

x ∈ Vj; ou seja, ψ↓

jψ↑

j(x) + ω↑

j(x) = x. Entao, ω↑

j(x) = x− ψ↓

jψ↑

j(x).

7

Page 8: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Os operadores ψ↑

j e ω↑

j sao chamados de operadores de analise, e os operadores Ψ↓

j e ψ↓

j

sao denominados operadores de sıntese. Um sinal xj ∈ Vj pode ser decomposto em sinaisxj+1 ∈ Vj+1 e yj+1 ∈ Wj+1 atraves da aplicacao dos operadores de analise, e a condicaode reconstrucao perfeita garante que o sinal original xj pode ser reconstruıdo sem perdade informacao a partir dos sinais xj+1 e yj+1 usando os operadores de sıntese. Podemosinterpretar xj+1 como uma aproximacao ou simplificacao do sinal xj, de modo que xj+1

herda muitas das propriedades de xj . O sinal yj+1 pode ser visto como um sinal de detalhe ouerro, que contem (pelo menos) a informacao descartada para obter tal simplificacao. O sinalde detalhe e necessario para obtermos a reconstrucao perfeita de xj, pois a transformacaode xj para xj+1 em geral implica em perda de informacao, o que faz com que a operacaoψ↓

j(xj+1) resulte apenas em uma aproximacao de xj em Vj , denotada por xj .A decomposicao de um sinal de entrada x0 ∈ V0 em diversas resolucoes e dada por:

xj+1 = ψ↑

j(xj) ∈ Vj+1 (3.1)

yj+1 = xj − ψ↓

j (xj+1) ∈Wj+1 (3.2)

com j = 0, 1, . . . , k− 1. Tal processo e denominado transformacao piramide de x0. A decom-posicao pode ser feita recursivamente:

x0 → {x1, y1} → {x2, y2, y1} → · · · → {xk, yk, yk−1, . . . , y1} (3.3)

A reconstrucao perfeita do sinal x0 a partir dos sinais xk e y1, y2, . . . , yk e dada peloseguinte esquema recursivo de sıntese:

xj = Ψ↓

j(xj+1, yj+1) = ψ↓

j(xj+1) + yj+1, j = k − 1, k − 2, . . . , 0 (3.4)

Tal processo e denominado transformacao piramide inversa. A Figura 2 mostra de formaesquematica tres nıveis da transformacao piramide e de sua inversa.

Seja ψi,j = ψ↓

iψ↓

i+1 · · ·ψ↓

j−1ψ↑

j−1ψ↑

j−2 · · ·ψ↑

i , j > i o operador de aproximacao. Defina

V(j)i = Ran(ψi,j). E desejavel que

V(j)i ⊆ V

(j−1)i ⊆ Vi, j > i+ 1 (3.5)

Assim, o operador ψi,j mapeia o espaco de sinais Vi em subespacos aninhados · · · ⊆

V(i+2)i ⊆ V

(i+1)i ⊆ Vi, com cada subespaco V

(j)i contendo todas as “aproximacoes do nıvel j”

(j > i) dos sinais em Vi. E possıvel mostrar que (3.5) e satisfeita se assumirmos que

ψ↑

jψ↓

j = id em Vj+1. (3.6)

A condicao 3.6 e denominada condicao de piramide, e exerce papel importante nas decom-posicoes piramidais. Considere as condicoes:

1. ψ↑

j e sobrejetor

8

Page 9: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

(a)

(b)

Figura 2: (a) Transformacao piramide; (b) Transformacao piramide inversa [11]

2. ψ↓

j e injetor

3. ψ↑

jψ↓

jψ↑

j = ψ↑

j

4. ψ↓

jψ↑

jψ↓

j = ψ↓

j

5. ψ↓

jψ↑

j e idempotente, isto e, ψ↓

jψ↑

jψ↓

jψ↑

j = ψ↓

jψ↑

j

Em [11], os autores mostraram que estas cinco condicoes sao satisfeitas se e somente se acondicao de piramide e satisfeita.

O processo de amostragem de uma imagem consiste em gerar uma nova imagem compostapor um subconjunto dos pixels da imagem original. Na pratica, o tipo mais utilizado deamostragem substitui os pixels (2m, 2n), (2m + 1, 2n), (2m, 2n + 1) e (2m + 1, 2n + 1) daimagem original por um unico pixel (m,n) na imagem de saıda. Tal processo e conhecido como

9

Page 10: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

amostragem diadica [38]. Assim, o numero de pixels da imagem resultante e aproximadamenteum quarto do numero de pixels da imagem original.

A formulacao tradicional de piramides de imagens consiste em, a cada nıvel da piramide,realizar uma filtragem passa-baixas seguida de amostragem diadica [19]. Porem, vale ressal-tar que algumas decomposicoes que realizam amostragem de outras maneiras, ou mesmo naoincluem amostragem tambem podem ser modeladas de acordo com a teoria apresentada porGoutsias e Heijmans. Por exemplo, os operadores de analise e sıntese das decomposicoes apartir de granulometrias (Secao 4.3) nao alteram o numero de amostras de dados do sinal (aresolucao das imagens nao muda). Assim, a decomposicao obtida e considerada uma decom-posicao multi-escala, embora nao seja multiresolucao (sugerimos que o leitor consulte [22] parauma discussao detalhada sobre as diferencas entre os termos multi-escala e multiresolucao).Porem, a menos que seja especificado em contrario, iremos nos referir as piramides como sendodecomposicoes que envolvem uma etapa de amostragem diadica. Algoritmos multiresolucaopodem tirar proveito do fato de que o volume de dados e reduzido em cada nıvel da piramide,permitindo que implementacoes eficientes possam ser realizadas [19].

A representacao de uma imagem ou sinal por meio de uma estrutura piramidal e consi-derada redundante, pois sem a utilizacao de nenhum metodo de compressao a quantidade dememoria necessaria para armazenar os sinais xk e y1, y2, . . . , yk e maior que a necessaria paraarmazenar o sinal original x0. Isto e uma consequencia do fato de que, para cada j, o domıniodos sinais em Wj+1 e igual ao domınio dos sinais em Vj .

No restante deste texto, denotaremos por piramide uma sequencia de imagens ou sinaisgerada atraves de um conjunto de operadores de analise e sıntese. Quando nao houver con-fusao, utilizaremos o mesmo termo para indicar o conjunto de operadores que define umadecomposicao piramidal.

Se os operadores que definem uma piramide forem lineares, tal piramide e uma piramidelinear. Da mesma forma, se a decomposicao e feita utilizando operadores nao-lineares, temosuma piramide nao-linear. As piramides morfologicas, que utilizam operadores da MorfologiaMatematica, sao casos particulares de piramides nao-lineares.

3.1 Nota sobre os operadores de adicao e subtracao

A escolha dos operadores de adicao e subtracao entre sinais depende da aplicacao que temosem maos [11]. Abaixo, mostramos tres alternativas em que a condicao de reconstrucao perfeitae valida. Nos tres casos, supomos que os sinais estao em Fun(E,T ), para algum conjunto denıveis de cinza T . Desta forma, e suficiente definir operacoes de adicao e subtracao em T .

1. Suponha que T ⊆ R e seja T ′ = {t − s | t, s ∈ T }. Definimos o operador de subtracao(t, s) → t− s de T × T → T ′, e o operador de adicao como a adicao usual.

2. Suponha que T e um reticulado completo. Se o sinal de aproximacao x sempre satisfaz

10

Page 11: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

x ≤ x ponto a ponto, entao podemos definir

t− s =

{

t, se t > s⊥, se t = s

(3.7)

t+ s = t ∨ s. (3.8)

onde ⊥ e o menor elemento de T .

3. Suponha que T = {0, 1, . . . , N − 1}. Defina as operacoes de adicao e subtracao como aadicao e a subtracao no grupo abeliano ZN , isto e, a soma e a subtracao modulo N . Noteque no caso em que T = {0, 1} (imagens binarias), as operacoes de adicao e subtracaocorrespondem ao operador “ou exclusivo” (XOR).

4 Exemplos

Nesta secao, veremos alguns exemplos de decomposicoes encontradas na literatura. A maiorparte dos exemplos pode ser encontrada no trabalho de Goutsias e Heijmans [12, 11, 10, 15],que inclui diversos exemplos de piramides de imagens.

4.1 Piramide usando amostragem diadica simples

Suponha que os espacos de sinais sao tais que Vj = Fun(E,T ), onde E ⊆ Zd e T e um

conjunto arbitrario, e seja t um elemento fixo de T . Considere os operadores σ↑ : Vj → Vj+1

e σ↓

t : Vj+1 → Vj :

σ↑(x)(n) = x(2n) (4.1)

σ↓

t (x)(2n) = x(n) e σ↓

t (x)(m) = t, se m /∈ 2Zd (4.2)

onde 2Zd denota os vetores de Z

d cujas coordenadas sao pares. A decomposicao cujos opera-dores de analise e sıntese sao ψ↑ = σ↑ e ψ↓ = σ↓

t (os operadores sao os mesmos em todos osnıveis) e uma piramide valida [11].

Se T for um espaco linear, entao σ↑ e σ↓

0 sao operadores lineares. Se T for um reticuladocompleto, entao (σ↑, σ↓

⊥) e (σ↓

>, σ↑), onde ⊥ e > sao, respectivamente, o maior elemento e o

menor elemento de T , sao adjuncoes em Fun(Zd,T ).

4.2 Piramide de Burt-Adelson

Em [4], Burt e Adelson propuseram uma estrutura piramidal em que os operadores de analisesao compostos por duas etapas:

• filtragem passa-baixas usando uma mascara de tamanho 5× 5 cujo formato e similar aoda distribuicao Gaussiana de probabilidade, com o objetivo de eliminar altas frequencias;

11

Page 12: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

• amostragem diadica.

Ou seja,

ψ↑(x)(m,n) =

2∑

i=−2

2∑

j=−2

w(i, j)x(2m + i, 2n + j) (4.3)

Onde w e o kernel da convolucao. Por simplicidade, podemos supor que w e separavel, istoe, w(i, j) = w(i)w(j), onde w e uma mascara unidimensional de tamanho 5. w deve respeitaras seguintes restricoes:

• w e normalizada, ou seja,∑2

i=−2 w(i) = 1;

• w e simetrica, isto e, w(i) = w(−i) para i = 0, 1, 2;

• Sejam w(0) = a, w(−1) = w(1) = b e w(−2) = w(2) = c. A condicao de igualcontribuicao requer que a+ 2c = 2b.

As tres restricoes sao satisfeitas quando w(0) = a, w(−1) = w(1) = 14 e w(−2) = w(2) =

14 − a

2 . A Figura 3 mostra as funcoes equivalentes as mascaras obtidas para alguns valores dea.

Figura 3: Funcoes equivalentes as mascaras [4]

A operacao de sıntese e feita por interpolacao e filtragem. O operador e dado por:

12

Page 13: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

ψ↓(x)(m,n) = 4

2∑

i=−2

2∑

j=−2

w(i, j)x(m − i

2,n− j

2), (4.4)

onde apenas os termos em que m−i2 e n−j

2 sao inteiros sao incluıdos na soma.Os autores deram o nome de piramide Gaussiana a sequencia {xj}, j ≥ 0 de sinais de

aproximacao, e o nome de piramide do Laplaciano a sequencia {yj}, j ≥ 1 de sinais de detalhe.A Figura 4 ilustra as piramides Gaussiana e do Laplaciano geradas a partir de uma imagemem nıveis de cinza, com a = 0.4. As imagens das piramides estao representadas da base parao topo, de baixo para cima. No artigo [4] e sugerido que esta piramide possui propriedadesinteressantes em aplicacoes de compressao de imagens e transmissao progressiva, que seraodiscutidas na Secao 5.

4.3 Granulometrias

Uma famılia discreta de operadores {αj | j ≥ 0} sobre o reticulado completo L e uma granu-lometria se satisfaz a propriedade de semi-grupos [14]

αiαj = αjαi = αj, j ≥ i (4.5)

Considere a granulometria discreta {αj | j ≥ 0} sobre o reticulado completo L = Fun(E,T ),onde T ⊆ R. Seja V0 = L e Vj+1 = Ran(αj), para j ≥ 0, e defina ψ↑

j = αj e ψ↓

j = id. Oesquema de analise resultante e:

{

xj+1 = αj(xj) ∈ Vj+1

yj+1 = xj − xj+1, j ≥ 0 (4.6)

A sıntese e dada por:

x0 =

∞∑

j=1

yj. (4.7)

Agora, considere a anti-granulometria {βj = α∗j | j ≥ 0} sobre L = Fun(E,T ). Definimos

V0 = L e Vj+1 = Ran(βj), para j ≥ 0. Os esquemas de analise e sıntese sao:

x′0 = x0 ∈ V0

x′j+1 = βj(x′j) ∈ Vj+1

y′j+1 = x′j+1 − x′j

, j ≥ 0 (4.8)

x0 = ν(

∞∑

j=1

y′j). (4.9)

Na literatura, a decomposicao de um sinal x0 em sinais de detalhe {. . . , y′2, y′1, y1, y2, . . .}

e chamada de transformada discreta de tamanho (discrete size transform) de x0 [25]. Se oespaco E e finito ou infinito contavel, entao {. . . , |y′2|, |y

′1|, |y1|, |y2|, . . .}, onde |x| =

n |x(n)|,

13

Page 14: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Figura 4: Piramides Gaussiana (a esquerda) e do Laplaciano (a direita) [4]. Para facilitar avisualizacao, todas as imagens foram interpoladas para terem a mesma resolucao da imagemda base da piramide.

e chamado de espectro de padroes de x0 [25]. A decomposicao usando granulometrias e umexemplo de decomposicao multi-escala que se encaixa na teoria apresentada por Goutsias eHeijmans, apesar de nao envolver amostragem. Um exemplo de granulometria e a famılia de

14

Page 15: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

aberturas {αj | j ≥ 0}, onde para cada j, αj e uma abertura morfologica (equacao (2.16))por um disco Dj , e os raios dos discos Dj crescem conforme j cresce. A anti-granulometriarelacionada e uma famılia de fechamentos (equacao (2.17)).

4.4 Esqueletos morfologicos

Considere o reticulado completo L = Fun(E,T ), onde T ⊆ R, e uma adjuncao (ε, δ) em L.Defina Vj = Ran(εj), para j ≥ 0. Veremos agora tres esquemas de decomposicao de sinaisbaseados em esqueletos da Morfologia Matematica. Tais decomposicoes tambem sao exemplosem que o operador de analise nao envolve uma etapa de amostragem.

4.4.1 Esqueleto de Lantuejoul

Considere os operadores de analise e sıntese ψ↑

j = ε e ψ↓

j = δ. A decomposicao de sinaisusando tais operadores e dada por

{

xj+1 = ε(xj) ∈ Vj+1

yj+1 = xj − δ(xj+1), j ≥ 0 (4.10)

e a reconstrucao do sinal e dada por

xj = δ(xj+1) + yj+1, j ≥ 0. (4.11)

Observe que o sinal de detalhe tambem pode ser escrito como

yj+1 = εj(x) − (δε)εj(x). (4.12)

Se tomarmos∨

j≥1 yj, obtemos uma formula bastante conhecida em Morfologia Matematica:a formula de Lantuejoul para esqueletos morfologicos discretos [32].

4.4.2 Esqueleto de Goutsias-Schonfeld

Considere os operadores de analise e sıntese dados por ψ↑

j = ε e ψ↓

j = εjδj+1. Tais operadoresformam um mecanismo de decomposicao de sinais dado por

{

xj+1 = ε(xj) ∈ Vj+1

yj+1 = xj − εjδj+1(xj+1), j ≥ 0 (4.13)

xj = εjδj+1(xj+1) + yj+1, j ≥ 0 (4.14)

O sinal de detalhe tambem pode ser escrito como

yj+1 = εj(x) − (εjδj)(δε)εj(x) (4.15)

Ao compararmos este sinal de detalhe com o sinal de detalhe obtido na decomposicaoque usa o esqueleto de Lantuejoul (equacao (4.12)), vemos que a equacao (4.15) possui um

15

Page 16: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

fechamento εjδj adicional, o que faz com que o sinal de detalhe obtido nunca seja maior queo sinal de detalhe da decomposicao de Lantuejoul. Assim, o esqueleto formado por

j≥1 yj emenor ou igual ao gerado pela formula de Lantuejoul, o que resulta em uma maior taxa dereducao de dados em aplicacoes de compressao de imagens. A Figura 5 ilustra este fato emuma imagem binaria.

(a) (b) (c)

Figura 5: Esqueletos morfologicos: (a) Imagem binaria; (b)∨

j≥1 yj obtida usando o esqueletode Lantuejoul; (c)

j≥1 yj para o esqueleto de Goutsias-Schonfeld (imagens de [11]).

4.4.3 Esqueleto de Kresch

Uma abordagem alternativa para a decomposicao de sinais, sugerida por Kresch [20], consisteem usar os mesmos operadores de analise e sıntese que a decomposicao pelo esqueleto deGoutsias-Schonfeld, mas definir as operacoes de adicao e subtracao em T como no exemplo 2da Secao 3.1. Assim, obtemos o seguinte esquema de analise:

xj+1 = ε(xj) ∈ Vj+1

yj+1(n) =

{

xj(n), se xj(n) 6= εjδj+1(xj+1)(n)⊥, c.c.

, j ≥ 0 (4.16)

O esquema de sıntese e dado por:

xj = εjδj+1(xj+1) ∨ yj+1, j ≥ 0 (4.17)

Os mecanismos de decomposicao baseados nos esqueletos de Goutsias-Schonfeld e Kreschsao bastante diferentes, apesar de terem descricoes algebricas similares. A Figura 6 ilustra osresultados obtidos ao aplicar tais decomposicoes sobre uma imagem em nıveis de cinza.

16

Page 17: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

y1 y2 y3

Figura 6: No topo: imagem original em nıveis de cinza. Segunda linha: decomposicao obtidapor meio do esqueleto de Goutsias-Schonfeld. Terceira linha: decomposicao obtida por meiodo esqueleto de Kresch (imagens de [11]).

4.5 Piramide de Toet

Seja T uma cadeia completa, e suponha que os espacos de sinais sao dados por Vj =Fun(Zd,T ). Considere os operadores σ↑ e σ↓

t dados pelas equacoes (4.1) e (4.2). Defina

ψ↑

j = βAαAσ↑ e ψ↓

j = βAαAσ↓

>, j ≥ 0, (4.18)

17

Page 18: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

onde αA e βA sao a abertura e o fechamento pelo elemento estruturante A = {0, 1}d, e > eo maior elemento de T . A decomposicao piramidal resultante e conhecida como piramide deToet [36].

4.6 Piramide da mediana

Seja T uma cadeia completa, e suponha que Vj = Fun(Z,T ), para todo j. Defina os seguintesoperadores de analise e sıntese para todo nıvel j:

ψ↑(x)(n) = mediana{x(2n − 1), x(2n), x(2n + 1)} (4.19)

ψ↓(x)(2n) = ψ↓(x)(2n + 1) = x(n). (4.20)

A piramide de sinais unidimensionais gerada pelos operadores acima e chamada de piramideda mediana. Uma alternativa para a piramide da mediana e:

ψ↑(x)(n) =

{

x(2n), se x(2n− 1) ∧ x(2n) ∧ x(2n+ 1) = x(2n)mediana{x(2n − 1), x(2n), x(2n + 1)}, caso contrario

(4.21)

ψ↓(x)(2n) = x(n), ψ↓(x)(2n + 1) = x(n) ∨ x(n+ 1). (4.22)

Esta piramide gera melhores aproximacoes x = ψ↓ψ↑(x) de x em relacao as geradas pelapiramide anterior, ja que mais informacao e usada para obter ψ↓(x)(2n + 1).

No caso bidimensional, se A e o quadrado 3 × 3 com centro na origem, a piramide damediana e definida por:

ψ↑(x)(m,n) = mediana{x(2m+ k, 2n + l) | (k, l) ∈ A} (4.23)

ψ↓(x)(2m, 2n) = x(m,n) (4.24)

ψ↓(x)(2m, 2n + 1) = x(m,n) ∧ x(m,n+ 1) (4.25)

ψ↓(x)(2m+ 1, 2n) = x(m,n) ∧ x(m+ 1, n) (4.26)

ψ↓(x)(2m+ 1, 2n + 1) = x(m,n) ∨ x(m,n+ 1) ∨ x(m+ 1, n + 1) ∨ x(m+ 1, n) (4.27)

Podemos citar propriedades interessantes desta piramide: a preservacao de detalhes e ageracao de decomposicoes que podem ser comprimidas de forma eficiente [34]. A Figura 7ilustra a decomposicao de uma imagem em nıveis de cinza usando a piramide da mediana.

4.7 Piramide de Haar

Suponha que, para todo j ≥ 0, Vj = `2(Z), o espaco das sequencias de valores reais (. . .,x(−1), x(0), x(1), . . .) com

∑∞n=−∞ |x(n)|2 <∞. Os operadores

ψ↑(x)(n) =1

2(x(2n) + x(2n+ 1)) (4.28)

ψ↓(x)(2n) = ψ↓(x)(2n + 1) = x(n) (4.29)

18

Page 19: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

x3

x2 x2 y2

x1 x1 y1

x0 x0 y0

Figura 7: Piramide da mediana (imagens de [11]). Foi feita mudanca de escala em algumasimagens para facilitar a visualizacao.

geram um esquema de decomposicao de sinais unidimensionais chamado de Piramide de Haar.Os operadores de analise e sıntese coincidem com os filtros passa-baixas associados a waveletde Haar [6, 24].

19

Page 20: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

A versao equivalente da piramide de Haar para o caso de sinais bidimensionais e dada por

ψ↑(x)(m,n) =1

4(x(2m, 2n) + x(2m, 2n + 1) + x(2m+ 1, 2n) + x(2m+ 1, 2n + 1)) (4.30)

ψ↓(x)(2m, 2n) = ψ↓(x)(2m+ 1, 2n) =

ψ↓(x)(2m, 2n + 1) = ψ↓(x)(2m + 1, 2n + 1) = x(m,n) (4.31)

4.8 Piramide de Haar morfologica

Seja T uma cadeia completa, e considere uma piramide para a qual Vj = Fun(Z,T ), paratodo j, e os mesmos operadores de analise e sıntese sao usados em cada nıvel j:

ψ↑(x)(n) = x(2n) ∧ x(2n + 1) (4.32)

ψ↓(x)(2n) = ψ↓(x)(2n + 1) = x(n) (4.33)

A versao em duas dimensoes da piramide de Haar morfologica e dada por

ψ↑(x)(m,n) = x(2m, 2n) ∧ x(2m, 2n + 1) ∧ x(2m+ 1, 2n + 1) ∧ x(2m+ 1, 2n) (4.34)

ψ↓(x)(2m, 2n) = ψ↓(x)(2m, 2n + 1) =

ψ↓(x)(2m + 1, 2n + 1) = ψ↓(x)(2m + 1, 2n) = x(m,n) (4.35)

Esta piramide e “similar” a piramide de Haar linear apresentada no exemplo anterior, masutiliza operadores morfologicos (portanto, e nao-linear).

4.9 Piramide de Heijmans-Toet

No caso unidimensional, considere a piramide dada por:

ψ↑(x)(n) = x(2n − 1) ∧ x(2n) ∧ x(2n + 1) (4.36)

ψ↓(x)(2n) = x(n) e ψ↓(x)(2n + 1) = x(n) ∨ x(n+ 1) (4.37)

Esta decomposicao, sugerida por Heijmans e Toet [17], gera uma versao simetrica da piramidede Haar morfologica. A versao bidimensional e dada por:

ψ↑(x)(m,n) =∧

−1≤k,l≤1

x(2m+ k, 2n + l) (4.38)

ψ↓(x)(2m, 2n) = x(m,n) (4.39)

ψ↓(x)(2m, 2n + 1) = x(m,n) ∨ x(m,n+ 1) (4.40)

ψ↓(x)(2m+ 1, 2n) = x(m,n) ∨ x(m+ 1, n) (4.41)

ψ↓(x)(2m+ 1, 2n + 1) = x(m,n) ∨ x(m,n+ 1) ∨ x(m+ 1, n + 1) ∨ x(m+ 1, n) (4.42)

A Figura 8 ilustra esta decomposicao em uma imagem em nıveis de cinza.

20

Page 21: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

x3

x2 x2 y2

x1 x1 y1

x0 x0 y0

Figura 8: Piramide de Heijmans-Toet (imagens de [11]). Foi feita mudanca de escala emalgumas imagens para facilitar a visualizacao.

4.10 Piramides de adjuncao morfologica

Suponha que Vj = Vj+1 = Fun(Zd,T ) sao espacos de sinais, e estamos interessados emoperadores morfologicos de analise e sıntese ψ↑ : Vj → Vj+1 e ψ↓ : Vj+1 → Vj com as seguintespropriedades:

1. O par (ψ↑, ψ↓) e uma adjuncao. Portanto, ψ↑ e uma erosao e ψ↓ e uma dilatacao.

21

Page 22: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

2. Os operadores ψ↑ e ψ↓ sao operadores flat, no sentido de que seus elementos estruturantessao conjuntos ao inves de funcoes de Z

d em um conjunto de nıveis de cinza T .

3. Os operadores ψ↑ e ψ↓ sao invariantes por translacao da seguinte maneira: para todooperador de translacao τ = τk, k ∈ Z

d, temos

ψ↑τ2 = τψ↑ e ψ↓τ = τ2ψ↓. (4.43)

A ultima propriedade significa que o operador de analise ψ↑ envolve amostragem por 2 emtodas as direcoes espaciais (amostragem diadica). E possıvel mostrar que ψ↑ e ψ↓ sempre tema seguinte forma [11]:

ψ↑(x)(n) =∧

k∈A

x(2n+ k) (4.44)

ψ↓(x)(k) =∨

n∈A[k]

x(k − n

2), (4.45)

onde A ⊆ Zd e o elemento estruturante. Definimos Z

d[n] = {k ∈ Zd | k − n ∈ 2Z

d}, paran ∈ Z

d. Os conjuntos Zd[n] formam uma particao de Z

d com 2d partes disjuntas. Para A ⊆ Zd

e n ∈ Zd, definimos A[n] = A ∩ Z

d[n], e com isso temos uma particao de A composta de nomaximo 2d conjuntos nao-vazios e disjuntos.

Para que os operadores em (4.44) e (4.45) satisfacam a condicao de piramide e necessarioque o elemento estruturante A seja tal que A[a] = {a} para algum a ∈ A.

Quando os operadores ψ↑

j e ψ↓

j formam uma adjuncao, chamamos a decomposicao pira-

midal resultante de piramide de adjuncao morfologica [11]. Neste caso, como ψ↓

jψ↑

j e uma

abertura, ψ↓

jψ↑

j ≤ id, logo os sinais de detalhe yj+1 serao sempre nao-negativos para todoj ≥ 0. Esta propriedade e importante em aplicacoes de compressao e codificacao de imagens,ja que um bit de informacao pode ser economizado. A piramide de Haar morfologica e apiramide de Heijmans-Toet sao exemplos de piramides de adjuncao morfologica.

4.10.1 Piramides nao-flat

O caso em que os operadores de analise e sıntese nao sao do tipo flat e similar. As equacoes(4.44) e (4.45) sao substituıdas por [11]

ψ↑(x)(n) =∧

k∈A

[x(2n + k) − b(k)] (4.46)

ψ↓(x)(k) =∨

n∈A[k]

[x(k − n

2) u b(n)], (4.47)

onde b e uma funcao de domınio A e imagem em T .

22

Page 23: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

4.11 Piramide de Sun-Maragos

Suponha que os sinais sao unidimensionais, isto e, Vj = Fun(Z,T ) para todo j, e os mesmosoperadores de analise e sıntese sao usados em todos os nıveis j. Os operadores

ψ↑(x)(n) = (x ◦A)(2n) (4.48)

ψ↓(x)(2n) = x(n) e ψ↓(x)(2n + 1) = x(n) ∨ x(n+ 1), (4.49)

com A = {−1, 0, 1} e x ◦ A = δAεA(x) formam um esquema de decomposicao piramidalconhecido como piramide morfologica de Sun-Maragos [35].

E facil estender a definicao dos operadores de analise e sıntese para sinais de dimensoesmaiores. A Figura 9 ilustra a aplicacao da piramide de Sun-Maragos em uma imagem binaria,onde o elemento estruturante A e o quadrado 3 × 3 com centro na origem e a operacao desubtracao em T = {0, 1} utilizada e o “ou exclusivo”.

4.12 Piramide de aberturas ou fechamentos

No artigo [5], piramides construıdas utilizando aberturas ou fechamentos morfologicos emcombinacao com amostragem sao usadas para fazer compressao de imagens (ver Secao 5.1).Se os espacos de imagens Vj sao iguais a Fun(E,T ), onde E ⊆ Z

2 e o conjunto de nıveis decinza T e igual a {0, . . . , 2k − 1}, a piramide de aberturas e dada por:

ψ↑ = σ↑αB (4.50)

ψ↓ = βBσ↓

0 (4.51)

Onde σ↑ e σ↓

0 sao os operadores descritos pelas equacoes (4.1) e (4.2), e αB e βB denotama abertura e o fechamento morfologico pelo elemento estruturante convexo B. Desta forma,o operador de analise consiste em aplicar uma abertura morfologica e em seguida fazer aamostragem, enquanto o operador de sıntese realiza uma interpolacao (inclui zeros entre ospixels) seguida por um fechamento. Os autores do artigo nao descrevem explicitamente aformulacao da piramide de fechamentos, mas sugerem que seja:

ψ↑ = σ↑βB (4.52)

ψ↓ = βBσ↓

0 (4.53)

A utilizacao do seguinte elemento estruturante nao-flat e sugerida no artigo:

B =

−a −b −a−b 0 −b−a −b −a

, (4.54)

onde a e b sao inteiros positivos, a ≤ b e a origem e o ponto de valor zero. Como o valorcentral e zero, ao aplicar a abertura ou o fechamento em regioes planas da imagem os valoresdos nıveis de cinza nao serao alterados.

23

Page 24: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

x3

x2 x2 y2

x1 x1 y1

x0 x0 y0

Figura 9: Piramide de Sun-Maragos (imagens de [11]). Foi feita mudanca de escala emalgumas imagens para facilitar a visualizacao.

4.13 Piramide baseada em amostragem “quincunx”

Em [16], Heijmans e Goutsias apresentam uma piramide de adjuncao morfologica para sinaisbidimensionais baseada em um esquema de amostragem denominado amostragem quincunx.

24

Page 25: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Seja S o conjunto dos pontos inteiros no plano, isto e, S = {(s1, s2) | s1, s2 ∈ Z}, e seja Qo subconjunto de S resultante apos a aplicacao da amostragem quincunx sobre S, ou seja,Q = {(q1, q2) | q1, q2 ∈ Z e q1 + q2 e par}. Alem disso, seja S′ ⊂ Q o conjunto resultante daaplicacao da amostragem quincunx sobre Q: S′ = {(s′1, s

′2) | s′1, s

′2 ∈ 2Z}.

Definimos as seguintes normas em S:

‖s‖1 = |s1| + |s2| e ‖s‖∞ = max{|s1|, |s2|}, (4.55)

onde s = (s1, s2) ∈ S. Considere as relacoes binarias

s→0 q sse ‖s− q‖1 ≤ 1 e q →1 s′ sse ‖q − s′‖∞ ≤ 1 (4.56)

em S ×Q e Q× S′, respectivamente. Tais relacoes sao ilustradas na Figura 10.

Figura 10: Relacoes de equivalencia

Defina os espacos de sinais V0 = Fun(S,T ) e V1 = Fun(Q,T ). Os operadores de analisee sıntese

ψ↑

0(x)(q) =∧

s:s→0q

x(s) (4.57)

ψ↓

0(x)(s) =∨

q:s→0q

x(q) (4.58)

formam uma adjuncao entre V0 e V1 e satisfazem a condicao de piramide. De forma similar,defina V2 = Fun(S′,T ) e os operadores de analise e sıntese

ψ↑

1(x)(s′) =

q:q→1s′

x(q) (4.59)

ψ↓

1(x)(q) =∨

s′:q→1s′

x(s′) (4.60)

25

Page 26: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

para obter uma adjuncao entre V1 e V2 que esta de acordo com a condicao de piramide. ComoS′ = 2S′, para obtermos nıveis subsequentes da piramide basta repetir o mesmo procedimentopara Q′ = 2Q e S′′ = 2S′.

A Figura 11 mostra dois nıveis da transformacao piramide correspondente. Os nıveisımpares da piramide sao exibidos apos uma rotacao de 45 graus no sentido anti-horario.

x2

x1 x1 y1

x0 x0 y0

Figura 11: Piramide usando amostragem “quincunx” (imagens de [16]).

4.14 Piramide de filtros alternados sequenciais

Os filtros alternados sequenciais (alternating sequential filters, ou ASF) [14] constituem umaclasse muito importante de filtros em Morfologia Matematica. Definimos um mapeamentoclose-open como a abertura seguida por um fechamento pelo elemento estruturante B:

MB(X) = (X ◦B) •B. (4.61)

Um filtro alternado sequencial consiste na aplicacao iterativa de MB

26

Page 27: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

ASF = MBNMBN−1

· · ·MB1, (4.62)

onde N e um inteiro, BN , BN−1, . . ., B1 sao elementos estruturantes de tamanhos diferentes,e BN ⊇ BN−1 ⊇ · · · ⊇ B1. Variacoes podem ser obtidas substituindo o operador close-open pelo open-close (fechamento seguido de abertura), close-open-close (fechamento seguidode abertura, seguida de fechamento) ou open-close-open (abertura seguida de fechamento,seguido de abertura).

Em [27, 28], e apresentado um esquema de decomposicao piramidal inspirado nos filtrosalternados sequenciais. A etapa de analise consiste em aplicar um filtro close-open seguidode uma amostragem diadica, enquanto na etapa de sıntese e feita uma interpolacao seguidapor uma dilatacao ou um fechamento. O elemento estruturante usado pelo filtro close-open emantido fixo em todos os nıveis da piramide; como existe amostragem de nıvel para nıvel, o re-sultado obtido e “similar” ao de um filtro alternado sequencial. Formalmente, a decomposicaoe dada por:

ψ↑ = σ↑MB (4.63)

ψ↓ = δKσ↓

0 ou ψ↓ = βKσ↓

0 (4.64)

onde σ↑ e σ↓

0 sao os operadores descritos pelas equacoes (4.1) e (4.2), δK e βK denotam adilatacao e o fechamento pelo elemento estruturante K, B e o elemento estruturante usadopelo operador close-open e K e o elemento estruturante usado na reconstrucao. Para estapiramide, K pode ser o quadrado 3 × 3 com centro na origem. Para uma formulacao maisprecisa das condicoes que devem ser satisfeitas por K, o leitor pode consultar [28].

4.15 Piramide de difusao anisotropica

Uma limitacao da piramide de Burt-Adelson e o borramento que surge nas imagens em virtudeda aplicacao do filtro passa-baixas. Tal borramento pode trazer alguns efeitos indesejaveis emalgumas aplicacoes, pois torna difıcil a deteccao precisa de bordas e pode levar a fusao de obje-tos. Visando contornar estas limitacoes, os autores de [31] propoem a utilizacao de piramidesnao-lineares para identificacao de objetos. Uma das alternativas sugeridas e uma piramide queusa operadores open-close (fechamento seguido de abertura), discutida no exemplo anterior.A outra alternativa consiste na utilizacao de filtros de difusao anisotropica [29].

A abordagem de identificacao de objetos apresentada no artigo envolve a criacao de umapiramide, mas sem a necessidade de reconstruir o sinal original x0. Desta forma, apenasa piramide de imagens {x0, x1, . . . , xk} e construıda. O operador de analise sugerido e ofiltro de difusao anisotropica seguido por uma amostragem. Ao contrario da filtragem passa-baixas usando uma Gaussiana, tal filtro tem a propriedade de suavizar regioes internas dosobjetos enquanto evita interacoes entre objetos distintos (a suavizacao e adaptativa, sendomais intensa no interior dos objetos do que nas bordas) [29]. O filtro de difusao anisotropicafoi inspirado na versao contınua da equacao do calor. A mudanca numa imagem I em relacao

27

Page 28: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

ao tempo (no nosso caso, a variacao de tempo e dada pelos nıveis da piramide) pode serescrita como:

∂I

∂t= div[c∇I], (4.65)

onde ∇ e o gradiente, div e o divergente e c e o coeficiente de difusao. Se c e constante, adifusao e isotropica, e a solucao da equacao e igual a convolucao por uma Gaussiana. Ja se cvaria de acordo com a magnitude do gradiente, a difusao e anisotropica e bordas podem serpreservadas. Porem, neste caso a equacao nao contem uma solucao fechada. Uma sugestaopara o caso discreto e a forma iterativa [29]

Ii,j,t+1 = Ii,j,t + λ(cN∇N + cS∇S + cE∇E + cW∇W ), (4.66)

onde λ e a taxa de suavizacao, e ∇N , ∇S, ∇E e ∇W sao os gradientes nas direcoes norte, sul,leste e oeste, isto e, nas direcoes dos quatro vizinhos do pixel (i, j) na imagem, considerandoa relacao de 4-vizinhanca. Os coeficientes c∗ sao os coeficientes de difusao, que devem crescermonotonicamente conforme a intensidade de seu respectivo gradiente diminui e devem estarno intervalo [0, 1].

4.16 Piramide da diferenca

Em [21], Kresch e Heijmans apresentam um exemplo de piramide morfologica interessantepara decompor imagens de diferenca, isto e, imagens obtidas a partir da diferenca entre duasfuncoes reais. Por exemplo, se IA e uma imagem e IB e uma imagem obtida a partir de umoperador de predicao da imagem IA, isto e, um operador que tem como objetivo estimar ovalor de IA, a diferenca IA − IB pode ser interpretada como um erro de predicao (os sinaisde detalhe de piramides de imagens sao exemplos de imagens de diferenca). Outro exemplointeressante aparece em processamento de vıdeo digital, onde a analise da diferenca entredois quadros sucessivos em uma sequencia permite extrair informacoes sobre mudancas nalocalizacao dos objetos.

A ordenacao pontual de imagens (equacao (2.1)) nao e apropriada para imagens de di-ferenca, pois esta ordenacao nao trata igualmente valores positivos e negativos. Entao,foi proposta a seguinte ordenacao, que nao apresenta este defeito: f ≤ g ⇔ f(x, y) =mediana{f(x, y), g(x, y), 0},∀x, y ∈ Z. Suponha entao que os espacos de sinais Vj = Fun(Z2,T )sejam munidos desta ordenacao. O seguinte operador e uma erosao de Vj em Vj+1:

ε(x)(m,n) = (0 ∨MIN) ∧MAX, (4.67)

onde

MIN = x(2m, 2n) ∧ x(2m+ 1, 2n) ∧ x(2m, 2n + 1) ∧ x(2m+ 1, 2n + 1), (4.68)

MAX = x(2m, 2n) ∨ x(2m+ 1, 2n) ∨ x(2m, 2n + 1) ∨ x(2m+ 1, 2n + 1), (4.69)

28

Page 29: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

e a dilatacao δ tal que (ε, δ) e uma adjuncao e dada por

δ(x)(2m, 2n) = δ(x)(2m + 1, 2n) =

δ(x)(2m, 2n + 1) = δ(x)(2m + 1, 2n + 1) = x(m,n). (4.70)

Se considerarmos os operadores de analise e sıntese ψ↑

j = ε e ψ↓

j = εjδj+1 = δ paratodo j, obtemos uma decomposicao piramidal denominada piramide da diferenca. Em [21]a piramide da diferenca e comparada a uma piramide linear, e observa-se que a primeirapreserva caracterısticas como bordas, ao contrario da segunda. A piramide linear tambemapresenta o efeito indesejado de criar diversos artefatos nas imagens.

4.17 Piramides com quantizacao

Suponha que os nıveis de cinza na base de uma piramide possam ser representados por nomaximo N bits, isto e, o conjunto T de nıveis de cinza e igual a TN = {0, 1, . . . , 2N − 1}.Suponha tambem que os espacos de sinais sao dados por Vj = Fun(E,TN−j), e defina [11]

ψ↑

j = qN−j e ψ↓

j = dN−j , (4.71)

onde qN−j : Vj → Vj+1 e dN−j : Vj+1 → Vj sao definidos como

qN−j(x)(n) = bx(n)

2c (4.72)

dN−j(x)(n) = 2 · x(n). (4.73)

Ou seja, conforme subimos da base para o topo da piramide o tamanho do intervalo denıveis de cinza e dividido por 2. Os operadores (ψ↑

j , ψ↓

j ) formam uma adjuncao entre Vj eVj+1. Piramides que envolvem quantizacao tem propriedades interessantes em aplicacoes decompressao e codificacao de imagens, que serao discutidas na Secao 5.1. Uma decomposicaopiramidal formada apenas pelos operadores de analise e sıntese de (4.71) pode ser consideradamultiresolucao no sentido de que a resolucao em profundidade das imagens varia de nıvel paranıvel da piramide. Abaixo, temos um exemplo que satisfaz a condicao de piramide e combinaquantizacao com as piramides de adjuncao morfologica, que mostramos anteriormente naSecao 4.10. Assim, obtemos uma decomposicao em que varia tambem a resolucao espacial.

4.17.1 Piramide morfologica com quantizacao

Considere a piramide de adjuncao morfologica flat, dada pelos operadores ψ↑ e ψ↓ das equacoes(4.44) e (4.45), onde Vj = Fun(Zd,TN ):

ψ↑(x)(n) =∧

k∈A

x(2n+ k) (4.74)

ψ↓(x)(k) =∨

n∈A[k]

x(k − n

2), (4.75)

29

Page 30: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Suponha que para algum a ∈ A, A[a] = {a}; logo, a condicao de piramide e satisfeita. DefinaV j = Fun(Zd,TN−j) e os operadores de analise e sıntese com quantizacao entre V j e V j+1:

ψ↑

j = qN−jψ↑

j e ψ↓

j = ψ↓

jdN−j . (4.76)

Ou seja,

ψ↑

j(x)(n) = b(∧

k∈A

x(2n + k))/2c (4.77)

ψ↓

j(x)(k) = 2(∨

n∈A[k]

x(k − n

2)). (4.78)

O par (ψ↑

j, ψ↓

j) constitui uma adjuncao entre V j e V j+1. Um exemplo de decomposicaoque pode ser feita usando operadores desta forma e a agregacao de uma etapa de quantizacaoa piramide de Haar morfologica [11].

5 Aplicacoes

Nesta secao, mostraremos algumas aplicacoes em processamento de imagens e visao compu-tacional em que sao usadas piramides de imagens.

5.1 Compressao e codificacao de imagens

Burt e Adelson propuseram em [4] um mecanismo de codificacao de imagens baseado na de-composicao piramidal pelas piramides Gaussiana e do Laplaciano. O metodo consiste emaplicar a transformacao piramide sobre a imagem x = x0 que se deseja codificar, obtendoimagens {xk, yk, yk−1, . . . , y1}. Em seguida, tais imagens sao codificadas visando economizarespaco (pode-se usar tecnicas de codificacao sem perda de informacao, como codigos de Huff-man, por exemplo). Para recuperar a imagem original novamente, e feita a decodificacao dasimagens da piramide e em seguida a imagem original e reconstruıda utilizando a transformacaopiramide inversa.

Se assumirmos que os valores dos pixels de uma imagem sao estatisticamente indepen-dentes, entao o numero mınimo de bits por pixel necessarios para codificar a imagem e dadopela entropia da distribuicao de valores dos pixels. Por exemplo, se estamos trabalhando comimagens cujos nıveis de cinza estao em {0, . . . , 255}, a entropia de uma imagem [4, 5] e dadapor

H = −

255∑

i=0

f(i) log2 f(i) (5.1)

onde f(i) denota a frequencia de ocorrencia do nıvel de cinza i na imagem. A codificacaodas imagens de detalhe (neste caso, das imagens da piramide do Laplaciano) ao inves da

30

Page 31: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

imagem original e justificada pelo fato de tais imagens serem a diferenca entre uma imageme o resultado de um processo de predicao desta. Com isso, grande parte da correlacao entreos pixels e removida, os valores dos pixels das imagens de detalhe concentram-se ao redor dozero, e a entropia dessas imagens e menor [4].

Burt e Adelson tambem sugerem o uso de quantizacao nas imagens de detalhe a fim dereduzir ainda mais a entropia, caso seja satisfatorio que a imagem reconstruıda seja apenasuma aproximacao da original (dependendo do processo de quantizacao utilizado, este podeintroduzir erros irrecuperaveis). Outra otimizacao que pode ser feita em termos de espaco,mas que tambem invalida a propriedade de reconstrucao perfeita e a remocao do primeiro sinalde detalhe y1 da piramide, contornando assim o problema da redundancia na representacaopor piramides de imagens.

A discussao acima mostra que, para obter uma boa taxa de compressao, e interessante geraruma piramide cujas imagens de detalhe possuem baixa entropia. Assim, existem na literaturaalguns trabalhos que exploram esta ideia para obter melhorias na taxa de compressao. Entreeles, podemos citar [5], que sugere que a utilizacao de piramides de aberturas ou fechamentosmorfologicos (Secao 4.12) gera imagens de detalhe com menor entropia.

Ja em [18] os autores observam o processo de geracao de uma piramide segundo a for-mulacao classica: a analise consiste em uma filtragem linear seguida de amostragem diadica,enquanto a sıntese e constituıda por interpolacao (zeros sao incluıdos entre as amostras) se-guida por filtragem linear. Entao, e sugerido que, dentro desta classe de piramides, se osfiltros lineares dos operadores de analise e sıntese forem as convolucoes pelas mascaras g e habaixo, respectivamente, entao a piramide de imagens de detalhe tem entropia mınima:

g =

0 0 0 0 00 0 0 0 00 0 1 0 00 0 0 0 00 0 0 0 0

(5.2)

h =

0 0 0 0 00 1/4 1/2 1/4 00 1/2 1 1/2 00 1/4 1/2 1/4 00 0 0 0 0

(5.3)

A decomposicao obtida e chamada pelos autores de piramide de entropia minimal (minimalentropy pyramid, ou MEP).

5.2 Transmissao progressiva

As piramides de imagens podem ser usadas de forma natural em aplicacoes de transmissaoprogressiva de uma imagem [4]. Neste tipo de transmissao, primeiro e enviada uma repre-sentacao grosseira da imagem, a fim de que o receptor tenha uma ideia sobre o seu conteudo.

31

Page 32: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

Em seguida, transmissoes subsequentes proporcionam detalhes da imagem em resolucao cadavez mais fina. Se desejar, o receptor pode interromper a transmissao assim que a imagemalcancar um nıvel satisfatorio de detalhe.

Suponha que a imagem x0 sera transmitida desta forma. No no de origem da transmissao,x0 e decomposta em imagens {xk, yk, yk−1, . . . , y1} pela aplicacao da transformacao piramide.Entao, primeiramente e transmitida a imagem xk de menor resolucao, e em seguida as imagensde detalhe yk, yk−1, . . . , y1 sao enviadas progressivamente. No no receptor, a reconstrucao daimagem x0 tambem e feita progressivamente, conforme as imagens yj+1 sao recebidas. A cadarecepcao de uma imagem yj+1, e feita a aplicacao do operador de sıntese ψ↓

j (xj+1) (onde xj+1 ea imagem que ja foi reconstruıda ate o momento) e o resultado e adicionado a yj+1 para obterxj. A imagem xj passa por um processo de interpolacao antes de ser exibida para o usuariocom a resolucao de x0. Com isso, a imagem exibida para o usuario no no receptor e atualizadaprogressivamente, ate que todas as imagens de detalhe sejam transmitidas, resultando naimagem x0. Ou seja, a imagem vai “entrando em foco” gradativamente. A Figura 12 ilustraeste fato.

Figura 12: Transmissao progressiva. A imagem “entra em foco” gradativamente [4]

Tambem e interessante notar que tecnicas de codificacao de imagens podem ser usadassobre as imagens transmitidas, para economizar tempo na transmissao.

5.3 Localizacao de objetos

Na literatura encontramos alguns trabalhos que utilizam piramides de imagens em aplicacoesde localizacao de objetos [31, 23, 38]. Neste tipo de aplicacao o objetivo e determinar aposicao de um ou mais objetos de interesse numa dada imagem. O uso de piramides pro-porciona ganhos em eficiencia computacional atraves de estrategias de busca “coarse-to-fine”(da resolucao mais grosseira em direcao a resolucao mais fina). Em linhas gerais, este tipode estrategia consiste em, de posse da representacao piramidal de uma imagem (nao e ne-cessaria a geracao das imagens de detalhe, basta a sequencia de imagens {x0, . . . , xk}, paraalgum k em que ainda seja possıvel reconhecer as caracterısticas da imagem), iniciar a buscapelo objeto de interesse na imagem de menor resolucao, obtendo assim uma estimativa daposicao do objeto. Tal estimativa e usada para guiar a busca no nıvel seguinte (de maiorresolucao) na piramide: o objeto e procurado na regiao correspondente a localizacao obtidana resolucao mais grosseira (eventualmente incluindo uma pequena vizinhanca ao redor desta

32

Page 33: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

regiao). Repete-se o procedimento ate chegarmos a base da piramide, que contem a imagemde maior resolucao. Desta forma, conforme prosseguimos do topo para a base da piramide aestimativa da localizacao do objeto e refinada, e a procura apenas nas regioes correspondentesaos pontos obtidos faz com que computacionalmente este metodo seja mais eficiente do quefazer uma unica busca na imagem de maior resolucao.

O artigo [31] explora piramides nao-lineares em conjunto com uma estrategia de templatematching baseado em bordas para identificar objetos. Os autores mostram resultados ex-perimentais comparando piramides nao-lineares com a piramide linear de Burt e Adelson econcluem que neste tipo de aplicacao as decomposicoes que utilizam operadores nao-lineareslevam a resultados melhores com custo computacional equivalente, devido a preservacao de es-truturas como bordas. Ja em [23], e construıda uma piramide a partir da imagem do objeto deinteresse e uma piramide a partir da imagem onde se quer fazer a busca, e um procedimento detemplate matching entre imagens das duas piramides e realizado. A decomposicao piramidalutilizada e a piramide de Haar, e uma variacao da estrategia de busca coarse-to-fine baseadaem um procedimento de descida do gradiente e sugerida. Outro trabalho que usa estrategiasde busca coarse-to-fine e [38], onde e apresentado um algoritmo para perseguicao (tracking) deobjetos em vıdeo que faz decomposicoes piramidais de todos os quadros da sequencia e, paracada dois quadros sucessivos, trabalha com a informacao dada pelas duas piramides sucessivaspara determinar a mudanca de localizacao de um objeto de forma multiresolucao.

5.4 Projeto multiresolucao de operadores morfologicos

Recentemente, tecnicas de aprendizado computacional supervisionado tem sido utilizadas noprojeto de operadores morfologicos atraves de exemplos [2, 37]. Em linhas gerais, a ideia con-siste em encontrar um operador morfologico otimo (de menor erro) ψot dentro de uma famıliade operadores Ψ, a partir de um conjunto de exemplos de treinamento (pares que indicam,para uma dada entrada do operador, qual deve ser sua saıda). Neste tipo de metodologia, aqualidade do operador projetado depende fortemente da quantidade de exemplos utilizados,sendo esta de natureza exponencial com respeito a complexidade do problema. Uma formade resolver isto e atraves da restricao do espaco de busca do operador, durante o processo deaprendizado.

A especificacao de restricoes e um ponto chave no projeto estatıstico de operadores. Se arestricao for especificada de forma adequada, isto pode melhorar sensivelmente a qualidadedo operador projetado. Porem, e importante lembrar que ao utilizarmos restricoes, o projetoautomatico estima o operador otimo dentro da restricao; este pode ser diferente do operadorotimo obtido sem a aplicacao de restricoes, inclusive podendo ter um erro maior. Dependendoda diferenca entre esses operadores, o ganho com a diminuicao no erro de estimacao pode seranulado pelo aumento do erro do operador otimo estimado. Esta relacao entre o erro deestimacao e o erro do operador otimo exerce papel crucial no projeto de operadores atravesde restricoes.

Uma restricao bastante utilizada na pratica consiste em fazer a busca por W -operadores,isto e, operadores invariantes por translacao e localmente definidos por uma janela W . Esta

33

Page 34: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

ultima condicao faz com que o resultado do operador em um ponto dependa apenas dosvalores da imagem de entrada em uma vizinhanca dele, dada por W . Desta forma, podemosver o operador como um mapeamento do espaco de possıveis configuracoes observadas nasimagens atraves da janela W em um conjunto de nıveis de cinza. Assim, o problema e umcaso particular do problema de reconhecimento de padroes, em que queremos encontrar umclassificador de menor erro que atribua classes yi, onde yi denota um nıvel de cinza no conjuntode saıda do operador, as configuracoes xi observadas nas imagens de entrada sob a janela W(que podem ser vistas como vetores de caracterısticas).

Em [7], foi introduzida uma tecnica de projeto estatıstico de operadores morfologicos ba-seada em restricoes de resolucao, que atraves da exploracao de conhecimento a priori permitediminuir a quantidade de exemplos necessarios para se obter uma boa estimacao. Tal tecnicaequilibra o erro de estimacao com o custo de restricao, atraves do uso de um esquema pira-midal.

Sejam D0, D1 e D2 espacos de configuracoes relacionados pelos mapeamentos de resolucaoρ01 : D0 → D1 e ρ12 : D1 → D2, onde as configuracoes emD1 possuem menor resolucao do queas de D0, e as de D2 possuem menor resolucao do que as de D1. Tais mapeamentos definemclasses de equivalencia: para x, x′ ∈ D0, x ∼1 x

′ ⇔ ρ01(x) = ρ01(x′), e para w,w′ ∈ D1,

w ∼2 w′ ⇔ ρ12(w) = ρ12(w

′). Podemos definir o mapeamento de resolucao ρ2 : D0 → D2 como

ρ2 = ρ12ρ01, ou seja, ρ2 : D0ρ01

→ D1ρ12

→ D2. Generalizando, e possıvel definir uma sequencia deespacos de configuracoes D1,D2,D3, . . . de menor resolucao do que D0 com seus respectivosmapeamentos de resolucao ρ01, ρ12, ρ23, . . ., com ρ(k−1)k : Dk−1 → Dk, e podemos definir osmapeamentos de resolucao ρi : D0 → Di como ρi = ρ(i−1)i · · · ρ12ρ01. Estes mapeamentosdeterminam o esquema piramidal de multiresolucao, e podem ser construıdos baseando-se nosoperadores de analise de uma piramide de imagens: ρ(j−1)j = ψ↑

j−1 para j ≥ 1.Seja ψk o operador otimo sobre a restricao Qρk

, definida por Dk e ρk, ou seja, ψ0 e ooperador otimo no espaco D0, ψ1 e o operador otimo sobre Qρ1

, definida por D1 e ρ1, e assimpor diante. A metodologia do projeto de operadores restritos por resolucao consiste em obterum estimador ψN,k (N indica o numero de amostras usadas no treinamento) de ψk, sobreo espaco de configuracoes Dk, e aplica-lo as configuracoes observadas em D0. Este metodopermite fazer a estimacao numa resolucao menor quando se suspeita que a estimacao seraruim numa resolucao maior.

Os erros de estimacao do operador otimo sobre D0 devem-se ao erro de estimacao tantopara as configuracoes x ∈ D0 encontradas nos pares de treinamento quanto para as naoencontradas nos pares de treinamento. O primeiro caso corresponde ao problema de estimacaode uma esperanca a partir de uma amostra. Ja no segundo caso, o erro depende da metodologiaadotada para generalizar a estimacao para configuracoes nao encontradas.

O projeto piramidal de operadores propoe resolver o segundo caso pela restricao de re-solucao, usando a estimacao sobre D0 quando os exemplos sao suficientes, e usando o ma-peamento de resolucao ρk fazendo as estimacoes sobre Dk quando x nao foi encontrado nosexemplos. Ou seja, se em D0 temos uma boa estimacao do operador otimo, usamos o operadorψN,0. Ja se a estimativa for ruim ou nao tivermos dados suficientes para faze-la, pode ser

34

Page 35: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

interessante usar ψN,k.O projeto de operadores hıbridos multiresolucao pode ser visto como uma tecnica de ge-

neralizacao; a generalizacao para as configuracoes nao observadas em um nıvel da piramidee dada pelos nıveis subsequentes. Seja N(x) o numero de vezes que a configuracao x foiobservada nos exemplos. O operador e definido como

ψN,(0,1,...,m)(x) =

ψN,0(x), se N(x) > 0ψN,1(ρ1(x)), se N(x) = 0, N(ρ1(x)) > 0

...ψN,m−1(ρm−1(x)), se N(x) = 0, . . . , N(ρm−2(x)) = 0, N(ρm−1(x)) > 0ψN,m(ρm(x)), se N(x) = 0, . . . , N(ρm−1(x)) = 0

(5.4)Podemos alterar a definicao para exigir que N(x) ≥ δ para algum limiar δ ao inves de

simplesmente verificar se N(x) > 0, para evitar uma estimacao ruim do operador desejado.

6 Consideracoes finais e trabalho futuro

As piramides de imagens constituem uma tecnica bastante importante na criacao de decom-posicoes multiresolucao em visao computacional e processamento de imagens. Neste texto,vimos diversos exemplos de decomposicoes piramidais. As diferentes propriedades apresenta-das pelas decomposicoes fazem com que para uma dada aplicacao alguns tipos de piramidespossam ser mais adequados do que outros. Cada piramide define uma maneira de fazermapeamentos entre imagens de diferentes resolucoes, e a escolha da melhor piramide parauma determinada aplicacao pode ser uma tarefa bastante complicada. Em geral, tal escolhadepende do conhecimento do projetista sobre o domınio da aplicacao.

A formalizacao da teoria feita por Heijmans e Goutsias inclui diversos tipos de decom-posicoes piramidais encontrados na literatura como casos particulares, e o arcabouco ma-tematico tambem e adequado para representar algumas decomposicoes multi-escala que naoenvolvem mudanca de resolucao, como os esqueletos morfologicos e granulometrias.

As primeiras piramides propostas eram lineares. Tais piramides sao importantes em di-versas aplicacoes, mas quando e necessario preservar informacao geometrica (por exemplo,bordas) entre as diversas resolucoes da piramide os resultados obtidos podem ser insatis-fatorios devido ao borramento gerado pelos filtros passa-baixas. Isto serviu como motivacaopara o estudo de esquemas de decomposicao nao-lineares, entre eles as piramides morfologicas.Alem das propriedades citadas nos exemplos apresentados, as piramides morfologicas sao inte-ressantes pelo fato de sempre mapearem valores de pixels inteiros em valores inteiros, e nuncagerarem imagens de aproximacao {xj}, j ≥ 1 com valores fora do intervalo de nıveis de cinzada imagem original x0 [11].

No projeto multiresolucao de operadores morfologicos (ou classificadores multiresolucao),a piramide fixada determina os mapeamentos de resolucao, e, consequentemente, as classes deequivalencia. A escolha desta piramide exerce influencia direta sobre a qualidade do classifi-

35

Page 36: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

cador projetado. Como parte do meu projeto de mestrado, atualmente estamos trabalhandoem uma tecnica para a escolha automatica, com base em exemplos de treinamento, da melhorpiramide (a que, ao ser usada no projeto de classificadores multiresolucao, fara com que oclassificador projetado tenha menor erro) entre as piramides de um conjunto fornecido pelousuario. Ate o momento, foram realizadas algumas implementacoes e testes considerandomapeamentos de resolucao compostos por uma simples amostragem (o que varia de piramidepara piramide sao os subconjuntos de pixels escolhidos na amostragem). Temos alguns re-sultados experimentais promissores para o problema de filtragem de ruıdo multi-escala dotipo sal e pimenta em imagens binarias. Em continuidade ao trabalho, as decomposicoes pi-ramidais estudadas serao implementadas, constituindo uma biblioteca de piramides. Assim,teremos uma ferramenta para selecionar automaticamente, para um dado conjunto de exem-plos de treinamento, a melhor piramide dentre um subconjunto das piramides disponıveis nabiblioteca escolhido pelo usuario. Tambem esta em nossos planos a realizacao de testes comimagens em nıveis de cinza e coloridas.

As wavelets [6, 24] constituem outra classe de decomposicoes multiresolucao de imagens.No futuro, pode ser interessante investigar a utilizacao de wavelets como regras de deter-minacao dos mapeamentos de resolucao no projeto de classificadores multiresolucao.

Tambem como parte de meu projeto de mestrado, temos como objetivo realizar o reconhe-cimento de gestos em vıdeo digital. Para tal, investigaremos a viabilidade de utilizar ModelosMarkovianos Ocultos (Hidden Markov Models, ou HMMs) [30] em conjunto com classificadoresmultiresolucao.

A Execucao do plano de estudos

No plano de estudos, foi proposto um estudo sobre piramides de imagens com base na bi-bliografia indicada. Inicialmente, todos os artigos da bibliografia foram analisados, e, dos 17artigos propostos, cinco foram descartados pois seu conteudo nao era relacionado aos nossosinteresses. Os 12 artigos restantes [4, 5, 10, 15, 16, 12, 18, 21, 23, 27, 31, 38] foram estudados,com enfase nas secoes mais relevantes ao nosso trabalho. Alem disso, um artigo ([28]) e umrelatorio tecnico ([11]) tambem foram estudados, e alguns livros foram consultados.

Referencias

[1] G. J. F. Banon and J. Barrera. Bases da Morfologia Matematica para a Analise deImagens Binarias. IX Escola de Computacao, Recife, 1994.

[2] J. Barrera, E. R. Dougherty, and N. S. Tomita. Automatic Programming of BinaryMorphological Machines by Design of Statistically Optimal Operators in the Context ofComputational Learning Theory. Electronic Imaging, 6(1):54–67, January 1997.

36

Page 37: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

[3] C. Blakemore and F. W. Campbell. On the existence of neurones in the human visualsystem selectively sensitive to the orientation and size of retinal images. J. Physiol.(Lond.), 203:237–260, 1969.

[4] P. J. Burt and E. H. Adelson. The Laplacian Pyramid as a Compact Image Code. IEEETransactions on Communications, COM-31(4):532–540, April 1983.

[5] H. Ching-Han and C.-C. J. Kuo. Multiresolution Image Decomposition and CompressionUsing Mathematical Morphology. In 1993 Conference Record of The Twenty-SeventhAsilomar Conference on Signals, Systems and Computers, volume 1, pages 21–25, PacificGrove, CA, USA, November 1993.

[6] I. Daubechies. Ten Lectures on Wavelets. Society for Industrial and Applied Mathema-tics, 1992.

[7] E. R. Dougherty, J. Barrera, G. Mozelle, S. Kim, and M. Brun. Multiresolution Analysisfor Optimal Binary Filters. Journal of Mathematical Imaging and Vision, 14(1):53–72,2001.

[8] J. Gomes and L. Velho. Image Processing for Computer Graphics. Springer-Verlag, 1997.

[9] R. C. Gonzalez and R. E. Woods. Digital Image Processing. Addison-Wesley PublishingCompany, 2nd edition, 2002.

[10] J. Goutsias and H. J. A. M. Heijmans. An Axiomatic Approach to MultiresolutionSignal Decomposition. In Proceedings of the IEEE International Conference on ImageProcessing, Chicago, Illinois, October 1998.

[11] J. Goutsias and H. J. A. M. Heijmans. Multiresolution Signal Decomposition Schemes –Part 1: Linear and Morphological Pyramids. Technical report, Centrum voor Wiskundeen Informatica (CWI), 1998.

[12] J. Goutsias and H. J. A. M. Heijmans. Nonlinear Multiresolution Signal DecompositionSchemes – Part I: Morphological Pyramids. IEEE Transactions on Image Processing,9(11):1862–1876, November 2000.

[13] H. Hadwiger. Minkowskische Addition und Subtraktion beliebiger Punktmengen und dieTheoreme von Erhard Schmidt. Math. Zeitschrift, 53:210–218, 1950.

[14] H. J. A. M. Heijmans. Morphological Image Operators. Academic Press, Boston, Massa-chusetts, 1994.

[15] H. J. A. M. Heijmans and J. Goutsias. Some Thoughts on Morphological Pyramids andWavelets. In Proceedings of the IX European Signal Processing Conference, Island ofRhodes, Greece, September 1998.

37

Page 38: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

[16] H. J. A. M. Heijmans and J. Goutsias. Morphological Pyramids and Wavelets Based onthe Quincunx Lattice. In Proceedings of the 5th International Symposium on Mathemati-cal Morphology and Its Applications to Image and Signal Processing - ISMM’2000, PaloAlto, June 2000.

[17] H. J. A. M. Heijmans and A. Toet. Morphological Sampling. Computer Vision, Graphicsand Image Processing: Image Understanding, 54:384–400, 1991.

[18] D. Houlding and J. Vaisey. Low Entropy Image Pyramids for Efficient Lossless Coding.IEEE Transactions on Image Processing, 4(8):1150–1153, August 1995.

[19] J. M. Jolion and A. Rosenfeld. A Pyramid Framework for Early Vision. Kluwer AcademicPublishers, 1994.

[20] R. Kresch. Morphological Image Representation for Coding Applications. PhD thesis,Technion Israel Institute of Technology, Haifa, 1995.

[21] R. Kresch and H. J. A. M. Heijmans. Adjunctions in Pyramids, Curve Evolution andScale-Spaces. International Journal on Computer Vision, pages 139–151, 2003.

[22] T. Lindeberg. Scale-Space Theory in Computer Vision. Kluwer Academic Publishers,1994.

[23] J. MacLean and J. Tsotsos. Fast Pattern Recognition Using Gradient-Descent Searchin an Image Pyramid. In Proceedings of the 15th International Conference on PatternRecognition, Barcelona, Spain, September 2000.

[24] S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, San Diego, California,1998.

[25] P. Maragos. Pattern Spectrum and Multiscale Shape Representation. IEEE Transactionson Pattern Analysis and Machine Intelligence, 11:701–716, 1989.

[26] H. Minkowski. Volumen und Oberflache. Math. Ann., 57:447–495, 1903.

[27] A. Morales and R. Acharya. An Image Pyramid with Morphological Operators. InProceedings of CVPR ’91, pages 526–531, 1991.

[28] A. Morales, R. Acharya, and S.-J. Ko. Morphological Pyramids with Alternating Se-quential Filters. IEEE Transactions on Image Processing, 4(7):965–977, July 1995.

[29] P. Perona and J. Malik. Scale-space and Edge Detection using Anisotropic Diffusion.IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(7):629–639, July1990.

[30] L. R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition. Proceedings of the IEEE, 77(2):257–286, February 1989.

38

Page 39: Pirˆamides de Imagens - Semantic Scholar€¦ · aparecem em uma imagem, pode ser vantajoso analis´a-los em mu´ltiplas resoluc¸oes [9]. A mudanc¸a de resoluc¸ao tamb´em pode

[31] C. A. Segall, W. Chen, and S. T. Acton. Nonlinear Pyramids for Object Identification.In Thirtieth Asilomar Conference on Systems, Signals and Computers, Pacific Grove,California, November 1996.

[32] J. Serra. Image Analysis and Mathematical Morphology. Academic Press, 1982.

[33] J. Serra. Image Analysis and Mathematical Morphology II: Theoretical Advances. Aca-demic Press, 1988.

[34] X. Song and Y. Neuvo. Image Compression using Nonlinear Pyramid Vector Quantiza-tion. Multidimensional Systems and Signal Processing, 5:133–149, 1994.

[35] F.-K. Sun and P. Maragos. Experiments on Image Compression using MorphologicalPyramids. In Visual Communications and Image Processing ’92, volume 1199 of SPIEProceedings, Philadelphia, Pennsylvania, 1989.

[36] A. Toet. A Morphological Pyramidal Image Decomposition. Pattern Recognition Letters,9:255–261, 1989.

[37] N. S. Tomita. Programacao automatica de maquinas morfologicas binarias baseada emaprendizado PAC. Master’s thesis, IME-USP, Fevereiro de 1996.

[38] J. Z. Zhang and Q. M. J. Wu. A Pyramid Approach to Motion Tracking. Real-TimeImaging, 7(6):529–544, December 2001.

39