Milena Menezes Adao~

PONTIFICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS

Programa de Pos-Graduacao em Informatica

Milena Menezes Adao

Avaliacao de aprendizado de maquina aplicado ao

realinhamento de hierarquias para segmentacao de imagens

Belo Horizonte

2019

Milena Menezes Adao

Avaliacao de aprendizado de maquina aplicado ao

realinhamento de hierarquias para segmentacao de imagens

Dissertacao apresentada ao Programa dePos-Graduacao em Informatica da PontifıciaUniversidade Catolica de Minas Gerais, comorequisito parcial para obtencao do tıtulo deMestre em Informatica.

Orientador: Prof. Dr. Zenilton KleberGoncalves do PatrocınioJunior

Belo Horizonte

2019

FICHA CATALOGRÁFICA

Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais

Adão, Milena Menezes

A221a Avaliação de aprendizado de máquina aplicado ao realinhamento de

hierarquias para segmentação de imagens / Milena Menezes Adão. Belo

Horizonte, 2019.

88 f. : il.

Orientador: Zenilton Kleber Gonçalves do Patrocínio Júnior

Dissertação (Mestrado) – Pontifícia Universidade Católica de Minas Gerais.

Programa de Pós-Graduação em Informática

1. Processamento de imagens - Técnicas digitais. 2. Estruturas de dados

(Computação). 3. Teoria dos grafos. 4. Smartphones - Tecnologia apropriada.

5. Redes neurais (Computação). I. Patrocínio Júnior, Zenilton Kleber Gonçalves

do. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-

Graduação em Informática. III. Título.

CDU: 681.3.093

Ficha catalográfica elaborada por Fernanda Paim Brito - CRB 6/2999

Belo Horizonte, 30 de maio de 2019.

Aos meus pais, Valeria e Joaquim, por

todo amor e por tudo que me ensinaram.

AGRADECIMENTOS

Agradeco primeiramente a Deus, que em sua infinita sabedoria colocou pessoas tao

especiais em minha vida. A fe no Senhor, sem duvidas, me ajudou a lutar ate o fim.

Meus agradecimentos aos meus pais, Joaquim e Valeria, pelo amor, dedicacao,

pelos valores que me ensinaram e por tudo que sempre fizeram por mim.

Agradeco a minha irma Ludmila, pela amizade, carinho, por todo incentivo e apoio

constantes.

A minha sobrinha, Maria Julia, que nasceu durante o desenvolvimento deste

trabalho e me proporcionou, ainda mais, entusiasmo e amor.

Ao meu marido Farney, pelo companheirismo, pelo carinho, e por ter se esforcado

tanto, quando precisei me dedicar somente aos estudos.

Agradeco ao Zenilton pelas orientacoes, pela paciencia e por ser uma inspiracao de

profissional.

Meus agradecimentos a minha tia Walquıria, por sempre me incentivar nos estudos.

As minhas primas Laila e Lorena, e a minha avo Neuza, por estarem sempre

presentes.

A todos os professores do programa de pos graduacao pelos ensinamentos, em

especial ao professor Sılvio, que sempre esteve disposto a ajudar.

A todos os colegas do programa de pos graduacao, manifesto aqui minha gratidao

eterna por todo apoio.

A todos os meus amigos e familiares que torceram por mim, meus sinceiros

agradecimentos!

”O mais importante e bonito, do mundo, e

isto: que as pessoas nao estao sempre iguais,

ainda nao foram terminadas - mas que elas

vao sempre mudando. Afinam ou desafinam,

verdade maior. E o que a vida me ensinou..”

Guimaraes Rosa

RESUMO

Devido a popularizacao dos smartfones, que permitem a captura de imagens, e a

disseminacao das redes sociais, que permitem o compartilhamento de multimıdias, uma

quantidade significativa de imagens e gerada e disponibilizada em bases de dados todos

os dias. Portanto, existe a necessidade de processar imagens em grande quantidade de

maneira eficiente e eficaz. A segmentacao de imagens e uma das tecnicas fundamentais

para o processamento e analise de conteudo visual. Atualmente, metodos de segmentacao

hierarquica de imagens vem atraindo a atencao da comunidade cientifica de processamento

digital de imagens. Estes metodos retornam um conjunto de segmentacoes de imagens

com diferentes nıveis de detalhes, de modo que os nıveis pouco detalhados podem ser

produzidos a partir da fusao entre as regioes de nıveis mais detalhados. No entanto,

os objetos podem ser localizados em diferentes nıveis hierarquicos devido as diferencas

de tamanho ou as distintas distancias da camera. Na literatura, muitos trabalhos vem

sendo desenvolvidos para melhorar os resultados finais dos metodos de segmentacao

hierarquica de imagens. Uma solucao possıvel e realinhar a hierarquia de modo que

cada regiao que contem um objeto (ou suas partes) esteja no mesmo nıvel. Neste

trabalho, exploramos o uso de floresta aleatoria e redes neurais artificiais como modelos de

regressores para prever valores de score de regioes pertencentes a uma hierarquia, os quais

sao utilizadas para realinha-la. A presenta dissertacao objetivou responder a seguinte

questao: qual e o impacto gerados nos resultados de segmentacao hierarquica apos o

processo de realinhamento de hierarquias ao treinar florestas aleatorias e redes nerais com

diferentes configuracoes e com diferentes descritores de regioes? Alem disso, foi proposto

nessa dissertacao um novo calculo de score. A partir de resultados experimentais foi

possıvel concluir que a utilizacao de diferentes abordagens de aprendizado de maquina com

diferentes arquiteturas e diferentes descritores influenciam na qualidade dos treinamentos.

Alem disso, percebeu-se que a utilizacao do realinhamento de hierarquias pode melhorar

os resultados finais da segmentacao de imagens. Analisando as duas abordagens de

aprendizado de maquinas foi possıvel perceber que as florestas aleatorias apresentam

resultados mais estaveis que as redes neurais. Porem, o melhor resultado foi alcancado

quando se utilizou rede neural artificial. Ao observar que no treinamento as regioes de

algumas imagens foram preditas com um erro absoluto relativamente maior que os demais,

uma analise detalhada foi feita nessas imagens, o que acarretou em uma proposta de

alteracao no calculo de score para a abordagem de realinhamento de hierarquias e uma

melhoria de 39,5% no MSE.

Palavras-chave: Segmentacao hierarquica de imagens. Aprendizado de maquina.

ABSTRACT

Due to the popularity of smartphones, which enable the capture of images, and

the dissemination of social networks that allow the sharing of multimedia, a significant

amount of images are generated and made available in databases every day. Given this,

there is a need to process large quantities of images efficiently and effectively. Image

segmentation is one of the fundamental techniques for processing and analyzing visual

content. Currently, hierarchical image segmentation methods have attracted the attention

of the scientific community of digital image processing. These methods return a set of

image segmentations with different levels of detail, so that poorly detailed levels can be

produced by merging between regions at more detailed levels. However, objects can be

located at different hierarchical levels due to differences in size or different distances of

the camera. In the literature, many works have been developed to improve the final

results of hierarchical image segmentation methods. One possible solution is to realign

the hierarchy so that each region containing an object (or its parts) is at the same level. In

this work, we explore the use of random forest and artificial neural networks as regressor

models to predict score values for regions belonging to a hierarchy of partitions, which are

used to realign it. The present dissertation aimed to answer the following question: what

is the impact generated in the results of hierarchical segmentation after the process of

realigning hierarchies when training random forests and nets with different configurations

and with different region descriptors? Three experiments were performed to answer this

question. In addition, a new calculation of score was proposed in this dissertation. From

the experimental results it was possible to conclude that the use of different machine

learning approaches with different configurations and different descriptors influences the

quality of training. It was also possible to observe that the use of hierarchical realignment

can improve the final results of the segmentation of images. Analyzing the two approaches

to machine learning, it was possible to perceive that the random forests present more

stable results than the neural networks, because it acted better when more trees were

used in the forests. However, the best result was achieved when using neural networks

with three layers and two neurons. When observing that in the training the regions of

some images were predicted with a relatively greater absolute error than the others, a

detailed analysis was done in these images, which entailed in a proposal of alteration in

the calculation of score of the approach of realignment of hierarchies. Based on the new

proposal, experiment 4 was carried out, which resulted in an improvement of 39.5

Keywords: Hierarchical image segmentation. Machine learning.

LISTA DE FIGURAS

FIGURA 1 – Imagem original (a) e sua segmentacao (b) . . . . . . . . . . . . . . . . . . . . . . . . 14

FIGURA 2 – Exemplo de resultado obtido de um metodo de segmentacao hierarquica

de imagem, representado por uma arvore, e suas segmentacoes em diferentes

nıveis de detalhes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

FIGURA 3 – Exemplo de resultado obtido por um metodo de segmentacao

hierarquica de imagem: (a) imagem original, (b) representacao por UCM. . 15

FIGURA 4 – Exemplos de segmentacoes de uma imagem em diferentes nıveis

hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

FIGURA 5 – Exemplos de segmentacoes de uma imagem em diferentes nıveis

hierarquicos e a ilustracao das regioes que foram pouco segmentadas,

excessivamente segmentadas e devidamente segmentadas . . . . . . . . . . . . . . . . 18

FIGURA 6 – Ilustracao do problema e o realinhamento de hierarquias . . . . . . . . . . . . 19

FIGURA 7 – Imagem convertida para representacao em um modelo de coordenadas 23

FIGURA 8 – Exemplo da relacao de vizinhanca 4-vizinhos e 8-vizinhos . . . . . . . . . . . 25

FIGURA 9 – Exemplo da relacao de conectividade entre pixels de uma imagem . . . . 26

FIGURA 10 – Exemplo de Componentes Conexos em uma Imagem . . . . . . . . . . . . . . 27

FIGURA 11 – Exemplo de imagem (a) e a representacao da sua regiao (b), e da

borda da regiao (c) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

FIGURA 12 – Exemplos de grafo (a) e dıgrafo (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

FIGURA 13 – Grafo (a) e um exemplo de subgrafo relacionado a ele(b) . . . . . . . . . . 30

FIGURA 14 – Exemplo de mascara para deteccao de ponto . . . . . . . . . . . . . . . . . . . . . 33

FIGURA 15 – Mascara para deteccao de bordas horizontais (a), Mascara para

deteccao de retas verticais (b), Mascara para deteccao de retas diagonais

(c e d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

FIGURA 16 – Gradiente em borda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

FIGURA 17 – Grafo (a) e sua arvore geradora mınima (b) . . . . . . . . . . . . . . . . . . . . . 38

FIGURA 18 – Ilustracao da avaliacao de similaridade entre os pixels . . . . . . . . . . . . . 39

FIGURA 19 – Exemplo do resultado do processo de segmentacao com estrategia

hierarquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

FIGURA 20 – Exemplo de uma hierarquia de zonas quasi-flat . . . . . . . . . . . . . . . . . . . 43

FIGURA 21 – Exemplo de matriz de confusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

FIGURA 22 – Exemplo de arvore de decisao que determina se uma pessoa deve ir a

praia ou nao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

FIGURA 23 – Esquema basico de uma neuronio artificial . . . . . . . . . . . . . . . . . . . . . . . 49

FIGURA 24 – Exemplos de funcoes de ativacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

FIGURA 25 – Esquema basico de em MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

FIGURA 26 – Metodologia da abordagem de realinhamento de hierarquias . . . . . . . . 57

FIGURA 27 – Exemplo de imagem, ground-truth de segmentacao e ground-truth de

borda da base de dados BSDS500 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

FIGURA 28 – Analise dos regressores RN E RF em relacao ao resultado esperado e

o resultado predito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

FIGURA 29 – Analise dos regressores RN E RF em relacao ao resultado esperado e

o resultado predito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

FIGURA 30 – Exemplos de resultados antes e depois do realinhamento com as

segmentacoes do valor de escala igual a 0,5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

FIGURA 31 – Exemplo de segmentacao que obteve alta taxa de erro . . . . . . . . . . . . . 77

FIGURA 32 – Diferentes ground-truths referentes a imagem 31(b) . . . . . . . . . . . . . . . 78

FIGURA 33 – Exemplos de resultados antes e depois do realinhamento com as

segmentacoes do valor de escala igual a 0,5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

LISTA DE TABELAS

TABELA 1 – Media dos resultados antes e depois da aplicacao do metodo de

realinhamento de hierarquias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

TABELA 2 – Variacoes das configuracoes dos regressores e das caracterısticas

extraıdas utilizadas nos treinamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

TABELA 3 – MSE medio dos resultados obtidos das predicoes realizadas com

florestas aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

TABELA 4 – Resultados do tempo medio de execucao dos treinamentos das florestas

aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

TABELA 5 – Resultados do tempo medio de execucao da predicao com florestas

aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

TABELA 6 – Variacoes das configuracoes dos regressores e das caracterısticas

extraıdas utilizadas nos treinamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74


realinhamento de hierarquias com as segmentacoes do metodo HGB . . . . . . 74


realinhamento de hierarquias levando-se em consideracao os ground-truths

realizados por diferentes humanos para cada imagem . . . . . . . . . . . . . . . . . . 78

TABELA 9 – Medidas de segmentacao para diferentes estrategias de avaliacao apos

o processo de realinhamento usando Scoreki . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

LISTA DE ABREVIATURAS E SIGLAS

UCM – Ultrametric Countorn Map

RF – Random Forest

AGM – arvore geradora mınima

RGB – red, green e blue

SUMARIO

1 INTRODUCAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.4 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.5 Contribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6 Organizacao da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 REFERENCIAL TEORICO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1 Imagem Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.1 Relacionamentos basicos entre pixels . . . . . . . . . . . . . . . . . . . . . . 24

2.1.1.1 Vizinhanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.1.1.2 Conectividade e Adjacencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.1.1.3 Componentes Conexos, Regioes e Bordas . . . . . . . . . . . . . . . . . . . . 26

2.2 Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2.1 Conceitos Basicos sobre Teoria dos Grafo . . . . . . . . . . . . . . . . . . 28

2.2.1.1 Tipos basicos de vertices e arestas . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.1.2 Grafo conexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.1.3 Subgrafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.1.4 Passeio, Trilha, Caminhos, Ciclo . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.2 Arvores e Arvores Geradoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.2.1 Corte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.2.2 Arvores Geradoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.2.3 Arborencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.3 Segmentacao de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4 Segmentacao de Imagens Baseada em Deteccao de Descontinuidade 32

2.4.1 Deteccao de Ponto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4.2 Deteccao de Linha ou Reta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4.3 Deteccao de Borda ou contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4.3.1 Operadores de Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4.4 Metodo Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.5 Segmentacao de Imagens baseada em Grafos . . . . . . . . . . . . . . . . . . . 37

2.5.1 Metodo GB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.6 Segmentacao Hierarquica de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.6.1 Metodo HGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.6.2 Metodo gPb-owt-ucm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.7 Aprendizado de Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.7.1 Representacao por arvore de decisao . . . . . . . . . . . . . . . . . . . . . . . 46

2.8 Florestas aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.9 Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.1 Realinhamento de Hierarquias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Avaliacao de Segmentacao Hierarquica de imagens . . . . . . . . . . . . . . 55

4 AVALIACAO DE APRENDIZADO DE MAQUINA APLICADO AOREALINHAMENTO DE HIERARQUIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1 Etapa de Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1.1 Selecao da base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1.2 Segmentacao hierarquica de imagens . . . . . . . . . . . . . . . . . . . . . . . 57

4.1.3 Descritores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1.3.1 Extracao de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1.3.2 Calculo das Rotulagens (Scores) . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.1.4 Treinamento do Regressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.2 Etapa de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.2.1 Predicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3 Realinhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 EXPERIMENTOS E ANALISES DOS RESULTADOS . . . . . . . . . . . . . . . 63

5.1 Ambiente de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.2 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Metricas de avaliacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.3.1 Metricas de avaliacao da segmentacao . . . . . . . . . . . . . . . . . . . . . 64

5.3.2 Metrica de avaliacao dos regressores . . . . . . . . . . . . . . . . . . . . . . . 66

5.4 Organizacao dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.5 Resultados do Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.6 Resultados do Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69



6 CONCLUSOES E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . 83

REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

13

1 INTRODUCAO

Segundo Pedrini e Schwartz (2007), o constante avanco das tecnologias tem

possibilitado recursos computacionais cada vez mais poderosos para a manipulacao de

imagens, consequentemente, esta circunstancia contribui para a evolucao da area de

processamento e analise de imagens. Nos ultimos anos, houve um aumento significativo

de imagens digitais armazenadas e disponibilizadas em bases de dados. Esse crescimento

pode ser observado pela popularizacao dos smartphones, uma vez que essa tecnologia

facilita a captura de imagens. O estudo Google Consumer Barometer 1 realizado no ano

de 2017, mostrou que em 2012, 14% da populacao brasileira possuıa smartphones, ja em

2017, o numero atingiu 67% da populacao. O estudo ainda comprovou que 70% desses

usuarios utilizavam os smartphones, pelo menos uma vez por semana, para se conectarem

as redes sociais. Essa disseminacao das redes sociais tambem pode ser vista como

uma contribuicao para o aumento da quantidade de imagens digitas, pois possibilitam

o compartilhamento de dados. Segundo estatısticas do Instagram2 (rede social voltada

para o compartilhamento de fotos e vıdeos), entre os anos de 2010 e 2011, 14 milhoes

de usuarios foram registrados na plataforma e compartilharam cerca de 400 milhoes de

imagens. Em fevereiro de 2015, a rede social contava com mais de 300 milhoes de contas

registradas e 70 milhoes de novas imagens eram publicadas diariamente. Em fevereiro de

2019, estimou-se que 500 milhoes de usuarios acessaram a plataforma todos os dias. Sendo

assim, processar imagens em grande quantidade, de maneira eficiente e eficaz, se tornou

um dos desafios para a comunidade cientıfica de processamento e digital de imagens.

A literatura mostra que as tecnicas de processamento digital de imagens sao

aplicadas em diversas areas do conhecimento, o que acarreta avancos para a ciencia,

para a industria e para a sociedade. Alguns dos exemplos de areas de aplicacao citados

por Pedrini e Schwartz (2007) foram a medicina, que recorre ao processamento digital de

imagens para auxiliar nos diagnosticos dos pacientes por meio de analises e interpretacoes

das imagens obtidas de exames, como: raio-X, tomografia, ultra-sonografia e ressonancia

magnetica; a area militar, que faz uso das tecnicas de processamento e analise de

imagens para, por exemplo, rastrear alvos para lancamento de mısseis; e a localizacao e

interpretacao de placas de veıculos para controle de pedagios, reconhecimento de veıculos

irregulares e medicao do fluxo de transito. Para Gonzalez e Woods (2001), as areas de

aplicacao do processamento digital de imagens sao muito variadas e quase nao ha area de

atuacao tecnica que nao seja impactada pelo mesmo.

Pedrini e Schwartz (2007) afirmaram que um sistema de processamento digital de

imagens e constituıdo por um conjunto de etapas. Para os autores, a etapa de segmentacao

1https://www.consumerbarometer.com/en/trending/2https://instagram-press.com/

14

e um requisito fundamental para que as informacoes de um sistema de analise de imagens

sejam confiaveis. Afinal, como os mesmos definiram, a segmentacao realiza a extracao e

identificacao da area de interesse existente em uma imagem. Ou ainda, como apresentaram

Gonzalez e Woods (2001), a segmentacao e responsavel pela subdivisao de uma imagem

em suas regioes ou objetos constituintes. E por fim, como esclarecem Pratti (2001), a

segmentacao de uma imagem implica na divisao ou separacao da imagem em regioes de

atributo similar, ressaltando que esta etapa apenas subdivide uma imagem, o que nao

envolve qualquer tipo de reconhecimento ou interpretacao. Para melhor abstracao deste

conceito, a Figura 1 ilustra uma imagem segmentada pelo metodo HGB de Guimaraes et

al. (2017) , de modo que, 1(b) representa o resultado de segmentacao da imagem 1(a).

Assim, e possıvel perceber que cada parte da imagem original foi devidamente dividida e

apresentada com uma cor diferente.

Figura 1 – Imagem original (a) e sua segmentacao (b)

(a) (b)

Fonte: Elaborada pela autora

O uso de metodos hierarquicos, segundo Souza et al. (2014), Belo et al. (2016),

Rodrigues et al. (2017), ajudaram a melhorar os resultados para diferentes tarefas. Por

sua vez, a segmentacao hierarquica de imagens e tambem bastante utilizada na literatura.

Guimaraes et al. (2017) definiram a segmentacao hierarquica como sendo um conjunto

de segmentacoes em diferentes nıveis de detalhe, de modo que as segmentacoes em nıveis

de detalhe mais grosseiros podem ser produzidas a partir de simples fusoes de regioes

das segmentacoes em nıveis de detalhe mais refinados. Uma maneira simples de entender

este conceito esta disposto na Figura 2, a qual faz uma analogia do resultado de uma

segmentacao hierarquica representada por uma arvore, com o mapa do Brasil, que sao

as imagens segmentadas resultantes dos cortes na horizontal realizados em cada nıvel da

hierarquia. Observa-se que o primeiro nıvel hierarquico foi composto por apenas uma

regiao, que representa o Brasil. Ja no segundo nıvel hierarquico a regiao anterior foi

apresentada com mais detalhes, entao foi possıvel visualizar as 5 macrorregioes brasileiras.

Por sua vez, no terceiro nıvel foi possıvel visualizar os detalhes de cada macrorregioes

brasileira, que sao os estados.

15

Figura 2 – Exemplo de resultado obtido de um metodo de segmentacaohierarquica de imagem, representado por uma arvore, e suas segmentacoesem diferentes nıveis de detalhes


Uma das maneiras de visualizar o resultado de uma segmentacao hierarquica e

realizando cortes na hierarquia, como exemplificado na Figura 2, ou ainda, utilizando

metodos mais sofisticados, como os mapas de contorno ultrametrico (ARBELAEZ, 2006) e

os mapas de saliencia (COUSTY et al., 2018), os quais permitem uma boa visibilidade dos

resultados englobando todos os nıveis hierarquicos. Nestes ultimos tipos de representacoes,

as regioes da segmentacao sao delimitadas por bordas codificadas em escalas de cinza.

Assim, a intensidade do cinza representa em qual nıvel da hierarquia a respectiva borda

(des)aparece. A Figura 3 exemplifica um resultado representados por um mapa de

contorno ultrametrico (Ultrametric Countorn Map (UCM)).

Figura 3 – Exemplo de resultado obtido por um metodo de segmentacaohierarquica de imagem: (a) imagem original, (b) representacao por UCM.

(a) (b)


16

Na literatura, muito tem sido feito com intuito de melhorar as segmentacoes

das imagens. Ao mesmo tempo, o aprendizado de maquina vem sendo empregado em

diferentes tarefas com intuito de solucionar problemas bastante complexos. O trabalho de

Chen et al. (2016b), por exemplo, deu inıcio a novas investigacoes a respeito de metodos

hierarquicos, dado que os autores propuseram a utilizacao de abordagens de aprendizado

de maquina para melhorar as hierarquias resultantes dos metodos de segmentacao.

A literatura sobre todas as etapas do processamento digital de imagens e bastante

ampla e uma revisao completa esta alem do escopo proposto nesta dissertacao. Portanto,

o conteudo deste trabalho esta focado na segmentacao hierarquica de imagens. Neste

Capıtulo serao apresentadas a motivacao para a realizacao dessa pesquisa (ver Secao 1.1),

a definicao do problema em questao (ver Secao 1.2), os objetivos 1.3) e a justificativa

do trabalho 1.4) . Por fim, serao apresentadas as suas contribuicoes na Secao 1.5 e a

organizacao da dissertacao na Secao 1.6.

1.1 Motivacao

Zhang e Yang (2008) definiriam o problema de segmentacao de imagens como o

processo de dividir um conjunto de pixels de uma imagem em grupos distintos, de modo

que cada um deles possa representar algum objeto (ou parte do objeto) presentes na

imagem. Entao, Martin et al. (2001) forneceram a um grupo de pessoas o conceito citado

anteriormente para que os mesmos pudessem realizar as anotacoes (ground-truth) em

uma base de imagens. Os autores observam que o problema de segmentacao estava bem

definido, visto que os humanos conseguiram particionar as imagens em regioes e, ainda,

conseguiram gerar regioes mais refinadas particionadas a partir de regioes iniciais. Sendo

assim, o problema de segmentacao pode ser considerado um problema multiescala.

As abordagens de segmentacao de imagens sao denominadas, simplesmente, como

segmentacao, quando produzem um unico particionamento da imagem (SHI; MALIK, 2000;

COMANICIU; MEER, 2002; FELZENSZWALB; HUTTENLOCHER, 2004). Entretanto, para

capturar a natureza multiescala das regioes e necessario que o processo de segmentacao

retorne multiplas particoes que apresentam mais detalhes de cada regiao, de modo que

as particoes se encontrem em diferentes nıveis (ou escalas). A segmentacao hierarquica,

por sua vez, produz uma unica estrutura multiescala, a qual pode ser denominada como

hierarquia de particao (SALEMBIER; GARRIDO, 2000; ARBELAEZ et al., 2011; GUIMARAES;

PATROCINIO JR, 2013; GUIMARAES et al., 2017; PONT-TUSET et al., 2017). As estruturas

hierarquicas sao aplicadas com sucesso em diferentes problemas, tais como: segmentacao

semantica (LEMPITSKY; VEDALDI; ZISSERMAN, 2011; FARABET et al., 2013), deteccao de

objetos salientes (ZOU; KOMODAKIS, 2015), geracao de propostas de objetos (PONT-TUSET

et al., 2017), segmentacao de vıdeo (XU; WHITT; CORSO, 2013; SOUZA et al., 2013, 2014,

17

2015; VARAS; ALFARO; MARQUES, 2015; SOUZA et al., 2016), sumarizacao de vıdeos (BELO

et al., 2014, 2016), cossegmentacao de vıdeos (RODRIGUES et al., 2017), entre outros.

Pesquisas recentes apontaram que o reconhecimento de escalas ajudam a melhorar

o resultado final em muitas tarefas de visao computacional (CHEN et al., 2016b; JIE et al.,

2016; HAO et al., 2017; LI et al., 2018). Sendo assim, o processo de se obter a melhor

segmentacao possıvel de uma hierarquia de particoes e de fundamental importancia.

Dessa forma, este trabalho tem como principal motivacao a necessidade de se obter uma

segmentacao hierarquica na qual uma unica limiarizacao se torna capaz de extrair (a

maioria) segmentos correspondendo aos objetos presentes na imagem.

1.2 Problema

As hierarquias sao normalmente suscetıveis a poucas segmentacoes, em nıveis

de detalhes mais grosseiros e a excessivas segmentacoes em nıveis mais refinados.

Consequentemente, objetos (ou mesmo partes do mesmo objeto) podem aparecer em

nıveis hierarquicos diferentes. Um exemplo deste problema esta exposto na Figura 4,

de modo que, a imagem que representa o Ground-Truth e a segmentacao desejada, Krepresenta o valor do nıvel hierarquico no qual houve um corte horizontal, e as demais

imagens representam as segmentacoes obtidas pelos cortes referentes a cada um dos Kvalores.

Figura 4 – Exemplos de segmentacoes de uma imagem em diferentes nıveishierarquicos

Ground-Truth

(a) K=0.1 (b) K=0.2 (c) K=0.3


A Figura 5 ilustra com mais detalhes quais regioes das segmentacoes representadas

nas Figuras 4(a), 4(b) e 4(c) foram pouco segmentadas, excessivamente segmentadas e

devidamente segmentadas em relacao ao Ground-Truth ilustrado na Fgura 4.

18

Figura 5 – Exemplos de segmentacoes de uma imagem em diferentes nıveishierarquicos e a ilustracao das regioes que foram pouco segmentadas,excessivamente segmentadas e devidamente segmentadas

(a)Ground-Truth K=0.1 (c)Pouco (d)Excessivo (e)Devidamente




Na tentativa de lidar com o problema dos objetos e suas partes aparecerem

em nıveis hierarquicos diferentes, Guiges, Cocquerez e Men (2006), Cousty e Najman

(2014) propuseram explorar o uso de cortes nao horizontais nas hierarquias. Uma outra

alternativa apresentada por Xu, Whitt e Corso (2013) foi nivelar a hierarquia em uma

segmentacao unica. E, finalmente, Chen et al. (2016b) propuseram modificar o resultado

final de um algoritmo hierarquico. A ultima ideia apresentada consiste em modificar

as escalas de observacao, ou seja, modificar os nıveis hierarquicos em que as regioes se

encontram, para que (quase) todos objetos (e suas partes) possam ficar no mesmo nıvel

(ou escala).

A Figura 6 exemplifica o problema citado anteriormente e ilustra uma possıvel

solucao que seria o resultado desejado apos a aplicacao do metodo de realinhamento de

hierarquias proposto por Chen et al. (2016b).

Chen et al. (2016b) propuseram o metodo de realinhamento de hierarquias que

consiste em utilizar o aprendizado de maquina para prever se cada regiao da segmentacao

e pouco segmentada, muito segmentada ou devidamente segmentada, e entao, realinhar a

hierarquia de acordo com essas rotulagens. Esses rotulos sao valores definidos no intervalo

[-1,1], sen do assim, se o rotulo for um valor negativo, significa que a regiao foi pouco

19

Figura 6 – Ilustracao do problema e o realinhamento de hierarquias


segmentada, enquanto um valor positivo indica que a regiao foi muito segmentada e 0 a

regiao foi devidamente segmentada. Em seu trabalho, os autores empregaram florestas

aleatorias com 100 arvores para analisar regioes. Contudo, existe a necessidade de se

estudar e avaliar a utilizacao de diferentes metodos de aprendizagem de maquina na

melhoria dos resultados da segmentacao hierarquica de imagens, bem como, o impacto

da utilizacao de diferentes combinacoes de caracterısticas que descrevem as regioes das

segmentacoes, e ainda, analisar o comportamento dos metodos de aprendizagem de

maquina com diferentes configuracoes.

1.3 Objetivos

O objetivo deste trabalho e explorar e avaliar a utilizacao de florestas aleatorias e

redes neurais como ferramentas de regressao para prever se as regioes de uma hierarquia

de particoes foram muito, pouco ou devidamente segmentadas e, posteriormente, realinhar

as hierarquias com base nessas previsoes. Sendo assim, durante o desenvolvimento deste

trabalho pretende-se responder a seguinte questao:

Questao 1. Qual e o impacto gerado nos resultados de segmentacao hierarquica apos o

processo de realinhamento das hierarquias ao treinar florestas de aleatorias e redes neurais

com diferentes configuracoes e com diferentes descritores de regioes?

Alem disso, neste trabalho tambem foi proposto um novo calculo de score, o qual

determina se as regioes de uma hierarquia sao muito, pouco ou devidamente segmentadas.

20

Para isso foram definidos os seguintes objetivos especıficos:

Treinar florestas de aleatorias e redes neurais com diferentes configuracoes e com

diferentes descritores para as regioes;

a)

Avaliar a qualidade de cada um dos treinamentos realizados;b)

Realizar a predicao para rotular se as regioes sao muito, pouco ou devidamente

segmentados;

c)

Analisar os resultados obtidos das predicoes em relacao aos resultados esperados;d)

Realizar o realinhamento das hierarquias de particoes a partir das rotulagens

preditas;

e)

Analisar e avaliar os resultados das segmentacoes hierarquicas realinhadas e

comparar com a literatura;

f)

Treinar um regressor utilizando os resultados obtidos a partir do novo calculo de

score proposto;

g)

Avaliar a qualidade do treinamentos realizados utilizando os resultados obtidos a

partir do novo calculo de score proposto;

h)

Comparar os resultados das hierarquias realinhadas ao utilizar o calculo de score

proposto por Chen et al. (2016b) com os resultados das hierarquias realinhadas ao

utilizar o calculo de score proposto neste trabalho.

i)

1.4 Justificativa

A segmentacao de imagem e uma etapa fundamental para muitas abordagens que

utilizam as tecnicas de processamento digital. A segmentacao em sua versao hierarquica

tem sido bastante utilizada na literatura, uma vez que o problema de segmentacao

pode ser considerado um problema multiescala. Sendo assim, muitos trabalhos vem

21

sendo desenvolvidos com intuito de melhorar as hierarquias de particoes. Diante desses

trabalhos, uma interessante ideia, desenvolvido por Chen et al. (2016b) foi realinhar

resultados de segmentacoes hierarquicas utilizando florestas aleatorias com 100 arvores e

alguns descritores de regioes para predizer se as regioes sao muito, pouco ou devidamente

segmentadas e, entao, realinhar a hierarquia de acordo com estas rotulagens. Com isso,

os autores alcancaram interessantes melhorias nos resultados de segmentacao hierarquica.

Porem, o metodo foi testado em apenas um metodo de aprendizado de maquina, com

apenas uma configuracao e tambem com apenas um conjunto de descritores. Sendo assim,

surge a necessidade de se avaliar a abordagem de realinhamento em cenarios diferentes.

Por isso, alem das florestas aleatorias utilizou-se outra abordagem de aprendizado de

maquina, as redes neurais, que vem sendo cada vez mais exploradas na literatura na

tentativa de solucionar diferentes problemas, ate mesmo os mais complexos.

Na literatura, as redes neurais e as florestas aleatorias sao aplicadas com diferentes

configuracoes (quantidade de camadas e neuronios, no caso das redes neurais, e quantidade

de arvores, no caso das florestas aleatorias), portanto, nao se tem ao certo qual seria

a melhor configuracao para o problema de determinar se uma regiao e muito, pouco

ou devidamente segmentada. Entao, neste trabalho os metodos de aprendizado foram

explorados em diferentes cenarios, os quais serao mostrados adiante. Paralelamente a

isso, tambem nao se tem ao certo qual e o melhor conjunto de descritores para as regioes,

por isso, houve a necessidade de investigar o impacto ao utilizar diferentes conjuntos de

descritores de regioes no processo de aprendizado.

Resumidamente, o processo de realinhamento de hierarquias depende dos

resultados das predicoes que definem se uma regiao e muito, pouco ou devidamente

segmentada. Sendo assim, torna-se necessario avaliar a qualidade do preditor que ira

retornar esses resultados, analisar os resultados retornados pelo mesmo e, ainda, analisar

a qualidade das segmentacoes geradas apos utilizar estes mesmos resultados no processo

de realinhamento de hierarquias.

1.5 Contribuicoes

As principais contribuicoes deste trabalho sao: analise de como o processo de

realinhamento de hierarquias impacta nas segmentacao de imagens; analise da qualidade

das predicoes obtidos por redes neurais e florestas aleatorias para rotular se uma regiao e

muito, pouco, ou devidamente segmentada, bem como a analise de como elas atuam em

diferentes configuracoes e com diferentes caracterısticas; analise de como a utilizacao de

diferentes conjuntos de caracterısticas no treinamento podem influenciar nas segmentacoes

finais do processo de realinhamento de hierarquias;um novo calculo de score para definir a

rotulagem das regioes; analise de como a utilizacao de ground-truth realizado por diferentes

22

pessoas para uma mesma imagem no processo de treinamento podem influenciar nos

resultados finais do processo de realinhamento de hierarquias.

1.6 Organizacao da dissertacao

Essa dissertacao esta organizada da seguinte maneira: no Capıtulo 2 e apresentado

o referencial teorico e os trabalhos relacionados levantados por meio de uma revisao da

literatura. No Capıtulo 3 e descrita a metodologia utilizada para o desenvolvimento da

pesquisa. No Capıtulo 4 sao apresentados os experimentos e as analises dos resultados.

Por fim, no Capıtulo 6 sao apresentadas as conclusoes.

23

2 REFERENCIAL TEORICO

Este Capıtulo tem como proposito introduzir os principais conceitos e trabalhos

relacionados com a presente dissertacao.

2.1 Imagem Digital

Pedrini e Schwartz (2007) definiram uma imagem como uma funcao f(x, y), sendo

o valor fornecido pelas coordenadas espaciais (x, y) a intensidade ou o brilho da imagem

naquele determinado ponto. Neste contexto, a intensidade luminosa e o produto entre a

quantidade de luz incidente na cena (iluminancia) e a quantidade de luz refletida pelos

objetos em cena (reflectancia). Em resumo, a equacao 2.1 apresenta a definicao da funcao

f(x, y), de modo que i representa a iluminancia e r a reflectancia.

f(x, y) = i(x, y)r(x, y). (2.1)

A Figura 7 exemplifica uma imagem e sua representacao no modelo de coordenadas

espaciais, onde a coordenada (0, 0) (localizada no canto superior esquerdo da imagem)

e a origem da imagem.

Figura 7 – Imagem convertida para representacao em um modelo decoordenadas


Uma imagem digital, segundo Pedrini e Schwartz (2007), pode ser obtida a partir do

processo de digitalizacao que consiste das etapas de amostragem e quantizacao. A etapa

de amostragem e responsavel por discretizar as coordenadas (x, y), do domınio da definicao

de imagem, para uma matriz de (M×N) elementos, de modo que a dimensao M da matriz

24

corresponde ao eixo x da imagem e a dimensaoN corresponde ao eixo y da mesma imagem.

Para imagens monocromaticas (em tons de cinza), a etapa de quantizacao envolve definir

um valor inteiro L de nıveis de cinza para cada elemento (x, y) (ou pixel) da imagem.

Os nıveis de cinza, comumente, podem ser convertidos em um valor do intervalo [0,255],

atribuindo a cor preta o valor 0 (nıvel mais escuro de cinza) e a cor branca o valor 255

(nıvel mais claro de cinza). Para imagens multespectrais (coloridas), a quantizacao pode

ser realizada atribuindo a cada pixel os nıveis de vermelho ou red (R), verde ou green (G)

e azul ou blue (B), tendo entao tres componentes.

Torres e Falcao (2006) definem uma imagem digital I como sendo um par (DI ,~I),

de modo que:

• DI representa um conjunto finito de pixels ;

• ~I:DI 7→Rn representa uma funcao que atribui para cada pixel p em DI um vetor~I(p) ∈ Rn (por exemplo, ~I(p) ∈ R3 quando uma cor no modelo RGB e atribuıda a

um pixel).

Sendo assim, DI representa as coordenadas (x, y) amostradas, enquanto o vetor ~I,

representa a quantizacao de cada pixel p da imagem, que no exemplo em questao assume

um valor real nos nıveis de R, G e B.

2.1.1 Relacionamentos basicos entre pixels

Os pixels de uma imagem digital se relacionam entre si de diferentes maneiras e em

diferentes situacoes. Nesta Secao, serao apresentados alguns dos tipos de relacionamentos

mais comuns.

2.1.1.1 Vizinhanca

Dentre os tipos de relacionamentos de vizinhanca entre os pixels de uma imagem,

presentes na literatura, dois deles serao abordados: 4-vizinhos e 8-vizinhos. Gonzalez

e Woods (2001) explicaram que na relacao 4-vizinhos, um pixel p nas coordenadas

(x, y) possui dois vizinhos horizontais e dois vizinhos verticais, os quais se localizam nas

coordenadas estabelecidas na Equacao 2.2; e, na relacao 8-vizinhos, existem outros quatro

vizinhos diagonais (ver Equacao 2.3), alem dos quatro definidas anteriormente.

(x+ 1, y), (x− 1, y), (x, y + 1), (x, y − 1). (2.2)

(x+ 1, y + 1), (x+ 1, y − 1), (x− 1, y + 1), (x− 1, y − 1). (2.3)

25

A Figura 8 exemplifica os dois tipos de vizinhancas mencionados de acordo com as

respectivas coordenadas (ver Equacoes 2.2 e 2.3).

Figura 8 – Exemplo da relacao de vizinhanca 4-vizinhos e 8-vizinhos


Gonzalez e Woods (2001) ressaltaram que alguns dos pixels vizinhos podem nao existir se

(x, y) estiver localizado na borda da imagem.

2.1.1.2 Conectividade e Adjacencia

A conectividade entre pixels e um conceito fundamental que simplifica a definicao

de inumeros conceitos a respeito de imagem digital, tais como regioes e limites (GONZALEZ;

WOODS, 2001). De acordo com Pedrini e Schwartz (2007), para verificar se existe

conectividade entre dois pixels, e preciso determinar se eles sao vizinhos e se o valor

atribuıdo a eles satisfazem um criterio especıfico de similaridade (cor, textura, nıvel

de cinza e outros). Pedrini e Schwartz (2007) tambem determinaram que se existe

conectividade entre dois elementos, significando que eles sao adjacentes.

Logo, a sequencia de pixels adjacentes existentes entre o pixel p com coordenadas

(x, y) ate o pixel q com coordenadas (s, t), e definida por (GONZALEZ; WOODS, 2001) como

uma sequencia de pixels distintos com coordenadas: (x0, y0), (x1, y1), ..., (xn, yn) onde os

pixels (xi, yi) e (xi+1, yi+1) sao adjacentes, e n e o tamanho do caminho.

A Figura 9 ilustra os conceitos abordados nesta Secao, de maneira que, os pixels

destacados em vermelho, possuem a relacao de conectividade por obedecerem algum

criterio de similaridade e por serem vizinhos. Sendo assim, pode-se concluir que os

pixels referentes as coordenadas (x, y) e (x, y − 1), por exemplo, sao adjacentes. Pode-se

tambem estabelecer que o caminho entre o pixel com coordenada (x, y−1) ate o pixel com

26

coordenada (x+1, y+1) corresponde a seguinte sequencia: (x, y−1), (x, y), (x+1, y+1),

possui tamanho igual a 2.

Figura 9 – Exemplo da relacao de conectividade entre pixels de uma imagem


2.1.1.3 Componentes Conexos, Regioes e Bordas

Conforme Pedrini e Schwartz (2007) abordaram, um subconjunto de pixels C de

uma imagem em que seus elementos possuem conectividade entre si e denominado como

componente conexo. Portanto, seja C um subconjunto de pixels em uma imagem, dois

pixels p e q sao ditos estarem conexos em C, se existe um caminho entre eles consistido

apenas por pixels de C (GONZALEZ; WOODS, 2001).

A Figura 10 exemplifica uma imagem com tres componentes conexos, se a condicao

de vizinhanca considerada for 4-vizinhos; ou dois componentes conexos, se a condicao de

vizinhanca considerada for 8-vizinhos.

Gonzalez e Woods (2001) definiram a regiao R de uma imagem como sendo um

componente conexo na mesma; e a borda (ou contorno) da regiaoR, como sendo o conjunto

de pixels na regiao que tem um ou mais vizinhos que nao estao em R. Em outras palavras,

segundo Pedrini e Schwartz (2007), a borda da regiao R corresponde ao conjunto de pixels

localizados no contorno de R. A Figura 11 mostra um exemplo da abstracao dos conceitos

de regiao e borda de uma imagem.

27

Figura 10 – Exemplo de Componentes Conexos em uma Imagem


Figura 11 – Exemplo de imagem (a) e a representacao da sua regiao (b), e daborda da regiao (c)

(a)

(b) (c)


2.2 Grafo

Simoes-Pereira (2014), definiu um grafo G = (V,E) como um sistema constituıdo

por:

28

• um conjunto V cujos elementos sao denominados vertices;

• um conjunto E de pares nao ordenados de vertices, denominados arestas, os quais

unem pares de vertices de V . Sendo assim, uma aresta (x, y) faz a ligacao entre os

vertices x e y.

E comum se usar a notacao V (G) ou E(G) ao se referir ao conjunto de vertices ou de

arestas de um grafo G.

Nicoletti e Hruschka (2013) ressaltam que para se ter um grafo o conjunto de

vertices nao pode ser vazio, porem pode existir grafo com conjunto de arestas vazio, o

qual e chamado de grafo nulo.

Simoes-Pereira (2014) apresentou um outro tipo de grafo, o dıgrafo D = (V,A),

que por sua vez foi definido como um sistema semelhante ao grafo, porem neste, A e um

conjunto de arcos e nao de arestas, onde o arco (x, y) faz a ligacao entre os vertices x e

y apontando a direcao da ligacao. Para melhor entendimento destes conceitos, a Figura

12 exemplifica um grafo e um dıgrafo. Vale ressaltar, que na Figura 12(a) o conjunto de

vertices V e composto pelos vertices V 1, V 2 e V 3 e o conjunto de arestas E pelos pares

[(V 1, V 2), (V 2, V 3), (V 3, V 4)]; na Figura 12(a), o conjunto de vertices V e composto pelos

vertices V 1, V 2 e V 3 e o conjunto de arcos A pelos pares [(V 1, V 2),(V 2, V 1), (V 2, V 3),

(V 3, V 4)].

Figura 12 – Exemplos de grafo (a) e dıgrafo (b)

(a) (b)


2.2.1 Conceitos Basicos sobre Teoria dos Grafo

Nesta Secao serao apresentados alguns conceitos basicos sobre a teoria dos grafos.

29

2.2.1.1 Tipos basicos de vertices e arestas

Nicoletti e Hruschka (2013) apresentaram alguns conceitos basicos a respeito dos

tipos de vertices e arestas em um grafo, como:

• duas ou mais arestas de G podem ser conectadas ao mesmo par de vertice x e y,

denominando-se arestas paralelas;

• vertices de G que nao sao unidos por nenhuma aresta sao denominados vertices

isolados;

• um par de vertice de G unidos por uma aresta sao chamados de vertices adjacentes

ou vizinhos;

• arestas distintas de G podem ser chamadas de adjacentes se possuem um vertice em

comum;

• o conjunto de todos os vizinhos (vertices adjacentes) de um vertice x de G e chamado

de conjunto vizinhanca de x;

• um grafo e chamado de simples se nao possui loops e nao possui arestas paralelas;

• uma aresta e e incidente a um vertice x ou um vertice x e incidente a aresta e, se x

e conectado por e.

2.2.1.2 Grafo conexo

Um grafo G = (V,E) nao vazio e chamado grafo conexo se existir um caminho

entre qualquer par de vertices de V (SIMOES-PEREIRA, 2014).

2.2.1.3 Subgrafo

Segundo Simoes-Pereira (2014), um grafo G′ = (V ′, E ′) e um subgrafo de G =

(V,E) quando V ′ ⊆ V e E ′ ⊆ E, como exemplifica a Figura 13.

2.2.1.4 Passeio, Trilha, Caminhos, Ciclo

Muitos problemas que podem ser resolvidos por meio da teoria dos grafos partem

da possibilidade de chegar em um vertice do grafo a partir de outro vertice (NICOLETTI;

HRUSCHKA, 2013).

Segundo Simoes-Pereira (2014), um passeio entre os vertices x e y de um grafo G e

uma sequencia alternada de vertice e arestas que se inicia em x e termina em y. Quando

30

Figura 13 – Grafo (a) e um exemplo de subgrafo relacionado a ele(b)

(a) (b)


se trata de um passeio, pode ocorrer repeticao de vertices e arestas na sequencia, caso

exista repeticao somente de arestas entao a sequencia e denominada como trilha e, por

fim, se nao exista repeticao de vertices nem de arestas, tem-se um caminho. Um caminho

cujo vertice de origem e igual ao do vertice destino e chamado de ciclo.

2.2.2 Arvores e Arvores Geradoras

Segundo Nicoletti e Hruschka (2013), aplicacoes computacionais utilizam com

frequencia o conceito de arvores para organizar conjuntos de dados. Os autores definiram

uma arvore como sendo um grafo G = (V,E) de modo que:

• G e acıclico, ou seja, nao contem ciclos;

• G e conexo;

Alem disso, G e considerado uma floresta se for acıclico, independente de ser conexo ou

nao.

2.2.2.1 Corte

Seja G = (V,E) um grafo conexo e um vertice v, tal que G− v ≡ H = (V − v, E−(v, w) ∈ E | w ∈ V − v) seja desconexo. Uma aresta (x, y), e um aresta de corta em G, se

G− (x, y) ≡ H = (V,E | (x, y)) for desconexo. Uma aresta unica que faz a ligacao entre

duas partes de um grafo, de modo que se ela for removida provoca um grafo com duas

partes disjuntas, e denominada como ponte (NICOLETTI; HRUSCHKA, 2013). Portanto, se

31

uma aresta nao e uma ponte, significa que ela faz parte de um ciclo e, consequentemente,

um grafo G conexo e uma arvore se e somente se, todas as suas arestas forem pontes.

2.2.2.2 Arvores Geradoras

Um subgrafo G1 = (V1, E1) e um subgrafo gerador de G = (V,E), se G1 for

subgrafo de G, tal que V1 = V . Em outras palavras, se os grafos G1 e G possuem o mesmo

conjunto de vertices, e G1 for uma arvore, entao ele e chamado de arvore geradora. Dessa

forma, existem alguns problemas que podem ser solucionados com este conceito, tal como

encontrar em um grafo G um subgrafo que tenha todos os vertices de G com o menor

peso possıvel (arvore geradora mınima) (NICOLETTI; HRUSCHKA, 2013).

2.2.2.3 Arborencia

Simoes-Pereira (2014) explicou que em uma arvore pode-se definir um vertice raiz,

de modo a obter uma arvore enraizada, o que pode ser denominada arborencia. Este

tipo de arvore pode ser aplicada em hierarquias, arvores genealogica, organogramas, entre

outros. Dessa forma, nas arvores com raiz costuma-se atribuir nıveis aos vertices, sendo

a raiz o nıvel zero e o nıvel k e composto pelos vertices que se encontram na distancia k

da raiz.

2.3 Segmentacao de Imagens

Pratti (2001) definiu a segmentacao de uma imagem como sendo o processo que

divide ou separa a imagem em regioes de atributo similar, sendo que, esse processo nao

envolve qualquer tipo de reconhecimento ou interpretacao das regioes, apenas subdivisao

da imagem. Gonzalez e Woods (2001) destacaram que interpretar dados contidos nas

imagens digitais e considerada uma atividade complexa e, por isso, a segmentacao pode ser

considerada como um processo intermediario necessario para tornar possıvel a aplicacao

da interpretacao em questao. Pedrini e Schwartz (2007) aponta que encontrar regioes que

sao homogeneas e conseguir separa-las das regioes vizinhas e uma tarefa difıcil, uma vez

que os objetos de uma imagem possuem posicoes, tamanhos e formatos diferentes e, alem

disso, a dificuldade e aumentada quando se tem ruıdos na imagem, o que leva, muitas

vezes, uma regiao homogenea a ser dividida e regioes distintas a serem reconhecidas como

uma unica regiao.

De acordo com Pedrini e Schwartz (2007), as propriedades de imagens (ou

caracterısticas), como cor, intensidade e textura podem ser utilizadas para analise das

regioes. Os metodos convencionais de segmentacao utilizam essas propriedades para

32

identificar (dis)similaridades na imagem, para entao, particiona-la. Os metodos baseados

na dissimilaridade particionam as regioes com base nas mudancas abruptas da propriedade

analisada, pois essas mudancas podem significar a presenca de borda, linhas ou pontos

isolados. Os metodos baseados em similaridade buscam agrupar os pixels da imagem de

acordo com alguma medida de similaridade existente entre eles.

Existem tres principais categorias de abordagens para segmentacao de imagens que

se baseiam nos valores de intensidade dos pixels, sao elas: deteccao de descontinuidade,

tecnica de limiarizacao e identificacao de regiao (PEDRINI; SCHWARTZ, 2007). Para

melhor compreensao deste trabalho serao abordadas: segmentacao por deteccao de

descontinuidade e segmentacao por identificacao de regioes por meio de grafos.

2.4 Segmentacao de Imagens Baseada em Deteccao de Descontinuidade

Os tipos basicos de descontinuidades em uma imagem sao pontos, retas, juncoes e

bordas. Os detectores buscam identificar essas descontinuidades, geralmente, por meio

do uso de mascaras em um processo de varredura da imagem (PEDRINI; SCHWARTZ,

2007). Gonzalez e Woods (2001) tambem afirmam que a maneira mais comum de procurar

descontinuidade se da por meio da aplicacao de mascaras sobre a imagem. Os autores

explicaram que um mascara W e uma matriz de um tamanho n × n com pesos (ou

coeficientes) associados a cada elemento. A mesma e sobreposta na imagem, de modo

que o pixel da imagem que se localiza na mesma coordenada que o elemento central dessa

sobreposicao e substituıdo pelo valor M definido pela Equacao 2.4. Deste modo, o valor

M e dependente dos valores dos pixels vizinhos e dos pesos de W . Esse processo se repete

ate que todos os pixels da imagem tenham sido tenham sido sobrepostos.

M = W1 × Z1 +W2 × Z2 + ...+n×n∑i=1

Wi × Zi. (2.4)

A Equacao 2.4, determina como computar a soma do produto dos coeficientes da mascara

pelo valor dos pixels da imagem, sendo que Wi representa o coeficiente da mascara,

enquanto que Zi e o valor referente ao pixel da imagem que esta sobreposto pela mascara

e, levando em consideracao, que ambos estao na mesma coordenada.

Nesta Secao serao apresentados tres tipos de detectores de descontinuidades, sao

eles: deteccao de ponto, deteccao de linha e deteccao de borda.

33

2.4.1 Deteccao de Ponto

Segundo Pedrini e Schwartz (2007), a deteccao de ponto consiste em encontrar

pontos isolados em uma imagem. Deste modo, um ponto pode ser detectado, por exemplo,

ao se aplicar a mascara ilustrada na Figura 14 em uma imagem.

Figura 14 – Exemplo de mascara para deteccao de ponto


Um ponto e entao detectado se:

|M | > T. (2.5)

Em que T representa um valor de limiar positivo e M e dado pela Equacao 2.4. Assim,

se os pixels vizinhos, sobrepostos pela mascara, possuem o mesmo valor, o resultado da

mascara sera nulo (M = 0) e isso significa que a regiao e similar; caso contrario, quando

existe uma discrepancia no valor de M , o ponto e detectado.

2.4.2 Deteccao de Linha ou Reta

Gonzalez e Woods (2001) e Pedrini e Schwartz (2007) definiram a deteccao de retas

ou linhas, como sendo responsavel por detectar retas horizontais, verticais e diagonais.

Neste caso, o ponto central da mascara pode ser uma linha reta horizontal, vertical ou

diagonal, como mostra a Figura 15.

Este tipo de detector segue a mesma logica da Equacao 2.5 para analisar se existe ou nao

uma reta.

34

Figura 15 – Mascara para deteccao de bordas horizontais (a), Mascara paradeteccao de retas verticais (b), Mascara para deteccao de retas diagonais (c ed)

(a) (b)

(c) (d)


2.4.3 Deteccao de Borda ou contorno

Pedrini e Schwartz (2007) definem uma borda como sendo o limite ou a fronteira

entre duas regioes cujos pixels possuem valor de propriedade diferentes. Grande parte

das tecnicas para deteccao de borda existentes na literatura se diferem pelos operadores

locais utilizados para identificar mudanca nos valores atribuıdos aos pixels da imagem.

Segundo Arbelaez (2006), o problema de detectar bordas e a segmentacao, embora

sejam relacionados, nao sao identicos. Uma vez que a deteccao de bordas produz contornos

fechados e, portanto, nao necessariamente fornecerao uma particao da imagem em regioes.

Porem, sempre e possıvel recuperar regioes em um detector de contorno.

A Secao 2.4.3.1 apresenta um exemplo de operador que pode ser utilizado.

2.4.3.1 Operadores de Gradiente

O vetor gradiente e um vetor que indica os locais onde existem variacoes de

caracterısticas na imagem. Ressaltando que a direcao do gradiente e sempre perpendicular

35

a direcao tangente da borda como mostra a Figura 16.

Figura 16 – Gradiente em borda

Fonte: Pedrini e Schwartz (2007)

Sendo assim, Pedrini e Schwartz (2007) definiram que o vetor gradiente5f(x, y) na

posicao (x, y) em uma imagem, pode ser calculado por meio de derivadas parciais, como

mostra a Equacao 2.6, de modo que i e j correspondem, respectivamente, aos vetores

unitarios nas direcoes x e y.

5f(x, y) =∂(x, y)

∂xi+

∂(x, y)

∂yj. (2.6)

Portanto, (x, y) e indicado com um ponto na borda se || 5 f(x, y)|| for maior que um

limiar T .

Segundo Pedrini e Schwartz (2007), o gradiente, por sua vez, e definido pela

magnitude do vetor 5f(x, y). Uma vez que, o mesmo indica a maior taxa de variacao de

f(x, y) por unidade de distancia da direcao 5f , como mostra a Equacao 2.7.

5||f || =

√(|∂f∂x

∣∣∣∣2 +

∣∣∣∣∂f∂y∣∣∣∣2. (2.7)

Um problema encontrado em empregar a formula dessa maneira, segundo Pedrini

e Schwartz (2007) e o grande tempo computacional necessario para seu calculo. Diante

disto, passou-se a aproximar o valor de magnitude por meio do valor absoluto ou valor

maximo entre os gradientes na direcao x e y, como mostra as Equacoes 2.8 e 2.9

36

5f ≈∣∣∣∣∂f∂x

∣∣∣∣+

∣∣∣∣∂f∂y∣∣∣∣ . (2.8)

5f ≈ max

(∣∣∣∣∂f∂x∣∣∣∣+

∣∣∣∣∂f∂y∣∣∣∣) . (2.9)

A mudanca de intensidade, cor, textura ou outro atributo da imagem pode ser

encontrada por meio de comparacao entre dois pixels adjacentes p e q. Sendo assim, a

presenca de uma borda vertical pode ser detectada pela diferenca horizontal entre dois

pixels e as bordas horizontais pela diferenca vertical entre p e q. Quando se percebe que

uma variacao lenta ao longo do eixo y e mais rapida ao longo do eixo x, indica a existencia

de uma borda vertical. O mesmo raciocınio se aplica para uma borda horizontal, bastando

trocar o eixo y pelo eixo x e vice-versa.

2.4.4 Metodo Pb

O metodo Pb (Probability of Boundary) desenvolvido por Martin, Fowlkes e

Malik (2004) para segmentacao de imagem objetivou analisar cada pixel da imagem

baseando-se nas descontinuidades locais em diferentes propriedades da imagem (cor, brilho

e textura), em uma serie de orientacoes. Para detectar mudancas locais de cor, textura

e brilho em um par de pixels (x, y) da imagem considera-se um cırculo de raio r e o

subdivide em orientacoes θ graus. Se houver uma borda em (x, y), espera-se que os

limites dos semicırculos sejam significativamente diferentes em relacao a cor, brilho e

textura. Portanto, para cada propriedade do semicırculo (cor, brilho e textura) cria-se

um histograma e a diferenca entre eles e calculada conforme mostra a Equacao 2.10.

χ2(g, h) =1

2

∑ (gi − hi)2

gi + hi(2.10)

Considerando que g e h representam uma propriedade do semicırculo g e a mesma

propriedade no semicırculo h, uma grande diferenca entre eles indica uma descontinuidade.

Com base nas diferencas entre os histogramas, um classificador e entao treinado

de acordo com o conjunto das respectivas imagens, cujas bordas foram definidas por seres

humanos. Deste modo, a funcao Pb(x, y, θ) e responsavel por predizer a probabilidade

aposteriori de uma borda ao longo da orientacao θ para um pixel (x, y).

37

2.5 Segmentacao de Imagens baseada em Grafos

Na literatura, de modo geral, existem diversos exemplos de metodos de analise de

imagens que se baseiam na teoria dos grafos e, em particular, metodos de segmentacao de

imagens.

Como foi mencionado na Secao 2.3, a maior dificuldade do processo de segmentacao

de imagens e encontrar regioes que sejam homogeneas e separa-las das regioes vizinhas.

Para auxiliar nesse processo, as propriedades de uma imagem (ou caracterısticas), como

cor, intensidade e textura podem ser utilizadas para analisar regioes similares.

Um conceito muito utilizado nos metodos de segmentacao de imagens baseados em

grafos e a arvore geradora mınima (ver Secao 2.2.2.2). Zahn (1971) estudou a aplicacao

desse conceito na resolucao do problema de agrupamento em grafos, de modo a produzir

grupos de vertices utilizando metricas para calculo da (dis)similaridade entre eles. Alguns

anos depois, Morris, Lee e Constantinides (1986) utilizaram a proposta de Zahn (1971)

para segmentacao de imagens, propondo uma abordagem que usou a intensidade dos pixels

como caracterıstica de analise da similaridade entre vertices para entao agrupa-los.

Segundo Zhang e Yang (2008), nos metodos de segmentacao que utilizam arvore

geradora mınima (AGM) para agrupamento, o conjunto de vertices do grafo e composto

pelos dados a serem agrupados (pixels), as arestas representam o relacionamento entre

os vertices de acordo com o relacionamento de vizinhanca escolhido (ver Secao 2.2) e o

peso associado a cada aresta representa a similaridade entre o par de vertices associados

a ela. De modo geral, quanto menor for o peso da aresta, maior sera a semelhanca entre

os vertices (pixels) em questao. Dessa maneira, o processo de segmentar uma imagem

baseando-se na teoria dos grafos se resume em particionar o grafo em subgrafos, de modo

que cada subgrafo represente uma regiao da imagem (ZHANG; YANG, 2008).

A Secao a seguir apresenta um dos metodos de segmentacao baseado em grafos

existente na literatura.

2.5.1 Metodo GB

Felzenszwalb e Huttenlocher (2004) apresentaram uma abordagem para

segmentacao de imagens coloridas por meio de grafos, denominado deravante de GB.

O intuito foi dividir o grafo em componentes, de maneira que os pixels similares ficassem

no mesmo componente do grafo e os elementos muito diferentes em outros componentes;

e, que as arestas dos pares de vertices do mesmo segmento possuıssem pesos relativamente

baixos, enquanto que as arestas entre vertices que estao em componentes distintos

possuıssem pesos relativamente altos (FELZENSZWALB; HUTTENLOCHER, 2004). Essa

38

abordagem busca agrupar pixels semelhantes em um mesmo segmento, ao mesmo tempo

que tenta separar os segmentos de outros vizinhos pelo grau de dissimilaridade entre eles.

O processo da abordagem de Felzenszwalb e Huttenlocher (2004) consistiu em,

primeiramente, gerar um grafo ponderado, nao direcionado G = (V,E) , de modo que:

• o conjunto V de vertices representa os pixels da imagem a serem segmentados;

• o conjunto E de arestas representa as conexoes entre dois pixels vizinhos,

considerando os 8 vizinhos mais proximos (ver Secao 2.3);

O peso de cada aresta e definido pela dissimilaridade entre os pixels relacionados a ela.

Para uma determinada imagem I representada por um grafo G e entao calculada

a arvore geradora mınima T (ver exemplificacao na Figura 17), na qual sao tomadas

todas as decisoes referentes ao processo de segmentacao. Uma dada segmentacao S de I,

corresponde a uma particao de V em componentes, de modo que cada um dos componentes

(ou regioes) C ∈ S correspondem a um componente conexo do grafo G′ = (V,E ′), em que

E ′ ⊆ E.

Figura 17 – Grafo (a) e sua arvore geradora mınima (b)

(a) (b)


Um predicado D e definido para se analisar a dissimilaridade entre os vertices do

grafo, desse modo, e possıvel validar se os vertices pertencem a mesma regiao ou nao.

Para isso, os autores utilizaram os conceitos de deteccao de borda (ver Secao 2.4.3). Esse

predicado se baseia no calculo de dissimilaridade entre os elementos ao longo do limite

entre dois componentes. Basicamente, a comparacao consiste em analisar as diferencas

entre dois componentes com as diferencas interna dos mesmos, portanto, essa abordagem

e adaptativa em relacao as caracterısticas locais dos dados. Define-se a diferenca interna

de um componente C ⊆ V como sendo o maior peso de um arco na arvore geradora

mınima do componente, MST(C, E).

O particionamento e iniciado, de modo que cada regiao C seja composta por apenas

um vertice, e em cada aresta (x, y) de T , seguindo uma ordem nao decrescente de seus

39

pesos, localizam-se as regioes X e Y que contem os vertices x e y, respectivamente.

Portanto, para se verificar se as regioes X e Y serao unidas e necessario avaliar a

dissimilaridade entre elas. Para isso, primeiramente, e calculada a diferenca interna

Int(X) e Int(Y ). Essa medida significa que um componente C mantem-se conectado

quando arestas de pesos no mınimo Int(C) sao consideradas. Ja a diferenca Dif(X, Y )

entre os dois componentes X, Y ⊆ V e dada pelo peso mınimo de uma aresta que conecta

vertices pertencentes aos dois componentes. A Figura 18 ilustra como sao avaliados

Int(X) e Dif(X, Y ) para quaisquer X, Y ⊆ V .

Figura 18 – Ilustracao da avaliacao de similaridade entre os pixels


Durante a comparacao entre quaisquer regioes C1 e C2 avalia-se se ha evidencias

de bordas entre elas, verificando se a diferenca Dif(C1, C2) entre os componentes e maior

que a menor diferenca interna dos componentes, Int(C1) e Int(C2). O predicado que

determina a fusao das regioes C1 e C2 e dado pela Equacao 2.11.

Fusao(C1, C2) =

verdadeiro, se Dif(C1, C2) ≤MInt(C1, C2);

falso, caso contrario;(2.11)

sendo a diferenca mınima interna MInt entre as regioes C1 e C2 definida pela

Equacao 2.12.

MInt(C1, C2) = minInt(C1) + τ(C1); Int(C2) + τ(C2) (2.12)

A funcao de limiar τ controla o quanto a diferenca entre duas regioes deve ser

maior do que as suas diferencas internas, para que haja evidencia de uma borda entre elas

e e definida pela Equacao 2.13.

τ(C) =k

|C|(2.13)

40

em que |C| e o tamanho da regiao C e k e um parametro constante. Uma limitacao

do metodo e que, se as regioes forem significativamente pequenas, o Int(C) nao e uma

boa medida das caracterısticas locais dos pixels. Sendo assim, onde existem pequenas

regioes ha uma evidencia mais forte para a existencia de uma fronteira. Felzenszwalb

e Huttenlocher (2004) definem k como uma “escala de observacao”, de modo que um

valor de k maior provoca uma preferencia para os componentes maiores. Regioes menores

sao permitidas quando existe uma diferenca consideravelmente grande entre as regioes

vizinhas.

Portanto, o metodo GB nao produz uma segmentacao que possa ser facilmente

inferida e/ou controlada, pois a escolha de um valor para k, de modo a produzir um

resultado de segmentacao com um determinado numero de regioes, nao e uma tarefa facil.

Isto acontece porque a abordagem nao atende aos princıpios da analise multiescala. Assim,

pode-se usar diferentes valores para k, sem que haja necessariamente uma relacao entre a

quantidade de regioes obtidas e o valor de k selecionado.

2.6 Segmentacao Hierarquica de Imagens

Metodos que utilizam estrategias hierarquicas sao um caso particular da

segmentacao de imagens. Atualmente, na literatura, cada vez mais trabalhos vem sendo

desenvolvidos na area, devido as suas particularidades. Segundo Guimaraes et al. (2012)

e Guimaraes e Patrocınio Jr (2013), a segmentacao hierarquica de imagens gera diversas

segmentacoes em diferentes nıveis de detalhes. Alem disso, uma segmentacao com nıvel

de detalhe mais baixo pode ser gerada a partir da fusao de regioes de uma segmentacao

de nıveis mais detalhados (GUIMARAES et al., 2012; GUIMARAES; PATROCINIO JR, 2013).

A Figura 19 apresenta um exemplo deste processo.

As abordagens hierarquicas devem obedecer os princıpios da analise multiescala

que sao os princıpio da causalidade, o qual estabelece que o contorno de uma regiao em

uma escala (ou nıvel de detalhe) k1 deve estar presente em qualquer outra escala k2 < k1;

e o princıpio da localidade, o qual estabelece que os contornos das regioes nao devem se

alterar ou deformar quando ha uma mudanca de escala (GUIGUES; COCQUEREZ; MEN,

2006). Sendo assim, a segmentacao hierarquica consegue manter as informacoes espaciais

e de vizinhanca entre os segmentos mesmo com mudancas de escala (??GUIMARAES;

PATROCINIO JR, 2013).

Teoricamente, uma hierarquia pode ser representada por meio de uma arvore, como

visto na Secao anterior Zahn (1971) deu o inıcio as abordagens hierarquicas com o uso

de arvore geradora mınima. Depois disso, outros trabalhos foram sendo desenvolvidos e

aprimorando o processo. Comecando por Morris, Lee e Constantinides (1986), e depois

sendo popularizado por Felzenszwalb e Huttenlocher (2004), Nock e Nielsen (2004).

41

Figura 19 – Exemplo do resultado do processo de segmentacao com estrategiahierarquica

Fonte: Elaborada pelo autora.

Contudo, seguindo os princıpios definidos por Guigues, Cocquerez e Men (2006), os

metodos baseados no agrupamento ou fusao das regioes da imagem, como o metodo GB

(FELZENSZWALB; HUTTENLOCHER, 2004), nao produzem hierarquias pois nao satisfazem

os princıpios da analise multiescala (causalidade e localidade).

Guimaraes et al. (2012) e Guimaraes e Patrocınio Jr (2013) afirmaram ser possıvel

modificar os parametros (metricas de distancia e modos de agrupamento) de um metodo

de segmentacao conhecido, como por exemplo o GB (FELZENSZWALB; HUTTENLOCHER,

2004) e o SRG (NOCK; NIELSEN, 2004), de modo que esse consiga gerar segmentacoes que

respeitem os princıpios de hierarquia.

Em Guimaraes et al. (2012, 2017), foi proposta uma transformacao do metodo

nao-hierarquico GB em uma estrategia hierarquica, de modo que a ultima respeita os

princıpios da analise multiescala. Essa modificacao foi denominada HGB e representa um

metodo eficiente para segmentacao hierarquica de imagens utilizando a mesma medida de

similaridade do metodo GB (FELZENSZWALB; HUTTENLOCHER, 2004).

2.6.1 Metodo HGB

No metodo HGB, desenvolvido por Guimaraes et al. (2012, 2017), uma imagem e

transformada em um grafo nao-direcionado G = (V,E), onde V e um conjunto finito de

vertices, que representam os pixels da imagem e as arestas E representam uma medida de

dissimilaridade entre dois pixels. Um gradiente de cor e calculado pela distancia euclidiana

no espaco de cor red, green e blue (RGB) e utilizado como caracterıstica dos pixels. O

conjunto E e um subconjunto de x, y ⊆ V | x 6= y (que representa a vizinhanca de

42

8-vizinhos de cada pixel). Sendo w uma funcao que mapeia E para R+, entao w(u) e o

peso da aresta u (representando a medida de dissimilaridade entre dois pixels) e (G,w) e

um grafo ponderado nao-direcionado.

Dado um conjunto finito V , uma particao de V e definida como um conjunto P de

subconjuntos disjuntos nao-vazios de V cuja uniao e V . Todo elemento de uma particao

P e chamado de uma regiao de P . Dadas duas particoes P e P ′ de V , e dito que P ′ e um

refinamento de P , denotado por P ′ P , se qualquer regiao de P ′ e incluıda em uma de

P . Uma hierarquia de V e uma sequencia H = (P0, . . . , Pl) de particoes de V , de modo

que Pi−1 Pi para qualquer i ∈ 1, . . . , l.

Sendo X um subgrafo de G e λ um inteiro nao-negativo, entao λ-nıvel do grafo

de X (para w) e definido como o subgrafo wVλ (X) de X, de tal modo que wVλ (X) =

(V (X), wλ(X)) com wλ(X) = u ∈ E(X) | w(u) ≤ λ, V (X) e E(X) representando os

conjuntos de vertices e arestas de X, respectivamente.

De acordo com Guimaraes et al. (2017), uma hierarquia de particoes e chamada

de hierarquia de zonas quasi-flat de X para w e e definida pela Equacao 2.14.

QFZ(X,w) = C(wVλ (X)

∣∣λ ∈ E• . (2.14)

em que E• = 0, . . . , |E| e C(wVλ (X)

)e o λ-nıvel de particao de X (para w) que

corresponde a particao de componentes conexas induzidas pelo λ-nıvel do grafo de X

(ver Figura 20).

De acordo com Cousty et al. (2018) pode-se dizer que a hierarquia QFZ(G,w)

e o mesma que QFZ(T,w), em que T e uma arvore geradora mınima de G. Entao, a

ideia principal de Guimaraes et al. (2017) foi transformar QFZ(G,w) (ou QFZ(T,w)) em

uma outra hierarquia, e isso foi feito usando-se uma medida de dissimilaridade D entre

quaisquer regioes. Para isso, uma nova funcao de peso f e gerada para se ter a nova

hierarquia QFZ(T, f).

Sendo assim, para cada u = x, y ∈ E em uma ordem nao-decrescente de w, f e

atualizado usando a Equacao 2.15,

f(u) = minλ ∈ R+|D

([C(fVλ (T )

)]x,[C(fVλ (T )

)]y

)≤ λ

(2.15)

em que[C(fVλ (T )

)]v

representa a componente conexa de λ-nıvel do grafo de T (para f)

que contem o vertice v, e uma constante positiva suficientemente pequena, e a medida

de dissimilaridade D e definida pela Equacao 2.16,

D(C1, C2) = maxSC2(C1), SC1(C2) (2.16)

43

Figura 20 – Exemplo de uma hierarquia de zonas quasi-flat

Adaptado de COUSTY et al., 2018

em que C1 e C2 sao componentes conexas (ou regioes); enquanto, para quaisquer duas

regioes C1 e C2, SC2(C1) e definido pela Equacao 2.17,

SC2(C1) = [Dif(C1, C2)− Int(C1)]× |C1| (2.17)

em que Dif(C1, C2) e Int(C1) sao definidos de forma analoga ao realizado

por Felzenszwalb e Huttenlocher (2004).

Desse modo, a diferenca interna Int(C) de uma regiao C e o maior valor de peso

entre todas as arestas ligando dois vertices de C na arvore geradora mınima; e a diferenca

Dif(C1, C2) entre duas regioes vizinhas C1 e C2 e o menor valor de peso de aresta entre

todas as arestas que ligam C1 e C2.

Apos a criacao de QFZ(T, f), a qual pode ser representada como um dendrograma,

cortes (ou segmentacoes) podem ser realizados variando o λ-nıvel para selecionar

particoes (GUIMARAES et al., 2017). Isso pode ser observado na Figura 20, em que os

vertices de mesma cor pertencem a uma mesma regiao (ou componente conexo) e, nos

itens a, b, c, d, e, ilustram-se os resultados obtidos pela variacao do λ-nıvel do grafo e,

consequente, as fusoes obtidas de regioes.

2.6.2 Metodo gPb-owt-ucm

Arbelaez et al. (2011) desenvolveram um metodo denominado doravante de

gPb-owt-ucm para segmentacao hierarquica de imagem baseado em deteccao de contornos.

Os autores consideram o trabalho de Martin, Fowlkes e Malik (2004) como um ponto de

partida para o desenvolvimento do metodo gPb-owt-ucm.

44

No trabalho de Martin, Fowlkes e Malik (2004), foi proposto uma funcao Pb(x, y, θ)

para detectar provaveis bordas dos segmentos de imagem (ver Secao 2.4.4). Ja, no trabalho

de Arbelaez et al. (2011), realiza-se a segmentacao em varias etapas.

Primeiramente, uma versao multiescala de um detector Pb(x, y, θ) (mPb) e

utilizada para identificar as provaveis bordas dos segmentos da imagem. Essa funcao

e responsavel por predizer qual a probabilidade a posteriori de uma borda na orientacao θ

para um pixel (x, y), por meio da medida de diferenca local de brilho, cor e textura.

A adaptacao do metodo desenvolvida por Arbelaez et al. (2011) para o contexto de

multiescalas, consiste em executar a funcao Pb(x, y, θ) em diferentes escalas para cada

canal de brilho, cor e textura.

Uma sucessao de filtros gaussianos aplicados a imagem resultante do mPb e, depois,

um calculo dos autovetores das informacoes de orientacao dos segmentos e responsavel

por normalizar e globalizar (gPb) a segmentacao inicial da imagem. Apos este ponto, o

algoritmo ja e capaz de determinar contornos abertos na imagem em questao, que e uma

limitacao do metodo Pb.

Depois, um processo de fechamento de contornos e realizado. Para tal, utiliza-se a

abordagem oriented watershed transform (OWT). Esta etapa consiste em produzir uma

segmentacao hierarquica da imagem em nıvel primario, o que possivelmente gera muitas

segmentacoes pertencendo a um mesmo segmento.

Por fim, um mapa de contorno ultrametrico (UCM) e utilizado para representar a

segmentacao final da imagem. Sendo assim, cada nıvel k da arvore representa uma escala

k de segmentacao, o que facilita a recuperacao da segmentacao em qualquer um dos k

nıveis da hierarquia.

2.7 Aprendizado de Maquina

O aprendizado de maquina e uma subarea da inteligencia artificial que segundo

Russell et al. (2010), surgiu para solucionar problemas difıceis, uma vez que o mesmo

permite que uma colecao de pares de entrada e saıda, aprendam uma funcao por meio da

extracao de padroes, capazes de prever a saıda para novos dados de entrada.

Segundo Kuncheva (2014), os metodos de aprendizado de maquina sao divididos

em duas grandes categorias de aprendizado: (i) nao supervisionado; e (ii) supervisionado.

Russell et al. (2010) definiu mais uma categoria alem das outras duas, denominada

aprendizagem semisupervionada(iii). No aprendizado nao supervisionado, as amostras

nao sao rotuladas, uma tarefa comum e o agrupamento. Russell et al. (2010) citou

como exemplo de aprendizado nao supervisiondo, um taxista que pode desenvolver

gradativamente o conceito de ”transito bom”e ”transito ruim”sem nunca ter sido mostrado

45

exemplos de cada um deles por um professor. No aprendizado supervisionado, por sua vez,

todas as amostras se encontram previamente rotuladas, ou seja, aprende-se uma funcao a

partir do mapeamento da entrada para saıda. Por fim, no aprendizado semisupervisionado

sao dados poucos exemplos rotulados e os demais dados nao possuem rotulos, deste modo

ao mesmo tempo que ele e supervisionado ele e nao supervisionado. Pode-se, ainda,

distinguir dois grupos de abordagens de acordo com o tipo de saıda produzida: (i) metodos

de classificacao, no qual os rotulos produzidos sao discretos; e (ii) metodos de regressao

em que os resultados gerados sao contınuos.

As entradas a serem passadas pelo processo de aprendizagem sao descritas por

uma serie de caracterısticas (ou atributos) que podem ser quantitativas ou qualitativas.

Segundo Fu (1982), o ramo do aprendizado de maquina que lida exclusivamente com

caracterısticas qualitativas e denominado reconhecimento de padroes, ja o aprendizado

estatıstico opera exclusivamente sobre dados numericos. No aprendizado estatıstico, as

caracterısticas de uma entrada sao organizadas em um vetor x = [x1, x2, . . . , xn]T ∈ Rn,

constituindo o espaco de caracterısticas em que cada eixo corresponde a uma caracterıstica

especıfica. Ja caracterısticas qualitativas, devem ser convertidas em quantitativas.

O conjunto de dados utilizados no processo de aprendizagem estao geralmente sob

a forma de um conjunto de dados rotulados Z = [z1, z2, . . . , zN ], zj ∈ Rn. O rotulo indica

a classe ou valor de zj que se e esperado, e e representado por yj ∈ Ω, j = 1, . . . , N . Um

conjunto de dados pode ser organizado como uma matriz com N linhas (entradas) por n

colunas (caracterısticas), com uma coluna (ou vetor) extra contendo os rotulos, conforme

ilustrado na Equacao 2.18.

Conjunto =

z11 z12 · · · z1n

z21 z22 · · · z2n...

.... . .

...

zN1 zN2 · · · zNn

Rotulos =

y1

y2...

yN

(2.18)

Dessa forma, pode-se definir um classificador ou regressor como qualquer funcao D capaz

de atribuir um rotulo a um dado de entrada, isto e, D : Rn 7→ Ω. Geralmente uma entrada

x ∈ Rn e rotulado com a classe ou valor de maior pontuacao. Essa escolha e chamada de

”maximum membership rule”, que pode ser descrito pela Equacao 2.19.

D(x) = ωi∗ ∈ Ω ⇐⇒ gi∗ = maxi=1,...,c

gi(x) (2.19)

As funcoes discriminantes particionam o espaco de caracterısticas Rn em c regioes

de decisao ou regioes de classificacao (nao necessariamente compactas) representadas por

46

R1, . . . ,Rc que podem ser descritas pela Equacao 2.20.

Ri =

x | x ∈n, gi = max

k=1,...,cgk(x)

, i = 1, . . . , c. (2.20)

Uma maneira de se analisar a performance de uma classificador e por meio de uma

matriz de confusao . Uma matriz de confusao exibe a distribuicao de erros e acertos de

um classificador D. A entrada aij de tal matriz indica o numero de elementos de Zts

cuja verdadeira classe e ωi mas que foram atribuıdos pelo classificador D a classe ωj. A

Figura 21 exibe um exemplo de matriz de confusao para um problema de classificacao

binario, em que pode-se observar que uma das predicoes feitas como pertencente a classe

ω1 e na verdade uma amostra da classe ω2. Tomando-se essa matriz da Figura 21 como

base, uma estimativa da acuracia do classificador pode ser calculada dividindo o traco da

matriz pela soma total das entradas conforme apresentado na Equacao 2.21.

Acuracia =7 + 7

15= 93, 33% (2.21)

Figura 21 – Exemplo de matriz de confusao

Predito

ω1 ω2

Corr

eto ω1 7 0

ω2 1 7

Fonte: Elaborada pela autora.

2.7.1 Representacao por arvore de decisao

Segundo Russell et al. (2010) a arvore de decisao (ou de classificacao) e a forma

mais simples de aprendizado de maquina. Uma arvore de decisao representada por uma

fincao, toma com entrada um vetor de atributos que podem ser discreto ou contınuos e

para cada um deles retorna uma ”decisao”, que e um valor de saıda unico. As decisoes

retornadas sao baseadas em uma sequencia de testes. Cada no da arvore corresponde a

um destes testes e as ramificacoes os valore possıveis.

O processo de construcao de uma arvore de decisao determina automaticamente

as caracterısticas importantes para a realizacao da classificacao; dessa forma, pode-se

considerar que os processos de reducao de dimensionalidade (selecao de caracterısticas) e

classificacao sao realizados de forma integrada.

Em comum com outras abordagens em que as funcoes de discriminacao sao

representadas por uma combinacao de funcoes base, um modelo de arvore de decisao

adota uma expansao em funcoes de indicadores associadas hiper-regioes (retangulos

multidimensionais). O modelo e obtido por meio de um processo de particionamento

47

recursivo, em que o espaco de caracterısticas subdividido em hiper-regioes cada vez

menores. Como exemplo, a Figura 22 exibe uma arvore de decisao que determina se

uma pessoa deve ir a praia ou nao.

Figura 22 – Exemplo de arvore de decisao que determina se uma pessoa deveir a praia ou nao


As principais vantagens apresentadas pelas arvores de decisao sao:

• Elas sao capazes de lidar com variaveis irrelevantes e redundantes. Cada divisao

usa uma unica (melhor) variavel; portanto, variaveis irrelevantes podem nunca ser

selecionadas.

• Variaveis contınuas, discretas e categoricas podem ser tratadas conjuntamente; nao

ha necessidade de se converter um tipo para o outro.

• A escala (dimensao) das variaveis nao importa. Uma vez que cada caracterıstica

e manipulada separadamente para se encontrar um limiar personalizado, nao e

necessario se normalizar ou redimensionar os dados para um dado intervalo. Uma

distancia pode nao ser trivial de se calcular quando objetos sao descritos por

caracterısticas categoricas ou mistas. Arvores de decisao contornam esse problema

e podem ser vistas, segundo Duda, Hart e Stork (2001), como metodos nao-metricos

de classificacao.

• Se todos os objetos sao distinguıveis (isto e, nao ha elementos identicos em no

conjunto de dados com rotulos de classe distintos), entao se pode construir uma

arvore com erro de treinamento zero.

48

• Classificadores em arvore sao intuitivos pois o processo de decisao pode ser descrito

como uma sequencia de escolhas simples. Estruturas de arvores podem capturar uma

base de conhecimentos em um arranjo hierarquico; exemplo classicos sao encontrados

na botanica, zoologia e no diagnostico medico.

• O treinamento e razoavelmente rapido; enquanto a operacao (uso) pode ser

extremamente veloz.

Arvore de decisao sao geralmente descritas usando a terminologia de grafos. Uma

arvore de classificacao consiste de uma raiz, nos intermediarios (opcionais) e folhas. A raiz

e os nos intermediarios subdividem o processo de decisao, enquanto as folhas atribuem os

rotulos de classe.

Para classificar um dado objeto, deve-se seguir o caminho da raiz ate uma das

folhas em que um rotulo e selecionado para o objeto em questao.

Para se construir uma arvore de decisao, geralmente se inicia pela raiz e se continua

subdividindo a arvore. Uma subdivisao significa que uma porcao separada do conjunto

de dados e atribuıda a cada no filho (criado pela subdivisao do no interno). Por sua vez,

cada porcao e novamente dividida em partes menores ate que um criterio de parada se

alcancado. Um criterio de parada pode ser, por exemplo, se exigir que todos os objetos

estejam corretamente rotulados.

Uma vez construıda uma arvore ”ideal”, deve-se poda-la para evitar ”overtraining”

(tambem chamado de ”postpruning”). Alternativamente, pode-se utilizar alguma funcao

objetivo mensuravel para se decidir quando interromper a subdivisao (denominado

”prepruning”).

Resumidamente, uma arvore de decisao e um classificador que particiona os dados

recursivamente de modo a formar grupos ou classes. Ela representa um algoritmo

de aprendizado supervisionado que pode ser aplicado a dados contınuos, discretos ou

categoricos (tanto para classificacao como para regressao).

2.8 Florestas aleatorias

O conceito de florestas aleatorias (Random Forest (RF)) foi introduzida por

Breiman (2001) e representa uma modificacao de bagging, na qual constroı-se uma grande

colecao de arvores de decisao correlacionadas, no qual considera a media dos resultados.

A ideia principal por tras do uso de RF e melhorar o desempenho por meio da

reducao de variancia. Ou seja, alcancado por meio do bagging, reduzindo a correlacao

entre as arvores de decisao, sem aumentar muito o valor da variancia.

49

Para tanto, durante o processo de crescimento de cada arvore de decisao utiliza-se

a selecao aleatoria das caracterısticas. Alem disso, ha uma facilidade de paralelizacao

de todo o processo em virtude da independencia de construcao de cada arvore (HASTIE;

TIBSHIRANI; FRIEDMAN, 2001).

Quando usada para a classificacao, uma RF obtem um voto de classe de cada arvore

de decisao da colecao e, em seguida, realiza a classificacao usando o voto da maioria. Ja,

quando RF e usada para regressao, utiliza-se a media das previsoes de cada uma das

arvores.

2.9 Rede Neural Artificial

As Redes Neurais Artificias, usualmente denominadas apenas como (! ((!)RN), se

originaram da ideia de modelar matematicamente algo parecido com o cerebro humano.

Segundo Russell et al. (2010) a hipotese da atividade mental consistir de atividade

eletroquımica em redes de celulas denominadas neuronios inspirou a criacao das redes

neurais artificiais, o qual desde 1943 tem sido desenvolvidos modelos cada vez mais

realistas e detalhados. As unidades de processamento no cerebro humano sao neuronios de

diferentes especializacoes e funcionamento. Um neuronio artificial simula o funcionamento

dessas unidades.

Seja u = [u0, . . . , uq]T ∈ Rq+1 um vetor de entrada, w = [w0, . . . , wq]

T ∈ Rq+1 um

vetor de pesos. A saıda de um neuronio artificial v ∈ e dada pela Equacao 2.22.

v = φ

(q∑i=0

wiui

)(2.22)

em que φ : R 7→ e a funcao de ativacao. Um esquema basico e mostrado na Figura 23 e a

Figura 24 apresenta exemplos de funcoes de ativacao.

Figura 23 – Esquema basico de uma neuronio artificial


50

Figura 24 – Exemplos de funcoes de ativacao

Fc. Limiar (Heaviside)

φ(ξ) =

1, se ξ ≥ 00, c.c.

Fc. Sigmoide

φ(ξ) =1

1 + exp(−ξ)

Fc. Identidade

φ(ξ) = ξ


De acordo com Russell et al. (2010), as funcoes de ativacao nao lineares garantem

a propriedade importante de que toda rede de unidade pode representar uma funcao nao

linear.

Rosenblat (1962), propos a rede perceptron ou rede de camada unica, em que se

utiliza a funcao de ativacao dada pela Equacao 2.23.

φ(ξ) =

1, se ξ ≥ 0;

0, caso contrario.(2.23)

Esse classificador de um neuronio separa duas classes utilizando uma funcao discriminante

linear, de modo que os vetores de uma classe obtem uma saıda de valor +1 e os da outra

classe o valor −1.

O algoritmo inicia com pesos w aleatorios e segue modificando-os para cada dado

de entrada do conjunto Z. Se zj for classificado incorretamente, entao os pesos sao

modificados utilizando-se a Equacao 2.24.

w← w− v η zj (2.24)

em que v e a saıda para zj e η a taxa de aprendizado.

As redes perceptron de multicamadas (MLP) foram introduzidas por Rumelhart,

Hinton e Williams (1986) como uma melhoria aos perceptrons, fornecendo entao a

capacidade de classificar dados nao separaveis linearmente. A Figura 25 exibe um esquema

basico para um MLP.

Um MLP basicamente produz uma transformacao de um padrao de entrada x ∈ Rn

51

Figura 25 – Esquema basico de em MLP


para uma outro espaco n′-dimensional de acordo com a Equacao 2.25.

gj(x) =m∑i=1

wjiφi(αTi x + αi0) + wj0, j = 1, . . . , n′ (2.25)

As funcoes φi sao funcoes nao lineares fixas, geralmente identicas e usualmente

representadas pela funcao sigmoide (ou logıstica). Deste modo, a transformacao realizada

pelo MLP consiste em projetar os dados em cada uma das m direcoes descritas pelos

vetores αi = (αi1, . . . , αin); transformando, em seguida, os dados projetados (e deslocados

por um vies ’αi0’) por meio das funcoes nao lineares φi(y); para, finalmente, obter o

resultado final por meio de uma combinacao linear utilizando os pesos wji (e deslocado

pelo vies ’wj0’).

Normalmente, tem-se: (i) a funcao de ativacao da camada de entrada e a

identidade; (ii) nao ha conexao entre nos da mesma camada; (iii) camadas nao adjacentes

nao sao conectadas diretamente; e (iv) todos os nos nas camadas escondidas possuem a

mesma funcao de ativacao.

53

3 TRABALHOS RELACIONADOS

A exploracao das informacoes de escala provou ser util para diversas tarefas de

segmentacao, como por exemplo, na segmentacao de imagens semanticas (CHEN et al.,

2016a) e para deteccao de contornos (LI et al., 2018) e na melhorar das hierarquias

resultantes dos metodos de segmentacao (CHEN et al., 2016b).

Afim de obter o melhor resultado de segmentacao hierarquica, Xu, Whitt e Corso

(2013), propuseram nivelar a hierarquia em uma segmentacao unica. De modo a encontrar

a melhor segmentacao e achatar as demais de acordo com ela.

Comumente, para encontrar o melhor resultado de segmentacao hierarquica sao

utilizados cortes horizontais na hierarquias. Em seu trabalho, Cousty e Najman (2014),

Guiges, Cocquerez e Men (2006) propuseram explorar o uso de cortes nao horizontais nas

hierarquias. Desse modo e possıvel obter as melhores particoes independente do nıvel

hierarquico que se encontram. Utilizando esse mesmo raciocınio, finalmente, Chen et al.

(2016b) propuseram modificar o resultado final de um algoritmo hierarquico, de modo

a modificar as escalas de observacao, ou seja, modificar os nıveis hierarquicos em que

as regioes se encontram, para que (quase) todos objetos (e suas partes) possam ficar no

mesmo nıvel (ou escala). A seguir aborda-se o metodo proposto.

3.1 Realinhamento de Hierarquias

Chen et al. (2016b) propuseram o metodo de realinhamento de hierarquias, para

melhorar os resultados dos metodos de segmentacao. Para isso, a segmentacao de uma

imagem I e representada por uma arvore T cujo no vi representa o i-esimo no da arvore.

Cada no representa uma regiao (segmento) de I. Os autores sugeriram dividir as regioes

em tres categorias: L−, L e L+, as quais indicam que as regioes foram pouco, devidamente

e muito segmentadas, respectivamente.

Para cada no vi de T , utiliza um rotulo x(vi) com valores no conjunto [−1, 0, 1],

que representam as categorias L−, L e L+, respectivamente. Deste modo, a funcao f(vi)

e responsavel por medir a granularidade de cada segmento que sao denominados como

(scores) e sao definidos no intervalo entre [−1, 1].

Para prever os scores dos segmentos, utilizou-se um modelo de aprendizagem de

maquina, de modo a aprender um preditor com o melhor valor de f(vi) a partir de

uma medida de comparacao entre a regiao e seu ground-truth correspondente. A medida

computa a sobreposicao entre os segmentos e seu ground-truth como mostra a Equacao

5.9

54

Scorei =| Gi | − |Ri |

max (| Gi |, |Ri |)(3.1)

Ri e Gi, correspondem ao tamanho da regiao e ao tamanho do seu ground-truth

correspondente, respectivamente. Sabe-se que Gi e correspondente a regiao Ri, quando a

maior parte dos pixels de Ri se encontram na mesma localizacao que Gi. Os valores dos

Scores sempre se encontram no intervalo [-1,1] e quando este valor e um numero negativo,

significa que a regiao Ri foi pouco segmentada, enquanto um valor positivo indica que Ri

foi muito segmentada e 0 quando Ri foi devidamente segmentada.

O metodo de aprendizagem empregado pelos autores como preditor f(v) foi uma

floresta aleatoria com 100 arvores. As caracterısticas utilizadas foram : propriedades do

grafo, propriedades da regiao e textura.

O processo de realinhar as hierarquias se inicia depois de encontrar as regioes que

representam a segmentacao ideal da imagem, ou seja, o conjunto de nos que possuem scores

rotulados proximo de 0 (L(v)). O problema de otimizacao desse processo e altamente

estruturado e pode ser resolvido recursivamente pela Programacao Dinamica.

Para a subarvore enraizada no no v, a solucao otima L(v) e o proprio no n ou a

uniao das fatias otimas de todos os seus nos filhos, dependendo da energia de quem e

menor. O problema prossegue de baixo para o topo da arvore. Para cada subarvore com

raiz no no atual v, a energia de v ∈ L(v) e calculada e a energia das fatias otimas de todos

os seus nos filhos e solicitada para comparacao. O algoritmo se repete e toda comparacao

sera concluıda quando o algoritmo atingir o no raiz e o otimo global for obtido.

Depois de definir a fatia ideal, o mesmo e utilizado como ancora para se realinhar

a hierarquia.

As hierarquias foram representadas no modelo UCM, que e uma matriz com

tamanho (2h + 1) × (2w + 1), onde h e a altura da imagem original, e w e sua largura.

Para cada par de pixels vizinhos na imagem, o valor na matriz UCM representa sua forca

limite (entre 0 e 1). Uma particao em uma certa escala pode ser extraıda limiarizando o

UCM a um determinado valor. O Algoritmo 1 resume o processo em questao, em que a

funcao borda encontra os elementos correspondentes as bordas de uma regiao r no UCM,

e a funcao area a sua area.

55

Algoritmo 1: Realinhamento de hierarquias

Data: L(v), mapa de contorno UCM Mucm

1 for r ∈ L(v) do

2 b← BORDA(r)

3 a← AREA(r)

4 m ← min(Mucm(b))

5 Mucm(a)← Mucm(a)2m

6 end for

7 ball ← BORDA(L(v))

8 mmin ← min(Mucm(ball))

9 Mucm(ball)← 1+Mucm(ball)−2mmin

2(1−mmin)

10

Entao, para cada regiao r de L(v), ou seja, o conjunto de regioes definidas como

devidamente segmentadas e definido o valor de escala 0.5 (nıvel mediano da hierarquia).

Depois, para cada regiao que se encontra em nıveis hierarquicos abaixo de r e aplicada

uma funcao, como mostra a Equacao 3.2, que garante que os mesmos continuaram nos

nıveis hierarquicos abaixo.1 +Mucm(ball)− 2mmin

2(1−mmin)(3.2)

3.2 Avaliacao de Segmentacao Hierarquica de imagens

No trabalho de (ARBELAEZ et al., 2011) foi proposto um benchmark para avaliacao

de segemntacao de imagem e suas bordas. O benchmark e composto pelas seguintes

metricas: Segmentation Covering (SC), Probabilistic Rand Index (PRI), Variation of

Information (VI) and F -measure. Para calcular estas metricas, utiliza-se o ground-truth e

quando este e composto por segmentacoes definidas por diferentes humanos e utilizado um

processo de votacao por maioria para entao ser criado um ground-truth com segmentacao

unica.

Para avaliacao de alguns resultados da presente dissertacao foi utilizado o

benchmark proposto por (ARBELAEZ et al., 2011). Sendo assim, os detalhes sobre as

metricas estao dispostas na Secao 5.

57

4 AVALIACAO DE APRENDIZADO DE MAQUINA APLICADO AOREALINHAMENTO DE HIERARQUIAS

Neste Capıtulo, serao apresentadas todas as etapas desenvolvidas no presente

trabalho ressaltando-se os aspectos metodologicos realizados. A Figura 26 ilustra a

metodologia proposta.

Figura 26 – Metodologia da abordagem de realinhamento de hierarquias


4.1 Etapa de Treinamento

Esta etapa objetiva treinar um regressor para que o mesmo seja capaz de aprender

se uma determinada regiao da hierarquia foi muito, pouco ou devidamente segmentada.

Para isso, usou-se dois tipos de regressores: rede neural e floresta aleatoria.

4.1.1 Selecao da base de dados

Primeiramente, um conjunto de imagens de treinamento foi selecionado (ver Figura

26(a)).

4.1.2 Segmentacao hierarquica de imagens

Cada imagem do conjunto de treinamento (ver em a Figura 26(a)) passou

pelo processo de segmentacao hierarquica (ver em a Figura 26(b)). Para isso, foram

58

selecionadas duas abordagens de segmentacao hierarquica: gPb-owt-ucm (ARBELAEZ,

2006) e HGB (GUIMARAES et al., 2017). Das segmentacoes obtidas, todas as regioes cujas

areas eram menores que 50 pixels foram descartadas, como sugeriram Chen et al. (2016b).

Depois, todos os resultados obtidos nesta etapa foram armazenados no modelo de mapa

de contorno ultrametrico (Ultrametric Contour Map (UCM)) .

Vale ressaltar que a motivacao da escolha destas abordagens para segmentacao

hierarquica se deram pelo fato de, na literatura, o gPb-owt-ucm ser amplamente utilizado,

e o HGB por ser alem de uma abordagem bastante citada na literatura, foi desenvolvido

por integrantes do presente laboratorio de pesquisa.

4.1.3 Descritores

A partir do conjunto de segmentacoes (ver Figura 26b), foram extraıdas as

caracterısticas de todas as regioes das hierarquias e calculou-se tambem o valor das

rotulagens para cada regiao em relacao ao groud-truth correspondente (ver Figura 26c).

4.1.3.1 Extracao de Caracterısticas

Cada regiao Rki da segmentacao hierarquica de uma imagem k passa pelo processo

de extracao de caracterısticas. As caracterısticas utilizadas foram:

• Propriedades do Grafo: Suponha um grafo G = (V,A) com vertices v =

(v1, v2, ..., vn) representando os pixels da segmentacao, e arestas A = ai,j as ligacoes

entre vi e vj. Cada aresta ai,j possui um peso cij associado a similaridade entre um

par de vertices. Sendo assim, as seguintes propriedades do grafo G foram utilizadas:

corte (cut) que e a afinidade ao longo da borda do segmento; corte de relacao (ratio

cut), a afinidade ao longo da borda do segmento dividido pelo numero de afinidades;

corte normalizado (normalizedcut), que sao o corte de relacao e a afinidade dentro

do primeiro plano (foreground) mais o corte de relacao e a afinidade do fundo

(background); e o corte normalizado desbalanceado (unbalanced normalized cut),

o corte dividido pela afinidade no primeiro plano.

• Propriedades da Regiao: area (area), perımetro (perimeter), tamanho da caixa

delimitadora (bounding box size), comprimentos do eixo maior e menor da elipse

equivalente (major and minor axis lengths of the equivalent ellipse), excentricidade

(eccentricity), orientacao (orientation), area convexa (convex area), numero de Euler

(Euler number);

• Textura: similaridade de textura inter- e intra-regiao (inter- and intra-region

texton similarity), distancia qui-quadrado entre as texturas computadas sobre o

59

primeiro plano e fundo, e numero de diferentes texturas presentes no primeiro

plano em quantidade maior do que uma fracao particular do area do segmento,

respectivamente; similaridade de brilho entre regioes e intra-regioes (inter- and

intra-region brightness similarity), distancia entre os histogramas de intensidade

do primeiro plano e regioes de fundo, e medida de semelhanca a texturas

homogeneidade; energia de contorno inter e intra-regiao (inter- and intra-region

contour energy), soma da energia de borda dentro de primeiro plano da regiao,

calculada usando globalPb, normalizada por perımetro, e soma da energia de

extremidade ao longo do limite, normalizado por perımetro; continuidade curvilınea

(curvilinear continuity), convexidade (convexity), soma de diferencas angulares

consecutivas do segmento de linha aproximando o contorno.

• Cor: histograma de cores ( color histogram) e media das cores ( average color). Os

recursos relacionados a cor sao calculados para cada canal (no espaco de cores RGB)

e os histogramas sao gerados com 04 bins por canal (no espaco de cores RGB).

Chen et al. (2016b) sugeriram a utilizacao das caracterısticas de propriedades do

grafo, propriedades da regiao e textura para este tipo de problema, sendo assim elas foram

utilizadas neste trabalho. Alem disso, tambem foram usadas as caracterısticas de cor, pois

embora algumas das outras caracterısticas sejam relacionadas a cor, elas nao descrevem

especificamente as cores das regioes.

4.1.3.2 Calculo das Rotulagens (Scores)

Cada regiao Rki da segmentacao hierarquica de uma imagem k passa pelo processo

de calculo de Scores, definido na Formula 4.1, para rotular se uma regiao foi muito

segmentada, pouco segmentada ou devidamente segmentada.

Scoreki =|Gk

i | − |Rki |

max(|Gk

i |, |Rki |)

(4.1)

Rki e Gk

i , correspondem ao tamanho da regiao e ao tamanho do seu ground-truth

correspondente, respectivamente. Vale ressaltar que apenas uma segmentacao do

ground-truth foi utilizada. Sabe-se que Gki e correspondente a regiao Rk

i , quando a maior

parte dos pixels de Rki se encontram na mesma localizacao que Gk

i .

Os valores dos Scores sempre se encontram no intervalo [-1,1] e quando este valor e

60

um numero negativo, significa que a regiao Rki foi pouco segmentada, enquanto um valor

positivo indica que Rki foi muito segmentada e 0 quando Rk

i foi devidamente segmentada.

4.1.4 Treinamento do Regressor

No total, a base de segmentacoes do metodo gPb-owt-ucm foi composta por

34.683.458 regioes e do metodo HGB por 482.489 regioes. Sendo assim, foram extraıdas de

cada regiao as caracterısticas e os scores, como explicado anteriormente. Depois, em cada

experimento, todas as regioes de cada base de segmentacao, separadamente, passaram pelo

processo de treinamento (ver Figura 26d). O intuito e ensinar para um regressor se uma

regiao e muito, pouco ou devidamente segmentada, de acordo com suas caracterısticas

para que o mesmo, posteriormente, seja capaz de prever estas mesmas rotulagens para

novas regioes.

Para isso, foram utilizados dois metodos de aprendizado de maquina: florestas

aleatorias e redes neurais. Como ja foi mencionado, o motivo de se utilizar estes dois

metodos e que ambos sao amplamente utilizados na literatura e, alem disso, o primeiro

foi sugerido por Chen et al. (2016b) e o segundo vem sendo cada vez mais explorado

na literatura na tentativa de explorar diferentes tipos de problemas, ate mesmo os mais

complexos.

4.2 Etapa de Teste

Nesta etapa, cada imagem a ser testada (ver Figura 26(e)) passa pelo processo de

segmentacao hierarquica (ver Figura 26(f)) e a partir das hierarquias produzidas foram

extraıdas as caracterısticas de cada regiao em conformidade com as Secoes 4.1.2 e 4.1.3.1

anteriormente descritas (ver Figura 26(g)).

As caracterısticas extraıdas e o regressor treinado foram usados para prever se

cada regiao e muito, pouco ou devidamente segmentada (ver Figura 26(h)). Entao, as

hierarquias sao realinhas de acordo com os valores previstos utilizando-se a abordagem

Chen et al. (2016b) (ver Figura 26(i)). Por fim, as hieraquias mesmas hierarquias

realinhadas foram usadas para produzirem a segmentacao final (ver Figura 26j).

4.2.1 Predicao

Cada regiao Rki da segmentacao hierarquica de uma imagem k, passa pelo processo

de predicao. Nesta etapa sao fornecidas para o regressor as caracterısticas de cada regiao,

logo, o mesmo retorna um valor entre -1 e 1 para cada uma delas, de modo que, os valores

negativos representam as regioes pouco segmentadas, os valores positivos as regioes muito

61

segmentadas e 0 as regioes devidamente segmentadas.

4.3 Realinhamento

Por fim, o mesmo metodo proposto por Chen et al. (2016b) foi utilizado para

realinhar as hierarquias de acordo com os valores resultantes da predicao (ver Secao 4.2.1).

Em seguida, a segmentacao hierarquica resultante foi obtida por meio de um corte na

horizontal com o valor de limiar igual a 0.5, que representa o nıvel da hierarquia onde se

pretende alocar os objetos e suas partes (ver Secao 3.1).

63

5 EXPERIMENTOS E ANALISES DOS RESULTADOS

Neste Capıtulo serao apresentados os resultados obtidos nos experimentos

realizados. O Capıtulo esta organizado da seguinte maneira: na Secao 5.1, sera

apresentada a configuracao do ambiente de teste onde foram executados todos os

experimentos. Na Secao 5.2 sera apresentada a base de dados utilizada nos experimentos.

Na Secao 5.3 sao apresentadas todas as metricas de avaliacao utilizadas. Na Secao

5.5, sao apresentados os resultados obtidos da aplicacao do metodo de realinhamento

de hierarquias conforme sugerido por Chen et al. (2016b), com intuito de avaliar como

o metodo se comporta. Na Secao 5.6, sao apresentadas as comparacoes da qualidade

dos treinamentos gerados entre florestas aleatorias e redes neurais. Na Secao 5.7 serao

avaliados os resultados obtidos do realinhamento de hierarquias utilizando-se os regressores

gerados na Secao 5.6. Na Secao 5.8 e apresentada uma possıvel melhoria para o metodo

de realinhamento de hierarquias.

5.1 Ambiente de teste

Todos os experimentos foram executados em um computador com sistema

operacional Linux (Ubuntu 14.10) com memoria RAM de 8,11 GB e 12 processadores

Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz.

5.2 Base de dados

O conjunto de imagens utilizado nos experimentos do presente trabalho foi extraıdo

da base de dados BSDS500, que e uma extensao da base de dados BSDS300 (MARTIN et

al., 2001), de modo que as 300 imagens (200 para treino e 100 para validacao) foram

aproveitadas e adicionou-se mais 200 imagens para testes. As imagens possuem cenarios

naturais e contam com a presenca de animais, paisagens, pessoas, entre outros.

Cada imagem da base BSDS500 e composta por mais de uma anotacao

(ground-truth) de segmentacao e de borda. Os ground-truths de segmentacao, nada

mais sao que, segmentacoes realizadas manualmente por humanos, e os ground-truth de

borda sao a representacao do ground-truth de segmentacao no modelo UCM. Como cada

imagem foi segmentada por pessoas diferentes, os ground-truths de uma unica imagem

tambem apresentam diferencas, sendo que alguns possuem mais detalhes e outros menos

detalhes. A Figura 27 exemplifica uma imagem da base de dados e alguns ground-truths

correspondentes a ela.

64

Figura 27 – Exemplo de imagem, ground-truth de segmentacao e ground-truthde borda da base de dados BSDS500

(a) Imagem

(b) ground-truth de segmentacao

(c) ground-truth de borda

Fonte: Adaptado de Elaborada pela autora

5.3 Metricas de avaliacao

Dois tipos de metricas para avaliacao foram utilizadas neste trabalho, as avaliacoes

das segmentacoes e as avaliacoes dos regressores, as quais serao apresentadas a seguir.

5.3.1 Metricas de avaliacao da segmentacao

Para avaliar a qualidade das segmentacoes, foram utilizadas dois tipos de metricas,

as responsaveis por avaliar a qualidade das regioes obtidas e outra para avaliar a qualidade

das bordas, como sugerido por Martin, Fowlkes e Malik (2004). Sendo assim, as metricas

utilizadas para avaliacao das regioes foram:

65

• Cobertura da Segmentacao (Segmentation Covering (SC)): A sobreposicao

(overlaping) entre duas regioes R e R′, definida pela Equacao. 5.1,

O(R,R′) =|R⋂R′|

|R⋃R′|

(5.1)

pode ser utilizada para avaliar uma segmentacao em relacao ao seu ground-truth.

Entao, Martin, Fowlkes e Malik (2004) definiram a cobertura de uma segmentacao

S em relacao a S ′ de acordo com a Equacao 5.2,

C(S ′ → S) =1

N∑R∈S

|R|.maxR′∈S′

O(R,R′) (5.2)

de modo queN representa o numero total de pixels em uma imagem. A cobertura de

uma segmentacao S em relacao a um conjunto de ground-truth Gi correspondentes

a S, e definido, inicialmente, pela cobertura de S em relacao a cada ground-truth

Gi separadamente, obtendo assim, o resultado medio da segmentacao em relacao a

diferentes anotacoes humanas da mesma.

• Indice Probabilıstico de Rand(Probabilistic Rand Index (PRI)): o ındice de Rand

entre uma segmentacao S e seu ground-truth G, e definido pela soma da quantidade

de pares de pixels com rotulagem de regioes igual em S e G e a quantidade de pares

de pixels com rotulagem de regioes diferente em S e G, dividido pela quantidade de

pares de pixels. Sendo assim, o ındice de Rand pode tambem ser aplicado com um

conjunto de ground-truth Gi (UNNIKRISHNAN; PANTOFARU; HEBERT, 2007; YANG et

al., 2008). Martin, Fowlkes e Malik (2004) definiram o Rand Indice Probabilıstico

utilizando um conjunto de ground-truth Gi conforme mostra a Equacao 5.3.

PRI(S,Gi) =1

T∑i<j

[cijpij + (1− cij)(1− pij)] (5.3)

De modo que cij ocorre quando i e j possuem mesma rotulagem e pij sua

probabilidade de i e j. T corresponde ao numero total de pares de pixels.

Utilizando-se a media amostral para estimar pij, o resultado de PRI equivale a

media do ındice de Rand com difrentes ground-truth.

• Variacao da Informacao (Variation of Information (VI)): a variacao das informacoes

mede a distancia entre duas segmentacoes em termos da media da entropia

condicional, como define a Equacao 5.4

VI(S,S ′) = H(S) +H(S ′)− 2× I(S,S ′) (5.4)

De modo que H e I representam, respectivamente, a entropia e a informacao mutua

entre a segmentacao (S) e o conjunto de ground-truth (S ′).

66

Para avaliar as bordas, foi utilizada a seguinte metrica:

• F -measure: e possıvel calcular a precisao e a revocacao de um mapa de bordas

(por exemplo, UCM e mapa de saliencia) resultante dos processos de segmentacao

hierarquica. Sendo assim, a precisao mede quantos pixels relacionados as bordas

estao errados (PE) em relacao a segmentacao gerada pelo metodo e a revocacao

mede quantos pixels das bordas estao corretos (PC) em relacao a segmentacao do

ground-truth (PG), como mostra as Equacoes 5.5 e 5.6.

Precisao =PC

PC + PE(5.5)

Revocacao =PC

PG(5.6)

Sendo assim, a metrica F -measure e responsavel por determinar a media harmonica

entre precisao e revocacao, como mostra a Equacao 5.7

F -measure = 2 ∗ Precisao.Revocacao

Precisao+Revocacao(5.7)

Neste trabalho sera utilizada a F -measure para avaliacao das bordas das

segmentacoes, portanto, esta metrica sera denominada deravante como Fb.

5.3.2 Metrica de avaliacao dos regressores

Para avaliar a qualidade dos treinamentos realizados, foi utilizada a metrica de

media do erro quadratico (MSE) difinida pela Equacao 5.8. A qual calcula a media da

diferenca entre o valor do esperado e o valor predito ao quadrado.

MSE =1

n

n∑n=1

(Pi − Ei)2 (5.8)

De modo que n e a quantidade regioes preditas, Ei e o valor de score esperado na predicao

da regiao i e Pi e o valor predito pelo regressor.

5.4 Organizacao dos Experimentos

Os experimentos da presente dissertacao estao organizados da seguinte maneira:

Experimento 1 Este experimento objetivou avaliar o comportamento do metodo de

realinhamento de hierarquias. Para isso, treinou-se florestas aleatorias com 100

67

arvores, como sugerido por Chen et al. (2016b), e avaliou-se o comportamento do

metodo para segmentacoes obtidas em diferentes abordagens: gPb-owt-ucm e HGB,

e para diferentes conjuntos de caracterısticas. Sendo assim, foi possıvel analisar e

avaliar como o metodo de realinhamento de hierarquias se comportou em diferentes

cenarios.

Experimento 2 Afim de entender melhor o impacto da utilizacao de diferentes metodos

de aprendizado de maquina para treinamento e predicao dos scores, no Experimento

2 foram treinadas florestas aleatorias e redes neurais, totalizando 660 regressores

com diferentes conjuntos de caracterısticas e diferentes configuracoes (quantidade

de arvores nas florestas aleatorias, e quantidade de neuronios e camadas nas redes

neurais). Entao, avaliou-se a qualidade de cada regressor, bem como os tempos

de treinamento. Devido a quantidade de testes, neste experimento utilizou-se

as segmentacoes do metodo HGB, pois as segmentacoes hierarquicas geradas por

este metodo possui quantidade menor de regioes comparando-se com o metodo

gPb-owt-ucm.

Experimento 3 Este experimento teve como objetivo avaliar o metodo de realinhamento

de hierarquias utilizando-se o regressor que obteve melhor resultado no Experimento

2. Por isso, foi usado o melhor regressor obtido para prever os scores das

segmentacoes da base de teste e entao essas segmentacoes foram realinhadas. Por

fim, para entender melhor os resultados obtidos do realinhamento das hierarquias,

foram feitas algumas comparacoes individuais entre as segmentacoes antes e depois

do realinhamento.

Experimento 4 Para entender melhor o motivo pelo qual algumas hierarquias

realinhadas no Experimento 3 tiveram um resultado relativamente pior que os

demais, neste experimento foi investigado a relacao destes resultados com o

ground-truth definido por diferentes humanos. Entao, foi feita uma pequena

modificacao no calculo de score para que cada ground-truth da base de treinamento

pudesse ser levado em consideracao no momento de treinar o regressor. Feito isso,

foi treinado um unico regressor com as mesmas caracterısticas e configuracoes do

melhor regressor obtido no Experimento 2, usando-se os novos scores calculados.

Depois, foi avaliada a qualidade deste novo regressor e, ainda, foi feita as predicoes

de scores para as segmentacoes da bases de teste, as quais foram posteriormente

realinhadas. Por fim, foi feita uma avaliacao das segmentacoes realinhadas que

foram geradas.

68

5.5 Resultados do Experimento 1

O primeiro experimento realizado teve como objetivo identificar o comportamento

da abordagem de realinhamento de hierarquias. Para isso, foram utilizadas

as segmentacoes hierarquicas geradas pelos metodos gPb-owt-ucm (ARBELAEZ

et al., 2011) e HGB (GUIMARAES et al., 2012, 2017) para treinamento e

predicao. As segmentacoes correspondentes ao metodo gPb-owt-ucm, foram

as mesmas produzidas por Arbelaez et al. (2011) e estao disponıveis na url:

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html.

Ja as segmentacoes geradas por HGB, foram realizadas no presente trabalho conforme

descrito na Secao 2.6.1.

Como foi sugerido por Chen et al. (2016b), os treinamentos realizados neste

experimento consistiram de florestas aleatorias com 100 arvores, as quais foram treinadas

com as segmentacoes hierarquicas das bases de treino e validacao; no processo de

aprendizagem foi utilizado o primeiro ground-truth de cada imagem e as segmentacoes

usadas na predicao foram as que compoem a base de teste.

Para analisar a qualidade da segmentacao obtida apos a aplicacao do processo de

realinhamento das hierarquias foram aplicadas as metricas de avaliacao da segmentacao

(ver Secao 5.3.1) antes e depois do realinhamento. Os resultados medios obtidos estao

expostos na Tabela 1, de maneira que, ’c’ representa que as caracterısticas de cor foram

utilizadas, do mesmo modo para ‘f’, que representa as caracterısticas de formato, ’g’ as

de grafos e ’t’ as de textura.

Tabela 1 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias

SC ↑ PRI ↑ VI ↓ Fb ↑ODS OIS ODS OIS ODS OIS ODS OIS

gPb-owt-ucm sem alinhamento 0,59 0,65 0,83 0,86 1,69 1,48 0,73 0,76gPb-owt-ucm realinhado (c+g+f) 0,58 0,64 0,82 0,85 1,75 1,49 0,69 0,76gPb-owt-ucm realinhado (c+f) 0,55 0,61 0,79 0,83 1,81 1,58 0,69 0,74

HGB sem alinhamento 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,50HGB alinhado (c+t+g+f) 0,38 0,53 0,75 0.81 2,45 1,89 0,50 0,50HGB alinhado (t+g+f) 0,39 0,53 0,74 0,81 2,45 1,89 0,50 0,50HGB alinhado (c+f) 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,50


Em relacao ao metodo gPb-owt-ucm foi possıvel observar, no caso de teste onde

houve o realinhamento de hierarquias utilizando-se as caracterısticas de cor, grafo e

formato, que a media da fb OIS nao sofreu variacao, comparando-se com as segmentacoes

que nao passaram pelo processo de realinhamento. No metodo HGB, foi possıvel observar

que as medias da fb OIS foram mantidas, em todos os casos de testes, e nos testes que foram

69

utilizados as caracterısticas de cor, textura, grafo, formato e cor, e as caracterısticas grafo

e formato, houve uma melhora media da fb ODS e da media ındice Rand probabilıstico

(PRI). A media de variacao da informacao (VI) manteve a mesma no caso de teste com

as caracterısticas de cor e formato.


Com intuito de entender melhor os resultados do Experimento 1, supos-se que a

qualidade do regressor poderia influenciar nos resultados do realinhamento de hierarquias.

Deste modo, este experimento consistiu de 660 casos de testes, os quais objetivam avaliar a

qualidade dos treinamentos para a realizacao do processo de realinhamento de hierarquias.

Para isso, variou-se os tipos de regressares: redes neurais e florestas aleatorias e as

configuracoes de ambos, no caso das florestas de aleatorias, a quantidade de arvores e, nas

redes neurais, o numero de camadas e de neronios e, ainda, variou-se as caracterısticas

treinadas.

Todos os casos de testes realizados neste experimento estao dispostos da Tabela

2, de maneira que, ’c’ representa que as caracterıstica de cor foram utilizadas nos testes,

do mesmo modo para ‘f’ que representa as caracterısticas de formato, ’g’ as de grafos

e ’t’ as de textura. Vale ressaltar que todos os testes foram executados dez vezes, com

intuito de encontrar um resultado medio. Ressalta-se tambem que as redes neurais foram

executadas com 1000 epocas.

Tabela 2 – Variacoes das configuracoes dos regressores e das caracterısticasextraıdas utilizadas nos treinamentos

Regressores Caracterısticas1-Floresta 25 arvores g+t+f g+t+f+c g t f c2-Floresta 50 arvores g+t+f g+t+f+c g t f c3-Floresta 100 arvores g+t+f g+t+f+c g t f c4-Floresta 200 arvores g+t+f g+t+f+c g t f c5-Floresta 400 arvores g+t+f g+t+f+c g t f c6-Rede neural 2 camadas 2 neuronios g+t+f g+t+f+c g t f c7-Rede neural 2 camadas 5 neuronios g+t+f g+t+f+c g t f c8-Rede neural 2 camadas 10 neuronios g+t+f g+t+f+c g t f c9-Rede neural 3 camadas 2 neuronios g+t+f g+t+f+c g t f c10-Rede neural 3 camadas 5 neuronios g+t+f g+t+f+c g t f c11-Rede neural 3 camadas 10 neuronios g+t+f g+t+f+c g t f c


Para este experimento, a base de dados de treino foi dividida da seguinte maneira:

150 imagens para os treinamentos e 50 imagens para as predicoes(testes). As segmentacoes

70

hierarquicas utilizadas foram obtidas pelo metodo HGB (GUIMARAES et al., 2017). No

total, em cada execucao, foram treinadas 361.218 regioes e preditas 121.271 regioes.

A qualidade dos regressores foram avaliadas por meio do erro quadratico medio

(Mean squared error - MSE) tanto para florestas aleatorias quanto para as redes neurais.

Sendo assim, a Tabela 3 apresenta a media das dez execucoes de todos os casos de testes

descritos anteriormente.

Tabela 3 – MSE medio dos resultados obtidos das predicoes realizadas comflorestas aleatorias e redes neurais

MSE Mediog+t+f g+t+f+c g t f c

1 0,18509209 0,18459177 0,21849234 0,18678246 0,19884561 0,203107942 0,18137186 0,18172127 0,21662086 0,18380640 0,19592916 0,199963643 0,17952611 0,18058542 0,21549135 0,18228562 0,19432792 0,198505264 0,17913795 0,17969894 0,21492789 0,18140093 0,19357084 0,197774525 0,17869200 0,17928266 0,21485142 0,18114958 0,19307683 0,19731554

6 0,19769712 0,17998844 0,24828146 0,18004387 0,22064616 0,193030417 0,18691166 0,19800373 0,19523876 0,17836639 0,26237000 0,196083098 0,26046969 0,24726973 0,35525110 0,18942491 0,24899007 0,241361979 0,17676010 0,18237783 0,19588142 0,18942491 0,20560021 0,1933061210 0,20027180 0,20950555 0,19545389 0,17903283 0,56323713 0,1965252311 0,23634249 0,27969912 0,23685408 0,21268386 0,28955141 0,21828954


As florestas aleatorios obtiveram melhores resultados medios quando se utilizou florestas

com 400 arvores (maior quantidade de arvore testada) e as piores medias ocorreram

quando se utilizou florestas com 25 arvores (menor quantidade de arvore testada). Sendo

assim, foi possıvel observar que os resultados medios foram melhorando conforme foi

aumentando a quantidade de arvores nas florestas aleatorias. Por outro lado, como mostra

a Tabela 4, o tempo de execucao de treinamento aumentou de acordo com a quantidade

de arvores nas florestas e a quantidade de caracterısticas.

Ainda sobre a Tabela 3, observa-se que as redes neurais nao sao tao estaveis quanto

as florestas aleatorias, uma vez que, para cada variacao de conjunto de caracterısticas,

uma configuracao diferente de rede neural obteve melhor resultado medio. O mesmo

ocorre no tempo medio de execucao de treinamento, como mostra a Tabela 4, o aumento

da quantidade de camadas, neuronios e caracterısticas nao significaram um aumento no

tempo de execucao, pois em alguns testes o treinamento da rede terminou antes de se

completar as 1000 epocas.

A Tabela 5 apresenta o tempo de execucao medio das predicoes testadas. Analisa-se

a partir dela que o tempo de predicao das florestas aleatorias aumentaram conforme

o numero de arvores na floresta. Um exemplo deste acontecimento pode ser visto

comparando-se os testes 1 e 5, que possuem 25 e 400 arvores, respectivamente, onde

71

Tabela 4 – Resultados do tempo medio de execucao dos treinamentos dasflorestas aleatorias e redes neurais

Tempo em Segundosg+t+f g+t+f+c g t f c

1 197,91617 268,92045 42,817752 57,984813 74,468831 86,6631032 359,65015 530,78027 84,902859 117,65434 150,70055 174,993323 815,15999 1244,6174 165,30622 233,82359 299,29527 347,970334 2086,6179 2579,1569 341,16349 479,15457 606,01351 700,090285 4464,4357 5519,1748 688,55336 989,34058 1281,8172 1513,8117

6 2391,4503 3770,0392 7300,5394 3837,7543 5365,1670 5978,84407 1392,2687 2477,4314 9013,0701 2422,4670 7400,8996 7582,58668 14485,072 11630,380 14202,665 8176,5996 10650,081 11640,8969 3977,7781 3194,6452 6485,4485 2702,3763 6230,5214 6152,076910 7423,5965 10587,158 7320,3696 4701,4077 7516,7588 8719,291711 12469,879 31513,439 12215,660 8374,3859 12124,952 13600,207


o tempo de execucao do teste 5 e aproximadamente 45 vezes maior que o tempo de

execucao do teste 1. Ja as nas redes neurais, a variacao do tempo de execucao, em relacao

as florestas aleatorias, e relativamente pequena.

Tabela 5 – Resultados do tempo medio de execucao da predicao com florestasaleatorias e redes neurais

Tempo em Segundosg+t+f g+t+f+c g t f c

1 2,02859 3,64567 3,00146 2,72026 3,46189 2,310832 3,9749 7,12749 5,67581 5,78461 4,64099 5,146353 10,81081 13,88213 11,56345 11,83585 9,3511 9,605924 33,56783 32,23265 25,87285 23,9097 19,76962 20,452835 91,5727774 58,2471 19,43906 22,32702 42,64888 37,76664

6 0,343723 1,170705 0,582265 0,128105 0,107010 0,1101317 0,373505 0,567926 0,709277 0,118647 0,516182 0,3655298 1,416877 2,355923 2,890167 0,441697 0,698788 0,4360959 0,473666 0,241742 0,70381 0,228223 0,218695 0,50393010 0,351334 0,698757 0,289511 0,145653 0,263456 0,27687211 2,681087 5,495473 0,785266 0,551825 0,844443 1,078973


O conjunto de caracterısticas que obteve o melhor resultado medio nos testes, tanto

para florestas aleatorias quanto para redes neurais foram g+t+f (grafo, textura e formato).

E, em relacao aos dois regressores, a melhor media de MSE ocorreu ao utilizar Rede

Neural com tres camadas e dois neuronios. Analisando-se individualmente os resultados

de cada um dos 660 testes, foi possıvel identificar que o melhor MSE encontrado para

rede neural ocorreu tambem ao utilizar tres camadas e dois neuronios e as caracterısticas

g+t+f, neste caso teste, especificamente, o resultado do MSE foi igual a 0,17466987; para

floresta aleatorias ocorreu ao utilizar 400 arvores e as caracterısticas g+t+f, neste caso

72

teste, o resultado do MSE foi igual a 0,17820504. Sendo assim, as proximas analises serao

embasadas nestes dois testes especificamente.

Figura 28 – Analise dos regressores RN E RF em relacao ao resultado esperadoe o resultado predito


Diante dos resultados ilustrados na Figura 28 pode-se observar que, ao comparar a floresta

aleatoria e a rede neural, os resultados estao pouco dispersos, isso significa que os valores

foram proximos. Comparando-se os resultados de cada regressor com o resultado esperado,

existe uma dispersao maior entre os resultados, o que indica que existe uma diferenca maior

entre alguns valores esperados e os preditos.

Para uma melhor entendimento dos resultados expostos anteriormente, a Figura 29

mostra os resultados esperados e os resultados preditos de maneira que possa ser observado

tambem o erro absoluto e o erro relativo.

A partir da analise da Figura 29, pode-se dizer que houve uma dificuldade de

ambos os regressores em predizerem valores positivos mais proximos de um. Observa-se,

ainda, que algumas regioes obtiveram um erro relativo significativamente maior que os

demais, o que acarreta em uma piora significativa das medias de erros. Analisando-se

detalhadamente os piores resultados, foi possıvel identificar que eles ocorreram quando os

resultados deveriam ser definidos como muito segmentados e foram preditos como pouco

segmentados e vice-versa.


Como foi avaliado na Secao anterior, a melhor media de MSE para rede neural

ocorreu ao treinar a rede com tres camadas e dois neuronios, com as caracterısticas

73

Figura 29 – Analise dos regressores RN E RF em relacao ao resultado esperadoe o resultado predito


de formato, grafo e textura, juntas. Sendo assim, este experimento objetivou avaliar o

comportamento do realinhamento de hierarquias aplicados a esse regressor. Para avaliar o

impacto da utilizacao de diferentes caracterısticas para o processo de realinhamento foram,

74

ainda, analisados os resultados do realinhamento de hierarquias aplicando-se diferentes

conjunto de caracterısticas como mostra a Tabela 6. Vale ressaltar que neste experimento

foram utilizadas as segmentacoes das imagens da base de testes obtidas pelo metodo HGB.

Tabela 6 – Variacoes das configuracoes dos regressores e das caracterısticasextraıdas utilizadas nos treinamentos

Regressore Caracterısticas1-Rede neural 3 camadas 2 neuronios g+t+f2-Rede neural 3 camadas 2 neuronios g+t+f+c3-Rede neural 3 camadas 2 neuronios g4-Rede neural 3 camadas 2 neuronios t5-Rede neural 3 camadas 2 neuronios f6-Rede neural 3 camadas 2 neuronios c


Para avaliar o impacto da utilizacao de diferentes caracterısticas para o processo

de realinhamento, os casos de teste dispostos na Tabela 6 foram executados com as

segmentacoes do metodo HGB. Os resultados medios estao dispostos na Tabela 7.

Tabela 7 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias com as segmentacoes do metodo HGB


Sem o realinhamento 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,501 0,37 0,53 0,74 0,81 2,45 1,89 0,53 0,582 0,37 0,53 0,74 0,81 2,45 1,89 0,53 0,583 0,42 0,53 0,74 0,81 2,45 1,89 0,54 0,584 0,36 0,53 0,74 0,81 2.45 1,89 0,53 0,585 0,37 0,53 0,74 0,81 2.45 1,89 0,53 0,586 0,39 0,53 0,74 0,81 2.44 1,89 0,53 0,58


Foi possıvel analisar que na metrica de avaliacao de borda houve uma melhora de 9,43 %

quando se utilizou as caraterısticas de grafos isoladamente, em relacao a media ODS, e

com as demais caracterısticas o resultado medio ODS obtiveram uma melhora de 7,53 %.

Sendo que para a media OIS, em todas as variacoes de caracterısticas o media foi 16,0 %

melhor ao aplicar o metodo de realinhamento de hierarquias. Observa-se que a media

PRI em relacao a todas as imagens realinhadas a media foi a mesma, porem ao analisar

cada imagem houve uma melhora de 1,25 % na melhor imagem segmentada. Nas demais

metricas de segmentacao nao ocorreram melhorias. Porem, um olhar mais atento em

alguns resultados finais especıficos podem ajudar a entender melhor esses resultados.

Sendo assim, a Figura 30 apresenta exemplos de resultados especıficos, com o valor de

escala igual a 0,5, pois e o nıvel hierarquico onde espera-se que os objetos e suas partes

estejam alocados apos o realinhamento.

75

Figura 30 – Exemplos de resultados antes e depois do realinhamento com assegmentacoes do valor de escala igual a 0,5

(a) Imagem (b) ground-truth (c) Segmentacao

SC : 0.16PRI : 0.39VI : 4.46Fb : 0.55

(d) SegmentacaoRealinhada

SC : 0.56PRI : 0.65VI : 1.23Fb : 0.70

(e) Imagem (f) ground-truth (g) Segmentacao

SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44

(h) SegmentacaoRealinhada

SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44

(i) Imagem (j) ground-truth (k) Segmentacao

SC : 0.35PRI : 0.78VI : 3.16Fb : 0.58

(l)SegmentacaoRealinhada

SC : 0.27PRI : 0.27VI : 2.21Fb : 0.0


Pode-se analisar que embora em alguns resultados medios nao tenham ocorrido

melhorias, quando se analisa as imagens separadamente, e possıvel entender que em muitos

76

casos houveram melhora significativa nos resultados. Essa melhoria pode ser observada

no exemplo ilustrado na Figura 30 (d), em que todas as metricas calculadas apresentaram

resultados melhores. Apesar das ocorrencias de melhorias, algumas segmentacoes nao

sofreram modificacoes nas hierarquias, como ilustra as Figuras 30 (h). Analisando-se

a diferenca dos resultados entre as Figuras 30 (k) e 30 (l), e possıvel observar que ao

realinhar a segmentacao, os resultados de todas as metricas ficaram piores. Portanto, os

fatos apresentados fazem com que o resultado medio nao apresente melhorias significativas,

embora em muitos casos particulares a aplicacao do realinhamento de hierarquias tenha

melhorado o resultado final da segmentacao.


Uma observacao atenta aos resultados expostos na Figura 29, entende que algumas

regioes obtiveram erro relativo maior que os demais. Esse fato ocorreu quando um valor

esperado e o valor predito eram muito diferentes, como por exemplo, um valor predito

como 0,00089 quando o esperado e o valor -0,8836. Sendo assim, foram analisadas as

regioes cujos erros absolutos mostrados na Figura 29 (erro absoluto) foram maiores ou

iguais a 100. A Figura 31 mostra um exemplo da imagem a qual uma dessas regioes

pertence, juntamente com o ground-truth utilizado e seu mapa de saliencia.

Foi possıvel perceber que em grande parte das regioes esperava-se que os scores

indicassem que elas foram muito segmentadas, uma vez que o ground-truth nao apresenta

muitos detalhes da imagem. Porem, se calcular o valor esperado em relacao a um

ground-truth realizado por um humano diferente, o resultado esperado pode ser tambem

diferente, pois alguns deles apresentam mais detalhes das regioes. A Figura 32 mostra

outros ground-truths relacionados a imagem disposta na Figura 31(b).

Entao, uma rede neural com tres camadas e dois neuronios com as caracterısticas de

grafo, formato e textura foi treinado, juntamente com as mesmas segmentacoes utilizadas

nos treinamentos do Experimento 2 (ver Secao 5.6). As mesmas segmentacoes de teste do

Experimento 2 tambem foram utilizadas para realizar os testes do presente experimento.

Deste modo, foi realizada uma alteracao no calculo de scores, levando-se em consideracao

os ground-truths realizados por diferentes humanos para cada imagem, como mostra a

Equacao 5.8

Scoreki =1

Nk(Nk∑j=1

|Gkij | − |Rk

i |max(|Gk

ij |, |Rki |)

(5.9)

sendo |Gkij | o tamanho do j−th segmentacao definida por humanos do ground-truth e

a regiao da segmentacao hierarquica correspondente (Rki ) da imagem k. Nk indica a

77

Figura 31 – Exemplo de segmentacao que obteve alta taxa de erro

(a) Mapa de Saliencia

(b) Imagem (c) ground-truth


quantidade de segmentacoes definidas por humanos no ground-truths referente a imagem

k.

Deste modo, analisando-se os resultados preditos, o valor de MSE foi igual a

0,1056665. Comparando o melhor valor de MSE do Experimento 2 (ver Secao 5.6 ), cujo

MSE foi de 0,17466987, e possıvel perceber que houve melhora na qualidade do regressor.

Entao, com o mesmo regressor treinado neste experimento, foram realizas as

predicoes de scores das regioes que pertencentes as segmentacoes da base de teste.

Posteriormente, essas segmentacoes foram realinhadas. A Tabela 8 mostra os resultados

obtidos no realinhamento comparando-os com os resultados do realinhamento obtidos no

Experimento 2, cujo regressor tinha as mesmas configuracoes e caracterısticas.

78

Figura 32 – Diferentes ground-truths referentes a imagem 31(b)

(a) (b)

(c) (d)


Tabela 8 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias levando-se em consideracao os ground-truthsrealizados por diferentes humanos para cada imagem


Realinhamento Experimento 2 0,37 0,53 0,74 0.81 2,45 1,89 0,53 0,58Realinhamento Experimento 4 0,38 0,53 0,74 0.81 2,37 1,89 0,53 0,58


Diante dos resultados mostrados na Tabela 8 e possıvel analisar que a utilizacao de

ground-truths definidos por diferente humanos no processo de treinamento dos scores, para

o realinhamento de hierarquias, apresentou resultados melhores ou iguais ao se comprar

com os resultados do realinhamento de hierarquias que utilizou um unico ground-truth.

Este fato pode ser observado de maneira mais clara na Figura 33, que ilustra alguns

exemplos de resultados das segmentacoes antes do processo de realinhamento e apos o

79

realinhamento obtido neste experimento.

Figura 33 – Exemplos de resultados antes e depois do realinhamento com assegmentacoes do valor de escala igual a 0,5

(a) Imagem (b) ground-truth (c) ground-truth (d) ground-truth

(e) ground-truth (f) ground-truth (g) ground-truth

(h) Segmentacao

SC : 0.16PRI : 0.39VI : 4.46Fb : 0.55

(i) SegmentacaoRealinhada

SC : 0.56PRI : 0.65VI : 1.23Fb : 0.70

E possıvel perceber que algumas segmentacoes, como as ilustradas na Figura 33 (d), o

resultado apos o realinhamento foi melhor do que o resultado da segmentacao sem o

realinhamento, porem comparando-se com os resultados da Figura 30 (d), nao houveram

alteracoes nos resultados. Nas Figuras 33 (o) e 33 (w) houveram uma melhora significativa

em todas as metricas, comparando-se com os resultados mostrados nas Figuras 33 (n)

e 33 (v), respetivamente. Percebe-se ainda que os resultados das Figuras 33 (o) e

33 (w) obtiveram valores melhores comparando-se com o realinhamento realizado no

Experimento2, ilustrados pelas Figuras 30 (h) e 30 (l).

80

(j) Imagem (k) ground-truth (l) ground-truth (m) ground-truth

(n) ground-truth (o) ground-truth

SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44

(p) Segmentacao

SC : 0.77PRI : 0.82VI : 1.16Fb : 0.54

(q) SegmentacaoRealinhada

Por fim, tambem foram avaliadas as hierarquias resultantes (apos o realinhamento

com o novo regressor treinado neste experimento) usando o tradicional beckmark de

avaliacao proposto por (ARBELAEZ et al., 2011) e uma abordagem na qual todas as

segmentacoes definidas por humanos no ground-truth sao usadas. O procedimento de

avaliacao proposto por (ARBELAEZ et al., 2011) obtem uma unica segmentacao baseada

em um procedimento de votacao majoritaria entre as diversas segmentacoes definidas por

humanos presentes no ground-truth. Novamente, isso poderia favorecer resultados muito

ou pouco-segmentados, dependendo do numero e da qualidade dessas segmentacoes.

Entao, neste trabalho tambem propusemos avaliar o resultado final da segmentacao,

que e aquele obtido por meio de um corte horizontal de um valor de escala de

0,5 (que corresponde a fatia de ancora composta pelas segmentacoes rotuladas como

81

(r) Imagem (s) ground-truth (t) ground-truth (u) ground-truth

(v) ground-truth (w) ground-truth

SC : 0.35PRI : 0.78VI : 3.16Fb : 0.58

(x) Segmentacao

SC : 0.72PRI : 0.89VI : 1.29Fb : 0.66

(y) SegmentacaoRealinhada


devidamente segmentadas) usando cada uma das segmentacoes presentes no ground -truth,

separadamente. No final, foi calculada a media de cada medida de segmentacao para

cada imagem. Os resultados sao mostrados na Tabela ??, que tambem apresenta os

resultados quando o valor maximo de cada medida de segmentacao para cada imagem e

considerado (em vez da media). Como se pode ver, exceto por Fb, todas as outras medidas

apresentaram melhorias.

82

Tabela 9 – Medidas de segmentacao para diferentes estrategias de avaliacaoapos o processo de realinhamento usando Scoreki .

Estrategia de avaliacao SC ↑ PRI ↑ VI ↓ Fb ↑Avaliacao de Consenso (ARBELAEZ et al., 2011) 0.53 0.81 1.89 0.58Avaliacao usando todas as segmentacoes do GT (med.) 0.56 0.83 1.81 0.46Avaliacao usando todas as segmentacoes do GT (max.) 0.63 0.88 1.45 0.53

83

6 CONCLUSOES E TRABALHOS FUTUROS

As tecnicas de processamento digital de imagens sao amplamente aplicadas em

diversas areas do conhecimento e tem, como uma das etapas, o processo de segmentacao

de imagens. Sendo assim, a qualidade das segmentacoes influenciam em diversos tipos de

aplicacoes. Na literatura, a segmentacao de imagens em sua versao hierarquica tem sido

aplicada com sucesso. Por isso, melhorar os resultados finais dos metodos de segmentacao

de imagens, mais especificamente, de metodos de segmentacao hierarquica de imagens e

uma necessidade evidente e que tem sido abordada na literatura recentemente.

O metodo proposto por Chen et al. (2016b) e uma alterativa interessante para

melhorar os resultados finais das segmentacoes, uma vez que propoe realinhar as

hierarquias de particoes utilizando aprendizado de maquina para prever se as regioes

de uma hierarquia sao muito, pouco ou devidamente segmentadas e, posteriormente,

realinha-las de acordo com estas rotulagens. Neste estudo, os autores utilizaram apenas

um metodo de aprendizado de maquina (floresta aleatoria) com uma unica configuracao

(100 arvores) com um unico conjunto de caracterısticas (propriedade do grafo, propriedade

da regiao e textura) para realizar as predicoes. Deste modo, o presente trabalho propos

uma analise mais detalhada para entender qual e o impacto gerado nos resultados de

segmentacao hierarquica de imagens apos o processo de realinhamento de hierarquias ao

treinar diferentes regressores, com diferentes configuracoes, e com diferentes caracterısticas

para descrever as regioes.

Sendo assim, por meio dos experimentos realizados foi possıvel concluir que o

metodo de realinhamento de hierarquias se comporta de maneira diferente quando se e

utilizada diferentes caracterısticas no processo de treinamento, isso pode ser percebido nos

resultados das segmentacoes geradas pelos dois metodos utilizados (HGB e gpb-ucm-owt).

Isso ocorre porque a utilizacao de diferentes caracterısticas para descrever uma regiao

influencia na qualidade dos treinamentos. Outro fator de impacto para a qualidades

dos treinamentos e a configuracoes das redes neurais e das florestas aleatorias. Sendo

que a rede neural apresentou o melhor valor medio de MSE em relacao a todos os testes

executados, quando foram utilizados as caracterısticas de grafos, textura e formato na rede

com tres camadas e dois neuronios. Ja as florestas aleatorias, apresentaram resultados

mais estaveis que as redes neurais, uma vez que, em todos os casos de teste os melhores

valores apresentados ocorreram quando as florestas eram compostas por 400 arvores.

A utilizacao do realinhamento de hierarquias, como foram mostrados nos

experimentos, acarreta em melhores segmentacoes. Embora alguns resultados medios

obtidos para todas as metrica calculada, comparando-se com os resultados sem o

realinhamento nao apresentassem melhorias significativas, uma avaliacao atentamente

84

para cada segmentacao realinhada foi possıvel observar que muitas segmentacoes

obtiveram melhorias significativas, porem, alguns resultados que nao alcancaram tais

melhorias fizeram com que a media geral nao apresentasse resultados tao satisfatorios.

Uma analise detalhada nos resultados obtidos das predicoes dos scores e dos seus

resultados esperados, sugeriu que, como se tem ground-truths realizados por diferentes

humanos para cada imagem da base de dados utilizadas e, alguns deles apresentam mais

(ou menos) detalhes das regioes das imagens, supos-se que utilizar apenas a primeira

segmentacao da base, como foi sugerido por Chen et al. (2016b), nao era suficiente para

determinar se uma regiao da hierarquia de particao era muito, pouco, ou devidamente

segmentada. Entao, uma alteracao no calculo dessas rotulagens foi realizada, levando-se

em consideracao os diferentes ground-truths das imagens. Diante dos resultados, foi

possıvel observar que as segmentacoes realizadas apresentaram melhorias em alguns casos

e, em outros casos, nao sofreram alteracoes. Sendo assim, foi possıvel concluir que existe

a possibilidade de se melhorar a qualidade dos dados de treinamento, o que impacta

positivamente nos resultados do processo de realinhamento de hierarquias.

Portanto, como trabalhos futuros, pretende-se estudar uma tecnica que possibilite

representar ground-truths realizadas por diferentes humanos em uma unica anotacao para

avaliar e treinar, da melhor maneira possıvel, os scores de uma regiao. Alem disso,

pretende-se tambem aplicar a tecnica de realinhamento de hierarquias em segmentacao

de vıdeos.

85

REFERENCIAS

ARBELAEZ, P. Boundary extraction in natural images using ultrametric contour maps.In: IEEE. Computer Vision and Pattern Recognition Workshop, 2006.CVPRW’06. Conference on. [S.l.], 2006. p. 182–182.

ARBELAEZ, P. et al. Contour detection and hierarchical image segmentation. IEEEtransactions on pattern analysis and machine intelligence, IEEE, v. 33,n. 5, p. 898–916, 2011.

BELO, L. et al. Graph-based hierarchical video summarization using global descriptors.In: Tools with Artificial Intelligence (ICTAI), 2014 IEEE 26thInternational Conference on. [S.l.: s.n.], 2014. p. 822–829. ISSN 1082-3409.

BELO, L. et al. Summarizing video sequence using a graph-based hierarchical approach.Neurocomputing, v. 173, p. 1001–1016, 2016. ISSN 0925-2312.

BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, p. 5–32, Oct 2001.ISSN 1573-0565.

CHEN, L. C. et al. Attention to scale: Scale-aware semantic image segmentation. In:2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.: s.n.], 2016. p. 3640–3649.

CHEN, Y. et al. Scale-aware alignment of hierarchical image segmentation. In: 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.: s.n.], 2016. p. 364–372. ISSN 1063-6919.

COMANICIU, D.; MEER, P. Mean shift: a robust approach toward feature spaceanalysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,v. 24, n. 5, p. 603–619, May 2002. ISSN 0162-8828.

COUSTY, J.; NAJMAN, L. Morphological floodings and optimal cuts in hierarchies. In:2014 IEEE International Conference on Image Processing (ICIP). [S.l.:s.n.], 2014. p. 4462–4466. ISSN 1522-4880.

COUSTY, J. et al. Hierarchical segmentations with graphs: Quasi-flat zones, minimumspanning trees, and saliency maps. Journal of Mathematical Imaging andVision, v. 60, n. 4, p. 479–502, May 2018.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2. ed. NewYork: Wiley, 2001. ISBN 978-0-471-05669-0.

FARABET, C. et al. Learning hierarchical features for scene labeling. IEEETransactions on Pattern Analysis and Machine Intelligence, v. 35, n. 8, p.1915–1929, Aug 2013. ISSN 0162-8828.

86

FELZENSZWALB, P. F.; HUTTENLOCHER, D. P. Efficient graph-based imagesegmentation. International Journal of Computer Vision, Kluwer AcademicPublishers, v. 59, n. 2, p. 167–181, 2004. ISSN 0920-5691.

FU, K. Syntactic pattern recognition and applications. [S.l.]: Prentice-Hall,1982. (Prentice-Hall advanced reference series: Computer science). ISBN 9780138801205.

GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. [S.l.]: Prentice-Hall,Incg, 2001. 752 p. ISBN 0-201-18075-8.

GUIGES, L.; COCQUEREZ, J.; MEN, H. L. Scale-sets image analysis. InternationalJournal of Computer Vision, Kluwer Academic Publishers, v. 68, n. 3, p. 289–317,2006.

GUIGUES, L.; COCQUEREZ, J. P.; MEN, H. L. Scale-sets image analysis.International Journal of Computer Vision, v. 68, n. 3, p. 289–317, 2006.

GUIMARAES, S. J. F. et al. A hierarchical image segmentation algorithm based on anobservation scale. In: SSPR/SPR. [S.l.]: Kluwer Academic Publishers, 2012. p. 116–125.

GUIMARAES, S. J. F. et al. Hierarchizing graph-based image segmentation algorithmsrelying on region dissimilarity: the case of the Felzenszwalb-Huttenlocher method. v. 2,n. 1, p. 55–75, 2017.

GUIMARAES, S. J. F.; PATROCINIO JR, Z. K. G. A graph-based hierarchical imagesegmentation method based on a statistical merging predicate. In: PETROSINO, A.(Ed.). International Conference on Image Analysis and Processing -ICIAP 2013. [S.l.]: Springer Berlin Heidelberg, 2013, (Lecture Notes in ComputerScience, v. 8156). p. 11–20. ISBN 978-3-642-41180-9.

HAO, Z. et al. Scale-aware face detection. In: 2017 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). [S.l.: s.n.], 2017. p. 1913–1922. ISSN1063-6919.

HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of StatisticalLearning. New York, NY, USA: Springer New York Inc., 2001. (Springer Series inStatistics).

JIE, Z. et al. Scale-aware pixelwise object proposal networks. IEEE Transactions onImage Processing, v. 25, n. 10, p. 4525–4539, 2016. ISSN 1057-7149.

KUNCHEVA, L. I. Combining Pattern Classifiers: Methods and Algorithms.2nd. ed. [S.l.]: Wiley Publishing, 2014. ISBN 1118315235, 9781118315231.

LEMPITSKY, V.; VEDALDI, A.; ZISSERMAN, A. Pylon model for semanticsegmentation. In: SHAWE-TAYLOR, J. et al. (Ed.). Advances in NeuralInformation Processing Systems 24. [S.l.]: Curran Associates, Inc., 2011. p.1485–1493.

LI, J. et al. Scale-aware fast r-cnn for pedestrian detection. IEEE Transactions onMultimedia, v. 20, n. 4, p. 985–996, 2018. ISSN 1520-9210.

87

MARTIN, D. et al. A database of human segmented natural images and its applicationto evaluating segmentation algorithms and measuring ecological statistics. In:Proceedings Eighth IEEE International Conference on Computer Vision.ICCV 2001. [S.l.: s.n.], 2001. v. 2, p. 416–423.

Martin, D. R.; Fowlkes, C. C.; Malik, J. Learning to detect natural image boundariesusing local brightness, color, and texture cues. IEEE Transactions on PatternAnalysis and Machine Intelligence, v. 26, n. 5, p. 530–549, May 2004. ISSN0162-8828.

MORRIS, O.; LEE, M. J.; CONSTANTINIDES, A. Graph theory for image analysis:an approach based on the shortest spanning tree. Communications, Radar andSignal Processing, IEE Proceedings F, v. 133, n. 2, p. 146–152, April 1986. ISSN0143-7070.

NICOLETTI, M. d. C.; HRUSCHKA, E. R. J. Fundamentos da Teoria dosGrafos para Computacao. [S.l.]: Edufscar, 2013. 224 p. ISBN 978-85-7600-075-4.

NOCK, R.; NIELSEN, F. Statistical region merging. IEEE Transactions onComputers, v. 26, n. 11, p. 1452–1458, November 2004.

PEDRINI, H.; SCHWARTZ, W. R. Analise de Imagens Digitais: Princıpios,Algoritmos e Aplicacoes. [S.l.]: Editora Thomson Learning, 2007. 528 p. ISBN978-85-221-0595-3.

PONT-TUSET, J. et al. Multiscale combinatorial grouping for image segmentationand object proposal generation. IEEE Transactions on Pattern Analysis andMachine Intelligence, v. 39, n. 1, p. 128–140, Jan 2017. ISSN 0162-8828.

PRATTI, W. K. Digital Image Processing. [S.l.]: A Wiley-Interscience Publication,2001. 735 p. ISBN 0-471-37407-5.

RODRIGUES, F. et al. Graph-based hierarchical video cosegmentation. In: SPRINGER.International Conference on Image Analysis and Processing - ICIAP2017. [S.l.], 2017. p. 15–26.

RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Parallel distributedprocessing: Explorations in the microstructure of cognition, vol. 1. In: RUMELHART,D. E.; MCCLELLAND, J. L.; GROUP, C. P. R. (Ed.). Cambridge, MA, USA: MITPress, 1986. cap. Learning Internal Representations by Error Propagation, p. 318–362.ISBN 0-262-68053-X.

RUSSELL, S. et al. Artificial Intelligence. Prentice Hall,2010. (Prentice Hall series in artificial intelligence). Disponıvel em:<https://books.google.com.br/books?id=8jZBksh-bUMC>. ISBN 9780136042594.

SALEMBIER, P.; GARRIDO, L. Binary partition tree as an efficient representation forimage processing, segmentation, and information retrieval. IEEE Transactions onImage Processing, v. 9, n. 4, p. 561–576, April 2000. ISSN 1057-7149.

SHI, J.; MALIK, J. Normalized cuts and image segmentation. IEEE Transactionson Pattern Analysis and Machine Intelligence, v. 22, n. 8, p. 888–905, Aug2000. ISSN 0162-8828.

88

SIMOES-PEREIRA, J. M. S. Grafos e Redes Teoria e Algorıtmos Basicos.[S.l.]: Interciencia, 2014. 337 p. ISBN 978-85-7193-331-6.

SOUZA, K. J. F. et al. Hierarchical video segmentation using an observation scale.In: Graphics, Patterns and Images (SIBGRAPI), 2013 26th SIBGRAPI -Conference on. [S.l.: s.n.], 2013. p. 320–327. ISSN 1530-1834.

SOUZA, K. J. F. et al. Streaming graph-based hierarchical video segmentation by asimple label propagation. In: Graphics, Patterns and Images (SIBGRAPI), 201526th SIBGRAPI - Conference on. [S.l.: s.n.], 2015.

SOUZA, K. J. F. et al. Decreasing the number of features for improving human actionclassification. In: 2016 29th SIBGRAPI Conference on Graphics, Patternsand Images (SIBGRAPI). [S.l.: s.n.], 2016. p. 195–200.

SOUZA, K. J. F. et al. Graph-based hierarchical video segmentation based on a simpledissimilarity measure. Pattern Recognition Letters, v. 47, p. 85–92, 2014. ISSN0167-8655. Advances in Mathematical Morphology.

TORRES, R. S.; FALCAO, A. X. Content-based image retrieval: Theory andapplications. Revista de Informatica Teorica e Aplicada, v. 13, n. 2, p. 161 –185, 2006.

UNNIKRISHNAN, R.; PANTOFARU, C.; HEBERT, M. Toward objective evaluationof image segmentation algorithms. IEEE Trans. Pattern Anal. Mach. Intell.,IEEE Computer Society, Washington, DC, USA, v. 29, n. 6, p. 929–944, jun. 2007. ISSN0162-8828. Disponıvel em: <https://doi.org/10.1109/TPAMI.2007.1046>.

VARAS, D.; ALFARO, M.; MARQUES, F. Multiresolution hierarchy co-clusteringfor semantic segmentation in sequences with small variations. In: 2015 IEEEInternational Conference on Computer Vision (ICCV). [S.l.: s.n.], 2015. p.4579–4587. ISSN 2380-7504.

XU, C.; WHITT, S.; CORSO, J. J. Flattening supervoxel hierarchies by the uniformentropy slice. In: 2013 IEEE International Conference on Computer Vision.[S.l.: s.n.], 2013. p. 2240–2247. ISSN 1550-5499.

YANG, A. Y. et al. Unsupervised segmentation of natural images via lossy datacompression. Comput. Vis. Image Underst., Elsevier Science Inc., New York,NY, USA, v. 110, n. 2, p. 212–225, maio 2008. ISSN 1077-3142. Disponıvel em:<http://dx.doi.org/10.1016/j.cviu.2007.07.005>.

ZAHN, C. Graph-theoretical methods for detecting and describing gestalt clusters.Computers, IEEE Transactions on, C-20, n. 1, p. 68–86, Jan 1971. ISSN0018-9340.

ZHANG, X.-X.; YANG, Y.-M. Minimum spanning tree and color image segmentation. In:Networking, Sensing and Control, 2008. ICNSC 2008. IEEE InternationalConference on. [S.l.: s.n.], 2008. p. 900–904.

ZOU, W.; KOMODAKIS, N. Harf: Hierarchy-associated rich features for salient objectdetection. In: 2015 IEEE International Conference on Computer Vision(ICCV). [S.l.: s.n.], 2015. p. 406–414. ISSN 2380-7504.

Milena Menezes Adao~

Documents

Transcript of Milena Menezes Adao~