T ecnicas - USP...ux e L A T E X. P or ultimo, gostaria de registrar meus sinceros agradecimen tos a...

T�ecnicas de Sele�c~ao de

Caracter��sticas com

Aplica�c~oes em

Reconhecimento de Faces

Te�o�lo Em��dio de Campos

DISSERTAC� ~AO APRESENTADA

AO

INSTITUTO DE MATEM�ATICA E ESTAT�ISTICA

DA

UNIVERSIDADE DE S~AO PAULO

PARA OBTENC� ~AO DO GRAU DE MESTRE

EM

CIENCIA DA COMPUTAC� ~AO

�Area de Concentra�c~ao : Ciencia da Computa�c~ao

Orientador : Prof. Dr. Roberto Marcondes Cesar Junior

- S~ao Paulo, 25 de maio de 2001 -

T�ecnicas de Sele�c~ao de Caracter��sticas

com Aplica�c~oes em


Este exemplar corresponde �a reda�c~ao

�nal da disserta�c~ao devidamente corrigida

e apresentada por Te�o�lo Em��dio de Campos e aprovada

pela Comiss~ao Julgadora.

S~ao Paulo, 25 de maio de 2001

Banca Examinadora :

� Prof. Dr. Roberto Marcondes Cesar Junior (orientador) - MAC-IME-USP

� Prof. Dr. Junior Barrera - MAC-IME-USP

� Prof. Dr. Jo~ao Kogler - LSI-POLI-USP

aos meus pais Maria Rita e Benedicto

Agradecimentos

Ap�os esses 27 meses de trabalho aqui no IME-USP, �e dif��cil criar uma listacontendo todas as pessoas que me apoiaram e contribu��ram direta e indire-tamente para o desenvolvimento dessa disserta�c~ao e para o meu crescimento.Por isso eu gostaria de me desculpar por todos os nomes que eu omiti nesteespa�co.

Inicio meus agradecimentos citando a Funda�c~ao de Amparo �a Pesquisa do Es-tado de S~ao Paulo (FAPESP) pelo apoio �nanceiro (processos 99/01488-8 e99/12765-3). Agrade�co ao Prof. Roberto Cesar, que fez brotar meu interes-se pela pesquisa em vis~ao computacional em 1995 e se tornou mais que umorientador, mas um amigo. Tamb�em devo agradecer aos professores Carlos Hi-toshi Morimoto e Junior Barrera, pelos cursos extremamente relevantes para odesenvolvimento deste trabalho e pelas discuss~oes nos semin�arios e, principal-mente, na quali�ca�c~ao. Em especial, agrade�co ao Prof. Hitoshi por forneceralgumas bases de imagens.

Agrade�co �a Isabelle Bloch (Ecole Nationale Sup�erieure des T�el�ecommunications- Paris), pela colabora�c~ao na implementa�c~ao da principal contribui�c~ao destetrabalho. De maneira semelhante, agrade�co ao Pavel Pudil e ao Petr Somol(Academy of Sciences of the Czech Republic) pelas discuss~oes e por fornece-rem o c�odigo fonte dos m�etodos de busca utuante e utuante adaptativa parasele�c~ao de caracter��sticas. 1

H�a algumas pessoas que inicialmente participavam de meu dia-a-dia, comomembro do grupo de pesquisa ou como aluno de mestrado, que sempre me au-xiliaram e que hoje eu tamb�em considero grandes amigos. Dentre eles est~ao:Rog�erio S. Feris, grande companheiro de projetos e de congressos, FranklinC. Flores, cujo apoio e as discuss~oes foram muito importantes no decorrerde todo o per��odo, S�ergio R. Gaspar, que sempre esteve de prontid~ao paranos auxiliar em algumas tarefas relacionadas com este trabalho, Jorge Bitten-court, pelo apoio fundamental no in��cio do meu mestrado e pela ajuda com o

1I would like to thank Isabelle Bloch (Ecole Nationale Sup�erieure des T�el�ecommunications - Paris)for the collaboration that lead to the main contribution of this M.Sc. Thesis. I would also like to thankPavel Pudil and Petr Somol (Academy of Sciences of the Czech Republic) for useful discussions and forproviding the source code of the sequencial oating search methods and of the adaptive versions of thesemethods for feature selection.

ingles, Marcel Brun, pelas dicas e ferramentas do MatLab, ao Roberto Hira-ta, pela manuten�c~ao da rede, e a todos os outros colegas do Laborat�orio deProcessamento de Imagens pela amizade e pelos aux��lios com Linux e LATEX.

Por �ultimo, gostaria de registrar meus sinceros agradecimentos �a minha na-morada Silvana M. Vicente, pelo apoio, carinho, compreens~ao, paciencia epelo tempo que ela dispensou para revis~ao deste e de outros textos que foramproduzidos no decorrer desse per��odo.

Resumo

O reconhecimento de faces �e uma �area de pesquisa desa�adora que abre por-tas para a implementa�c~ao de aplica�c~oes muito promissoras. Embora muitosalgoritmos e�cientes e robustos j�a tenham sido propostos, ainda restam v�ariosdesa�os. Dentre os principais obst�aculos a serem superados, est�a a obten�c~aode uma representa�c~ao robusta e compacta de faces que possibilite distinguiros indiv��duos rapidamente.

Visando abordar esse problema, foi realizado um estudo de t�ecnicas de reco-nhecimento estat��stico de padr~oes, principalmente na �area de redu�c~ao de di-mensionalidade dos dados, al�em de uma revis~ao de m�etodos de reconhecimentode faces. Foi proposto (em colabora�c~ao com a pesquisadora Isabelle Bloch)um m�etodo de sele�c~ao de caracter��sticas que une um algoritmo de busca e�-ciente (m�etodos de busca seq�uencial utuante) com uma medida de distanciaentre conjuntos nebulosos (distancia nebulosa baseada em tolerancia). Es-sa medida de distancia possui diversas vantagens, sendo poss��vel consideraras diferentes tipicalidades de cada padr~ao dos conjuntos de modo a permitira obten�c~ao de bons resultados mesmo com conjuntos com sobreposi�c~ao. Osresultados preliminares com dados sint�eticos mostraram o car�ater promissordessa abordagem.

Com o objetivo de veri�car a e�ciencia de tal t�ecnica com dados reais, foramefetuados testes com reconhecimento de pessoas usando imagens da regi~ao dosolhos. Nesse caso, em se tratando de um problema com mais de duas classes,n�os propusemos uma nova fun�c~ao crit�erio inspirada na distancia supracitada.Al�em disso foi proposto (juntamente com o estudante de mestrado Rog�erio S.Feris) um esquema de reconhecimento a partir de seq�uencias de v��deo. Es-se esquema inclui a utiliza�c~ao de um m�etodo e�ciente de rastreamento decaracter��sticas faciais (Gabor Wavelet Networks) e o m�etodo proposto ante-riormente para sele�c~ao de caracter��sticas. Dentro desse contexto, o trabalhodesenvolvido nesta disserta�c~ao implementa uma parte dos m�odulos desse es-quema. Detalhes sobre os trabalhos correlatos e outras informa�c~oes podem serencontradas em http : ==www:vision:ime:usp:br=~creativision.

Abstract

Face recognition is an instigating research �eld that may lead to the deve-lopment of many promising applications. Although many eÆcient and robustalgorithms have been developed in this area, there are still many challenges tobe overcome. In particular, a robust and compact face representation is stillto be found, which would allow for quick classi�cation of di�erent individuals.

In order to address this problem, we �rst studied pattern recognition tech-niques, especially regarding dimensionality reduction, followed by the mainface recognition methods. We introduced a new feature selection approach incollaboration with the researcher Isabelle Bloch (TSI-ENST-Paris), that as-sociates an eÆcient searching algorithm (sequential oating search methods),with a tolerance-based fuzzy distance. This distance measure presents somenice features for dealing with the tipicalities of each pattern in the sets, sothat good results can be attained even when the sets are overlapping. Pre-liminary results with synthetic data have demonstrated that this method isquite promising.

In order to verify the eÆciency of this technique with real data, we appliedit for improving the performance of a person recognition system based on eyeimages. Since this problem involves more than two classes, we also developeda new criterion function based on the above-mentioned distance. Moreover,we proposed (together with Rog�erio S. Feris) a system for person recognitionbased on video sequences. This mechanism includes the development of aneÆcient method for facial features tracking, in addition to our method forfeature selection. In this context, the work presented here constitutes part ofthe proposed system. Related work and other information can be found athttp : ==www:vision:ime:usp:br=~creativision.

Sum�ario

1 Introdu�c~ao 1

1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Contribui�c~oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Organiza�c~ao do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

I Reconhecimento de Padr~oes 9

2 Conceitos B�asicos de Reconhecimento de Padr~oes 11

2.1 Abordagem estat��stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Panorama de Reconhecimento de Padr~oes . . . . . . . . . . . . . . 13

2.1.2 Introdu�c~ao ao Reconhecimento Estat��stico . . . . . . . . . . . . . . 13

2.2 M�etodos de Classi�ca�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1 Vis~ao Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.2 Classi�cador Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.3 Regra dos K vizinhos mais pr�oximos . . . . . . . . . . . . . . . . . 19

2.2.4 M��nima Distancia ao(s) Prot�otipo(s) . . . . . . . . . . . . . . . . . 21

2.3 Problemas de generaliza�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Redu�c~ao de dimensionalidade 27

3.1 Vis~ao Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Extra�c~ao de caracter��sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.1 Transformada de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2.2 An�alise de Componentes Principais (PCA) . . . . . . . . . . . . . . 34

ii SUM�ARIO

3.2.3 Discriminantes Lineares (LDA) . . . . . . . . . . . . . . . . . . . . 41

3.3 Sele�c~ao de Caracter��sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3.1 Algoritmos de sele�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3.2 M�etodos Determin��sticos com Solu�c~ao �Unica . . . . . . . . . . . . . 48

3.3.3 Fun�c~oes crit�erio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.4 M�etodo Proposto para Sele�c~ao de Caracter��sticas . . . . . . . . . . . . . . 61

3.4.1 Descri�c~ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.4.2 Conjuntos Nebulosos . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.4.3 Fuzzy�ca�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.4.4 Semi-pseudo-m�etrica baseada em Tolerancia . . . . . . . . . . . . . 63

3.4.5 Algoritmo e complexidade . . . . . . . . . . . . . . . . . . . . . . . 63

3.4.6 Considera�c~oes Sobre o Comportamento da Fun�c~ao Crit�erio . . . . . 65

3.4.7 Experimentos de Sele�c~ao de Caracter��sticas com Dados Arti�ciais . 68

3.4.8 Resultados com os Dados Arti�ciais . . . . . . . . . . . . . . . . . . 70

3.4.9 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

II Reconhecimento de Faces 75

4 Revis~ao de Reconhecimento de Faces 77

4.1 Tarefas de Identi�ca�c~ao de Faces . . . . . . . . . . . . . . . . . . . . . . . 77

4.2 M�etodos de Reconhecimento de Faces . . . . . . . . . . . . . . . . . . . . . 79

4.3 Considera�c~oes Sobre o Estado-da-Arte . . . . . . . . . . . . . . . . . . . . 85

5 M�etodos Propostos e Resultados 87

5.1 Uso de regi~oes menores da imagem . . . . . . . . . . . . . . . . . . . . . . 88

5.1.1 Introdu�c~ao e Motiva�c~ao . . . . . . . . . . . . . . . . . . . . . . . . 88

5.1.2 Base de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.1.3 Pr�e-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.1.4 Testes e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.2 Testes com Algoritmos de Busca para Sele�c~ao de Caracter��sticas . . . . . . 94

SUM�ARIO iii

5.2.1 Descri�c~ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.2.2 M�etodos de Sele�c~ao Avaliados . . . . . . . . . . . . . . . . . . . . . 95

5.2.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.3 Fun�c~ao Crit�erio Baseada em Distancia Nebulosa para c Classes . . . . . . . 98

5.3.1 Experimentos dessa Fun�c~ao Crit�erio para Sele�c~ao deEigeneyes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.3.2 Resultados utilizando outras fun�c~oes crit�erio . . . . . . . . . . . . . 110

5.3.3 Sugest~oes para Aperfei�coar a Fun�c~ao Crit�erio . . . . . . . . . . . . 112

5.4 Sistema para Reconhecimento a partir de Seq�uencias de V��deo . . . . . . . 114

5.4.1 Introdu�c~ao e Descri�c~ao do M�etodo . . . . . . . . . . . . . . . . . . . 114

5.4.2 Motiva�c~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.4.3 Detalhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.4.4 Outras aplica�c~oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.4.5 Discuss~ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

6 Conclus~oes 121

A Nota�c~ao Utilizada 123

Referencias Bibliogr�a�cas 127

�Indice Remissivo 136

iv SUM�ARIO

Lista de Figuras

1.1 Esquema b�asico de um sistema de reconhecimento de faces a partir de seq�uencias

de v��deo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1 Um sistema gen�erico de reconhecimento de padr~oes (baseado em [Duda and Hart, 1973]

e [Jain et al., 2000]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2 Exemplo de problema em que o uso de uma dimens~ao �e melhor que o uso de duas. 25

2.3 Efeito do problema da dimensionalidade. . . . . . . . . . . . . . . . . . . . . . 25

3.1 Dois exemplos de sinais de tamanho 50 (x1 e x2, acima) e suas respectivas

reconstru�c~oes a partir de 25 descritores de Fourier (abaixo). . . . . . . . . . . . 33

3.2 Processo de cria�c~ao de um padr~ao x a partir de uma imagem (adaptada de

[Romdhani, 1996]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Base canonica do espa�co de faces (adaptada de [Romdhani, 1996]). . . . . . . . 35

3.4 Dados arti�ciais bidimensionais. . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5 Dados de teste com os auto-vetores da matriz de covariancia e seus respectivos

auto-valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.6 Dados no espa�co criado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.7 Dados arti�ciais de teste: duas classes em um espa�co bidimensional. . . . . . . 39

3.8 Dados de teste de duas classes com os auto-vetores da matriz de covariancia e

seus respectivos auto-valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.9 Dados no espa�co criado: note que o primeiro auto-vetor n~ao possui poder de

discrimina�c~ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.10 Exemplo em que a redu�c~ao de dimensionalidade com LDA proporciona melhores

resultados de classi�ca�c~ao que PCA. H�a duas classes em um espa�co de carac-

ter��sticas bidimensional (adaptada de [Belhumeur et al., 1997]). . . . . . . . . . 42

3.11 Efeito de PCA e LDA no espa�co de caracter��sticas com poucas amostras de

treinamento. Adaptada de [Martinez and Kak, 2001]. . . . . . . . . . . . . . . 43

vi LISTA DE FIGURAS

3.12 Exemplo de distribui�c~ao que pode falhar com um discriminante linear. . . . . . 44

3.13 Taxonomia dos m�etodos de sele�c~ao de caracter��sticas. Adaptada da �gura 1

contida em [Jain and Zongker, 1997]. . . . . . . . . . . . . . . . . . . . . . . . 46

3.14 Fluxograma simpli�cado do algoritmo SFFS. Adaptada de [Jain and Zongker, 1997]. 55

3.15 Exemplos de distribui�c~oes de duas classes em um espa�co de caracter��sticas com

dimens~ao 2. Cada c��rculo representa a compacidade de uma classe e os pontos

representam prot�otipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.16 Amostragem dos dados arti�ciais utilizados em [Campos et al., 2001] nas carac-

ter��sticas 1 e 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69


ter��sticas 3 e 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70


ter��sticas 3 e 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.19 C�alculo da diferen�ca local (equa�c~ao 3.36) em um padr~ao da classe !i nas carac-

ter��sticas 5 e 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.20 Regi~ao de sobreposi�c~ao entre as duas classes nas caracter��sticas 1 e 2. . . . . . . 74

4.1 Imagens de tres faces diferentes mostradas em um espa�co de faces hipot�etico.

S~ao mostrados bons exemplos de fronteiras de decis~ao para cada tarefa de iden-

ti�ca�c~ao de faces (baseadas em [McKenna et al., 1997]). . . . . . . . . . . . . . 78

4.2 Exemplos de pontos importantes para o reconhecimento a partir de imagens de

per�l. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.3 Atributos utilizados para extra�c~ao de caracter��sticas locais e templates testados

(abordagem local) baseada em [Brunelli and Poggio, 1993]. . . . . . . . . . . . 81

4.4 Elastic Graph Matching. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.5 Gabor Wavelet Networks (obtida de [Feris, 2001]). . . . . . . . . . . . . . . . . 83

4.6 Range image (a) e sua reconstru�c~ao tridimensional (b) (de [Chellappa et al., 1995]). 84

5.1 Reconhecimento por regi~oes caracter��sticas: (a) imagens de teste; (b) resulta-

dos de classi�ca�c~ao incorreta devido ao uso da imagem de toda a face; (c) re-

sultado de classi�ca�c~ao correta devido ao uso de m�odulos (�gura baseada em

[Moghaddam and Pentland, 1994]). . . . . . . . . . . . . . . . . . . . . . . . 89

5.2 Exemplo de imagens de um indiv��duo da base utilizada. . . . . . . . . . . . . . 90

5.3 Processo de obten�c~ao das imagens de face e de olhos: (a) imagem original, de

128� 120 pixels; (b) recorte de face; (c) recorte de olhos. . . . . . . . . . . . . 91

LISTA DE FIGURAS vii

5.4 Os quatro primeiros auto-vetores mostrados como imagens e seus respectivos

auto-valores, obtidos atrav�es da base de faces (acima) e da base de olhos (abaixo) 92

5.5 Esquema do sistema de discrimina�c~ao faces � n~ao-faces. . . . . . . . . . . . . . 95

5.6 Resultados obtidos (em % de taxa de acerto do classi�cador) pelos conjuntos de

caracter��sticas selecionados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.7 Resultado da fun�c~ao crit�erio com a varia�c~ao de � . . . . . . . . . . . . . . . . . 101

5.8 Distancia ao Prot�otipo, treinando e testando com todos os padr~oes dispon��veis. . 102

5.9 Distancia ao Prot�otipo, treinando com 2/3 dos padr~oes e testando com os 1/3

restantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.10 K vizinhos mais pr�oximos (K=1), treinando e testando com todos os padr~oes

dispon��veis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.11 K vizinhos mais pr�oximos (K=1), treinando com 2/3 dos padr~oes e testando com

os 1/3 restantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.12 K vizinhos mais pr�oximos (K=1), leave-one-out. . . . . . . . . . . . . . . . . . 105


dispon��veis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


os 1/3 restantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106



dispon��veis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107


os 1/3 restantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107



dispon��veis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108


os 1/3 restantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109


5.22 Histograma das caracter��sticas selecionadas em todos os experimentos realizados. 110

5.23 Resultados com fun�c~oes crit�erio baseadas no desempenho de classi�cadores em

compara�c~ao com os resultados da fun�c~ao nebulosa e com a sele�c~ao dos 15 pri-

meiros autovetores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

viii LISTA DE FIGURAS

5.24 Histograma das caracter��sticas selecionadas atrav�es de fun�c~oes crit�erio baseadas

no desempenho de classi�cadores. . . . . . . . . . . . . . . . . . . . . . . . . 112

5.25 Esquema do projeto de reconhecimento a partir de seq�uencias de v��deo. . . . . . 118

5.26 Gera�c~ao do espa�co de caracter��sticas. . . . . . . . . . . . . . . . . . . . . . . 119

Lista de Tabelas

3.1 Caracter��sticas selecionadas utilizando o desempenho do classi�cador como fun�c~ao

crit�erio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.2 Porcentagem de classi�ca�c~ao correta dos dois classi�cadores usando o conjunto

de caracter��sticas selecionado com os dois crit�erios ap�os 100 experimentos de

sele�c~ao de caracter��sticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.3 Desvio padr~ao dos resultados mostrados na tabela 3.2. . . . . . . . . . . . . . 72

3.4 Nota�c~ao utilizada nas tabelas 3.2 e 3.3. . . . . . . . . . . . . . . . . . . . . . 72

5.1 Desempenho do classi�cador para reconhecimento de olhos e de faces quando

treinado com 3 imagens por pessoa. . . . . . . . . . . . . . . . . . . . . . . . 93

5.2 Desempenho do classi�cador para reconhecimento de olhos e de faces quando

treinado com 5 imagens por pessoa. . . . . . . . . . . . . . . . . . . . . . . . 93

x LISTA DE TABELAS

Cap��tulo 1

Introdu�c~ao

M�etodos de identi�ca�c~ao de pessoas sempre foram muito importantes para toda a socie-dade. No mundo moderno, as pessoas normalmente precisam carregar documentos paraquaisquer lugares que forem, pois essa �e a �unica forma de provarem suas identidades.Assumindo-se que n~ao existem pessoas completamente identicas, a necessidade da utili-za�c~ao de tais documentos extingue-se quando se disp~oe de m�etodos capazes de diferenciarcada indiv��duo sem confundi-lo com seus semelhantes. Provavelmente esse �e o principalobjetivo da pesquisa em Biometria. Um sistema biom�etrico �e um sistema de reconhe-cimento de padr~oes que estabelece a autenticidade de uma caracter��stica �siol�ogica oucomportamental possu��da por um usu�ario [Pankanti et al., 2000, Ratha et al., 2001].

Dentre as t�ecnicas de reconhecimento biom�etrico de pessoas que s~ao utilizadas atual-mente, as mais precisas s~ao aquelas baseadas em imagens do fundo da retina e as baseadasem imagens de ��ris [Pankanti et al., 2000, Ratha et al., 2001]. A con�abilidade de siste-mas de reconhecimento de ��ris �e t~ao grande que j�a existem bancos os adotando paraidenti�car seus usu�arios. Por�em, essas abordagens tem o problema de serem um tantoinvasivas, pois, para o funcionamento dos sistemas atuais, �e necess�ario impor certas con-di�c~oes ao usu�ario. No caso dos sistemas de reconhecimento por imagem de ��ris, o usu�ariodeve permanecer parado em uma posi�c~ao de�nida e com os olhos abertos enquanto umafonte de luz ilumina os olhos e um scanner de ��ris ou uma camera captura a imagem. Ocar�ater invasivo acentua-se em sistemas que utilizam imagens de fundo de retina, umavez que atualmente �e preciso utilizar um col��rio para dilatar a pupila do usu�ario antes deefetuar a aquisi�c~ao da imagem. Nesse ponto est�a a mais sobressalente vantagem de umsistema de reconhecimento baseado em imagens de faces.

2 Introdu�c~ao

A pesquisa em reconhecimento de faces vem se desenvolvendo no sentido da cria�c~aode sistemas capazes de identi�car pessoas mesmo quando essas n~ao percebam que est~aosendo observadas. Dessa forma, �e poss��vel que, no futuro, uma crian�ca desaparecidaseja localizada atrav�es de imagens de cameras localizadas em pontos estrat�egicos de umacidade, como esta�c~oes de metro e cruzamentos de avenidas.

Al�em dessas, v�arias outras aplica�c~oes motivantes para a pesquisa nessa �area foramanalisadas em [Chellappa et al., 1995], como:

� identi�ca�c~ao pessoal para banco, passaporte, �chas criminais;

� sistemas de seguran�ca e controle de acesso;

� monitoramento de multid~oes em esta�c~oes, shopping centers etc.;

� cria�c~ao de retrato falado;

� busca em �chas criminais;

� envelhecimento computadorizado para auxiliar a busca por desaparecidos, e

� interfaces perceptuais homem-m�aquina com reconhecimento de express~oes faciais.

Devido �a sua importancia pr�atica e aos interesses dos cientistas cognitivos, a pes-quisa em reconhecimento de faces �e t~ao antiga quanto a pr�opria vis~ao computacional[Pentland, 2000]. Em [Chellappa et al., 1995], h�a uma an�alise de trinta anos de pes-quisa em reconhecimento de faces humano e por m�aquina o qual cita 221 trabalhos.Outra evidencia do crescimento dessa �area de pesquisa �e a existencia de conferencias es-pec��cas de reconhecimento de face e gestos [Bichsel, 1995, Essa, 1996, Yachida, 1998,Crowley, 2000], bem como a existencia de revistas com se�c~oes tem�aticas nessa �area (porexemplo [Kasturi, 1997]). Al�em disso, recentemente foi lan�cado um livro sobre vis~aodinamica voltado ao problema de reconhecimento de faces [Gong et al., 2000].

O reconhecimento �optico autom�atico (computacional) de faces �e uma sub-�area depesquisa da vis~ao computacional. A �area de vis~ao computacional �e altamente multidis-ciplinar. Seu principal objetivo �e a investiga�c~ao de m�etodos autom�aticos de extra�c~ao deinforma�c~oes contidas em imagens [Gong et al., 2000]. Em geral, s~ao utilizados elementosde processamento de imagens e de reconhecimento de padr~oes para extrair e interpre-tar tais informa�c~oes. Em reconhecimento de faces, o objetivo �e identi�car pessoas queaparecem em imagens.

Para melhorar a possibilidade de exito em um sistema de reconhecimento de faces,primeiramente �e preciso segment�a-las para que somente essas sejam tratadas. Isso permiteque n~ao sejam considerados os objetos que estiverem atr�as do sujeito a ser reconhecido(background), os quais podem in uenciar na tomada de decis~ao do classi�cador. Para

1.1 Objetivos 3

isso, �e utilizado um m�etodo de detec�c~ao de faces, o qual tenta determinar a localiza�c~aode faces em uma imagem para que essas sejam posteriormente segmentadas.

No caso de seq�uencias de v��deo, a segmenta�c~ao deve ser feita em todas as imagens daseq�uencia. O problema �e que geralmente imagens de cenas dinamicas (cenas apresentandovaria�c~oes com o tempo, ou seja, movimento) apresentam menor qualidade devido a bor-ramentos proporcionados pelo pr�oprio movimento dos objetos e do observador (camera).Al�em disso, imagens em movimento atualmente s~ao representadas por seq�uencias de ima-gens capturadas em pequenos intervalos de tempo (usualmente at�e 30 quadros por se-gundo). Como resultado, tais representa�c~oes ocupam muito espa�co na mem�oria de umcomputador. Geralmente esse problema �e amenizado adotando-se imagens com menorresolu�c~ao em seq�uencias de v��deo, o que compromete ainda mais a qualidade das imagens[Chellappa et al., 1995].

V�arias aplica�c~oes associadas a reconhecimento de faces a partir de seq�uencias de v��deorequerem que os processos sejam muito e�cientes, principalmente aquelas em tempo real.Por isso, em geral adota-se um m�etodo de detec�c~ao de faces somente no primeiro quadroda seq�uencia em que a pessoa aparece, sendo subseq�uentemente aplicado um procedimentode persegui�c~ao (ou rastreamento - tracking), que, por sua vez, �e mais r�apido, pois con-sidera informa�c~oes obtidas no quadro anterior para segmentar faces, de forma a evitar arealiza�c~ao de buscas por toda a imagem. Como exemplos de m�etodos r�apidos de detec�c~aoe persegui�c~ao de faces em seq�uencias de imagens, podem-se citar: [Campos et al., 2000c],[Feris and Cesar-Jr, 2001], [Feris et al., 2000], [Kr�uger and Sommer, 2000],[Kondo and Yan, 1999], [Rowley et al., 1998], [Wu et al., 1999], [Sung and Poggio, 1998],[Silva et al., 1995], [Cascia and Sclaro�, 1999], [Yang et al., 1997] e[Kr�uger and Sommer, 1999].

Ap�os a segmenta�c~ao da face, �e necess�ario normaliz�a-la em rela�c~ao a transla�c~ao, arota�c~ao e a intensidade dos tons de cinza. Essas normaliza�c~oes s~ao necess�arias parareduzir as varia�c~oes existentes em diferentes imagens de uma mesma pessoa. Tais varia�c~oesdi�cultam o processo de reconhecimento.

Para que o processo de reconhecimento seja r�apido, devem-se utilizar bons algoritmosde redu�c~ao da dimensionalidade dos dados. Esses algoritmos tem por objetivo extrairsomente as informa�c~oes essenciais das imagens para possibilitar que seja efetuado re-conhecimento (classi�ca�c~ao) de forma e�ciente. O estudo desses m�etodos �e o principalobjetivo deste trabalho. A �gura 1.1 mostra a organiza�c~ao desses elementos b�asicos quecomp~oem um sistema de reconhecimento de faces a partir de seq�uencias de v��deo.

1.1 Objetivos

O objetivo original deste trabalho �e o estudo de m�etodos de extra�c~ao de caracter��sticase de classi�ca�c~ao estat��stica para aplica�c~ao em reconhecimento de faces. Mais especi�ca-

4 Introdu�c~ao

mente, concentramos nosso trabalho no estudo de t�ecnicas de redu�c~ao de dimensionalidadeutilizando principalmente sele�c~ao de caracter��sticas com vistas �a cria�c~ao de um m�etodode classi�ca�c~ao de faces1 atrav�es de seq�uencias de v��deo.

As t�ecnicas de detec�c~ao e rastreamento de faces em seq�uencias de v��deo n~ao fazemparte do escopo deste projeto. Este trabalho visa �a realiza�c~ao de testes com o empregode seq�uencias de imagens com a face j�a segmentada e normalizada com rela�c~ao �a escalae orienta�c~ao. A obten�c~ao dessas imagens de forma autom�atica foi realizada por outroestudante deste departamento em seu trabalho de mestrado [Feris, 2001].

Estudamos m�etodos de classi�ca�c~ao de padr~oes em geral, focalizando na aplica�c~aoem reconhecimento de faces. Percebemos a importancia dos m�etodos de sele�c~ao de ca-racter��sticas nessa �area de pesquisa, principalmente porque n~ao existem pesquisas bemconhecidas utilizando tais t�ecnicas no projeto de um sistema de reconhecimento de faces.Por isso, concentramo-nos na implementa�c~ao e testes relacionados a esse problema.

1.2 Contribui�c~oes

Al�em de uma revis~ao bibliogr�a�ca de alguns m�etodos de reconhecimento de padr~oes ede faces, na busca por novos m�etodos e�cientes de reconhecimento de faces, estudamosv�arios algoritmos e implementamos e testamos alguns m�etodos. Tamb�em criamos algunsalgoritmos novos. Como resultado, apresentamos as seguintes contribui�c~oes:

� Realizamos testes de reconhecimento de pessoas utilizando imagens dos olhos eimagens englobando toda a face. Comparamos os resultados e concluimos que,quando o conjunto de treinamento �e pequeno, a taxa de acerto do classi�cador �emaior com a utiliza�c~ao de imagens englobando somente a regi~ao dos olhos (videse�c~ao 5.1 e o artigo [Campos et al., 2000d]).

� Visando a avaliar dois algoritmos de busca para sele�c~ao de caracter��sticas, reali-zamos testes utilizando uma base de dados criada com a �nalidade de treinar umdiscriminador de faces e n~ao faces. Comparamos o algoritmo de busca com m�etodostradicionais de sele�c~ao de caracter��sticas: sele�c~ao das m primeiras caracter��sticase sele�c~ao das m maiores caracter��sticas (m < N , sendo N o conjunto de todas ascaracter��sticas dispon��veis). Detalhes sobre esse trabalho est~ao na se�c~ao 5.2.1 e noartigo [Campos et al., 2000c].

� Visando a realizar sele�c~ao de caracter��sticas considerando conjuntos com distribui�c~aodesconhecida e com fronteiras imprecisas, propusemos uma nova fun�c~ao crit�erio. Talfun�c~ao avalia conjuntos de caracter��sticas utilizando uma medida de distancia entre

1�E importante ressalvar que h�a v�arias tarefas relacionadas com a identi�ca�c~ao de faces (vide se�c~ao4.1). Este trabalho se restringe �a tarefa de classi�ca�c~ao.

1.3 Organiza�c~ao do Texto 5

conjuntos nebulosos. Foram realizados testes associando-se essa fun�c~ao a um algo-ritmo de busca para sele�c~ao de caracter��sticas em dados sint�eticos. Essa abordageme sua avalia�c~ao est~ao descritas na se�c~ao 3.4 e no artigo [Campos et al., 2001].

� A fun�c~ao crit�erio citada no item anterior foi de�nida para problemas contendo ape-nas duas classes. Nos propusemos uma vers~ao dessa fun�c~ao para c classes (c > 2).Realizamos testes exaustivos com essa fun�c~ao crit�erio em compara�c~ao com outrasfun�c~oes para sele�c~ao de caracter��sticas. O problema abordado foi o reconheci-mento de pessoas a partir de imagens da regi~ao dos olhos. Esses experimentosencontram-se relatados na se�c~ao 5.3 e parte dos resultados ser~ao publicados em[Campos and Cesar-Jr, 2001].

� Propusemos um novo esquema para reconhecimento de faces a partir de seq�uenciasde v��deo. Trata-se da associa�c~ao de um m�etodo e�ciente de detec�c~ao e rastreamentode pontos faciais caracter��sticos com m�etodos de normaliza�c~ao, extra�c~ao de carac-ter��sticas, combina�c~ao de padr~oes com sele�c~ao de caracter��sticas e multiclassi�ca�c~ao.Maiores detalhes encontram-se na se�c~ao 5.4 e no artigo [Campos et al., 2000b].

Outras contribui�c~oes que n~ao se relacionam diretamente com o tema de pesquisa destadisserta�c~ao tamb�em foram obtidas e encontram-se em anexo.

1.3 Organiza�c~ao do Texto

Como o estudo realizado neste trabalho focaliza a aplica�c~ao de t�ecnicas de reconhecimentode padr~oes (principalmente redu�c~ao de dimensionalidade) ao reconhecimento de faces, estadisserta�c~ao divide-se em duas partes: reconhecimento de padr~oes (parte I) e aplica�c~oes aoreconhecimento de faces (parte II).

Na parte I, h�a uma revis~ao de m�etodos de reconhecimento de padr~oes (cap��tulo 2) dan-do maior aten�c~ao aos m�etodos estat��sticos (se�c~ao 2.1), pois esse �e o foco desta disserta�c~ao.Na se�c~ao 2.3, s~ao abordados os problemas de generaliza�c~ao em reconhecimento de padr~oes.Tais problemas clamam pela utiliza�c~ao de m�etodos de redu�c~ao de dimensionalidade, osquais s~ao abordados no cap��tulo 3. Nesse cap��tulo, uma maior enfase �e dada aos m�etodosde sele�c~ao de caracter��sticas (se�c~ao 3.3), pois as principais contribui�c~oes dessa disserta�c~aoencontram-se nessa �area de pesquisa. Tamb�em no cap��tulo 3, s~ao descritos alguns testesrealizados com um novo m�etodo de sele�c~ao de caracter��sticas por n�os proposta (se�c~ao 3.4).

A parte II inicia-se com uma descri�c~ao das tarefas relacionadas com identi�ca�c~ao defaces (se�c~ao 4.1) e prossegue com uma revis~ao das principais abordagens de extra�c~ao deinforma�c~oes de imagens de faces para reconhecimento (se�c~oes 4.2 e 4.3). No cap��tulo 5,s~ao descritos os projetos implementados (bem como seus resultados obtidos) visando aavaliar e criar m�etodos para proceder com reconhecimento de faces de forma e�ciente.

6 Introdu�c~ao

Este texto �nalizar-se-�a com as conclus~oes e a descri�c~ao de poss��veis trabalhos futurosque poder~ao ser implementados como continua�c~ao dessa pesquisa (cap��tulo 6).

O apendice A cont�em a descri�c~ao dos s��mbolos e de algumas abrevia�c~oes utilizadasno decorrer deste texto. Em anexo est~ao todas as publica�c~oes relacionadas com estadisserta�c~ao que foram realizadas no decorrer deste mestrado.

1.3 Organiza�c~ao do Texto 7

Seqüênciadevídeo

Câmerade vídeo

Detecção

Rastreamento

Segmentação

Normalização

Extração de características

Seleção de características

Classificação Nome da pessoaex. Silvana

Figura 1.1: Esquema b�asico de um sistema de reconhecimento de faces a partir de seq�uencias

de v��deo.

8 Introdu�c~ao

Parte I

Reconhecimento de Padr~oes

Cap��tulo 2

Conceitos B�asicos de

Reconhecimento de Padr~oes

Basicamente, o reconhecimento de padr~oes �e a �area de pesquisa que tem por objeti-vo a classi�ca�c~ao de objetos (padr~oes) em um n�umero de categorias ou classes (vide[Theodoridis and Koutroumbas, 1999]). Assim, dado um conjunto de c classes, !1; !2; � � � ;!c, e um padr~ao desconhecido x, um reconhecedor de padr~oes �e um sistema que, auxiliadopor pr�e-processamentos, extra�c~ao e sele�c~ao de caracter��sticas, associa x ao r�otulo i de umaclasse !i. No caso de classi�ca�c~ao de faces, uma imagem de face �e o objeto (ou padr~ao x)e as classes s~ao seus nomes ou identi�ca�c~oes (!i).

Segundo [Jain et al., 2000], nos �ultimos 50 anos de pesquisa, foram obtidos avan�cos quepossibilitaram a evolu�c~ao da pesquisa em aplica�c~oes altamente complexas. Um exemplo�e o reconhecimento de faces, o qual consiste em um problema de vis~ao computacionalque requer t�ecnicas robustas a transla�c~ao, rota�c~ao, altera�c~ao na escala e a deforma�c~oesdo objeto. Al�em de reconhecimento de faces, os autores de [Jain et al., 2000] destacamos seguintes exemplos de aplica�c~oes atuais que requerem t�ecnicas e�cientes e robustas dereconhecimento de padr~oes:

� Bio-inform�atica: an�alise de seq�uencias do genoma; aplica�c~oes e tecnologia de micro-arrays;

� Minera�c~ao de dados (data mining): a busca por padr~oes signi�cativos em espa�cosmulti-dimensionais, normalmente obtidos de grandes bases de dados e \data wa-rehouses";

12 Conceitos B�asicos de Reconhecimento de Padr~oes

� Classi�ca�c~ao de documentos da Internet;

� An�alise de imagens de documentos para reconhecimento de caracteres (Optical Cha-racter Rocognition - OCR);

� Inspe�c~ao visual para automa�c~ao industrial;

� Busca e classi�ca�c~ao em base de dados multim��dia;

� Reconhecimento biom�etrico, incluindo faces, ��ris ou impress~oes digitais;

� Sensoriamento remoto por imagens multiespectrais;

� Reconhecimento de fala.

Um ponto em comum a essas aplica�c~oes �e que usualmente as caracter��sticas dispon��veisnos padr~oes de entrada, tipicamente milhares, n~ao s~ao diretamente utilizadas. Normal-mente utilizam-se caracter��sticas extra��das dos padr~oes de entrada otimizadas atrav�es deprocedimentos guiados pelos dados, como PCA (vide se�c~ao 3.2.2).

Uma caracter��stica importante de reconhecimento de faces, assim como v�arias outrasaplica�c~oes atuais, �e que nenhuma abordagem individual �e �otima, de modo que m�etodos eabordagens m�ultiplas devem ser utilizados combinando-se v�arias modalidades de sensores,pr�e-processamentos e m�etodos de classi�ca�c~ao [Jain et al., 2000]. Assim, o projeto desistemas de reconhecimento de padr~oes essencialmente envolve tres aspectos: aquisi�c~ao dedados e pr�e-processamento, representa�c~ao dos dados e tomada de decis~oes. Geralmente odesa�o encontra-se na escolha de t�ecnicas para efetuar esses tres aspectos.

Um problema de reconhecimento de padr~oes bem de�nido e restrito permite umarepresenta�c~ao compacta dos padr~oes e uma estrat�egia de decis~ao simples. Seja dw(!i)uma medida de separabilidade global entre os padr~oes pertencentes a uma classe !i (porexemplo, a m�edia das variancias em todas as caracter��sticas dos padr~oes de !i). Sejadb() uma medida de separabilidade global entre as classes do conjunto de classes (porexemplo, a m�edia das distancias entre as m�edias de todas as classes de e a m�edia global).Um problema de reconhecimento de padr~oes bem de�nido e restrito �e aquele que, em seuespa�co de caracter��sticas, possui distribui�c~oes de padr~oes com pequena varia�c~oes intra-classe e grande varia�c~ao inter-classes, ou seja, pequenos valores de dw(!i) e um grandevalor de db() [Theodoridis and Koutroumbas, 1999].

A quest~ao �e que, em dados reais, geralmente os padr~oes a serem reconhecidos n~aopossuem essas peculiaridades. Nesse fato reside a importancia de algoritmos de extra�c~aoe sele�c~ao de caracter��sticas, pois eles reduzem a dimensionalidade dando prioridade parauma base do espa�co de caracter��sticas que n~ao perde o poder de discrimina�c~ao dos padr~oes.

A seguir ser~ao tra�cados detalhes a respeito dos m�etodos de reconhecimento estat��sticosde padr~ao.

2.1 Abordagem estat��stica 13

2.1 Abordagem estat��stica

2.1.1 Panorama de Reconhecimento de Padr~oes

H�a v�arias abordagens diferentes para se efetuar reconhecimento de padr~oes. Dentre elas,podemos destacar:

� casamento (template matching) [Gonzalez and Woods, 1992], [Feris et al., 2000],[Theodoridis and Koutroumbas, 1999],

� abordagem sint�atica (por exemplo: Hiddem Markov Models)[Theodoridis and Koutroumbas, 1999], [Morimoto et al., 1996],

� redes neurais [Theodoridis and Koutroumbas, 1999];

� l�ogica nebulosa [Bloch, 1999, Dubois et al., 1997, Bonventi-Jr. and Costa, 2000];

� morfologia matem�atica com aprendizado computacional [Barrera et al., 2000];

� estat��stica.

�E importante ressalvar que essa separa�c~ao entre as abordagens, baseada no artigo[Jain et al., 2000], possui apenas �ns did�aticos, pois, apesar de possu��rem aparentementeprinc��pios diferentes, a maioria dos modelos de redes neurais populares s~ao implicitamenteequivalentes ou similares a m�etodos cl�assicos de reconhecimento estat��stico de padr~oes.Entretanto, algumas redes neurais podem oferecer certas vantagens, como abordagensuni�cadas para extra�c~ao de caracter��sticas, sele�c~ao de caracter��sticas e classi�ca�c~ao, eprocedimentos ex��veis para encontrar boas solu�c~oes n~ao lineares [Jain et al., 2000].

A abordagem de morfologia matem�atica com aprendizado computacional �e uma abor-dagem estat��stica. Por�em, nessa abordagem, o espa�co de caracter��sticas utilizado �e discre-to e n~ao linear. Al�em disso, o m�etodo de classi�ca�c~ao se baseia em busca em uma tabela.Com essas caracter��sticas, seu paradigma �e bastante divergente de todas as abordagensrelacionadas com este trabalho.

Este trabalho concentra-se em m�etodos estat��sticos de reconhecimento de padr~oes, que�e uma das abordagens mais populares e bem conhecidas. Por isso as outras abordagensn~ao ser~ao detalhadas. Por�em, na revis~ao bibliogr�a�ca sobre m�etodos de reconhecimentode faces (cap��tulo 4), ser~ao citados trabalhos relacionados com as outras abordagens.

2.1.2 Introdu�c~ao ao Reconhecimento Estat��stico

Basicamente, um sistema de reconhecimento estat��stico de padr~oes pode ser compos-to pelas seguintes partes [Duda and Hart, 1973, Jain et al., 2000] (vide �gura 2.1): um


sistema de aquisi�c~ao de dados (por exemplo: sensores ou cameras); um sistema de pr�e-processamento, para eliminar ru��dos ou distor�c~oes; um extrator de caracter��sticas (ouatributos), que cria um vetor de caracter��sticas com dados extra��dos dos objetos ad-quiridos, reduzindo os dados a atributos, propriedades ou caracter��sticas; um seletor decaracter��sticas, que analisa o conjunto de caracter��sticas e elimina as mais redundantes; eum classi�cador, que analisa um padr~ao obtido e toma uma certa decis~ao.

Figura 2.1: Um sistema gen�erico de reconhecimento de padr~oes (baseado em

[Duda and Hart, 1973] e [Jain et al., 2000]).

O classi�cador toma decis~oes baseando-se no aprendizado realizado a partir de umconjunto de treinamento, o qual cont�em exemplos de padr~oes de todas as classes existentesno sistema. Conforme ser�a detalhado posteriormente, em reconhecimento estat��stico depadr~oes, a classi�ca�c~ao �e realizada utilizando estimativas de distribui�c~oes probabil��sticas,por isso o nome dessa abordagem. O reconhecedor de padr~oes �e avaliado atrav�es de umconjunto de testes, preferencialmente composto por padr~oes de todas as classes, mas quen~ao estejam no conjunto de treinamento. Al�em do classi�cador, o pr�e-processamento, oextrator e o seletor de caracter��sticas podem ser dependentes dos dados de treinamento.

No caso de sistemas estat��sticos, quando o problema abordado for muito complexo,torna-se essencial o uso de extra�c~ao e sele�c~ao de caracter��sticas. Exemplos de problemascomplexos s~ao aqueles em que h�a muitas classes ou quando a dimens~ao dos padr~oes noformato em que s~ao adquiridos for muito alta.

Na abordagem estat��stica, cada padr~ao �e representado em termos de N caracter��sticas(features) ou atributos. Um padr~ao �e representado por um vetor de caracter��sticas x =[x1; x2; � � � ; xN ]

t, modelado como um vetor aleat�orio, em que cada xj (1 � j � N) �euma caracter��stica [Theodoridis and Koutroumbas, 1999]. Cada padr~ao medido xi �e umainstancia de x. O espa�co formado pelos vetores de caracter��sticas �e chamado de espacode caracter��sticas, o qual possui dimens~ao N .

Uma classe !i (a i-�esima classe de um conjunto de classes , de c classes) �e um conjuntoque cont�em padr~oes os quais possuem alguma rela�c~ao ou peculiaridade em comum. Emum exemplo simples de biometria, podemos ter um espa�co de caracter��sticas x em que x1representa altura (em cm), x2 representa peso (em Kg) e x3 representa o tamanho dosp�es (em cm). Nesse mesmo espa�co de tres dimens~oes, cada instancia de x representa as

2.2 M�etodos de Classi�ca�c~ao 15

medi�c~oes tomadas de uma pessoa em um determinado instante. Cada classe representauma fam��lia de pessoas, por exemplo: `Simpson', `Jetson', `Kennedy' e `Brun'. Nessecaso, o problema de classi�ca�c~ao de�ne-se por: dada uma pessoa desconhecida, extrairsuas caracter��sticas para obter seu vetor de caracter��sticas x e determinar a qual fam��liaprovavelmente essa pessoa pertence.

Os padr~oes s~ao tratados como vetores aleat�orios pois um padr~ao desconhecido pode sero representante de uma classe conhecida que sofreu altera�c~oes aleat�orias proporcionadaspor ru��dos oriundos do m�etodo de aquisi�c~ao (sensores), da in uencia de outros fatoresexternos ou mesmo dos mecanismos de extra�c~ao de caracter��sticas intr��nsecos ao sistemade reconhecimento.

2.2 M�etodos de Classi�ca�c~ao

2.2.1 Vis~ao Geral

Dado um padr~ao desconhecido x, pertencente ao conjunto padr~oes de teste X em umespa�co de caracter��sticas, e o conjunto de todas as classes existentes, um classi�cador �euma fun�c~ao � : X ! , tal que �(x) = !i, em que !i �e uma a i-�esima classe de . Assim,um classi�cador �e uma fun�c~ao que possui como entrada padr~oes desconhecidos e, comosa��da, r�otulos que identi�cam a que classe tais padr~oes provavelmente pertencem (essade�ni�c~ao �e v�alida para todos os classi�cadores, n~ao s�o para os estat��sticos). Portanto,classi�cadores s~ao os elementos os quais, de fato, realizam o reconhecimento de padr~oes.Todos os classi�cadores devem ser treinados utilizando um conjunto de amostras.

Esse treinamento �e utilizado pelo algoritmo do classi�cador para determinar as fron-teiras de decis~ao do espa�co de caracter��sticas. Fronteiras de decis~ao s~ao superf��cies mul-tidimensionais no espa�co de caracter��sticas F que particionam F em c regi~oes para umproblema com c classes, cada regi~ao correspondendo a uma classe. Se as regi~oes Si e Sjs~ao cont��guas, s~ao separadas por uma superf��cie de decis~ao. Assim, tem-se F =

Sci=1 Si.

A regra de decis~ao faz com que um padr~ao desconhecido que se encontra na regi~ao Si doespa�co de caracter��sticas seja rotulado como um padr~ao da classe !i, ou seja, �(x) = !i.

Dessa forma, essencialmente, o que difere um classi�cador de outro �e a forma comoesse cria as fronteiras de decis~ao a partir dos exemplos de treinamento. Os exemplosde treinamento de cada classe podem ser pr�e-especi�cados (aprendizado supervisiona-do) ou aprendidos com base nos exemplos (aprendizado n~ao-supervisionado). No casode sistemas de reconhecimento de faces, normalmente �e realizado aprendizado supervi-sionado [Chellappa et al., 1995], isto �e, as imagens de treinamento possuem um r�otuloque identi�ca de quem �e a fotogra�a. Por esse motivo, n~ao ser~ao descritos m�etodos n~ao-supervisionados de aprendizado1.

1Detalhes a respeito desse assunto podem ser encontrados em [Jain et al., 1999].


Apesar da existencia de v�arios algoritmos diferentes para determinar fronteiras dedecis~ao (m�etodos de classi�ca�c~ao), pode-se dizer que todos tem em comum os seguintesobjetivos:

1. minimizar o erro de classi�ca�c~ao;

2. permitir que a classi�ca�c~ao seja e�ciente computacionalmente.

Por�em, a importancia de cada um desses objetivos varia de classi�cador para classi�cador.Obviamente, o ideal �e que um classi�cador seja r�apido e apurado, mas, em problemascomplexos, em geral a velocidade do classi�cador �e inversamente proporcional �a qualidadedos resultados que ele pode oferecer.

A seguir, h�a detalhes sobre os m�etodos de classi�ca�c~ao que foram utilizados neste proje-to de pesquisa. Detalhes mais espec��cos sobre outros m�etodos de classi�ca�c~ao se encon-tram em [Watanabe, 1985, Theodoridis and Koutroumbas, 1999, Duda and Hart, 1973,Backer, 1995].

2.2.2 Classi�cador Bayesiano

A �m de possibilitar a formaliza�c~ao dos classi�cadores utilizados neste projeto (K vizi-nhos mais pr�oximos e m��nima distancia ao prot�otipo), inicialmente ser~ao descritos algunspontos da teoria de decis~ao e de um classi�cador Bayesiano. Antes de descrever umclassi�cador Bayesiano, �e necess�ario de�nir os conceitos a seguir.

Probabilidade a priori de uma classe

Um dado vetor x pode provir de (ou ser associado a) uma classe i de c classes !1; !2; � � � ; !ccom uma probabilidade Pi, chamada de probabilidade a priori da classe i, com

Pci=1 Pi =

1.

Fun�c~ao densidade de probabilidade de um padr~ao

Seja p(xj!i) a fun�c~ao densidade de probabilidade multivariada de x quando se sabe que xpertence �a classe !i (1 � i � c), a fun�c~ao densidade de probabilidade local de x �e de�nidapor:

p(x) =cX

i=1

Pi � p(xj!i) (2.1)


Probabilidade a posteriori

Dado um padr~ao x com classi�ca�c~ao desconhecida, a probabilidade de x ser da classe !j�e P (!jjx), que �e a probabilidade a posteriori da classe !j. Pela regra de Bayes, temos:

P (!jjx) =p(xj!j) � Pj

p(x); (2.2)

com

p(x) =cX

j=1

p(xj!j) � Pj (2.3)

Taxa de probabilidade de erro

A probabilidade de erro de classi�ca�c~ao ao se associar um dado vetor de atributos x �aclasse !i �e de�nida por:

ei(x) = 1� P (!ijx); i = 1; � � � ; c (2.4)

Essa �e uma de�ni�c~ao geral, sendo v�alida para regra de decis~ao arbitr�aria. O valor es-perado dessa probabilidade sobre todos os vetores x pertencentes �a regi~ao Si de decis~aopara a classe !i �e a probabilidade de classi�ca�c~ao errada em !i, denotada �i. Essa �e aprobabilidade de cometer-se um erro ao atribuir um vetor x �a classe !i:

�i =

ZSi

ei(x) � p(x)dx =

ZSi

[1� P (!ijx)] � p(x)dx; (2.5)

em que Si �e a regi~ao de aceita�c~ao associada �a classe !i. Como a classi�ca�c~ao de um vetor xs�o pode ocorrer nas classes mutuamente exclusivas !1; � � � ; !c, segue que a probabilidadeglobal de erro, ou taxa de erro, �e a soma das probabilidades de erro �i em cada classe:

� =cX

i=1

�i =cX

i=1

ZSi

[1� P (!ijx)] � p(x)dx (2.6)

A express~ao entre colchetes �e a probabilidade condicional de erro ei(x); �i �e a m�edia dessaprobabilidade para todo x 2 Si e, portanto, �e a probabilidade de classi�ca�c~ao errada em!i.

Infelizmente, na maioria dos casos, o c�alculo da probabilidade de erro �e extremamentedif��cil e raramente consegue-se chegar a uma express~ao expl��cita. Na pr�atica, a taxa deerro �e geralmente estimada a partir de um conjunto de teste (conjunto de amostras devetores com classi�ca�c~ao conhecida).


Classi�cador para m��nima taxa de erro

A partir da formaliza�c~ao da taxa ou probabilidade de erro, pode-se descrever um classi�-cador que minimiza esse quanti�cador de desempenho. Inicialmente, �e necess�ario mostrarde�ni�c~oes duais �as das equa�c~oes 2.4, 2.5 e 2.6. A probabilidade de acerto ao se classi�carum dado x em !i �e

ai(x) = P (!ijx); i = 1; � � � ; c (2.7)

A probabilidade de acerto ao se atribuir um vetor �a classe !1 �e

Ai =

ZSi

ai(x) � p(x)dx =

ZSi

P (!ijx) � p(x)dx (2.8)

A probabilidade de classi�ca�c~ao correta ou probabilidade de acerto ou taxa de acerto�e

A =cX

i=1

ZSi

P (!ijx) � p(x)dx (2.9)

Obviamente, a m��nima taxa de erro �e obtida quando a taxa de acerto �e m�axima

min � , maxSi

cXi=1

ZSi

P (!ijx) � p(x)dx (2.10)

A m�axima taxa de acerto �e obtida quando cada Si �e escolhido como o dom��nio ondeP (!ijx) � P (!jjx); 8j.

Assim, o classi�cador Bayesiano de m��nima taxa de erro pode ser de�nido como:

�(x) = !i se x 2 Si; (2.11)

com Si = f8x 2 F tal que P (!ijx) � P (!jjx); j = 1; � � � ; cg (2.12)

ou, simplesmente,

�(x) = !i se P (!ijx) � P (!jjx); j = 1; � � � ; c (2.13)

Ap�os essa descri�c~ao do classi�cador de Bayes de m��nima taxa de erro, a seguintequest~ao ingenua pode surgir: se o classi�cador Bayesiano �e um classi�cador �otimo, ent~aopor que outros classi�cadores s~ao utilizados? O motivo �e que o classi�cador de Bayess�o pode ser executado se a probabilidade a priori Pi e a fun�c~ao densidade de probabi-lidade p(xj!i) forem conhecidas, o que geralmente n~ao ocorre. Em problemas pr�aticos,na fase de treinamento s~ao utilizados m�etodos de estima�c~ao dessas probabilidades. En-tretanto, quando a distribui�c~ao das classes possui formas \complicadas" e descont��nuas,


o pre�co computacional desses m�etodos torna-se muito alto quando se deseja obter umarepresenta�c~ao precisa dessas probabilidades.

Uma abordagem para se resolver esse problema �e assumir um modelo para p(xj!i). Aestimativa de distribui�c~ao mais bem conhecida e, provavelmente, uma das mais simples,�e a de distribui�c~ao normal. Nesse caso, assume-se que:

p(xj!i) =1

(2�)N=2 �pdet(�i)

exp(�1

2(x� �i)

t � ��1i � (x� �i)); i = 1; � � � ; c (2.14)

em que �i = E[x] �e o valor esperado (tomado pela m�edia) da classe !i, e �i �e a matrizde covariancia N �N de�nida por:

�i = E[(x� �i) � (x� �i)t] (2.15)

det(�i) denota o determinante de �i e E[�] a m�edia (ou esperan�ca) de uma vari�avelaleat�oria. �E comum o uso do s��mbolo N (�;�) para denotar a fun�c~ao de densidade pro-pabil��stica Gaussiana.

A partir dessas de�ni�c~oes e das anteriores, contr�oi-se o classi�cador Bayesiano paradistribui�c~oes normais.

2.2.3 Regra dos K vizinhos mais pr�oximos

A regra de classi�ca�c~ao dos K vizinhos mais pr�oximos �e um m�etodo de classi�ca�c~aoque n~ao possui processamento na fase de treinamento, pois n~ao �e necess�ario estimar asdistribui�c~oes de probabilidades das classes. Entretanto, �e necess�ario um grande n�umerode padr~oes de treinamento (padr~oes cuja classe �e conhecida a priori), pois pode-se dizerque as tarefas de estimativa e de classi�ca�c~ao s~ao fundidas em uma �unica tarefa. Oclassi�cador dos K vizinhos mais pr�oximos (KNN) �e um classi�cador sub-�otimo que criafronteiras de decis~ao complexas.

Dado um padr~ao de teste (desconhecido) x, sua classi�ca�c~ao �e realizada da seguintemaneira:

� Inicialmente, calcula-se a distancia entre x e todos os padr~oes de treinamento;

� Veri�ca-se a quais classes pertencem os K padr~oes mais pr�oximos;

� A classi�ca�c~ao �e feita associando-se o padr~ao de teste �a classe que for mais freq�uenteentre os K padr~oes mais pr�oximos de x.

H�a duas distancias que normalmente s~ao adotadas para implementar esse classi�cador:


distancia Euclidiana

A distancia Euclidiana entre dois vetores (xi e xj) �e de�nida por:

dE(xi;xj) = jjxi � xjjj =q(xi � xj)t � (xi � xj) (2.16)

distancia de Mahalanobis

A distancia de Mahalanobis entre um padr~ao x e o prot�otipo � de uma classe �e de�nidapor:

dM(x; �) =p(x� �)t � ��1 � (x� �); (2.17)

em que � �e a matriz de covariancia dos padr~oes da classe de �. 2

Tomando-se K = 1 no classi�cador de K vizinhos mais pr�oximos, obt�em-se o classi�-cador de vizinho mais pr�oximo (1NN). Esse classi�cador �e muito comum em aplica�c~oes dereconhecimento de faces ap�os a extra�c~ao de caracter��sticas usando PCA. Normalmente,a regra de classi�ca�c~ao por vizinho mais pr�oximo acarreta numa taxa de erro maior doque a da regra de decis~ao de Bayes. Por�em existe um teorema que diz que, supondo-seque haja in�nitos de padr~oes de treinamento, a taxa de erro com esse classi�cador n~aoultrapassa (sendo em geral menor que) o dobro da taxa de erro com o classi�cador deBayes (ver demonstra�c~ao [Kohn, 1998] e [Theodoridis and Koutroumbas, 1999]).

O classi�cador KNN pode ser descrito formalmente utilizando o classi�cador de Bayescom m��nima taxa de erro. A desigualdade contida na equa�c~ao 2.13 equivale a P (!ijx) �P (!jjx), contando que p(x) 6= 0. Para estimar Pi a partir dos dados, basta tomar jTij=jT j,em que jT j �e o n�umero total de amostras e jTij �e o n�umero de amostras na classe !i. Parase estimar p(xj!i), pode-se tomar um volume Bx, centrado em x e contar-se quantasamostras h�a em seu interior. Dessa forma, a regra de decis~ao de Bayes �ca:

decidir !i sejTij

jT j�

Ki

jTij �Bx

�jTjj

jT j�

Kj

jTjj �Bx

j = 1; � � � ; c (2.18)

em que se sup~oe que volume Bx abarca exatamente K amostras indistintamente das classesenvolvidas, com K =

Pci=1Ki. Simpli�cando,

decidir !i seKi

jT j �Bx

�Kj

jT j �Bx

j = 1; � � � ; c (2.19)

A principal vantagem desse m�etodo �e que ele cria uma superf��cie de decis~ao que seadapta �a forma de distribui�c~ao dos dados de treinamento de maneira detalhada, possibili-tando a obten�c~ao de boas taxas de acerto quando o conjunto de treinamento �e grande ou

2Na p�agina 35 h�a um exemplo de matriz de covariancia.


representativo. O objetivo de se utilizar K > 1 �e reduzir a ocorrencia de erros causadospor ru��dos nos padr~oes de treinamento. Por exemplo, um padr~ao de treinamento xr daclasse !i que se encontra em uma regi~ao do espa�co de caracter��sticas povoada por padr~oesde treinamento da classe !j devido �a a�c~ao de ru��dos n~ao prejudicar�a o desempenho doclassi�cador, pois a veri�ca�c~ao de seus vizinhos far�a com que um padr~ao de teste que selocalize pr�oximo a xr seja classi�cado como um padr~ao da classe !j. Por�em, o uso devalores grandes em K pode reduzir a qualidade dos resultados de classi�ca�c~ao quando adistribui�c~ao das classes possui muitas sobreposi�c~oes.

Assim, deve-se ter preferencia ao classi�cador KNN sobre o 1NN quando se disp~oede um conjunto de treinamento T com muitos exemplos e quando esse conjunto contiveramostras com classi�ca�c~ao errada.

Por essas raz~oes, a escolha do n�umero de vizinhos a serem utilizados (K) torna-se umponto cr��tico do classi�cador KNN. N~ao h�a uma estrat�egia de�nitiva para realizar essaescolha para um caso pr�atico, sendo recomendada a estrat�egia de tentativa e erro. Por�em,pesquisas recentes [Theodoridis and Koutroumbas, 1999] sugerem que, para K ! 1,quando jT j ! 1, o desempenho do classi�cador KNN tende a ser �otimo. Entretanto,para conjunto de treinamento numerosos, �e esperado que o classi�cador 3NN (KNN paraK=3) permita a obten�c~ao de um desempenho muito pr�oximo do classi�cador Bayesiano.Um fato �obvio �e que a escolha de K > 1 (principalmente 1 < K � c, sendo c o n�umero declasses) pode causar problemas de indecis~ao quando ocorrem empates, ou seja, quando on�umero de vizinhos mais pr�oximos pertencente a classes diferentes �e igual.

A principal desvantagem dos classi�cadores K-NN est�a em sua complexidade na fase detestes. Isso deve-se ao fato de que, caso seja feita uma busca em \for�ca-bruta" (sem orde-na�c~ao) pelos vizinhos mais pr�oximos, para cada padr~ao de teste �e necess�ario realizarK �jT jmedi�c~oes de distancia, ou seja, a quantidade de opera�c~oes necess�arias �e da ordem de K �O(jT j), sendo que O(n) denota a ordem de n c�alculos [Theodoridis and Koutroumbas, 1999,Cormen et al., 1990].

2.2.4 M��nima Distancia ao(s) Prot�otipo(s)

O classi�cador de distancia ao prot�otipo �e bastante simples em termos de esfor�co compu-tacional, tanto na fase de treinamento quanto na de teste. Essa caracter��stica deve-se �asimplicidade de seu algoritmo.

A fase de treinamento consiste na determina�c~ao dos prot�otipos, no m��nimo um paracada classe. Os prot�otipos s~ao vetores no espa�co de caracter��stica que usualmente s~aocriados a partir de informa�c~oes obtidas do conjunto de treinamento ou da distribui�c~aoprobabil��stica das classes. Um exemplo um tanto comum de prot�otipo utilizado �e a m�edia(baricentro) do conjunto de treinamento das classes.

Na fase de teste, cada padr~ao �e classi�cado de acordo com o prot�otipo mais pr�oximo.


Normalmente utiliza-se a distancia Euclidiana para calcular a proximidade entre os pa-dr~oes e os prot�otipos. Nota-se que a regra de decis~ao �e bastante simples. Se os prot�otiposforem vistos como padr~oes de treinamento, �e praticamente trivial mostrar que essa regrase equivale �a do classi�cador KNN, para K = 1.

Tamb�em �e f�acil notar que h�a um caso em que o classi�cador de distancia ao prot�otipo seeq�uivale a um classi�cador Bayesiano. Isso ocorre quando �e utilizado apenas um prot�otipopor classe, sendo cada prot�otipo de�nido pelo baricentro do conjunto de treinamento desua classe (�i, onde i identi�ca a classe). Nesse caso, esse classi�cador �e equivalenteao classi�cador Bayesiano para distribui�c~oes normais N (�;�), caso seja assumido quetodas as classes possuem distribui�c~oes probabil��sticas com a mesma matriz de covariancia�, sendo � uma matriz diagonal. Em mais detalhes, essa equivalencia ocorre quando adistribui�c~ao probabil��stica das classes �e tal que o desvio padr~ao � �e uniforme para todas asdire�c~oes do espa�co de caracter��stica, de forma que � = �2I. Gra�camente, pode-se ilustrarcomo distribui�c~oes circulares, sendo que esses \c��rculos" s~ao centrados no baricentro dadistribui�c~ao de cada classe, e todos os c��rculos possuem o mesmo raio.

Portanto, nesses casos, mesmo sendo muito simples, esse classi�cador comporta-secomo um classi�cador �otimo. �E importante ressalvar que, quando for usada a distanciade Mahalanobis (equa�c~ao 2.17), n~ao existem restri�c~oes quanto �a mariz de covariancia dasclasses para que o classi�cador de m��nima distancia ao prot�otipo seja equivalente ao deBayes para distribui�c~oes normais.

Uma fronteira de decis~ao constru��da por esse classi�cador (adotando-se a distanciaEuclidiana, com um prot�otipo por classe) �e um hiperplano perpendicular ao segmentode reta que une dois prot�otipos. Esse hiperplano intercepta a mediatriz desse segmento,de�nindo o lugar geom�etrico dos pontos eq�uidistantes a esses dois prot�otipos. Dessaforma, pode-se mostrar que o conjunto de todas as fronteiras de decis~ao gerado pelaregra de decis~ao de m��nima distancia ao prot�otipo eq�uivale a um diagrama de Voronoi nadimens~aoN com os s��tios na posi�c~ao dos prot�otipos [Theodoridis and Koutroumbas, 1999](detalhes sobre esses diagramas podem ser encontrados em [de Berg et al., 2000]). Como �ede se esperar, o mesmo pode ser clamado a respeito do classi�cador 1NN, com a diferen�caque, quando dois padr~oes da mesma classe s~ao vizinhos, n~ao existe uma fronteira dedecis~ao entre eles.

Com rela�c~ao ao custo computacional desse classi�cador, para cada padr~ao de tes-te, �e necess�ario realizar apenas c � 1 compara�c~oes (O(c) c�alculos para cada padr~ao),sendo c o n�umero de classes existentes, o que �e o principal ponto positivo dessa aborda-gem. A desvantagem dessa abordagem �e a qualidade dos resultados em casos pr�aticos,pois os prot�otipos freq�uentemente n~ao contem informa�c~oes su�cientes sobre a forma dadistribui�c~ao das classes, j�a que os casos semelhantes ao descrito anteriormente n~ao s~aofreq�uentes.

2.3 Problemas de generaliza�c~ao 23

2.3 Problemas de generaliza�c~ao

Nesta se�c~ao, s~ao discutidos os problemas de generaliza�c~ao de classi�cadores. Tais proble-mas s~ao muito relevantes no projeto de sistemas de reconhecimento estat��stico de padr~oes,que tamb�em podem ser comuns a sistemas n~ao estat��sticos, como redes neurais.

N~ao importando qual o classi�cador utilizado, em problemas pr�aticos, ele deve sertreinado usando exemplos de treinamento para estimar a distribui�c~ao das classes. Comoresultado, o desempenho do classi�cador depende tanto do n�umero de exemplos de treina-mento como dos valores espec��cos das instancias, ou seja, da qualidade desses exemplos.Ao mesmo tempo, o objetivo do projeto de um sistema de reconhecimento �e classi�carfuturos exemplos de teste mesmo que esses n~ao sejam os mesmos que os de treinamento.

Por�em, a otimiza�c~ao de um classi�cador para maximizar seu desempenho no conjuntode treinamento nem sempre produz um bom resultado para o conjunto de testes. Ahabilidade de generaliza�c~ao de classi�cadores refere-se a seu desempenho ao classi�carpadr~oes de teste que n~ao foram utilizados durante o treinamento.

Os problemas de generaliza�c~ao ocorrem quando um classi�cador se especializa demaisem seus padr~oes de treinamento, ou quando utiliza mais informa�c~oes (caracter��sticas) queas necess�arias. Basicamente, h�a tres problemas oriundos da redu�c~ao na capacidade degeneraliza�c~ao de um classi�cador [Jain et al., 2000]:

� sobre-ajuste (over�tting), relacionado com o n�umero de parametros livres do classi-�cador;

� sobre-treinamento (overtraining), relacionado com o n�umero de itera�c~oes de treina-mento;

� problema da dimensionalidade (curse of dimensionality), relacionado com a di-mens~ao do espa�co de caracter��sticas.

Assim, o desempenho de um classi�cador depende da rela�c~ao entre sua complexidade,a qualidade do conjunto de treinamento (o quanto ele representa a distribui�c~ao dos dados)e o n�umero de caracter��sticas utilizadas. A taxa de erro dos classi�cadores apresentamum comportamento de curva em U com a varia�c~ao de dos fatores relacionados com essesproblemas. A seguir encontram-se mais detalhes sobre o problema da dimensionalidade,pois esse afeta todos os sistemas de reconhecimento de padr~ao estat��stico e tamb�em porcausa da sua rela�c~ao com sele�c~ao de caracter��sticas.

O Problema da Dimensionalidade

O problema da dimensionalidade, tamb�em conhecido como curse of dimensionality e comocomportamento de curva em U, �e um fator muito relevante para decidir-se a dimensiona-


lidade ideal a ser adotada em um problema de reconhecimento de padr~oes. Trata-se doseguinte fenomeno: o n�umero de elementos de treinamento requeridos para que um classi-�cador tenha um bom desempenho �e uma fun�c~ao monotonicamente crescente da dimens~aodo espa�co de caracter��sticas. Em alguns casos (mas n~ao necessariamente em todos), pode-se mostrar que essa fun�c~ao �e exponencial, ou seja, jT j , O(eN) [Jain et al., 2000]. Umexemplo �e o da t�ecnica de particionamento do espa�co de caracter��sticas para classi�ca�c~aobaseada em �arvores de decis~ao. Nessa t�ecnica, cada reta suporte dos vetores da basedo espa�co de caracter��sticas �e segmentada em intervalos regulares. A interse�c~ao entreesses intervalos forma c�elulas no espa�co. O reconhecimento de padr~oes �e feito atrav�es daassocia�c~ao de uma classe a cada c�elula, de acordo com a classe majorit�aria nas c�elulas.Esse �e um exemplo de sistema de classi�ca�c~ao em que �e bastante intuitivo veri�car que,para que n~ao hajam c�elulas com classi�ca�c~ao inde�nida, �e necess�ario que o n�umero deelementos de treinamento seja uma fun�c~ao exponencial da dimens~ao do espa�co de carac-ter��sticas. Isso ocorre devido ao fato de que, em reconhecimento estat��stico de padr~oes,o volume do espa�co de caracter��stica cresce exponencialmente com a dimensionalidade[Perlovsky, 1998]. Esse fenomeno �e bem conhecido pela comunidade de reconhecimentode padr~oes (ver tamb�em [Jain et al., 2000] para um exemplo mais formal).

Quando �e utilizado um classi�cador Bayesiano, nos casos em que o n�umero de ele-mentos de treinamento �e arbitrariamente grande ou a fun�c~ao densidade de probabilidadedas classes (p(xj!i); i = 1; � � � ; c) for completamente conhecida, a probabilidade de errode classi�ca�c~ao de uma regra de decis~ao n~ao aumenta com o n�umero de caracter��sticasconsideradas. Por�em, nos problemas pr�aticos, para um conjunto de treinamento �nito,observa-se que a adi�c~ao de caracter��sticas pode prejudicar o desempenho de um classi�-cador (se n~ao forem adicionados exemplos de treinamento). Isso ocorre quando o n�umerode exemplos de treinamento n~ao �e grande o su�ciente em rela�c~ao ao n�umero de carac-ter��sticas. Esse fenomeno, chamado fenomeno do pico (peaking phenomena), �e uma con-seq�uencia do problema da dimensionalidade, tendo tamb�em sido amplamente estudado(por exemplo, [Campos et al., 2000d, Belhumeur et al., 1997]). Todos os classi�cadorescomumente utilizados podem sofrer de problema da dimensionalidade.

Apesar de ser teoricamente clara a rela�c~ao entre a dimensionalidade e o tamanho doconjunto de treinamento (jT j , eN), h�a outros fatores que, quando considerados, ofuscama exatid~ao dessa rela�c~ao, tais como a complexidade do classi�cador e o n�umero de classes.Segundo [Jain et al., 2000], resultados emp��ricos fazem com que, geralmente, seja aceitaa seguinte rela�c~ao: jTij , 10 � N , i = 1; � � � ; c, sendo jTij o n�umero de exemplos detreinamento da classe i. Ou seja, no m��nimo deve-se utilizar um n�umero de exemplos detreinamento por classe dez vezes maior que a dimensionalidade.

Para mostrar que o problema da dimensionalidade n~ao depende exclusivamente don�umero de padr~oes utilizados no processo de treinamento, criamos a �gura 2.2. Nesta�gura h�a um problema de classi�ca�c~ao com duas classes cujas distribui�c~oes est~ao mostra-das atrav�es das formas que circundam as letras que identi�cam tais classes. Esse espa�code caracter��sticas possui dimens~ao 2 e os vetores de sua base est~ao indicados por F1 e F2.

2.3 Problemas de generaliza�c~ao 25

F

F

1

2

Fronteira dedecisão

A

B

p

p

A

B

0

Figura 2.2: Exemplo de problema em que o uso de uma dimens~ao �e melhor que o uso de duas.

Supomos que a distribui�c~ao dessas classes faz com que o prot�otipo de cada classe �quenas posi�c~oes indicadas por pA e pB. Assim, caso seja utilizado um classi�cador de m��nimadistancia ao prot�otipo, a fronteira de decis~ao criada divide o espa�co de caracter��sticas nolugar geom�etrico indicado pela linha tracejada. Podemos notar que a taxa de erro desseclassi�cador n~ao ser�a pequena. Por outro lado, se for utilizada somente a caracter��sticaF1, podemos notar que a proje�c~ao dos padr~oes e do prot�otipo nessa caracter��stica far�acom que a taxa de erro seja praticamente nula, pois a fronteira de decis~ao ser�a o ponto0. Esse problema ocorre mesmo que sejam utilizados conjuntos de treinamento grandes,pois ele decorre de uma de�ciencia do classi�cador, e n~ao do n�umero de padr~oes de trei-namento. Essa de�ciencia decorre do fato de que o classi�cador de m��nima distancia aoprot�otipo com distancia Euclidiana n~ao estima a fronteira de decis~ao com precis~ao quandoa distribui�c~ao das classes n~ao �e circular.

Figura 2.3: Efeito do problema da dimensionalidade.


A curva apresentada a �gura 2.3, a qual ilustra o problema da dimensionalidade,apresenta tres regi~oes no eixo da dimensionalidade com signi�cados diferentes:

1. Na primeira regi~ao, compreendida entre 0 e m1, ocorre o comportamento mais es-perado intuitivamente, pois a adi�c~ao de caracter��sticas promove redu�c~ao na taxa deerro. Isso deve-se ao fato de espa�cos com dimens~oes muito pequenas n~ao possu��reminforma�c~oes su�cientes para distinguir-se as classes de padr~oes. Com isso, a adi�c~aode novas caracter��sticas melhora os resultados de classi�ca�c~ao.

2. A segunda regi~ao �e aquela em que �e atingida uma estabilidade na taxa de acerto.Nessa regi~ao, a adi�c~ao ou elimina�c~ao de caracter��sticas n~ao altera (ou altera muitosutilmente) essa taxa. Para um problema de classi�ca�c~ao, a melhor solu�c~ao est�a naado�c~ao da dimensionalidadem1, pois esse �e o menor valor em que a taxa de acerto �em�axima. A estabiliza�c~ao na taxa de acerto se deve ao fato de que as caracter��sticasimportantes para se distinguir os padr~oes j�a foram inseridas na regi~ao anterior, e ascaracter��sticas extras n~ao s~ao nem ruidosas nem relevantes para a classi�ca�c~ao.

3. A �ultima regi~ao �e a regi~ao em que de fato ocorre o problema da dimensionalidade.Note que o aumento no n�umero de caracter��sticas provoca aumento na taxa de erro.

Assim, para obter-se o desempenho m�aximo de um classi�cador, �e necess�ario investi-gar qual �e a dimensionalidade ideal para um determinado problema de reconhecimentode padr~oes. Para isso, pode ser aplicada uma estrat�egia simples de tentativa e erroem rela�c~ao �a dimensionalidade, usando um m�etodo de redu�c~ao de dimensionalidade (in-cluindo extra�c~ao e sele�c~ao de caracter��sticas) at�e que o ponto de m�aximo desempenhode um classi�cador seja atingido. Nessa estrat�egia, s~ao realizados testes de redu�c~ao dedimensionalidade para a obten�c~ao de sub-espa�cos de caracter��sticas de v�arios tamanhosdiferentes, at�e que seja obtida a dimensionalidade que minimiza o erro de classi�ca�c~ao.O pr�oximo cap��tulo apresenta mais detalhes sobre m�etodos de redu�c~ao de dimensionali-dade. Outros detalhes sobre os problemas de generaliza�c~ao podem ser encontrados em[Theodoridis and Koutroumbas, 1999, Jain et al., 2000].

Cap��tulo 3

Redu�c~ao de dimensionalidade

3.1 Vis~ao Geral

O termo dimensionalidade �e atribu��do ao n�umero de caracter��sticas de uma representa�c~aode padr~oes, ou seja, a dimens~ao do espa�co de caracter��sticas (N). As duas principais raz~oespara que a dimensionalidade seja a menor poss��vel s~ao: custo de medi�c~ao e precis~ao doclassi�cador. Quando o espa�co de caracter��sticas cont�em somente as caracter��sticas maissalientes, o classi�cador ser�a mais r�apido e ocupar�a menos mem�oria [Jain et al., 2000].Al�em disso, conforme discutido na se�c~ao 2.3, quando o conjunto de exemplos de treina-mento n~ao �e muito grande, o problema da dimensionalidade pode ser evitado usando-seum espa�co de caracter��sticas pequeno. Isso tamb�em propicia a obten�c~ao de menores taxasde erro de classi�ca�c~ao.

Em vis~ao computacional, a necessidade redu�c~ao de dimensionalidade �e acentuada, poisa dimensionalidade de imagens �e muito grande. O espa�co de imagens possui caracter��sticasque podem ser eliminadas para efetuar o reconhecimento de objetos. Uma imagem delargura w e altura h (em pixels) pode ser vista como um padr~ao no espa�co de imagens,o qual possui dimensionalidade N = h � w (vide se�c~ao 3.2.2). Esse pode ser um valormuit��ssimo elevado em imagens obtidas por scanners ou cameras. Al�em disso, qualqueraltera�c~ao em transla�c~ao, rota�c~ao, escala, etc. dos objetos contidos nessa imagens far�a comque ocorra grandes erros de classi�ca�c~ao. Por isso, �e necess�aria a utiliza�c~ao de algoritmosde redu�c~ao de dimensionalidade que propiciem a obten�c~ao de representa�c~oes dos padr~oes(obtidos das imagens) de forma robusta a essas altera�c~oes.

28 Redu�c~ao de dimensionalidade

Al�em da necessidade de utilizar a menor dimensionalidade poss��vel, h�a outro fator ana-lisado pelo teorema do \patinho feito" [Watanabe, 1985], que diz ser poss��vel fazer doispadr~oes arbitr�arios �carem similares se esses forem codi�cados com um n�umero su�cien-temente grande de caracter��sticas similares. Isso enfatiza a necessidade de uma escolhacuidadosa de caracter��sticas.

Para efetuar redu�c~ao de dimensionalidade, existem basicamente duas abordagens: ex-tra�c~ao de caracter��sticas e sele�c~ao de caracter��sticas. Em linhas gerais, os algoritmos deextra�c~ao criam novas caracter��sticas a partir de transforma�c~oes ou combina�c~oes do con-junto de caracter��sticas original. J�a os algoritmos de sele�c~ao, como o pr�oprio nome diz,selecionam, segundo determinado crit�erio, o melhor subconjunto do conjunto de carac-ter��sticas original.

Freq�uentemente, a extra�c~ao de caracter��sticas precede a sele�c~ao, de forma que, inicial-mente, �e feita a extra�c~ao de caracter��sticas a partir dos dados de entrada, seguido por umalgoritmo de sele�c~ao de caracter��sticas que elimina os atributos mais irrelevantes segundoum determinado crit�erio, reduzindo a dimensionalidade.

A escolha entre sele�c~ao e extra�c~ao de caracter��sticas depende do dom��nio de apli-ca�c~ao e do conjunto espec��co de dados de treinamento dispon��veis. Em geral, a sele�c~aode caracter��sticas reduz o custo de medi�c~ao de dados, e as caracter��sticas selecionadasmantem sua interpreta�c~ao f��sica original, mantendo as propriedades que possu��am quan-do foram criadas. J�a as caracter��sticas transformadas geradas por extra�c~ao podem proveruma habilidade de discrimina�c~ao melhor que o melhor subconjunto das caracter��sticasoriginais. Entretanto, as novas caracter��sticas (combina�c~oes lineares ou n~ao lineares dascaracter��sticas originais) podem n~ao possuir um signi�cado f��sico.

�E importante lembrar que, se a redu�c~ao de dimensionalidade for excessiva, o classi�ca-dor pode ter seu poder de discrimina�c~ao reduzido (vide o problema da dimensionalidade nase�c~ao 2.3). Por isso, �e importante analisar a varia�c~ao do comportamento do classi�cadorcom o n�umero de caracter��sticas, de forma que seja poss��vel estimar a dimensionalidadeideal para determinado classi�cador e conjunto de dados. A seguir, encontram-se maioresdetalhes sobre a extra�c~ao e a sele�c~ao de atributos.

3.2 Extra�c~ao de caracter��sticas

Um m�etodo de extra�c~ao de caracter��sticas cria um novo espa�co a partir de transforma�c~oesou combina�c~oes das caracter��sticas do espa�co original. Formalmente, dado um espa�code caracter��sticas I de dimens~ao N , um m�etodo de extra�c~ao de caracter��sticas H �e umafun�c~ao H : I ! F , em que F possui dimens~ao m. Assim, dado um padr~ao x em umespa�co de caracter��sticas I, temos

H(x) = y; (3.1)

3.2 Extra�c~ao de caracter��sticas 29

tal que y (y 2 F ) �e a nova representa�c~ao do padr~ao no espa�co F .

Normalmente, m� N , mas nem sempre a redu�c~ao de dimensionalidade �e promovidadiretamente pelos m�etodos de extra�c~ao de caracter��sticas. Em geral, eles criam um novoespa�co de caracter��stica em que a determina�c~ao dos vetores mais salientes de sua base�e muito simples. Por exemplo, conforme ser�a visto posteriormente, a transformada deKarhunen-Lo�eve pode, nos piores casos, criar um espa�co de caracter��sticas com m = N .Entretanto, geralmente basta selecionar os primeiros vetores da base criada para reduzira dimensionalidade de forma e�ciente.

H�a m�etodos lineares e n~ao lineares de extra�c~ao de caracter��sticas. Os processos linearesde extra�c~ao de caracter��sticas podem ser de�nidos como uma simples mudan�ca de basedo espa�co vetorial de caracter��sticas da seguinte forma:

y = H t � x; (3.2)

em que H �e uma matriz mudan�ca de base que leva elementos da base I para a base F([Callioli et al., 1998]).

Dentre os extratores de caracter��sticas lineares, podemos citar a transformada de Fou-rier, a an�alise de componentes principais (PCA), a an�alise de discriminantes lineares eoutras proje�c~oes lineares em geral. Em rela�c~ao aos extratores n~ao lineares, pode-se citaras redes neurais e os heur��sticos. A seguir, est~ao descritos os m�etodos de extra�c~ao decaracter��sticas que foram utilizados no desenvolvimento desta pesquisa.

3.2.1 Transformada de Fourier

A transformada de Fourier �e uma ferramenta muito importante em processamento de ima-gens. Dentre as principais aplica�c~oes da transformada de Fourier, encontram-se an�alise,�ltragem, reconstru�c~ao e compress~ao de imagens, bem como reconhecimento de padr~oese de objetos. Nesta se�c~ao, ser�a focalizada a aplica�c~ao ao reconhecimento de padr~oescomo m�etodo de redu�c~ao de dimensionalidade. Detalhes sobre outras aplica�c~oes da trans-formada de Fourier podem ser encontrados nas seguintes referencias: [Castleman, 1996,Gonzalez and Woods, 1992, Cesar-Jr, 1997].

Conceitos B�asicos

Atrav�es da transformada de Fourier, pode-se decompor um sinal em seus componentes defreq�uencia (senos e cossenos), de forma que um coe�ciente de Fourier re ete a importanciade determinada freq�uencia para o sinal. Em sinais discretos, pode ser feita a redu�c~ao dedimensionalidade (extra�c~ao de caracter��sticas) atrav�es dos descritores de Fourier. Paraexpor essa t�ecnica, inicialmente ser~ao de�nidos alguns conceitos b�asicos.


Dado um sinal cont��nuo e unidimensional x(t), sua transformada de Fourier �e de�nidapor:

y(f) = F (x(t)) =

Z 1

�1

x(t) � e�i2�ftdt; (3.3)

em que f denota freq�uencia, ou seja, a vari�avel b�asica do dom��nio de Fourier, e t denotatempo. A inversa da transformada de Fourier �e de�nida por:

x(t) = F�1(y(f)) =

Z 1

�1

y(f) � ei2�ftdt; (3.4)

Uma condi�c~ao su�ciente para a existencia da transformada de Fourier de um sinal �eque ele seja integr�avel, ou seja, Z 1

�1

jx(t)jdt <1 (3.5)

A s�erie de Fourier pode ser vista como um caso especial da transformada de Fourier.Dessa forma, uma fun�c~ao peri�odica x(t), de per��odo T0, pode ser expressa pela seguintes�erie de Fourier:

x(t) =1X

s=�1

�sei2�sf0t; (3.6)

em que �s s~ao os coe�cientes (complexos) da s�erie e f0 = 1=T0 �e a freq�uencia fundamental.Esses coe�cientes podem ser de�nidos como:

�s =1

T0

Z T0=2

�T0=2

x(t)e�i2�sf0tdt; s = 0;�1;�2; � � � (3.7)

Por isso, pode-se associar a s�erie de Fourier �a transformada de Fourier atrav�es deuma discretiza�c~ao do dom��nio da freq�uencia, em fun�c~ao da periodicidade do sinal x(�)[Cesar-Jr, 1997].

Dessa forma, a partir da transformada cont��nua de Fourier, pode-se de�nir a suavers~ao discreta. Essa transformada determina os descritores de Fourier. Seja x(n) umsinal discreto de�nido por uma cadeia de tamanho N (n = 0; 1; � � � ; N � 1), assumindo-se que x �e um sinal peri�odico e que a cadeia x(n) cont�em um per��odo desse sinal, atransformada discreta de Fourier desse sinal se d�a por:

y(s) =N�1Xn=0

x(n)e�i2�ns=N ; s = 0; 1; � � � ; N � 1 (3.8)


Os coe�cientes de y(s) s~ao os descritores de Fourier de x(n). Com esses coe�cientes,pode-se obter uma reconstru�c~ao perfeita do sinal x(n) utilizando a tranformada inversade Fourier discreta:

x(n) =1

N

N�1Xs=0

y(s)ei2�ns=N ; n = 0; 1; � � � ; N � 1 (3.9)

Devido ao fato de imagens serem padr~oes originariamente descritos por matrizes, �eimportante mencionar que a transformada de Fourier pode ser generalizada de forma apoder ser aplicada em sinais bidimensionais. Detalhes a respeito desse assunto podem serencontrados em [Gonzalez and Woods, 1992].

Transformada R�apida de Fourier

Pelas equa�c~oes 3.8 e 3.9, pode-se notar que a transformada discreta de Fourier, bem comosua inversa, s~ao um tanto caras computacionalmente. De fato, a transformada discretade Fourier possui uma complexidade de tempo quadr�atica O(N2), sendo N o tamanho dosinal ou o n�umero total de pixels em uma imagem.

Por�em, quando o tamanho do sinal x �e uma potencia de 2, pode-se aplicar um algoritmochamado Transformada R�apida de Fourier (\Fast Fourier Transform" - FFT), baseado emum m�etodo chamado dobramentos sucessivos [Gonzalez and Woods, 1992]. A ordem decomplexidade de execu�c~ao desse algoritmo �e de O(Nlog2N), sendo, portanto, altamentee�ciente se comparado �a transformada de Fourier discreta comum.

Esse algoritmo torna poss��vel a aplica�c~ao da transformada de Fourier para imagens oupadr~oes de alta dimensionalidade. Para se fazer uma compara�c~ao pr�atica, foi realizadoum teste utilizando o software MatLab, que possui a FFT implementada. Foram criadosdois sinais aleat�orios (ou seja, contendo apenas ru��dos) x1 e x2. O sinal x1 possui tamanho223 e x2 possui uma dimens~ao a menos que x1, ou seja, o tamanho de x2 �e 223 � 1. Otempo levado para obter-se a transformada de Fourier de x1 foi de 10,8198 segundos. J�ao tempo levado para realizar a mesma tarefa em x2 (o qual �e menor que x1, mas cujotamanho n~ao �e uma potencia de 2) foi de 128,8102 segundos.

Propriedades

A transformada de Fourier possui v�arias propriedades interessantes para o reconhecimentode padr~oes e para processamento de imagens. Dentre as propriedades mais importantesda transformada unidimensional, pode-se citar as seguintes:

� Linearidade: a � x1(t) + b � x2(t), a � y1(f) + b � y2(f), sendo a e b constantes, x1 ex2 dois sinais, e y1 e y2 suas transformadas de Fourier;


� Teorema da similaridade: x(a � t), 1jaj� y � (f

a);

� Teorema da Transla�c~ao: x(t� a), e�i2�afy(f);

� Teorema da Convolu�c~ao: x1(t) � x2(t), y1(f) � y2(f).

� Diferencia�c~ao: ddtx(t), i2�f � y(f)

Redu�c~ao de Dimensionalidade usando a Transformada de Fourier Discreta

Conhecendo-se os conceitos b�asicos da transformada discreta de Fourier, pode-se ilustrarcomo �e realizada a redu�c~ao de dimensionalidade atrav�es dela. Suponha que, na equa�c~ao3.9, ao inv�es de se utilizar todos os y(s) coe�cientes, sejam utilizados apenasm coe�cientespara reconstruir-se o sinal. Isso �e equivalente a fazer y(s) = 0 para todo s > m�1 naquelaequa�c~ao, resultando na seguinte aproxima�c~ao para x(n):

x(n) =1

N

m�1Xs=0

y(s)ei2�ns=N ; n = 0; 1; � � � ; N � 1 (3.10)

Apesar de serem usados apenas m descritores para obter cada componente de x(n),n ainda varia de 0 a N � 1. Isto �e, a aproxima�c~ao do sinal possui o mesmo tamanhoque o sinal original. Os primeiros coe�cientes de Fourier referem-se �as freq�uencias maisbaixas do sinal, que geralmente contem informa�c~oes mais globais dos pad~oes comumenteencontrados em problemas de vis~ao. J�a os �ultimos referem-se �as freq�uencias mais altasdo sinal, as quais s~ao geralmente associadas a informa�c~oes mais detalhadas ou �nas dospadr~oes ou s~ao causadas por ru��dos [Gonzalez and Woods, 1992].

Por isso, pode-se reduzir a dimensionalidade desses padr~oes (imagens) utilizando ape-nas seus m primeiros descritores de Fourier. Assim, as imagens reconstru��das a partirdesses descritores apresentam borramentos e redu�c~ao dos detalhes das bordas, mas asinforma�c~oes mais importantes para caracterizar os objetos contidos nas imagens n~ao s~aoperdidas. Portanto, pode-se efetuar reconhecimento de objetos em imagens utilizando-sepadr~oes m-dimensionais, constituidos pelos m primeiros descritores de Fourier das ima-gens. Dessa forma, para efetuar classi�ca�c~ao utilizando padr~oes com dimensionalidademenor, pode-se represent�a-los por y, tal que:

y(f) = y(f); f = 0; 1; 2; � � � ; m� 1 para m < N (3.11)

tomando-se o cuidado de de�nir y(f) = 0 para todo f � m caso seja realizada a recons-tru�c~ao do padr~ao.

Na �gura 3.1, h�a um exemplo que ilustra os efeitos da redu�c~ao da dimensionalidadena reconstru�c~ao de um sinal. Foram criados dois sinais aleat�orios discretos de tamanho50 (x1 e x2). Posteriormente, foi calculada a transformada de Fourier desses sinais e, com


apenas os 25 primeiros coe�cientes, foi realizada a reconstru�c~ao desses sinais. Pode-se no-tar que os sinais reconstru��dos s~ao uma vers~ao \suavizada" dos sinais originais. Tamb�em�e poss��vel veri�car que, apesar de terem sido utilizados, no processo de reconstru�c~ao,metade dos descritores de Fourier dispon��veis, os sinais reconstru��dos preservaram infor-ma�c~oes importantes dos originais. Dessa forma, com 25 coe�cientes �e visualmente poss��veldisting�uir qual reconstru�c~ao se refere ao sinal x1 e qual se refere ao sinal x2. Com isso,�ca ilustrado como �e poss��vel efetuar uma classi�ca�c~ao de padr~oes de dimensionalidadereduzida atrav�es da transformada de Fourier.

Figura 3.1: Dois exemplos de sinais de tamanho 50 (x1 e x2, acima) e suas respectivas recons-

tru�c~oes a partir de 25 descritores de Fourier (abaixo).

Pelas propriedades da transformada de Fourier, podemos notar que a utiliza�c~ao dedescritores de Fourier �e uma abordagem bastante e�ciente de reconhecimento de padr~oese vis~ao computacional. Al�em disso, essa abordagem proporciona redu�c~ao de dimensiona-lidade de forma e�ciente e sem perda de informa�c~oes relevantes em vis~ao computacional.


3.2.2 An�alise de Componentes Principais (PCA)

Segundo Jain et al. [Jain et al., 2000], o melhor extrator de caracter��sticas linear co-nhecido �e o de an�alise de componentes principais (PCA). Essa transformada, tamb�emconhecida como transformada de Hotelling e por expans~ao de Karhunen-Lo�eve, �e am-plamente utilizada pela comunidade de reconhecimento de padr~oes e de reconhecimen-to de faces [Kirby and Sirovich, 1990, Turk and Pentland, 1991, Chellappa et al., 1995,Romdhani, 1996, Pentland, 2000].

Visando a tratar imagens como padr~oes em um espa�co linear para efetuar reconhe-cimento estat��stico, essas devem ser representadas de acordo com o conceito de padr~aodescrito na se�c~ao 2.1. Sendo h o n�umero de linhas de uma imagem e w o n�umero decolunas, pode-se dizer que uma imagem �e um padr~ao de h�w caracter��sticas ou um vetorno espa�co (h�w)-dimensional, o qual chamaremos de \espa�co de imagens", representadopor I.

Assim, dada uma imagem representada como uma matriz h � w, pode-se construirsua representa�c~ao como um vetor atrav�es de uma leitura coluna a coluna da imagem,colocando o valor de cada pixel da imagem em um vetor coluna x. Ou seja, dada umamatriz Z de A linhas e L colunas representando uma imagem,

xl = Zj;k; (3.12)

para j = 1; 2; 3; � � � ; h, k = 1; 2; 3; � � � ; w e l = j + (k � 1) � h. Assim, a dimensionalidadedo espa�co de imagens N �e dada por N = h� w.

A �gura 3.2 ilustra didaticamente o processo de cria�c~ao de um padr~ao x a partir deuma imagem de face1.

Figura 3.2: Processo de cria�c~ao de um padr~ao x a partir de uma imagem (adaptada de

[Romdhani, 1996]).

Dessa forma, a base canonica do espa�co de faces pode ser ilustrada de acordo com a�gura 3.3.

1�E importante notar que essa �gura �e apenas uma representa�c~ao da imagem, pois em imagens reais,os pixels n~ao possuem contornos.


Figura 3.3: Base canonica do espa�co de faces (adaptada de [Romdhani, 1996]).

Em reconhecimento de padr~oes, �e sempre desej�avel dispor de uma representa�c~ao com-pacta e de um bom poder de discrimina�c~ao de classes de padr~oes. Para isso, �e importanteque n~ao haja redundancia entre as diferentes caracter��sticas dos padr~oes, ou seja, que n~aohaja covariancia entre os vetores da base do espa�co de caracter��sticas. Mas, obviamen-te, pode-se notar que o espa�co de imagens �e altamente redundante quando usado paradescrever faces, pois cada pixel �e muito correlacionado com outros pixels, j�a que todas asfaces possuem olhos, nariz, boca, bochecha, testa etc, o que faz com que os vetores querepresentam faces sejam altamente correlacionados.

Para veri�car se h�a covariancia entre as caracter��sticas (ou vari�aveis), utiliza-se a ma-triz de covariancia � da matriz dos padr~oes (de acordo com [Kennedy and Neville, 1986] e[Duda and Hart, 1973]). Dados jT j padr~oes de treinamento, x1;x2; � � � ;xjT j, a matriz decovariancia desses padr~oes �e calculada a partir da matriz dos padr~oes de treinamento X.Ela �e de�nida como uma matriz em que cada coluna possui um padr~ao de treinamento:

X = [x1;x2;x3; � � � ;xjT j] (3.13)

Dada uma matriz de padr~oes X, a matriz �X de covariancia de X pode ser obtida apartir da seguinte aproxima�c~ao (vide equa�c~ao 2.15):

�X = (X � �) � (X � �)t; (3.14)

em que � �e a matriz N � jT j (mesma dimens~ao que X), e todas suas colunas contem ovalor esperado dos padr~oes de X, ou seja:

�l;i =1

jT j�

jT jXj=1

Xl;j; (3.15)

para l = 1; 2; 3; � � � ; N e i = 1; 2; 3; � � � ; jT j.


�E importante notar que �l;lX �e a variancia da caracter��stica l. Ou seja, os elementos

da diagonal da matriz de covariancia referem-se �a variancia das caracter��sticas. J�a oselementos fora da diagonal, isto �e, �l;o para l 6= o, representam a covariancia entre acaracter��stica l e o. Se duas caracter��sticas, l e o, s~ao estatisticamente independentes, acovariancia �e nula (�l;o = 0).

Conforme dito anteriormente, �e desej�avel que os padr~oes sejam representados em umespa�co em que n~ao haja covariancia entre caracter��sticas diferentes. Um espa�co vetorialcom essa propriedade possui uma base cuja matriz de covariancia de seus vetores �e diago-nal. Partindo-se de um conjunto de exemplos de padr~oes de treinamento para obter umabase com tal propriedade, basta utilizar uma transformada que diagonalize a matriz decovariancia da base atual do espa�co. Com a diagonaliza�c~ao da matriz de covariancia, a va-riancia das vari�aveis (caracter��sticas) ser�a maximizada e a covariancia entre uma vari�avele outra ser�a nula.

De acordo com [Theodoridis and Koutroumbas, 1999], [Duda and Hart, 1973] e[Callioli et al., 1998], devido ao processo de cria�c~ao da matriz de covariancia, pode-semostrar que ela �e diagonaliz�avel. Para diagonalizar-se a matriz de covariancia dos padr~oesde treinamento �X , deve-se obter uma representa�c~ao desses padr~oes em uma outra basedo espa�co de caracter��sticas. Em outras palavras, deve-se efetuar uma mudan�ca de base.A matriz mudan�ca de base que possui essa propriedade �e de�nida da seguinte maneira:

H = [e1; e2; e3; � � � ; em]; (3.16)

em que ei �e obtido a partir da seguinte decomposi�c~ao:

�iei = �Xei; (3.17)

ou seja, ei �e o i-�esimo auto-vetor de �X [Callioli et al., 1998], m �e o n�umero total deauto-vetores de �X , e �i �e o i-�esimo auto-valor de �X . Nos trabalhos em que o PCA �eutilizado para reconhecimento de faces, ou seja, quando os padr~oes de treinamento s~aoimagens de faces, esses autovetores s~ao chamados de eigenfaces (vide cap��tulo 4). Issodeve-se ao fato de que esses auto-vetores, quando visualizados como imagens, possuem aaparencia de faces. O mesmo ocorre para imagens regi~oes caracter��sticas da face, comoolhos (eigeneyes), nariz (eigennoses) e boca (eigenmouth).

Assim, as vari�aveis dos padr~oes representados em termos dessa nova base do espa�co decaracter��sticas n~ao possuem correla�c~ao entre si. Essa mudan�ca de base �e efetuada atrav�esda seguinte opera�c~ao2:

yi = H t � xi; (3.18)

para i = 1; 2; 3; � � � ; jT j, em que yi �e a representa�c~ao do padr~ao xi nesse novo espa�co decaracter��sticas. Para ilustrar o efeito dessa mudan�ca de base, pode ser criada uma matriz

2Note que essa �e a mesma opera�c~ao mostrada na equa�c~ao 3.2.


Y contendo todos os padr~oes yi (da mesma forma que �e feita na cria�c~ao da matriz X -equa�c~ao 3.13). Dessa maneira, ser�a veri�cado que a matriz de covariancia de Y , �Y , ser�adiagonal.

�E importante lembrar que os auto-valores re etem a importancia dos auto-vetores.No caso de PCA, os auto-valores da matriz de covariancia s~ao iguais �a variancia dascaracter��sticas transformadas [Theodoridis and Koutroumbas, 1999]. Assim, se um auto-vetor possui auto-valor grande, signi�ca que esse �ca em uma dire�c~ao em que h�a umagrande variancia dos padr~oes. A importancia disso est�a no fato de que, em geral, �e maisf�acil distinguir padr~oes usando uma base em que seus vetores apontam para a dire�c~ao damaior variancia dos dados, al�em de n~ao serem correlacionados entre si.

Atrav�es das �guras 3.4, 3.5 e 3.6, pode-se visualizar o efeito da transformada PCApara o caso bidimensional. Pode-se notar que �e realizada uma rota�c~ao da base do espa�covetorial de forma que o primeiro vetor da nova base �que na dire�c~ao em que h�a maiorvariancia dos dados e o segundo �que perpendicular ao primeiro, na dire�c~ao da segundamaior varia�c~ao.

Figura 3.4: Dados arti�ciais bidimensionais.

O n�umero de auto-vetores obtido �e, no m�aximo, igual ao n�umero de pixels da imagem(ou vari�aveis dos padr~oes de entrada), ou seja, N . Por�em, conforme dito anteriormente,se a matriz H for constru��da de forma que sejam escolhidos somente os auto-vetorescontendo os maiores auto-valores, a variancia total dos padr~oes de entrada n~ao sofregrandes altera�c~oes. Em [?], o autor discute o conceito de erro residual, o qual �e calculadoatrav�ez da diferen�ca entre a reconstru�c~ao dos padr~oes com o uso de todos os autovetorese a reconstru�c~ao utilizando alguns autovetores (com redu�c~ao de dimensionalidade). Arepresenta�c~ao dos padr~oes no espa�co de caracter��sticas formado pelos auto-vetores com osmaiores auto-vetores possui erro residual pequeno. Assim, �e poss��vel realizar redu�c~ao dedimensionalidade utilizando-se, na constru�c~ao de H, somente osm primeiros auto-vetores.Com isso, a dimensionalidade dos vetores yi torna-se m, o que signi�ca uma redu�c~ao dedimensionalidade de N �m dimens~oes.

Embora essa transformada PCA seja relativamente simples conceitualmente, o pro-


Figura 3.5: Dados de teste com os auto-vetores da matriz de covariancia e seus respectivos

auto-valores.

Figura 3.6: Dados no espa�co criado.

cesso de treinamento �e complexo, visto que, dentre outras opera�c~oes, �e necess�ario efetuarjT j�jT j�N multiplica�c~oes para criar a matriz de covariancia �X [Campos et al., 2000d].Por�em, sua aplica�c~ao �e muito r�apida e, em geral, produz bons resultados para reconheci-mento de faces.

Segundo [Duda and Hart, 1973], PCA �e uma t�ecnica de extra�c~ao de caracter��sticas n~aosupervisionada prop��cia para dados com distribui�c~ao Gaussiana, mas n~ao se tem certeza deque as faces possuam tal distribui�c~ao. Atrav�es das �guras 3.7, 3.8 e 3.9, pode-se observarum caso simples bidimensional ilustrando um problema que pode ocorrer com a redu�c~ao dedimensionalidade atrav�es de PCA. Nesse caso, ser�a muito mais dif��cil distinguir os padr~oesdas duas classes utilizando somente o primeiro auto-vetor. J�a o segundo auto-vetor possuia dire�c~ao que melhor discrimina as duas classes.

Conforme ser�a descrito posteriormente, uma forma de eliminar esse problema consistena aplica�c~ao de um algoritmo de sele�c~ao de caracter��sticas (vide se�c~ao 3.3). Com a apli-


Figura 3.7: Dados arti�ciais de teste: duas classes em um espa�co bidimensional.

ca�c~ao de um m�etodo de sele�c~ao autom�atica de caracter��sticas, os autovetores da base doespa�co de caracter��sticas s~ao escolhidos de forma �otima.


Figura 3.8: Dados de teste de duas classes com os auto-vetores da matriz de covariancia e seus

respectivos auto-valores.

Figura 3.9: Dados no espa�co criado: note que o primeiro auto-vetor n~ao possui poder de

discrimina�c~ao.


3.2.3 Discriminantes Lineares (LDA)

A an�alise de discriminantes lineares (LDA), tamb�em conhecidos como discriminantes line-ares de Fisher, �e uma t�ecnica que se tornou muito comum para reconhecimento de faces,principalmente a partir de 1997, com a publica�c~ao do artigo [Belhumeur et al., 1997].Nesse artigo, os autores comparam PCA com LDA e mostram que o espa�co de carac-ter��sticas criado pela transforma�c~ao LDA proporcionou resultados de classi�ca�c~ao muitomelhores que o espa�co criado pela transformada PCA para o reconhecimento de pessoasem imagens com grandes varia�c~oes de ilumina�c~ao.

Como pode-se observar na se�c~ao 3.2.2, a transformada de PCA �e um m�etodo line-ar n~ao supervisionado de extra�c~ao de caracter��sticas que maximiza o espalhamento dospadr~oes no espa�co de caracter��sticas, independentemente da classe em que esses perten-cem [Jain et al., 2000]. Essas caracter��sticas possibilitam a ocorrencia de problemas comoaquele ilustrado nas �guras 3.7, 3.8 e 3.9. Para evitar tais problemas, podem ser aplica-dos algoritmos de sele�c~ao de caracter��sticas ou utilizar extratores de caracter��sticas quese baseiam em informa�c~oes da distribui�c~ao das classes no espa�co original.

Atrav�es de LDA, esses problemas podem ser evitados, pois trata-se de um m�etodo queutiliza informa�c~oes das categorias associadas a cada padr~ao para extrair linearmente as ca-racter��sticas mais discriminantes. Em LDA, a separa�c~ao inter-classes �e enfatizada atrav�esda substitui�c~ao da matriz de covariancia total do PCA por uma medida de separabilidadecomo o crit�erio Fisher.

Matematicamente, para todos os exemplos de todas as classes, de�ne-se duas medidas:

1. matriz de espalhamento intra-classes, dada por

Sw =cX

j=1

jTj jXi=1

(xji � �j) � (xji � �j)

t; (3.19)

em que xji �e o i-�esimo exemplo da classe j, �j �e a m�edia da classe j, c �e o n�umerode classes, e jTjj o n�umero de exemplos na classe j;

2. matriz de espalhamento inter-classes, dada por:

Sb =cX

j=1

(�j � �) � (�j � �)t; (3.20)

em que � representa a m�edia de todas as classes.

O objetivo �e maximizar a medida inter-classes e minimizar a medida intra-classes. Umamaneira de fazer-se isso �e maximizar a taxa det(Sb)

det(Sw. A vantagem de se usar essa taxa �e que

foi provado [Fisher, 1938] que, se Sw �e uma matriz n~ao singular (com determinante n~ao


nulo), ent~ao essa taxa �e maximizada quando os vetores colunas da matriz de transforma�c~aoH s~ao os autovetores de S�1w � Sb.

Pode ser provado que: (1) h�a no m�aximo c�1 autovetores e, ent~ao, o limite superior dem �e c�1, e (2) s~ao requeridos no m��nimoN+c exemplos de treinamento para garantir queSw n~ao se torne singular (o que geralmente �e imposs��vel em aplica�c~oes pr�aticas). Para re-solver isso, [Belhumeur et al., 1997] propuseram a utiliza�c~ao de um espa�co intermedi�ario,o qual pode ser o espa�co criado pela transformada PCA. Ent~ao, o espa�co N -dimensionaloriginal �e projetado em um espa�co g-dimensional intermedi�ario usando PCA e, posterior-mente, em um espa�co m-dimensional, usando LDA.

Em geral, essa abordagem possibilita a obten�c~ao de resultados melhores que o PCApara redu�c~ao de dimensionalidade. A �gura 3.10 mostra o caso de um espa�co de carac-ter��sticas bidimensional com duas classes. Nesse espa�co, caso seja realizada a redu�c~aopara uma dimens~ao, a proje�c~ao no primeiro componente principal (PCA) acarreta umespa�co de caracter��stica que proporciona uma alta taxa de erro. J�a a proje�c~ao no primei-ro discriminante linear (LDA) proporcionar�a a taxa de acerto de 100%. Nesse exemplo,sup~oe-se a utiliza�c~ao do classi�cador de vizinho mais pr�oximo.

Figura 3.10: Exemplo em que a redu�c~ao de dimensionalidade com LDA proporciona melhores

resultados de classi�ca�c~ao que PCA. H�a duas classes em um espa�co de caracter��sticas bidimen-

sional (adaptada de [Belhumeur et al., 1997]).


Al�em desse exemplo, no caso ilustrado na �gura 3.4, o discriminante linear de Fisheriria determinar, como primeiro vetor da base, exatamente aquele que foi determinado pelosegundo auto-vetor no caso de PCA, ou seja, o vetor cujo auto-valor �e 0.0014 na �gura3.8.

Por�em, [Martinez and Kak, 2001] mostraram recentemente que o desempenho de PCApode ser superior ao de LDA quando o tamanho do conjunto de treinamento jT j �e pequeno.Esses resultados foram obtidos a partir de testes para reconhecimento de faces em umabase de imagens de 126 pessoas, sendo 26 imagens por pessoa, com problemas de oclus~ao evaria�c~oes em express~oes faciais. Foram realizadas duas baterias de testes, a primeira compoucas imagens de treinamento por pessoa (somente 2) e a segunda com v�arias imagensde treinamento (13). Na maioria dos experimentos com conjunto de treinamento pequeno,o desempenho do PCA foi superior ao do LDA. Por outro lado, em todos os testes comconjunto de treinamento grande, o desempenho do LDA foi superior ao do PCA.

A �gura 3.11 ilustra um caso em que o desempenho de PCA �e superior ao de LDA.Trata-se de um exemplo com duas classes, cujos padr~oes s~ao representados por `�' paraa classe A e `o' para a classe B. A distribui�c~ao dessas classes est�a ilustrada pelas elipsespontilhadas. Usando-se os dois exemplos de treinamento por classe mostrados na �gura,o primeiro vetor do espa�co PCA obtido est�a indicado por `PCA', e a fronteira de decis~aoproporcionada por esse m�etodo est�a indicada por `DPCA'. J�a o primeiro vetor do espa�coLDA est�a indicado por `LDA', e sua respectiva fronteira de decis~ao, por 'DLDA'. Nota-se claramente que, caso seja reduzida a dimensionalidade para 1, pela distribui�c~ao dasclasses, a fronteira de decis~ao criada pelo PCA �e superior �a do LDA3.

DPCA

DLDAPCA

LDA

Figura 3.11: Efeito de PCA e LDA no espa�co de caracter��sticas com poucas amostras de

treinamento. Adaptada de [Martinez and Kak, 2001].

Al�em de requerer um conjunto de treinamento grande, outro problema dessa aborda-

3Sup~oe-se que o classi�cador utilizado �e o de vizinho mais pr�oximo.


gem �e sua incapacidade de obter bons resultados se aplicada a classes com distribui�c~aoconcava e com interse�c~ao com outras classes, como no caso de dados com distribui�c~aosimilar aos da �gura 3.12 (em todas as dimens~oes). Nesse caso, a transformada vai tentarminimizar a varia�c~ao intra-classe e maximizar a varia�c~ao inter-classes, o que pode resultarem uma representa�c~ao dos dados pior do que a original para classi�cadores como os K-vizinhos mais pr�oximos. Isso refor�ca a necessidade da utiliza�c~ao de algoritmos de sele�c~aode caracter��sticas.

Figura 3.12: Exemplo de distribui�c~ao que pode falhar com um discriminante linear.

Maiores detalhes a respeito de discriminantes lineares podem ser obtidos atrav�es dasreferencias [Theodoridis and Koutroumbas, 1999] e [Fisher, 1938].

3.3 Sele�c~ao de Caracter��sticas 45

3.3 Sele�c~ao de Caracter��sticas

M�etodos autom�aticos de sele�c~ao de caracter��sticas s~ao importantes em muitas situa�c~oesem que se tem dispon��vel um conjunto grande de caracter��sticas e deseja-se selecionarum subconjunto adequado. Al�em de ser uma forma de redu�c~ao de dimensionalidade, umaaplica�c~ao importante �e a fus~ao de dados procedentes de m�ultiplas modalidades de sensoresou de m�ultiplos modelos de dados. A importancia de redu�c~ao de dimensionalidade est�aexpl��cita no cap��tulo 3.

A sele�c~ao autom�atica de caracter��sticas �e uma t�ecnica de otimiza�c~ao que, dado umconjunto de N caracter��sticas, tenta selecionar um subconjunto de tamanho m (m < N)que maximiza uma fun�c~ao crit�erio.

Formalmente, dado um conjunto Y de N caracter��sticas, o algoritmo de sele�c~ao decaracter��sticas deve encontrar um subconjunto X � Y tal que jX j = m, em que jX jdenota a cardinalidade de X , e

J(X ) = maxZ�Y;jZj=m

J(Z); (3.21)

em que J(:) �e a fun�c~ao crit�erio. Um exemplo simples �e de�nir-se J(X ) = 1�E, sendo E �ea taxa ou probabilidade de erro de um classi�cador. �E desej�avel que a fun�c~ao crit�erio sejamaior quanto menor for a redundancia entre as caracter��sticas e quanto maior a facilidadede discriminar padr~oes de classes diferentes.

Dessa forma, o algoritmo de sele�c~ao de caracter��sticas poder�a reduzir a dimensiona-lidade de forma que ocorra a menor queda poss��vel no poder de distin�c~ao das classespor um classi�cador no espa�co de caracter��sticas. Uma conseq�uencia da aplica�c~ao de umbom algoritmo de sele�c~ao de atributos �e a redu�c~ao do n�umero necess�ario de amostras detreinamento para obter-se bons resultados com um classi�cador, ou seja, a redu�c~ao doproblema da dimensionalidade (vide se�c~ao 2.3).

Al�em da escolha da fun�c~ao crit�erio, tamb�em �e importante determinar a dimensiona-lidade apropriada do espa�co de caracter��sticas reduzido. Uma forma simples de resolveresse problema �e efetuar a sele�c~ao de caracter��sticas para v�arios valores de m. Conformefoi mencionado na se�c~ao 2.3, em [Jain et al., 2000], os autores defendem que, em proble-mas pr�aticos, sendo jT j o tamanho do conjunto de treinamento, �e seguro n~ao ocorrer oproblema da dimensionalidade se forem usadas menos que jT j=10 caracter��sticas.

Apesar da importancia de sele�c~ao de atributos, n~ao h�a regras ou procedimentos de�niti-vos para essa tarefa em cada aplica�c~ao particular [Castleman, 1996], principalmente quan-do o n�umero de caracter��sticas dispon��veis for grande. Por esse motivo, um grande conjun-to de algoritmos de sele�c~ao de atributos tem sido proposto. Em [Jain and Zongker, 1997]foi proposta uma taxonomia sobre este t�opico. A seguir ser~ao descritos separadamentealguns algoritmos de sele�c~ao de caracter��sticas e algumas fun�c~oes crit�erio.


3.3.1 Algoritmos de sele�c~ao

H�a v�arios m�etodos diferentes de sele�c~ao de caracter��sticas. Baseando-se na taxonomia pro-posta em [Jain and Zongker, 1997], tais abordagens podem ser agrupadas em categoriasconforme descrito na taxonomia exibida na �gura 3.13.

Figura 3.13: Taxonomia dos m�etodos de sele�c~ao de caracter��sticas. Adaptada da �gura 1

contida em [Jain and Zongker, 1997].

A seguir, h�a uma breve descri�c~ao de cada uma dessas abordagens. Neste trabalho,foram focalizados os m�etodos utuantes ( oating). Por isso ser�a dedicada uma se�c~aoaos m�etodos determin��sticos de solu�c~ao �unica (se�c~ao 3.3.2). �E importante mencionar osm�etodos citados na �gura 3.13 s~ao utilizados nos casos em que n~ao �e realizada uma esti-mativa da fun�c~ao densidade de probabilidade das classes de padr~oes. O leitor interessadoem m�etodos de sele�c~ao para espa�cos com distribui�c~oes probabil��sticas previamente esti-madas ou conhecidas �e referido aos trabalhos [Kittler et al., 2001], que possui uma revis~aode tais m�etodos.

Redes Neurais

Um m�etodo de sele�c~ao de caracter��sticas bem conhecido que utiliza uma rede neural �echamado Node Pruning [Mao et al., 1994] ou \corte de n�os". Basicamente, o algoritmo


funciona atrav�es de uma rede neural multi-camadas com retro-alimenta�c~ao, utilizandoum algoritmo de aprendizado baseado em retro-propaga�c~ao (backpropagation). �E de�nidauma medida de \saliencia de n�os" e utilizado um algoritmo que elimina os n�os menossalientes. Dessa forma, a complexidade da rede pode ser reduzida ap�os seu treinamento.A elimina�c~ao dos n�os de entrada signi�ca a elimina�c~ao de caracter��sticas do conjunto decaracter��sticas. A saliencia de um n�o �e de�nida pela soma do aumento no erro sobre todosos padr~oes de treinamento, como um resultado da remo�c~ao daquele n�o (vide equa�c~ao 3.25).

Inicialmente, a rede neural �e treinada, sendo posteriormente realizada a elimina�c~ao den�os seguida de um re-treinamento da rede, repetindo-se o processo at�e que seja alcan�cadaa dimens~ao desejada. A vantagem do m�etodo node-pruning �e que ele simultaneamentedetermina o melhor subconjunto de caracter��sticas e o classi�cador �otimo.

M�etodos �otimos

Em termos da qualidade do conjunto de caracter��sticas obtido, o �unico m�etodo realmente�otimo �e o da busca exaustiva. Nesse m�etodo, todos os (Nm) subconjuntos poss��veis detamanho m s~ao avaliados. Essa abordagem �e muito cara computacionalmente, mesmopara conjuntos n~ao muito grandes, pois sua complexidade �e exponencial.

Algumas fun�c~oes crit�erio possuem uma propriedade chamadamonotonicidade. Umafun�c~ao �e monotonica se J(X

SZ) � J(X ), para todo X ;Z � Y. Ou seja, o valor

da fun�c~ao crit�erio �e sempre maior para conjuntos de caracter��sticas maiores. Para estecaso, h�a o algoritmo de busca em �arvores chamado branch-and-bound, proposto em[Narendra and Fukunaga, 1977]. Esse algoritmo pode retornar a solu�c~ao ideal sem veri�-car todas as possibilidades, mas sabemos que, devido ao problema da dimensionalidade(vide se�c~ao 2.3), para situa�c~oes em que o conjunto de treinamento n~ao �e grande o su-�ciente, normalmente a fun�c~ao crit�erio n~ao �e monotonica. Por esse fato, o algoritmobranch-and-bound n~ao pode ser aplicado em quaisquer situa�c~oes.

Outra desvantagem desse m�etodo �e que, no pior caso, todas as con�gura�c~oes s~aoconsultadas, o que faz com que o algoritmo tenha complexidade exponencial no pior caso,tornando impratic�avel para conjuntos de caracter��sticas grandes. Por essas raz~oes existemos m�etodos sub-�otimos, os quais n~ao garantem que o conjunto de caracter��sticas obtidoseja o melhor poss��vel, mas s~ao e�cientes em termos de tempo de execu�c~ao, pois elesn~ao consultam todas as possibilidades para determinar a(s) solu�c~ao(~oes). A seguir ser~aocomentados alguns dos m�etodos sub-�otimos.

M�etodos estoc�asticos com m�ultiplas solu�c~oes

Os m�etodos estoc�asticos com m�ultiplas solu�c~oes s~ao aqueles que, ap�os serem executados,fornecem v�arios conjuntos de caracter��sticas que obtiveram bons resultados quando ava-liados pela fun�c~ao crit�erio. Al�em disso, uma caracter��stica importante desses m�etodos �e


que, a cada vez que eles s~ao executados, eles podem fornecer um conjunto de solu�c~oesdiferente do anterior.

Essa classe de m�etodos engloba o uso de algoritmos gen�eticos para sele�c~ao de carac-ter��sticas [Siedleki and Sklansky, 1989]. Nessa abordagem, o conjunto de caracter��sticas�e representado como uma cadeia bin�aria de caracteres de tamanho N em que 0 ou 1na posi�c~ao i indica a ausencia ou presen�ca da caracter��stica i. Essa cadeia �e chamada\cromossomo".

Inicialmente, uma popula�c~ao aleat�oria de cromossomos �e criada. Cada cromossomo �eavaliado, atrav�es da fun�c~ao crit�erio, para determinar sua aptid~ao (�tness), a qual informase o cromossomo ir�a \sobreviver" �a pr�oxima gera�c~ao ou \morrer". A partir de muta�c~oesou cruzamentos dos cromossomos atuais, s~ao criados novos cromossomos.

Ap�os v�arias itera�c~oes, a aptid~ao geral da popula�c~ao ser�a melhorada e sempre haver�av�arias solu�c~oes. Por�em, conforme mencionado anteriormente, como os resultados s~ao ob-tidos a partir de processos aleat�orios (portanto n~ao-determin��sticos), normalmente s~aoobtidos sub-conjuntos diferentes quando o algoritmo �e aplicado ao mesmo conjunto emoutro momento. Em [Bruno et al., 1998], essa t�ecnica foi aplicada para efetuar a classi�-ca�c~ao de formas biol�ogicas.

M�etodos determin��sticos de m�ultiplas solu�c~oes

Ao contr�ario dos m�etodos estoc�asticos de m�ultiplas solu�c~oes, os m�etodos determin��sticosde m�ultiplas solu�c~oes apresentam sempre os mesmos conjuntos de caracter��sticas.

Dentre esses m�etodos, alguns tratam o sub-espa�co de caracter��sticas como um gra-fo, chamado \reticulado de sele�c~ao de caracter��sticas", em que cada n�o representa umsubconjunto e uma aresta representa a rela�c~ao de sub-conjunto. Para selecionar os me-lhores conjuntos, aplica-se um algoritmo padr~ao de busca em grafos. Como exemplos dem�etodos dessa categoria, encontram-se o \best-�rst search" e uma vers~ao restrita cha-mada \beam search", os quais foram utilizados em [Siedleki and Sklansky, 1989] parasele�c~ao de caracter��sticas.

3.3.2 M�etodos Determin��sticos com Solu�c~ao �Unica

H�a v�arios m�etodos de sele�c~ao de caracter��sticas determin��sticos de solu�c~ao �unica. A se-guir, ser~ao descritos alguns desses m�etodos que s~ao baseados em t�ecnicas de busca.


Preliminares

A maioria dos m�etodos determin��sticos de solu�c~ao �unica s~ao baseados em buscas. Dentreeles, a maioria possui duas abordagens: para frente (botton-up) e para tr�as (top-down).Na abordagem para frente, inicia-se com um conjunto de avalia�c~ao (tempor�ario) vazio e,conforme o algoritmo �e executado, s~ao inseridas caracter��sticas nesse conjunto, at�e queesse �que com tamanho m. J�a na abordagem para tr�as, inicia-se com um conjunto deavalia�c~ao contendo todas as caracter��sticas dispon��veis e, nas itera�c~oes do algoritmo, s~aoexclu��das caracter��sticas at�e que esse conjunto �que com o tamanhom. Em geral, podem-se dizer que os m�etodos para frente s~ao mais r�apidos que seus equivalentes para tr�as, poiso custo de medi�c~ao da fun�c~ao crit�erio em conjuntos de caracter��sticas grandes �e maior queo custo em conjuntos pequenos [Jain and Zongker, 1997]. Por�em, quando o valor de m �epr�oximo de N , deve-se dar preferencia �a utiliza�c~ao dos m�etodos para tr�as.

Abaixo apresentamos as de�ni�c~oes utilizadas nos trabalhos de [Pudil et al., 1994] e[Somol et al., 1999] na descri�c~ao dos m�etodos de busca seq�uenciais.

Seja Xk = fxi : 1 � i � k; xi 2 Yg um subconjunto de k caracter��sticas do conjuntoY = fyi : 1 � i � Ng das N caracter��sticas dispon��veis, o valor J(yi) da fun�c~ao crit�eriode sele�c~ao de caracter��sticas, quando somente a i-�esima caracter��stica yi, i = 1; 2; � � � ; Nfor utilizada, �e chamado de signi�cancia individual S0(yi) da caracter��stica.

A signi�cancia Sk�1(xj) da caracter��stica xj, j = 1; 2; � � � ; k no conjunto Xk �ede�nida por

Sk�1(xj) = J(Xk)� J(Xk � xj) (3.22)

A signi�cancia Sk+1(fj) da caracter��stica fj do conjunto Y � Xk, tal que Y � Xk =ffi : i = k + 1; k + 2; � � � ; N; fi 2 Y; fi 6= xl; 8xl 2 Xkg, em rela�c~ao ao conjunto Xk, �ede�nida por

Sk+1(fi) = J(Xk + fj)� J(Xk): (3.23)

Nota: para k = 0, o termo signi�cancia de uma caracter��stica no conjunto coincidecom o termo signi�cancia individual.

Dizemos que a caracter��stica xj do conjunto Xk �e:

1. a caracter��stica mais signi�cante (melhor) do conjunto Xk se

Sk�1(xj) = max1�i�k

Sk�1(xi)) J(Xk � xj) = min1�i�k

J(Xk � xi); (3.24)

2. a caracter��stica menos signi�cante (pior) do conjunto Xk se

Sk�1(xj) = min1�i�k

Sk�1(xi)) J(Xk � xj) = max1�i�k

J(Xk � xi): (3.25)


Dizemos que a caracter��stica fj do conjunto Y � Xk �e:

1. a caracter��stica mais signi�cante (melhor) em rela�c~ao ao conjunto Xk se

Sk+1(fj) = maxk+1�i�N

Sk+1(fi)) J(Xk + fj) = maxk+1�i�N

J(Xk + fi); (3.26)

2. a caracter��stica menos signi�cante (pior) em rela�c~ao ao conjunto Xk se

Sk+1(fj) = mink+1�i�N

Sk+1(fi)) J(Xk � fj) = mink+1�i�N

J(Xk + xi): (3.27)

Seja To genericamente uma tupla de o caracter��sticas, o valor da fun�c~ao crit�erio J(To),quando somente as caracter��sticas ti; i = 1; 2; � � � ; o; ti 2 To forem utilizadas, ser�a chamadosigni�cancia individual S0(To) da o-tupla de caracter��sticas.

A signi�cancia Sk�o(To) da o-tupla de caracter��sticas To = fti : 1 � i � o; ti 2Xkg no conjunto Xk �e de�nida por

Sk�o(To) = J(Xk)� J(Xk � To): (3.28)

A signi�cancia Sk+o(Uo) da o-tupla de caracter��sticas Uo = fui : 1 � i � o,ui 2 Y � Xkg no conjunto Y � Xk em rela�c~ao ao conjunto Xk �e de�nida por

Sk+o(Uo) = J(Xk[Uo)� J(Xk): (3.29)

Denotamos por T io a i-�esima tupla contida no conjunto de todas as � = (ko) o-tuplas

poss��veis de Xk; 1 � i � �. Pode-se dizer que a o-tupla de caracter��sticas T io do conjunto

Xk �e:

1. a o-tupla de caracter��sticas mais signi�cante (melhor) do conjunto Xk se

Sk�o(Tno ) = max

1�i��Sk�o(T

io )) J(Xk � T

no ) = min

1�i��J(Xk � T

io ); (3.30)

2. a o-tupla de caracter��sticas menos signi�cante (pior) do conjunto Xk se

Sk�o(Tno ) = min

1�i��Sk�o(T

io )) J(Xk � T

no ) = max

1�i��J(Xk � T

io ): (3.31)

Dizemos que a o-tupla de caracter��sticas Uo do conjunto Y � Xk �e:

1. a o-tupla de caracter��sticas mais signi�cante (melhor) em rela�c~ao ao con-junto Xk se

Sk+o(Uro ) = max

1�i�Sk+o(U

io)) J(Xk

[U ro ) = max

1�i�J(Xk

[U io); (3.32)

em que = (N�ko ) �e o n�umero de todas as o-tuplas poss��veis de Y � Xk;


2. a o-tupla de caracter��sticas menos signi�cante (pior) em rela�c~ao ao con-junto Xk se

Sk+o(Uro ) = min

1�i�Sk+o(U

io)) J(Xk

[U ro ) = min

1�i�J(Xk

[U io): (3.33)

Nota: para o = 1, todos os termos relacionados com o signi�cado de o-tuplas de ca-racter��sticas coincidem com os termos relacionados com a signi�cancia individual deuma caracter��stica.

A seguir apresentamos a descri�c~ao dos principais m�etodos de sele�c~ao de caracter��sticasdetermin��sticos de solu�c~ao �unica.

Melhores Caracter��sticas Individuais

O m�etodo de sele�c~ao de caracter��sticas pelas melhores caracter��ticas individuais con-siste na avalia�c~ao de todas as caracter��sticas tomadas individualmente e sele�c~ao das mmelhores. O algoritmo abaixo detalha esse m�etodo. Note que, para �m de facilitar aexposi�c~ao, o parametro k dos conjuntos X foi omitido nesse e nos pr�oximos algoritmos,pois o valor de k varia conforme a execu�c~ao dos algoritmos e os algoritmos podem serchamados com conjuntos de diferentes tamanhos.

BF(Y; m)X ;enquanto jX j < m fac�a

X XSf max1�i�N

S0(yi); 8yi =2 Xg

Retorne X

Como as caracter��sticas s~ao avaliadas individualmente, esse m�etodo n~ao �e classi�cadonem como para frente, nem como para tr�as. Trata-se de um m�etodo bastante intuitivoe computacionalmente simples, mas que n~ao garante que o melhor subconjunto seja de-terminado, pois algumas caracter��sticas podem ser boas tomadas individualmente, maspodem formar um conjunto ruim quando associadas entre si. Outros detalhes sobre essem�etodo encontram-se em [Jain and Zongker, 1997, Theodoridis and Koutroumbas, 1999]

Busca Seq�uencial para Frente (SFS)

O m�etodo de busca seq�uencial para frente, como o pr�oprio nome diz, �e um m�etodobotton-up. Dado um conjunto de caracter��sticas j�a selecionadas (inicialmente nulo), a ca-da itera�c~ao �e seleciona a caracter��stica que, unida ao conjunto determinado pela itera�c~aoanterior, produz o melhor resultado da fun�c~ao crit�erio. Essa caracter��stica �e adicionadaao conjunto de caracter��sticas anterior e uma nova itera�c~ao �e realizada. S~ao realizadas mitera�c~oes. O algoritmo a seguir detalha esse processo, devem-se assumir que inicialmente


X ;.

SFS(Y;X ; m)enquanto jX j < m fac�a

X XSf max1�j�N

Sk+1(fj); 8fj =2 Xg

Retorne X

Observa-se que a instru�c~ao X ; n~ao foi inclu��da no algoritmo da fun�c~ao SFS(�),pois essa fun�c~ao ser�a utilizada posteriormente para conjuntos n~ao vazios. Isso repetir-se-�ana fun�c~ao SBS(�) a seguir.

A desvantagem desse m�etodo �e que, uma vez que uma caracter��stica tenha sido sele-cionada, ela n~ao pode ser descartada do subconjunto �otimo, o que pode proporcionar ochamado efeito nesting. O efeito nesting ocorre quando o subconjunto �otimo n~ao cont�emelementos do conjunto j�a selecionado, o que impossibilita que seja obtido o conjunto decaracter��sticas �otimo.

A principal vantagem da busca seq�uencial para frente �e o custo computacional quan-do se deseja obter conjuntos pequenos em rela�c~ao ao total de caracter��scias. Outrosdetalhes a respeito desses m�etodos podem ser encontrados em [Jain and Zongker, 1997,Theodoridis and Koutroumbas, 1999].

Busca Seq�uencial para Tr�as (SBS)

O algoritmo de busca seq�uencial para tr�as �e uma vers~ao top-down do algoritmo anteri-or. A diferen�ca entre SBS e SFS �e que o SBS �e iniciado com o conjunto de caracter��sticascompleto (contendo todas as N caracter��sticas) e vai eliminando as menos importantes,ou seja, as que menos alteram a fun�c~ao crit�erio quando s~ao eliminadas. O algoritmo aseguir detalha esse processo, devem-se assumir que inicialmente X Y.

SBS(X ; m)enquanto jX j > m fac�a

X X � f min1�j�k

Sk�1(xj); 8fj =2 Xkg

Retorne X

Assim como o m�etodo de busca seq�uencial para frente, a desvantagem desse m�etodo�e que, uma vez eliminada uma caracter��stica, ela n~ao retornar�a ao subconjunto �otimonovamente. Como conseq�uencia, tamb�em pode ocorrer o efeito nesting caso o melhorsubconjunto contenha alguma das caracter��sticas que foram eliminadas.

A principal vantagem desse m�etodo �e o custo computacional, quando se deseja ob-ter conjuntos grandes em rela�c~ao ao total de caracter��sticas. Outros detalhes sobre essem�etodo encontram-se em [Jain and Zongker, 1997, Theodoridis and Koutroumbas, 1999].


Mais l - Menos r (PTA) [Somol et al., 1999, Theodoridis and Koutroumbas, 1999]

O m�etodo mais l - menos r, cujo nome original �e \Plus l - Take Away r" (PTA),foi criado visando a evitar o efeito nesting. Basicamente, em cada itera�c~ao, primeiro oalgoritmo adiciona l elementos ao conjunto de caracter��sticas usando o m�etodo de sele�c~aopara frente (SFS) e, posteriormente, elimina r caracter��sticas usando a busca seq�uencialpara tr�as (SBS). Os valores de l e r devem ser determinados pelo usu�ario. Na vers~aobotton-up, l deve ser maior que r. J�a na vers~ao top-down, l < r. Segue o algoritmo quedetalha esse processo:

PTA(Y; m; l; r)se l > r ent~aoX ;enquanto jX j < m fac�a

X SFS(Y;X ; jX j+ l)X SBS(X ; jX j � r)

sen~ao

se l < r ent~aoX Yenquanto jX j > m fac�a

X SBS(X ; jX j � r)X SFS(Y;X ; jX j+ l)

sen~ao

Retorne ERRO!

Retorne X

Conforme mencionado, esse m�etodo de busca evita o problema de nesting, mas com elesurge um novo problema: a determina�c~ao dos valores de l e r. Se forem tomados valoresmuito pequenos, �e poss��vel que o problema nesting n~ao seja evitado. Por outro lado, seos valores de l e r forem muito grandes, o algoritmo torna-se muito lento.

Algoritmos de Busca Seq�uencial Generalizada (GSFS e GSBS) [Somol et al., 1999,Theodoridis and Koutroumbas, 1999]

Os algoritmos de busca seq�uencial generalizada inserem (no caso do GSFS) ou remo-vem (no caso do GSBS) tuplas (subconjuntos) de caracter��sticas ao inv�es de o fazerem comapenas uma caracter��stica por itera�c~ao. Para possibilitar o funcionamento dos algoritmosgeneralizados, devem-se utilizar fun�c~oes que determinam a signi�cancia de tuplas.

Os dois algoritmos de busca generalizada mais conhecidos s~ao os seguintes:


1. GSFS: essa �e a vers~ao generalizada do algoritmo SFS. Devem-se assumir que inici-almente X ;

GSFS(Y;X ; m; o)enquanto jX j < m fac�a

X XSfmax1�i�

Sk+o(Uio)

Retorne X

2. GSBS: essa �e a vers~ao generalizada do algoritmo SBS. Devem-se assumir que ini-cialmente X Y

GSBS(X ; m; o)enquanto jX j > m fac�a

X X � f min1�i��

Sk�o(Tio )

Retorne X

Al�em desses algoritmos, h�a tamb�em uma vers~ao generalizada do algoritmo PTA, emque, para cada passo, ao inv�es de serem inseridas ou exclu��das caracter��sticas individuais,s~ao avaliadas tuplas de tamanho de�nido pelo usu�ario (para frente e para tr�as). Esse algo-ritmo proporciona resultados muito pr�oximos do resultado �otimo, mas seu custo computa-cional pode torn�a-lo proibitivo em conjuntos de caracter��sticas grandes [Pudil et al., 1994].

Como esses algoritmos inserem ou removem tuplas de caracter��sticas ao inv�es de ca-racter��sticas individuais, a probabilidade de ocorrer o efeito nesting �e reduzida. Por�em,o problema da escolha do tamanho dessas tuplas (o) �e fundamental para a obten�c~ao doequil��brio entre tempo de execu�c~ao e qualidade dos resultados. Quando o tamanho dastuplas for muito grande, o algoritmo torna-se muito lento. Por outro lado, quando essevalor for pequeno, os resultados se aproximam das vers~oes n~ao generalizadas desses algo-ritmos.

M�etodos de Busca Seq�uencial Flutuante (SFSM)

Os m�etodos de busca seq�uencial utuante para frente e para tr�as, propostos em[Pudil et al., 1994] podem ser vistos como generaliza�c~oes do m�etodo mais l - menos r, emque os valores de l e r s~ao determinados e atualizados dinamicamente. Como os pr�opriosnomes dizem, o m�etodo de busca para frente (SFFS) �e a vers~ao botton-up, enquanto o debusca para tr�as (SFBS), top-down.

O uxograma da �gura 3.14 resume o funcionamento da vers~ao para frente dessealgoritmo. A seguir, apresentamos o algoritmo em sua forma completa. Para tornarmais clara a exposi�c~ao, �e suposto que k caracter��sticas j�a foram selecionadas do conjuntocompleto de caracter��sticas Y = fyjjj = 1; 2; � � � ; Ng para formar o conjunto Xk com acorrespondente fun�c~ao crit�erio J(Xk). Por�em, esse algoritmo deve iniciar-se com k = 0e X = ;. Adicionalmente, os valores de J(Xi) de todos os subconjuntos precedentes de


Esse é o melhor

de tamanhok−1 ?

subconjunto

Apliqueum passo

do algoritmoSFS

Faça

k = 0

Faça

k = k + 1k = m +

?

Nãouma característica aplicando

Exclua condicionalmente

um passo do algoritmo SBS

PARE

Sim

Façak = k −1

que foi excluída condicionalmenteDevolva a característica

que foi excluída condicionalmenteElimine a característica

Não

Sim

Figura 3.14: Fluxograma simpli�cado do algoritmo SFFS. Adaptada de

[Jain and Zongker, 1997].

tamanho i = 1; 2; � � � ; k � 1, s~ao conhecidos e foram armazenados.

SFFS(Y;X ; m)1:Xk+1 SFS(Y;Xk; k + 1)se k = m+ Æ ent~aoRetorne Xm

2:se J(Xk) � J(Xk+1 � xj); 8j = 1; 2; � � � ; k ent~aok k + 1V�a ao passo 1

se 9xr; 1 � r � k : J(Xk+1 � xr) > J(Xk) ent~aoX 0k Xk+1 � xr

Note que, neste ponto, J(X 0k) > J(Xk)

se k = 2 ent~aoXk X 0

k

J(Xk) J(X 0k)

Retorne ao passo 1

3:X 0k�1 SBS(X 0

k; k � 1)se J(X 0

k�1) � J(Xk�1) ent~aoXk X 0

k

J(Xx) J(X 0k)

V�a ao passo 1

se J(X 0k�1) > J(Xk�1) ent~ao


k K � 1

se k = 2 ent~aoXk X

0k

J(Xk) J(X 0k)

V�a ao passo 1

sen~ao

Repita o passo 3

Pode-se notar que a condi�c~ao de parada �e que jXkj = m + Æ, em que Æ �e um valor detolerancia que �e utilizado para que o algoritmo n~ao pare na primeira vez em que o conjuntoXk tenha tamanho m, pois o problema de nesting s�o pode ser evitado se forem realizadosc�alculos com Xk+1. Normalmente utiliza-se um valor pequeno para Æ (por exemplo, Æ � 3).

A vers~ao top-down desse algoritmo (SFBS) �e bastante an�aloga a esse, diferenciando-sesomente na ordem em que os algoritmos SFS e SBS s~ao executados e em alguns crit�eriosde avalia�c~ao dos conjuntos. Obviamente, no SFBS, inicia-se com k = N .

Esses m�etodos proporcionam solu�c~oes muito pr�oximas da solu�c~ao �otima com um peque-no custo computacional. Segundo Jain et al. [Jain and Zongker, 1997, Jain et al., 2000],esses s~ao os m�etodos que melhor combinam tempo de execu�c~ao com qualidade dos resul-tados.

M�etodos Adaptativos de Busca seq�uencial utuante [Somol et al., 1999] (ASFSM)

Os m�etodos adaptativos de busca seq�uencial utuante para frente e para tr�as (ASFFS eASFBS) foram constru��dos como uma evolu�c~ao dos m�etodos de busca seq�uencial utuante(SFSM) de forma a tornar o algoritmo generalizado, adicionando-se ou removendo-setuplas de caracter��sticas, ao inv�es de caracter��sticas individuais.

Tomando-se o algoritmo SFFS como exemplo, podem-se notar que somente os passospara tr�as s~ao condicionais e somente esses permitem que o conjunto de caracter��sticasde um determinado tamanho seja melhorado. Por outro lado, os passos para frente n~aopodem ser condicionais, pois se eles fossem, o algoritmo poderia teoricamente cair em umciclo in�nito (repetindo a adi�c~ao condicional e remo�c~ao condicional de caracter��sticas).Por n~ao serem condicionais, os passos para frente podem encontrar um subconjunto que�e pior que o melhor de uma certa dimens~ao encontrado em itera�c~oes anteriores.

Para eliminar esse problema, se o passo para frente encontrar um subconjunto que �epior que o melhor de todos encontrado em um passo anterior, deve-se descartar o subcon-junto atual e considerar o melhor subconjunto como o conjunto atual. Essa troca violentaentre o conjunto atual e o melhor conjunto encontrado n~ao proporciona um ciclo in�nito,pois esse caso s�o ocorre quando o melhor conjunto de caracter��sticas foi encontrado emum passo para tr�as.

Os m�etodos ASFSM (adaptativos seq�uenciais utuantes) n~ao s~ao simples generali-


za�c~oes dos m�etodos SFSM, pois, al�em de inserirem ou exclu��rem tuplas de caracter��sticasem seus passos, o tamanho dessas tuplas tamb�em �e determinado dinamicamente. S~aorealizados testes com tuplas de v�arios tamanhos para determinar-se a solu�c~ao, mas, pa-ra limitar o tempo de execu�c~ao do algoritmo, o usu�ario deve de�nir o tamanho m�aximoabsoluto das tuplas, rmax. Para tornar o algoritmo mais e�ciente, h�a um mecanismo quefaz com que o tamanho das tuplas seja inversamente proporcional �a distancia entre o ta-manho do conjunto sendo avaliado no passo atual (conjunto atual) e o tamanho �nal m.Assim, quando os conjuntos sendo avaliados s~ao muito menores ou muito maiores que m,o ASFM �e mais r�apido, pois s~ao inseridas ou exclu��das tuplas menores de caracter��sticas.Com isso, o algoritmo chega mais r�apido a um conjunto atual de tamanho pr�oximo dem e vai aumentando a precis~ao da busca. Um outro parametro que deve ser de�nidopelo usu�ario �e b, o qual �e usado para determinar a rela�c~ao entre o tamanho do conjuntoatual e o tamanho m�aximo das tuplas. Assim, os parametros b, rmax e m s~ao utilizadospara determinar o tamanho m�aximo das tuplas para a busca no conjunto atual, sendo ro tamanho atual da tupla. O algoritmo a seguir descreve como r �e calculado durante aexecu�c~ao do ASFSM:

se jk �mj < b ent~aor rmax

sen~ao

se jk �mj < b+ rmax ent~ao

r rmax + b� jk �mjsen~ao

r 1

A determina�c~ao dos valores de b e rmax n~ao �e autom�atica. Por�em esses parametros n~aos~ao t~ao cr��ticos em rela�c~ao �a execu�c~ao do m�etodo e de seus resultados quando comparadoscom os parametros o (tamanho das tuplas, no caso dos algoritmos generalizados tradici-onais), l e r (no caso do m�etodo PTA). Uma caracter��stica importante desse m�etodo �eque, se rmax = 1, ele �e executado exatamente da mesma maneira que os m�etodos SFSM,o que faz com que a desigualdade a seguir seja sempre v�alida:

J(XASFMm ) � J(X SFSM

m ); (3.34)

em que XASFMm e X SFSM

m s~ao, respectivamente, o subconjunto obtido com o m�etodo ASFMe o subconjunto obtido com o m�etodo SFSM. Por outro lado, o limite inferior do tempode execu�c~ao do ASFM �e igual ao tempo de execu�c~ao do m�etodo SFSM. Quando o valorde b e rmax s~ao grandes e quando N �e grande e m possui um valor pr�oximo de N=2, otempo de execu�c~ao do ASFSM pode ser muito grande se comparado com SFSM . Casocontr�ario, o tempo de execu�c~ao �e menor. Maiores detalhes sobre esse m�etodo podem serencontrados em [Somol et al., 1999].

Na se�c~ao 5.2.1 e no artigo [Campos et al., 2000c], mostramos os testes e resultados


obtidos da compara�c~ao desses dois m�etodos para um problema de sele�c~ao de caracter��sticascom dados reais.

Recentemente, o grupo de pesquisa de Pudil (Academy of Sciences of the Czech Re-public), criador dos m�etodos SFSM e ASFSM, propos novos algoritmos de busca parasele�c~ao de caracter��sticas [Kittler et al., 2001]. Dentre eles, os principais m�etodos s~ao osseguintes:

� Busca oscilat�oria [Somol and Pudil, 2000]: Esse m�etodo faz a busca sem que sejanecess�ario de�nir um sentido (para frente ou para tr�as). A inicializa�c~ao �e feitacom um conjunto de caracter��sticas de tamanho m, que �e o tamanho do conjuntodesejado. S~ao executadas inser�c~oes e remo�c~oes de caracter��sticas para maximizar afun�c~ao crit�erio. Para isso, s~ao utilizados outros m�etodos de busca, como os m�etodosseq�uenciais, os utuantes ou o m�etodo exaustivo. A escolha desses m�etodos dependeda rela�c~ao entre qualidade dos resultados e tempo de execu�c~ao desejados. A buscapode ser restringida por um limite de tempo, caso o m�etodo seja aplicado a sistemasde tempo real. Os autores mostraram que, na maioria dos casos, os m�etodos de buscaoscilat�oria proporcionaram resultados melhores que os outros m�etodos sub-�otimosexistentes [Kittler et al., 2001].

� Fast Branch and Bound [Somol et al., 2000, Somol et al., 2001]: O algoritmor�apido de branch and bound baseia-se em um mecanismo de predi�c~ao o qual per-mite que os mesmos resultados que o branch and bound sejam obtidos com umn�umero menor de computa�c~oes da fun�c~ao crit�erio em n�os internos da �arvore. Infor-ma�c~oes sobre a contribui�c~ao individual das caracter��sticas s~ao computadas durantea execu�c~ao do algoritmo. A predi�c~ao opera individualmente dependente de ca-racter��sticas particulares e do contexto da busca na �arvore. Os experimentos dosautores [Kittler et al., 2001] mostraram que o tempo de execu�c~ao desse algoritmo �emenor que o de todas as outras vers~oes do m�etodo Branch and Bound existentes.

Como esses m�etodos s~ao muito recentes, eles n~ao foram incorporados no conjunto de expe-rimentos de sele�c~ao de caracter��sticas realizados no decorrer deste trabalho de mestrado.

3.3.3 Fun�c~oes crit�erio

Conforme mencionado anteriormente, uma das partes mais importantes na redu�c~ao dadimencionalidade �e a escolha de uma fun�c~ao crit�erio. Em sele�c~ao de caracter��sticas, oobjetivo das fun�c~oes crit�erio �e minimizar o erro de classi�ca�c~ao. Dessa forma, dado umconjunto de caracter��sticas X , um exemplo de fun�c~ao crit�erio �e: J(X ) = 1 � E(X ),sendo E a probabilidade de erro de um classi�cador usando X como conjunto de carac-ter��sticas. Essa probabilidade de erro pode ser determinada atrav�es da taxa de acerto


de um classi�cador ou da distancia entre as classes de padr~oes de treinamento no es-pa�co de caracter��sticas. A seguir, ser~ao descritas suscintamente algumas fun�c~oes crit�erioconhecidas.

Desempenho de um Classi�cador

Um crit�erio amplamente utilizado �e o de erro de classi�ca�c~ao com a utiliza�c~ao de umsubconjunto de caracter��sticas. Basicamente, quando n~ao se disp~oe de informa�c~oes arespeito da distribui�c~ao dos dados, utilizam-se os padr~oes de treinamento e de teste noespa�co determinado pelo conjunto de caracter��sticas para avaliar um classi�cador. Ataxa de acerto �e utilizada como fun�c~ao crit�erio, de forma que, quanto maior a taxa dereconhecimento, melhor �e o conjunto de caracter��sticas.

Segundo [Kohn, 1998], deve-se tomar o cuidado de n~ao empregar o conjunto de trei-namento e de testes utilizado no processo de sele�c~ao de caracter��sticas (ou projeto doclassi�cador) para estimar a probabilidade de erro do classi�cador ap�os a sele�c~ao de ca-racter��sticas. Caso isso seja feito, o classi�cador estar�a ajustado especi�camente para oconjunto padr~oes utilizado em seu projeto, e a estimativa da probabilidade de erro ser�amuito otimista.

Outro ponto do qual se deve tomar cuidado �e evitar o problema da dimensionalidade.Assim, �e necess�ario que seja utilizado um conjunto de treinamento grande o su�cientepara que a qualidade da estimativa da taxa de erro seja boa.

Basicamente, essa abordagem possui dois problemas. O primeiro �e que o erro declassi�ca�c~ao, por si s�o, n~ao pode ser con�avelmente estimado quando a raz~ao entre otamanho do conjunto de exemplos e o do conjunto de caracter��sticas for pequena (videse�c~ao 2.3). O segundo e principal problema dessa abordagem �e que a escolha de umclassi�cador �e um problema por si s�o, e o subconjunto selecionado ao �nal claramentedepende do classi�cador [Jain et al., 2000].

Nas se�c~oes 5.2.1 (publicada em [Campos et al., 2000c]) e 5.3.1 (com parte dos resulta-dos publicados em [Campos and Cesar-Jr, 2001]), est~ao descritos experimentos de sele�c~aode caracter��sticas utilizando fun�c~oes crit�erio baseadas em desempenho de classi�cadores.

Distancias entre Classes

Visando a otimizar o conjunto de caracter��sticas para minimizar a probabilidade de er-ro independentemente de classi�cadores espec��cos, deve-se maximizar a distancia entrepadr~oes de classes diferentes no espa�co de caracter��sticas.

Quando se disp~oe de um conjunto de amostras treinamento para cada classe, pode-sesupor que tal conjunto possui uma boa representa�c~ao das mesmas e estimar a distanciaentre as classes. Considerando um espa�co m�etrico , uma distancia ou m�etrica �e uma


fun�c~ao d : � ! IR+ que deve obedecer as seguintes condi�c~oes [Lima, 1970]:

1. (a) 8! 2 : d(!; !) = 0;

(b) 8!i; !j 2 : d(!i; !j) = 0) !i = !j

2. 8!i; !j 2 : d(!i; !j) = d(!j; !i);

3. 8!i; !j; !l 2 : d(!i; !j) � d(!i; !l) + d(!j; !l);

H�a v�arias formas de medir-se a distancia entre conjuntos de classes diferentes no es-pa�co de caracter��sticas. Dentre elas, pode-se citar [Theodoridis and Koutroumbas, 1999,Kohn, 1998]:

� Distancia entre os centr�oides das classes: Para calcular essa medida, bastadeterminar os centr�oides das classes e medir a distancia entre eles.

� Distancia entre vizinhos mais pr�oximos, mais distantes e m�edia: No c�alculodessas distancias, devemos considerar, respectivamente, o m��nimo, o m�aximo ou am�edia das distancias entre os padr~oes de treinamento de duas classes diferentes;

� Distancias baseadas em matrizes de espalhamento: Essas distancias utilizammedidas de separabilidade baseadas em an�alise de discriminantes. Na se�c~ao 3.2.3(equa�c~oes 3.19 e 3.20), h�a uma breve descri�c~ao de matrizes de espalhamento.

� Distancia de Mahalanobis: A distancia de Mahalanobis (equa�c~ao 2.17) pode serutilizada para medir a distancia entre classes de padr~oes. Isso pode ser feito atrav�esda soma ou da m�edia da distancia entre todos os padr~oes de duas classes diferentes.

� Distancia de Bhattacharyya e divergencia. Essas s~ao distancias baseadas nasfun�c~oes densidade de probabilidade das classes, de forma que a distancia espacialentre os conjuntos n~ao �e considerada, mas sim a diferen�ca entre a forma deles.

� Distancias nebulosas. As distancias nebulosas s~ao medidas que utilizam infor-ma�c~oes obtidas a partir da fuzzy�ca�c~ao dos conjuntos, como os suportes dos conjun-tos e os coe�cientes de pertinencia dos padr~oes. Em [Bloch, 1999], h�a uma revis~aobastante completa de distancias nebulosas aplicadas a processamento de imagens.Em [Campos et al., 2001], foi utilizada uma distancia nebulosa como fun�c~ao crit�eriode um algoritmo de sele�c~ao de caracter��sticas. Os resultados obtidos com essa abor-dagem est~ao descritos na se�c~ao 3.4.

�E importante lembrar que uma distancia (ou m�etrica) �e de�nida somente para entredois elementos, ou seja, n~ao se pode medir a distancia entre tres ou mais classes. Por�em,na maioria dos problemas de reconhecimento de padr~oes reais, tem-se mais de duas classes.Por isso, ao efetuar sele�c~ao de caracter��sticas com base em alguma distancia, �e necess�ario

3.4 M�etodo Proposto para Sele�c~ao de Caracter��sticas 61

de�nir uma fun�c~ao crit�erio que possa avaliar a separabilidade entre todas as classes de umamaneira global. Para a maioria das distancias citadas acima, isso pode ser feito atrav�esde opera�c~oes simples como a soma, a m�edia ou o ��n�mo dos resultados obtidos para todosos pares de conjuntos (classes) existentes. Na se�c~ao 5.3 est�a descrita uma fun�c~ao crit�eriopara v�arias classes inspirada na distancia descrita na se�c~ao 3.4. Maiores detalhes e in-forma�c~oes sobre outras medidas de distancia (ou m�etricas) podem ser encontrados em[Kohn, 1998, Theodoridis and Koutroumbas, 1999, Duda and Hart, 1973, Bloch, 1999].

3.4 M�etodo Proposto para Sele�c~ao de Caracter��sticas

Nesta se�c~ao, apresentamos uma das principais contribui�c~oes desta disserta�c~ao de mestra-do. Trata-se de um trabalho que foi desenvolvido em coopera�c~ao com a pesquisadoraIsabelle Bloch (Ecole Nationale Sup�erieure des T�el�ecommunications - Paris) e publica-do em [Campos et al., 2001]. Inicialmente ser�a descrito o problema e introduzidos osconjuntos nebulosos, pois nossa abordagem se baseia em uma distancia nebulosa. Poste-riormente, nosso m�etodo de sele�c~ao, suas propriedades e os experimentos realizados comesse ser~ao descritos.

3.4.1 Descri�c~ao do Problema

As medidas de distancia entre agrupamentos ou classes geralmente utilizadas como fun�c~aocrit�erio para sele�c~ao de caracter��stica s~ao mais adequadas a conjuntos convexos, tendendoa privilegiar conjuntos linearmente separ�aveis (por exemplo, a distancia de Mahalano-bis). O problema �e que, com esses crit�erios de distancia, n~ao �e poss��vel detectar bonsagrupamentos concavos ou com m�edias pr�oximas, como o exemplo da �gura 3.12, emque a distribui�c~ao dos padr~oes de uma classe se encontra no interior da de outra classe,embora as distribui�c~oes das classes n~ao se interceptem. Nesse caso, mesmo que os doisagrupamentos estejam bem de�nidos, possibilitando a obten�c~ao de boas taxas de reco-nhecimento com um classi�cador de K vizinhos mais pr�oximos, di�cilmente uma fun�c~aocrit�erio comum baseada em distancia identi�caria o potencial desses agrupamentos.

Visando a evitar esse problema, criamos uma fun�c~ao crit�erio baseada em uma medidade distancia que, juntamente com o algoritmo de sele�c~ao de caracter��sticas, maximiza adistancia entre padr~oes que pertencem a classes diferentes e minimiza a distancia entreelementos que pertencem �a mesma classe. Isso �e feito independentemente da forma dadistribui�c~ao dos padr~oes no espa�co de caracter��sticas.

Ap�os um estudo de diversas m�etricas entre conjuntos nebulosos, com base no artigo[Bloch, 1999], constatamos que uma medida que possui as propriedades desejadas �e a


distancia4 nebulosa baseada em tolerancia, proposta em [Lowen and Peeters, 1998]. Nes-sa medida, a distancia �e determinada atrav�es de uma vizinhan�ca em torno de cada padr~aode treinamento.

3.4.2 Conjuntos Nebulosos

A l�ogica nebulosa foi criada com inspira�c~ao no comportamento humano, que se baseiana interpreta�c~ao do mundo sem precis~ao e na descri�c~ao desse por atributos ling�u��sticos.Dessa forma, a rela�c~ao de pertinencia entre elementos e um conjunto nebuloso n~ao �ebin�aria (pertence/n~ao-pertence), mas assume um valor real.

Formalmente, seja F um espa�co Cartesiano representando um espa�co de caracter��sticasou o espa�co de imagens (usualmente ZZN ou IRN); seja x1;x2;x3; � � � ;xn vari�aveis espaci-ais, ou padr~oes no espa�co F ; um objeto crisp (n~ao nebuloso) �e, usualmente, um subcon-junto de F . Um objeto nebuloso �e de�nido bi-univocamente pela fun�c~ao de pertinencia deum objeto crisp, denotada por �. Uma fun�c~ao de pertinencia que caracteriza um objetonebuloso �e portanto uma fun�c~ao � : F ! [0; 1]. Para cada x em F , �!i(x) �e um valor em[0; 1] que representa o grau de pertinencia de x ao conjunto nebuloso !i. Denotamos porC o conjunto de todos os conjuntos nebulosos de�nidos em F [Bloch, 1999].

As fun�c~oes de pertinencia podem ser criadas com base na rela�c~ao entre cada elementoe o(s) suporte(s) dos conjuntos. Um suporte p

!ji da classe !i �e um ponto em F tal

que �!i(p!ji ) = 1. Assim, os suportes de uma classe s~ao os pontos mais t��picos dessa.

Um suporte pode ser determinado, por exemplo, pelo ponto m�edio da distribui�c~ao dospadr~oes de uma classe (caso haja somente um suporte por classe). Os suportes de�nemas regi~oes de uma classes que possuem maior tipicalidade, ou seja, regi~oes que s~ao maisrepresentativas dessa classe. Por isso, geralmente as fun�c~oes de pertinencia retornamvalores maiores quanto maior a proximidade entre os padr~oes e os suportes de uma classe.

Maiores detalhes a respeito de conjuntos nebulosos, classi�ca�c~ao com l�ogica fuzzy(nebulosa) e aplica�c~oes podem ser encontrados no livro [Dubois et al., 1997] e na te-se [Bonventi-Jr. and Costa, 2000]. No presente trabalho, o uso de conjuntos nebulososaplica-se �a fun�c~ao crit�erio utilizada em um algoritmo de sele�c~ao de caracter��sticas.

3.4.3 Fuzzy�ca�c~ao

Para se utilizar essa distancia como fun�c~ao crit�erio deve-se, inicialmente, transformaros conjuntos de treinamento em conjuntos nebulosos (fuzzy). Esse processo �e chamadofuzzy�ca�c~ao. Seja um padr~ao x e uma classe de padr~oes !, a fun�c~ao de fuzzy�ca�c~ao

4Conforme ser�a explicado posteriormente, na realidade essa medida n~ao �e uma distancia, �e uma semi-pseudo-m�etrica.


utilizada �e de�nida como:

�!(x) =

(1

1+d(x;p!j );x 2 !;

0;x =2 !;(3.35)

para j = 1; 2; � � � ;P, em que x �e um padr~ao, �!(x) �e a fun�c~ao de pertinencia desse padr~aoao conjunto !, p!j representa o j-�esimo suporte da classe ! e d(�) �e a distancia Euclidiana,sendo P o n�umero de suportes dispon��veis para cada classe. Em nossos testes, foi utilizadosomente um suporte por classe, o qual foi de�nido pelo baricentro do conjunto !i. Dessaforma, a fun�c~ao de pertinencia �e inversamente proporcional �a distancia do padr~ao aocentr�oide de cada classe.

3.4.4 Semi-pseudo-m�etrica baseada em Tolerancia

Para de�nir a distancia fuzzy baseada em tolerancia, inicialmente de�ne-se uma distancialocal:

d�x(�!i ; �!j) = inf

y;z2B(x;�)j�!i(y)� �!j (z)j; (3.36)

em que B(x; �) denota uma hiperesfera de dimen�c~ao N , com raio � centrada em x. Essahiperesfera �e chamada \bola". O parametro � �e chamado tolerancia dessa distancia.Assim, de�ne-se a distancia fuzzy baseada em tolerancia por [Lowen and Peeters, 1998]:

d�p(�!i ; �!j) = [

ZF

[d�x(�!i; �!j )]

pdx]1=p; (3.37)

em que F representa todo o espa�co de caracter��sticas.

Uma medida que n~ao satisfaz a condi�c~ao 1(b) mensionada na de�ni�c~ao de distancia(p�agina 59) �e chamada de pseudo-m�etrica [Lima, 1970]. Os criadores da medida descritaanteriormente chamam-na de semi-psedo-m�etrica baseada em tolerancia, pois as condi�c~oes1(b) e 3, especi�cadas na de�ni�c~ao de m�etrica podem falhar (ver [Lowen and Peeters, 1997]para maiores detalhes). Essa medida de distancia, juntamente com o processo de fuzzi-�ca�c~ao descrito anteriormente, foram utilizados como uma fun�c~ao crit�erio para efetuarsele�c~ao de caracter��sticas. Em nossos experimentos, utilizamos p = 2.

3.4.5 Algoritmo e complexidade

Para efetuar o c�alculo dessa medida de distancia, propusemos o seguinte algoritmo:

DistanciaFuzzy (p; �; �!m; �!n)S 0


T !m + !n1:para i de 1 at�e jT j fac�aCompute todos os padr~oes que pertencem a B(xi; �) na estrutura de

dados BE

2:para i de 1 at�e jT j fac�aS S + [Diferenc�aLocal(xi; �; �!m; �!n ; BE)]

p

Retorne S1=p

Sendo que a diferen�ca local �e calculada atrav�es do seguinte algoritmo:

Diferenc�aLocal(xi; �; �!m; �!n; BE)Dmin Maior n�umero inteiro poss��vel

b N�umero de padr~oes na bola B(xi; �)1:para i de 2 at�e b fac�a

2:para j de 1 at�e i fac�aD j�!m(xi)� �!n(xj)j

se Dmin > D ent~ao

Dmin D

Retorne Dmin

Pode-se mostrar que a complexide da instru�c~ao 1 do algoritmo DistanciaFuzzy �ede O(jT j2) e a complexidade da instru�c~ao 2 �e de O(jT j) � O(Diferenc�aLocal). Emrela�c~ao ao algoritmoDiferenc�aLocal, a complexidade do la�co 1 e 2 �e de O(b2). Assim,supondo que 8x 2 T o n�umero de padr~oes nas bolas B(x; �) �e b e a complexidade doalgoritmo DistanciaFuzzy �e de O(jT j2) +O(jT j) �O(b2).

Assim, no melhor caso (em termos de tempo de execu�c~ao), se � for t~ao pequenoque B(x; �) contenha apenas x, 8x 2 T , a complexidade desse algoritmo ser�a O(jT j2) +O(jT j) = O(jT j2). No pior caso, se � for t~ao grande que B(x; �) contenha todos ospadr~oes de jT j, a complexidade desse algoritmo ser�a O(jT j2)+O(jT j) �O(jT j2) = O(jT j3).


3.4.6 Considera�c~oes Sobre o Comportamento da Fun�c~ao Crit�erio

Nesta se�c~ao, ser~ao discutidas as principais propriedades dessa abordagem, as quais nosmotivaram a utiliza-la em sele�c~ao de caracter��sticas. Tais propriedades se relacionamcom a distancia entre os suportes (prot�otipos) das classes diferentes e com o qu~ao osconjuntos s~ao compactos (compacidade). Cada parametro das equa�c~oes 3.36 e 3.37 ser�adiscutido isoladamente, sendo posteriormente analisados os resultados da integra�c~ao des-ses parametros nessas equa�c~oes. Para facilitar a ilustra�c~ao dos casos, os resultados a seremmencionados em rela�c~ao a compacidade s~ao v�alidos para conjuntos (classes de padr~oes)com distribui�c~oes aproximadamente isotr�opicas. As considera�c~oes a respeito dadistancia entre os prot�otipos tamb�em s~ao v�alidas para conjuntos de padr~oes com distri-bui�c~oes normais. Posteriormente h�a uma discuss~ao considerando casos gen�ericos.

1. Compacidade. Fixando-se a distancia entre os prot�otipos de classes diferentes e oraio da bola � , quando a distribui�c~ao de uma classe !i for compacta (possuir com-pacidade grande), para a maioria dos padr~oes xi 2 !i, os valores de �!i(xi) ser~aograndes, pois o grau de pertinencia de um padr~ao a sua classe �e inversamente pro-porcional �a distancia entre esse e o prot�otipo dessa classe. Caso contr�ario (quandoa compacidade da classe for grande), os valores de �!i(xi) ser~ao pequenos para amaioria dos padr~oes xi : xi 2 !i.

2. Distancia entre os prot�otipos. Seja !i e !j duas classes e x, y, z padr~oes comy 2 !i e z 2 !j, x 2 !i

S!j, �xando-se a compacidade da distribui�c~ao das classes

de padr~oes e o raio da bola � , quando a distancia entre os prot�otipos de classesdiferentes for grande, ser�a mais prov�avel que um dado padr~ao x esteja pr�oximo doprot�otipo de uma classe e distante de outra. Sendo p!i o prot�otipo que se encontramais pr�oximo do padr~ao x e p!j o prot�otipo que se encontra mais distante do padr~aox, o valor de �!i(y) ser�a grande, e o valor de �!j (z) ser�a pequeno (para y 2 !i ez 2 !j). Com isso, a diferen�ca j�!i(y) � �!j (z)j ser�a grande. Se isso ocorrer namaioria dos padr~oes dentro da bola B(x; �), o valor de d�

xser�a grande. Como

isso provavelmente ocorrer�a para a maioria dos padr~oes, o valor total da distanciad�p(�!i; �!j ) ser�a grande. Caso a distancia entre os prot�otipos de classes diferentesseja pequena, seguindo o mesmo racion��cio, conclui-se que o valor de d�p(�!i; �!j )ser�a pequeno.

3. Tamanho da bola. Fixando-se a distancia entre os prot�otipos e a compacidade,devemos considerar dois casos:

� Quando for utilizada uma bola muito pequena, para todos os padr~oes x, a bolaB(x; �) ir�a conter somente os padr~oes da classe de x. Nesse caso, a seguinteigualdade ser�a v�alida: d�

x= �!l(x) (para x 2 !l, !l podendo ser !i ou !j).


Com isso,

d�p(�!i; �!j ) = [

ZF

[�!l(x)]pdx]1=p; (3.38)

o que signi�ca que o valor de d�p(�!i ; �!j) ser�a exclusivamente dependente dacompacidade das classes.

� Quando for utilizada uma bola muito grande, para qualquer padr~ao x, B(x; �)conter�a todos os padr~oes de treinamento do espa�co de caracter��sticas. Comisso, pode-se mostrar que a seguinte igualdade se torna v�alida:

d�p(�!i ; �!j) = [jT j � [ infy;z2F

j�!i(y)� �!j (z)j]p]1=p (3.39)

Como resultado, a importancia da compacidade e da distancia entre os prot�oti-pos �e reduzida, pois o valor da m�etrica depender�a exclusivamente da m��nimadiferen�ca global entre o grau de pertinencia de dois padr~oes de classes dife-rentes. Assim, n~ao importando a distribui�c~ao dos padr~oes no espa�co de ca-racter��sticas, se existirem dois padr~oes y e z tais que �!i(y) = �!j (z), ent~aoteremos em d�p(�!i ; �!j) = 0.

Por isso, a determina�c~ao do valor de � �e muito importante na utiliza�c~ao da distanciade [Lowen and Peeters, 1998] como fun�c~ao crit�erio. Para determinar o melhor valorde � para um dado conjunto de padr~oes de treinamento, uma estrat�egia poss��vel �ea de tentativa e erro com v�arios valores diferentes de � , sendo que o valor m�aximodeve ser menor que sup

y;z2F dE(y; z). Na se�c~ao 5.3, est~ao descritos experimentos desele�c~ao de caracter��sticas com varia�c~ao no tamanho da bola.

Considerando a utiliza�c~ao de uma bola cujo tamanho seja ideal para avaliar um deter-minado conjunto de caracter��sticas com um certo conjunto de treinamento de duas classes,podemos construir uma lista de possibilidades, denotando por d1a; d1b; d2a; d2b; d3a; d3b seusprov�aveis resultados. A rela�c~ao entre os resultados ser�a comentada posteriormente.

1. Ambas as classes s~ao compactas e...

(a) a distancia entre os prot�otipos �e pequena ) d�p(�!i; �!j ) = d1a

(b) a distancia entre os prot�otipos �e grande ) d�p(�!i; �!j) = d1b

2. Ambas as classes s~ao esparsas e...


(b) a distancia entre os prot�otipos �e grande ) d�p(�!i; �!j) = d2b

3. Uma classe possui compacidade grande e a outra possui compacidade pequena e...


1.(a) 1.(b)

2.(a) 2.(b)

3.(a) 3.(b)

Figura 3.15: Exemplos de distribui�c~oes de duas classes em um espa�co de caracter��sticas com

dimens~ao 2. Cada c��rculo representa a compacidade de uma classe e os pontos representam

prot�otipos.


(b) a distancia entre os prot�otipos �e grande ) d�p(�!i; �!j ) = d3b

A �gura 3.15 ilustra esses casos. Considerando que as duas classes possuem distri-bui�c~oes aproximadamente isotr�opicas e que a bolaB(x; �) possui tamanho ideal. Podemosa�rmar que, intuitivamente, �e mais prov�avel que a distancia d1b ser�a maior que todas asoutras. Da mesma forma, podemos dizer que as distancias d2a e d1a provavelmente ser~aoas maiores distancias e que a distancia d3a provavelmente ser�a menor que d2b que, por suavez, provavelmente ser�a menor que d3b .

Essas estimativas resultam da an�alise dos casos considerando as propriedades citadasanteriormente.

Caso as distribui�c~oes dos conjuntos (classes de padr~oes) com distribui�c~oes n~ao nor-mais, convexas ou com formas mais \complicadas", torna-se mais dif��cil realizar umaestimativa dos resultados dessa fun�c~ao crit�erio. Por�em pode-se dizer que a in uencia don�umero de padr~oes de classes diferentes que a bola B(x; �) engloba, para diferentes x,tem mais importancia que a distancia entre os prot�otipos. A bola B(x; �) serve comouma medida de sobreposi�c~ao das distribui�c~oes das classes no espa�co de caracter��sticas.


Se duas classes estiverem muito sobrepostas, o valor da fun�c~ao crit�erio ser�a pequeno. Aseguir, mostramos resultados que ilustram esse fato.

3.4.7 Experimentos de Sele�c~ao de Caracter��sticas com DadosArti�ciais

Para avaliar o desempenho dessa fun�c~ao crit�erio para sele�c~ao de caracter��sticas, realizamostestes com os m�etodos de busca SFSM [Pudil et al., 1994] em dados arti�ciais. O m�etodoSFSM foi escolhido devido a sua velocidade, visto que realizamos testes com o m�etodoASFSM e constatamos que a diferen�ca entre qualidade dos conjuntos de caracter��sticasobtidos ap�os a sele�c~ao com os m�etodos adaptativos (ASFSM) e n~ao-adaptativos (SFSM)n~ao compensa a diferen�ca de tempo de execu�c~ao entre esses dois m�etodos (vide se�c~ao 5.2.1e o artigo [Campos et al., 2000c]).

Comparamos a fun�c~ao crit�erio que utiliza a distancia nebulosa baseada em toleranciacom o desempenho de um classi�cador de m��nima distancia ao prot�otipo. Para avaliaro desempenho dos conjuntos de dados, utilizamos dois classi�cadores: k-vizinhos maispr�oximos e o de m��nima distancia ao prot�otipo.

Esse algoritmo foi testado 100 vezes (cem experimentos de sele�c~ao) em um conjuntode dados arti�ciais de seis dimens~oes, duas classes, com 100 exemplos por classe. Segue adescri�c~ao da distribui�c~ao das duas classes nesse espa�co de caracter��sticas:

� Caracter��sticas 1 e 2. Nessas caracter��sticas, os padr~oes possuem distribui�c~oesGaussianas com m�edias diferentes (vide �gura 3.16). Note que, nessas dimens~oes,ambos os conjuntos possuem compacidade grande e distancia entre os prot�otiposgande.

� Caracter��sticas 3 e 4. Nessas caracter��sticas h�a distribui�c~oes ruidosas (vide �gura3.17). Pode-se dizer que nessas dimens~oes ambas as classes possuem compacidadegrande e a distancia entre os prot�otipos �e pequena ou nula.

� Caracter��sticas 5 e 6. Nessas caracter��sticas, a classe !j possui distribui�c~ao Gaus-siana \dentro" da classe !i, a qual �e gerada como uma mistura de 4 Gaussianasformando um anel (vide �gura 3.18). Note que nessas dimens~oes, a classe !j pos-sui compacidade pequena, e a classe !i possui compacidade grande, e a distanciaentre os prot�otipos �e muito pequena (podendo ser nula em algumas realiza�c~oes dospadr~oes).

Nas �guras 3.16, 3.17 e 3.18, os padr~oes da classe !i s~ao representados por asteriscos(*), e os da classe !j s~ao representados por c��rculos (o). Para criar tais �guras, foramgerados aleatoriamente 100 padr~oes por classe seguindo as distribui�c~oes descritas. Visando


Figura 3.16: Amostragem dos dados arti�ciais utilizados em [Campos et al., 2001] nas carac-

ter��sticas 1 e 2.

a facilitar a visualiza�c~ao dos resultados de sele�c~ao de caracter��sticas, eferuamos a redu�c~aopara obter um espa�co de dimensionalidade 2.

Antes de realizar a sele�c~ao de caracter��sticas, normalizamos os dados de forma quetodos os padr~oes do espa�co de treinamento �cassem com m�edia 0 e variancia unit�ariaem rela�c~ao a todas as caracter��sticas. Isso �e importante para evitar problemas com osclassi�cadores e tamb�em com a fun�c~ao crit�erio, pois esses utilizam a distancia Euclidia-na para efetuar medi�c~oes [Belhumeur et al., 1997, Theodoridis and Koutroumbas, 1999].Al�em disso, com a normaliza�c~ao dos padr~oes no espa�co de caracter��sticas, a tarefa dedeterminar o tamanho ideal da bola torna-se mais simples. Em nossos experimentos,utilizamos uma bola de raio � = 0:5. As �guras 3.16, 3.17 e 3.18, mostram exemplos dosdados com essa normaliza�c~ao j�a realizada.

Conforme mensionado anteriormente, para avaliar os resultados, foram geradas amos-tragens com 100 padr~oes para cada classe com as distribui�c~oes descritas anteriormente.Essas amostragens foram geradas 100 vezes. Assim, o total de padr~oes gerados foi 20000,e foi realizado um total de 100 experimentos de sele�c~ao de caracter��sticas. A distancia foiutilizada com � = 0:5 e o classi�cador de k-vizinhos com k = 3. As taxas de acerto foramcalculadas pela m�edia nos 100 experimentos.




3.4.8 Resultados com os Dados Arti�ciais

Conforme esperado, o seletor de caracter��sticas baseado em distancia nebulosa selecionouas caracter��sticas 5 e 6 em todos os 100 esperimentos. J�a o algoritmo de sele�c~ao como desempenho do classi�cador freq�uentemente selecionou as caracter��sticas 1 e 2, masv�arias outras combina�c~oes de caracter��sticas tamb�em foram selecionadas. A tabela 3.1detalha quantas vezes cada par de caracter��sticas foram selecionados quando foi utilizadoo desempenho do classi�cador como fun�c~ao crit�erio.

Na tabela 3.2 est~ao as m�etias da taxa de acerto dos classi�cadores utilizando os conjun-

Tabela 3.1: Caracter��sticas selecionadas utilizando o desempenho do classi�cador como fun�c~ao

crit�erio.Caracter��sticas Freq�uencia

1 2 131 3 51 4 41 5 62 5 63 5 104 5 65 6 50




Tabela 3.2: Porcentagem de classi�ca�c~ao correta dos dois classi�cadores usando o conjunto

de caracter��sticas selecionado com os dois crit�erios ap�os 100 experimentos de sele�c~ao de carac-

ter��sticas.

DP 1 DP 2 Knn1 Knn2

CR 63.15 % 83.71 % 95.56 % 89.47 %

FD 63.43 % 81.26 % 100.00 % 95.07 %

A nota�c~ao utilizada se encontra na tabela 3.4.

tos de caracter��sticas selecionados. Nos experimentos com os classi�cadores sem interse�c~aoentre o conjunto de treinamento e o de testes, foram utilizados 67 padr~oes no treinamentoe 33 na fase de testes.

Para fornecer informa�c~oes mais precisas sobre os resultados obtidos, criamos a tabela3.3. Nessa tabela, �e mostrado o desvio padr~ao dos resultados de classi�ca�c~ao obtidos emnossos testes.

3.4.9 Discuss~ao

Analisando-se a tabela 3.1, notamos que ao utilizar-se esse classi�cador como fun�c~aocrit�erio, freq�uentemente foram selecionadas as caracter��sticas 5 e 6. Isso parece um fato


Tabela 3.3: Desvio padr~ao dos resultados mostrados na tabela 3.2.

DP 1 DP 2 Knn1 Knn2

CR 8.40 % 8.69 % 6.67 % 11.25 %

FD 7.46 % 10.47 % 0.05 % 3.14 %

A nota�c~ao utilizada se encontra na tabela 3.4.

Tabela 3.4: Nota�c~ao utilizada nas tabelas 3.2 e 3.3.

DP : classi�cador de distancia ao prot�otipoKnn: classi�cador dos K vizinhos mais pr�oximos1: � = �2: �T� = ;, j�j = 2j�j, para:

� �: conjunto de treinamento� �: conjunto de testesCR: fun�c~ao crit�erio baseada na taxa de classi�ca�c~oes corretasFD: fun�c~ao crit�erio baseada na distancia nebulosa de [Lowen and Peeters, 1997].

inesperado, j�a que nesses caracter��sticas as duas classes possuem a mesma m�edia. Por�em,h�a dois fatores que contribuem para isso: o fato da classe !j ser muito compacta e ofato de que esse classi�cador ter sido treinado com 2=3 dos padr~oes e testado com os 1=3restantes. Como os padr~oes foram gerados aleatoriamente, muitas vezes o prot�otipo dasduas classes n~ao coincidem, com isso, o classi�cador cria uma fronteira de decis~ao queacaba propiciando um bom resultado, j�a que a grande maioria dos padr~oes da classe !j�ca concentrada a um dos lados da fronteira de decis~ao. De qualuer forma, os resultadosobtidos por esse classi�cador ao utilizar as caracter��sticas 5 e 6 s~ao um tanto aleat�orios.

Os resultados de classi�ca�c~ao obtidos (tabelas 3.2, 3.3 e 3.4) mostram que a distancianebulosa baseada em tolerancia permite a obten�c~ao de um bom desempenho para conjun-tos concavos ou com conjuntos apresentando sobreposi�c~ao entre classes diferentes. Ap�osuma analise desses resultados, a seguinte quest~ao pode ser levantada:

Observa-se que foi utilizado, como suporte de cada classe, um �unico prot�otipo. Is-so �e surpreendente na medida em que, para as caracter��sticas 5 e 6, temos umaclasse \dentro" da outra. Intuitivamente seria, neste caso, mais apropriado utili-zar um suporte maior para a classe circundante. Como explicar ent~ao que, apesarde ter-se escolhido um suporte pontual para as duas classes, os resultados parecemsatisfat�orios?5

Conforme mencionado anteriormente (e tamb�em em [Campos et al., 2001]), a distancia

5Agrade�co ao assessor da FAPESP por levantar essa quest~ao.


nebulosa utilizada �e calculada de tal forma que seja considerada uma bola em tornode cada padr~ao dos conjuntos em que tal distancia est�a sendo medida (vide equa�c~oes3.36 e 3.37). �E calculado o ��n�mo da diferen�ca entre o grau de pertinencia de todosos pares de padr~oes que se encontram nessa vizinhan�ca. O resultado da distancia entredois conjuntos nebulosos �e dado pelo somat�orio dos resultados obtidos para todas asvizinhan�cas existentes (h�a uma vizinhan�ca para cada elemento dos conjuntos). A �gura3.19 ilustra a vizinhan�ca nas caracter��sticas 5 e 6 mencionadas em [Campos et al., 2001],sendo que a regi~ao clara representa a distribui�c~ao da classe !i, enquanto a regi~ao escurarepresenta a distribui�c~ao na classe !j.

Figura 3.19: C�alculo da diferen�ca local (equa�c~ao 3.36) em um padr~ao da classe !i nas carac-


Por isso, a in uencia do processo de \fuzzy�ca�c~ao" e do suporte dos conjuntos nebu-losos no resultado �nal da distancia n~ao �e t~ao grande quanto a in uencia das �areas emque h�a sobreposi�c~ao entre a distribui�c~ao dos padr~oes de classes diferentes, ou seja, �e dadamais importancia �as �areas de sobreposi�c~ao do que �a forma dos aglomerados. Conformemencionado anteriormente, dizemos que um conjunto de distribui�c~oes de classes possuiregi~oes de \sobreposi�c~ao" quando existem x tais que bola B(x; �) engloba padr~oes de maisde uma classe. Por isso, nas caracter��sticas 5 e 6, o resultado �nal da m�etrica entre a classe!i e a classe !j foi maior que nas caracter��sticas 1 e 2, mesmo com os suportes desses doisconjuntos nebulosos encontrando-se t~ao pr�oximos nas caracter��sticas 5 e 6. A �gura 3.20mostra a regi~ao de sobreposi�c~ao existente entre as duas classes nas caracter��sticas 1 e 2.

Na se�c~ao 5.3, est�a descrita uma nova fun�c~ao crit�erio inspirada na distancia nebulosabaseada em tolerancia. Essa fun�c~ao mede a separa�c~ao entre mais de duas classes depadr~oes sem precisar associar o resultado de medi�c~oes entre todos os pares poss��veis declasses. Tamb�em foram realizados testes com dados reais com o objetivo de aperfei�coarum m�etodo de reconhecimento de faces.


Figura 3.20: Regi~ao de sobreposi�c~ao entre as duas classes nas caracter��sticas 1 e 2.

Parte II


Cap��tulo 4

Revis~ao de Reconhecimento de Faces

Conforme dito no cap��tulo 1, devido �a idade da pesquisa em reconhecimento de faces e �aimportancia dessas pesquisas, esse problema foi amplamente abordado por v�arios cientis-tas, utilizando t�ecnicas muito distintas. Nesta se�c~ao, inicialmente ser~ao introduzidas astarefas b�asicas de identi�ca�c~ao de faces (se�c~ao 4.1). Posteriormente (se�c~ao 4.2), ser�a feitauma revis~ao geral dos m�etodos mais conhecidos de extra�c~ao autom�atica de caracter��sticasfaciais para reconhecimento, principalmente os que se baseiam em imagens frontais.

4.1 Tarefas de Identi�ca�c~ao de Faces

Consideremos uma base de dados que consiste em um conjunto de treinamento T , de facesde c pessoas conhecidas, sendo o conjunto de todas as classes (ou pessoas) existentes e!i; !2; � � � ; !c classes de padr~oes (pessoas). Consideremos tamb�em que x �e um padr~ao ori-gin�ario de uma face cuja classi�ca�c~ao �e desconhecida. De acordo com [Gong et al., 2000],no m��nimo quatro tarefas relacionadas com identi�ca�c~ao podem ser visadas:

1. Classi�ca�c~ao: Consiste na identi�ca�c~ao de uma face x assumindo-se que ela �ede uma pessoa do conjunto . Em outras palavras, assumindo-se que x pode serclassi�cado como um padr~ao de alguma classe !i, tal que !i 2 , a tarefa declassi�ca�c~ao consiste em determinar o valor de i.

2. Conhecido-desconhecido: Objetiva decidir se a face �e ou n~ao um membro de ,ou seja, se x pode ser classi�cado como um padr~ao de alguma classe de .

78 Revis~ao de Reconhecimento de Faces

3. Veri�ca�c~ao: Dado que a identidade !i de uma face x foi determinada atrav�es deum outro meio n~ao visual, essa tarefa busca con�rmar a identidade dessa pessoausando imagens de face, ou seja, con�rmar se x �e da classe !i. Isso equivale �a tarefa\conhecido-desconhecido" com c = 1.

4. Reconhecimento Completo: Visa determinar se uma face �e de uma classe de e, em caso positivo, determinar sua identidade !i.

Figura 4.1: Imagens de tres faces diferentes mostradas em um espa�co de faces hipot�etico. S~ao

mostrados bons exemplos de fronteiras de decis~ao para cada tarefa de identi�ca�c~ao de faces

(baseadas em [McKenna et al., 1997]).

A �gura 4.1 ilustra as poss��veis fronteiras de decis~ao geradas por classi�cadores paraexecutar as quatro tarefas de identi�ca�c~ao em um espa�co hipot�etico de faces F com tresclasses (pessoas), onde se assume que F cont�em todas as poss��veis imagens de faces eexclui todas as outras imagens1. A separabilidade das identidades em F dependem dat�ecnica utilizadas para modelar F . Na tarefa de classi�ca�c~ao, todas as c classes podemser modeladas. Por outro lado, as outras tres tarefas sofrem a necessidade de consideraruma classe adicional, contendo as \faces desconhecidas". Provavelmente, este �e o motivopelo qual a tarefa de classi�ca�c~ao de faces seja a mais popular na realiza�c~ao de testes dealgoritmos de extra�c~ao de caracter��sticas faciais para reconhecimento. Maiores detalhessobre essas tarefas de identi�ca�c~ao podem ser encontradas em [McKenna et al., 1997].

Outro problema relacionado �e o de categoriza�c~ao de faces, que trata da classi�ca�c~aodas pessoas em categorias discriminando, por exemplo, genero [Valentin et al., 1996], faixaet�aria e etnia. Nesse caso, as classes representam as categorias a que as pessoa pertencem(e n~ao a identidade de cada indiv��duo). Essa tarefa equivale a \classi�ca�c~ao", com crepresentando o n�umero de categorias do problema abordado. Como este trabalho �ecentrado no problema de reconhecimento, n~ao ser~ao detalhadas t�ecnicas de categoriza�c~ao.

Al�em dessa tarefa, h�a tamb�em o reconhecimento de express~oes faciais. Para tal, algunsautores utilizaram m�etodos que exploram especi�camente parametros que s~ao in uenci-ados por altera�c~oes da forma da boca, dos olhos e do contorno da face relacionadascom express~oes faciais, utilizando, por exemplo, uxo �optico. V�arios autores utilizaramm�etodos muito similares ao de categoriza�c~ao de faces, em que o treinamento e a classi�-

1Maiores detalhes sobre fronteiras de decis~ao se encontram no cap��tulo 2

4.2 M�etodos de Reconhecimento de Faces 79

ca�c~ao s~ao efetuados de forma que cada classe (ou categoria) represente um tipo diferentede express~ao facial.

Al�em dessa tarefa, h�a a de distinguir entre imagens de faces e imagens de outrosobjetos �e um outro problema de duas classes (faces e n~ao-faces) pertencente ao escopo dedetec�c~ao de faces.

�E importante lembrar que este trabalho se restringe a classi�ca�c~ao de faces. Portanto,em todos os testes realizados, foi suposto que as imagens de teste eram de pessoas \co-nhecidas" pelo classi�cador, ou seja, pessoas que tinham ao menos uma imagem de suasfaces no conjunto de treinamento dos classi�cadores.

4.2 M�etodos de Reconhecimento de Faces

Atrav�es da revis~ao de Chellappa et al. [Chellappa et al., 1995], publicada em 1995 e de ou-tros trabalhos propostos ap�os essa publica�c~ao, tais como [Pentland, 2000], [Yachida, 1998],[Essa, 1996], [Crowley, 2000], [Bichsel, 1995], [Turk, 1998] e do livro [Gong et al., 2000],pode-se agrupar os m�etodos de reconhecimento de face nas seguintes categorias: poratributos (locais), hol��sticas, baseadas na transformada de Gabor, tridimensionais e deseq�uencias de v��deo. A seguir, essas abordagens ser~ao comentadas. O que mais difereentre elas s~ao os m�etodos de extra�c~ao de caracter��sticas das imagens de faces, e n~ao osm�etodos de classi�ca�c~ao que, em sua maioria, s~ao redes neurais ou m�etodos estat��sticos.Por isso, pouco ser�a dito a respeito dos m�etodos de classi�ca�c~ao empregados pelos autores.

Por atributos

A abordagem de reconhecimento de faces por atributos �e bastante intuitiva. Algunsdos m�etodos dessa categoria baseiam-se na constru�c~ao de um vetor de caracter��sticasa partir de medidas de distancia e angulos entre pontos caracter��sticos da face, comocantos dos l�abios, centro da boca, nariz, narinas, pupilas, pontos extremos dos olhos,sobrancelhas, orelhas, pontos do contorno do queixo, etc. e combina�c~oes dessas medidas[Cox et al., 1995].

Esses m�etodos tamb�em s~ao aplicados a imagens de faces de per�l, em que os pontoscaracter��sticos s~ao, por exemplo, a ponta do nariz, o ponto entre os l�abios, a sobrancelha,a testa, o queixo e o pesco�co (vide �gura 4.2). A vantagem do reconhecimento a partirde per�s est�a no uso de informa�c~oes que n~ao �cam dispon��veis em imagens frontais bidi-mensionais, como o tamanho do nariz e do papo, al�em do fato de n~ao ser dif��cil extrairesses pontos quando o fundo �e uniforme.

O reconhecimento de faces por atributos, em geral, �e feito atrav�es do uso de um sistemade reconhecimento de padr~oes, podendo ser, por exemplo, estat��stico ou por redes neurais.


Figura 4.2: Exemplos de pontos importantes para o reconhecimento a partir de imagens de

per�l.

Os vetores obtidos s~ao usados para formar o espa�co de caracter��sticas. Com a ausenciade detectores autom�aticos de pontos caracter��sticos da face, muitos autores utilizaramoperadores humanos nos trabalhos primordiais.

Alguns dos m�etodos autom�aticos de extra�c~ao desses pontos baseiam-se em contornos.Tamb�em podem ser considerados como abordagens locais os sistemas de reconhecimen-to que utilizam informa�c~oes como proje�c~oes horizontais dos mapas de bordas bin�arios(verticais e horizontais) de imagens de face ou de partes da face, como nariz e boca[Brunelli and Poggio, 1993]. �E muito comum utilizar o reconhecimento por atributos pa-ra imagens de pessoas de per�l. O uso de energia de curvatura do contorno do per�lcomo forma de extra�c~ao do vetor de caracter��sticas tamb�em �e uma abordagem baseadaem atributos.

A vantagem de abordagens locais �e a invariancia �a transla�c~ao, �a escala e �a rota�c~ao noplano (caso sejam efetuadas normaliza�c~oes), e a desvantagem est�a nos problemas ocasio-nados com altera�c~oes devido a express~oes faciais e a rota�c~oes em profundidade.

M�etodos hol��sticos

Os m�etodos hol��sticos consideram todos os pixels da imagem ou de regi~oes caracter��sticasda face. Nessa abordagem, a dimensionalidade dos dados �e igual ao n�umero de pixels das


imagens consideradas. Para evitar o problema da dimensionalidade, podem ser utiliza-dos m�etodos estat��sticos de redu�c~ao de dimensionalidade, como, por exemplo, An�alisedos Componentes Principais (PCA) [Turk and Pentland, 1991], Discriminantes Linea-res [Belhumeur et al., 1997] e Redes Neurais [Lawrence et al., 1996, Romdhani, 1996]. Om�etodo de reconhecimento com PCA �e o mais popular, tendo sido freq�uentemente utili-zado em associa�c~ao com pr�e-processamentos de normaliza�c~ao de imagens para melhoraro desempenho. A classi�ca�c~ao pode ser feita de diversas maneiras, geralmente atrav�es deredes neurais ou sistemas estat��sticos. M�etodos baseados em piramides (como Wavelets[Castleman, 1996]) para reconhecimento de faces considerando toda a imagem (sem mo-dular por regi~oes como �e feito nos m�etodos descritos na pr�oxima se�c~ao) tamb�em podemser classi�cados como hol��sticos.

Em [Brunelli and Poggio, 1993], �e feito um estudo comparando o desempenho dem�etodos por atributos (locais) com um m�etodo hol��stico. O m�etodo hol��stico testadofoi o de template matching (casamento), testando o desempenho de imagens de olhos,nariz, boca e tamb�em de toda a face (vide �gura 4.3). Os m�etodos hol��sticos proporcio-naram resultados melhores que os locais. A vantagem de abordagens globais est�a no fatode que pequenas varia�c~oes locais n~ao prejudicam muito o reconhecimento. A principaldesvantagem est�a nos problemas de varia�c~ao de ilumina�c~ao e, em alguns casos, no custocomputacional.

Figura 4.3: Atributos utilizados para extra�c~ao de caracter��sticas locais e templates testados

(abordagem local) baseada em [Brunelli and Poggio, 1993].

T�ecnicas baseadas na Transformada de Gabor

Neste item ser~ao comentadas abordagens baseadas em extratores de caracter��sticas queutilizam transformada de Gabor em regi~oes da imagem, e n~ao na imagem toda, o que


diferencia essa abordagem das abordagens hol��sticas. Esses m�etodos s~ao um pouco maisrecentes e muito promissores. A mais conhecida �e uma abordagem local que utiliza jets.Um jet �e um vetor em que cada posi�c~ao �e determinada atrav�es de uma transformada deGabor bidimensional com a janela Gaussiana (modulada por uma exponencial complexa)em um determinado local da imagem, como, por exemplo, o centro do nariz, as pupilas,os cantos da boca etc.. Cada vari�avel de um vetor jet �e determinada pelo c�alculo da trans-formada com uma janela de escala (variancia da Gaussiana), orienta�c~ao e/ou freq�uenciadiferente.

Na fase de treinamento, cada jet �e calculado em uma posi�c~ao diferente de uma imagem(modelo) de treinamento. Na abordagem de Elastic Graph Matching [Wiskott et al., 1997,Wiskott et al., 1995, Lades et al., 1993], os jets s~ao tratados como n�os e as liga�c~oes entreos n�os s~ao arestas, formando um grafo. No primeiro quadro da �gura 4.4, �e mostradaa posi�c~ao inicial dos jets numa imagem, bem como a disposi�c~ao do grafo. Nos outrosquadros, �e mostrada a topologia dos grafos ap�os o casamento com a imagem da face comvaria�c~oes de express~ao facial, escala e rota�c~ao.

Figura 4.4: Elastic Graph Matching.

Antes de efetuar a classi�ca�c~ao, �e necess�ario realizar um processo de combina�c~ao comimagens, que se refere ao posicionamento dos jets em determinados pontos da imagem.Para isso, um procedimento tenta localizar a posi�c~ao para cada n�o do grafo que, ao mesmotempo, maximiza a similaridade das caracter��sticas e minimiza o custo da topogra�a.Esse processo �e feito para as imagens de treinamento e de testes, de forma que os pontosimportantes da face s~ao localizados e os jets s~ao calculados nessas posi�c~oes. As imagensde teste s~ao classi�cadas de acordo com a similaridade com as imagens de treinamento,com base na combina�c~ao dos grafos e os jets obtidos. Essa abordagem pode apresentarproblemas com varia�c~oes na ilumina�c~ao e com a imagem do fundo.

Uma outra abordagem que tamb�em utiliza a transformada de Gabor �e a de Gabor Wa-velet Networks [Kr�uger and Sommer, 2000], que consiste em uma t�ecnica que representaum modelo discreto da face como a combina�c~ao linear de fun�c~oes da wavelet bidimensio-nal de Gabor. Essa abordagem �e bastante recente e mostra-se muito e�ciente e precisa,principalmente no rastreamento de faces e de pontos caracter��sticos da face em movi-mento [Feris, 2001]. Mas as Gabor Wavelet Networks tamb�em podem ser utilizadas paradetec�c~ao e reconhecimento de faces. Ao centro da �gura 4.5 �e ilustrada a representa�caoda face da esquerda no espa�co de GWN, cujas Wavelets otimizadas se encontram nas


posi�c~oes demarcadas pelos pontos pretos na imagem da direita.

Figura 4.5: Gabor Wavelet Networks (obtida de [Feris, 2001]).

M�etodos tridimensionais

H�a v�arios m�etodos de reconhecimento baseados em informa�c~oes tridimensionais, como osque utilizam range images (�gura 4.6) e os baseados em vis~ao est�ereo. A vantagem dessesm�etodos est�a na possibilidade de obten�c~ao de informa�c~oes relevantes da cena real quen~ao podem ser obtidas atrav�es de imagens bidimencionais, pois combinam informa�c~oes daprofundidade das superf��cies e tamb�em da textura. A desvantagem est�a na necessidade desistemas de aquisi�c~ao menos usuais, como um scanner tridimensional (para range images)e de uma camera extra (para vis~ao est�ereo), al�em do fato de o custo computacional paratratar tais informa�c~oes ser maior. A pesquisa em m�etodos tridimensionais para reconheci-mento de faces n~ao avan�cou muito nos �ultimos anos pois, o uso de sistemas bidimensionaisbaseados em treinamento com m�ultiplos pontos de vista (ou v�arias orienta�c~oes da face)[Moghaddam and Pentland, 1994], bem como sistemas de rastreamento e determina�c~ao daorienta�c~ao tridimensional a partir de imagens bidimensionais [Cascia and Sclaro�, 1999],possibilitam a obten�c~ao de bons resultados dispensando a utiliza�c~ao de tais sistemas.

V��deo

At�e 1995, a pesquisa em sistemas de reconhecimento de pessoas baseada em seq�uenciasde v��deo estava come�cando a se desenvolver. Haviam sido realizados alguns testes comseq�uencias de v��deo com a �nalidade exclusiva de mostrar v�arios resultados de classi�ca�c~aono decorrer do tempo. Em [Yacoob et al., 1995], para cada quadro, foi feito um teste declassi�ca�c~ao individual visando comparar o m�etodo baseado em eigenfaces com o de com-bina�c~ao de grafos (elastic graph matching) em seq�uencias com varia�c~ao de express~ao facial.Al�em disso, alguns pesquisadores empregavam seq�uencias temporais para integrar as infor-ma�c~oes est�aticas da camera com sons de s��labas. Esses sistemas possu��am dois m�odulos: ode v��deo, o qual capturava apenas um quadro para efetuar o reconhecimento empregandoalgumm�etodo comum; e o de �audio, que normalmente utiliza informa�c~oes da freq�uencia da


Figura 4.6: Range image (a) e sua reconstru�c~ao tridimensional (b) (de [Chellappa et al., 1995]).

voz do indiv��duo para efetuar o reconhecimento. Os resultados de classi�ca�c~ao eram com-binados utilizando umm�etodo de superclassi�ca�c~ao, proporcionando uma taxa de reconhe-cimento melhor que a dos sistemas isolados. Como exemplos de m�etodos dessa abordagem,tem-se os que est~ao descritos em [Brunelli et al., 1995, Brunelli and Falavigna, 1995].

Com o surgimento de m�etodos e�cientes de detec�c~ao e rastreamento de pessoas, junta-mente com o uso de treinamento com faces em diversas orienta�c~oes, foram criados sistemasmelhores de reconhecimento de faces em seq�uencias de v��deo com procedimentos de esco-lha de \bons" quadros das seq�uencias [McKenna et al., 1997]. Por�em, at�e �nal da d�ecadade 90, n~ao haviam sistemas conhecidos de identi�ca�c~ao em seq�uencias de v��deo que real-mente aproveitassem o movimento para extrair informa�c~oes extras, como o modo em queas pessoas se movimentam (gait).

Em [Burton et al., 1999], h�a um estudo psicof��sico em que foi comparada a taxa deacerto para reconhecimento de pessoas utilizando: (1) somente a imagem da face; (2)somente a imagem do corpo; e (3) a imagem completa da pessoa em movimento. Como �ede se esperar, a ordem decrescente da taxa de acerto foi (3), (1) e (2), mas a taxa de acerto

4.3 Considera�c~oes Sobre o Estado-da-Arte 85

obtida usando imagens contendo somente o corpo das pessoas foi muito superior �a taxa deacerto por sorteio2. Esse resultado mostra que informa�c~oes a respeito da maneira como aspessoas andam tamb�em podem ser importantes para efetuar-se identi�ca�c~ao autom�aticade faces.

A pesquisa em reconhecimento de gestos (de cabe�ca [Morimoto et al., 1996] e de m~ao),bem como a de reconhecimento de movimentos do corpo, como dan�cas e interpreta�c~oesdram�aticas, vem desenvolvendo-se muito rapidamente e resultados bastante promissoresest~ao emergindo [Pentland, 2000]. Isso permitiu o surgimento dos primeiros grupos depesquisa que exploram informa�c~oes do movimento para efetuar o reconhecimento. Umdeles �e o da Universidade de Londres, respons�avel pelo artigo [Li et al., 2000] e pelolivro [Gong et al., 2000], que possui cap��tulo espec��co sobre reconhecimento de faces emseq�uencias de v��deo. O m�etodo de extra�c~ao de caracter��sticas que eles utilizaram foi o dean�alise de discriminantes lineares.

4.3 Considera�c~oes Sobre o Estado-da-Arte

Segundo [Pentland, 2000], o primeiro sistema conhecido de reconhecimento autom�aticode faces provavelmente �e o de Kohonen, proposto em 1989. Kohonen demonstrou queuma simples rede neural pode desempenhar reconhecimento de faces usando imagens defaces registradas (normalizadas e alinhadas). Foi empregada uma rede que computa adescri�c~ao das faces atrav�es da aproxima�c~ao dos auto-vetores da matriz de auto-correla�c~aodas imagens de face. Como sabemos, esses auto-vetores �caram posteriormente conhecidoscomo eigenfaces. O sistema de Kohonen n~ao foi um sucesso pr�atico, pois ele depende dealinhamento e normaliza�c~ao das faces.

Nos anos seguintes, muitos pesquisadores tentaram esquemas de reconhecimento defaces baseados em atributos locais (bordas, distancias entre pontos caracter��sticos e outrasabordagens) com o emprego de redes neurais. Enquanto muito sucesso foi obtido em basesde imagens pequenas com faces alinhadas, nenhum trabalho obteve sucesso em problemasmais real��sticos de grandes bases de dados e com localiza�c~ao, orienta�c~ao e escala da facedesconhecidos [Pentland, 2000].

O m�etodo de reconhecimento de faces utilizando a transformada de Karhunen-Lo�evefoi proposto em [Kirby and Sirovich, 1990] e est�a descrito com maiores detalhes na se�c~ao3.2.2. Em [Turk and Pentland, 1991], foi demonstrado que o erro residual da codi�ca�c~aousando eigenfaces pode ser usada tanto para detectar faces em imagens naturais como paraa determina�c~ao precisa da localiza�c~ao, escala e orienta�c~ao de faces na imagem. Tamb�em foimostrado que esse m�etodo pode ser usado para obter o reconhecimento de faces con��avelem imagens com poucas restri�c~oes.

2Quando o conjunto de treinamento de todas as classes possui o mesmo tamanho, pode-se dizer quea taxa de acerto por sorteio �e igual a 1=c, sendo c o n�umero de classes existentes.


A partir de 1993, surgiram v�arios outros sistemas de reconhecimento robustos a ima-gens n~ao normalizadas. Segundo Pentland [Pentland, 2000], de acordo com os m�etodos deavalia�c~ao FERET (descrito a seguir), os tres melhores algoritmos s~ao os que foram propos-tos em [Moghaddam and Pentland, 1997], [Moghaddam et al., 1998], [Zhao et al., 1999]e [Wiskott et al., 1997]. Desses trabalhos, os tres primeiros baseiam-se em PCA e emm�etodos discriminantes, divergindo no m�etodo de classi�ca�c~ao. J�a [Zhao et al., 1999] �ebaseado em Gabor jets, exible templates e casamento de grafos.

Para avaliar os algoritmos de reconhecimento de faces, foi criado o programa FERET(Face Recognition Technology) [Phillips et al., 1998], que �e conhecido por ser o conjuntode testes (com bases de imagens est�aticas) mais abrangente proposto at�e o momento. Abase de dados do FERET possui faces com varia�c~oes de transla�c~ao, escala e ilumina�c~aode modo consistente com as fotogra�as 3� 4 ou as de carteira de habilita�c~ao para moto-ristas americanos. H�a imagens de pessoas obtidas de fotos tiradas em datas diferentes (adiferen�ca chega a um ano).

O maior teste do FERET possui imagens de 1196 pessoas diferentes. Nesse teste,os algoritmos citados acima possuem desempenho muito similar. Com imagens frontaisadquiridas no mesmo dia, o desempenho daqueles algoritmos foi de mais de 95% de acerto.Para imagens obtidas com cameras e ilumina�c~oes diferentes, o desempenho foi entre 80 e90%. Para imagens tomadas um ano depois, a taxa de reconhecimento t��pica foi de 50%.A diferen�ca entre os algoritmos foi menor que 0.5%.

Para testes com 200 pessoas, os tres algoritmos praticamente n~ao erraram. Entretan-to, nesse experimento, mesmo um simples m�etodo de combina�c~ao por correla�c~ao pode,algumas vezes, propiciar o mesmo resultado, com a diferen�ca de tratar-se de um m�etodolento. Por isso, Pentland [Pentland, 2000] sugere que, para que um novo algoritmo sejaconsiderado potencialmente competitivo, esse deve ser testado com bases de dados pos-suindo, no m��nimo, 200 indiv��duos, devendo resultar em uma taxa de reconhecimentomaior que 95%.

Por�em, esses resultados s~ao v�alidos somente para imagens est�aticas, e ainda n~ao h�a umbom m�etodo de�nitivo de testes de algoritmos destinados a reconhecimento de pessoasa partir de seq�uencias de v��deo. A maioria das bases de seq�uencias de imagens de facesdispon��vel foi criada para testar m�etodos de rastreamento e de determina�c~ao da orienta�c~aotridimensional. Por isso, em geral, elas possuem poucas pessoas diferentes. Nos experi-mentos descritos em [Li et al., 2000] foram realizados testes com uma base de seq�uenciasde imagens de 20 sujeitos, sendo que o treinamento foi realizado com apenas 10 deles, poisos autores tamb�em �zeram testes de identi�ca�c~ao de \conhecido/desconhecido". Melhortaxa de acerto obtida foi de 94,31

Cap��tulo 5

M�etodos Propostos e Resultados

Conforme mencionado anteriormente, o principal objetivo deste trabalho �e o estudo dealgoritmos de redu�c~ao de dimensionalidade com a �nalidade de possibilitar a implemen-ta�c~ao de um sistema de classi�ca�c~ao de faces que seja r�apido, e�ciente e robusto. Comisso, uma poss��vel aplica�c~ao ser�a a cria�c~ao de um sistema de reconhecimento de faces apartir de seq�uencias de v��deo com poucas restri�c~oes em rela�c~ao �a ilumina�c~ao e aos mo-vimentos das pessoas. Um sistema desse tipo, com o objetivo de efetuar reconhecimentoem tempo real, possui as seguintes caracter��sticas:

� Necessidade de um sistema de extra�c~ao de caracter��sticas e classi�ca�c~ao r�apido ebarato, para que se respeite as restri�c~oes de tempo como, por exemplo, aquelasdeterminadas pela taxa de aquisi�c~ao de quadros por segundo (caso cada quadroseja classi�cado) e pelo tempo exigido para que seja dada uma resposta ao usu�ario[Farines et al., 2000].

� Possibilidade de haver muitas imagens por pessoa tanto para treinamento quantopara testes [Chellappa et al., 1995]. Por�em, dependendo do classi�cador utilizado,�e desej�avel utilizar poucos exemplos de treinamento para permitir a obten�c~ao deresultados em tempo real. J�a a disponibilidade de muitas imagens por pessoa na fasede testes permite o uso de m�etodos de super-classi�ca�c~ao1 para obter-se melhoresresultados.

1Na p�agina 115 est�a descrido como um superclassi�cador pode ser empregado para reconhecimento apartir de seq�uencias de v��deo.

88 M�etodos Propostos e Resultados

� Flexibilidade com rela�c~ao a ilumina�c~ao, escala e orienta�c~ao da face (em conformidadecom [McKenna et al., 1997]).

Visando a obter um sistema r�apido e que n~ao tenha um grande custo em rela�c~ao amem�oria, �e desej�avel que a dimensionalidade dos dados n~ao seja grande. Isso deve-se aofato de que a extra�c~ao de medidas para realizar a classi�ca�c~ao dos padr~oes de teste �camais barata computacionalmente quando a dimensionalidade �e pequena. Al�em disso, h�aoutras vantagens em efetuar redu�c~ao de dimensionalidade as quais foram comentadas nocap��tulo 2.

Basicamente, foram estudadas duas abordagens para redu�c~ao da complexidade dosdados de um reconhecedor de faces. A primeira, e mais �obvia, �e a de reduzir a dimensi-onalidade dos dados observados atrav�es da simples utiliza�c~ao de uma janela na imagem.A segunda abordagem testada consiste na aplica�c~ao de um algoritmo de sele�c~ao de ca-racter��sticas, selecionando somente os atributos com maior poder de discrimina�c~ao dasclasses. Tais testes est~ao descritos a seguir.

5.1 Uso de regi~oes menores da imagem

5.1.1 Introdu�c~ao e Motiva�c~ao

Os m�etodos baseados em An�alise dos Componentes Principais (PCA) est~ao entre os quepossibilitam a obten�c~ao dos melhores resultados em termos de reconhecimento de facesfrontais. Apesar da qualidade dos resultados obtidos, essa t�ecnica tem a desvantagemde ser um tanto cara computacionalmente, pois todos os pixels da imagem s~ao utilizadospara obter-se sua representa�c~ao em fun�c~ao da covariancia entre essa imagem e todas asoutras imagens da base de dados (vide se�c~ao 3.2.2).

Alguns pesquisadores utilizaram eigenfaces e eigenfeatures para efetuar o reconheci-mento. Os termos eigenfeatures, eigeneyes, eigennose e eigenmouth foram criados em[Moghaddam and Pentland, 1994]. Eigenfeature refere-se aos componentes principais ob-tidos com imagens de regi~oes restritas da face, como boca (eigenmouth), nariz (eigennose)e olhos (eigeneyes). Segundo [Moghaddam and Pentland, 1994], estudos de movimentosdos olhos indicam que essas regi~oes particulares das faces representam marcas importan-tes para reconhecimento, especialmente em uma tarefa de tentativa de discrimina�c~ao paraidenti�ca�c~ao de pessoas.

Em [Brunelli and Poggio, 1993], os resultados alcan�cados atrav�es da utiliza�c~ao de umquadro (template) abrangendo somente a regi~ao dos olhos surpreendentemente foram me-lhores que os resultados com um quadro que cobria toda a face. De maneira similar,no artigo [Moghaddam and Pentland, 1994], os resultados obtidos com eigenfeatures, queinclu��ram olhos, nariz e boca, foram melhores que o de eigenfaces.

5.1 Uso de regi~oes menores da imagem 89

Al�em desses fatores, [Moghaddam and Pentland, 1994] discutem uma vantagem poten-cial do uso de regi~oes caracter��sticas, tamb�em chamados de m�odulos, das faces. Trata-seda elimina�c~ao da possibilidade de ocorrencia de erros provocados pelo uso ou n~ao de bar-ba, bigode, chap�eu, varia�c~oes no comprimento do cabelo, presen�ca de feridas e cicatrizesna face, etc. Esses elementos podem prejudicar o desempenho quando utiliza-se a imagemde toda a face, mas n~ao quando forem utilizadas somente as regi~oes importantes. A �gura5.1 ilustra tres casos em que o uso de toda a imagem da face causou erro de classi�ca�c~ao,e o uso de m�odulos resultou na classi�ca�c~ao correta.

Figura 5.1: Reconhecimento por regi~oes caracter��sticas: (a) imagens de teste; (b) resultados

de classi�ca�c~ao incorreta devido ao uso da imagem de toda a face; (c) resultado de classi�ca�c~ao

correta devido ao uso de m�odulos (�gura baseada em [Moghaddam and Pentland, 1994]).

Neste trabalho de mestrado, realizamos testes visando veri�car os resultados de Bru-nelli em um sistema de reconhecimento baseado em PCA, mas comparando apenas odesempenho do classi�cador com imagens de faces versus com imagens contendo os olhos.Tamb�em veri�camos a rela�c~ao existente entre esses resultados e o n�umero de autoveto-res utilizados (dimensionalidade). Este trabalho, publicado em [Campos et al., 2000d],iniciou-se como parte das tarefas exigidas na disciplina de T�opicos em Inteligencia Ar-


ti�cial: Reconhecimento de Faces, ministrada pelo Prof. Carlos Hitoshi Morimoto, noprimeiro semestre de 1999.

5.1.2 Base de Imagens

Foi utilizada uma base de imagens p�ublica a qual foi criada e disponibilisada pelo MIT(Massashusetts Institute of Technology). Essa base �e composta por imagens de dezesseisadultos, seis imagens por pessoa. V�arias imagens continham pessoas usando �oculos, bigo-de ou barba e com diferentes comprimentos de cabelo. Al�em disso, as imagens possuemgrandes varia�c~oes na ilumina�c~ao, fundo (background) irregular e diferentes express~oes fa-ciais. Por�em, as imagens consideradas n~ao possuem problemas de auto-oclus~ao dos olhos.H�a duas caracter��sticas importantes dessa base de imagens de faces:

� A primeira refere-se �a orienta�c~ao das faces. H�a 3 posi�c~oes diferentes, sendo a primei-ra em posi�c~ao normal (upright), a segunda com a cabe�ca inclinada (rota�c~ao no planoda imagem) para a esquerda e a terceira com a cabe�ca inclinada para a direita.

� Outra caracter��stica importante �e que as imagens foram adquiridas a duas distanciasdiferentes entre a camera e a pessoa (escalas).

A combina�c~ao desses dois parametros resulta em 6 imagens por pessoa, como ilustra a�gura 5.2

Figura 5.2: Exemplo de imagens de um indiv��duo da base utilizada.

5.1.3 Pr�e-processamento

As imagens usadas para construir as eigenfaces foram criadas a partir de recortes da baseoriginal para que os cabelos e o fundo da imagem n~ao in uenciassem no reconhecimento,pois esses podem apresentar muitas varia�c~oes. Tais recortes englobavam a regi~ao entre


a testa e o queixo dos indiv��duos. J�a para a constru�c~ao dos eigeneyes, foram utilizadosrecortes que englobam somente a regi~ao dos dois olhos, incluindo parte das sobrancelhas.O tamanho desses recortes foi determinado de acordo com uma propor�c~ao baseada nadistancia entre os olhos. A �gura 5.3 mostra um exemplo desses recortes. 2

Figura 5.3: Processo de obten�c~ao das imagens de face e de olhos: (a) imagem original, de

128 � 120 pixels; (b) recorte de face; (c) recorte de olhos.

Nesses experimentos, a determina�c~ao da posi�c~ao dos olhos foi feita por um opera-dor humano, pois, conforme mencionado anteriormente, segmenta�c~ao autom�atica n~ao fazparte do escopo deste trabalho. Como as imagens apresentavam grandes varia�c~oes naorienta�c~ao da cabe�ca e na escala, antes de efetuar os recortes das faces e dos olhos, foirealizada a rota�c~ao das imagens de forma que os olhos �cassem na mesma linha horizontal.Ap�os realizar os recortes, para viabilizar o uso de PCA, foi necess�ario redimensionar asimagens para que todas �cassem com a mesma resolu�c~ao. Foi efetuado o redimensiona-mento utilizando o m�etodo de \vizinho mais pr�oximo" [Gonzalez and Woods, 1992] parainterpolar os pixels da imagem de sa��da.

A resolu�c~ao escolhida foi de 64�64 pixels, pois essa engloba faces mesmo nas imagensem que a pessoa est�a mais afastada da camera. Al�em disso, essa �e uma resolu�c~ao queequilibra custo computacional com qualidade das imagens, j�a que �e desej�avel utilizar asmenores imagens poss��veis, mas sem perder muitos detalhes.

2Essa imagem �e apresentada apenas para ilustrar o processo de forma�c~ao dos dados, n~ao tendo sidoutilizada no experimento.


5.1.4 Testes e Resultados

O pr�e-processamento descrito acima foi realizado em todas as imagens da base, sendocriado assim, um conjunto de imagens de olhos e outro de faces. Posteriormente, asimagens de treinamento da base de faces s~ao utilizadas para treinar uma transformadaPCA, obtendo-se, dessa forma, os eigenfaces. O mesmo foi feito para as imagens de olhospossibilitando a obten�c~ao dos eigeneyes. Alguns eigeneyes e eigenfaces obtidos a partirde uma base treinada com 5 imagens por pessoa s~ao mostrados na �gura 5.4. A se�c~ao3.2.2 cont�em maiores detalhes a respeito da transformada PCA.

Figura 5.4: Os quatro primeiros auto-vetores mostrados como imagens e seus respectivos auto-

valores, obtidos atrav�es da base de faces (acima) e da base de olhos (abaixo)

Dois experimentos foram realizados: no primeiro utilizando tres imagens por pessoapara treinar o sistema e, no segundo, cinco. Em ambos os experimentos foi utilizadaapenas uma imagem de teste por pessoa, a qual n~ao foi utilizada no treinamento. Aclassi�ca�c~ao foi efetuada utilizando a t�ecnica do vizinho mais pr�oximo.

Os resultados obtidos s~ao bastante satisfat�orios como meios de compara�c~ao entre facese olhos para reconhecimento de pessoas. Obviamente, se forem realizados testes utilizandoimagens pertencentes ao conjunto de treinamento, a taxa de acerto ser�a de 100%, j�a quefoi utilizado o classi�cador de vizinho mais pr�oximo (vide se�c~ao 2.2.3). Os resultadosdos testes realizados com imagens que n~ao pertenciam ao conjunto de treinamento est~aoilustrados nas tabelas 5.1 (com treinamento usando 3 imagens por pessoa) e 5.2 (comtreinamento usando 5 imagens por pessoa).

Atrav�es dessas tabelas, �e poss��vel notar que, em geral, o reconhecimento com olhos foimelhor que com faces. Esse fato �e intuitivamente inesperado, j�a que as imagens de facescont�em mais informa�c~oes que as de olhos. Mas, devido ao problema da dimensionalida-de, sabe-se que o aumento na dimensionalidade dos dados deve ser compensado por umaumento do n�umero de exemplos de treinamento para que a taxa de acerto permane�caest�avel. Isso justi�ca o fato de que as taxas de reconhecimento aumentam signi�cativa-mente para ambos os sistemas de classi�ca�c~ao quando se aumenta o tamanho do conjunto


Tabela 5.1: Desempenho do classi�cador para reconhecimento de olhos e de faces quando

treinado com 3 imagens por pessoa.

# Auto- Olhos Facesvetores % %

3 25,00 31,254 25,00 37,505 50,00 37,5010 56,25 43,7513 62,50 43,7515 62,50 43,7524 62,50 43,7548 62,50 43,75

Tabela 5.2: Desempenho do classi�cador para reconhecimento de olhos e de faces quando

treinado com 5 imagens por pessoa.

# Auto- Olhos Facesvetores % %

3 40,00 46,6715 73,33 66,67

de treinamento. Al�em disso, pode-se notar que, quando treinado com 3 imagens por pes-soa, o desempenho do sistema n~ao melhora se forem utilizados mais que 13 auto-vetores.Isso ocorre pois 13 �e a dimensionalidade ideal para esse problema, o que indica que essen�umero de autovetores �e su�ciente para discriminar esses padr~oes. Portanto, quando s~aoutilizados mais autovetores, esses n~ao adicionam informa�c~oes relevantes para a classi�-ca�c~ao. Maiores detalhes sobre o problema da dimensionalidade est~ao na se�c~ao 2.3.

Al�em desse problema gen�erico de reconhecimento de padr~oes, h�a um fator relati-vo �as seguintes propriedades espec��cas da face que corroboram com esses resultados[Gong et al., 2000]:

� a boca (e tamb�em o queixo) n~ao �e um objeto t~ao r��gido quanto os olhos (considerando-se que em todas as imagens os olhos estavam abertos), sofrendo grandes varia�c~oescom express~oes faciais, com a fala ou mesmo com movimentos da cabe�ca;

� a proje�c~ao do nariz em um plano bidimensional (plano da imagem) faz com que suaimagem sofra grandes altera�c~oes com varia�c~oes na orienta�c~ao da cabe�ca.

Por isso, as imagens de faces s~ao mais distorcidas, esse fato causa uma maior di�cul-dade em obter boas taxas de reconhecimento usando tais imagens com um conjunto detreinamento pequeno. Isso requer que o classi�cador tenha um poder de generaliza�c~ao


maior, j�a que essas partes da face s~ao caracter��sticas que podem ser muito correlaciona-das e ruidosas. Assim, para possibilitar a obten�c~ao de boas taxas de acerto utilizandoimagens de toda a face, dever-se-ia aumentar o tamanho do conjunto de treinamento[Campos et al., 2000d].

5.2 Testes com Algoritmos de Busca para Sele�c~ao de

Caracter��sticas

Foram estudados e testados alguns m�etodos de sele�c~ao de caracter��sticas sob dois aspectos:o algoritmo de sele�c~ao e a fun�c~ao crit�erio. Segue a descri�c~ao de testes com algoritmos desele�c~ao. Os testes realizados com diferentes fun�c~oes crit�erios est~ao descritos nas se�c~oes 3.4(dados sint�eticos) e 5.3 (dados reais de faces).

5.2.1 Descri�c~ao do Problema

Em [Campos et al., 2000c], �zemos um estudo comparando o desempenho de quatro es-trat�egias de sele�c~ao de caracter��sticas, das quais duas s~ao baseados em busca autom�atica.O problema abordado foi a discrimina�c~ao entre classes de padr~oes obtidos a partir dedescritores de Fourier. Esses descritores foram obtidos a partir de um m�etodo propostoem [Campos et al., 2000a] para discrimina�c~ao de imagens contendo faces \versus" ima-gens n~ao contendo faces de uma forma r�apida. Tal m�etodo de discrimina�c~ao �e constitu��dopelos seguintes passos:

� obten�c~ao do mapa de bordas horizontais bin�ario da imagem atrav�es do Laplacianoda Gaussiana unidimensional vertical [Gonzalez and Woods, 1992];

� forma�c~ao de um sinal unidimensional a partir de uma \varredura" vertical do mapade bordas obtido, semelhante �a forma�c~ao dos espa�cos de caracter��sticas da aborda-gem de PCA para reconhecimento de faces, descrita na se�c~ao 3.2.2.

� obten�c~ao de 30 descritores de Fourier [Gonzalez and Woods, 1992, Cesar-Jr, 1997]desse sinal unidimensional.

O principal objetivo desse sistema de discrimina�c~ao faces � n~ao faces �e possibilitar acria�c~ao de um m�etodo de detec�c~ao de faces atrav�es de sua aplica�c~ao em janelas que varrema imagem. A arquitetura desse processo est�a ilustrada na �gura 5.5. Esse processo foirealizado em 219 imagens de faces e em 219 imagens de outros objetos (n~ao-faces). Dessetotal, 2=3 foi utilizado para treinar um classi�cador de m��nima distancia ao prot�otipo,e o restante para test�a-lo. Como o objetivo de nossa pesquisa n~ao engloba detec�c~ao defaces, detalharemos apenas as partes referentes �a sele�c~ao de caracter��sticas e classi�ca�c~ao

5.2 Testes com Algoritmos de Busca para Sele�c~ao de Caracter��sticas 95

envolvidas nesse projeto. O leitor interessado no m�etodo de extra�c~ao de caracter��sticasproposto pode consultar [Campos et al., 2000a, Campos et al., 2000c] (em anexo).

Figura 5.5: Esquema do sistema de discrimina�c~ao faces � n~ao-faces.

5.2.2 M�etodos de Sele�c~ao Avaliados

Foram realizados testes com diferentes estrat�egias de sele�c~ao de caracter��sticas. Os resul-tados obtidos foram avaliados para determinar o melhor m�etodo de busca para selecionar


caracter��sticas e a melhor dimensionalidade. As quatro t�ecnicas de sele�c~ao que foramtestadas s~ao as seguintes:

� utiliza�c~ao dos m primeiros coe�cientes, que �e a abordagem mais comum em setratando de coe�cientes de Fourier em vis~ao computacional (vide se�c~ao 3.2.1);

� utiliza�c~ao dos m maiores coe�cientes;

� m�etodos de sele�c~ao SFSM (vide se�c~ao 3.3);

� m�etodos de sele�c~ao ASFSM (vide se�c~ao 3.3).

Os m�etodos autom�aticos SFSM e ASFSM (M�etodos de Busca Seq�uencial Flutuante esuas vers~oes Adaptativas) foram escolhidso pois, at�e 1999, esses eram indicados como osmelhores algoritmos de busca para sele�c~ao de caracter��stica (vide se�c~ao 3.3).

A base de imagens utilizada cont�em 146 padr~oes de faces e 146 padr~oes de n~ao-facespara efetuar o treinamento. Para a realiza�c~ao dos testes de classi�ca�c~ao, h�a outros 73 pa-dr~oes por classse. Com isso, as duas classes s~ao su�cientemente bem representadas, tantopara treinamento quando para testes. Por isso, na realiza�c~ao de sele�c~ao autom�atica de ca-racter��sticas (SFSM e ASFSM), pode-se utilizar os resultados de classi�ca�c~ao como fun�c~aocrit�erio da sele�c~ao de caracter��sticas (vide se�c~ao 3.3.3). Para os m�etodos adaptativos, fo-ram utilizados os parametros rmax = m�2 e b = 1, sendo m a dimensionalidade desejada.Em ambos os m�etodos autom�aticos, foi adotada a seguinte estrat�egia: se m < N=2 )fa�ca a busca para frente (SFFS ou ASFFS); sen~ao ) fa�ca a busca para tr�as (SFBS ouASFBS).

Para efetuar a sele�c~ao autom�atica de caracter��sticas, os procedimentos de busca efe-tuam um n�umero muito grande de avalia�c~oes dos sub-conjuntos de caracter��sticas (videse�c~ao 3.3). Por isso, �e importante que a fun�c~ao crit�erio n~ao consuma muito tempo de exe-cu�c~ao. Um dos classi�cadores mais r�apidos �e o de m��nima distancia ao prot�otipo (se�c~ao2.2.4), por isso empregamos esse classi�cador no c�alculo da fun�c~ao crit�erio.

5.2.3 Resultados

Atrav�es da �gura 5.6, podemos observar os resultados obtidos. Essa �gura mostra o re-sultado da fun�c~ao crit�erio proporcionado pelo sub-conjunto de caracter��stica selecionado.Foram feitos experimentos de sele�c~ao com v�arias dimensionalidades m entre 3 e 30. Essesresultados comprovam a superioridade dos m�etodos de sele�c~ao de caracter��stica, principal-mente o ASFSM. �E interessante notar tamb�em que os melhores resultados foram obtidosutilizando dimensionalidade menor que 20. Isso con�rma o fato de que um aumento non�umero de caracter��sticas n~ao garante melhora no desempenho do classi�cador.

No pior caso, a maior diferen�ca entre o resultados de SFSM e ASFSM foi de 4,35%.Mas, em termos de tempo de execu�c~ao, no pior caso, o algoritmo SFSM levou 2 segundos,

5.2 Testes com Algoritmos de Busca para Sele�c~ao de Caracter��sticas 97

Figura 5.6: Resultados obtidos (em % de taxa de acerto do classi�cador) pelos conjuntos de

caracter��sticas selecionados.

enquanto o ASFS levou 4 horas e 22 minutos para determinar o conjunto de caracter��sticas.Esse �e um fator muito relevante na escolha do algoritmo de sele�c~ao.

�E importante lembrar que o total de caracter��sticas dispon��veis �e 30 e, por isso, os re-sultados de todos os m�etodos \convergem" para o mesmo valor quando a dimensionalidadevai para 30.

Como conclus~ao, temos que a dimensionalidade ideal para esse problema depende dom�etodo de busca para sele�c~ao de caracter��sticas. No caso dos m�etodos ASFSM e SFSM,os melhores resultados j�a s~ao obtidos com 6 descritores de Fourier. No caso dos outrosdois m�etodos, os melhores resultados foram obtido com 9 descritores de Fourier.


5.3 Fun�c~ao Crit�erio Baseada em Distancia Nebulosa

para c Classes

A distancia nebulosa proposta em [Lowen and Peeters, 1998], foi de�nida para o c�alculoda distancia entre dois conjuntos nebulosos. Em [Campos et al., 2001] (trabalho des-crito na se�c~ao 3.4), propusemos a utiliza�c~ao dessa medida de distancia como fun�c~aocrit�erio para realizar sele�c~ao de caracter��sticas utilizando o m�etodo de busca propostoem [Pudil et al., 1994] (SFSM). Em aplica�c~oes pr�aticas, como reconhecimento de pessoas,usualmente h�a mais de duas classes (mais de duas pessoas a serem reconhecidas). Por isso,�e necess�ario criar uma solu�c~ao para o fato de que uma distancia s�o pode ser medida entredois elementos. Conforme mencionado anteriormente, uma solu�c~ao poss��vel �e calcular o��n�mo das distancia entre todos os pares de conjuntos, conforme a seguinte equa�c~ao:

g�p(�1; �2; � � � ; �c) = infk=2;�� ;c;l=1;�� ;m

d�p(�k; �l) (5.1)

De acordo com o que foi discutido na se�c~ao 3.4.5, a complexidade de tempo paracalcular-se d�p(�k; �l) �e de O(jT j2) + O(jT j) � O(b2), sendo, no pior caso, O(jT j2), e, nomelhor caso, O(jT j3), em que jT j �e o n�umero total de padr~oes no conjunto de treina-mento composto por duas classes. Suponhamos que cada classe possua jT j=c padr~oes detreinamento. Para implementar a equa�c~ao 5.1, �e necess�ario calcular c2 vezes a distanciad�p(�k; �l), o que resulta em uma complexidade de

O(c2) � (O(jT j2=c2) +O(jT j=c) �O(b2)) = (5.2)

O(jT j2) +O(c) �O(jT j) �O(b2) (5.3)

Isso implica que, no pior caso, o tempo de execu�c~ao da fun�c~ao crit�erio da equa�c~ao 5.1 �ede O(c) �O(jT j3) e, no melhor caso �e de O(jT j2).

Como os algoritmos de busca para sele�c~ao de caracter��sticas avaliam, atrav�es da fun�c~aocrit�erio, muitos conjuntos de caracter��sticas para chegarem ao resultado �nal, �e necess�arioque essa seja o mais e�ciente poss��vel. Para implementar uma fun�c~ao crit�erio e�ciente,com as mesmas propriedades que a fun�c~ao proposta na se�c~ao 3.4 para problemas commais de duas classes, propusemos uma fun�c~ao crit�erio baseada na seguinte diferen�ca local:

f �x(�1; �2; � � � ; �c) = inf

y;z2B(x;�);j=2;�� ;c;i=1;�� ;jj�i(y)� �j(z)j (5.4)

Note que essa equa�c~ao �e bastante semelhante �a 3.36, com a diferen�ca de que deve sercalculado o ��n�mo da diferen�ca entre os graus de pertinencia de todos os padr~oes de todasas classes que est~ao na bola B(x; �). Assim, a fun�c~ao crit�erio �ca:

f �p (�1; �2; � � � ; �c) = [

ZF

[f �x(�1; �2; � � � ; �c)]

pdx]1=p; (5.5)

5.3 Fun�c~ao Crit�erio Baseada em Distancia Nebulosa para c Classes 99

Conforme o m�etodo que utilizamos para efetuar a fuzzi�ca�c~ao (vide se�c~ao 3.4.3),�!i(xj) = 0 se xj =2 !i. Por isso, para implementar a diferen�ca local da equa�c~ao 5.4, podeser empregado um algoritmo praticamente identico ao algoritmoDiferenc�aLocal (videse�c~ao 3.4.5). A diferen�ca �e que o n�umero de padr~oes que pode ser inclu��do em uma bolaB(x; �) pode ser maior, pois �e poss��vel ocorrerem casos em que, em uma mesma bola,haja padr~oes de mais de duas classes.

Supondo novamente que cada classe possui jT j=c padr~oes de treinamento, temos queh�a um total de jT j padr~oes no espa�co de caracter��sticas. Com isso, a complexidade dessealgoritmo �e da ordem de:

O((c � jT j=c)2) +O(c � jT j=c) �O(b2) = (5.6)

O(jT j2) + O(jT j) �O(b2) (5.7)

o que signi�ca uma vantagem em rela�c~ao �a fun�c~ao da equa�c~ao 5.1 para problemas comum n�umero de classes c grande.

Assim, no melhor caso, ou seja, quando cada bola contiver apenas elementos de at�eduas classes diferentes, a complexidade dessa fun�c~ao crit�erio ser�a de O(jT j2). No entanto,no pior caso, quando todas as bolas utilizadas no c�alculo da diferen�ca local englobampadr~oes de todas as classes existentes no espa�co de caracter��sticas, a complexidade dafun�c~ao crit�erio da equa�c~ao 5.5 ser�a de:

O((c � jT j=c)2) +O(c � jT j=c) �O((c � jT j=c)2) = (5.8)

O(jT j3) (5.9)

Portanto, no pior caso esse algoritmo n~ao apresenta, vantagens sobre a fun�c~ao da equa�c~ao5.1. Por�em, �e importante ressalvar que se pode deduzir que o caso m�edio (com uma bolade tamanho pr�oximo do ideal) da fun�c~ao crit�erio da equa�c~ao 5.5 certamente ser�a maisr�apido que o da fun�c~ao da equa�c~ao 5.1.

Considerando que todas as classes possuem distribui�c~oes aproximadamente isotr�opicas,pode-se veri�car que a fun�c~ao f �p (�!1 ; �!2; � � � ; �!c) (com a diferen�ca local da equa�c~ao 5.4)possui propriedades semelhantes a todas as que foram descritas na se�c~ao 3.4.6. Os mesmosefeitos que ocorrem na diferen�ca d�

xe na distancia d�p(�!i ; �!j) em rela�c~ao �a compacida-

de, distancia entre os prot�otipos e tamanho da bola s~ao esperados para a diferen�ca localf �xpara a fun�c~ao f �p (�!1 ; �!2; � � � ; �!c). Obviamente, deve-se considerar que h�a v�arios

prot�otipos e v�arias classes de padr~oes (ao inv�es de 2), e que todas as classes possuemo comportamento mencionado. Pode-se mostrar que todas prov�aveis rela�c~oes entre osresultados de d�p(�!i ; �!j) para as possibilidades mostradas na p�agina 67 tamb�em s~aov�alidas para f �p (�!1 ; �!2; � � � ; �!c). Obviamente, devemos lembrar que aquelas rela�c~oesocorrem com 2 classes. A generaliza�c~ao dessas propriedades para c classes �e v�alida paraa fun�c~ao f �p (�!1 ; �!2 ; � � � ; �!c). Por exemplo, os casos 3.(a) e 3.(b) ocorrem na fun�c~aof �p (�!1 ; �!2; � � � ; �!c) quanto algumas classes possuem compacidade grande e outras pos-suem compacidade pequena.


5.3.1 Experimentos dessa Fun�c~ao Crit�erio para Sele�c~ao deEigeneyes

Base de imagens

Para avaliar essa fun�c~ao crit�erio associada ao m�etodo de sele�c~ao de caracter��sticas pro-posto na se�c~ao 3.4 [Campos et al., 2001], foi utilizada uma base de imagens de olhos parareconhecer pessoas. Essa base originou-se de uma base de imagens de faces com 29 clas-ses (pessoas), 6 amostras por classes (para cada pessoa havia 6 imagens de seus olhos),com fundo (background) razoavelmente controlado e resolu�c~ao de 512� 342. As imagenspossu��am pessoas com grandes varia�c~oes de pose (orienta�c~ao da cabe�ca) e diferentes ex-press~oes faciais. Foi realizada a segmenta�c~ao e a normaliza�c~ao das imagens dos olhosutilizando o mesmo procedimento descrito na se�c~ao 5.1 [Campos et al., 2000d], com adiferen�ca de que a resolu�c~ao das imagens ap�os esse pr�e-processamento �e de 13� 36 pixels.

A transformada de Karhunem-Lo�eve (PCA) foi aplicada em todas as imagens dis-pon��veis para obter os vetores da base do \espa�co de olhos" com 468 dimens~oes, chama-dos eigeneyes. Usualmente, para efetuar redu�c~ao de dimensionalidade utilizando PCA,s~ao simplesmente selecionados os m primeiros componentes (m � N), sendo o restan-te descartado. Por�em, h�a evidencias de que nem sempre essa seja a melhor estrat�egia[Theodoridis and Koutroumbas, 1999, Jain et al., 2000, Belhumeur et al., 1997], princi-palmente quando se trata de imagens de faces com grandes varia�c~oes de ilumina�c~ao eexpress~oes faciais, o que ocorre em nossa base de imagens.

Ap�os a obten�c~ao da representa�c~ao das imagens no espa�co de olhos, foi realizada umanormaliza�c~ao do espa�co de caracter��sticas em rela�c~ao �a m�edia e ao desvio padr~ao, damesma forma que a normaliza�c~ao descrita na se�c~ao 3.4.

Testes e Resultados Preliminares

Foram realizados testes considerando varia�c~oes no tamanho da bola utilizada na distancianebulosa (parametro � , que de�ne a tolerancia). Esses testes tiveram como objetivo adetermina�c~ao do tamanho da bola que propiciasse os melhores resultados de sele�c~ao decaracter��sticas para o problema abordado. Para simples �m ilustrativo, os valores obtidospela fun�c~ao crit�erio com a varia�c~ao do raio da bola � s~ao mostrados no gr�a�co da �gura5.7. Visando obter o melhor classi�cador de vizinhos mais pr�oximos para esse problema,tamb�em foram realizados testes para veri�car a varia�c~ao do desempenho do classi�cadorde K vizinhos mais pr�oximos (KNN) para K = 1; 2; 3; 4; 5.

As �guras 5.10 a 5.21) ilustram os resultados para cada valor de K. Nas �guras 5.8e 5.9, s~ao mostrados os resultados do classi�cador de distancia ao prot�otipo aplicado noconjunto de caracter��sticas determinado pelo nosso m�etodo de sele�c~ao. Cada gr�a�co ilustraa varia�c~ao da taxa de acerto de uma t�ecnica de classi�ca�c~ao em fun�c~ao do tamanho da bola


Figura 5.7: Resultado da fun�c~ao crit�erio com a varia�c~ao de � .

utilizada na distancia nebulosa. Mais especi�camente, no eixo das abscissas, encontra-se o raio da bola � , enquanto no eixo das ordenadas, encontra-se a taxa de acerto dosclassi�cadores em percentagem. Nos experimentos realizados, foi efetuada uma sele�c~ao decaracter��sticas em busca das 15 melhores caracter��sticas (eigeneyes). Os resultados foramcomparados com o m�etodo mais tradicional de efetuar-se redu�c~ao de dimensionalidadecom PCA, ou seja, selecionando simplesmente os 15 primeiros componentes.

Para cada t�ecnica de classi�ca�c~ao s~ao mostrados os resultados obtidos com a utiliza�c~aodos 15 eigeneyes selecionados por nossa t�ecnica (mostrados nas linhas cont��nuas) emcompara�c~ao com o resultado obtido com a utiliza�c~ao dos 15 primeiros eigeneyes (mostradona linha tracejada).

Foram realizados v�arios testes de classi�ca�c~ao com os dois classi�cadores utilizados:K vizinhos mais pr�oximos (KNN) e distancia ao prot�otipo. No caso do classi�cador dedistancia ao prot�otipo, os prot�otipos foram de�nidos atrav�es da m�edia dos padr~oes detreinamento de cada classe.

Conforme pode ser notado pelas �guras 5.8 e 5.9, foram realizadas duas bateriasde testes com o classi�cador de distancia ao prot�otipo. Na primeira, todos os padr~oesforam utilizados para treinar e testar o classi�cador (\treinamento=testes"). Na segunda,foram utilizados 2=3 dos padr~oes dispon��veis para treinar o classi�cador (determinar osprot�otipos) e o restante para testar.

O mesmo foi realizado com o classi�cador de K vizinhos mais pr�oximos. Al�em disso,


Figura 5.8: Distancia ao Prot�otipo, treinando e testando com todos os padr~oes dispon��veis.

foram realizados experimentos utilizando a estrat�egia leave-one-out (vide �guras 5.10a 5.21). Nessa estrat�egia, para cada classe, o conjunto de treinamento inicialmente �ecomposto por todos os padr~oes, menos o primeiro, o qual �e utilizado para testar a classi�-ca�c~ao. Na segunda itera�c~ao de testes, o conjunto de treinamento �e composto por todos ospadr~oes menos o segundo, o qual �e utilizado para teste. Esse processo repete-se at�e quetodos os padr~oes de cada classe tenham sido utilizados para testar o classi�cador (como restante sendo utilizado para treinar). Ao �nal, �e calculada a taxa de acerto m�edia, aqual �e mostrada nos gr�a�cos referidos (juntamente com os outros resultados).

Conforme mostrado nas �guras 5.10 a 5.21, foram realizados experimentos com o clas-si�cador de K vizinhos mais pr�oximos variando o valor de K entre 1 e 5. Os resultadoscom K = 2 n~ao foram mostrados, pois esses s~ao identicos aos obtidos com K = 1. �E impor-tante ressalvar que para evitar problemas de empate, os quais poderiam ocorrer quandoo n�umero de vizinhos pr�oximos pertencentes a classes diferentes �e igual, foi utilizada umaestrat�egia simples de desempate que d�a prioridade �a classe que possui um padr~ao maispr�oximo do elemento de teste.

Dentre os pontos mais importantes dos resultados obtidos, nota-se que ao se treinaro classi�cador com 2/3 dos padr~oes e testar com o restante, para v�arios valores de � ,foram obtidos resultados superiores �aqueles obtidos com a utiliza�c~ao dos 15 primeiroseigeneyes. Tamb�em �e not�avel que, para K = 3, o mesmo ocorreu ao treinar e testar oclassi�cador com todos os padr~oes dispon��veis. Os melhores resultados ocorreram algumas


Figura 5.9: Distancia ao Prot�otipo, treinando com 2/3 dos padr~oes e testando com os 1/3

restantes.

vezes quando foi utilizada uma bola de raio � entre 1.2 e 2.8.

Um resultado not�avel �e o que est�a ilustrado na �gura 5.10, em que, para todos osvalores de � , a taxa de acerto obtida foi de 100%, tanto para o subconjunto obtido pelonosso m�etodo quando com a utiliza�c~ao das 15 primeiras caracter��sticas. Isso se deve aofato de que, quando K = 1, se o conjunto de testes tiver sido usado no treinamento, n~aoh�a erro ao se utilizar a transformada de PCA com um n�umero razo�avel de componentesprincipais.


Figura 5.10: K vizinhos mais pr�oximos (K=1), treinando e testando com todos os padr~oes

dispon��veis.

Figura 5.11: K vizinhos mais pr�oximos (K=1), treinando com 2/3 dos padr~oes e testando com

os 1/3 restantes.


Figura 5.12: K vizinhos mais pr�oximos (K=1), leave-one-out.


dispon��veis.



os 1/3 restantes.




dispon��veis.


os 1/3 restantes.




dispon��veis.



os 1/3 restantes.



Figura 5.22: Histograma das caracter��sticas selecionadas em todos os experimentos realizados.

O gr�a�co da �gura 5.22 �e o histograma dos componentes selecionados ap�os todos os32 esperimentos. Analisando o histograma, pode-se veri�car que, se for criado um sub-conjunto Y composto pelas caracter��sticas que foram selecionadas mais de 6 vezes, essesub-conjunto teria as seguintes caracter��sticas:

Y = fx1; x2; x4; x5; x7; x8; x10; x11; x13; x16; x168; x225; x379; x422; x427; x441)g (5.10)

Isso mostra que, segundo o crit�erio utilizado (m�axima fun�c~ao crit�erio nebulosa), umconjunto formado pelas 15 primeiras caracter��sticas n~ao �e o melhor conjunto de carac-ter��sticas.

5.3.2 Resultados utilizando outras fun�c~oes crit�erio

Para veri�car a e�ciencia do nosso m�etodo, tamb�em realizamos testes de sele�c~ao de ca-racter��sticas utilizando outros crit�erios. Foram utilizados como fun�c~oes crit�erio as taxasde acerto do classi�cador KNN, com K = 3 para as seguintes estrat�egias:


� treinamento e teste com todo o conjunto;

� treinamento com 2=3 do conjunto e testes com o restante;

� leave-one-out.

O gr�a�co da �gura 5.23 mostra os resultados obtidos com essas fun�c~oes crit�erio em com-para�c~ao com a nossa fun�c~ao crit�erio e com a sele�c~ao dos 15 primeiros eigeneyes. No casode nossa fun�c~ao crit�erio, os resultados mostrados nesse gr�a�co s~ao aqueles obtidos com osmelhores valores de � . Cada coluna representa um crit�erio utilizado (vide legenda late-ral), sendo que, no eixo das abscissas, est~ao os m�etodos utilizados para testar os conjuntosobtidos a partir da sele�c~ao, enquanto no eixo das ordenadas est~ao as taxas de acerto em%. Parte desses resultados ser~ao publicados em [Campos and Cesar-Jr, 2001].

Figura 5.23: Resultados com fun�c~oes crit�erio baseadas no desempenho de classi�cadores em

compara�c~ao com os resultados da fun�c~ao nebulosa e com a sele�c~ao dos 15 primeiros autovetores.

Obviamente, um conjunto que foi selecionado utilizando uma determinada estrat�egiade classi�ca�c~ao proporciona resultados muito bons quando a mesma estrat�egia foi utilizadapara avaliar o conjunto resultante. Os experimentos relacionados com o classi�cador KNNforam realizados utilizando K = 3.

A �gura 5.24 mostra o histograma dos componentes selecionados utilizando as fun�c~oescrit�erio baseadas no desempenho de classi�cadores.


Figura 5.24: Histograma das caracter��sticas selecionadas atrav�es de fun�c~oes crit�erio baseadas

no desempenho de classi�cadores.

Comparando-se os resultados mostrados na �gura 5.23, nota-se que, dentre essasfun�c~oes crit�erio, a que proporcionou melhores resultados quando o conjunto selecionado foiavaliado por outras estrat�egias de classi�ca�c~ao foi KNN leave-one-out. Em segundo lugar,�caram os resultados obtidos com a sele�c~ao dos 15 primeiros autovetores. Os resultadosobtidos com nossa fun�c~ao crit�erio �caram em terceiro lugar. Esse �e um resultado bastantepromissor, j�a que os resultados obtidos com o uso do desempenho de classi�cadores comofun�c~ao crit�erio s~ao \viciados" a esses classi�cadores, proporcionando os melhores resulta-dos. Por�em, nota-se que a simples utiliza�c~ao das 15 primeiros caracter��sticas proporcionoumelhores resultados que a nossa fun�c~ao crit�erio em mais de metade dos experimentos. Issosugere que nossa fun�c~ao crit�erio deve ser aprimorada. A seguir h�a algumas sugest~oes demedidas para aprimorar nossa fun�c~ao crit�erio.

5.3.3 Sugest~oes para Aperfei�coar a Fun�c~ao Crit�erio

Uma forma de aperfei�coar a fun�c~ao crit�erio que n�os propusemos �e a utiliza�c~ao de maissuportes por classes. O uso de apenas um suporte por classe (como foi feito) n~ao �e uma boamaneira de se obter uma descri�c~ao completa das tipicalidades de um aglomeramento noespa�co de claracter��sticas. Al�em disso, a fun�c~ao de fuzzy�ca�c~ao utilizada �e muito simples


e n~ao descreve com precis~ao a distribui�c~ao dos padr~oes dos conjuntos nebulosos, poissomente os padr~oes coincidentes com os suportes (prot�otipos) dos conjuntos possuem graude pertinencia m�aximo (igual a 1). H�a m�etodos de fuzzy�ca�c~ao que fazem com que regi~oes(n~ao pontuais) dos conjuntos tenham grau de pertinencia m�aximo. Outro ponto que podeser aprimorado no processo de fuzzy�ca�c~ao refere-se ao grau de pertinencia dos padr~oes�as diferentes classes. Neste trabalho, foi considerado que �!i(xj) = 0, 8xj =2 !i. Com isso,a distancia nebulosa perde informa�c~ao a respeito da distancia entre os prot�otipos dessesdois conjuntos (!i e !j : xj 2 !j) quando a bola n~ao for grande o bastante para englobarelementos das duas classes. Para eliminar esse problema, �e necess�ario implementar umanova fun�c~ao de fuzzy�ca�c~ao que considere o grau de pertinencia de cada padr~ao a todosos conjuntos existentes no espa�co de caracter��sticas.


5.4 Sistema para Reconhecimento a partir de Seq�uen-

cias de V��deo

5.4.1 Introdu�c~ao e Descri�c~ao do M�etodo

Esta se�c~ao cont�em a proposta de uma aplica�c~ao pr�atica para reconhecimento de pessoasque relaciona os t�opicos que foram estudados e desenvolvidos neste trabalho de mestrado.O uxograma dessa proposta pode ser visto na �gura 5.25, tendo sido documentado em[Campos et al., 2000b]. N~ao foram realizados testes integrando todo o sistema, por�em �eproposta a utiliza�c~ao dos m�etodos de redu�c~ao de dimensionalidade e de classi�ca�c~ao deimagens est�aticas j�a implementados, os quais foram descritos nesta disserta�c~ao.

Basicamente, esse projeto foi criado a partir da uni~ao das duas id�eias para redu�c~aode dimensionalidade discutidas nesta disserta�c~ao: o emprego de imagens menores (se�c~ao5.1) e a utiliza�c~ao de m�etodos autom�aticos de sele�c~ao de caracter��sticas (se�c~ao 5.2.1).

O sistema de reconhecimento proposto dever�a utilizar quatro recortes da imagem deentrada: para os dois olhos, o nariz e a boca. As tarefas de detec�c~ao e persegui�c~ao depontos caracter��sticos da face, bem como a de normaliza�c~ao das imagens de olhos, narize boca, n~ao fazem parte do escopo deste projeto, sendo importante ressalvar que essastarefas foram realizadas atrav�es de um m�etodo baseado em Gabor Wavelet Networks[Feris and Cesar-Jr, 2001]. Esse m�etodo detecta e persegue os pontos caracter��sticos, de-terminando os parametros da transforma�c~ao a�m que leva uma imagem frontal a umadeterminada escala e posi�c~ao em que os pontos se encontram. Atrav�es desses parametros,pode-se realizar a inversa da transforma�c~ao a�m e obter imagens normalizadas. Esse pro-cesso de normaliza�c~ao �e importante para reduzir as varia�c~oes dos padr~oes introduzidaspelos movimentos da face, o que melhora o desempenho do sistema de reconhecimento.

As imagens utilizadas tanto para treinar quanto para testar o sistema de reconheci-mento s~ao imagens das regi~oes caracter��sticas normalizadas com rela�c~ao �a transforma�c~aoa�m. Para efetuar o treinamento, deve ser utilizada uma seq�uencia de v��deo por pessoa.O reconhecimento deve ser feito utilizando an�alise de componentes principais (PCA), comuma base para cada regi~ao da face. Dessa forma, �e criada uma base para olhos esquer-dos, outra para olhos direitos, uma para os narizes e outra para as bocas, obtendo-se aseigenfeatures (eigenlefteyes, eigenrighteyes, eigennoses e eigenmouth).

Ap�os a obten�c~ao de todas as eigenfeatures, essas dever~ao ser concatenadas de formaa criar um espa�co de caracter��sticas formado por todas as eigenfeatures. Para reduzir adimensionalidade desse espa�co, �e proposta a aplica�c~ao do algoritmo de sele�c~ao de carac-ter��sticas descrito na se�c~ao 5.3. A �gura 5.26 esquematiza o m�etodo de gera�c~ao do espa�code caracter��sticas descrito.

5.4 Sistema para Reconhecimento a partir de Seq�uencias de V��deo 115

5.4.2 Motiva�c~ao

A utiliza�c~ao de um algoritmo de sele�c~ao de caracter��sticas �e motivada pelo fato de quetais m�etodos podem ser utilizados para efetuar fus~ao de multisensores [Somol et al., 2001,Jain and Zongker, 1997]. Considerando-se que as representa�c~oes de cada regi~ao carac-ter��stica da face no espa�co PCA podem ser vistas como dados provenientes de sensoresdiferentes (cameras), surge a necessidade de reduzir a dimensionalidade de maneira a va-lorizar os sensores com maior poder de discrimina�c~ao. Al�em disso, como podemos concluirda se�c~ao 5.2.1, a aplica�c~ao de algoritmos de sele�c~ao de caracter��sticas pode proporcionarmelhora na taxa de acerto de classi�cadores.

Outro motivo �e que, conforme mencionado na se�c~ao 3.2.2, a transformada PCA fazuma rota�c~ao no espa�co de caracter��sticas de forma que o primeiro vetor da base �que nadire�c~ao em que h�a mais varia�c~ao entre os padr~oes, o segundo vetor na dire�c~ao em queocorre a segunda maior varia�c~ao perpendicular ao primeiro, e assim por diante. Ou seja,a varia�c~ao espec��ca entre elementos de classe diferente n~ao �e otimizada.

Em [Jain et al., 2000], os autores mostram os resultados de uma abordagem de reco-nhecimento parecida com a abordagem proposta aqui e na se�c~ao anterior. Trata-se daaplica�c~ao de sele�c~ao de caracter��sticas usando a t�ecnica de busca utuante (SFSM) sobreas caracter��sticas obtidas a partir da transformada PCA sobre imagens de d��gitos. Ouso dos autovetores selecionados proporcionou resultados superiores ao uso dos primeirosautovetores.

Outro fator motivador para a aplica�c~ao de sele�c~ao de caracter��sticas sobre PCA est�aem um dos resultados obtidos em [Belhumeur et al., 1997], em que o desempenho de umsistema de reconhecimento de pessoas baseado em PCA foi melhorado com a elimina�c~aodos tres primeiros auto-vetores. Os autores de [Belhumeur et al., 1997] justi�cam que h�aalgumas evidencias de que esses auto-vetores s~ao in uenciados pelas mudan�cas de ilumi-na�c~ao e n~ao por varia�c~oes inter-classes. Provavelmente, esse fato ocorre principalmenteporque, em [Belhumeur et al., 1997], foram realizados testes com imagens apresentandograndes varia�c~oes de ilumina�c~ao, e os primeiros auto-vetores apontam para o sentido emque h�a maior varia�c~ao dos dados. Esse resultado fornece evidencias de que �e poss��velobter resultados melhores aplicando um m�etodo de sele�c~ao de caracter��sticas sobre aseigenfeatures ao inv�es de utilizar simplesmente os primeiros auto-vetores.

Em [Moghaddam and Pentland, 1994] os autores declararam que n~ao estava de�nidauma estrat�egia de realizar fus~ao �otima das informa�c~oes obtidas das diferentes regi~oes daface. Tanto em [Moghaddam and Pentland, 1994] como em [Brunelli and Poggio, 1993],foi utilizado um classi�cador para cada regi~ao da face. Para combinar os resultados, foiutilizado um m�etodo de super-classi�ca�c~ao.

Tamb�em conhecidos como \m�etodos de combina�c~ao", os super-classi�cadores s~aoutilizados quanto se disp~oe de v�arios resultados de classi�ca�c~ao e deseja-se combinar osresultados para decidir a qual classe os dados pertencem. Tais esquemas podem ser apli-


cados quando s~ao utilizados sistemas de multi-sensores e v�arios classi�cadores diferentespara classi�car um determinado conjunto de dados, ou quando v�arios padr~oes separadosformam um conjunto que pode pertencer �a mesma classe. Um exemplo desse caso �e o deseq�uencias de v��deo.

Quando s~ao utilizados classi�cadores que informam qual o grau de certeza de se clas-si�car um padr~ao a uma classe, como o casamento, podem ser utilizados m�etodos declassi�ca�c~ao baseados em opera�c~oes sobre os resultados de diversas classi�ca�c~oes, comosoma, m�edia, mediana e m�aximo. Tamb�em pode ser aplicado um outro classi�cador queutiliza um vetor de caracter��sticas constru��do a partir dos resultados dos outros classi�ca-dores [Brunelli and Poggio, 1993]. Por outro lado, se os classi�cadores a serem combinadosinformam apenas qual a classe em que o padr~ao provavelmente pertence, deve ser utili-zado, por exemplo, o esquema de vota�c~ao. Maiores detalhes sobre super-classi�cadoresencontram-se em [Jain et al., 2000].

No caso de [Brunelli and Poggio, 1993], a classi�ca�c~ao das regi~oes foi feita usando tem-plate matching e o m�etodo de super-classi�ca�c~ao utilizado foi a soma dos resultados (grausde similaridade dos templates de cada pessoa). J�a em [Moghaddam and Pentland, 1994],a classi�ca�c~ao das regi~oes foi feita por vizinho mais pr�oximo no eigenspace e a super-classi�ca�c~ao, atrav�es do esquema de vota�c~ao.

5.4.3 Detalhamento

A estrutura proposta aqui (sele�c~ao de eigenfeatures) �e uma forma de fundir os dadospara a utiliza�c~ao de um �unico classi�cador para todas as regi~oes das imagens. Se, aoinv�es de fundir os dados dessa forma, fosse utilizado um classi�cador para cada regi~ao eum superclassi�cador para unir os resultados, certamente o processo de reconhecimentoseria mais complexo e mais lento. Um super-classi�cador deve ser utilizado somente paracombinar os resultados de classi�ca�c~ao de cada quadro da seq�uencia de v��deo.

Para efetuar o reconhecimento de pessoas em seq�uencias de v��deo, primeiro os qua-dros devem ser representados no espa�co de caracter��sticas criado a partir de eigenfeatureselection. Inicialmente o espa�co de caracter��sticas deve ser povoado pelos elementos detreinamento obtidos a partir de seq�uencias de v��deo em que as pessoas variam a pose ea express~ao facial. Dessa forma, cada classe pode ter muitos elementos de treinamen-to. Posteriormente, para cada pessoa, dever�a ser utilizada uma outra seq�uencia de v��deopara testar o sistema. Cada quadro das seq�uencias de teste �e classi�cado individualmen-te atrav�es de um classi�cador de m��nima distancia ao prot�otipo ou de K-vizinhos maispr�oximos (descritos na se�c~ao 2.2). Conforme dito anteriormente, um super-classi�cador�e utilizado para decidir o resultado da classi�ca�c~ao a partir dos resultados obtidos pelosquadros individuais da seq�uencia. Para efetuar essa tarefa, foi proposta a utiliza�c~ao doesquema de vota�c~ao.


5.4.4 Outras aplica�c~oes

Al�em do reconhecimento de pessoas, uma outra poss��vel aplica�c~ao da an�alise dos re-sultados de sele�c~ao de caracter��sticas �e a determina�c~ao da importancia de cada regi~aocaracter��stica da face nos processos de classi�ca�c~ao ou reconhecimento de express~oes fa-ciais. Em [Brunelli and Poggio, 1993], foram realizadas an�alises experimentais as quaismostraram que a ordem decrescente da taxa de acerto das regi~oes caracter��sticas, quandoessas s~ao tomadas individualmente para reconhecer pessoas, �e a seguinte:

1. olhos;

2. nariz;

3. boca;

4. toda a face.

Os autores mencionaram que esse resultado �e consistente com a habilidade humana parareconhecer pessoas.

Com a aplica�c~ao do sistema descrito nesta se�c~ao, pode ser feita uma an�alise do n�umerode autovetores selecionados para cada regi~ao da face. Essa an�alise pode fornecer resultadosmais completos a respeito da importancia de cada regi~ao da face para efetuar diferentestarefas, como reconhecimento de pessoas e reconhecimento de express~oes faciais.

5.4.5 Discuss~ao

Conforme mencionado no cap��tulo 4, o maior problema enfrentado no projeto de sistemasde reconhecimento de faces a partir de seq�uencias de v��deo �e a di�culdade de avaliar-se taissistemas. O principal motivo �e a ausencia de bases p�ublicas de seq�uencias de imagens paraque possam ser utilizadas na realiza�c~ao de testes e estabelecimento de uma benchmarkinternacional. Uma base de seq�uencias ideal deve ser constitu��da por v��deos de muitaspessoas diferentes, e sem problemas de auto-oclus~ao e com ilumina�c~ao razoavelmentecontrolada.

Como este trabalho volta-se principalmente para sele�c~ao de caracter��sticas, a imple-menta�c~ao do sistema proposto nesta se�c~ao �ca como uma proposta de aplica�c~ao do nossom�etodo a um problema pr�atico. Com a futura disponibiliza�c~ao ou mesmo cria�c~ao de basesde seq�uencias de v��deo, esta proposta poder�a ser avaliada.


Figura 5.25: Esquema do projeto de reconhecimento a partir de seq�uencias de v��deo.


Figura 5.26: Gera�c~ao do espa�co de caracter��sticas.

Cap��tulo 6

Conclus~oes

A pesquisa em reconhecimento de faces ainda continua com muitos desa�os em aberto.Um deles �e o de reconhecimento a partir de seq�uencias de v��deo com pessoas agindo natu-ralmente em ambientes sem controle de ilumina�c~ao. Um dos problemas mais importantespara abordar-se esse desa�o �e o de redu�c~ao de dimensionalidade.

Neste trabalho, foram estudadas v�arias t�ecnicas de reconhecimento de padr~oes quese associam a reconhecimento de faces. O enfoque foi dado a m�etodos de redu�c~ao dedimensionalidade, principalmente em se tratando de sele�c~ao de caracter��sticas.

Esses estudos culminaram na realiza�c~ao de testes pr�aticos com algumas t�ecnicas deredu�c~ao de dimensionalidade, bem como na elabora�c~ao de novas estrat�egias para efetuarsele�c~ao de caracter��sticas. Tamb�em foi proposto (juntamente com outro estudante dogrupo de pesquisa) um esquema de reconhecimento de pessoas a partir de seq�uenciasde v��deo utilizando somente regi~oes caracter��sticas das faces (olhos nariz e boca). Mascomo o cerne desta disserta�c~ao �e o estudo de t�ecnicas de sele�c~ao de caracter��sticas e suasaplica�c~oes em reconhecimento de faces, a realiza�c~ao de testes com seq�uencias de v��deo �coucomo trabalho futuro. Por�em, a implementa�c~ao de t�ecnicas e�cientes que possibilitam arealiza�c~ao de classi�ca�c~ao em seq�uencias de v��deo j�a foi efetuada.

Pode-se notar que foram efetuadas v�arias contribui�c~oes pontuais no decorrer do desen-volvimento desse projeto de pesquisa. Deve-se ressaltar que a principal contribui�c~ao foia elabora�c~ao de uma nova fun�c~ao crit�erio para sele�c~ao de caracter��sticas com um m�etodoe�ciente de busca. Essa fun�c~ao crit�erio se baseia em uma distancia nebulosa que foiproposta recentemente. O m�etodo de busca utilizado tamb�em �e bastante recente. Os re-sultados experimentais obtidos mostraram que a abordagem proposta tem bom potencial

122 Conclus~oes

para algumas aplica�c~oes.

Devido �a complexidade do problema de reconhecimento de pessoas a partir de seq�uen-cias de v��deo perante a atual tecnologia, �e de se esperar que ainda haja muito trabalho a serfeito. No desenvolvimento desta disserta�c~ao, alguns pequenos passos para a elabora�c~aode m�etodos de redu�c~ao de dimensionalidade (principalmente sele�c~ao de caracter��sticas)foram dados, mas restaram v�arias tarefas a serem desenvolvidas futuramente. Dentreelas, de imediato podemos citar as seguintes:

� utilizar mais prot�otipos no processo de fuzzy�ca�c~ao dos conjuntos para o m�etodode sele�c~ao de caracter��sticas utilizando a distancia nebulosa baseada em tolerancia(se�c~ao 3.4);

� para o mesmo problema, realizar testes com outras fun�c~oes de fuzzy�ca�c~ao;

� localizar (ou criar) uma base de seq�uencias de imagens de pessoas em movimentopara efetuar testes com os algoritmos envolvidos no projeto ilustrado na se�c~ao 5.4;

� testar diversos algoritmos superclassi�cadores nesse mesmo projeto;

� investigar formas de extrair informa�c~oes obtidas exclusivamente a partir do movi-mento de faces;

� utilizar os novos m�etodos de busca para sele�c~ao de caracter��sticas propostos pelo gru-po respons�avel pela publica�c~ao dos m�etodos SFSM e ASFSM [Kittler et al., 2001];

� fazer uma compara�c~ao de desempenho entre LDA e PCA com sele�c~ao de carac-ter��sticas.

Essas s~ao apenas algumas propostas, mas muitas outras podem surgir ap�os a leituradeste texto. Recomendamos que as novas id�eias implementadas sejam comparadas comos outros m�etodos j�a existentes utilizando as mesmas bases de dados. Pode-se notar queos m�etodos propostos aqui n~ao foram comparados com todos seus similares existentes, oque abre mais uma possibilidade de continua�c~ao deste trabalho.

Conforme mencionado anteriormente, foi proposto um esquema de reconhecimento depessoas a partir de seq�uencias de v��deo. Dentro desse contexto, este trabalho concentra-se na parte de sele�c~ao de caracter��sticas. As outras partes daquele esquema podem serdesenvolvidas e integradas futuramente por outros pesquisadores.

Apendice A

Nota�c~ao Utilizada

x, y, z Vetores de observa�c~ao ou padr~oes. Geralmente x e yforam usados para representar padr~oes em espa�cos decaracter��sticas diferentes

x, y, z, f Caracter��sticas; vari�aveis aleat�orias (na se�c~ao 3.3);sinais (na se�c~ao 3.2.1)

b Escalar; amostragem da vari�avel aleat�oria de um vetoraleat�orio x

� Conjunto de todas as tuplas de caracter��sticas(se�c~ao 3.3)

x Uma aproxima�c~ao de x

y A representa�c~ao de um padr~ao x ap�os extra�c~aode caracter��sticas com redu�c~ao de dimensionalidade

�, Y Conjuntos ou seq�uencias de observa�c~oes em diferentesespa�cos de caracter��sticas

KNN Regra de classi�cac~ao por K vizinhos mais pr�oximos

I Espa�co de imagens; espa�co de caracter��sticas

124 Nota�c~ao Utilizada

de dimensionalidade elevada

F Espa�co de faces; espa�co de caracter��sticas ap�osextra�c~ao de caracter��sticas.

Y, X , Z, T , U Conjuntos (ou tuplas) de caracter��sticas (feature sets) - se�c~ao 3.3

N Dimensionalidade total do espa�co de caracter��sticas F

m Dimensionalidade de um sub-espa�co de F (m � N)

! Uma classe de padr~oes (cluster)

Conjunto de todas as classes de padr~oes

c N�umero de classes

T Conjunto de treinamento

jT j N�umero de exemplos no conjunto de treinamento;cardinalidade de T

X Conjunto de todos os exemplos de treinamento (se�c~ao 3.2.2)(vetores de observa�c~ao), e de testes (se�c~ao 2.2)

D Fronteira de decis~ao

Si Regi~ao (parti�c~ao) do espa�co de caracter��sticas correspondente�a classe !i

Sw Matriz de espalhamento intra-classes

Sb Matriz de espalhamento inter-classes

Sk(xj) Signi�cancia da caracter��stica xj (se�c~ao 3.3)

Bx Uma bola no espa�co de caracter��sticas centrado no padr~ao x

�(�) Classi�cador

H(�) Fun�c~ao de extra�c~ao de caracter��sticas

125

H Matriz mudan�ca de base

i, j, r, s,

n, p, q, l, o �Indices

K O n�umero de vizinhos veri�cados pelo classi�cador K-NN

� Autovalor

� Desvio padr~ao

� Vetor m�edio

� Matriz de covariancia

u Autovetor

Zt Transposta da matriz Z

I Matriz identidade

det(Z) Determinante da matriz Z

IRN Espa�co N-dimensional de Reais

f(�) Fun�c~ao (por exemplo, fun�c~ao crit�erio na se�c~ao 5.3.1)

d(�) Fun�c~ao de distancia

h(�) Fun�c~ao de similaridade

dE(�) Distancia Euclidiana

dM(�) Distancia de Mahalanobis

P (�) L(�) Probabilidade

E(�) Esperan�ca

L(�) Semelhan�ca

R(�) Risco


p(�) Fun�c~ao densidade de probabilidade

Pi Probabilidade a priori da classe !i

P (!jjx) Probabilidade a posteriori da classe !i

ai(x) Probabilidade de acerto ao classi�car-se um dado x em !i

A Taxa de acerto de um classi�cador

E Taxa de erro de um classi�cador

N (�;�) Fun�c~ao Gaussiana (distribui�c~ao normal)

�(�) Fun�c~ao de erro

C(�) Fun�c~ao de perda; custo

e(x) Probabilidade de erro de classi�ca�c~ao do padr~ao x

J(�) Fun�c~ao crit�erio

jjxjj Norma Euclidiana de x

�!i(x) Fun�c~ao de pertinencia de x �a classe !i

C Conjunto de todos os conjuntos nebulosos de�nidos em F

p!ji O i-�esimo suporte do conjunto nebuloso !j

exp(:) Exponencial neperiano (e(�))

t Vari�avel de tempo

f Vari�avel de freq�uencia

F (�) Transformada de Fourier

T0 Per��odo de uma fun�c~ao x(t) (na se�c~ao 3.2.1),e tupla de caracter��sticas (na se�c~ao 3.3)

127

SFSM M�etodos de busca seq�uencial utuante(Sequential Floating Search Mehtods)

SFFS Busca seq�uencial utuante para frente(Sequential Floating Forward Search)

SFBS Busca seq�uencial utuante adaptativa para tr�as(Sequential Floating Backward Search)

ASFSM M�etodos de busca seq�uencial utuante adaptativa(Adaptive Sequential Floating Search Mehtods)

ASFFS Busca seq�uencial utuante adaptativa para tr�as(Sequential Floating Backward Search)

ASFBS Busca seq�uencial utuante para tr�as(Sequential Floating Backward Search)

h Altura de uma imagem (em pixels)

w Largura de uma imagem (em pixels)

Referencias Bibliogr�a�cas

[Backer, 1995] Backer, E. (1995). Computer-Associated Reasoning in Cluster Analysis.Prentice Hall.

[Barrera et al., 2000] Barrera, J., Terada, R., Jr, R. H., and Hirata, N. S. T. (2000).Automatic programming of morphological machines by pac learning. Fundamenta In-formaticae, 41(1-2):229{258.

[Belhumeur et al., 1997] Belhumeur, P. N., Hespanha, J. P., and Kriegman, D. J. (1997).Eigenfaces vs. �sherfaces: Recognition using class speci�c linear projection. IEEETransactions on Pattern Analysis and Machine Intelligence, 19(7):711{720.

[Bichsel, 1995] Bichsel, M., editor (1995). 1st International Conference on Face and Ges-ture Recognition. MultiMedia Laboratory Department of Computer Science universityof Zurich, Zurich, Switzerland. Proceedings.

[Bloch, 1999] Bloch, I. (1999). On fuzzy distances and their use in image processing underimprecision. Pattern Recognition, 11(32):1873{1895.

[Bonventi-Jr. and Costa, 2000] Bonventi-Jr., W. and Costa, A. H. R. (2000). Compa-ra�c~ao entre m�etodos de de�ni�c~ao de conjuntos nebulosos de cores para classi�ca�c~ao depixels. In 1st. Workshop on Arti�cial Intelligence and Computer Vision (parallel toIBERAMIA'2000-SBIA'2000), Atibaia - Brasil. IME - USP.

[Brunelli and Falavigna, 1995] Brunelli, R. and Falavigna, D. (1995). Person identi�cati-on using multiple cues. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 17:955{966.

[Brunelli et al., 1995] Brunelli, R., Falavigna, D., Poggio, T., and Stringa, L. (1995).Automatic person recognition by acoustic and geometric features. MVA, 8:317{325.

[Brunelli and Poggio, 1993] Brunelli, R. and Poggio, T. (1993). Face recognition: Fea-tures versus templates. IEEE Trans. on Pattern Analysis and Machine Intelligence,15(10):1042{1052.

130 REFERENCIAS BIBLIOGR�AFICAS

[Bruno et al., 1998] Bruno, O. M., Cesar-Jr., R. M., Consularo, L. A., and da F. Costa,L. (1998). Automatic feature selection for biological shape classi�cation in synergos. In11th SIBGRAPI, pages 363{370, Rio de Janeiro - RJ. IEEE Computer Society Press.

[Burton et al., 1999] Burton, A. M., Wilson, S., and Cowan, M. (1999). Face recognitionin poor quality video: Evidence from security surveillance. Psychological Science.

[Callioli et al., 1998] Callioli, C. A., Rodriguese, H. H., and Costa, R. C. F. (1998).�Algebra Linear e Aplica�c~oes. Editora Atual, SP, sexta edition.

[Campos et al., 2001] Campos, T. E., Bloch, I., and Cesar-Jr, R. M. (2001). Featureselection based on fuzzy distances between clusters: First results on simulated data. InLecture Notes in Computer Science, Rio de Janeiro, Brasil. Springer-Verlag Press.

[Campos and Cesar-Jr, 2001] Campos, T. E. and Cesar-Jr, R. M. (2001). Eigeneyes se-lection using the performance of a classi�er for fast face recognition. In 53a. Reuni~aoAnual da SBPC, Salvador - BA, Brasil.

[Campos et al., 2000a] Campos, T. E., Feris, R. S., and Cesar-Jr, R. M. (2000a). Discri-mina�c~ao de faces � n~ao-faces usando descritores de fourier. In 52a. Reuni~ao Anual daSBPC, Brasilia - DF, Brasil.

[Campos et al., 2000b] Campos, T. E., Feris, R. S., and Cesar-Jr, R. M. (2000b). Aframework for face recognition from video sequences using gwn and eigenfeature se-lection. In 1st. Workshop on Arti�cial Intelligence and Computer Vision (parallel toIBERAMIA'2000-SBIA'2000), pages 141{145, Atibaia - SP, Brasil. IME - USP.

[Campos et al., 2000c] Campos, T. E., Feris, R. S., and Cesar-Jr, R. M. (2000c). Improvedface � non-face discrimination using fourier descriptors through feature selection. In13th SIBGRAPI, pages 28{35. IEEE Computer Society Press.

[Campos et al., 2000d] Campos, T. E., Feris, R. S., and Jr., R. M. C. (2000d). Eigenfacesversus eigeneyes: First steps towards performance assessment of representations for facerecognition. In Lecture Notes in Arti�cial Intelligence, volume 1973, pages 197{206,Acapulco, Mexico. Springer-Verlag Press.

[Cascia and Sclaro�, 1999] Cascia, M. L. and Sclaro�, S. (1999). Fast, reliable head trac-king under varying illumination. In IEEE Conference on Computer Vision and PatternRecognition.

[Castleman, 1996] Castleman, K. R. (1996). Digital Image Processing. Englewood Cli�s,NJ.

[Cesar-Jr, 1997] Cesar-Jr, R. M. (1997). An�alise Multi-Escala de Formas Bidimensionais.PhD thesis, IFSC - USP, S~ao Carlos.

REFERENCIAS BIBLIOGR�AFICAS 131

[Chellappa et al., 1995] Chellappa, R., Wilson, C. L., and Sirohey, S. (1995). Human andmachine recognition of faces: A survey. Proceedings of the IEEE, 83(5):703{740.

[Cormen et al., 1990] Cormen, T. H., Leiserson, C. E., and Rivest, R. L. (1990). Intro-duction to Algorithms. The MIT Press, McGraw-Hill Book Company.

[Cox et al., 1995] Cox, I. J., Ghosn, J., and Yianilos, P. N. (1995). Feature-based recog-nition using mixture-distance. Technical report, NEC Research Institute.

[Crowley, 2000] Crowley, J. L., editor (2000). 4th IEEE International Conference on Faceand Gesture Recognition. Grenoble, France. Proceedings.

[de Berg et al., 2000] de Berg, M., van Kreveld, M., Overmars, M., and Schwarzkopf, O.(2000). Computational Geometry, Algorithms and Applications. Springer Verlag, 2ndedition.

[Dubois et al., 1997] Dubois, D., Prade, H., and Yager, R. R., editors (1997). FuzzyInformation Engineering. Wiley Computer Publishing, USA.

[Duda and Hart, 1973] Duda, R. O. and Hart, P. E. (1973). Pattern Classi�cation andScene Analysis. Wiley-Interscience, USA, 1st edition.

[Essa, 1996] Essa, I., editor (1996). 2nd IEEE International Conference on Face andGesture Recognition. Killington, USA. Proceedings.

[Farines et al., 2000] Farines, J. M., da S. Fraga, J., and de Oliveira, R. S. (2000). Siste-mas de Tempo Real. IME/USP, S~ao Paulo-SP, Brasil. XII Escola Nacional de Compu-ta�c~ao.

[Feris, 2001] Feris, R. S. (2001). Rastreamento e�ciente de faces em um subespa�co wavelet.Master's thesis, Universidade de S~ao Paulo, Instituto de Matem�atica e Estat��stica.

[Feris et al., 2000] Feris, R. S., Campos, T. E., and Cesar-Jr, R. M. (2000). Detection andtracking of facial features in video sequences. In Lecture Notes in Arti�cial Intelligence,volume 1973, pages 129{137, Acapulco, Mexico. Springer-Verlag Press.

[Feris and Cesar-Jr, 2001] Feris, R. S. and Cesar-Jr, R. M. (2001). Detection and trac-king of facial landmarks using gabor wavelet networks. In Lecture Notes in ComputerScience, Rio de Janeiro, Brasil. Springer-Verlag Press.

[Fisher, 1938] Fisher, R. A. (1938). The statistical utilization of multiple measurements.In Annals of Egenics, volume 8, pages 376{386.

[Gong et al., 2000] Gong, S., McKenna, S., and Psarrou, A. (2000). Dynamic Vision:From Images to Face Recognition. Imperial College Press, UK.


[Gonzalez and Woods, 1992] Gonzalez, R. C. and Woods, R. E. (1992). Digital ImageProcessing. Addison-Wesley Publishing Compuany.

[Jain et al., 2000] Jain, A. K., Duin, R. P. W., and Mao, J. (2000). Statistical pattern re-cognition: A review. IEEE Transactions on Pattern Analysis and Machine Intelligence,22(1):4{37.

[Jain et al., 1999] Jain, A. K., Murty, M. N., and Flynn, P. J. (1999). Data clustering: areview. ACM Computing Surveys, 31(3):264{323.

[Jain and Zongker, 1997] Jain, A. K. and Zongker, D. (1997). Feature-selection: Evalu-ation, application, and small sample performance. IEEE Trans. on Pattern Analysisand Machine Intelligence, 19(2):152{157.

[Kasturi, 1997] Kasturi, R., editor (1997). IEEE Transactions on Pattern Analysis andMachine Intelligence. Theme Section of the Journal - Face and Gesture Recognition.

[Kennedy and Neville, 1986] Kennedy, J. B. and Neville, A. M. (1986). Basic StatisticalMethods for Engineers and Scientists. Harper and Row, Publishers, third edition.

[Kirby and Sirovich, 1990] Kirby, M. and Sirovich, L. (1990). Application of thekarhunen-lo�eve procedure for the characterization of human faces. IEEE Transacti-ons on Pattern Analysis and Machine Intelligence, 12(1):103{108.

[Kittler et al., 2001] Kittler, J., Somol, P., and Pudil, P. (2001). Advances in statisti-cal feature selection. In Lecture Notes in Computer Science, Rio de Janeiro, Brasil.Springer-Verlag Press.

[Kohn, 1998] Kohn, A. F. (1998). Reconhecimento de padr~oes, uma abordagem es-tat��stica. Apostila, EP - Universidade de S~ao Paulo.

[Kondo and Yan, 1999] Kondo, T. and Yan, H. (1999). Automatic human face detectionand recognition under non-uniform illumination. Pattern Recognition, 32(10):1707{1718.

[Kr�uger and Sommer, 1999] Kr�uger, V. and Sommer, G. (1999). AÆne real-time facetracking using a wavelet network. In ICCV'99 Workshop on Recognition, Analysis, andTracking of Faces and Gestures in Real-Time Systems, Corfu, Greece.

[Kr�uger and Sommer, 2000] Kr�uger, V. and Sommer, G. (2000). Gabor wavelet networksfor object representation. In 22. DAGM Symposium, Kiel, Germany.

[Lades et al., 1993] Lades, M., Vorbr�uggen, J. C., Buhmann, J., Lange, J., von der Mals-burg, C., W�urtz, R. P., and Konen, W. (1993). Distortion invariant object recognitionin the dynamic link architecture. Transactions on Computers, 42(3):300{311.


[Lawrence et al., 1996] Lawrence, S., Giles, C. L., Tsoi, A. C., and Back, A. D. (1996).Face recognition: A hybrid neural network approach. Technical report, I. A. C. S., U.of Maryland.

[Li et al., 2000] Li, Y., Gong, S., and Liddell, H. (2000). Exploiting the dynamics of facesin spatial-temporal context. In 6th International Conference on Control, Automation,Robotics and Vision (ICARCV2000), Singapore.

[Lima, 1970] Lima, E. L. (1970). Elementos de Topologia Geral. Ao Livro T�ecnico S. A.

[Lowen and Peeters, 1997] Lowen, R. and Peeters, W. (1997). On various classes of semi-pseudometrics used in pattern recognition. In 7th IFSA World Congress, volume I,pages 232{237, Prague.

[Lowen and Peeters, 1998] Lowen, R. and Peeters, W. (1998). Distances between fuzzysets representing gray level images. Fuzzy Sets and Systems, 99(2):143{153.

[Mao et al., 1994] Mao, J., Mohiuddin, K., and Jain, A. K. (1994). Parsimonious networkdesign and feature selection through node pruning. In Proc. 12th ICRP, pages 622{624,Jerusalem.

[Martinez and Kak, 2001] Martinez, A. M. and Kak, A. C. (2001). Pca versus lda. IEEETransactions on Pattern Analysis and Machine Intelligence, 23(2):228{233.

[McKenna et al., 1997] McKenna, S., Gong, S., and Raja, Y. (1997). Face recognition indynamic scenes. In British Machine Vision Conference (BMVC). Essex.

[Moghaddam and Pentland, 1994] Moghaddam, B. and Pentland, A. (1994). Face re-cognition using view-based and modular eigenspaces. In Automatic Systems for theidenti�cation and Inspection of Humans, volume 2277. SPIE.

[Moghaddam and Pentland, 1997] Moghaddam, B. and Pentland, A. P. (1997). Probabi-listic visual learning for object representation. IEEE Transactions on Patterns Analysisand Machine Intelligence, 19(7):696{710.

[Moghaddam et al., 1998] Moghaddam, B., Wahid, W., and Pentland, A. (1998). Beyondeigenfaces: Probabilistic matching for face recognition. In 3rd IEEE InternationalConference on Automatic Face and Gesgure Recognition, Nara, Japan.

[Morimoto et al., 1996] Morimoto, C. H., Yacoob, Y., and Davis, L. (1996). Recognitionof head gestures using hidden markov models. In ICPR, Vienna, Austria.

[Narendra and Fukunaga, 1977] Narendra, P. M. and Fukunaga, K. (1977). A branch andbound algorithm for feature subset selection. IEEE Trans. Computers, 26(9):917{922.

[Pankanti et al., 2000] Pankanti, S., Bolle, R. M., and Jain, A. (2000). Biometrics: Thefuture of identi�cation. Computer, pages 46{49.


[Pentland, 2000] Pentland, A. (2000). Looking at people: Sensing for ubiquitous andwearable computing. IEEE Transactions on Pattern Analysis and Machine Intelligence,22(1):107{119.

[Perlovsky, 1998] Perlovsky, L. I. (1998). Conundrum of combinatorial complexity. IEEETrans. on Pattern Analysis and Machine Intelligence, 20(6):666{670.

[Phillips et al., 1998] Phillips, P., Wechsler, H., Huang, J., and Rauss, P. (1998). Theferet database and evaluation procedure for face recognition algorithms. Image andVision Computing, 16(5):295{306.

[Pudil et al., 1994] Pudil, P., Novovicov�a, J., and Kittler, J. (1994). Floating searchmethods in feature selection. Pattern Recognition Letters, 15:1119{1125.

[Ratha et al., 2001] Ratha, N. K., Senior, A., and Bolle, R. (2001). Automated biome-trics. In Lecture Notes in Computer Science, Rio de Janeiro, Brasil. Springer-VerlagPress.

[Romdhani, 1996] Romdhani, S. (1996). Face recognition using principal componentanalysis. Master's thesis, Department of Electronics and Electrical Engineering, Uni-versity of Glasgow, UK.

[Rowley et al., 1998] Rowley, H. A., Baluja, S., and Kanade, T. (1998). Neural network-based face detection. IEEE Trans. on Pattern Analysis and Machine Intelligence,20(1):23{38.

[Siedleki and Sklansky, 1989] Siedleki, W. and Sklansky, J. (1989). A note on geneticalgorithms for large-scale feature selection. Pattern Recognition Letters, 10:335{347.

[Silva et al., 1995] Silva, L., Aizawa, K., and Hatori, M. (1995). Detection and tracking offacial features. In SPIE Visual Communications and Image Processing'95 (VCIP'95),volume 2501, pages 1161{1172, Taipei, Taiwan.

[Somol and Pudil, 2000] Somol, P. and Pudil, P. (2000). Oscillating search algorithmsfor feature selection. In Proceedings of the 15th International Conference on PatternRecognition, pages 406{409, Los Alamitos. IEEE Computer Society.

[Somol et al., 2001] Somol, P., Pudil, P., and Grim, J. (2001). Branch and bound algo-rithm with partial prediction for use with recursive and non-recursive criterion forms.In Lecture Notes in Computer Science, Rio de Janeiro, Brasil. Springer-Verlag Press.

[Somol et al., 2000] Somol, P., Pudil, P., Novovicov�a, J., Ferri, F. J., and Kittler, J.(2000). Fast branch and bound algorithm in feature selection. In Proceedings of theSCI 2000 Conference, volume IIV, pages 646{651, Orlando, Florida.


[Somol et al., 1999] Somol, P., Pudil, P., Novovicov�a, J., and Pacl��k, P. (1999). Adaptive oating search methods in feature selection. Pattern Recognition Letters, 20:1157{1163.

[Sung and Poggio, 1998] Sung, K. K. and Poggio, T. (1998). Example-based learningfor view-based human face detection. IEEE Trans. on Pattern Analysis and MachineIntelligence, 20(1):39{55.

[Theodoridis and Koutroumbas, 1999] Theodoridis, S. and Koutroumbas, K. (1999). Pat-tern Recognition. Academic Press, USA, 1st edition.

[Turk, 1998] Turk, M., editor (1998). 1998 Workshop on Perceptual User Interfaces.Microsoft - http://research.microsoft.com/PUIWorkshop, San Francisco, USA. Proce-edings.

[Turk and Pentland, 1991] Turk, M. A. and Pentland, A. P. (1991). Face recognitionusing eigenfaces. In Proc. of the IEEE Computer Society Conferece.

[Valentin et al., 1996] Valentin, D., Abdi, H., and O'Toogle, A. J. (1996). Principal com-ponent and neural networks analyses of face images: Explorations into the nature ofinformation available for classifying faces by sex. In Progress in Mathematical Psycology.Hillsdale: Erlbaum.

[Watanabe, 1985] Watanabe, S. (1985). Pattern Recognition: Human and Mecanical. NewYork: Wiley.

[Wiskott et al., 1995] Wiskott, L., Fellous, J. M., Kr�uger, N., and von der Malsburg, C.(1995). Face recognition and gender determination. In International Conference on Au-tomatic Face and Gesture Recognition, pages 92{97, University of Zurich. MultiMediaLaboratory.

[Wiskott et al., 1997] Wiskott, L., Fellous, J. M., Kr�uger, N., and von der Malsburg, C.(1997). Face recognition by elastic bunch graph matching. IEEE Transactions onPattern Analysis and Machine Intelligence, 19(7):775{779.

[Wu et al., 1999] Wu, H., Chen, Q., and Yachida, M. (1999). Face detection from colorimages using a fuzzy pattern matching method. IEEE Trans. on Pattern Analysis andMachine Intelligence, 21(6):557{563.

[Yachida, 1998] Yachida, M., editor (1998). 3rd IEEE International Conference on Faceand Gesture Recognition. Nara, Japan. Proceedings.

[Yacoob et al., 1995] Yacoob, Y., Lam, H. M., and Davis, L. S. (1995). Recognizingfaces showing expressions. In International Conference on Automatic Face and GestureRecognition, Zurich, Swistzerland.


[Yang et al., 1997] Yang, J., Lu, W., and Waibel, A. (1997). Skin color modeling andadaptation. Technical report, CMU-CS-97-146.

[Zhao et al., 1999] Zhao, W. Y., Chellappa, R., and Phillips, P. J. (1999). Subspace lineardiscriminant analysis for face recognition. IEEE Transactions on Image Processing.

�Indice Remissivo

Algoritmos gen�eticos para sele�c~ao de ca-racter��sticas, 48

An�alise de componentes principais, 34An�alise de discriminantes lineares, 41Aplica�c~oes de Reconhecimento de Faces,

2Aplica�c~oes de Reconhecimento de Padr~oes,

11Aprendizado N~ao-supervisionado, 15Aprendizado Supervisionado, 15ASFBS, 56ASFFS, 56

Biometria, 1Botton-up, 49Branch and bound, 47Busca seq�uencial utuante, 54Busca exaustiva, 47Busca seq�uencial para tr�as, 52Busca seq�uencial para frente, 51

Categoriza�c~ao de Faces, 78Classe, 14Classi�cador, 15Classi�cador Bayesiano, 16Classi�cador Bayesiano para distribui�c~oes

Normais, 19Classi�cador de taxa m��nima de erro, 18Classi�cador do vizinho mais pr�oximo, 20Conjunto de teste, 17Conjunto de Testes, 14Conjunto de Treinamento, 14Conjuntos nebulosos (Fuzzy), 62Crisp, 62Crit�erio Fisher, 41

Curse of dimensionality, 23Curva em U, 23

Descritores de Fourier, 30Detec�c~ao de Faces, 3Dimensionalidade, 27Discriminantes lineares de Fisher, 41Distancia, 59Distancia de Mahalanobis, 20Distancia Euclidiana, 20

Efeito nesting, 52Eigeneyes, 36, 88Eigenfaces, 36, 88Eigenfeatures, 88Eigenmouths, 36, 88Eigennoses, 36, 88Elastic Graph Matching, 82Erro residual, 37Espa�co de caracter��sticas, 14Expans~ao de Karhunen-Lo�eve, 34Extra�c~ao de caracter��sticas, 28

Fast Fourier transform, 31FFT, 31Fronteiras de decis~ao, 15Fun�c~ao crit�erio, 45Fun�c~ao de pertinencia, 62Fun�c~ao densidade de probabilidade de um

padr~ao , 16Fuzzy�ca�c~ao, 62

Generaliza�c~ao, 23

Jets, 82

L�ogica Nebulosa (Fuzzy), 62

138 �INDICE REMISSIVO

LDA, 41Leave-one-out, 102

M�etodos �otimos de sele�c~ao de caracter��sticas,47

M�etodos adaptativos de busca seq�uencial utuante, 56

M�etodos de Reconhecimento de Faces, 79M�etodos hol��stidos de reconhecimento de

faces, 80M�etrica, 59M�odulos, 89M��nima distancia ao prot�otipo, 21Mais l - menos r, 53Matriz de covariancia, 35Matriz dos padr~oes de treinamento, 35Melhores caracteriticas individuais, 51Monotonicidade, 47

Node Pruning, 46Normaliza�c~ao de m�edia e variancia, 69

Padr~ao, 14PCA, 34Persegui�c~ao de faces, 3Probabilidade a posteriori, 17Probabilidade a priori de uma classe, 16Probabilidade de erro de classi�ca�c~ao, 17Problema da dimensionalidade, 23Problema de Reconhecimento de Padr~oes

bem De�nido e Restrito , 12PTA, 53

Rastreamento de Faces, 3Reconhecimento a partir de seq�uencias de

v��deo, 83Reconhecimento de express~oes faciais, 78Reconhecimento de faces por atributos lo-

cais, 79Reconhecimento de Padr~oes, 11Reconhecimento Estat��stico de Padr~oes,

13Rede neural para sele�c~ao de caracter��sticas,

46

Redu�c~ao de dimensionalidade, 28Regi~oes caracter��sticas, 89Regra de decis~ao dos KNN, 20Regra dos K vizinhos mais pr�oximos, 19Retina e �Iris para Reconhecimento de Pes-

soas, 1

S�erie de Fourier, 30SBS, 52Sele�c~ao de caracter��sticas, 45Sele�c~ao de Eigenfeatures, 114Semi-psedo-m�etrica baseada em tolerancia,

63SFS, 51Signi�cancia de uma caracter��stica, 49Sobreposi�c~ao, 73Super-classi�cadores, 115Suporte, 62

Tarefas de Identi�ca�c~ao de Faces, 77Taxa de acerto por sorteio, 85Taxa de probabilidade de erro, 17Top-down, 49Tracking, 3Transformada de Fourier, 29Transformada de Gabor, 81Transformada de Hotelling, 34Transformada discreta de Fourier, 30Transformada discreta inversa de Fourier,

31Transformada inversa de Fourier, 30Transformada r�apida de Fourier, 31

Varia�c~oes Intra-classe e Inter-classes, 12Vetor de caracter��sticas, 14Vis~ao Computacional, 2

T ecnicas - USP...ux e L A T E X. P or ultimo, gostaria de registrar meus sinceros agradecimen tos a...

Documents

Transcript of T ecnicas - USP...ux e L A T E X. P or ultimo, gostaria de registrar meus sinceros agradecimen tos a...