Pós-Graduação em Ciência da Computação · descoberta automática de conhecimento que visa...

Pós-Graduação em Ciência da Computação

“Classificação Supervisionada Usando Dados

Simbólicos de Semântica Modal”

por

Fábio César Donato SilvaFábio César Donato SilvaFábio César Donato SilvaFábio César Donato Silva

Dissertação de Mestrado

Universidade Federal de Pernambuco [email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE, Agosto de 2007

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

FÁBIO CÉSAR DONATO SILVA

“Classificador Supervisionado Usando Dados Simbólicos de Semântica Modal”

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM

CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA

UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO

PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA

DA COMPUTAÇÃO.

ORIENTADOR: PROF. DR. FRANCISCO DE ASSIS TENÓRIO DE CARVALHO CO-ORIENTADORA: PROFª. DRª. RENATA MARIA CARDOSO RODRIGUES DE SOUZA

RECIFE, AGOSTO/2007

- iii -

Dedico este trabalho a minha esposa e

a meus filhos que me incentivaram e

apoiaram.

- iv -

AGRADECIMENTOS

Agradeço primeiramente a Deus que pelo milagre da vida estamos aqui hoje.

Ao orientador, Prof. Francisco de Assis Tenório de Carvalho pela paciência e

confiança em mim depositadas.

A co-orientadora, Profª. Renata Maria Cardoso Rodrigues Souza quem com tanto

empenho e dedicação me impulsionou a esse desfecho.

Aos amigos que nos momento difíceis estavam ao lado para dar um devido apoio.

Ao CNPq pelo apoio financeiro.

- v -

ABSTRACT

The Symbolic Data Analysis (SDA) is a domain in the area of automatic discovery of

knowledge that it aims at to develop methods for described data for variables that can assume

as value lists of categories, intervals or distributions of probability. These variables allow to

take in account the variability and/or uncertainty present in the data.

This work presents a symbolic classifier of modal semantics for symbolic data of type

interval. The considered classifier presents two basic stages, the learning and the allocation,

where both need one step precedent of pre-processing that transforms the symbolic data of the

type interval into symbolic data modal. Each example of the set of learning is described for a

vector of intervals. After the pre-processing, each example starts to be described for a vector

of distributions of weights. After the stage of learning, each group is also described for a

vector of distributions of weights that summarize the information of the examples of the

group. Each new example to be attributed to the one class (stage of allocation), represented

for a vector of intervals, after the step of pre-processing starts to be described for a vector of

distributions of weights. The allocation of an example to a class is carried through

dissimilarity functions that compare pairs of vectors of distributions of weights. Some

functions of dissimilarity of this type are considered in this work.

The evaluation of the performance of this classifier is carried through the real

application of the same the synthetic data sets in an experience Carlo Monte and reals data

sets having used the technique of crossed validation leave-one-out. The performance is

measured by the tax (average) of error of classification and by the time of execution of the

stages of learning and classification. Moreover, the performance of this classifier was

compared with the performance of a type classifier k nearest neighbors also to modal

semantics. Through these examples, this work shows some of the interests of this classifier of

modal semantics.

Keywords: Symbolic Data Analysis, Modal Symbolic Classifier, Unsupervised

Classification, Modal Symbolic Data, Dissimilarity Functions.

- vi -

RESUMO

A Análise de Dados Simbólicos (Symbolic Data Analysis) é um domínio na área de

descoberta automática de conhecimento que visa desenvolver métodos para dados descritos

por variáveis que podem assumir como valor conjuntos ou listas de categorias, intervalos ou

distribuições de probabilidade. Essas variáveis permitem levar em conta a variabilidade e/ou a

incerteza presente nos dados.

Este trabalho apresenta um classificador simbólico de semântica modal para dados

simbólicos de tipo intervalo. O classificador proposto apresenta duas etapas básicas, a

aprendizagem e a alocação, onde ambas necessitam de uma etapa precedente de pré-

processamento que transforma os dados simbólicos do tipo intervalo em dados simbólicos

modal. Cada exemplo do conjunto de aprendizagem é descrito por um vetor de intervalos.

Após o pré-processamento, cada exemplo passa a ser descrito por um vetor de distribuições de

pesos. Após a etapa de aprendizagem, cada classe é também descrita por um vetor de

distribuições de pesos que sintetiza as informações dos exemplos da classe. Cada novo

exemplo a ser atribuído a uma classe (etapa de alocação), representado por um vetor de

intervalos, após a fase de pré-processamento passa a ser descrito por um vetor de distribuições

de pesos. A alocação de um exemplo a uma classe é realizada através de funções de

dissimilaridade que comparam pares de vetores de distribuições de pesos. Algumas funções

de dissimilaridade desse tipo são consideradas nesse trabalho.

A avaliação do desempenho desse classificador é realizada através da aplicação do

mesmo a conjuntos de dados sintéticos em uma experiência Monte Carlo e a conjuntos de

dados reais usando a técnica de validação cruzada leave-one-out. O desempenho é medido

pela taxa (média) de erro de classificação e pelo tempo de execução das etapas de

aprendizagem e classificação. Além disso, o desempenho desse classificador foi comparado

com o desempenho de um classificador de tipo k-vizinhos mais próximos também de

semântica modal. Através desses exemplos, esse trabalho mostra alguns dos interesses desse

classificador de semântica modal.

Palavras-chave: Analise de Dados Simbólicos, Classificador Simbólico Modal, Classificação

Supervisionada, Dados Simbólicos Modas, Funções de Dissimilaridade.

- vii -

CONTEÚDO

1 Introdução ................................................................................................................ 11

1.1 Motivação ................................................................................................ 11

1.2 Objetivos .................................................................................................. 12

1.3 Organização da dissertação.................................................................... 13

2 Classificadores Simbólicos .................................................................................... 16

2.1 Introdução ............................................................................................... 16

2.2 Dados Usuais........................................................................................... 17

2.3 Dados Simbólicos .................................................................................... 18

2.3.1 Dados Simbólicos descrevendo indivíduos ................................. 18

2.3.2 Dados Simbólicos descrevendo classes de indivíduos................ 19

2.3.3 Variáveis Simbólicas ...................................................................... 19

2.3.3.1 Variáveis Multivaloradas........................................................ 19

2.3.3.2 Variável do tipo modal ........................................................... 20

2.3.4 Operadores simbólicos................................................................... 20

2.4 Análise Discriminante Fatorial para dados simbólicos ....................... 21

2.5 Redes Multi-Layer Perceptron para dados simbólicos ........................ 24

2.5.1 Método dos valores extremos........................................................ 25

2.5.2 Método probabilísticos................................................................... 26

2.6 Discriminante de Kernel para dados simbólicos.................................. 26

2.7 Árvore de classificação para dados simbólicos .................................... 28

2.8 Classificador baseado em região do tipo casca convexa...................... 30

2.8.1 Regiões e Grafos ............................................................................. 30

2.8.2 Casca Convexa................................................................................ 31

2.9 K-vizinhos mais próximos para dados simbólicos............................... 32

2.10 Conclusão ................................................................................................ 34

3 Classificador Modal ................................................................................................ 35

3.1 Módulo de Aprendizagem..................................................................... 36

3.1.1 Etapa de Pré-processamento ......................................................... 36

3.1.2 Etapa de Generalização.................................................................. 39

Conteúdo

- viii -

3.2 Módulo de Alocação............................................................................... 40

3.2.1 Etapa de Pré-processamento ......................................................... 41

3.2.2 Etapa de Afetação........................................................................... 42

3.2.3 Funções híbridas de dissimilaridade para dados modais........... 44

3.2.3.1 Função híbrida de dissimilaridade baseada em um

coeficiente de afinidade ................................................................ 45

3.2.3.1 Função híbrida de dissimilaridade baseada em uma

distância de Minkowski Lr ........................................................... 47

3.2.3.1 Função híbrida de dissimilaridade baseada em um

índice de acordo e desacordo ....................................................... 48

3.3 Algoritmo................................................................................................. 51

3.4 Conclusão ................................................................................................ 52

4 Classificador K-vizinhos mais próximos para dados intervalares .................. 53

4.1 Módulo de Aprendizagem..................................................................... 54

4.2 Módulo de Alocação............................................................................... 55

4.3 Conclusão ................................................................................................ 57

5 Avaliação Experimental.......................................................................................... 58

5.1 Dados Sintéticos do tipo Intervalo ........................................................ 58

5.2 Experiências Monte Carlo ...................................................................... 62

5.2.1 Resultados da taxa de erro ............................................................ 62

5.2.2 Resultados do tempo (em segundos)............................................ 65

5.3 Aplicação com um conjunto de dados intervalares reais .................... 67

5.5 Software do classificado modal e do ID-KNN ..................................... 69

5.5 Conclusão ................................................................................................ 73

6 Conclusão e Trabalhos Futuros ............................................................................. 74

6.1 Trabalhos Futuros ................................................................................... 75

Apêndice A.................................................................................................................. 76

Referências .................................................................................................................. 81

- ix -

LISTA DE FIGURAS

Figura 2.1 Operadores Junção e Conjunção......................................................................... 21

Figura 3.1 Distribuição de pesos das classes 1 (a) e 2 (b) .................................................... 40

Figura 5.1 Conjunto de dados quantitativos 1...................................................................... 59

Figura 5.2 Conjunto de dados quantitativos 2...................................................................... 60

Figura 5.3 Conjunto de dados simbólicos 1 ......................................................................... 61

Figura 5.4 Conjunto de dados simbólicos 2 ......................................................................... 70

Figura 5.5 Janela de execução do classificador modal ......................................................... 70

Figura 5.6 Janela de execução do classificador ID-KNN ..................................................... 70

- x -

LISTA DE TABELAS

Tabela 2.1 Tabela de dados usuais....................................................................................... 18

Tabela 3.1 Uma tabela de dados simbólicos do tipo intervalo .............................................. 37

Tabela 3.2 Descrições modais dos indivíduos da Tabela 3.1 ................................................ 38

Tabela 3.3 Descrições modais para as classes de indivíduos da Tabela 3.2 .......................... 39

Tabela 3.4 Novos objetos descritos por uma variável simbólica do tipo intervalo ................ 42

Tabela 3.5 Descrições modais para os objetos da Tabela 3.4 ............................................... 42

Tabela 3.6 Descrições modais das classes de acordo com o objeto ...................................... 43

Tabela 3.7 Índices de desacordo e acordo para dados modais .............................................. 48

Tabela 5.1 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d1 ................................ 62

Tabela 5.2 A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d2 ............................... 63





Tabela 5.7 Testes de Hipóteses t-Student usando a função de agregação d1 ......................... 65

Tabela 5.8 A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 1 conforme função de agregação dz (z=1,2,3) ......... 66

Tabela 5.9 A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 2 conforme função de agregação dz (z=1,2,3) ......... 66

Tabela 5.10 Valores máximo e mínimo de temperaturas em graus centígrados de 37 cidades........................................................................................................................ 68

Tabela 5.11 Média (%) da taxa de erro para a temperatura das cidades do conjunto de dados simbólicos do tipo intervalo de acordo com a função de agregação dz (z=1,2,3)68

Tabela 5.12 Resultado da classificação das cidades do conjunto de dados intervalares temperatura...................................................................................................... 71

Tabela 5.13 Informações do sistema e entradas para o classificador modal .......................... 71

Tabela 5.14 Informações do sistema e entradas para o classificador ID-KNN ...................... 71

Capítulo 1

- 11 -

1. Introdução

1.1. Motivação

A disseminação do uso dos computadores nas organizações tem alterado

radicalmente a maneira como as aplicações são conduzidas. A cada dia, mais operações

corriqueiras são automatizadas e a cada nova transação, como compras com cartão de

crédito, operações bancárias, novos registros correspondentes são armazenados.

Sistemas de gerenciadores de banco de dados estão presentes na maioria das

organizações públicas e empresas de médio e grande porte, contendo os mais diferentes

dados sobre produtos, fornecedores, clientes, empregados, etc. Além disso, avanços em

aquisição de dados, desde um simples leitor de código de barras até sistemas de

sensoriamento remoto geram grandes volumes de dados.

Entretanto num ambiente mutável torna-se necessário novas técnicas e

ferramentas de extração e análise de conhecimentos que agilizem o processo decisório

de uma empresa. A realização de Data Warehousing [Garden, 1998] é considerado um

dos primeiros passos para tornar factível a análise de grande quantidade de dados no

apoio ao processo decisório. O objetivo é criar um repositório, conhecido como Data

Warehouse (DW), que contem dados limpos, agregados e consolidados. No entanto, a

análise de dados através de um DW geralmente não extrapolam a realização de simples

consultas e diante disto, diversos estudos têm sido direcionado ao desenvolvimento de

tecnologias de extração automática de conhecimentos.

A descoberta de conhecimentos de dados (Knowledge Discovery in Database

KDD) [Fayyad et al, 1996] é uma área de pesquisa em bastante evidência no momento

que visa desenvolver meios automáticos de prospecção de conhecimento em grandes

bases de dados.

As ferramentas para execução do processo de mineração são genéricas e

derivadas de diferentes áreas de conhecimento tais como da estatística, inteligência

artificial e banco de dados. As técnicas estatísticas multivariadas englobam algoritmos

que podem ser aplicados para descobrir estruturas em um conjunto de dados. Embora as

técnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e analisar

conjuntos de dados clássicos, com o explosivo crescimento das tecnologias da

1.2 Objetivos

- 12 -

informação estas técnicas têm sido inapropriadas para tratar conjuntos de dados

representados por informações mais complexas como, por exemplo, intervalos. Além

disso, os métodos estatísticos não possuem estruturas adequadas que possibilitem

sintetizar grandes conjuntos de dados perdendo o mínimo possível de informação dos

dados originais. Como uma alternativa para generalizar as atuais técnicas estatísticas

para estas informações mais complexas, surge a análise de dados simbólicos (Symbolic

Data Analysis (SDA)).

A análise de dados simbólicos [Billard & Diday, 2000] é uma abordagem na

área da descoberta automática de conhecimentos (KDD) e gerenciamento de dados,

relacionada com análise de dados multivariados, reconhecimento de padrões,

inteligência artificial e banco de dados. O principal objetivo de SDA é desenvolver

métodos para tratamento de dados mais complexos como intervalos, conjuntos e

distribuição de probabilidades ou de pesos. SDA inicia com a agregação/redução de

bases de dados clássicos em uma estrutura mais complexa chamada de dados

simbólicos, pois eles contêm variação interna e são estruturados. A etapa seguinte

consiste na extensão dos métodos e algoritmos de extração de conhecimentos (técnicas

estatísticas) a partir de dados usuais, para os dados simbólicos.

A motivação deste trabalho é construir um classificador para dados descritos por

vetores de valores quantitativos, onde a representação das classes é dado por uma

descrição simbólica do tipo modal (uma distribuição de pesos) para cada uma das

classes de indivíduos e usar essas descrições modais para classificar novos exemplos

usando funções de proximidades para dados modais.

1.2. Objetivos

O objetivo principal deste trabalho é implementar uma abordagem para o

classificador baseado em uma descrição simbólica do tipo modal para dados do tipo

intervalo e utilizando várias distâncias baseadas em funções hibridas de comparação que

medem a dissimilaridade entre vetores da distribuição dos pesos.

No contexto das aplicações os seguintes pontos serão abordados:

• Implementar o classificador Modal para Dados Intervalaras de Semântica

Modal utilizando a linguagem de programação C/C++.

1.3 Organização da dissertação

- 13 -

• A avaliação experimental do classificador de semântica modal para

dados do tipo intervalo que será discutido no capítulo 3 verificando o

desempenho do classificador modal com dados sintéticos e reais do tipo

intervalo.

• Implementar o classificador k-vizinhos mais próximos para dados

intervalares ID-KNN ( Interval Data K-Nearest Neighbor ) que é uma

adaptação do SO-NN (Symbolic Objects Nearest Neighbor) proposto por

[Appice et al, 2006].

• Fazer um estudo comparativo do desempenho do classificador de

semântica modal para dados do tipo intervalo com o desempenho do

classificador ID-KNN.

1.3. Organização da dissertação

Além deste capítulo, no qual foi apresentado tanto a motivação quanto o

objetivo principal do trabalho, esta dissertação será apresentada em mais cinco capítulos

que são:

Capítulo 2 Classificadores Simbólicos

A finalidade deste capítulo é fornecer uma breve explanação sobre as extensões

para dados simbólicos dos algoritmos de classificação supervisionada clássicos.

Iniciaremos apresentando os dois tipos de dados que os classificadores aceitam com

entrada: os dados usuais (seção 2.2) e os dados simbólicos (seção 2.3). Nas seções

subseqüentes entraremos em detalhe na abordagem simbólica de alguns algoritmos de

classificação supervisionada clássicos. Análise Discriminante Fatorial para dados

simbólicos na seção 2.4; Redes multilayer perceptron para dados simbólicos na seção

2.5; Discriminante kernel para dados simbólicos na seção 2.6; Árvore de classificação

para dados simbólicos na seção 2.7. Classificador Simbólico baseado em Região tipo

Casca Convexa na seção 2.8; O classificador SO-NN na seção 2.9; Por fim a conclusão

na seção 2.10.


- 14 -

Capítulo 3 Classificador Modal

Esse capítulo apresenta um classificador de semântica modal para dados do tipo

intervalo. A entrada do classificador modal é uma tabela de dados cujas linhas são

objetos (indivíduos) e cujas colunas são valores assumidos por variáveis simbólicas do

tipo intervalo.

Nas seções (3.1) e (3.2) são propostas com maiores detalhes os módulos de

aprendizagem e de alocação do classificador modal para dados do tipo intervalo,

respectivamente. Na seção (3.3) é descrito o algoritmo de construção do classificador

modal. Para finalizar, a seção (3.4) apresenta a conclusão e considerações finais desse

capítulo.

Capítulo 4 Classificador k-vizinhos mais próximos para dados intervalares (ID-

KNN)

Neste capítulo é apresentado o algoritmo de construção do classificador ID-

KNN que foi implementado nesse trabalho com o intuito de viabilizar a comparação

entre esse e o classificador modal.

Nas seções (4.1) e (4.2) são propostas com maiores detalhes os módulos de

aprendizagem e de alocação do classificador ID-KNN, respectivamente. Por fim neste

capitulo temos uma conclusão na seção (4.3).

Capítulo 5 Avaliação Experimental

Esse capítulo apresenta uma avaliação experimental do classificador de

semântica modal para dados do tipo intervalo discutido no capítulo 3 Que será dividido

em quatro seções. Na seção (5.1) são apresentados os dados sintéticos que foram

utilizados nas experiências. Na seção (5.2) veremos as experiências de Monte Carlo e os

resultados da taxa de erro e do tempo para dados sintéticos. Na seção (5.3) teremos uma

aplicação com um conjunto de dados intervalares reais. Na seção (5.4) explanamos

sobre o software desenvolvido e na última seção (5.5) é exposta uma conclusão dessa

avaliação experimental.


- 15 -

Capítulo 6 Conclusão e Trabalhos Futuros

Neste capítulo serão mostradas a conclusão e as considerações finais deste

trabalho bem como os trabalhos futuros que poderão ser realizados a partir da idéia aqui

apresentada.

Capítulo 2

- 16 -

2. Classificadores Simbólicos

2.1. Introdução

A Analise de Dados Simbólicos é um domínio novo na área de descoberta do

conhecimento e de gerenciamento de dados, relacionado à análise multivalorada,

reconhecimento de padrões e a inteligência artificial. Com o aumento do interesse da

comunidade científica pela a análise de dados simbólicos, alguns dos algoritmos de

classificação supervisionada clássicos atualmente já possuem uma extensão para dados

simbólicos. Em [Palumbo et al, 2000] foi proposto uma generalização da Análise

Discriminante Fatorial para dados simbólicos. Em [Rossi & Conan-Guez, 2002] foi

elaborado dois métodos que permitem o uso de dados simbólicos do tipo intervalo como

entrada para redes multi-layer perceptrons, já em [Rasson & Lissoir, 2000] foi

apresentado uma abordagem da Análise do Discriminante Kernel para dados

simbólicos. Em [Ciampi et al, 2000] foi proposto estender o algoritmo de crescimento

de árvore de classificação para dados imprecisos. Em [D’Oliveira et al, 2004] foi

introduzido um classificador para dados descritos por vetores de valores quantitativos

baseado em regiões de tipo casca convexa. Em [Appice et al, 2006] foi introduzido um

processo aprendizagem dita “preguiçosa” SO-NN (Symbolic Objects Nearest Neighbor)

que é um classificador baseado em exemplos que estende o k-vizinho mais próximo (k-

NN) a objetos simbólicos.

Em sua grande maioria os classificadores para dados simbólicos também

aceitam como entrada dados usuais. Portanto para um melhor entendimento deste

capitulo apresentaremos brevemente os dados usuais (seção 2.2) e os dados simbólicos

(seção 2.3). Nas seções subseqüentes serão discutidos detalhes sobre cada algoritmo de

classificação mencionado anteriormente. Análise Discriminante Fatorial para dados

simbólicos na seção 2.4; Redes Multi-Layer Perceptron para dados simbólicos na seção

2.5; Discriminante Kernel para dados simbólicos na seção 2.6; Árvore de classificação

para dados simbólicos na seção 2.7; Classificador Simbólico baseado em Região tipo

Casca Convexa na seção 2.8; O classificador SO-NN na seção 2.9; Por fim a conclusão

na seção 2.10.

2.2 Dados Usuais

- 17 -

2.2. Dados usuais

Os dados usuais descrevem situações relativamente simples, tais como mostrado

na Tabela 2.1. Estes dados são obtidos principalmente pelas características de

indivíduos (pessoas, objetos, produto), e sua principal propriedade é que tais

características são definidas por um único valor cada. A seguir uma definição mais

formal.

Para um dado número n de objetos n,...,2,1=Ω , p variáveis pYY ,,1 K descrevem

suas características. A variável clássica iY é definida como o mapeamento de um único

valor de Ω para iγ , sendo iγ o domínio de iY , tal que ( )kYx iki = é o valor observado

para o indivíduo k [Bock, 2000].

As variáveis usuais podem ser classificadas como quantitativas ou qualitativas

conforme as definições abaixo:

iY é quantitativa se iγ é idêntico ou está contido em ℜ : ℜ⊆iγ . As variáveis

quantitativas podem ser subdivididas em:

I. Quantitativa contínua se iγ é um intervalo de ℜ .

II. Quantitativa discreta se iγ é um conjunto finito ou infinito contável de

valores de ℜ .

iY é qualitativa (categórica) se iγ é finito e seus elementos são categorias sem

significado numérico. As variáveis qualitativas também podem ser subdivididas

conforme o seguinte:

I. Qualitativa nominal se iγ não possui estrutura interna.

II. Qualitativa ordinal se existe uma ordem linear total entre as categorias de

iγ .

A Tabela 2.1 é uma tabela de dados usuais para 5 indivíduos com 3 variáveis

quantitativas peso, altura e idade, sendo peso e altura quantitativas contínuas e idade

quantitativas discreta; e 2 variáveis qualitativas cor e grau de instrução, sendo cor

qualitativa nominal e grau de instrução qualitativa ordinal.

2.3 Dados Simbólicos

- 18 -

Tabela 2.1 Tabela de dados usuais

Indivíduo Cor Idade (anos) Altura (m) peso (Kg) Grau de instrução

k1 Branco 18 1,60 50 Ensino médio

k2 Negro 29 1,75 73 Superior

k3 Pardo 35 1,70 86 Pós-graduação

k4 Branco 19 1,65 55 Ensino médio

k5 Pardo 26 1,81 65 Ensino médio

2.3. Dados Simbólicos

Muitas vezes é necessário que as variáveis de um objeto k assumam informações

mais complexas tais como histogramas, distribuição de probabilidade, intervalos e

conjuntos. Em determinados casos da análise de dados usuais são inadequados, sendo

necessário à utilização de um tipo de dado mais complexo e que possa fornecer mais

informação, os dados simbólicos.

Ilustraremos o conceito de dados simbólicos através de exemplos: dados

simbólicos para indivíduos e dados simbólicos para grupos de indivíduos, em seguida

daremos uma definição formal de variáveis para dados simbólicos e um individuo k

qualquer.

2.3.1. Dados simbólicos descrevendo indivíduos

Podemos analisar as atividades de um atleta (individuo) k que possuem

características que são melhores representadas por dados simbólicos. Como por

exemplo a variável Y : tempo de treinamento diário, um único valor (8hs por exemplo)

não representaria a variação diária, logo o valor ( )kY poderia ser:

1. Intervalo de horas ( )kY :[0,14],

2. Uma distribuição de probabilidade ( )kY : ((0,0.1); (4,0.2); (8,0.5); (12,0.2)), onde

no par (a,b), a é o número de horas e b é a probabilidade associada.


- 19 -

2.3.2. Dados simbólicos descrevendo classes de

indivíduos

Os dados simbólicos são especialmente adequados para representar classes de

indivíduos (objetos agregados). Vamos considerar que estamos analisando os

municípios da Região Metropolitana do Recife (conjuntos de indivíduos) e k é um

desses municípios; uma características a ser considerada seria Y : grau de instrução dos

habitantes. O valor ( )kY poderia ser:

1. O conjunto de graus de instrução ( )kY : analfabeto, fundamental, médio, superior,

pós-graduação.

2. Mais adequadamente uma distribuição de probabilidade ( )kY : ((analfabeto,0.2);

(fundamental,0.3); (médio,0.3); (superior,0.1); (pós-graduação,0.1)).

2.3.3. Variáveis Simbólicas

2.3.3.1. Variáveis Multivaloradas

A variável simbólica Y definida para cada indivíduo k de um conjunto de n

indivíduos é dita como multivalorada com domínio γ se ( )kY é subconjunto de γ .

1 Uma variável Y é dita multivalorada categórica se γ é um conjunto finito de

categorias onde estas variáveis categóricas podem ser subdivididas em nominais e

ordinais.

• Variáveis Multivaloradas Nominais: não dispõem de uma ordem entre seus

elementos: Instituições bancárias ( )kY : Banco do Brasil, Itaú, Bradesco, Caixa,

Banco Real.

• Variáveis Multivaloradas Ordinais: onde seus elementos descrevem uma ordem

pré-definida: Faixa Etária ( )kY : Criança, Jovem, Adulto, Idoso.

2 Uma variável Y é dita multivalorada quantitativa se ( )kY é um conjunto finito de

números reais. Números de filhos ( )kY : 0, 1, 2, 3, 4, 5, 6.


- 20 -

3 Uma variável Y é dita multivalorada do tipo intervalo se ( )kY é um intervalo dos

números reais ou um intervalo com respeito a uma determinada ordem em γ . Salário

em Recife ( )kY : [200,8000].

2.3.3.2. Variável do tipo modal

A variável modal Y definida sobre um conjunto K,, kaE = de objetos com

domínio γ é uma função ( ) ( ) ( )( )kqkSkY ,= onde:

• ( )kq é uma medida ou uma distribuição(freqüência, pesos, probabilidade) definida

no domínio γ .

• ( ) γ⊆kS é o suporte de q no domínio γ .

As variáveis modais associam para cada categoria ( )kYy ∈ , distribuição de

freqüências, pesos ou probabilidades que indica quão freqüente, típico ou relevante a

categoria y é considerada para o objeto k.

2.3.4. Operadores Simbólicos

Supomos dois indivíduos Eba ∈, descritos por p variáveis simbólicas como

segue:

( ) ( ) ( )( ) ( )pjpj AAAaYaYaYa ,,,,,,,, 11 KKKK ==

( ) ( ) ( )( ) ( )pjpj BBBbYbYbYb ,,,,,,,, 11 KKKK ==

Onde cada variável simbólica Yj possui valores no domínio Dj, e Aj e Bj são

subconjuntos de Dj.

Seja junção representada por ⊕ e conjunção por ⊗ :

• Junção: A junção possui uma formulação diferente a depender do tipo da

variável que faz a operação como argumentos. Se a variável for uma variável do

tipo intervalo ou do tipo ordinal, nós temos ],[ jujlj AAA = e ],[ jujlj BBB = ,

mas se a variável forem do tipo quantitativa a junção se transforma em união jA

e jB (veja a equação 2.1).

2.4 Análise Discriminante Fatorial para dado Simbólicos

- 21 -

j

Bj

A ⊕

j

Bj

A ⊗

vaquantitati variável

intervalar e ordinal variável)(),(

,max,min

=⊕

jB

jA

juB

juA

jlB

jlA

jB

jA

U

(2.1)

• Conjunção: A conjunção de dois subconjuntos jjj DBA ⊆, é definida como

segue:

jj BAj

Bj

A I=⊗ (2.2)

Para uma melhor entendimento de como se comportam esses operadores temos a

seguir uma visualização gráfica para ilustrar como mostra a figura 2.1.

Figura 2.1: Operadores junção e conjunção

2.4. Análise Discriminante Fatorial para dados

Simbólicos

A análise estatística multivariada utilizando funções discriminantes foi

inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos sobre

os quais tinham sido feitas diversas e idênticas mensurações. Análise Discriminante

refere-se a um conjunto de técnicas cujo objetivo é descrever as relações entre um

conjunto de p variáveis quantitativas (descritores) e uma variável categórica com m

rótulos, a variável classificatória que define a partição da população de interesse em m

classes.

São considerados dois aspectos principais na Análise Discriminante:


- 22 -

• Uma seleção do melhor subconjunto dos descritores originais (aspecto de

seleção).

• A construção da regra de decisão (regra de classificação) com objetivo de

classificar elementos em uma das m classes (aspecto classificatório).

O aspecto de seleção na Análise Discriminante Fatorial (Factorial Data Analysis

- FDA) [Johnson & Wichern, 2001] é constituído em termos de combinação linear das p

variáveis descritoras originais que são escolhidas de forma que se obtenha a melhor

visualização das classes no espaço fatorial. O aspecto classificatório da FDA é realizado

pela definição da regra de classificação geométrica que se baseia na proximidade entre o

individuo e a classe.

A Análise Discriminante Fatorial para Dados Simbólicos é um método

simbólico-numérico, baseado em uma analise numérica dos dados simbólicos

transformados e em uma interpretação simbólica dos resultados. Este método é

constituído dos seguintes passos.

I. Quantificação dos descritores.

II. FDA nos descritores quantificados.

III. Interpretação simbólica dos resultados.

A primeira etapa da Análise Discriminante Fatorial para Dados Simbólicos que é

a quantificação dos descritores é realizada pela transformação numérica do dado

simbólico que consiste em uma determinada codificação adequada de acordo com o tipo

de variável (seção 2.3). Ao final deste processo obtemos N descritores numéricos.

A segunda etapa assume jθ , Nj ,,1K=∀ como os novos descritores.

O número de coordenadas a serem mantidas na análise discriminante fatorial é

escolhida de forma usual para N o número de descritores e m o número de classes a

porcentagem de variância dos descritores aplicada das ( )1,min −≤ Nmq primeiras

coordenadas.

Na ultima fase a representação é feita pela definição da regra de classificação

geométrica. Considerando que ambos a instância a ser classificada e as classes são

representados no espaço fatorial por retângulos. A classificação da instância em uma

classe iC é definida de acordo com dois eventos:


- 23 -

i. Se o exemplo (retângulo) estiver incluído na classe iC , este é rotulado a

esta classe.

ii. Se o exemplo está parcialmente ou completamente fora de todas as

classes ou dentro de uma área de sobreposição entre duas ou mais

classes, considera-se uma medida de similaridade para determinar a qual

classe iC o elemento pertence.

Na literatura existem algumas regras de classificação geométrica [Bock &

Diday, 2000], podemos destacar àquelas baseadas no potencial descritor ( ).π , definido

por De Carvalho [De Carvalho, 1992] como o volume do produto cartesiano dos

domínios das variáveis. Abaixo apresentamos uma regra de classificação baseada no

potencial descritor.

Regra de classificação baseada em uma extensão da medida de

dissimilaridade de Minkowsky

Esta medida de dissimilaridade baseada em uma medida de dissimilaridade

proposta por Ichino e Yaguchi [Ichino & Yaguchi, 1994] e generalizada para dado

simbólico por De Carvalho e Diday [De Carvalho & Diday, 1998]:

( ) ( )[ ]mm

sjsj pd ∑=α

αα ωωψωω ,,

Onde jω e sω são a representação fatorial de dois elementos j e s na

coordenada α e m é o número de coordenadas fatoriais,

( ) ( ) ( ) ( ) ( ) ( )( )( )js

jsjsjsjs

sjSS

SSSSSSSS

αα

αααααααα

µ

µµµγµµωω

⊕

−−+−⊕=Ψ

II 2,

Com [ ]1,0∈γ , ( )sSαµ é o tamanho do intervalo do elemento na coordenada α ,

( )js SS ααµ ⊕ é o tamanho da junção dos intervalos dos elementos j e s na coordenada

α , ( )js SS ααµ I é o tamanho da conjunção de dos intervalos dos elementos na

coordenada α .

(2.1)

(2.2)

2.5 Redes Multi-Layer Perceptron para dados Simbólicos

- 24 -

Dado um exemplo u de um conjunto de teste, ele será alocado a uma

determinada classe iC se a média das distâncias entre u e todos os elementos da classe

iC for menor em relação a todas as médias das outras classes.

2.5. Redes Multi-Layer Perceptron para dados

simbólicos

As Redes Neurais Artificiais, RNAs, são sistemas paralelos e distribuídos

compostos por unidades de processamentos simples (nodos) que computam

determinadas funções matemáticas (usualmente não lineares), normalmente adaptativas,

cuja organização e funcionamento destas redes é inspirado em uma estrutura física

concebida pela natureza do cérebro humano [Braga et al, 2000]. Tais unidades são

dispostas em uma ou mais camadas e interligadas por um grande número de conexões,

geralmente, unidirecionais. Na maioria dos modelos estas conexões estão associadas a

pesos, os quais armazenam o conhecimento representado no modelo e servem para

ponderar a entrada recebida por cada neurônio da rede. O funcionamento destas redes é

inspirado em uma estrutura física concebida pela natureza do cérebro humano.

Dentre os vários modelos de redes neurais artificiais, a rede Perceptron Multi-

Camadas (multi-layer perceptron - MLP) é a mais difundida. Tipicamente, a rede

consiste de um conjunto de unidades sensoriais que constituem a camada de entrada,

uma ou mais camadas escondidas e uma camada de saída de nós computacionais. Seu

poder computacional excede a capacidade das redes simples sem camada intermediária

como Perceptron e Adaline, podendo tratar dados que não são linearmente separáveis

[Braga et al, 2000].

As principais características de uma rede MLP são:

• Número mínimo de três camadas (entrada, escondida, saída);

• Apresenta um alto grau de conectividade entre as camadas;

• Fluxo de informação unilateral;

• O modelo de cada unidade de processamento inclui um função de ativação não-

linear, normalmente a logística (sigmóide) ou a tangente hiperbólica;

2.5 Redes Multi-Layer Perceptron para dados Simbólicos

- 25 -

• A fim de ajustar as conexões entre as unidades de processamento é utilizado um

algoritmo de treinamento;

O backpropagation [Rumelhart & McClelland, 1986] é o algoritmo de

treinamento supervisionado mais conhecido para as redes MLP. Para tanto, utiliza pares

de entrada associados com a saída desejada para ajustar os pesos da rede por um

mecanismo de adaptação por correção de erros em duas fases (forward e backward). O

backpropagation baseia-se na regra delta generalizada, recorrendo ao método do

gradiente para ajustar os pesos das conexões entre os nodos.

Em [Rossi & Conan-Guez, 2002] foi estudado dois tipos de métodos que

permitem o uso de dados simbólicos do tipo intervalo como entrada para redes MLP´s:

a abordagem dos valores extremos e dois procedimentos probabilísticos. Estes métodos

possuem as seguintes características:

• Podem ser implementados facilmente em software de redes neurais existentes.

Um outro método baseado na idéia da aritmética do intervalo [Simoff, 1996]

necessita que todas as etapas da rede neural (inicialização, treinamento,

visualização, etc.) sejam modificadas e adaptadas ao método.

• A MLP treinada com intervalos através de um destes métodos suporta tanto

intervalos como dados usuais quantitativos como entrada. Esta característica é

importante já que um dado usual pode ser considerado um intervalo cujos

limites sejam iguais.

2.5.1. Método dos valores extremos

A forma mais simples de se tratar intervalo com entrada para uma MLP é

transformar cada intervalo em um par de dados usuais, por exemplo os limites inferiores

e superiores do intervalo, ou o centro e amplitude do intervalo. Com este artifício é

possível utilizar a MLP clássica, porém dobra a quantidade de dados de entrada.

A fim de usar dados usuais em uma MLP treinada com o método dos valores

extremos, deve-se replicar estes dados, isto é, uma entrada ( )nxx ,,1 K torna-se

( )nn xxxx ,,,, 11 K .

2.6 Discriminante de Kernel para dados Simbólicos

- 26 -

2.5.2. Método probabilísticos

Uma forma de tratar dados do tipo intervalo é considera-los como simples dados

probabilísticos. Se uma amostra para a MLP é descrita pelo intervalo [a,b], uma

possível interpretação é presumir que de fato a amostra pode assumir qualquer valor

entre a e b, com probabilidade uniforme.

Baseado nesta premissa, o método da média substitui cada intervalo pela sua

média e treina a rede com os valores obtidos. Dados usuais são tratados diretamente.

Uma outra maneira de proceder é substituir cada amostra por um conjunto de

valores reais. Estes valores são obtidos a partir de simulação, supondo que o intervalo

[a,b] corresponde a uma distribuição uniforme em [a,b]. Esta abordagem é chamada de

método de simulação. Para entradas novas de dados usuais, é usada a MLP treinada

diretamente. Para entradas novas do tipo intervalo são gerados valores reais simulados e

computada a saída correspondente normalmente.

2.6. Discriminante de Kernel para dados

Simbólicos

Nesta seção apresentaremos o método estatístico de classificação supervisionado

conhecido como função kernel. Inicialmente apresentaremos o caso clássico e por fim a

abordagem simbólica.

Consideremos que o conjunto de treinamento é formado pelas classes gΠΠ ,,1 K

e estas, por sua vez, são descritas por g densidades de probabilidades,

( ) ( )xfxf g,,1 K .Quando as densidades são conhecidas, o problema da classificação é

resolvido facilmente pelos métodos de máxima verossimilhança ou pela regra de Bayes

(caso também seja fornecida a probabilidade a priori).

Na maioria dos casos reais, porém, não é possível supor um modelo paramétrico

sobre as densidades de probabilidade das classes. Nestas circunstâncias, métodos não

paramétricos devem ser usados para obter as estimativas das densidades. O

discriminante kernel é um destes métodos.

2.6 Discriminante de Kernel para dados Simbólicos

- 27 -

O estimador de densidade kernel para a densidade de probabilidade kf ,

gk ≤≤1 , e dado quantitativo d-dimensional é fornecido pela seguinte expressão:

( )( ) ∑=

−=

kn

i k

ki

d

kk

kh

xxK

hnxf

12

1ˆ , dx ℜ∈ ,

onde

• 0>kh é a largura da janela pré definida para a k-ésima população

• ∑ =

−kn

ik

ki

h

xxK

1 informa o número de elementos do conjunto de treinamento cuja

distância seja menor que kh de x.

Como já vimos, o estimador de densidade de kernel é uma ferramenta que

permite o estatístico construir densidade em qualquer conjunto de dados [Rasson &

Lissoir, 2000]. Afim de adaptar o método para dados simbólicos, algumas novas

medidas de densidades faz-se necessária.

Vamos supor que cada indivíduo seja descrito por p variáveis simbólicas

( )pYYX ,,1 K= . Com objetivo de resolver o problema de discriminação para dados

simbólicos, teremos que encontrar analogia com o estimador de densidade clássico

apresentado anteriormente, que mede a concentração de dados na vizinhança de xX = .

Desta forma, a estimação de densidade é realizada contando os pontos do conjunto de

treinamento de cada população dentro do “hipercubo”, usando uma medida de

dissimilaridade d1 [Esposito et al, 2000] entre os objetos simbólicos x,y:

( ) ( )∑=

=kn

i

kihx

k

k xKn

xI1

,

1ˆ

onde

( )( )( )

≥

<=

hyxdse

hyxdseyK hx ,0

,1

1

1,

(2.3)

(2.4)

(2.5)

2.7 Árvore de classificação para dados simbólicos

- 28 -

2.7. Árvore de classificação para dados simbólicos

As arvores de classificação ([Breiman el al, 1984] e [Ciampi, 1992]) tem como

objetivo predizer o número de objetos em k classes representados pela variável

categórica c através da medição de uma ou mais variáveis preditoras. Em outras

palavras, consiste em encontrar as probabilidades P[ c |y], kc ,,1 K∈ , onde y denota a

descrição de um objeto pelas variáveis preditoras.

O algoritmo de árvore de classificação compõe-se de quatro etapas básicas

[Lewis, 2000]. Na primeira temos a construção da árvore, utilizando algoritmo de

partição recursiva dos nós. Cada nó resultante é atribuído a uma classe, baseando na

probabilidade a priori de cada classe, da matriz de custo e na fração de elementos de

cada classe no nó resultante. A segunda etapa consiste parar o processo de construção

da árvore. Neste ponto foi produzida uma árvore “máxima” que provavelmente sobre

ajustou a informação contida na base de treinamento. Já a terceira etapa consta da poda

da árvore que resulta na criação de uma seqüência de árvores cada vez mais simples.

Por fim a quarta etapa é a seleção da árvore ótima, aquela que ajusta melhor a

informação da base de aprendizagem sem sobre ajustá-la.

Em algoritmos de construção de arvores de classificação clássicos (por exemplo

nos métodos CART ou RECPAM, respectivamente, propostos por ]Breiman et al, 1984]

e [Ciampi, 1992]), os dados usuais estudados são considerados por uma amostra de

aprendizagem denotada por ( ) NiycL ii ,,1;, K== . No contexto de objetos simbólicos,

nós agora representaremos e generalizaremos esta série de dados de como uma lista β

(para dados) das asserções: Niba ii ,,1; K=∧=β onde ai e bi são asserções,

respectivamente, definidas nas variáveis C e Y.

O método apresentado em [Ciampi et al, 2000] propõe estender o algoritmo de

construção de árvore para dados imprecisos ou probabilísticos. O objetivo do método

proposto é construir interativamente a partir de uma lista de dados simbólicos β (base de

treinamento), com ajuda de um procedimento de partição interativa, outra lista ω

(menor) de dados simbólicos que constitui a melhor representação da lista β.

Tttt ,,1; K=∧= γαω

2.7 Árvore de classificação para dados simbólicos

- 29 -

onde tt γα ∧ ,é a descrição de uma folha t da árvore (isto é, de uma região t do espaço da

descrição). Pelo sumário ω, nós consultamos assim às descrições das sub-populações

associadas aos nós terminais da árvore binária. Quanto para a série de dados de β , um

objeto do sumário ω é expresso também nos termos das asserções tα e

tγ ,

respectivamente, definida no critério e nas variáveis preditoras.

Em outras palavras, o objetivo do método é aumentar interativamente o conjunto

ω, que a cada passo, produz a melhor informação significativa sobre o conjunto β. Este

processo é escrito em forma do seguinte problema de maximização:

Max GInf(ω,β)

Onde GInf é uma medida geral de informação que expressa um conceito de

adequação entre dois conjuntos de asserções. A idéia geral da partição simbólica

recursiva é resumida no algoritmo abaixo:

1. Entrada: CONJUNTO DOS DADOS SIMBÓLICOS A SEREM

ESTUDADOS (β)

2. PARTICIONAMENTO SIMBÓLICO RECURSIVO

Aumenta interativamente o conjunto ω a partir dos dados β tal que, em

cada passo, GInf(ω,β) é máxima.

3. Saída: SUMÁRIO DOS DADOS SIMBÓLICOS (ω)

(descrição da árvore binária)

O fato que os dados estão representados como uma tabela, pôde induzir a sentir

que poderia conseguir tudo que foi conseguido pelo tratamento dado por um método

completamente clássico. A matriz da tabela , entretanto, é ajustada a uma representação

conveniente e o ponto da vista adotado aqui é completamente diferente do clássico.

Então, os valores dos preditores (as probabilidades associadas a cada marcador) seriam

tratados no intervalo [0,1] e aqui poderíamos encontrar partições do tipo: [Yj ≥ p] com

p∈[0,1]: um indivíduo dado seria atribuído a ramo da direita ou esquerda de um nó, se é

um indivíduo do conjunto atual, ou de um indivíduo observado em alguma ocasião

futura.

(2.6)

2.8 Classificador Simbólico baseado em região do tipo casca convexa

- 30 -

Este é um ponto completamente diferente do trabalho que foi desenvolvido. Do

ponto da vista deste trabalho, um indivíduo tem o valor do definido para cada preditor,

embora nosso conhecimento deste valor possa ser alterado pela incerteza. O algoritmo,

para a escolha atual dos conjunto dos objetos simbólicos βY e βC, permite-nos chegar,

dos dados que são tidos como imprecisos, a uma descrição de um relacionamento entre

os valores reais das variáveis. Finalmente, note isso além da possibilidade para produzir

atribuições mais flexíveis de objetos novos às classes de uma partição prévia, permiti

esta aproximação, sobretudo, para construir a árvore sem perder nenhuma informação

que relaciona-se a imprecisão que afete os dados.

2.8. Classificador Simbólico baseado em região do

tipo casca convexa

O trabalho introduz um classificador para dados descritos por vetores de valores

quantitativos baseado em regiões tipo casca convexa [D’Oliveira et al, 2004]. A idéia

central desta abordagem é construir regiões que descrevem e discriminem classes de

exemplos observados.

Basicamente esse classificador é dividido nas etapas de aprendizagem e de

alocação. A etapa de aprendizagem fornece a descrição de uma classe por uma região

(ou conjunto de regiões) definida pelo hiper-cubo formado pelos objetos pertencentes a

esta classe. Esta descrição é obtida através de um operador simbólico (junção) e um

Grafo de Vizinhos Mútuos. Na etapa de alocação, cada nova observação é afetada a uma

classe ou grupo de acordo com uma função de dissimilaridade que compara a descrição

de uma classe (uma região ou um conjunto de regiões) com um ponto em pℜ .

Para um melhor entendimento dos processos envolvidos nesse classificador

vamos fazer um breve comentário sobre conceitos de regiões, Grafos e Casca Convexa.

2.8.1. Regiões e Grafos

A proposta apresentada é fundamentada no método orientado a região para dados

simbólicos que são representados por vetores de variáveis quantitativas. O valor

2.8 Classificador Simbólico baseado em região do tipo casca convexa

- 31 -

assumido pela característica quantitativa de interesse pode ser tanto um valor contínuo

como um intervalo.

Seja kNkkk wwC ,,1 K= , mk ,,1K= , uma classe de indivíduos com

∅=′kk CC I se kk ′≠ e Ω==

m

k 1U . O indivíduo klw , kNl ,,1K= é representado pelo

vetor de dados contínuo ( )klpklkl xxx ,,1 K= .

A junção entre os vetores de dados contínuos klx ( )kNl ,,1K= é um vetor de

intervalos que é definido como

( )pkNpkjkNjkkNkkNklkl kkkk

xxxxxxXXy ⊕⊕⊕⊕⊕⊕=⊕= KKKKKK 111111 ,,,, , onde

[ ]jkNjkjkNjkjkNjk kkk

xxxxxx ,,max,,,min 111 KKK =⊕⊕ ( )pj ,,1K= .

A J-região associada à classe kC é a região em pℜ que é obtida pela junção dos

objetos pertencentes à classe kC e é definido como RJ ( kC ) = x ∈ pℜ :

jkNjk k

xx ,,min 1 K ≤ jx ≤ jkNjk k

xx ,,max 1 K , ( )pj ,,1K= . O volume associado ao

hipercubo definido pela região RJ ( kC ) é π(RJ ( kC )).

Dois indivíduos 1kω e 2kω são vizinhos mútuos se: ∀ lk′ω ∈ kC ′ (k’ ∈ 1,..,m, k’

≠ k), lkx ′ ∉Rj 1kω , 1kω ( )kNl ,,1 K= , ou seja, 1kω e 2kω são vizinhos mútuos se a

região formada por eles não contiver nenhum elemento de outra classe.

Uma clique H é um subgrafo completo máximo de G, isto é, para todos os pares

de possíveis vértices de H existe uma aresta, ao adicionar à H um outro vértice de G,

não existirá uma aresta para cada possível par de vértices de H.

Um grafo de vizinhos mútuos de iC em relação à iC′ , denominado

MNG( iC / iC′ )), é um grafo cujos vértices são os objetos da classe iC e cujas arestas são

formadas pelos pares distintos de objetos de iC que satisfazem à relação de vizinhos

mútuos, isto é, MNG( iC / iC ))=(V,A), onde V= iC e A=(sip , siq) ∈ iC x iC = sip ≠ siq e

sip é vizinho mútuo de siq.

2.8.2. Casca Convexa

A casca convexa é uma das mais importantes estruturas na geometria

computacional, principalmente usada como ferramenta para construção de outras

2.9 K-vizinhos mais próximos para dados simbólicos

- 32 -

estruturas em uma variedade de circunstâncias além de exercer um papel fundamental

na matemática pura.

Existe uma variedade de definições de casca convexa, porém a definição abaixo é,

talvez, a mais clara:

Definição: A casca convexa de um conjunto de pontos S é a interseção de todos os

semi-espaços que contém S.

É importante ressaltar que a casca convexa de um conjunto de pontos, apesar do

nome, é uma região "sólida" fechada incluindo todos os pontos internos, porém são seus

limites que computamos.

Concluindo, foi desenvolvido um classificador para dados descritos por vetores

de valores quantitativos, onde a representação das classes, a aproximação do Grafos de

Vizinhos Mútuos e a função de dissimilaridade são baseados em regiões de tipo casca

convexa. Também foi introduzido uma função de dissimilaridade que combina a

diferença de volume e a diferença de posição entre a descrição do objeto a ser alocado e

a descrição de uma classe para formar uma função de dissimilaridade baseada em

diferenças de volume.

2.9. K-vizinhos mais próximos para dados

simbólicos

SO-NN (Symbolic Objects Nearest Neighbor) [Appice et al, 2006] é um

classificador baseado em exemplos que estende o k-vizinho mais próximo (k-NN) a

objetos simbólicos (OS). O método empregado difere do k-NN clássico em quatro

aspectos. Primeiramente a saída da classificação está na forma de uma variável

simbólica modal que descreve mais informações que uma simples etiqueta única para

rotular a classe. Uma medida de dissimilaridade é usada em segundo para estimar a

distância entre os objetos simbólicos. Terceiro que a contribuição de cada vizinho é

tornada mais relevante com respeito a sua proximidade ao objeto simbólico a ser

classificado (objeto simbólico do teste). Quarto o k é extraído automaticamente na base

de uma validação cruzada dos dados do treinamento.

2.9 K-vizinhos mais próximos para dados simbólicos

- 33 -

Certamente, SO-NN, diferentemente do k-NN tradicional e de outros

classificadores simbólicos, não prediz simplesmente o valor desconhecido da classe

para variável Y , mas o valor de uma nova variável modal Y ′ˆ que descreve exatamente o

vetor da probabilidade da classe cuja dimensão corresponde ao cardinalidade de Y .

O classificador k-NN é uma técnica simples, bem conhecida da classificação que

requer uma métrica, um inteiro positivo k, e um conjuntos dos exemplos para o

treinamento rotulados. Um exemplo novo é atribuído um rótulo que o representa mais

freqüentemente entre seus k vizinhos mais próximos; isto é, o conjunto dos protótipos

de k que são os mais próximos a ele com respeito a métrica. Esta técnica atraiu o

interesse considerável devido a sua simplicidade. É também notável que não requer

exemplos a ser representado em um espaço apropriado do vetor, desde que somente a

medida de dissimilaridade ou a função de distância são requeridas para comparar

qualquer par de exemplos. Entretanto, o classificador tradicional do k-NN supõe que

todos os exemplos do treinamento correspondem aos pontos no espaço m-dimensional

mℜ e os vizinhos mais próximos de um novo exemplo estão definidos tipicamente nos

termos da distância euclidiana padrão. Conseqüentemente, uma extensão do k-NN aos

objetos simbólicos requerer o uso de uma medida adequada d da distância para os

objetos simbólicos, que não pode simplesmente ser representado como pontos em mℜ .

O desempenho de um classificador do k-NN pode significativamente depender

do tamanho da vizinhança (valor de k) escolhida e um tamanho diferente é apropriado

para diferentes problemas. Entretanto, nós podemos observar que tornando mais

relevante as distâncias em SO-NN, não há nenhum dano em permitir que a todo o

treinamento os objetos simbólicos tenham uma influência na classificação de um objeto

simbólico, desde que os objetos mais distantes tenham menos efeito na estimação da

probabilidade da classe. No caso em que todos os objetos simbólicos do treinamento

contribuem para classificar um exemplo novo do teste, o algoritmo trabalha como um

método global, quanto ao caso em que o k (k < n) os mais próximos dos objetos

simbólicos do treinamento são considerados, o algoritmo trabalha como um método

local, desde que somente os dados locais à área em torno que o contribuem para definir

as probabilidades da classe. Em todo o caso, os métodos locais têm vantagens

significativas quando a medida da probabilidade definida no espaço de objetos

simbólicos para cada classe quando é muito complexa, mas podem ainda ser descritos

por uma coleção de aproximações locais menos complexas. Conseqüentemente, a

2.10 Conclusão

- 34 -

escolha de k é crítica, desde que representa um limite entre aproximações locais e

globais das medidas da probabilidade. O valor apropriado de k a ser feito exame para a

classificação pode automaticamente ser induzido durante o processo da aprendizagem.

A observação empírica é crucial, pois é aquela que faz um exame de uma

vizinhança que seja menor do que os número de objetos presentes no conjunto de

treinamento ou mesmo possa melhorar a exatidão. Permite induzir a vizinhança

otimizada durante a fase de aprendizagem e de classificar eficazmente os objetos. Além

disso, como mostrado em [Gora et al, 2002], a busca para o melhor k pode ser reduzida

da escala [1, #O] à escala [1, O# ], sem diminuir em demasiada exatidão na

aproximação.

2.10. Conclusão

Neste capítulo nos apresentamos alguns classificadores supervisionados

clássicos que foram adaptados para trabalhar com dados simbólicos, dentre os quais

podemos citar Análise Discriminante Fatorial para dados simbólicos; Redes Multi-

Layer Perceptron para dados simbólicos; Discriminante Kernel para dados simbólicos;

Árvore de classificação para dados simbólicos; Classificador Simbólico baseado em

Região tipo Casca Convexa e o classificador SO-NN.

No próximo capitulo será explanado o classificador simbólico para dados

simbólico de semântica modal. A idéia é construir uma descrição simbólica do tipo

modal (uma distribuição de pesos) para cada uma das classes de indivíduos e usar as

descrições modais das classes para classificar novos exemplos usando funções de

proximidades.

Capítulo 3

- 35 -

3. Classificador Modal

Esse capítulo apresenta um classificador de semântica modal para dados do tipo

intervalo. A entrada do classificador modal é uma tabela de dados cujas linhas são

objetos (indivíduos) e cujas colunas são valores assumidos por variáveis simbólicas do

tipo intervalo. O objetivo é construir uma descrição simbólica do tipo modal (uma

distribuição de pesos) para cada uma das classes de indivíduos e usar essas descrições

modais para classificar novos exemplos usando funções de proximidades para dados

modais. Nesse classificador, as distribuições de pesos são construídas para descrever e

discriminar classes de indivíduos representados por vetores de dados que permitem

levar em conta variação ou incerteza. O classificador modal tem dois módulos:

aprendizagem e alocação.

O módulo de aprendizagem do classificador modal é dividido em duas etapas.

Na etapa de pré-processamento, cada intervalo do conjunto de aprendizagem é

transformado em uma distribuição de pesos da seguinte forma: um intervalo é

decomposto em intervalos menores e um peso é associado a cada um desses intervalos

para formar uma distribuição de pesos. Portanto, a saída dessa etapa é uma tabela de

dados cujas linhas são vetores de distribuições de peso representando os indivíduos.

Em seguida inicia-se a fase de generalização que visa obter também vetores de

distribuições de pesos para representar as classes de indivíduos. Os pesos das

distribuições de uma classe são computados pela média dos pesos das distribuições dos

indivíduos pertencentes a essa classe.

O módulo de alocação é também dividido em duas etapas. A primeira realiza um

pré-processamento no vetor de intervalos que descreve um novo indivíduo a ser

classificado. Cada intervalo desse vetor é transformado em uma distribuição de pesos. A

segunda é responsável pela afetação desse indivíduo a uma das classes pré-existentes.

Nessa última etapa, serão usadas funções de proximidade entre duas descrições modais

(dois vetores de pesos).

Nas seções 3.1 e 3.2 são descritas em maiores detalhes os módulos de

aprendizagem e de alocação do classificador modal para dados de tipo intervalo,

respectivamente. Na seção 3.3 é descrito o algoritmo de construção do classificador

3.1 Módulo de Aprendizagem

- 36 -

modal. Para finalizar, a seção 3.4 apresenta a conclusão e considerações finais desse

capítulo.


Esse módulo consiste na construção de um descritor simbólico modal para cada

uma das classes sintetizando a informação entre os indivíduos pertencentes as suas

respectivas classes. A entrada do classificador é uma tabela de dados simbólicos que é

composta por n linhas e p colunas cujas linhas são os objetos (indivíduos) e as colunas

são variáveis simbólicas do tipo intervalo.

Duas etapas constituem o processo de aprendizagem: pré-processamento e

generalização.

3.1.1 Etapa de Pré-processamento

O objetivo da etapa de pré-processamento é transformar vetores de dados do tipo

intervalo (descrições dos indivíduos do conjunto de treinamento) em vetores de dados

do tipo modal para formar a entrada do classificador simbólico proposto nesse trabalho.

Uma solução possível para este problema é definir um método para transformar

uma variável do tipo intervalo a uma variável do tipo modal [De Carvalho et al, 1999].

Após ter aplicado este método, as variáveis transformadas terão uma distribuição do

peso que possa ser analisada pelas funções de dissimilaridade modal definidas

especialmente para o cálculo da dissimilaridade entre duas descrições simbólicas

modais usando suas distribuições do peso e seus suportes a elas associadas.

Seja kC , Kk ,...,1= , uma classe de kn objetos indexados por ki ( )kni ,...,1= com

∅=′kk CC I se kk ′≠ e Ω== k

K

k C1U um conjunto de treinamento de tamanho

∑ ==

K

k knn1

. Cada objeto ki ( )kni ,...,1= é descrito por p variáveis simbólicas do tipo

intervalo pXX ,...,1 e uma variável nominal 1+pX que representa a classe do objeto.

Uma variável simbólica jX ( )pj ,...,1= é do tipo intervalo se, dado um objeto

ki de kC ),...,1( Kk = , ( ) [ ]j

j

ki

j

ki

j

kij AbaxkiX ⊆== , sendo [ ]baAj ,= um intervalo. Uma


- 37 -

variável simbólica jX~

( pj ,...,1= ) é do tipo modal se, dado um objeto ki de kC

),...,1( Kk = , ))(),((~)(~

kikiSxkiX j

kij q== sendo )(kiS um suporte (uma lista ordenada

ou não ordenada ou um vetor de intervalos) e )(kiq um vetor de pesos definido em

)(kiS tal que um peso )(mω é associado para cada categoria ou intervalo )(kiSm ∈ .

A Tabela 3.1 mostra um conjunto de dados simbólicos do tipo intervalo. Nessa

tabela, existem seis objetos pertencentes a duas classes. Nessa tabela, cada objeto é

descrito por uma variável simbólica do tipo intervalo e uma variável nominal que é a

classe do objeto.

Tabela 3.1. Uma tabela de dados simbólicos de tipo intervalo.

Elemento Dado intervalar Classe

e1 [10,30] 1

e2 [15,30] 1

e3 [25,35] 1

e4 [90,130] 2

e5 [110,120] 2

e6 [125,140] 2

Seja ( )j

H

j

j jII ,...,

~1=A um vetor de intervalos da variável j ( )pj ,...,1= cujos

limites ( )j

j

h HhI ,...,1= são obtidos a partir dos limites ordenados dos intervalos n+1

intervalos [ ] baxxxxxx j

Kn

j

K

j

kn

j

k

j

n

j

Kk,,,...,,...,,...,,...,,..., 11111 1

considerando as seguintes

propriedades:

1. [ ]baI j

h

H

hj ,1 ==U

2. ∅=′j

h

j

h II I se hh ′≠

3. Ω∈∃∀ kih tal que ∅≠j

ki

j

h xI I

Seja ( ))(),...,()(~

1 kiIkiIki j

H

j

j jki

=A um vetor de intervalos do indivíduo ki para

variável j ( pj ,...,1= ) obtido considerando as seguintes propriedades:


- 38 -

1. j

j

h kiI A~

)( ∈

2. ( ) [ ] j

ki

j

ki

j

ki

j

h

H

h xbakiIj

ki === ,1U .

A descrição modal do indivíduo ki para variável j ( pj ,...,1= ) é

))(),(~

(~)(~

kikixkiX j

j

j

kij qA== com ( ))(),...,()( 1 kiqkiqkiq j

H

jjj

ki

= e ( )j

ki

j

h Hhkiq ,...1)( =

( )( )j

ki

j

ki

j

hj

hxl

xIlkiq

I=)(

sendo ( )Il o comprimento de um intervalo fechado I .

Note que para cada variável j ( pj ,...,1= ) é permitido ter um vetor de

intervalos ( )kijA~

diferente associado a um dado modal j

kix~ . Portanto, pode existir um

suporte diferente para cada dado modal j

kix~ .

Considerando as descrições do tipo intervalo dos indivíduos da Tabela 3.1, tem-

se o seguinte vetor de intervalos: ( )110

19

18

17

16

15

14

13

12

111 ,,,,,,,,,

~IIIIIIIIII=A

com [ [15,1011 =I , [ [25,151

2 =I , [ [30,2513 =I , [ [35,301

4 =I , [ [90,3515 =I , [ [110,901

6 =I ,

[ [120,11017 =I , [ [125,1201

8 =I , [ [130,12519 =I e [ [140,1301

10 =I .

A Tabela 3.2 apresenta as descrições modais para os indivíduos (objetos) da

Tabela 3.1 obtidas a partir de ( )110

19

18

17

16

15

14

13

12

111 ,,,,,,,,,

~IIIIIIIIII=A .

Tabela 3.2: Descrições modais dos indivíduos da Tabela 3.1.

Objeto Dado Modal ( )1

~X Classe

e1 (0.25[10,15[); (0.50[15,25[); (0.25[25,30[) 1

e2 (0.667[15,25[); (0.333[25,30[) 1

e3 (0.50[25,30[); (0.50[30,35[) 1

e4 (0.50[90,110[); (0.25[110,120[); (0.125[120,125[); (0.125[125,130[) 2

e5 (1.0[110,120[) 2

e6 (0.33[125,130[); (0.67[130,140[) 2

(3.1)


- 39 -

3.1.2 Etapa de Generalização

Nessa etapa, cada classe é representada por um vetor de variáveis simbólicas

modais. A descrição simbólica de cada classe é uma generalização das descrições

simbólicas dos seus indivíduos que foram construídas na etapa de pré-processamento.

Seja kC ),...,1( Kk = uma classe de kn objetos. Cada elemento de kC é

representado por um vetor de dados simbólico modal. Esta classe também é

representada por um vetor de dados simbólicos do tipo modal ( )p

kkk ggg ~,...,~~ 1= ,

( ) ( )( )kkg j

j

j

k vA ,~~ = ( )pj ,...,1= , em que ( ) ( ) ( )( )

j

j

H

j

j kIkIk jk

AA~

,...,~

1 ⊂= é um vetor de

intervalos e ( ) ( ) ( )( )kvkvk j

H

jjj

k

,...,1=v é um vetor de pesos.

Os limites destes intervalos ( )( )j

k

j

h Hh kI ,...,1= são obtidos pela ordenação dos

limites dos intervalos )(kiI j

h dos indivíduos que pertencem à classe kC

( ) ( ) ( ) ( )

k

j

Hk

jj

H

jknIknIkIkI j

kkn

jk

,...,,...,1,...,1 111

. Os pesos ( )kv j

h são calculados por:

( ) ( )∑∈

=kCi

j

h

k

j

h kiqn

kv1

Note que ao nível de cada variável j ( pj ,...,1= ) existe um vetor de intervalos

( ) ( ) ( )( )kIkIk j

H

j

j jk

,...,~

1=A diferente para cada dado modal j

kg~ . A Tabela 3.3 apresenta a

descrição modal de cada classe de indivíduos da Tabela 3.2.

Tabela 3.3: Descrições modais para as classes de indivíduos da Tabela 3.2.

Classe Dado modal

1 ((0.0833 [10,15[); (0.3889 [15,25[); (0.3611 [25,30[); (0.1667[30,35[);

2 ((0.1667[90,110[); (0.4167[110,120[); (0.0417[120,125[); (0.1527[125,130[);

(0.2222[130,140[))

(3.2)

3.2 Módulo de Alocação

- 40 -

As Figuras 3.1 (a) e (b) mostram as distribuições de pesos das classes 1 e 2,

respectivamente .

(a)

(b)

Figura 3.1: Distribuições de pesos das classes 1 (a) e 2 (b).


A alocação de um novo objeto a uma das classes pré-existentes é baseada em

uma função de dissimilaridade que compara a descrição modal de um novo elemento

com a descrição modal de uma classe. Duas etapas constituem o módulo de alocação:

pré-processamento e afetação.

A etapa de pré-processamento visa transformar a descrição intervalar do novo

objeto em uma descrição modal. Construída a descrição modal do novo objeto, a etapa


- 41 -

de afetação consiste em medir as diferenças entre a descrição modal do novo objeto e a

descrição modal de uma classe usando uma função de dissimilaridade entre duas

distribuições de pesos. O novo objeto é associado à classe cuja dissimilaridade é

mínima.

3.2.1 Etapa de Pré-processamento

Seja [ ] [ ]( )ppp baxbaxx ωωωωωωω ,,...,, 111 === a descrição de tipo intervalo de um

objetoω a ser classificado. A idéia dessa etapa é obter a descrição de tipo modal

( ) ))(,~

(~)(~

ωωω ωj

j

j

j xX qA*== ao nível da variável j ( pj ,...,1= ) para o novo objeto

ω . Nessa direção, o vetor de intervalos ( )j

H

j

j jII ,...,

~1=A ( pj ,...,1= ) obtido na etapa

de pré-processamento do módulo de aprendizagem é atualizado.

Seja ( )j

H

jj jII **

1*

*,...,~

ω=A uma versão atualizada do conjunto de intervalos

( )j

H

j

j jIIω

,...,~

1=A tal que *

jA~

é obtido a partir da ordenação dos limites dos intervalos

[ ] jjj

H

j baII j ωω ,,,...,1 .

A descrição modal do objeto ω é ( ) ))(,~~)(

~ * ωωω ωj

j

j

j xX qA(== com

( ) ( ) ( )( )ωωωω

j

H

j

j jII **1 *,...,

~=A sendo um conjunto de intervalos satisfazendo as seguintes

propriedades:

1. ( ) ( )ωω ** ~j

j

hI A∈ ( )jHh *,...,1 ω=

2. ( ) ( ) jj

h

H

h xIj

ω

ωω ==

*1

*

U .

O peso )(ωj

tq é definido por:

( )( )j

jj

tj

txl

xIlq

ω

ωωI

=)(

(3.3)


- 42 -

Com o objetivo de ilustrar essa etapa de pré-processamento a Tabela 3.4 mostra

a descrição de tipo intervalo de dois novos objetos que serão afetados a uma das classes

pré-existentes da Tabela 3.3.

Tabela 3.4: Novos objetos descritos por uma variável simbólica do tipo intervalo

Objeto Dado Intervalar

a [20,30]

b [120,135]

Considerando 112

111

110

19

18

17

16

15

14

13

12

11

*1 ,,,,,,,,,,,

~IIIIIIIIIIII=A com [ [15,101

1 =I ,

[ [20,1512 =I , [ [25,201

3 =I ,, [ [30,2514 =I , [ [35,301

5 =I , [ [90,3516 =I , [ [110,901

7 =I ,

[ [120,11018 =I , [ [125,1201

9 =I , [ [130,125110 =I , [ [135,1301

11 =I e [ [140,135112 =I , a

Tabela 3.5 apresenta as descrições modais dos objetos da Tabela 3.4.

Tabela 3.5: Descrições modais para os objetos da Tabela 3.4

Elemento Dado Modal ( )1

~X

a (0.5[20,25[); (0.5[25,30[)

b (0.333[120,125[); (0.333[125,130[); (0.334[130,135[)

3.2.2 Etapa de Afetação

Seja ω um novo objeto a ser classificado com descrição modal

))(,~

(~ * ωωj

j

j qx A= obtida na etapa de pré-processamento.

Se ∅≠∩ )(A~

)(A~ * kjj ω , é necessário atualizar a descrição modal

( ) ( )( )kkg j

j

j

k vA ,~~ = ( )pj ,...,1= de kC : ( ) ( )( )kkg jj

k vA*

j ,~~ = sendo


- 43 -

( ) ( ) ( )( )kIkIk j

H

jj j

k

**1

**,...,

~=A obtido pela ordenação dos limites dos intervalos

( ) ( ) ( ) ( ) ωωω

j

H

jj

H

jjj

k

IIkIkI **11 ,...,,,..., e o vetor de pesos definido por

( )( ) ( )( )

( )( )kIl

kIkIlkvkv

j

h

j

t

j

hj

h

j

t

*

)(I

∗=

para j

kHt *,...,1∈ e ( ) ( ) ∅≠∈ kIkIHh j

t

j

h

j

k

*,...,1 I , caso contrário 0)( =kv j

t.

Além disso, a descrição ( ) ))(,~

(~ * ωωωj

j

jx qA= do novo indivíduo ω é também

ajustada de acordo com a classe kC : ( ) ( )kAA jj

** ~~=ω e

( )

( )j

jj

tj

txl

xIlq

ω

ωωI

=)(

para j

kHt *,...,1∈ .

A Tabela 3.6 ilustra as descrições modais das classes atualizadas de acordo com

o objeto a ser afetado. Comparando essas descrições com as suas descrições prévias

mostradas na Tabela 3.3, observe que a descrição modal da classe 1C permanece a

mesma quando o elemento a ser classificado é o objeto b e descrição modal da classe

2C permanece a mesma quando o elemento a ser classificado é o objeto a . Isso ocorreu

porque não existe interseção entre os suportes das descrições modais do objeto corrente

e da classe.

Tabela 3.6: Descrições modais das classes de acordo com o objeto.

Objeto Classe Dado modal

1 ((0.0833 [10,15[); (0.19445 [15,20[); (0.19445 [20,25[);

(0.3611 [25,30[); (0.1667[30,35[)) a

2 ((0.1667[90,110[); (0.4167[110,120[); (0.0417[120,125[);

(0.1527[125,130[); (0.2222[130,140[))

1 ((0.0833 [10,15[); (0.3889 [15,25[); (0.3611 [25,30[);

(0.1667[30,35[)); b

2 ((0.1667[90,110[); (0.4167[110,120[); (0.0417[120,125[);

(0.1527[125,130[); (0.1111[130,135[); (0.1111[135,140[))

(3.4)

(3.5)


- 44 -

A regra de classificação é definida como segue:

R: ω é afetado à classe kC se

( ) ( ) KmCdCd mk ,...,1,,, ∈∀≤ ωω

sendo ( )kCd ,ω uma função que mede dissimilaridade entre a descrição modal da

classe kC e a descrição modal de um objeto ω .

Na próxima seção, serão apresentadas as funções de dissimilaridades para dados

modais introduzidas nesse trabalho.

3.2.3 Funções híbridas de dissimilaridade para dados

modais

A dissimilaridade entre dois objetos mede o grau de diferenças.

Definição

Seja Ω um conjunto de indivíduos e ω ∈ Ω um indivíduo. Um índice de

dissimilaridade d é uma aplicação d: Ω×Ω → R+, que satisfaz às seguintes propriedades:

1. ∀ ω ∈ Ω, d (ω,ω) = 0.

2. ),(),( :),( ''' ωωωωωω dd =Ω×Ω∈∀ (simetria)

As funções de dissimilaridades discutidas nesta subseção são definidas através

de duas funções: uma medida de comparação em nível de cada variável (quantitativa ou

qualitativa) e uma medida de agregação, para agregar as comparações e obter uma

função de dissimilaridade global.

As funções de dissimilaridade clássicas para distribuições de pesos são casos

ou transformação de φ -divergente ou Ι -divergente introduzido por Csiszàr [Csiszàr,

1967] que usa razão de verossimilhança. Estas funções consideram que os suportes da

distribuição de pesos sejam idênticos.

Nesse trabalho, o suporte da distribuição de pesos definido para cada variável

j ( )pj ,...,1= pode não ser o mesmo para todas as classes e indivíduos e assim se faz

(3.6)


- 45 -

necessário usar uma função de comparação que permita levar em conta as diferenças em

posição (suporte) e em conteúdo (pesos).

Portanto, as diferenças entre duas descrições modais ao nível da variável

j ( )pj ,...,1= são calculadas por uma função híbrida com dois componentes: conteúdo

e separação.

( )( ) ( )( ) ( ) ( )( )

2

,,,1

kvqkvqC

jjj

p

jjj

C

k

jωφωφ

ωφ+

=

A componente j

Cφ mede às diferenças em conteúdo satisfazendo as seguintes

propriedades:

• ( ) ( )( ) 0, =kvq jjj

C ωφ se ( ) )(kvq jj =ω para )(~

)(~ ** ωjj AkA = .

• ( ) ( )( ) 1, =kvq jjj

C ωφ se =∩ )(~

)(~ ** ωjj AkA ∅.

• ( ) ( )( ) 1,0 <≤ kvq jjj

C ωφ para ≠∩ )(~

)(~ ** ωjj AkA ∅.

A componente j

pφ mede as diferenças em posição satisfazendo as seguintes

propriedades:

• ( ) ( )( ) 0, =kvq jjj

p ωφ para ≠∩ )(~

)(~ * ωjj AkA ∅.

• ( ) ( )( )kvq jjj

p ,0 ωφ< <1 para =∩ )(~

)(~ * ωjj AkA ∅ .

Nesse contexto, três famílias de funções híbridas de dissimilaridade baseadas em

dois componentes são introduzidas a seguir.

3.2.3.1 Função hibrida de dissimilaridade baseada em um coeficiente de

afinidade

Nesta família de função hibrida de dissimilaridade, j

Cφ mede às diferenças em

conteúdo baseada no coeficiente de afinidade proposto por Bacelar-Nicolau [Bacelar-

Nicolau,1985] e j

pφ mede às diferenças em posição (suporte) para variável j

( )pj ,...,1=

(3.7)


- 46 -

( ) ( )( ) ( ) ( )∑=

∗−=

*

1

1,jH

t

j

t

j

t

jjj

C qkvkvq ωωφ

( ) ( )( ) ( ) ( )( ) ( )( ) ( )( )( ) ( )( )ω

ωωωφ

jj

jjjjjjj

pAkAl

AlkAlAkAlkvq

*

**

~~

~~~~,

⊕

−−⊕=

com ( )( ) ( )] maxmax, minmin[)( *k

j

kik

j

ki

jj CibCialAkAl ∈∈=⊕ ω ,

( ) ( )],[)(~

k

j

kik

j

ki

j Ci bmaxCi aminlkAl ∈∈= e

( ) ( )],[)(~* jjj balAl ωωω = , sendo ( )*l o comprimento do intervalo * .

A dissimilaridade global entre a descrição modal da classe kC e a descrição

modal de um objeto ω é definida agregando as comparações hibridas baseadas em um

coeficiente de afinidade para formar de uma função de agregação tal como a

generalização da métrica de Minkowski

( ) ( )[ ]q

j

q

k

jj

k CwCd ∑=

=1

11 ,, ωφω

Considerando 1=q e 1=w , e utilizando as descrições modais dos objetos a e b

da Tabelas 3.5 e as descrições modais das classes 1 e 2 da Tabela 3.6 obtêm-se os

seguintes resultados para os componentes de dissimilaridade 1Cφ e 1

pφ e a função de

dissimilaridade global d1:

a) para o objeto a e a classe C1

( ) ( )( ) 4729,0277775,011, 111 =−=vaqCφ ( ) ( )( ) 0,01, 111 =veq apφ

A dissimilaridade entre o objeto a e a classe C1 é: ( ) 2364,0, 11 =Cad

b) para o objeto a e a classe C2

( ) ( )( ) 0,10,012, 111 =−=vaqCφ ( ) ( )( ) 50,020140

30902, 111 =

−

−=vaqpφ


c) para o objeto b e a classe C1

A dissimilaridade entre o objeto b e a classe C1 é: ( ) 8400,0, 11 =Cbd

(3.8)

(3.9)

(3.10)


- 47 -

d) para o objeto b e a classe C2


De acordo com os resultados ( a) – d) ) acima, o objeto a é associado a classe 1C

e o objeto b é afetado a classe 2C .

3.2.3.2 Função hibrida de dissimilaridade baseada em uma distância

de Minkowski Lr

Nesta família a função hibrida de dissimilaridade, o componente ( ) ( )( )kvq jjj

C ,ωφ representa as diferenças em conteúdo para a variável j ( )pj ,...,1=

usando a distância Lr de Minkowski [De Carvalho et al., 2004] com ( ),...2,1=r para o nosso trabalho utilizaremos 2=r .

( ) ( )( )( ) ( )

( )( ) ( )( )[ ]∑∑=

=+

−=

*

*

11

,j

j

H

tH

t

rj

t

rj

t

rj

t

j

tjjj

C

wqkv

wqkvkvq ωφ

Note que esta distância esta normalizada com o termo no denominador da

equação 3.11 ( ( )( ) ( )( )[ ]∑ =+

*

1

jH

t

rj

t

rj

t wqkv ) e a componente em posição ( ) ( )( )kvq jjj

P ,ωφ é:

( ) ( )( ) ( ) ( )( ) ( )( ) ( )( )( ) ( )( )ω

ωωωφ

jj

jjjjjjj

pAkAl

AlkAlAkAlkvq

*

**

~~

~~~~,

⊕

−−⊕=


modal do objeto ω é definida agregando a comparação hibrida baseada na distância Lr

de Minkowski para obter uma função de agregação tal como a métrica Minkowski.

( ) ( )[ ]q

p

j

q

k

jj

k CwCd ∑=

=1

22 ,, ωφω

Novamente, usando as descrições modais das Tabelas 3.5 e 3.6 têm-se os

seguintes resultados para os componentes de dissimilaridade 1Cφ (com r = 1) e 1

pφ e a

função de dissimilaridade global d2:

(3.11)

(3.12)

(3.13)


- 48 -


( )( ) ( )( )[ ] 0.21)(

1

11*1 =+∑ =

kH

t att eqv ( ) ( )( ) 4444,01, 111 =veq aCφ ( ) ( )( ) 0,01, 111 =veq apφ



( )( ) ( )( )[ ] 0,22)(

1

11*1

=+∑ =

kH

t tt aqv ( ) ( )( ) 0,12, 111 =vaqCφ ( ) ( )( ) 5000,02, 111 =vaqpφ








3.2.3.3 Função hibrida de dissimilaridade baseada em um índice de

acordo e desacordo

A função medindo as diferenças em conteúdo ( ) ( )( )kvq jjj

C ,ωφ ( )pj ,...,1= é

definida usando índices de acordo e desacordo [Bezerra & De Carvalho, 2004]. Desta

forma, considere a seguinte tabela de índices.

Tabela 3.7: Índices de desacordo e acordo para dados modais

Acordo Desacordo

Acordo

( )( ) ( )( )∑ ∩∈

=kAAm

j

mjj q** ωω ωα

( )( ) ( )( )∑ ∩∈

=kAAm

j

mk jj kv** ωα

( )( ) ( )∑

∩∈

=kAAm

j

mjj q** ωω ωβ

Desacordo ( )( ) ( )∑

∩∈

=kAAm

j

mk jj kv** ωγ


- 49 -

O índice ωα procura computar a soma dos pesos relativos a distribuição de

pesos ( )ωj

mq no caso de interseção dos suportes ( )ωjA* e ( )kA j* . O índice kα registra

a soma equivalente pesos da distribuição de pesos ( )kq j

m na mesma condição anterior.

O índice ωβ computa a soma dos pesos que pertence somente à distribuição de pesos

( )ωj

mq e o índice kγ computa a soma dos pesos que pertence somente à distribuição

( )kq j

m.

Usando os índices da tabela acima, a função ( ) ( )( )kvq jjj

C ,ωφ é dada por:

( ) ( )( )( )( ) ( )( )

++−+

++−=

γαβα

α

γαβα

αωφ

ωω

ω

kk

kjjj

C kvq 112

1,

com ( ) ( )( ) [ ]1,0, ∈kvq jjj

C ωφ .

A componente posição ( ) ( )( )kvq jjj

P ,ωφ é:

( ) ( )( ) ( ) ( )( ) ( )( ) ( )( )( ) ( )( )ω

ωωωφ

jj

jjjjjjj

pAkAl

AlkAlAkAlkvq

*

**

~~

~~~~,

⊕

−−⊕=


modal do objeto ω é definida agregando a comparação hibrida baseada em índices de

acordo e desacordo para obter uma função de agregação tal como a métrica Minkowski.

( ) ( )[ ]q

p

j

q

k

jj

k CwCd ∑=

=1

33 ,, ωφω

Usando as descrições modais das Tabelas 3.5 e 3.6 são obtidos os seguintes

resultados para os componentes de dissimilaridade 1Cφ e 1

pφ e a função de

dissimilaridade global d3:

(3.14)

(3.15)

(3.16)


- 50 -


Os valores para os índices de acordo e desacordo são:

( )( ) ( )( ) 0.15,05,0

1

11*1* =+==∑ ∩∈ AaAm me aq

aα ( )

( ) ( )( ) 5555,011

11 1*1* ==∑ ∩∈ AaAm mvα

( )( ) ( )

0.01

11*1* ==∑

∩∈ AaAm me aq

aβ ( )

( ) ( )0.01

1

11 1*1* ==∑

∩∈ AaAm mvγ

Os valores para os componentes conteúdo e posição são:

( ) ( )( )( )( ) ( )( )

++−+

++−=

05555,005555,0

5555,01

00,100,1

0,11

2

11, 111 vaqCφ

( ) ( )( ) 0,01, 111 =vaqCφ

( ) ( )( ) 0,01, 111 =vaqpφ

A dissimilaridade entre o objeto a e a classe C1 é: ( ) 0,0, 13 =Cad .


Os valores para os índices de acordo e desacordo são:

( )( ) ( )( ) 0,0

2

11*1* ==∑ ∩∈ AaAm me aq

aα ( )

( ) ( )( ) 0,022

11 1*1* ==∑ ∩∈ AaAm mvα

( )( ) ( )

0,12

11*1* ==∑

∩∈ AaAm me aq

aβ ( )

( ) ( )0,12

2

11 1*1* ==∑

∩∈ AaAm mvγ

Os valores para os componentes conteúdo e posição são:

( ) ( )( ) 0,12, 111 =vaqCφ ( ) ( )( ) 50,02, 111 =vaqpφ

A dissimilaridade entre o objeto a e a classe C2 é: ( ) 7500,0, 23 =Cad .


A dissimilaridade entre o objeto b e a classe C1 é: ( ) 8400,0, 13 =Cbd .


A dissimilaridade entre o objeto b e a classe C2 é: ( ) 1763,0, 23 =Cbd .



3.3 Algoritmo

- 51 -

3.3 Algoritmo

A seguir é apresentado o algoritmo de construção do classificador modal. Dois

módulos são considerados nesse algoritmo: aprendizagem e alocação. A entrada do

classificador modal é um conjunto de dados do tipo intervalo. Esse conjunto é dividido

em dois conjuntos: treinamento e teste. O módulo de aprendizagem usa o conjunto de

treinamento e o módulo de alocação usa o conjunto de teste.

________________________________________________________________ 1. Módulo de aprendizagem

1.1 Etapa de Pré-processamento: para cada variável j ( )pj ,...,1=

obtenha o conjunto de intervalos j

H

j

j jIIA ,...,

~1= de acordo com as

propriedades mostradas em seção 3.1.1. para cada indivíduo ki ( )mk ,...,1= e ( )kni ,...,1=

para cada variável j ( )pj ,...,1=

obtenha ))(),(~

(~)(~

kiqkiAxkiX j

j

j

kij == usando a equação (3.1).

1.2 Etapa de Generalização: para cada variável j ( )pj ,...,1=

para cada classe kC ( )Kk ,...,1=

obtenha ( ) ( )( )kvkAg j

j

j

k ,~~ = usando a equação (3.2).

2. Módulo de alocação para cada novo indivíduo ω faça

2.1 Etapa de Pré-processamento: para cada variável j ( )pj ,...,1=

adicione ],[ jj ba ωω a jA~

e obtenha o novo conjunto de intervalos jA*~.

obtenha ))(),(~

(~ * ωωωj

jj

i qAx = usando a equação (3.3).

2.2. Etapa de Afetação: para cada classe kC ( )Kk ,...,1=


se ≠∩ )(~

)(~ * ωjj AkA ∅ ,

obtenha ( ) ( )( )kvkAg jj

j

k ,~~ *= usando a equação (3.4)

atualize jxω

~ usando a equação (3.5)

compute a dissimilaridade ),( kq Cd ω usando uma das seguintes

equações: (3.10) para 1=q , (3.13) para 2=q e (3.16)

para 3=q .

afete o novo indivíduo à classe kC tal que

( ) ( ) KmCdCd mkq ,...,1,,, ∈∀≤ ωω

____________________________________________________________________________

3.4 Conclusão

- 52 -

3.4 Conclusão

Nesse capítulo foi apresentado um classificador de semântica modal para dados

do tipo intervalo. O classificador modal tem dois módulos: aprendizagem e alocação. O

módulo de aprendizagem é organizado em duas etapas. A primeira etapa, chamada de

pré-processamento, visa transformar as descrições intervalares dos indivíduos do

conjunto de treinamento em descrições modais (distribuições de pesos). A segunda

etapa, chamada de generalização, consiste em obter um vetor de distribuições de pesos

para cada classe de indivíduos cujos elementos são médias dos pesos das distribuições

dos indivíduos pertencentes a essa classe. O módulo de alocação também é dividido em

duas etapas. A primeira etapa, chamada de pré-processamento, consiste em obter um

vetor de distribuição de pesos para cada novo indivíduo a ser classificado. A segunda

etapa, chamada de afetação, compara o novo indivíduo com cada uma das classes pré-

existentes usando uma função híbrida de dissimilaridade. Três famílias de funções

híbridas de dissimilaridade para distribuições de pesos foram consideradas nesse

trabalho. Essas funções combinam as diferenças em conteúdo e em posição (suporte)

para medir a dissimilaridade entre duas distribuições de pesos. O novo indivíduo é

afetado à classe cuja dissimilaridade é mínima.

Capítulo 4

- 53 -

4. Classificador k-vizinhos mais

próximos para dados intervalares

(ID-KNN)

Esta seção apresenta um classificador baseado em exemplos (lazy learning) para

dados simbólicos de tipo intervalo, aqui chamado ID-KNN (Interval Data K-Nearest

Neighbor). Esse classificador necessita de uma etapa de pré-processamento para

transformar dados intervalares em dados modais (distribuições de pesos).

Os classificadores vizinhos mais próximos (1-NN e k-NN [Cover & Hart, 1967])

são procedimentos não paramétricos populares usados executar o classificação. Esta

regra da decisão fornece a atribuição de um rótulo da classe a um exemplo

desconhecido baseado nos rótulos da classe da freqüência representada pelos vizinhos

os mais próximos ao exemplo desconhecido.

Os algoritmos de buscas mais rápidas de vizinhos mais próximos foram uma das

alternativas para aliviar o custo computacional ([Grother et al., 1997], [Djouadi &

Bouktache, 1997]). Por outro lado, comprimindo os exemplos do conjunto de

treinamento, o espaço de armazenamento e o custo computacional podem ser reduzidos.

Neste sentido, as aproximações tradicionais do classificador de NN [Hart, 1968],

[Gates, 1972], [Ferri et al., 1999] foram propostos protótipos dessa seleção do conjunto

de exemplos do treinamento para reduzindo o custo e preservar o desempenho do

classificador. Os classificadores que utilizam protótipos obtêm um conjunto de

protótipos que agem como representantes das classes. A regra de classificação é baseada

na distância mínima entre um exemplo desconhecido e o protótipo de uma classe. A

vantagem estes classificador é que têm alguns protótipos que sumarizam

economicamente todos os pontos chave dos dados. A quantização de aprendizagem do

vetor (LVQ) [Kohonen, 1989] é provavelmente o classificador o mais bem conhecido

que utiliza protótipo. Um outro classificador de protótipo é o modelo de mistura

Gaussiana que é baseado em modelar as densidades das classe condicionais como uma

mistura de gaussiana [Duda et al., 2001].

4.1 Módulo de aprendizagem

- 54 -

O ID-KNN difere do k-NN clássico principalmente que os indivíduos ou objetos

são descritos por vetores de dados que não somente podem assumir um único valor, mas

um conjunto de valores, um intervalo ou uma distribuição de pesos. A regra de

classificação é baseada na freqüência de determinada classe dos que estiverem mais

próximos do objeto de teste e considerando também o tamanho da vizinhança do

elemento a ser classificado, a quantidade de elementos de cada classe que estão nessa

vizinhança e um vetor de pesos em que cada coluna diz respeito a uma classe.

Seja mC , Mm ,...1= , uma classe de mn objetos indexados por mi ( )mni ,...,1=

com ∅='mm CC I se 'mm ≠ e Ω== m

M

m C1U um conjunto de treinamento de tamanho

∑ ==

M

m mnn1

. Cada objeto mi ( )mni ,...,1= é descrito por p variáveis simbólicas do

tipo intervalo pXX ,...,1 e uma variável nominal 1+pX que representa a classe do objeto.

Uma variável simbólica jX ( pj ,...,1= ) é do tipo intervalo se, dado um objeto

mi de mC ),...,1( Mm = , ( ) [ ]j

j

ki

j

ki

j

kij AbaxkiX ⊆== , sendo [ ]baAj ,= é um intervalo.

Uma variável simbólica jX~

( pj ,...,1= ) é do tipo modal se, dado um objeto mi de mC

),...,1( Mm = , ))(),(()(~

miqmiSmiX j = sendo )(miS um suporte e )(miq um vetor de

pesos definido em )(miS tal que um peso )(gω é associado para cada categoria

)(miSg ∈ .

Dois módulos constituem o classificador ID-KNN: aprendizagem que visa

converter dos dados intervalares do conjunto de treinamento em dados do tipo modal e a

alocação que tem como propósito classificar os indivíduos do conjunto de teste.

4.1. Modulo de aprendizagem

O módulo de aprendizagem transforma as descrições intervalares de um

conjunto de treinamento em descrições modais utilizando as mesmas técnicas da etapa

de pré-processamento empregada no classificador modal, para a conversando dos dados

simbólicos do tipo intervalo em dados simbólicos do tipo modal. A saída desse módulo

é uma tabela cujas linhas são indivíduos ou objetos e as colunas são variáveis

simbólicas modais.

4.2 Módulo de alocação

- 55 -

4.2. Modulo de alocação

O módulo de alocação objetiva classificar os indivíduos do conjunto de teste a

uma das classes pré-existentes usando uma das funções de dissimilaridades híbridas

apresentadas no capítulo 3 para comparar a descrição modal do indivíduo do conjunto

de teste com a descrição modal de cada elemento da sua vizinhança.

Sejam ω um indivíduo ou objeto a ser classificado a uma classe mC

),...,1( Mm = ; ,...,)( 1 kk ooO =ω a vizinhança de ω determinada pelo conjunto de

treinamento e número de vizinhos k . Sendo ))(),...,((F 1 MCfCf ∈∈= ωω um vetor

de freqüências em que )( mCf ∈ω é a freqüência de ω pertencer à classe mC .

Seja ),( lowd a medida de dissimilaridade entre ω e um elemento de sua

vizinhança lo através de uma das três famílias de funções de dissimilaridade propostas

na seção 3.2.3 do capítulo 3, o novo elemento ω vai ser classificado de acordo com a

maior freqüência )( mCf ∈ω& ),...,1( Mm = existente de determinada classe em relação

a vizinhança pré-estabelecida dentre os mais próximos segundo a medida de

dissimilaridade utilizada.

O intuito da construção desse classificador ID-KNN é viabilizar um comparação

entre o classificador modal proposto nesse trabalho com um outro classificador de

semântica modal para dados intervalares e verificarmos como ambos os classificadores

se comporta com algumas configurações de dados simulados e também com dados do

tipo real.

A seguir é descrito o algoritmo de construção do classificador ID-KNN para

dados modais. Esse algoritmo difere do classificador modal em dois pontos. Primeiro o

classificador não tem a etapa de generalização do módulo de aprendizagem. Segundo a

regra de classificação do módulo de alocação é baseada na máxima freqüência de

determinada classe entre a vizinhança em estudo.

4.2 Módulo de alocação

- 56 -

Algoritmo ____________________________________________________________________________

1. Módulo de aprendizagem


obtenha o conjunto de intervalos j

H

j

j jIIA ,...,

~1= de acordo com as

propriedades mostradas em seção 3.1.1. para cada indivíduo mi ( )Mm ,...,1= e ( )mni ,...,1=


obtenha a descrição modal ))(),(~

(~)(~

miqmiAxmiX j

j

j

kij ==

usando a equação (3.1). 2. Módulo de alocação

para cada novo indivíduo ω faça 2.1 Etapa de Pré-processamento:


adicione o intervalo ],[ ωω ba a jA~

e obtenha o novo conjunto jA*~.

obtenha a descrição modal ))(),(~

(~ ωωωj

j

j

i qAx = do

indivíduo ω usando a equação (3.3). 2.2. Etapa de Afetação:

para cada mC ( )Mm ,...,1=

para cada indivíduo mi ( )mni ,...,1=


se ≠∩ )(~

)(~ * ωjj AmiA ∅ ,

obtenha ( ) ( )( )mivmiAg jj

j

k ,~~ *= usando a equação

(3.4) atualize jxω

~ usando a equação (3.5)

compute a dissimilaridade ),( kq Cd ω usando uma

das seguintes equações: (3.10) para 1=q , (3.13) para 2=q e (3.16) para 3=q .

determine os k-vizinhos mais próximos de ω de acordo com os resultados ),( mid q ω .

para cada classe m obtenha a freqüência )( mCf ∈ω

afete o novo indivíduo à classe mC tal que

MhCfCf hm ,...,1),()( ∈∀∈≥∈ ωω

4.3 Conclusão

- 57 -

4.3. Conclusão

Nesse capítulo foi apresentado um classificador K-vizinhos mais próximos para

dados intervalares (ID-KNN). O classificador ID-KNN tem dois módulos:

aprendizagem e alocação. O módulo de aprendizagem visa transformar as descrições

intervalares dos indivíduos do conjunto de treinamento em descrições modais

(distribuições de pesos). O módulo de alocação possui uma regra de classificação

baseada em estimativas de probabilidade e o novo indivíduo é afetado à classe cuja

probabilidade é máxima. Três famílias de funções híbridas de dissimilaridade para

distribuições de pesos foram consideradas nesse trabalho. Essas funções combinam as

diferenças em conteúdo e em posição (suporte) para medir a dissimilaridade entre duas

distribuições de pesos. O novo indivíduo é afetado à classe cuja dissimilaridade é

mínima.

No próximo capítulo, será apresentada uma avaliação experimental do

classificador modal com diferentes conjuntos de dados simulados e um conjunto de

dados reais do tipo intervalo.

Capítulo 5

- 58 -

5. Avaliação Experimental

Esse capítulo apresenta uma avaliação experimental do classificador de

semântica modal para dados do tipo intervalo discutido no capítulo 3. O objetivo é

avaliar o desempenho do classificador modal com dados sintéticos e reais do tipo

intervalo. A avaliação é baseada na taxa de erro de classificação obtida através de um

conjunto de teste e pelo tempo (em segundos) total de execução das etapas de

aprendizagem e alocação desse classificador. Com o intuito de obter um resultado

representativo dessas medidas, as etapas de aprendizagem e alocação do classificador

foram organizadas no quadro de uma experiência Monte Carlo. Para dados sintéticos,

foram tomadas 100 réplicas de cada conjunto com idênticas propriedades estatísticas.

Para dados reais, foi usada uma técnica de validação cruzada leave-one-out. Além disso,

o desempenho do classificador modal foi comparado com o desempenho de um

classificador k-vizinhos mais próximos de semântica modal para dados intervalares que

foi estudado e implementado durante esse trabalho. Esse classificador foi inspirado no

classificador SO-NN (Symbolic Object Nearest Neighbor) proposto por [Appice et al,

2006] para dados modais e booleanos.

O restante desse capítulo é dividido em quatro seções. Na primeira seção (5.1)

são apresentados os dados sintéticos que foram utilizados nas experiências. Em seguida

na seção (5.2) veremos as experiências de Monte Carlo e os resultados da taxa de erro e

do tempo para dados sintéticos. Na seção (5.3) teremos uma aplicação com um conjunto

de dados intervalares reais e na última seção (5.4) é exposta uma conclusão dessa

avaliação experimental.

5.1. Dados Sintéticos do tipo Intervalo

Em cada experimento, nós consideramos dois conjuntos de dados em ℜ2. Cada

conjunto de dados tem 250 pontos agrupados em três classes de diferentes formas e

tamanhos: duas classes com formas elípticas de tamanhos 70 e 80 e uma classe com a

forma esférica de tamanho 100. Cada classe deste conjunto de dados quantitativos é

gerada segundo uma distribuição normal bi-variada com vetor de médias µ e matriz de

covariâncias ∑ representada por:

5.1 Dados Sintéticos do tipo Intervalo

- 59 -

=

2

1

µ

µµ e

=Σ

2221

2121

σσρσ

σρσσ

Nós consideramos duas diferentes configurações de conjunto de dados

quantitativos: 1) dados gerados segundo com uma distribuição normal bi-variada com

classes bem separadas e 2) dados gerados segundo com uma distribuição normal bi-

variada com sobreposição de classes.

As classes do conjunto de dados 1 foram geradas de acordo com os parâmetros a

seguir (configuração 1):

a) Classe 1: 1µ = 17, 2µ =34, 21σ =36, 2

2σ =64 e 12ρ = 0.85

b) Classe 2: 1µ = 37, 2µ =59, 21σ =25, 2

2σ =25 e 12ρ = 0.0

c) Classe 3: 1µ = 61, 2µ =31, 21σ =49, 2

2σ =100 e 12ρ = – 0.85

Figura 5.1 ilustra o conjunto de dados 1 mostrando classes bem separadas ao

longo de uma variável e sobrepostas a nível da outra variável.

Configuração 1

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

0,0 20,0 40,0 60,0 80,0 100,0

Classe 1

Classe 2

Classe 3

Figura 5.1: Conjunto de dados quantitativos 1

As classes do conjunto de dados 2 foram geradas de acordo com os parâmetros

a seguir (configuração 2):


- 60 -

a) Classe 1: 1µ = 8, 2µ =5, 21σ =16, 2

2σ =1 e 12ρ = 0.85

b) Classe 2: 1µ = 12, 2µ =15, 21σ =9, 2

2σ =9 e 12ρ = 0.0

c) Classe 3: 1µ = 18, 2µ =7, 21σ =16, 2

2σ =9e 12ρ = – 0.85

Figura 4.2 ilustra o conjunto de dados usuais 2 mostrando classes sobrepostas.

Configuração 2

0,0

5,0

10,0

15,0

20,0

25,0

-5,0 0,0 5,0 10,0 15,0 20,0 25,0 30,0

Classe 1

Classe 2

Classe 3

Figura 5.2: Conjunto de dados quantitativos 2

Os conjuntos de dados do tipo intervalo foram construídos a partir dos conjuntos

de dados quantitativos 1 e 2. Cada ponto (z1,z2) de cada um destes conjuntos de dados

quantitativos é uma semente de um vetor de intervalos:

[ ] [ ]( )2,2,2,2 22221111 γγγγ +−+− zzzz

Os parâmetros 1γ e 2γ são aleatoriamente selecionados de um intervalo pré-

definido. Por exemplo, a largura e o comprimento de todos os retângulos podem ser

aleatoriamente escolhidos dentro do intervalo [1,10]. Neste trabalho, cinco intervalos

pré-definidos foram considerados: [1,10], [1,20], [1,30], [1,40] e [1,50].

Usando essas configurações de dados quantitativos e os intervalos predefinidos

para os parâmetros 1γ e 2γ , têm-se duas diferentes configurações de conjuntos de dados

do tipo intervalo:

(1) O conjunto de dados simbólicos intervalares 1 apresenta sobreposição de

classes ao longo de uma variável intervalar.


- 61 -

(2) O conjunto de dados simbólicos intervalares 2 mostra sobreposição de

classes ao longo de duas variáveis intervalar.

Figura 5.3 ilustra o conjunto de dados intervalar 1 mostrando classes separadas

com parâmetros 1γ e 2γ randomicamente selecionados no intervalo [1,10].

Figura 5.3: Conjunto de dados simbólicos 1

Figura 5.4 ilustra o conjunto de dados intervalar 2 mostrando classes sobrepostas

com parâmetros 1γ e 2γ randomicamente selecionados no intervalo [1,10].

Figura 5.4: Conjunto de dados simbólicos 2

5.2 Experiências Monte Carlo

- 62 -

5.2. Experiências Monte Carlo

A avaliação do desempenho dos classificadores modal e ID-KNN é baseada na

estimativa da taxa de erro de classificação e do tempo de execução usando o método

Monte Carlo com 100 replicações. A finalidade da aplicação do método Monte Carlo é

propiciar uma melhor avaliação quantitativa do desempenho dos métodos. Neste

estudo, são usados os conjuntos de dados sintéticos 1 e 2 de tipo intervalo mostrando

diferentes graus de dificuldade de classificação.

5.2.1. Resultados da taxa de erro

As Tabelas 5.1, 5.2 e 5.3 mostram os valores das médias e os respectivos desvios

padrões da taxa de erro para os classificadores modal e ID-KNN usando o conjunto de

dados intervalares 1 com 1γ e 2γ selecionados de [1,10], [1,20], [1,30], [1,40] e [1,50] e

as funções de agregação d1, d2 e d3 respectivamente, com parâmetros q = 1 e jw = 1/2

( )2,.1=j . Para o classificador ID-KNN, o melhor resultado para a taxa de erro é obtido

com o número da vizinhança k=5 para todas as distâncias analisadas.

Note que, para o classificador modal a distância d1 mostrou o melhor resultado

da taxa de erro, com média 2.43% enquanto que o classificador ID-KNN obteve

melhore resultado na distância d3 com média de 1.86%. Essa configuração trata-se de

um caso moderado de classificação e o classificador ID-KNN foi superior ao

classificador modal em todas as situações com o número da vizinhança k=5.

Tabela 5.1: A média (%) e o desvio padrão (em parênteses) da taxa de erro para o conjunto de dados intervalar 1 de acordo com a função de agregação d1

Classificador ID-KNN Valor dos

Intervalos Classificador

Modal k = 1 k = 5 k = 10 k = 15

[1,10] 2.10

(0.0095) 2.38

(0.0106) 1.81

(0.0083) 2.04

(0.0089) 2.10

(0.0096)

[1,20] 2.18

(0.0100) 2.28

(0.0114) 1.64

(0.0084) 1.66

(0.0088) 1.76

(0.0093)

[1,30] 2.42

(0.0109) 2.54

(0.0109) 1.80

(0.0087) 1.98

(0.0093) 1.98

(0.0096)

[1,40] 2.75

(0.0116) 2.77

(0.0112) 2.04

(0.0088) 2.12

(0.0104) 2.26

(0.0111)

[1,50] 2.72

(0.0104) 2.74

(0.0107) 2.07

(0.0100) 2.14

(0.0095) 2.25

(0.0090)


- 63 -



intervalos Classificador

Modal k = 1 k = 5 k = 10 k = 15

[1,10] 2.28

(0.0101) 2.41

(0.0111) 1.76

(0.0078) 1.88

(0.0091) 1.97

(0.0094)

[1,20] 2.47

(0.0100) 2.52

(0.0091) 1.78

(0.0084) 1.87

(0.0079) 1.89

(0.0083)

[1,30] 2.76

(0.0115) 2.55

(0.0112) 2.02

(0.0097) 2.01

(0.0100) 2.11

(0.0102)

[1,40] 2.85

(0.0104) 3.00

(0.0103) 2.17

(0.0103) 2.37

(0.0109) 2.42

(0.0106)

[1,50] 3.12

(0.0106) 3.15

(0.0114) 2.44

(0.0106) 2.50

(0.0103) 2.70

(0.0113)




Modal k = 1 k = 5 k = 10 k = 15

[1,10] 1.92

(0.0096) 2.32

(0.0110) 1.70

(0.0095) 1.70

(0.0082) 1.80

(0.0082)

[1,20] 2.08

(0.0092) 2.24

(0.0119) 1.59

(0.0087) 1.55

(0.0086) 1.65

(0.0089)

[1,30] 2.68

(0.0101) 2.63

(0.0107) 1.87

(0.0086) 1.88

(0.0093) 2.05

(0.0091)

[1,40] 2.99

(0.0114) 2.72

(0.0114) 2.03

(0.0092) 2.07

(0.0099) 2.20

(0.0103)

[1,50] 3.16

(0.0103) 2.88

(0.0110) 2.10

(0.0079) 2.18

(0.0088) 2.30

(0.0089)

As Tabelas 5.4, 5.5 e 5.6 mostram os valores das médias e desvios padrões da

taxa de erro para os classificadores modal e o ID-KNN usando o conjunto de dados

intervalar 2 com 1γ e 2γ selecionados de [1,10], [1,20], [1,30], [1,40] e [1,50] e as

funções de agregação d1, d2 e d3 respectivamente, com parâmetros q = 1 e jw = 1/2

( )2,.1=j . Aqui, o melhor resultado da taxa de erro para o classificador ID-KNN foi

obtido com o número da vizinhança k=15. Note que, para ambos os classificadores, à

distância d3 mostrou os melhores resultados da taxa de erro, com média 10.17% e

9.49% para os classificadores modal e o ID-KNN (k = 15), respectivamente. Essa

configuração trata de um caso difícil de classificação e o classificador ID-KNN foi

superior ao classificador modal em todas as situações.


- 64 -




Modal k = 1 K = 5 k = 10 k = 15

[1,10] 9.40

(0.0183) 11.30

(0.0233) 8.60

(0.0187) 8.52

(0.0187) 8.34

(0.0182)

[1,20] 10.10

(0.0177) 12.42

(0.0209) 9.67

(0.0184) 9.38

(0.0182) 9.16

(0.0181)

[1,30] 10.22

(0.0210) 13.35

(0.0247) 10.37

(0.0204) 10.12

(0.0218) 9.76

(0.0194)

[1,40] 10.44

(0.0195) 14.30

(0.0275) 11.36

(0.0225) 10.89

(0.0207) 10.60

(0.0205)

[1,50] 10.76

(0.0213) 15.36

(0.0276) 12.22

(0.0223) 11.92

(0.0262) 11.38

(0.0230)




Modal k = 1 K = 5 k = 10 k = 15

[1,10] 12.87

(0.0250) 11.74

(0.0229) 8.92

(0.0186) 8.74

(0.0188) 8.46

(0.0180)

[1,20] 11.29

(0.0188) 12.76

(0.0199) 9.68

(0.0167) 9.27

(0.0184) 9.04

(0.0176)

[1,30] 11.86

(0.0208) 14.69

(0.0260) 11.52

(0.0211) 10.78

(0.0200) 10.75

(0.0183)

[1,40] 12.91

(0.0215) 16.34

(0.0238) 13.30

(0.0229) 12.83

(0.0216) 12.39

(0.0215)

[1,50] 14.28

(0.0297) 18.42

(0.0250) 15.23

(0.0233) 14.57

(0.0236) 14.32

(0.0239)




Modal k = 1 k = 5 k = 10 k = 15

[1,10] 8.91

(0.0181) 11.15

(0.0205) 8.35

(0.0189) 8.23

(0.0175) 8.00

(0.0183)

[1,20] 9.56

(0.0176) 11.48

(0.0218) 9.03

(0.0168) 8.89

(0.0189) 8.73

(0.0176)

[1,30] 10.26

(0.0193) 13.46

(0.0210) 10.07

(0.0196) 9.75

(0.0179) 9.51

(0.0179)

[1,40] 10.78

(0.0193) 14.12

(0.0254) 11.11

(0.0200) 10.79

(0.0198) 10.44

(0.0185)

[1,50] 11.36

(0.0210) 15.50

(0.0256) 11.84

(0.0223) 11.25

(0.0218) 10.79

(0.0205)


- 65 -

Para concluir a avaliação experimental usando a taxa de erro como medida de

desempenho, a Tabela 5.7 mostra as hipóteses de testes t-Student para amostras

independentes com nível de significância 5% onde 1µ e 2µ são, respectivamente, as

médias da taxa de erro para o classificador ID-KNN (k = 5 para o conjunto de dados

intervalares 1 e k = 15 para o conjunto de dados intervalares 2) e o classificador modal

com distância d3. Nessa tabela, os valores das estatísticas dos testes de hipóteses

revelam que o desempenho médio (medido pela taxa de erro) do classificador ID-KNN

é superior ao do classificador modal.

Tabela 5.7: Testes de Hipóteses t-Student usando a função de agregação d3

Conjunto de dados intervalares 1 Conjunto de dados intervalares 2 Valor dos intervalos

H0: 1µ = 2µ

H1: 1µ < 2µ Decisão

H0: 1µ = 2µ

H1: 1µ < 2µ Decisão

[1,10] -1.63 Não Rejeita H0 -3.53 Rejeita H0 [1,20] -3.87 Rejeita H0 -3.33 Rejeita H0 [1,30] -6.08 Rejeita H0 -2.85 Rejeita H0 [1,40] -6.55 Rejeita H0 -1.27 Não Rejeita H0 [1,50] -8.16 Rejeita H0 -1.94 Rejeita H0

5.2.2. Resultado do tempo (em segundos)

O tempo de execução dos classificadores é computado considerando as etapas de

aprendizagem e alocação nas 100 replicações. As Tabelas 5.8 e 5.9 mostram os valores

das medias e desvios padrões do tempo para os classificadores modal e ID-KNN com

k=1 e configurações dos conjuntos de dados intervalares 1 e 2, respectivamente,

utilizando as funções de agregação dz (z = 1, 2, 3) com parâmetros q = 1 e jw = 0,5

( )2,.1=j . Realmente, em média, o tempo de execução gasto pelo classificador ID-KNN

é muito superior ao tempo gasto pelo classificador modal em ambas as configurações e

para todas as distâncias. Note que, para ambas configurações e classificadores, a

distância d2 apresentou o pior resultado e a distância d3 obteve o melhor resultado em

termos de tempo de execução.


- 66 -

Tabela 5.8: A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 1 conforme a função de agregação dz (z = 1, 2, 3).

Distância d1 Distância d2 Distância d3 Valor dos intervalos Modal ID-KNN Modal ID-KNN Modal ID-KNN

[1,10] 0.23

(0.4229) 3.03

(0.2227) 0.23

(0.4229) 2.96

(0.2428) 0.23

(0.4229) 3.03

(0.2641)

[1,20] 0.23

(0.4229) 3.33

(0.4725) 0.23

(0.4229) 3.16

(0.3684) 0.23

(0.4229) 3.28

(0.4512)

[1,30] 0.23

(0.4229) 3.59

(0.4943) 0.23

(0.4229) 3.37

(0.4852) 0.23

(0.4229) 3.51

(0.5024)

[1,40] 0.23

(0.4229) 3.81

(0.4425) 0.23

(0.4229) 3.54

(0.5009) 0.23

(0.4229) 3.70

(0.4605)

[1,50] 0.23

(0.4229) 3.97

(0.4595) 0.24

(0.4229) 3.68

(0.4688) 0.23

(0.4229) 3.88

(0.3561) Tabela 5.9: A média (%) e o desvio padrão (em parênteses) do tempo (em segundos) para o conjunto de dados intervalar 2 conforme a função de agregação dz (z = 1, 2, 3).

Distância d1 Distância d2 Distância d3 Valor dos intervalos Modal ID-KNN Modal ID-KNN Modal ID-KNN

[1,10] 0.23

(0.4229) 3.72

(0.4512) 0.22

(0.4163) 3.51

(0.5024) 0.22

(0.4163) 3.68

(0.4898)

[1,20] 0.23

(0.4229) 4.25

(0.5198) 0.23

(0.4229) 3.89

(0.4471) 0.22

(0.4163) 4.11

(0.3450)

[1,30] 0.23

(0.4229) 4.49

(0.5024) 0.24

(0.4292) 4.05

(0.2611) 0.23

(0.4229) 4.27

(0.4682)

[1,40] 0.24

(0.4292) 4.62

(0.4878) 0.24

(0.4292) 4.12

(0.3265) 0.23

(0.4229) 4.38

(0.4878)

[1,50] 0.24

(0.4292) 4.66

(0.4760) 0.24

(0.4292) 4.15

(0.4113) 0.23

(0.4229) 4.43

(0.4975)

Os experimentos apresentados nesta seção com dois conjuntos de dados

sintéticos (situações de dificuldade de classificação variando de moderada a difícil) no

quadro de uma experiência Monte Carlo mostraram claramente que o classificador

modal é superior ao classificador ID-KNN em termos da taxa de erro de classificação e

do tempo de execução em segundos.

5.3 Aplicação com um conjunto de dados intervalares reais

- 67 -

5.3. Aplicação com um conjunto de dados

intervalares reais

Os classificadores ID-KNN e modal foram também avaliados com um conjunto

de dados intervalares reais. O desempenho desses classificadores foi medido pela

estimativa da taxa de erro usando o método de validação cruzada leave-one-out.

O conjunto de dados de temperatura tem sido aplicado em diferentes trabalhos

na literatura da análise de dados simbólicos ([Guru et al, 2004], [De Carvalho, 2006]).

Esse conjunto contém 37 cidades, cada cidade é descrita por 12 variáveis do tipo

intervalo que são mínimas e máximas de temperaturas em graus centígrados de 12

meses. A Tabela 5.10 mostra uma parte desse conjunto de dados.

Segundo observadores humanos, a classificação a priori para este conjunto de

dados intervalares é [Guru et al, 2004]:

a) Classe 1: Bahraim, Bombay, Cairo, Calcutta, Colombo, Dubai, Hong

Kong, Kula Lampu,r Madra,s Manila, Mexixo, Nairobi, New Delhi e Sydney

b) Classe 2: Amsterdam, Athens, Copenhagen, Frankfurt, Geneva, Lisbon,

London, Madri, Moscow, Munich, New York, Paris, Rome, San

Francisco, Seoul, Stockholm, Tokyo, Toronto, Vienna e Zurich

c) Classe 3: Mauritius

d) Classe 4: Theran.

Nessa classificação a priori, as cidades da classe 1 estão localizadas entre 0 e 40

graus de latitudes e as cidades da classe 2 estão, em sua maioria, localizadas entre 40 e

60 graus de latitudes. Algumas cidades, que estão próximas da costa e estão localizadas

entre 0 e 40 graus, estão classificadas como da classe 2. A ilha Mauritius e a cidade

Tehran são classes unitárias, que são classes 3 e 4, respectivamente. As classes obtidas

usando a abordagem de agrupamento proposto em Guru et al. (2004) estão de acordo

com essa classificação a priori obtida por observadores humanos.

5.3 Aplicação com um conjunto de dados intervalares reais

- 68 -

Tabela 5.10: Valores máximo e mínimo de temperaturas em graus centígrados de 37 cidades

Cidades January February … November December Amsterdan [– 4 ,4] [– 5,3] … [1,10] [– 1,4]

Athens [6,12] [6,12] … [11,18] [8,14] Bahrain [13,19] [14,19] … [20,26] [15,21] Bombay [19,28] [19,28] … [23,32] [20,30]

Cairo [8,20] [9,22] … [14,26] [10,20] Calcutta [13,27] [16,29] … [18,29] [13,26] Colombo [22,30] [22,30] … [23,29] [22,30]

M M M M M M Stockholm [-9,-5] [-9,-6] … [1,4] [-2,2]

Sydney [20,30] [20,30] … [16,26] [20,30] Tehran [0,5] [5,8] … [9,12] [-5,0] Tokyo [0,9] [0,10] … [8,16] [2,12]

Toronto [– 8, – 1] [– 8, –1] … [– 1,17] [– 5,1] Vienna [– 2,1] [– 1,17] … [2,7] [1,3] Zurich [– 11,9] [0,19] … [0,19] [– 11,8]

A Tabela 5.11 mostra a média (%) da taxa de erro avaliada pelo método de

validação cruzada leave-one-out. Dessa tabela, pode-se observar que para esse conjunto

de dados intervalares o classificador modal é tão bom quanto o classificador de ID-

KNN e distâncias d1 e d2.

Tabela 5.11: Média (%) da taxa de erro para a temperatura das cidades do conjunto de dados simbólico do tipo intervalo de acordo com a função de agregação dz (z = 1, 2, 3).

Classificador Distância d1 Distância d2 Distância d3

Modal 2.70 8.11 2.70

ID-KNN k=1

ID-KNN k=3

5.41

5.41

5.41

5.41

21.62

21.62

A Tabela 5.12 mostra o resultado da classificação do conjunto de dados

intervalares temperatura que contem 37 as cidades, esses resultados se refere a distância

d1 para ambos os classificadores sento o ID-KNN com k = 1.

5.4 Software do classificador modal e do ID-KNN

- 69 -

Tabela 5.12: Resultado da classificação das cidades do conjunto de dados

intervalares temperatura.

Cidade Classe

a priori ID-KN Modal Cidade

Classe

a priori ID-KN Modal

Amssterdam 2 2 2 MexicoCity 1 1 3

Athens 2 2 2 Moscow 2 2 2

Bahrain 1 1 1 Munich 2 2 2

Bombay 1 1 1 Nairobi 1 1 1

Cairo 1 1 1 NewDelhi 1 1 1

Calcutta 1 1 1 NewYork 2 2 2

Colombo 1 1 1 Paris 2 2 2

Copenhagen 2 2 2 Rome 2 2 2

Dubal 1 1 1 SanFrancisco 2 2 2

Frankfurt 2 2 2 Seoul 2 2 2

Geneva 2 2 2 Singapore 1 1 1

HongKong 1 1 1 Stockholm 2 2 2

KulaLumpur 1 1 1 Sydney 1 1 1

Lisbon 2 2 2 Tehran 4 2 4

London 2 2 2 Tokyo 2 2 2

Madras 1 1 1 Toronto 2 2 2

Madrid 2 2 2 Vienna 2 2 2

Manila 1 1 1 Zurich 2 2 2

Mauritius 3 1 3

5.4. Software do classificador modal e do ID-KNN

O classificador modal para dados do tipo intervalo e o k-vizinhos mais próximos

para dado intervalares (ID-KNN) foram implementados na linguagem de programação

C/C++ com o uso do software Microsoft Visual C++ 6.0. O resultado dessa

implementação é um programa que pode ser utilizado para a classificação

supervisionada de dados do tipo intervalo.


- 70 -

A entrada desse software é um arquivo do tipo SODAS (Symbolic Official Data

Analysis System), o qual possui diversas funcionalidades que podem auxiliar na

utilização de Data Mining.

Para uma melhor visualização de com o software é utilizado temos as figuras 5.5

e 5.6 que se referem ao classificador modal e ao ID-KNN respectivamente.

Figura 5.5: Janela de execuções do classificador modal.

Figura 5.6: Janela de execuções do classificador ID-KNN.

Na interface do programa é necessário que o usuário forneça algumas entradas

para o programa rodar. A seguir ilustraremos as entradas que são utilizadas na interface


- 71 -

do software para o classificador modal na tabela 5.12 e para o classificador ID-KNN na

tabela 5.13 com exemplo que foi utilizado para o arquivo de dados reais

temperatura.sds:

Tabela 5.13: Informações do sistema e entradas para o classificador modal.

Informações do sistema Entrada do usuário

What’s the input file name? (please, put file

extansion) temperatura.sds

Chose the individuals for the BD, please. 1a$ (representa todos os indivíduos)

Chose the variables from the BD, please. 1a12 (são todas as variáveis, 12

meses)

Type number of classes: 4 (número de classes)

Apriori partition variable: 13 (variável a priori)

Tabela 5.14: Informações do sistema e entradas para o classificador modal.

Informações do sistema Entrada do usuário

What’s the input file name? (please, put file

extansion) temperatura.sds

Chose the individuals for the BD, please. 1a$ (representa todos os indivíduos)

Chose the variables from the BD, please. 1a12 (são todas as variáveis, 12

meses)

Type number of classes: 4 (número de classes)

Apriori partition variable: 13 (variável a priori)

Type numbers of neighbors: 1 (número de vizinhos)

Como saída do software temos um arquivo .txt com os resultados das taxas

médias dos erros e os respectivos desvios padrões associados as funções de


- 72 -

dissimilaridades em estudo que ilustraremos a seguir para o classificador modal e para o

ID-KNN que se apresentam da mesma forma.

Impressão do arquivo Taxa_de_Erro_Global.txt

“temperatura.sds

d1

Erro da Classe 1: 0.066667




Media = 0.027027

Desvio = 0.164399

************************

d2





Media = 0.081081

Desvio = 0.276725

*************************

d3





Media = 0.027027

Desvio = 0.164399

*************************

”

5.5 Conclusão

- 73 -

5.5. Conclusão

Esse capítulo apresentou uma avaliação experimental para o classificador modal

proposto nesse trabalho considerando dois conjuntos de dados intervalares sintéticos

mostrando diferentes casos de dificuldade de classificação e um conjunto de dados reais

de temperatura. O desempenho desse classificador foi medido pela taxa de erro de

classificação calculada usando um conjunto de teste e pelo tempo de execução em

segundos gastos nas etapas de aprendizagem e alocação. Para dados sintéticos, essas

medidas foram estimadas no quadro de uma experiência Monte Carlo para cada

conjunto. Para dados reais as a taxa de erro foi computada usando o método de

validação cruzada leave-one-out.

O classificador modal foi comparado com um classificador, aqui chamado ID-

KNN, para dados modais estudado nesse trabalho. Esse classificador é uma adaptação

do classificador k-NN clássico sendo este adaptado para tratar dados modais cujo

suporte das variáveis é um vetor de intervalos. Os resultados de taxa de erro e tempo

mostraram que, em média, o classificador ID-KNN é superior ao classificador modal

considerando diferentes conjuntos de dados intervalares sintéticos, diferentes funções de

dissimilaridade e diferentes tamanhos de vizinhança para o classificador ID-KNN. A

aplicação com o conjunto de dados de temperatura considerando também diferentes

funções de dissimilaridade e diferentes tamanhos de vizinhança para o classificador ID-

KNN, revelou que os classificadores apresentaram desempenhos similares em termos da

taxa de erro porém, o classificador modal mostrou melhores resultados.

Em se falando de custo computacional o classificador modal é bem superior ao

classificador ID-KNN pos, ele sumariza a informação na etapa de generalização

representando as classes por seus respectivos protótipos minimizando, assim, as

comparações feitas entre o conjunto de teste e os representantes das classes e perdendo

menos tempo em termos de classificação dos elementos do conjunto de teste. Em contra

partida o ID-KNN tem que fazer as comparações entre todos os elementos do conjunto

de treinamento identificar os mais próximos e afetar de acordo com a maior freqüência

entre os k mais próximos, demandando um tempo computacional bem superior ao

classificador modal.

O próximo capítulo apresenta as conclusões finais dessa dissertação assim como

as suas contribuições e trabalhos futuros.

Capítulo 6

- 74 -

6. Conclusão e Trabalhos futuros

Este capítulo fornece as considerações finais relacionadas com esta dissertação

bem como as extensões que possam surgir originadas do trabalho aqui exposto.

O contexto deste trabalho esta inserido na abordagem simbólica em análise de

dados (SDA – Symbolic Data Analysis) relacionada com métodos para a extração de

conhecimentos em grandes bases de dados. O principal objetivo da SDA é desenvolver

métodos para o tratamento de dados mais complexos como intervalos, conjuntos e

distribuição de probabilidades (ou de pesos). Esses métodos em geral (mas não sempre)

são extensões dos métodos e algoritmos de extração de conhecimentos (técnicas

estatísticas e de aprendizagem de máquina) para dados usuais.

Neste trabalho foi desenvolvido um classificador simbólico de semântica modal

para dados do tipo intervalo. Esse classificador pressupõe uma etapa inicial onde os

exemplos descritos por vetores de intervalos passam a ser descritos por vetores de

distribuições de pesos que passam então a ser a entrada do classificador. Ele possui duas

etapas, a aprendizagem propriamente dita e a alocação. Após a etapa de aprendizagem,

cada classe é também descrita por um vetor de distribuições de pesos via operações de

generalização que sintetiza as informações dos exemplos da referida classe. A regra de

alocação de um exemplo a uma classe é realizada através de funções de dissimilaridade

que comparam vetores de distribuições de pesos. Dessa forma, o exemplo a ser

classificado, descrito por um vetor de intervalos, deve passar também por uma etapa de

pre-processamento para então ser descrito também por um vetor de distribuições

(uniformes) de pesos. Três famílias de funções de dissimilaridade para distribuições de

pesos foram estudadas nesse trabalho.

A avaliação do desempenho desse classificador foi baseada na taxa (média) de

erro de classificação obtida através da aplicação do mesmo à conjuntos de teste e pelo

tempo médio (em segundos) total de execução das etapas de aprendizagem e alocação

desse classificador. Com o intuito de obter um resultado representativo dessas medidas,

as etapas de aprendizagem e alocação do classificador foram organizadas no quadro de

uma experiência Monte Carlo no caso de dados sintéticos. Nessa experiência, foram

consideradas 100 réplicas de cada conjunto (aprendizagem e teste) com idênticas

propriedades estatísticas. Para dados reais, foi usada uma técnica de validação cruzada

6.1 Trabalhos Futuros

- 75 -

leave-one-out. Além disso, o desempenho do classificador modal foi comparado com o

desempenho de um classificador para dados modais (aqui chamado ID-KNN) que foi

estudado nesse trabalho.

Os resultados obtidos para a taxa de erro e o tempo de execução mostraram que,

em média, o classificador ID-KNN é superior ao classificador modal considerando

diferentes conjuntos de dados intervalares sintéticos, diferentes funções de

dissimilaridade e diferentes tamanhos de vizinhança para o classificador ID-KNN. O

estudo do conjunto de dados de temperatura considerando também diferentes funções de

dissimilaridade e diferentes tamanhos de vizinhança para o classificador ID-KNN,

revelou que esses classificadores apresentaram desempenhos similares sendo o

classificador modal superior, em termos da taxa de erro.

É importante salientar que no período de estudo e implementação do

classificador modal um artigo foi publicado [Silva et al., 2006] no ICONIP-2006 (13th

International Conference on Neural Information Processing) que é uma importante

conferência internacional anual para explorar e trocar idéias em redes neural e em

disciplinas relacionadas.

A contribuição principal do trabalho é a comparação de várias medidas de

dissimilaridades e de seus componentes internos (pesos) e seus suportes e selecionar a

melhor medida para um problema na análise de dados. Escolhendo e aplicando funções

diferentes de dissimilaridade à mesma base de dados, é possível descobrir a função a

mais indicada de dissimilaridade a ser aplicada a um problema específico.

6.1. Trabalhos Futuros

Com relação a continuidade deste trabalho, pode-se mencionar as seguintes

extensões:

I. Fazer um estudo comparativo do classificador simbólico modal para

dados do tipo intervalo com outras técnicas de classificação

supervisionada existentes com por exemplo Redes Neurais Artificiais.

II. Adaptar e testar outras distâncias para os dados simbólicos modais bem

como utilizar outras bases de dados reais para um melhor validação do

método.

- 76 -

Apêndice A

Arquivo “temperatura.sds “

A seguir um exemplo de um arquivo no formato padrão de SODA’s que é o

arquivo “temperatura.sds” que foi utilizado nos testes das aplicações com dados reais

que é um conjunto contém 37 cidades, cada cidade é descrita por 12 variáveis do tipo

intervalo que são mínimas e máximas de temperaturas em graus centígrados de 12

meses.

SODAS = (

CONTAINS = (

FILES, HEADER, INDIVIDUALS, VARIABLES, RECTANGLE_MATRIX

),

FILE = (

procedure_name = "db2so" ,

version = "sans" ,

create_date = ""

),

HEADER = (

title = "temperaturas" ,

sub_title = "h" ,

indiv_nb = 37 ,

var_nb = 13 ,

rules_nb = 0 ,

nb_var_set = 0 ,

nb_indiv_set = 0 ,

nb_var_nom = 0 ,

nb_var_cont = 0 ,

nb_var_text = 0 ,

nb_var_cont_symb = 12 ,

nb_var_nom_symb = 1 ,

nb_var_nom_mod = 0 ,

nb_na = 0 ,

Apêndice A

- 77 -

nb_null = 0 ,

nb_nu = 0 ,

nb_hierarchies = 0

),

INDIVIDUALS = (

(0,"AA00", "Amssterdam" ),

(1,"AA01", "Athens" ),

(2,"AA02", "Bahrain" ),

(3,"AA03", "Bombay" ),

(4,"AA04", "Cairo" ),

(5,"AA05", "Calcutta" ),

(6,"AA06", "Colombo" ),

(7,"AA07", "Copenhagen" ),

(8,"AA08", "Dubal" ),

(9,"AA09", "Frankfurt" ),

(10,"AA10", "Geneva" ),

(11,"AA11", "HongKong" ),

(12,"AA12", "KulaLumpur" ),

(13,"AA13", "Lisbon" ),

(14,"AA14", "London" ),

(15,"AA15", "Madras" ),

(16,"AA16", "Madrid" ),

(17,"AA17", "Manila" ),

(18,"AA18", "Mauritius" ),

(19,"AA19", "MexicoCity" ),

(20,"AA20", "Moscow" ),

(21,"AA21", "Munich" ),

(22,"AA22", "Nairobi" ),

(23,"AA23", "NewDelhi" ),

(24,"AA24", "NewYork" ),

(25,"AA25", "Paris" ),

(26,"AA26", "Rome" ),

(27,"AA27", "SanFrancisco" ),

Apêndice A

- 78 -

(28,"AA28", "Seoul" ),

(29,"AA29", "Singapore" ),

(30,"AA30", "Stockholm" ),

(31,"AA31", "Sydney" ),

(32,"AA32", "Tehran" ),

(33,"AA33", "Tokyo" ),

(34,"AA34", "Toronto" ),

(35,"AA35", "Vienna" ),

(36,"AA36", "Zurich" )

),

VARIABLES = (

(1 ,inter_cont ,"" ,"AB00" ,"JAN" ,0, 0, -13, 31),

(2 ,inter_cont ,"" ,"AC00" ,"FEB" ,0, 0, -12, 32),

(3 ,inter_cont ,"" ,"AD00" ,"MAR" ,0, 0, -8, 34),

(4 ,inter_cont ,"" ,"AE00" ,"APR" ,0, 0, -2, 36),

(5 ,inter_cont ,"" ,"AF00" ,"MAY" ,0, 0, -8, 40),

(6 ,inter_cont ,"" ,"AG00" ,"JUN" ,0, 0, 5, 39),

(7 ,inter_cont ,"" ,"AH00" ,"JUL" ,0, 0, 8, 39),

(8 ,inter_cont ,"" ,"AI00" ,"AUG" ,0, 0, 8, 40),

(9 ,inter_cont ,"" ,"AJ00" ,"SEPT" ,0, 0, 5, 37),

(10 ,inter_cont ,"" ,"AK00" ,"OCT" ,0, 0, 0, 34),

(11 ,inter_cont ,"" ,"AL00" ,"NOV" ,0, 0, -3, 32),

(12 ,inter_cont ,"" ,"AM00" ,"DEC" ,0, 0, -11, 31),

(13 ,nominal ,"" ,"AE00" ,"Edibility" ,0, 0 ,4, (

(1 ,"AE01" ,"U" ,0),

(2 ,"AE02" ,"U" ,0),

(3 ,"AE02" ,"U" ,0),

(4 ,"AE03" ,"T" ,0 ) )

)

),

Apêndice A

- 79 -

RECTANGLE_MATRIX = (

(( -4 : 4 ), ( -5 : 3 ), ( 2 : 12 ), ( 5 : 15 ), ( 7 : 17 ), ( 10 : 20 ), ( 10 : 20 ), ( 12 : 23 ), ( 10 : 20 ), ( 5 : 15 ), ( 1 : 10 ), ( -1 : 4 ), 2),

(( 6 : 12 ), ( 6 : 12 ), ( 8 : 16 ), ( 11 : 19 ), ( 16 : 25 ), ( 19 : 29 ), ( 22 : 32 ), ( 22 : 32 ), ( 19 : 28 ), ( 16 : 23 ), ( 11 : 18 ), ( 8 : 14 ), 2),

(( 13 : 19 ), ( 14 : 19 ), ( 17 : 23 ), ( 21 : 27 ), ( 25 : 32 ), ( 28 : 34 ), ( 29 : 36 ), ( 30 : 36 ), ( 28 : 34 ), ( 24 : 31 ), ( 20 : 26 ), ( 15 : 21 ), 1),

(( 19 : 28 ), ( 19 : 28 ), ( 22 : 30 ), ( 24 : 32 ), ( 27 : 33 ), ( 26 : 32 ), ( 25 : 30 ), ( 25 : 30 ), ( 24 : 30 ), ( 24 : 32 ), ( 23 : 32 ), ( 20 : 30 ), 1),

(( 8 : 20 ), ( 9 : 22 ), ( 11 : 25 ), ( 14 : 29 ), ( 17 : 33 ), ( 20 : 35 ), ( 22 : 36 ), ( 22 : 35 ), ( 20 : 33 ), ( 18 : 31 ), ( 14 : 26 ), ( 10 : 20 ), 1),

(( 13 : 27 ), ( 16 : 29 ), ( 21 : 34 ), ( 24 : 36 ), ( 26 : 36 ), ( 26 : 33 ), ( 26 : 32 ), ( 26 : 32 ), ( 26 : 32 ), ( 24 : 32 ), ( 18 : 29 ), ( 13 : 26 ), 1),

(( 22 : 30 ), ( 22 : 30 ), ( 23 : 31 ), ( 24 : 31 ), ( 25 : 31 ), ( 25 : 30 ), ( 25 : 29 ), ( 25 : 29 ), ( 25 : 30 ), ( 24 : 29 ), ( 23 : 29 ), ( 22 : 30 ), 1),

(( -2 : 2 ), ( -3 : 2 ), ( -1 : 5 ), ( 3 : 10 ), ( 8 : 16 ), ( 11 : 20 ), ( 14 : 22 ), ( 14 : 21 ), ( 11 : 18 ), ( 7 : 12 ), ( 3 : 7 ), ( 1 : 4 ), 2),

(( 13 : 23 ), ( 14 : 24 ), ( 17 : 28 ), ( 19 : 31 ), ( 22 : 34 ), ( 25 : 36 ), ( 28 : 39 ), ( 28 : 39 ), ( 25 : 37 ), ( 21 : 34 ), ( 17 : 30 ), ( 14 : 26 ), 1),

(( -10 : 9 ), ( -8 : 10 ), ( -4 : 17 ), ( 0 : 24 ), ( 3 : 27 ), ( 7 : 30 ), ( 8 : 32 ), ( 8 : 31 ), ( 5 : 27 ), ( 0 : 22 ), ( -3 : 14 ), ( -8 : 10 ), 2),

(( -3 : 5 ), ( -6 : 6 ), ( 3 : 9 ), ( 7 : 13 ), ( 10 : 17 ), ( 15 : 17 ), ( 16 : 24 ), ( 16 : 23 ), ( 11 : 19 ), ( 6 : 13 ), ( 3 : 8 ), ( -2 : 6 ), 2),

(( 13 : 17 ), ( 12 : 16 ), ( 15 : 19 ), ( 19 : 23 ), ( 22 : 27 ), ( 25 : 29 ), ( 25 : 30 ), ( 25 : 30 ), ( 25 : 29 ), ( 22 : 27 ), ( 18 : 23 ), ( 14 : 19 ), 1),

(( 22 : 31 ), ( 23 : 32 ), ( 23 : 33 ), ( 23 : 33 ), ( 23 : 32 ), ( 23 : 32 ), ( 23 : 31 ), ( 23 : 32 ), ( 23 : 32 ), ( 23 : 31 ), ( 23 : 31 ), ( 23 : 31 ), 1),

(( 8 : 13 ), ( 8 : 14 ), ( 9 : 16 ), ( 11 : 18 ), ( 13 : 21 ), ( 16 : 24 ), ( 17 : 26 ), ( 18 : 27 ), ( 17 : 24 ), ( 14 : 21 ), ( 11 : 17 ), ( 8 : 14 ), 2),

(( 2 : 6 ), ( 2 : 7 ), ( 3 : 10 ), ( 5 : 13 ), ( 8 : 17 ), ( 11 : 20 ), ( 13 : 22 ), ( 13 : 21 ), ( 11 : 19 ), ( 8 : 14 ), ( 5 : 10 ), ( 3 : 7 ), 2),

(( 20 : 30 ), ( 20 : 31 ), ( 22 : 33 ), ( 26 : 35 ), ( 28 : 39 ), ( 27 : 38 ), ( 26 : 36 ), ( 26 : 35 ), ( 25 : 34 ), ( 24 : 32 ), ( 22 : 30 ), ( 21 : 29 ), 1),

(( 1 : 9 ), ( 1 : 12 ), ( 3 : 16 ), ( 6 : 19 ), ( 9 : 24 ), ( 13 : 29 ), ( 16 : 34 ), ( 16 : 33 ), ( 13 : 28 ), ( 8 : 20 ), ( 4 : 14 ), ( 1 : 9 ), 2),

(( 21 : 27 ), ( 22 : 27 ), ( 24 : 29 ), ( 24 : 31 ), ( 25 : 31 ), ( 25 : 31 ), ( 23 : 29 ), ( 24 : 28 ), ( 25 : 28 ), ( 24 : 29 ), ( 22 : 28 ), ( 22 : 27 ), 1),

(( 22 : 28 ), ( 22 : 29 ), ( 22 : 29 ), ( 21 : 28 ), ( 19 : 25 ), ( 18 : 24 ), ( 17 : 23 ), ( 17 : 23 ), ( 17 : 24 ), ( 18 : 25 ), ( 19 : 27 ), ( 21 : 28 ), 3),

Apêndice A

- 80 -

(( 6 : 22 ), ( 15 : 23 ), ( 17 : 25 ), ( 18 : 27 ), ( 18 : 27 ), ( 18 : 27 ), ( 18 : 27 ), ( 18 : 26 ), ( 18 : 26 ), ( 16 : 25 ), ( 14 : 25 ), ( 8 : 23 ), 1),

(( -13 : -6 ), ( -12 : -15 ), ( -8 : 0 ), ( 0 : 8 ), ( 7 : 18 ), ( 11 : 23 ), ( 13 : 24 ), ( 11 : 22 ), ( 6 : 16 ), ( 1 : 8 ), ( -5 : 0 ), ( -11 : -5 ), 2),

(( -6 : 1 ), ( -5 : 3 ), ( -2 : 9 ), ( 3 : 14 ), ( 7 : 18 ), ( 10 : 21 ), ( 12 : 23 ), ( 11 : 23 ), ( 8 : 20 ), ( 4 : 13 ), ( 0 : 7 ), ( -4 : 2 ), 2),

(( 12 : 25 ), ( 13 : 26 ), ( 14 : 25 ), ( 14 : 24 ), ( 13 : 22 ), ( 12 : 21 ), ( 11 : 21 ), (11 : 21 ), ( 11 : 24 ), ( 13 : 24 ), ( 13 : 23 ), ( 13 : 23 ), 1),

(( 6 : 21 ), ( 10 : 24 ), ( 14 : 29 ), ( 20 : 36 ), ( 26 : 40 ), ( 28 : 39 ), ( 27 : 35 ), ( 26 : 34 ), ( 24 : 34 ), ( 18 : 34 ), ( 11 : 28 ), ( 7 : 23 ), 1),

(( -2 : 4 ), ( -3 : 4 ), ( 1 : 9 ), ( 6 : 15 ), ( 12 : 22 ), ( 17 : 27 ), ( 21 : 29 ), ( 20 : 28 ), ( 16 : 24 ), ( 11 : 19 ), ( 5 : 12 ), ( -2 : 6 ), 2),

(( 1 : 7 ), ( 1 : 7 ), ( 2 : 12 ), ( 5 : 16 ), ( 8 : 19 ), ( 12 : 22 ), ( 14 : 24 ), ( 13 : 24 ), ( 11 : 21 ), ( 7 : 16 ), ( 4 : 10 ), ( 1 : 6 ), 2),

(( 4 : 11 ), ( 5 : 13 ), ( 7 : 16 ), ( 10 : 19 ), ( 13 : 23 ), ( 17 : 28 ), ( 20 : 31 ), ( 20 : 31 ), ( 17 : 27 ), ( 13 : 21 ), ( 9 : 16 ), ( 5 : 12 ), 2),

(( 6 : 13 ), ( 6 : 14 ), ( 7 : 17 ), ( 8 : 18 ), ( 10 : 19 ), ( 11 : 21 ), ( 12 : 22 ), ( 12 : 22 ), ( 12 : 23 ), ( 11 : 22 ), ( 8 : 18 ), ( 6 : 14 ), 2),

(( 0 : 7 ), ( 1 : 6 ), ( 1 : 8 ), ( 6 : 16 ), ( 12 : 22 ), ( 16 : 25 ), ( 18 : 31 ), ( 16 : 30 ), ( 9 : 28 ), ( 3 : 24 ), ( 7 : 19 ), ( 1 : 8 ), 2),

(( 23 : 30 ), ( 23 : 30 ), ( 24 : 31 ), ( 24 : 31 ), ( 24 : 30 ), ( 25 : 30 ), ( 25 : 30 ), ( 25 : 30 ), ( 24 : 30 ), ( 24 : 30 ), ( 24 : 30 ), ( 23 : 30 ), 1),

(( -9 : -5 ), ( -9 : -6 ), ( -4 : -2 ), ( 1 : 8 ), ( 6 : 15 ), ( 11 : 19 ), ( 14 : 22 ), ( 13 : 20 ), ( 9 : 15 ), ( 5 : 9 ), ( 1 : 4 ), ( -2 : 2 ), 2),

(( 20 : 30 ), ( 20 : 30 ), ( 18 : 26 ), ( 16 : 23 ), ( 12 : 20 ), ( 5 : 17 ), ( 8 : 16 ), ( 9 : 17 ), ( 11 : 20 ), ( 13 : 22 ), ( 16 : 26 ), ( 20 : 30 ), 1),

(( 0 : 5 ), ( 5 : 8 ), ( 10 : 15 ), ( 15 : 18 ), ( 20 : 25 ), ( 28 : 30 ), ( 36 : 38 ), ( 38 : 40 ), ( 29 : 30 ), ( 18 : 20), ( 9 : 12 ), ( -5 : 0 ), 4),

(( 0 : 9 ), ( 0 : 10 ), ( 3 : 13 ), ( 9 : 18 ), ( 14 : 23 ), ( 18 : 25 ), ( 22 : 29 ), ( 23 : 31 ), ( 20 : 27 ), ( 13 : 21 ), ( 8 : 16 ), ( 2 : 12 ), 2),

(( -8 : -1 ), ( -8 : -1 ), ( -4 : 4 ), ( -2 : 11 ), ( -8 : 18 ), ( 13 : 24 ), ( 16 : 27 ), ( 16 : 26 ), ( 12 : 22 ), ( 6 : 14 ), ( -1 : 17 ), ( -5 : 1 ), 2),

(( -2 : 1 ), ( -1 : 3 ), ( 1 : 8 ), ( 5 : 14 ), ( 10 : 19 ), ( 13 : 22 ), ( 15 : 24 ), ( 14 : 23 ), ( 11 : 19 ), ( 7 : 13 ), ( 2 : 7 ), ( 1 : 3 ), 2),

(( -11 : 9 ), ( -8 : 15 ), ( -7 : 18 ), ( -1 : 21 ), ( 2 : 27 ), ( 6 : 30 ), ( 10 : 31 ), ( 8 : 25 ), ( 5 : 23 ), ( 3 : 22 ), ( 0 : 19 ), ( -11 : 8 ), 2)

))

END

- 81 -

Referências

[Appice et al., 2006] Appice, A., D'Amato, C., Esposito, F. and Malerba, D.: Classification of symbolic objects: A lazy learning approach. Journal of Intelligent Data Analysis vol.10 (2006) pp.301-324 IOS Press.

[Bacelar-Nicolau,1985] Bacelar-Nicolau, H. The Affinity Coefficient in Cluster

Analysis, Methods of Operation Research, v. 53, p. 507-512, Martin J. Bekman et al. (ed), Verlag Anton Hain, Munchen, 1985.

[Bezerra & De Carvalho, 2004]

Bezerra, B. L. D., De Carvalho, F. A. T. A symbolic

approach for content-based information filtering. Information Processing Letters, Amsterdam (Holland), v. 92, n.1, p.45-52, 2004.

[Billard & Diday, 2000]

L. Billard and E. Diday. Regression analysis for interval-

valued data. In H. A. L. Kiers et al, editor, Data Analysis, Classification and Related Methods, pages 369-374, Berlin, 2000.

[Breiman el al., 1984] Leo Breiman, Jerome H. Friedman, Richard A. Olshen, and Charles J. Stone. Classification and Regression Trees. Wadsworth, 1984.

[Bock, 2000] Hans Hermann Bock. The classical data situation. In Hans-Herman Bock and Edwin Diday, editors, Analysis of

Symbolic Data: Exloratory Methods for Extracting

Statistical Information from Complex Data, pages 24-38, Germany, 2000. Springer.

[Bock & Diday, 2000] Bock, H.H., Diday, E. Analysis of Symbolic Data.

Exploratory Methods for Extracting Statistical Information

from Complex Data, series: Studies in Classification, Data Analysis, and Knowledge Organization, v. 15, Springer-Verlag, Berlin, 2000.

[Braga et al., 2000] A. P. Braga, T. B. Ludermir, and A. de Carvalho. Redes

Neurais Artificiais - Teoria e Aplicações. LTC, Rio de Janeiro, 2000.

[Ciampi, 1992] A. Ciampi. Constructing prediction trees from data: the recpam approach. Proceedings from the Prague University Summer School on Computacional Aspect of Model Choice, pages 105-152. Verlag, 1992.

Referências Bibliográficas

- 82 -

[Ciampi et al., 2000] A. Ciampi, E. Diday, J. Lebbe, E. Périnel, and R. Vignes. Growing a tree classifier with imprecise data. Pattern Recognition Letters, 21(9):787-803, 2000.

[Cover & Hart, 1967] Cover, T. M. and Hart, P. E.: Nearest neighbor patter

lassification, IEEE Trans Inform Theory, 13, 1967, 21-27

[Csiszàr, 1967] Csiszàr, I: Information-type measures of difference of probability distributions and indirect observations. Studia Scient. MAth. Hung, 2, (1967), 299-318.

[D’Oliveira et al., 2004]

D'Oliveira, S., De Carvalho, F.A.T. and Souza, R.M.C.R.: Classifcation of sar images through a convex hull region

oriented approach. In: N. R. Palet al. (Eds.). 11th International Conference on Neural Information Processing (ICONIP-2004), Lectures Notes in Computer Science - LNCS 3316, Springer, (2004), 769-774

[De Carvalho, 1992] De Carvalho, F.A.T.: Méthodes Descriptives en Analyse des

Données Symboliques. PhD thesis, Université Paris IX-Dauphine, 1992.

[De Carvalho, 2006] De Carvalho, F.A.T.: Fuzzy c-means clustering methods for

symbolic interval data. Pattern recognition Letters, 28, 423-437, 2006.

[De Carvalho et al., 1999]

De Carvalho, F. A. T., Verde, R., Lechevallier, Y. A dynamic

clustering of symbolic objcts based on a context dependent

proximity measure. In: IX International Symposium on Applied Stochastic Models and Data analysis. Lisboa: University of Lisboa, p. 237 – 242, 1999.

[De Carvalho et al., 2004]

De Carvalho, F. A. T., Lechevallier, Y. , Souza, R. M. C. R. . A dynamic cluster algorithm based on adaptive Lr distances

for quantitative data. 9th Conference of the International Federation of Classification Societies (IFCS2004). New York (USA): Springer-Verlag, 2004. p. 33-42.

[De Carvalho & Diday, 1998]

De Carvalho, F.A.T. and Diday, E.: Indices de proximité

entre objects symboliques qui tient compte des contraintes

dans l´espace de description. Induction symbolic et numerique à partir de données, Toulouse, 1998. CEPADUES.

[Djouadi & Bouktache, 1997]

Djouadi, A. and Bouktache, E.: Afast algorithm for the

nearest-neighbor classier, IEEE Trans. Pattern Anal. Mach. Intell. 19, (3), 1997, 277-282


- 83 -

[Duda et al., 2001]. Duda, R. O., Hart, P. E. and Stork, D. G.: Pattern

Classificarion, Second Ed., Wiley, New York, 2001

[Esposito et al., 2000] Esposito, F., Malerba, D., Tamma, V. Dissimilarity

Measures for Symbolic Objects. In: Bock, H.H., Diday, E. (eds.): Analysis of Symbolic Data. Exploratory Methods for extracting Statistical Information from Complex Data, Series: Studies in Classification, Data Analysis, and Knowledge Organization, Springer-Verlag, Berlin, v. 15, p. 165-185, 2000.

[Fayyad et al., 1996] U. Fayyad, G. Platetsky-Shapiro, and P. Smyth. From data

minig to knowledge discovery: an overview. In Advances in

Knowledge Discovery and Data Mining, pages 1-34, 1996.

[Ferri et al., 1999] Ferri, F. J., Albert, J. V. and Vidal, E.: Considerations about

sample-size sensitivity of a family of edited nearest-neighbor

rules, IEEE Trans. Systems Man Cybernet. Part B: Cybernet. 29 (4), 1999, 667-672

[Garden, 1998] S. R. Garden. Building the data warehouse. Communications of the ACM, 41(9):52-60, 1998.

[Gates, 1972] Gates, G. W.: The reduced nearest neighbor rule, IEEE Trans. Inform. Theory, 18, 1972, 431-433

[Gora et al., 2002] Gora, G., Wojna, A.: RIONA: A Classifier Combining Rule

Induction and k-NN Method with Automated Selection of

Optimal Neighbourhood. Proceedings of the Thirteenth European Conference on Machine Learning, Springer-Verlag, 2430, (2002), 111-123.

[Grother et al., 1997] Grother, P. J., Candela, G. T. and Blue, J. L.: Fast

implementarions od nearest neighbor classiers, Pattern Recognition 30, (3), 1997, 459-465

[Guru et al., 2004] Guru, D.S., Kiaranagi, B.B. and Nagabhushan, P.: Multivalued type proximity measure and concept of mutual

similarity value useful for clustering symbolic patterns. Pattern recognition Letters, 25, 1203-1213, 2004.

[Hart, 1968] Hart, P. E.: The condensed nearest neighbor rule, IEEE Trans. Inform. Theory, 14, 1968, 515-516

[Ichino & Yaguchi, 1994]

Ichino, M., Yaguchi, H. Generalized minkowski metrics for

mixed feature-type data analysis. IEEE Transactions on Systems, Man, and Cybernetics, v. 24, n. 4, p. 698-708, 1994.


- 84 -

[Johnson & Wichern, 2001]

Richard Arnold Johnson and Dean W. Wichern. Applied

Multivariate Statistical Analysis. Prentice Hall, fifth edition, 2001.

[Kohonen, 1989] Kohonen, T.: Self-organizarion and Associative Memory, Third Ed., Springer, Heidelberg, Germany, 1989

[Lewis, 2000] Roger J. Lewis. An introduction to classification and

regression tree (cart) analysis. Annual Meeting of the Society for Academic Emergency Medicine, San Francisco, California, 2000.

[Palumbo et al., 2000] F. Palumbo N. Carlo Lauro, R. Verde. Factorial

discriminant analysis on symbolic objects. In Hans-Herman Bock and Edwin Diday, editors, Analysis of Symbolic Data: Exploratory Methods for Extracting Statistical Information from Complex Data, pages 212-233, Germany, 2000. Springer.

[Rasson & Lissoir, 2000]

Jean-Paul Rasson and Sandrine Lissoir. Classical methods of

discrimination. In Hans-Herman Bock and Edwin Diday, editors, Analysis of Symbolic Data: Exloratory Methods for Extracting Statistical Information from Complex Data, pages 234-240, Germany, 2000. Springer.

[Rossi & Conan-Guez, 2002]

Fabrice Rossi and Brieuc Conan-Guez. Multi-layer

perceptron on interval data. Classification, Clustering, and Data Analysis (IFCS 2002), pages 427-434, Cracow, Poland, 2002.

[Rumelhart & McClelland, 1986]

J.L. Rumelhart, D.E.; McClelland. Parallel Distributed

Processing: Explorations in the Microstruture of Cognition, volume 1. Cambridge, Mass, 1986.

[Silva et al., 2006] SILVA, Fabio C.d. ; DE CARVALHO, F. T. ; SOUZA, R. M. C. R. ; SILVA, J. Q. . A Modal Symbolic Classifier for

Interval Data. In: 13th International Conference on Neural Information Processing - ICONIP2006. Heidelberg (Germany) : Springer, 2006. v. 4233. p. 50-59.

[Simoff, 1996] S. J. Simoff. Handling uncertainty in neural networks: An

interval approach. Int. Conf. on Neural Networks, pages 606-610, Washington, 1996. IEEE.

Silva, Fábio César Donato Classificação supervisionada usando dados

simbólicos de semântica modal / Fábio César Donato Silva. – Recife: O Autor, 2007. x, 84 folhas : il., fig., tab.

Dissertação (mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, 2007.

Inclui bibliografia e apêndice.

1. Inteligência artificial. 2. Inteligência computacional. Título.

006.3 CDD (22.ed.) MEI2008-078

Pós-Graduação em Ciência da Computação · descoberta automática de conhecimento que visa...

Documents

Transcript of Pós-Graduação em Ciência da Computação · descoberta automática de conhecimento que visa...