Dissertação de Mestrado · Dissertação de Mestrado apresentada por Diego Cesar Florencio de...

Pós-Graduação em Ciência da Computação

“ABORDAGEM KERNELIZADA PARA ANÁLISE

DISCRIMINANTE GENERALIZADA”

Por

DIEGO CESAR FLORENCIO DE QUEIROZ

Dissertação de Mestrado

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE, JULHO/2013

Universidade Federal de Pernambuco

Centro de InformáticaPós-graduação em Ciência da Computação

Diego Cesar Florencio de Queiroz

“Abordagem Kernelizada Para Análise DiscriminanteGeneralizada”

Trabalho apresentado ao Programa de Pós-graduação em

Ciência da Computação do Centro de Informática da Univer-

sidade Federal de Pernambuco como requisito parcial para

obtenção do grau de Mestre em Ciência da Computação.

Orientadora: Renata Maria Cardoso Rodrigues de SouzaCo-Orientador: Francisco José de Azevêdo Cysneiros

RECIFE, JULHO/2013

Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571

Queiroz, Diego Cesar Florencio de Abordagem kernelizada para análise discriminante generalizada / Diego Cesar Florencio de Queiroz. - Recife: O Autor, 2013. xii, 35 f.: il., fig., tab. Orientador: Renata Maria Cardoso Rodrigues de Souza.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013. Inclui referências. 1. Inteligência Computacional. 2. Análise de Dados Simbólicos. 3. Análise Discriminante. I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título. 006.3 CDD (23. ed.) MEI2013 – 144

Dissertação de Mestrado apresentada por Diego Cesar Florencio de Queiroz à Pós

Graduação em Ciência da Computação do Centro de Informática da Universidade Federal

de Pernambuco, sob o título “Abordagem Kernelizada Para Análise Discriminante

Generalizada” orientada pelo Prof. Renata Maria Cardoso Rodrigues de Souza e

aprovada pela Banca Examinadora formada pelos professores:

______________________________________________

Prof. Ricardo Bastos Cavalcante Prudêncio

Centro de Informática / UFPE

______________________________________________

Prof. Marco Antonio de Oliveira Domingues

DAPCE / Instituto Federal de Pernambuco

_______________________________________________

Profa. Renata Maria Cardoso Rodrigues

Centro de Informática / UFPE

Visto e permitida a impressão.

Recife, 30 de julho de 2013

___________________________________________________

Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do

Centro de Informática da Universidade Federal de Pernambuco.

Dedico essa dissertação à minha família, meus amigos e

também a todos os meus mentores.

Agradecimentos

Agradeço a minha família e meus amigos, que são as maiores dádivas que alguém podeter, mas agradeço incomensuravelmente a três pessoas em particular: minha orientadoraRenata por acreditar em mim, mesmo tendo uma sobrecarga de alunos, meu co-orientadorFrancisco por todas as sugestões e opiniões diretas e objetivas e, finalmente, agradeço aRebeca, minha namorada já há quase 6 anos, cujo carinho foi indispensável durante odesenvolvimento desse trabalho.

iv

Aquele que questiona é um tolo por cinco minutos, aquele que não

questiona é um tolo para sempre.

—PROVÉRBIO CHINÊS

Resumo

Diferentes modelos clássicos já foram estendidos para a classificação de dados simbóli-cos de natureza intervalar, como regressão logística e discriminante linear, entre váriosoutros, contudo a maior parte desses classificadores foi desenvolvida para a resolução deproblemas linearmente separáveis, não possuindo um bom desempenho face à problemasnão-linearmente separáveis. Esse trabalho introduz duas abordagens baseadas no mo-delo de discriminante linear generalizado para classificar dados simbólicos intervalares.Nessas abordagens duas famílias de funções de kernel foram utilizadas separadamentepara transpor os dados para um espaço de alta dimensão, permitindo a classificação deproblemas não linearmente separáveis. Tal transposição é realizada através do kerneltrick utilizando o produto escalar convencional e o produto escalar kernelizado paradados intervalares. Experimentos com conjuntos de dados sintéticos, híbrido entre sinté-tico e real e uma aplicação com um conjunto de dados intervalares real demonstram afuncionalidade e eficiência dessa abordagem.

Palavras-chave: Análise de Dados Simbólicos, Kernel, Discriminantes Lineares

vi

Abstract

Different classic models were already extended for symbolic interval data, such as logisticregression and linear discriminant among several others, however the great majority ofthese models were developed to solve linearly separable problems, not presenting a goodperformance on non-linearly separable problems. This work introduces two approachesbased on the generalized linear discriminant to classify symbolic interval data. In thisapproach two families of kernel functions were used separately to project data into ahigh dimensional space, allowing the classification of non-linearly separable problems.This projection is achieved through the kernel trick using the conventional dot productand a kernelized dot product for interval data. Experiments with synthetic data sets,hybrid between synthetic and real data set and an application with a real interval data setdemonstrate the usefulness of this approach.

Keywords: Symbolic Data Analysis, Kernel, Linear Discriminant Analysis

vii

Sumário

Lista de Figuras x

Lista de Tabelas xi

Lista de Acrônimos xii

1 Introdução 11.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Contribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Dados Simbólicos 52.1 Tipos de Dados Simbólicos . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 Variáveis Multivaloradas . . . . . . . . . . . . . . . . . . . . . 92.1.2 Variáveis Intervalares . . . . . . . . . . . . . . . . . . . . . . . 102.1.3 Variáveis Modais . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Abordagens baseadas em Kernel para classificação de dados intervalares 123.1 Funções de Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2 Análise Discriminante Generalizada para Dados Intervalares . . . . . . 14

3.2.1 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2.2 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.3 Análise Discriminante Kernelizada para Dados Intervalares . . . . . . 173.3.1 Notação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3.2 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . 18

Produto Escalar Intervalar Kernelizado . . . . . . . . . . . . . 183.4 Regra de alocação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.5 Algoritmo Resumido . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.6 Complexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Experimentos e Resultados 224.1 Conjuntos de dados totalmente sintéticos . . . . . . . . . . . . . . . . . 234.2 Conjunto de Dados Híbrido ou Parcialmente Sintético . . . . . . . . . . 244.3 Conjunto de Dados Real . . . . . . . . . . . . . . . . . . . . . . . . . 25

viii

4.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5 Conclusões 315.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Referências Bibliográficas 33

ix

Lista de Figuras

3.1 Exemplo de um conjunto de dados que se torna linearmente separável emuma dimensão maior que a original. . . . . . . . . . . . . . . . . . . . 14

4.1 Conjuntos de dados quantitativos 1 e 2, e seus respectivos conjuntos dedados simbólicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2 Conjunto de dados sobre temperaturas mostrando as 3 variáveis intervalares 26

x

Lista de Tabelas

2.1 Descrição das variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Dados Clássicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Dados Simbólicos agrupados por país . . . . . . . . . . . . . . . . . . 92.4 Restante das variáveis simbólicas agrupadas por país . . . . . . . . . . 9

4.1 Conjunto de dados híbrido baseado no conjunto Iris . . . . . . . . . . . 254.2 Conjunto de dados sobre temperaturas . . . . . . . . . . . . . . . . . . 264.3 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

sintéticos 1 utilizando kernel polinomial . . . . . . . . . . . . . . . . . 274.4 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

sintéticos 1 utilizando kernel gaussiano . . . . . . . . . . . . . . . . . 274.5 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

sintéticos 2 utilizando kernel polinomial . . . . . . . . . . . . . . . . . 284.6 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

sintéticos 2 utilizando o kernel gaussiano . . . . . . . . . . . . . . . . 284.7 Resultados para os classificadores LOGIT e ILDA para os conjuntos de

dados sintéticos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.8 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

híbrido utilizando kernel polinomial . . . . . . . . . . . . . . . . . . . 294.9 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados

híbrido utilizando kernel gaussiano . . . . . . . . . . . . . . . . . . . . 294.10 Resultados dos classificadores LOGIT, ILDA-A e ILDA-B para o con-

junto de dados híbrido . . . . . . . . . . . . . . . . . . . . . . . . . . 29

xi

Lista de Acrônimos

ADS Análise de Dados Simbólicos

GDA Generalized Discriminant Analysis - Análise Discriminante Generalizada

IGDA Interval Generalized Discriminant Analysis - Análise DiscriminanteGeneralizada para Dados Intervalares

IKDA Interval Kernelized Discriminant Analysis - Análise DiscriminanteKernelizada para Dados Intervalares

ILDA Interval Linear Discriminant Analysis

LDA Linear Discriminant Analysis - Análise Discriminante Linear

GVM Grafo de Vizinhança Mútua

MLP Multilayer Perceptron - Perceptron Multicamada

FRBF Fuzzy Radial Basis Function - Função de Base Radial Difusa

xii

1Introdução

Não importa o quão lentamente você siga adiante,

contanto que não pare.

—CONFÚCIO

Tipos de dados clássicos são representados de múltiplas formas, porém, dado oaumento na capacidade de aquisição destes dados e com o grande crescimento da áreade tecnologia da informação - TI, tornaram-se inadequados para tratar conjuntos dedados representados por informações mais complexas como aqueles que surgem devido àvariabilidade ou incerteza. Além disso, tais técnicas não possuem estruturas adequadasque permitam sintetizar grandes conjuntos de dados, com a menor perda possível deinformação dos dados originais. Com o objetivo de permitir a representação e utilizaçãode tipos de dados mais complexos, surgiu a Análise de Dados Simbólicos (ADS), queintroduziu várias formas de representação como intervalos, histogramas, distribuiçõesde peso e outros e também, formas de utilizar essas novas representações (Diday eNoirhomme-Fraiture, 2008).

Dado o crescente incremento na capacidade de armazenamento, a consequente criaçãode grandes bases de dados e devido aos avanços na inteligência computacional, quevisa obter conhecimento destes grandes repositórios, a utilização de dados intervalarescomo forma de agregação e facilitação da análise tem aumentado. Esse tipo de dadoé estudado pela ADS, uma área que surgiu da influência simultânea de vários camposde pesquisa como: análise de dados clássica, inteligência artificial, aprendizagem demáquina e banco de dados. Intervalos podem surgir naturalmente através da representaçãode múltiplos valores, como a variação de uma medida, podem representar a incertezade um instrumento, ou ainda ser utilizados pela sua melhor inteligibilidade, como na

1

1.1. MOTIVAÇÃO

representação de preços diários de ações da bolsa de valores, variação de consumoenergético, entre outras.

O restante desse capítulo descreve o foco da dissertação e começa apresentando suamotivação na Seção 1.1. A Seção 1.3 apresenta trabalhos relacionados e as principaiscontribuições e, por último, Seção 1.4 descreve como a dissertação está organizada.

1.1 Motivação

Dados simbólicos são capazes de reduzir grandes bases de dados clássicos a novosconjuntos de dados simbólicos de tamanho menor, tornando quaisquer processos quedependiam dos dados iniciais mais ágeis. As informações presentes numa base simbólicaconcentram as informações contidas numa base de dados clássica e as apresentam emuma forma agregada e com pequena perda de representatividade.

O interesse da Inteligência Computacional na utilização desse tipo de dados é devidoa sua capacidade de modelar incerteza e variabilidade, sendo necessário a extensão dealgoritmos clássicos ou o desenvolvimento de novos algoritmos que sejam capazes delidar com dados simbólicos. Vários métodos desenvolvidos para dados clássicos já foramestendidos para dados simbólicos, como regressão logística, redes MLP, discriminanteslineares, k-vizinhos mais próximos, entre outros.

Embora a Análise Discriminante Linear funcione para resolver problemas linearmenteseparáveis, ou seja, problemas em que indivíduos pertencentes à determinada classepodem ser separados de indivíduos pertencentes às outras classes por um hiperplano,ela falha no domínio dos problemas não linearmente separáveis. Baudat e Anouar(2000) estenderam o LDA para tratar problemas não linearmente separáveis utilizando o“kernel trick”, desenvolvendo a Generalized Discriminant Analysis (Análise DiscriminanteGeneralizada). A figura abaixo mostra um caso simples de um problema linearmenteseparável e um caso clássico na literatura de classificação supervisionada de um problemanão linearmente separável.

2

1.2. TRABALHOS RELACIONADOS

Figura 1.1 Exemplo de problema linearmente separável e não linearmente separável

A abordagem consiste em encontrar um espaço vetorial de alta dimensão para queos dados projetados nesse novo espaço possam se tornar linearmente separáveis, entãoo algoritmo procede da mesma forma que a análise discriminante clássica, projetandoos dados no espaço obtido e, então, utilizando uma medida de distância adequada paraencontrar a classe a qual cada indivíduo deve ser alocado.

Dado que a maioria dos modelos estendidos para dados intervalares resolvem proble-mas linearmente separáveis, torna-se interessante o desenvolvimento de um algoritmoclassificador para dados intervalares, que resolva problemas não-linearmente separáveis,visto que a mesma estratégia pode ser utilizada para permitir a outros modelos alcançaremo mesmo tipo de problema.

1.2 Trabalhos Relacionados

Os trabalhos abaixo estão relacionados à dissertação pois tratam de abordagens de classi-ficação supervisionada ou utilizam de funções de kernel, ambos sobre dados simbólicosintervalares. Rossi e Conan-Guez (2002) generalizaram as redes neurais MLP para traba-lhar com dados intervalares. Mali e Mitra (2005) estenderam a rede baseada na funçãodifusa de base radial Fuzzy Radial Basis Function - Função de Base Radial Difusa (FRBF)para trabalhar no domínio dos dados simbólicos. Appice et al. (2005) introduziram umaabordagem de aprendizado preguiçoso (chamada Symbolic Objects Nearest NeighborSO-SNN), que estende o algoritmo tradicional de classificação k-vizinhos mais próxi-mos ponderados para dados intervalares e modais. Silva e Brito (2006) propuseram

3

1.3. CONTRIBUIÇÃO

três abordagens para a análise multivariada de dados intervalares, tendo como foco aanálise do discriminante linear. Souza et al. (2011) introduziram quatro classificadoresde padrões diferentes baseados na metodologia de regressão logística que diferem emrelação à maneira como representam os intervalos, Souza e Salazar (2009) introduziuagrupamentos de dados intervalares através de espaços de características induzidos porkernels, Wang et al. (2012) desenvolveram a regressão linear para intervalos baseada noproduto escalar intervalar.

1.3 Contribuição

Como resultado do trabalho apresentado nessa dissertação, as seguintes contribuiçõespodem ser destacadas:

Abordagens propostas. Apresenta os algoritmos Interval Generalized Discrimi-nant Analysis - Análise Discriminante Generalizada para Dados Intervalares (IGDA)e Interval Kernelized Discriminant Analysis - Análise Discriminante Kernelizada paraDados Intervalares (IKDA), o primeiro baseado na abordagem da representação por 2pvariáveis, como encontrado em Souza e Salazar (2009), e a segunda baseada na kerneliza-ção do produto escalar para dados intervalares, permitindo o desenvolvimento de doisclassificadores para dados intervalares capazes de resolver problemas não linearmenteseparáveis.

O conjunto de dados híbrido. Descreve o processo para obtenção de um conjuntode dados simbólicos a partir de um conjunto de dados real clássico de forma a poder inves-tigar o comportamento deste conjunto caso as informações presentes portem variabilidadeou incerteza.

Estudos de caso para validar o método proposto: Essa dissertação também apre-senta um estudo de desempenho para os algoritmos propostos, considerando duas famíliasde funções de kernel. A avaliação de desempenho é realizada com um conjunto de dadosreais intervalares sobre temperaturas em cidades, o conjunto de dados híbrido entre dadosreais e sintéticos mencionado acima, e dois conjuntos de dados intervalares sintéticos.

1.4 Estrutura

Essa dissertação está organizada da seguinte maneira: O Capítulo 2 mostra uma intro-dução aos dados simbólicos, incluindo dados multivalorados, intervalares e modais. OCapítulo 3 apresenta as duas abordagens baseadas em kernels para a classificação de

4

1.4. ESTRUTURA

dados intervalares propostas nesse trabalho. O Capítulo 4 relata o estudo do desempenhodos algoritmos propostos, comparando-os a duas versões da Interval Linear DiscriminantAnalysis (ILDA) e à Regressão Logística através de dois conjuntos de dados simbólicosintervalares sintéticos, um conjunto de dados híbrido e um conjunto de dados real. OCapítulo 5 traz as considerações finais.

5

2Dados Simbólicos

Diga-me e esquecerei.

Mostre-me e me lembrarei.

Envolva-me e entenderei.

—XUN ZI

Dados clássicos são representados usualmente por vetores de variáveis quantitativase/ou qualitativas clássicas. Devido a essa representação, a análise de dados clássicosapresenta limitações na representação de variabilidade ou incerteza proveniente de dadoscomplexos, geralmente recorrendo a formas de representação em que a variabilidade édescartada de alguma forma. Um exemplo da limitação de representação de variáveis aolidar com dados complexos ocorre ao descartar os limites de uma variável originalmenteintervalar e substituí-los por uma variável clássica cujos valores representam o pontomédio da variável intervalar, sendo evidente a perda da informação sobre variabilidade.

A Análise de Dados Simbólicos possui uma variedade de tipos de dados que repre-sentam melhor a variabilidade dos dados, e.g. histogramas, listas de valores, intervalos,entre outros e formas de lidar com esses tipos de dados.

Suponha que seja necessário representar um lutador de boxe de uma determinadaclasse. Tal classse pode ser descrita como: O peso em kg dos boxeadores de determinadaclasse está entre 60 e 70 kg, mas o limite superior para boxeadores do sexo feminino

nesta classe seja 60 kg. É difícil representar as duas informações sem particionar atabela de boxeadores em uma tabela para os boxeadores do sexo masculino e outra para osexo feminino, pois cada tabela clássica restringe cada célula a valores pontuais. Porém,utilizando a representação simbólica é possível representá-los conjuntamente como:

[Peso = [60, 70]], [Sexo = {M, F}] e [Se {Sexo = F} Então {Peso

2.1. TIPOS DE DADOS SIMBÓLICOS

a ADS possui ferramentas para analisar esses tipos de dados.De acordo com Diday e Billard (2006), um padrão de dados simbólicos assume valores

como um hipercubo ou um produto Cartesiano de distribuições no espaço p-dimensionalou uma mistura de ambos, em contraste com um padrão de dados clássicos que é restritoa um valor pontual no espaço p-dimensional. Ou seja, a característica principal dasvariáveis simbólicas é que elas podem representar múltiplos valores, utilizando listas,intervalos, etc. para representá-los.

Dados simbólicos podem surgir naturalmente em certas ocasiões como o intervaloda variação de pressão sistólica ou diastólica exibida por um paciente ou uma listadas categorias de determinada população e suas respectivas freqüências. Eles tambémpodem ser o resultado de uma agregação ou redução de uma base de dados através decategorias que constituam um maior interesse do pesquisador. Por exemplo: a agregaçãode uma base de dados que se tratava inicialmente do consumo elétrico dos moradores dedeterminada cidade pode gerar uma nova base, cujas instâncias são os perfis de consumoelétrico nesta cidade. Esse processo também pode ser realizado para facilitar a análise deum conjunto de dados massivo.

2.1 Tipos de Dados Simbólicos

Seja um conjunto de dados composto de registros de boxeadores de determinada ligamundial. Suponha que, para cada indivíduo, tem-se o registro de sua classe ou peso (Leve,Médio ou Pesado), sua nacionalidade ou país de origem (Estados unidos (USA), Canadá(CAN), Brasil (BRA), etc), seu estado profissional (profissional ou não), sexo (M ou F),grau de escolaridade (Ensino Fundamental, Ensino Médio, Graduação, Pós-graduação),número de títulos e idade. Esse conjunto de dados simples pode ser representado pelaTabela 2.2. A Tabela 2.1 contém as descrições das variáveis aleatórias Y1,Y2, . . . usadasna segunda tabela.

7


Tabela 2.1 Descrição das variáveis.Yi Descrição: valores possíveis

Y1 Classe ou peso: Leve (L), Médio (M), Pesado (P)Y2 Nacionalidade ou país de origemY3 Profissional: sim (S), não (N)Y4 Sexo: masculino (M), feminino (F)Y5 Escolaridade: Ensino Fundamental (EF), Ensino Médio(EM), Graduação (GR)Y6 Número de títulos: ≥ 0Y7 Idade (em anos): ≥ 0

As entradas da Tabela 2.2 são valores de dados clássicos, pois cada linha correspondea valores observados das variáveis Y = (Y1, . . . ,Yp) para um indivíduo. Nesse conjuntoexistem apenas n = 30 observações e p = 7 variáveis, sendo possível analisar os dadoscom técnicas clássicas. Em situações em que quaisquer das dimensões das tabelas sãomuito grandes, ou seja, o número de indivíduos ou número de variáveis, a análise clássicaapresenta dificuldades.

Talvez seja conveniente analisar esses dados considerando certas categorias. Porexemplo, boxeadores da classe médio, ou aqueles que possuem graduação e são pesopesado. Como cada uma dessas categorias consiste de vários indivíduos, o valor ob-servado agora não representa mais um indivíduo. Por exemplo, a idade dos boxea-dores de peso leve (segundo a Tabela 2.2) é a lista {19,24,25,25,26,32,38}. Essesvalores também podem ser representados pelo intervalo [19,38] ou pelo histograma{[15,20),1/7; [20,25),4/7; [25,30),1/7; [30,35),1/9; [35,40],1/7}. Assim, a variávelidade, para a categoria “boxeadores de peso leve”, assumiu valores como lista, intervalo ehistograma e cada um desses valores representa um tipo de dado simbólico. Se tomar-mos a variável escolaridade, teremos 3 perfis representados por categorias ou conceitossimbólicos. Esses conceitos formam a Tabela 2.1 e a Tabela 2.1.

Um indivíduo simbólico representa um perfil de um conjunto de indivíduos quesatisfazem a descrição associada ao conceito simbólico, ou categoria, que o descreve, wu(Diday e Billard, 2006). Quando o número de indivíduos representados pelo conceito wué conhecido, ele é representado por nu.

Um valor clássico da variável aleatória Y j, j = 1, . . . , p do indivíduo i= 1, . . . ,n, i∈Ω,Ω = {1, . . . ,n}, será denotado como xi j e um valor simbólico será denotado ξi j. Ou seja,Yj(i) = xi j quando se tratar de uma variável clássica e Yj(i) = ξi j quando se tratar de uma

8


Tabela 2.2 Dados Clássicos.i Y1 Y2 Y3 Y4 Y5 Y6 Y71 L Estados Unidos S M EF 1 192 M México N M EM 2 363 M Estados Unidos S M EF 0 244 P Estados Unidos S M GR 3 405 P Canadá S M EM 0 376 L Canadá N F EM 2 257 P México S M EF 0 258 P Inglaterra S M GR 1 319 L China S M GR 0 25

10 L Inglaterra N M EM 0 3811 M Canadá S M EF 2 3812 M Bélgica S M EM 1 3613 M México N F EF 1 3414 P China S M EF 0 2715 L Inglaterra S M EM 2 3216 N Canadá S M EM 2 2717 M Rússia S M EF 3 4218 P França S F GR 1 2619 P Estados Unidos N M GR 9 2920 M Rússia N M EM 4 2621 M Estados Unidos S M GR 1 4122 P França S M EM 5 3123 L Brasil S M EF 1 2624 P Irlanda S M GR 0 2925 P França S F EM 0 2026 N Bélgica S M EM 3 2227 P Irlanda N M EM 0 3028 M Estados Unidos S M EM 0 3729 P México S F EM 0 2930 L Inglaterra N M GR 0 24

9


wu País de origem Y5w1 Estados unidos {EF, EM, GR}w2 México {EF, EM}w3 Canadá {EF, EM}w4 Inglaterra {EM, GR}w5 China {EF, GR}w6 Bélgica {EM}w7 França {EM, GR}w8 Rússia {EF, EM}w9 Irlanda {EM, GR}w10 Brasil {EF}

Tabela 2.3 Dados Simbólicos agrupados por país

wu Y1 Y3 Y4 Y6 Y7 nuw1 {L,M,P} {S,N} {M} {0(2/6),1(2/6),3(1/6),9(1/6)} [19,37] 6w2 {M,P} {S,N} {M,F} {0(2/4),1(1/4),2(1/4)} [25,36] 4w3 {L,M,P} {S,N} {M,F} {0(1/4),2(3/4)} [25,38] 4w4 {L,P} {S,N} {M} {0(2/4),1(1/4),2(1/4)} [24,38] 4w5 {L,P} {S} {M} {0} [25,27] 2w6 {M} {S} {M} {1(1/2),3(1/2)} [22,36] 2w7 {P} {S} {M,F} {0(1/3),1(1/3),5(1/3)} [20,31] 3w8 {M} {S,N} {M} {3(1/2),4(1/2)} [26,42] 2w9 {P} {S,N} {M} {0} [29,30] 2w10 {L} {S} {M} {1} [26,26] 1

Tabela 2.4 Restante das variáveis simbólicas agrupadas por país

variável simbólica.Dessa forma, valores clássicos são um caso particular de um valor simbólico corres-

pondente. Variáveis clássicas podem ser qualitativas (e.g., Xi j = Brasil) ou quantitativas(e.g., Xi j = 26). Variáveis simbólicas podem ser multivaloradas, intervalares ou modaiscom ou sem lógica, taxonomia e regras de dependência hierárquica.

2.1.1 Variáveis Multivaloradas

O valor de uma variável aleatória simbólica multivalorada Y é composto por um ou maisvalores nominais ou quantitativos pertencentes ao domínio da variável. A quantidade devalores possíveis presentes nesse domínio é finita.

No conjunto de dados sobre boxeadores apresentado anteriormente na Tabela 2.1, os

10


valores da variável Y5 = Escolaridade para a categoria França (u = 7) são:Y2 ={Ensino Médio e Graduação}.Ou seja, os indivíduos que fazem parte dessa categoria possuem, no mínimo, Ensino

Médio completo. Da mesma forma, os valores da variável Y3 = Pro f issional para amesma categoria, segundo a Tabela 2.1 são: Y3 = {S}, o que significa que todos osboxeadores dessa categoria são profissionais, e, por sua vez, esse valor mostra que umavariável clássica é um caso particular de uma variável simbólica, pois essa lista é idênticaa uma observação qualitativa clássica, contendo apenas um valor.

2.1.2 Variáveis Intervalares

Uma variável aleatória simbólica intervalar Y , toma valores em um intervalo, Y = ξ =[a,b]⊂ℜ, em que a≤ b,a,b ∈ℜ. Quando os valores intervalares surgem da agregaçãode um conjunto de dados clássicos como na Tabela 2.2, os valores para au j e bu j a variávelsimbólica j são encontrados da seguinte forma: ξu j = [mini∈Ωu xi j,maxi∈Ωu xi j], em queΩu é o conjunto de i ∈Ω valores que constituem a categoria wu.

No conjunto de dados de censo demográfico de boxeadores presente na Tabela 2.1, osvalores da variável Y7(Idade) para a categoria França (u = 7) são Y7 = [20,31], caracteri-zando a variável Y7 como uma variável simbólica intervalar.

Uma variável quantitativa clássica também é um caso particular da variável simbólicado tipo intervalo. Esse caso ocorre com a variável Y7, para a categoria Brasil (u =10). Seus respectivos valores são [26,26]. Esses intervalos são chamados de intervalosdegenerados e equivalem a um ponto em ℜ, ou seja, equivalem a um valor quantitativoclássico.

2.1.3 Variáveis Modais

Suponha que uma variável Y tome seus valores do domínio {ηk, k = 1,2, . . .}. Entãouma variável é modal se ela toma a forma

Y (wu) = ξu = {ηk,πk;k = 1, . . . ,su}para uma observação u, em que πk é uma medida não-negativa associada a ηk e su repre-senta o número de valores do domínio utilizados. Os valores ηk podem ser categóricosou qualitativos e finitos ou infinitos. As medidas correspondentes πk podem ser pesos,probabilidades, frequências relativas, distribuições, entre outros, que correspondem aocomponente ηk.

11


No conjunto de dados sobre boxeadores presente na Tabela 2.1, os valores da variávelY6(Número de Títulos) para a categoria Estados Unidos (u = 1) são:

Y6 = {0(2/6),1(2/6),3(1/6),9(1/6)},ou seja, 33% dos boxeadores norte-americanos possuem 1 título, 33% não possuem títuloalgum, 16.5% possuem 2 títulos e 16.5% possui 9 títulos.

Variáveis modais incluem também distribuições, modelos e uma variedade de outrasentidades. Um caso particular das variáveis modais são as variáveis do tipo histograma.Suponha que uma variável Y tome seus valores de um número finito de intervalosnão sobrepostos {[ak,bk), k = 1,2, . . .} em que ak ≤ bk. Então uma variável aleatóriasimbólica do tipo histograma toma a forma:

Y (wu) = ξu = {[ak,bk), puk;k = 1, . . . ,su},em que su < ∞ é o número finito de intervalos que formam o valor de Y (wu) para aobservação wu e puk é o peso para o intervalo [ak,bk), k = 1, . . . ,su, com ∑suk=1 puk = 1.

No conjunto de dados sobre boxeadores presente na Tabela 2.1, a variável intervalarY7(Idade) poderia ser representada da seguinte maneira para a categoria Canadá (u = 3):

Y6 = {[20,25),0.0; [25,30),0.50; [30,35),0.0; [35,40),0.50},ou seja, 50% dos boxeadores canadenses têm entre 25 e 30 anos e 50% têm entre 35 e 40,nenhum deles têm entre 20 e 25 anos, nem entre 30 e 35 anos.

12

3Abordagens baseadas em Kernel para

classificação de dados intervalares

Aquele que aprende, mas não pensa, está perdido.

Aquele que pensa, mas não aprende, está em grande perigo.

—CONFÚCIO

A Análise do Discriminante Linear (LDA) é uma abordagem para extração de carac-terísticas bastante conhecida. Seu objetivo é encontrar o conjunto de vetores ótimos quemapeam padrões descritos por muitas dimensões em um espaço de poucas dimensões emque a razão de espalhamento inter-classes para o espalhamento intraclasse dos padrõesprojetados é alta. Ou seja, o objetivo é encontrar um conjunto de características tal que aprojeção sobre elas torne as classes afastadas umas das outras e homogêneas entre si.

Como mencionado no capítulo 1, Silva e Brito (2006) desenvolveram uma estensãoda análise discriminante clássica para dados intervalares, porém, assim como o métodoclássico, o ILDA foi desenvolvido para resolver problemas linearmente separáveis.

Dessa forma, a estensão da análise discriminante generalizada para dados interva-lares acrescenta ainda mais poder ao classificador clássico. Nas seções posteriores éapresentada a forma em que essa estensão foi realizada.

3.1 Funções de Kernel

Considerando o teorema proposto por Cover (1965):

Teorema de Cover. A probabilidade de que classes sejam linearmente separáveis au-menta quando as características são mapeadas de forma não linear para um espaço de altadimensão.

13

3.1. FUNÇÕES DE KERNEL

Investigando a probabilidade classes serem linearmente separáveis em um espaçol-dimensional podemos observar o teorema de Cover. Então, para N padrões num espaçol-dimensional temos que o número de agrupamentos linearmente separáveis é dado por:

O(N, l) = 2l

∑i=0

(N−1

l

) � �3.1e o número de agrupamentos totais possíveis é dado por: 2N . Então, a probabilidade deque os padrões sejam linearmente separáveis é dada por:

PNl =O(N, l)

2N� �3.2

podemos verificar pela equação� �3.2 que a probabilidade de que os padrões sejam

linearmente separáveis aumenta à medida que o número de dimensões l aumenta.Portanto, é desejável que a dimensão do espaço seja a maior possível e que a trans-

formação que leva à esse espaço seja não-linear. Contudo, à medida que a dimensãodo espaço aumenta, o número de computações necessárias para calcular o mapeamentoaumenta. E é neste problema em que o kernel trick, desenvolvido por Vapnik (1995)e Schölkopf et al. (1998), tem grande efeito. Aproveitando-se do fato de que muitosalgoritmos podem ser formulados de tal forma que a única operação realizada sobredois padrões de dados quaisquer seja um produto escalar, que é um caso particular doproduto interno, a técnica permite que através das funções de kernel seja possível otimi-zar o cálculo do produto escalar de forma que não seja necessário calcular o valor doproduto explicitamente, ou seja, é possível obter o resultado da operação no espaço dealta dimensão sem ter que realizar a transformação para esse espaço.

Formalmente, temos que uma função de kernel é definida por:

k(x,y) = φ(x) ·φ(y)� �3.3

para uma função φ : X → H, em que H é um espaço de produto interno (possivelmentede alta dimensão ou até de dimensão infinita).

Existe uma álgebra de funções de kernel que permite a construção de kernels maiscomplexos a partir da definição. Dessa forma temos: Sejam k1(x,y) e k2(x,y) duasfunções de kernel, então temos que todas as as formas seguintes:

• k1(x,y) + k2(x,y)

• αk1(x,y), (α > 0)

14

3.2. ANÁLISE DISCRIMINANTE GENERALIZADA PARA DADOS INTERVALARES

• k1(x,y)k2(x,y)

também são kernels. Para ilustrar a idéia da utilização das funções de kernel, a figura3.1 mostra um conjunto de dados clássicos não linearmente separável antes e após umatransformação para um espaço de maior dimensão.

Figura 3.1 Exemplo de um conjunto de dados que se torna linearmente separável em umadimensão maior que a original.

Dessa forma, podemos verificar que um conjunto que era não-linearmente separávelem duas dimensões, pode se tornar linearmente separável em um conjunto de dimensõesarbitrariamente maior.

As abordagens introduzidas nessa dissertação têm como objetivo utilizar e estender oGDA para dados de natureza intervalar. A primeira abordagem consiste em considerarcada intervalo como duas variáveis independentes, dessa forma, a entrada do algoritmoé de 2p variáveis e utiliza o modelo GDA clássico, a segunda abordagem consiste nainserção de funções de kernel dentro do produto escalar intervalar utilizado no centro domodelo.

3.2 Análise Discriminante Generalizada para Dados In-tervalares

A Análise Discriminante Generalizada para Dados Intervalares (IGDA) consiste emutilizar a abordagem GDA clássica adaptando os padrões de entrada intervalares para asua utilização.

15


3.2.1 Notação

Suponha que exista um conjunto G de C classes de padrões rotuladas 1, . . . ,C. SejaΩ = {x(i),y(i)}, i = 1, . . . ,N um conjunto de padrões de dados simbólicos intervalares.Cada padrão i de Ω é descrito por um conjunto de 2p variáveis clássicas X1, . . . ,X2p euma variável categórica discreta clássica Y cujos valores são elementos pertencentes a G.

Ou seja, tal representação assume que não existe relação entre os limites inferiores esuperiores de uma variável intervalar e, portanto, representa cada limite como uma variá-vel quantitativa clássica. Aqui os padrões de dados simbólicos (xi,yi) são representadospor x(i) = (xi1, . . . ,xi2p) como um vetor de variáveis clássicas e y(i) como uma variávelresposta cujos valores variam de 1, . . . ,C.

Suponha que o conjunto de intervalos definido por Ω seja mapeado em um espaço decaracterísticas F através de uma função não-linear φ :

φ : Ω→ F

x(i)→ φ(x(i))

xi1, . . . ,xip→ φ(xi1), . . . ,φ(xi2p)

� �3.4

Esse mapeamento é importante para o desenvolvimento do modelo apresentado napróxima sub-seção, pois através da representação por 2p variáveis clássicas, ele permitemapear um vetor de intervalos em um vetor de pontos no espaço de características F .

Seja K uma matriz bloco simétrica C×C definida sobre as classes do conjunto detreinamento, cujos elementos são eles próprios matrizes:

kgh = Qgh, g,h ∈ G� �3.5

Cada elemento de Qgh é o produto escalar entre elementos de cada classe no espaçode características F , como a seguir:

(qgh)lm = φ(xl) ·φ(xm), l = 1, . . . ,ng, m = 1, . . . ,nh� �3.6

em que ng e nh são o número de indivíduos nas classes g e h respectivamente.Seja W uma matriz bloco diagonal em que cada um de seus elementos Wg,g ∈ G é

uma matriz quadrada de dimensão ng com termos todos iguais a 1/ng.

16


3.2.2 Desenvolvimento

A idéia por trás do IGDA é, assim como no GDA, maximizar a inércia interclasse(maximizar a distância entre cada classe) e minimizar a inércia intraclasse (reduzira distância entre as classes), o que é equivalente a resolver o seguinte problema deautovalores e autovetores:

λV v = Bv� �3.7

em que V e B representam a inércia total e a inércia interclasse dos dados no espaço F ,respectivamente. O maior autovalor da equação

� �3.7 é o máximo do seguinte quocientede inércia:

λ =vtBvvtV v

� �3.8Dado que autovetores são combinações lineares de elementos de F , então existem

coeficientes αgq(g ∈ G,q = 1, . . . ,ng) tais que:

v =C

∑g=1

ng

∑q=1

αgqφ(xg(q))� �3.9

em que xg(q) é o q-ésimo padrão de treinamento da classe g ∈ G.O vetor de coeficientes α = (αgq) pode ser condensado como α = (αg)g∈G em que

αg = (αgq)q=1,...,nq . αg é o coeficiente do vetor v na classe g. Sabemos que Baudat eAnouar (2000) mostram que a equação

� �3.8 é equivalente a:λ =

α tKWαα tKKα

� �3.10Cada elemento da matriz K é calculado aplicando-se uma função de kernel clássica,

de forma que podemos obter o valor de cada produto escalar da equação� �3.6 sem ter que

calcular diretamente.Após o cálculo da matriz K, centralizamos os dados no novo espaço utilizando a

matriz N×N, J:

Kcen = K− (JK)t− JK + JKJ� �3.11

Após isso, fazemos K = Kcen. Então, utilizando a decomposição em autovetores danova matriz K:

K =UΓU t� �3.12

em que Γ é a matriz diagonal de autovalores não-nulos e U é a matriz de autovetores

17

3.3. ANÁLISE DISCRIMINANTE KERNELIZADA PARA DADOS INTERVALARES

normalizados e associados a Γ. É possível, então, substituir K na equação� �3.10 e através

da substituição de variável β = ΓUα é possível obter:

λβ =U tWUβ� �3.13

Depois de obter os autovetores β e seus respectivos autovalores, é obtido α atravésde α =UΓ−1β e normalizá-los em F , o que é equivalente a requerer que vtv = 1, isso érealizado dividindo α por

√αKα .

Finalmente, é possível projetar um ponto qualquer de teste utilizando:

vtφ(ω) =C

∑g=1

nq

∑q=1

αgq(xg(q) ·ω)� �3.14

3.3 Análise Discriminante Kernelizada para Dados In-tervalares

Como uma estensão do modelo GDA, a Análise Discriminante Kernelizada para Dadosintervalares (IKDA) segue o mesmo algoritmo em linhas gerais, porém agora utilizamosa idéia de que cada intervalo corresponde à uma distribuição uniforme, fazendo comque ambos os limites de cada intervalo estejam correlacionados por pertencer à mesmadistribuição.

3.3.1 Notação

Suponha novamente que exista um conjunto G de C classes de padrões rotuladas 1, . . . ,C.Seja Ω = {x(i),y(i)}, i = 1, . . . ,N um conjunto de padrões de dados simbólicos. Cadapadrão i de Ω é descrito por um conjunto de p variáveis simbólicas intervalares X1, . . . ,Xpe uma variável categórica discreta clássica cujos valores são elementos pertencentes a G.

Formalmente, uma variável simbólica intervalar X é uma correspondência ℑ→ℜ talque para cada i de Ω, X(i)= [a,b]⊆ℑ em que ℑ= {[a,b] : a,b∈ℜ,a≤ b} é um intervalo,como definido por Bock e Diday (2000). Aqui os padrões de dados simbólicos (xi,yi)são representados por x(i) = ([ai1,bi1], . . . , [aip,bip]) como um vetor p-dimensional devariáveis intervalares e y(i) como uma variável resposta cujos valores variam de 1, . . . ,C.

Suponha que o conjunto de intervalos definido por Ω seja mapeado em um espaço de

18

3.3. ANÁLISE DISCRIMINANTE KERNELIZADA PARA DADOS INTERVALARES

características F através de uma função não-linear φ :

φ : Ω→ F

x(i)→ φ(x(i))

[ai1,bi1], . . . , [aip,bip]→ [φ(ai1),φ(bi1)], . . . , [φ(aip),φ(bip)]

� �3.15

Esse mapeamento é importante para o desenvolvimento da abordagem Análise Dis-criminante Kernelizada para dados Intervalares, visto que ele permite mapear um vetorde intervalos em sua representação simbólica para um vetor de pontos no espaço decaracterísticas F .

A estrutura das matrizes K e W são idênticas às utilizadas pela primeira abordagem,porém nesse caso a função φ é aplicada a cada limite de cada variável intervalar e oproduto escalar intervalar é utilizado.

3.3.2 Desenvolvimento

Substitui-se o produto escalar clássico utilizado no GDA pelo produto escalar para dadosintervalares. Após isso, em vez de usar funções de kernel da forma usual para computartodo o produto escalar sem conhecer φ diretamente, realiza-se a kernelização desseproduto escalar de forma que nessa abordagem as funções de kernel serão utilizadas nocorpo do cálculo do produto escalar intervalar, obtendo um produto escalar kernelizadopara intervalos.

Produto Escalar Intervalar Kernelizado

Seja o produto escalar intervalar proposto por Wang et al. (2012):

x(r) ·x(s) =

14 ∑

pi=1(air +bir)(ais +bis) se x(r) 6= x(s)

13 ∑

pi=1(a

2ir +airbir +b

2ir) se x(r) = x(s)

� �3.16Esse produto escalar transforma vetores de intervalos em vetores de números no

espaço F , porém ele leva em consideração o fato de que existe uma relação entre os limitesinferior e superior de cada variável intervalar. Então, utilizando

� �3.15 e desenvolvendoambos os lados da última equação podemos reformulá-la da seguinte forma:

19

3.4. REGRA DE ALOCAÇÃO

φ(x(r)) ·φ(x(s)) =

14 ∑

pi=1(φ(air) ·φ(ais)+φ(air) ·φ(bis)+φ(bir) ·φ(ais)+φ(bir) ·φ(bis)), se x(r) 6= x(s)

13 ∑

pi=1(φ(air) ·φ(air)+φ(air) ·φ(bir)+φ(bir) ·φ(bir)), se x(r) = x(s)

� �3.17

Essa definição permite que a definição clássica das funções de kernel apresentada em� �3.3 seja utilizada aqui sobre x(r) e x(s), obtendo: K(x(r),x(s)) = φ(x(r)) ·φ(x(s)) pararesolver cada componente da nova equação, pois o produto escalar para intervalos equivaleà computação de vários produtos escalares clássicos, que por sua vez são resolvidos emtermos de um mesmo kernel:

φ(x(r)) ·φ(x(s)) =

14 ∑

pi=1(k(air,ais)+ k(air,bis)+ k(bir,ais)

+k(bir,ais)),se φ(x(r)) 6= φ(x(s))

13 ∑

pi=1 k(air,air)+ k(air,bir)+ k(bir,bir))

,se x(r) = x(s)

� �3.18

Dessa forma, o algoritmo se mantém na mesma forma geral, apresentando diferençaapenas no cálculo dos elementos da matriz K, que se dá como foi apresentado nessasubseção.

3.4 Regra de alocação

A regra de alocação ou classificação utilizada nas duas abordagens é: o elemento de testeω é alocado à classe k se e somente se:

D(ω,k)≥ D(ω,m)∀k,m ∈ {1, . . . ,C}� �3.19

em que D é uma função de distância apropriada entre a projeção do elemento de teste e amédia da projeção de cada classe.

Neste trabalho foi utilizada a distância euclidiana para dados clássicos, visto quenas duas abordagens a transformação para o espaço F associa indivíduos intervalares noespaço original à indivíduos clássicos no espaço F .

20

3.5. ALGORITMO RESUMIDO

3.5 Algoritmo Resumido

1. Inicialização

1.1 Calcula-se as matrizes K e W .

1.1.1 Para a abordagem IGDA, os elementos de K são dados por cada produtoescalar entre os elementos do conjunto de treinamento e são calculadosutilizando uma função de kernel.

1.1.2 Para a abordagem IKDA, os elementos de K são dados por cada produtoescalar kernelizado para intervalos entre os elementos do conjunto detreinamento e são calculados utilizando a mesma função de kernel paracada termo.

1.2 Centraliza-se a matriz K utilizando a matriz J, através da equação� �3.11 .

2. Decomposição em autovalores e autovetores

2.1 Calcula-se a decomposição em autovalores e autovetores das matrizes K e W ,obtendo os autovetores β e descartando aqueles que possuírem autovaloresmuito próximos de zero.

2.2 Utiliza-se a inversa da relação de substituição de β por al pha para obter osvalores de α .

2.2.1 α é normalizado através da divisão por√

αKα .

3. Projeção: Projeta-se todos os elementos sobre o novo espaço determinado por α .

4. Classificação

4.1 Calcula-se a distância entre os elementos de teste e os elementos centrais decada classe, definidos pela média das projeções dos elementos de treinamentode cada classe.

4.2 Aloca-se cada elemento de acordo com a regra de alocação estabelecida naseção 3.4.

3.6 Complexidade

Com relação à complexidade de tempo apresentada pelos algoritmos utilizados, a maiordiferença em complexidade se apresenta no cálculo da matriz K. Ambas abordagens

21

3.6. COMPLEXIDADE

utilizam uma função de kernel clássica para calcular cada elemento dessa matriz, então,assumindo que o número de indivíduos seja uma constante A e que o tamanho da entradaseja n e sabendo que na abordagem IGDA o produto escalar é substituído por apenas umafunção de kernel, então o custo do cálculo da matriz K para a abordagem IGDA é dadopor O(A2n).

A abordagem IKDA utiliza a mesma função de kernel várias vezes no cálculo doproduto escalar kernelizado, porém nessas funções de kernel, a entrada é 1/n menor,então o custo do cálculo da matriz K para a abordagem IKDA é dado por O(A22n).

As outras etapas são idênticas nos dois algoritmos e consistem em encontrar os vetoresdiscriminantes através da decomposição em autovalores e autovetores e, após isso, aprojeção dos dados sobre o novo espaço composto pelas funções discriminantes, que sãoobtidos através de processos de multiplicação, inversão e decomposição de matrizes, queapresentam complexidade na ordem de O(n3).

Após essas etapas, a classificação dos dados é realizada, computando a distância decada projeção de indivíduo de teste para a média das projeções dos indivíduos de cadaclasse, assumindo que o cálculo da distância euclidiana apresenta custo fixo e e que Crepresenta o número de classes, a complexidade dessa etapa é dada por O(neC).

22

4Experimentos e Resultados

Preserve o antigo,

porém aprenda o novo.

—PROVÉRBIO CHINÊS

Nesse capítulo é realizada a avaliação das abordagens propostas, que serão compara-das com a Análise Discriminante Linear Intervalar, veja Silva e Brito (2006) e a RegressãoLogística, veja Souza et al. (2011) através de dois conjuntos de dados sintéticos, umconjunto híbrido entre dados reais e sintéticos e um conjunto de dados intervalares realsobre temperaturas.

Ambos modelos baseados em Kernels (IGDA e IKDA), utilizarão os seguintes parâ-metros:

1 : Kernel polinomial com parâmetros referentes ao grau d = 1,2,3,4,5.

2 : Kernel gaussiano com parâmetros σ = 0.5,1,3,5,7.

A precisão obtida por cada abordagem é medida pela taxa de erro de classificaçãoglobal, que é estimada por uma simulação de Monte Carlo com 500 repetições para os osconjuntos de dados sintéticos. Para o conjunto de dados híbrido é realizado um MonteCarlo de 10 repetições, cada repetição executa uma validação cruzada de 10-fold. Para oconjunto de dados real é realizado um Leave-One-Out, dado o seu tamanho reduzido.

Na estrutura da simulação Monte Carlo para os conjuntos de dados sintéticos, osconjuntos de treinamento e teste são aleatoriamente selecionados de cada conjunto dedados intervalar. O conjunto de treinamento corresponde a 75% dos dados originais e oconjunto de teste corresponde a 25%.

Nas seções seguintes cada conjunto é apresentado.

23

4.1. CONJUNTOS DE DADOS TOTALMENTE SINTÉTICOS

4.1 Conjuntos de dados totalmente sintéticos

Inicialmente, dois conjuntos de dados quantitativos no ℜ2 são gerados. O primeiroconjunto de dados possui 100 pontos divididos igualmente entre duas classes. As classessão as metades superior e inferior de um círculo gerado dos dados em uma mesmadistribuição uniforme com ruído seguindo uma distribuição normal, então a primeiraclasse é deslocada para aumentar a proximidade entre as duas classes. O segundoconjunto de dados possui 150 pontos distribuídos em duas classes de tamanhos diferentes,a primeira possui 100 pontos e a segunda possui 50. Ambas foram geradas ao longo decírculos com o mesmo centro, mas cada classe possui um raio diferente e é gerada dedados provenientes de uma distribuição uniforme independente, também com ruído quesegue uma distribuição normal.

O conjunto de dados simbólicos intervalares 1 foi gerado através do conjunto dedados quantitativos 1 utilizando os seguintes parâmetros:

a) Class 1: X ∼U(5,25), Y =√

100− (X−15)2 +20, ruído∼ N(0,1),SX = 10, SY =−3;

b) Class 2: X ∼U(5,25), Y =√

100− (X−15)2 +20, ruído∼ N(0,1);

O conjunto de dados simbólicos intervalares 2 foi gerado através do conjunto dedados quantitativos 2 utilizando os seguintes parâmetros:

b) Class 1: X ∼U(0,40), Y =√

400− (X−20)2 +20, ruído∼ N(0,1);

b) Class 2: X ∼U(15,25), Y =√

25− (X−20)2 +20, ruído∼ N(0,1);

em que X é a primeira variável, Y é uma variável dada pela equação do círculo, SX e SYsão valores pelos quais cada variável é ajustada na classe 1 e ruído é um valor adicionadoà variável Y.

Cada ponto (z1, z2) de um dos conjuntos de dados sintéticos quantitativos serve desemente para um vetor de intervalos (hiper-retângulo) através do procedimento seguinte:

([z1− γ1/2,z1 + γ1/2], [z2− γ2/2,z2 + γ2/2])

em que os parâmetros γ1 e γ2 são selecionados aleatoriamente de um intervalo pré-definido [1,5] , [1,10] ou [1,15].

24

4.2. CONJUNTO DE DADOS HÍBRIDO OU PARCIALMENTE SINTÉTICO

Figura 4.1 Conjuntos de dados quantitativos 1 e 2, e seus respectivos conjuntos de dadossimbólicos

Como pode ser observado na Figura 4.1, ambos os conjuntos apresentam configura-ções naturalmente não linearmente separáveis. Durante o processo para a geração dosconjuntos simbólicos essa característica foi mantida por ambos.

4.2 Conjunto de Dados Híbrido ou Parcialmente Sinté-tico

O conjunto de dados de Fisher, Iris, sobre flores é utilizado como um segundo estudode caso para a abordagem proposta. Esse conjunto representa 3 classes de flores atravésde 4 variáveis clássicas que representam comprimento e largura das sépalas e pétalasde cada classe. Utilizando o mesmo processo efetuado sobre os conjuntos de dados

25

4.3. CONJUNTO DE DADOS REAL

1 e 2, o conjunto Iris foi transformado em um conjunto de dados intervalar. Esseprocedimento tem como objetivo utilizar a existente estrutura por trás do conjunto dedados real e adicionar certo grau de incerteza ou variabilidade que geralmente originadados intervalares.

X1 X2 X3 X4 Rótulo

[3.38,6.81] [1.64,5.35] [0.60,2.19] [−3.10,3.50] 1[2.08,7.71] [−0.39,6.39] [0.01,2.79] [−0.75,1.15] 1[0.05,9.34] [−0.48,6.88] [0.16,2.43] [−0.83,1.23] 1[3.39,5.80] [1.57,4.62] [−0.04,3.04] [−2.78,3.18] 1

......

......

...[0.73], [10.67] [0.22], [4.98] [1.90], [5.10] [−1.68], [3.68] 2[1.60], [9.40] [−0.67], [5.47] [2.34], [5.26] [−0.16], [2.36] 2[2.92], [8.08] [−0.23], [5.03] [1.76], [5.64] [−3.66], [5.66] 2[4.25], [7.35] [−0.38], [5.78] [−0.15], [7.95] [−2.98], [5.38] 2

......

......

...[3.64,8.95] [−1.24,6.24] [3.08,6.91] [−1.73,5.53] 3[5.65,7.34] [−1.80,7.80] [4.01,6.38] [−0.36,4.36] 3[4.68,7.71] [0.20,6.59] [2.71,8.08] [1.75,2.84] 3[4.72,7.07] [−0.11,6.11] [2.42,7.77] [0.45,3.14] 3

Tabela 4.1 Conjunto de dados híbrido baseado no conjunto Iris

4.3 Conjunto de Dados Real

O conjunto de dados intervalar sobre temperaturas de cidades presente em Guru et al.(2004) apresenta os valores mínimos e máximos para as temperaturas mensais em grausCelsius. Esse conjunto de dados consiste de 37 elementos, em que cada elementorepresenta uma cidade, que é descrita por 12 variáveis intervalares e estão distribuídosem 4 classes.

Nos experimentos realizados, as classes 3 e 4 foram removidas, pois são formadaspor apenas 1 elemento. Além disso, apenas 3 variáveis intervalares das 12 iniciais foramutilizadas.

O conjunto de dados ajustado consiste de 35 elementos distribuídos em 2 classes edescritos por 3 variáveis intervalares.

26

4.4. RESULTADOS

Temperature data set

X1 X2 X3 Label

[13,27] [25,36] [15,34] 1[19,32] [25,33] [20,32] 1[8,29] [17,36] [10,33] 1[13,36] [26,36] [13,32] 1

......

......

[0,18] [14,31] [2,27] 2[−8,11] [−8,27] [−5,22] 2[−2,14] [10,24] [1,19] 2[−11,21] [2,31] [−11,23] 2

Tabela 4.2 Conjunto de dados sobre temperaturas

Figura 4.2 Conjunto de dados sobre temperaturas mostrando as 3 variáveis intervalares

4.4 Resultados

Nessa seção os resultados dos experimentos sobre os conjuntos detalhados anteriormentesão apresentados. As Tabelas 4.3 à 4.10 apresentam os resultados em valores percentuaisda taxa de erro e desvio padrão (entre parênteses) dos experimentos sobre os conjuntosde dados sintéticos.

27

4.4. RESULTADOS

As abordagens propostas foram comparadas entre si e comparadas às seguintesabordagens:

• Regressão Logística (LOGIT) utilizando a abordagem em que para cada classeduas regressões são construídas, uma utilizando os limites inferiores das variáveis,a outra utilizandos os limites superiores combinando os resultados posteriormenteatravés de uma média.

• Discriminante Linear para Dados Intervalares utilizando a abordagem distribui-cional com as definições A e B, usando a distância de Hausdorff para dadosintervalares (ILDA-A refere-se ao método utilizando a definição A e ILDA-Brefere-se ao método utilizando a definição B).

Graus utilizados no kernel polinomial

1 2 3 4 5

γ escolhido IGDA IKDA IGDA IKDA IGDA IKDA IGDA IKDA IGDA IKDA[1,5] 4.06 3.33 5.8 5.56 6.67 6.14 7.16 6.36 8.45 7.42

(3.53) (3.26) (3.89) (3.67) (4.33) (4.38) (4.53) (4.41) (5.06) (4.47)

[1,10] 2.25 2.00 4.38 4.00 4.20 4.62 3.99 7.45 4.88 8.67(2.62) (2.56) (3.71) (3.36) (3.63) (3.80) (3.50) (4.49) (3.95) (4.59)

[1,15] 2.14 2.14 4.89 3.49 4.62 5.38 5.65 6.15 6.12 7.03(2.68) (2.63) (3.74) (3.14) (3.56) (4.07) (4.13) (4.19) (4.47) (4.50)

Tabela 4.3 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados sintéticos1 utilizando kernel polinomial

Valores de σ utilizados no kernel gaussiano0.5 1 3 5 7


(0.00) (3.69) (5.78) (3.48) (5.73) (2.79) (4.21) (2.67) (4.18) (2.68)[1,10] 50.00 4.45 47.39 4.62 29.90 1.37 15.05 0.90 7.54 0.48

(0.00) (3.78) (2.70) (3.93) (6.63) (2.61) (6.25) (2.39) (5.54) (1.74)[1,15] 50.00 9.21 50.00 7.80 37.89 3.00 28.05 2.50 17.51 2.45

(0.00) (5.20) (0.00) (4.99) (5.23) (3.33) (6.17) (2.85) (6.48) (2.77)

Tabela 4.4 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados sintéticos1 utilizando kernel gaussiano

Os resultados da Tabela 4.3, Tabela 4.4 e as duas primeiras colunas da Tabela 4.7apresentam os valores das médias e desvios-padrão (em parêteses) das taxas de erro de

28

4.4. RESULTADOS

Graus utilizados no kernel polinomial1 2 3 4 5


(11.16) (9.04) (5.84) (6.26) (5.86) (5.90) (6.00) (5.72) (5.73) (5.96)[1,10] 54.23 49.60 27.15 35.40 27.41 31.76 30.26 31.62 32.78 31.65

(7.60) (9.03) (5.93) (6.40) (5.44) (5.54) (5.76) (5.78) (5.79) (5.96)[1,15] 45.33 51.39 12.01 17.07 12.18 13.54 13.30 13.70 14.19 13.93

(4.27) (4.83) (2.42) (2.87) (2.44) (2.44) (2.46) (2.47) (2.58) (2.55)

Tabela 4.5 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados sintéticos2 utilizando kernel polinomial

Valores de σ utilizados no kernel gaussiano0.5 1 3 5 7


(1.43) (4.01) (3.05) (3.73) (5.84) (2.90) (6.47) (2.84) (5.41) (2.63)[1,10] 67.56 15.27 67.56 10.56 56.98 5.48 45.18 3.14 34.04 2.28

(0.00) (5.68) (0.00) (5.21) (4.45) (3.74) (5.89) (3.12) (6.71) (2.80)[1,15] 28.73 8.01 28.32 7.62 27.73 4.85 25.54 3.78 21.45 3.27

(0.00) (2.40) (0.55) (2.33) (0.90) (2.11) (1.62) (1.80) (2.46) (1.71)

Tabela 4.6 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados sintéticos2 utilizando o kernel gaussiano

Conjunto de dados Sintéticos 1 Conjunto de dados Sintéticos 2γ escolhido LOGIT ILDA - A ILDA - B LOGIT ILDA - A ILDA - B

[1,5] 50.00 50.00 50.00 32.45 66.65 66.23(0.00) (0.00) (0.00) (0.38) (5.59) (6.72)

[1,10] 50.00 50.00 50.00 32.49 64.26 63.28(0.00) (0.00) (0.00) (0.87) (10.26) (11.51)

[1,15] 50.00 50.00 50.00 71.27 28.73 31.37(0.00) (0.00) (0.00) (0.20) (0.00) (10.26)

Tabela 4.7 Resultados para os classificadores LOGIT e ILDA para os conjuntos de dados sintéti-cos 1 e 2

classificação obtidas pelos classificadores baseados no IGDA, IKDA, LOGIT, ILDA-Ae ILDA-B para o conjunto de dados sintéticos 1 assim como para cada γ escolhido nosintervalo [1,5], [1,10] e [1,15]. É possível observar que a abordagem IKDA apresentoudesempenho superior à abordagem IGDA na maioria das variações do conjunto 1 comrelação aos valores de γ escolhidos e aos valores dos parâmetros das funções de kernel,ambos foram superiores aos classificadores LOGIT, ILDA-A e ILDA-B. Também éperceptível que o aumento no valor dos parâmetros não provocou uma melhora nodesempenho de ambos quando o kernel polinomial foi utilizado, mas quando o kernel

29

4.4. RESULTADOS

Graus utilizados no kernel polinomial1 2 3 4 5


(5.79) (5.48) (7.26) (7.68) (6.64) (7.14) (6.22) (8.17) (6.54) (10.56)[1,10] 5.20 4.06 8.06 29.26 7.53 27.73 7.13 38.13 8.53 35.46

(5.63) (5.43) (5.87) (11.25) (6.56) (11.70) (6.03) (13.19) (6.68) (12.89)[1,15] 6.53 6.46 10.60 50.26 9.06 33.40 8.93 50.00 9.80 40.20

(5.11) (5.48) (6.72) (13.49) (6.99) (11.01) (6.57) (10.93) (7.03) (11.03)

Tabela 4.8 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados híbridoutilizando kernel polinomial

Valores de σ utilizados pelo kernel gaussiano0.5 1 3 5 7


(4.67) (6.96) (9.01) (7.45) (12.65) (7.17) (16.22) (7.42) (7.06) (7.54)[1,10] 66.73 17.40 64.53 11.80 42.40 9.86 29.66 9.80 23.80 8.93

(0.21) (9.14) (3.66) (8.16) (10.63) (7.91) (12.05) (7.13) (11.69) (7.58)[1,15] 66.66 18.26 66.53 14.46 60.73 9.40 49.06 8.86 38.06 9.20

(0.00) (9.44) (0.42) (7.70) (5.68) (6.38) (10.91) (6.18) (10.39) (6.21)

Tabela 4.9 Resultados em % das abordagens IGDA e IKDA para o conjunto de dados híbridoutilizando kernel gaussiano

γ escolhido LOGIT ILDA - A ILDA - B[1,5] 65.20 66.67 66.67

(3.21) (0.00) (0.00)[1,10] 66.67 66.67 66.67

(0.00) (0.00) (0.00)[1,15] 66.67 66.67 66.67

(0.00) (0.00) (0.00)

Tabela 4.10 Resultados dos classificadores LOGIT, ILDA-A e ILDA-B para o conjunto de dadoshíbrido

gaussiano foi utilizado, houve melhora na taxa de erro à medida que o valor de σ foiincrementado.

Os resultados da Tabela 4.5, Tabela 4.6 e as duas colunas finais da Tabela 4.7 apre-sentam os valores das médias e desvios-padrão (em parêteses) das taxas de erro declassificação obtidas pelos classificadores baseados no IGDA, IKDA, LOGIT, ILDA-Ae ILDA-B para o conjunto de dados sintéticos 2 assim como para cada γ escolhido nosintervalo [1,5], [1,10] e [1,15]. Dessas tabelas pode-se observar que a abordagem IGDAobteve um melhor desempenho que a abordagem IKDA quando ambos utilizaram okernel polinomial, mas à medida que os parâmetros cresceram, a diferença entre ambos

30

4.4. RESULTADOS

diminuiu, culminando no desempenho do IKDA equivalente ao do IGDA quando o grauda função polinomial foi 5.

Já quando a função gaussiana foi utilizada, a abordagem IKDA se mostrou superior atodas as outras, apresentando resultados abaixo de 20%, chegando a menos de 5% quandoa largura σ = 5 é utilizada, contra abordagens próximas de 30% dos demais métodos(levando em consideração que em um problema binário, podemos inverter as respostasdo classificador quando a taxa de erro é maior que 50%).

Os resultados da abordagem IKDA para o conjunto sobre temperaturas utilizandoo kernel polinomial com graus ∈ {1,2,3,4,5} foram: 0.00%, 8.57%, 8.57%, 11.42% e11.42%, respectivamente. As taxas de erro utilizando o kernel gaussiano com valores deσ ∈ {0.5,1,3,5,7} foram: 20.00%, 8.57%, 5.71%, 2.85%. Os resultados da abordagemIGDA para o conjunto sobre temperaturas utilizando o kernel polinomial com graus∈ {1,2,3,4,5} foram: 2.85%, 2.85%, 5.71%, 11.42%, 11.42%, respectivamente. Astaxas de erro utilizando o kernel gaussiano com valores de σ ∈ {0.5,1,3,5,7} foram:42.85%, 42.85%, 37.14%, 34.28%, 31.42%. As abordagens ILDA - A e ILDA - B, ambosapresentaram a taxa de erro de 8.57%, enquanto a abordagem LOGIT apresentou a taxade erro de 14.28%.

Dados os resultados obtidos, podemos verificar que o melhor resultado foi obtidopelo método IKDA com o kernel polinomial com o parâmetro de grau igual a 1, coma taxa de erro de 0%, seguido pelo método IGDA utilizando o kernel polinomial comparâmetros de graus 1 e 2, e o método IKDA utilizando o kernel gaussiano com valor doparâmetro σ igual a 3, ambos com taxa de erro igual a 2.85%.

31

5Conclusões

Conhecimento verdadeiro é saber a extensão de sua própria

ignorância.

—CONFÚCIO

Esse trabalho introduziu duas abordagens para classificação de dados simbólicosde natureza intervalar em problemas não linearmente separáveis, a primeira abordagemenvolve uma modificação na entrada a partir da suposição de independência dos limitesdas variáveis intervalares, a segunda envolve a suposição tradicional de que variáveisintervalares podem ser interpretadas como uma distribuição uniforme e a kernelização doproduto escalar para dados intervalares. Esse tipo de dado é importante por sua capacidadede modelar variabilidade e incerteza, que pode surgir intrísecamente ou após operaçõessobre os dados. As abordagens propostas foram baseadas no GDA por sua capacidade deresolver problemas não linearmente separáveis. Funções de kernel foram utilizadas paraanalisar ocomportamento do classificador utilizando a nova abordagem. A abordagemdesenvolvida utilizando o algoritmo GDA clássico foi chamada de IGDA, já a abordagemdesenvolvida através da kernelização do produto escalar para dados intervalares foichamada de Interval Kernelized Discriminant Analysis (IKDA). O algoritmo teve seudesempenho aferido em termos de taxa de erros de classificação global aplicadas a doisconjuntos de dados intervalares sintéticos, um conjunto de dados híbrido e um conjuntode dados real, além disso, foram encontrados os melhores parâmetros empregados pelasfunções de kernel utilizadas para este último conjunto.

Os experimentos permitiram confirmar as vantagens de abordagens baseadas no kerneltrick para resolução de problemas não linearmente separáveis, além disso, foi possívelverificar a utilidade das duas abordagens, verificando seu desempenho nos conjuntos

32

5.1. TRABALHOS FUTUROS

sintéticos e no conjunto de dados híbrido. No conjunto de dados real a abordagemkernelizada apresentou uma configuração que se adequou perfeitamente ao problema,apresentando melhores resultados dos que os das outras abordagens com as quais foicomparada.

5.1 Trabalhos Futuros

Apesar dos bons resultados obtidos, é interessante estudar alguns aspectos que podempermitir uma melhora no emprego das abordagens propostas. Dado que o produtoescalar kernelizado é resultado da soma de várias funções de kernel idênticas aplicadas adiferentes limites de cada variável intervalar, faz-se necessário investigar qual o impactoda utilização de outras famílias de kernel em sua composição como: Epanechnikov,Coseno, entre outras e também a forma de utilização desses kernels no produto escalarpara intervalos. Outro ponto importante além da utilização de mais famílias de funçõesde kernel é um estudo mais profundo sobre a forma de escolha dos parâmetros utilizadospor cada função. Dado o sucesso da abordegem kernelizada, é interessante investigar asua inserção em outros classificadores cujas definições podem ser atreladas a um produtoescalar da mesma forma que o discriminante linear, permitindo, dessa forma, a extensãode novos métodos para dados intervalares e simultaneamente aumentando o alcance declassificadores limitados a problemas não linearmente separáveis.

33

Referências Bibliográficas

Appice, A., D’Amato, C., Esposito, F., e Malerba, D. (2005). Classification of symbolicobjects: A lazy learning approach. Intelligent Data Analysis. Special issue onSymbolic and Spatial Data Analysis: Mining Complex Data Structures.

Baudat, G. e Anouar, F. (2000). Generalized discriminant analysis using a kernel appro-ach.

Bock, H. e Diday, E. (2000). Analysis of Symbolic Data: Exploratory Methods forExtracting Statistical Information from Complex Data. Springer Verlag, Heidelberg.

Cover, T. M. (1965). Geometrical and Statistical Properties of Systems of Linear Ine-qualities with Applications in Pattern Recognition. Electronic Computers, IEEETransactions on, EC-14(3), 326–334.

Diday, E. e Billard, L. (2006). Symbolic Data Analysis: Conceptual Statistics and DataMining. Wiley Interscience.

Diday, E. e Noirhomme-Fraiture, M. (2008). Symbolic Data Analysis and the SODASSoftware. Wiley Interscience.

Guru, D., Kiranagi, B. B., e Nagabhushan, P. (2004). Multivalued type proximity measureand concept of mutual similarity value useful for clustering symbolic patterns. PatternRecognition Letters, 25(10), 1203 – 1213.

Mali, K. e Mitra, S. (2005). Symbolic classification, clustering and fuzzy radial basisfunction network. Fuzzy sets and systems, 152, pages 553–564.

Rossi, F. e Conan-Guez, B. (2002). Multi-layer perceptron interval data. Classification,Clustering and Data Analysis (IFCS2002), pages 427–434.

Schölkopf, B., Smola, A., e Müller, K.-R. (1998). Nonlinear component analysis as akernel eigenvalue problem. Neural Comput., 10(5), 1299–1319.

Silva, A. e Brito, P. (2006). Linear Discriminant Analysis for Interval Data. Computatio-nal Statistics, 21, 289–308.

Souza, R. e Salazar, D. (2009). A non-linear classifier for symbolic interval data based ona region oriented approach. In M. Köppen, N. Kasabov, e G. Coghill, editors, Advancesin Neuro-Information Processing, volume 5507 of Lecture Notes in Computer Science,pages 11–18. Springer Berlin Heidelberg.

34

REFERÊNCIAS BIBLIOGRÁFICAS

Souza, R. M., Queiroz, D. C., e Cysneiros, F. J. (2011). Logistic Regression-BasedPattern Classifiers for Symbolic Interval Data. Pattern Anal. Appl., 14(3), 273–282.

Vapnik, V. N. (1995). The nature of statistical learning theory. Springer-Verlag NewYork, Inc., New York, NY, USA.

Wang, H., Guan, R., e Wu, J. (2012). Linear regression of interval-valued data basedon complete information in hypercubes. Journal of Systems Science and SystemsEngineering, 21(4), 422–442.

35

Dissertação de Mestrado · Dissertação de Mestrado apresentada por Diego Cesar Florencio de...

Documents

Transcript of Dissertação de Mestrado · Dissertação de Mestrado apresentada por Diego Cesar Florencio de...