de Dados - repositorio.ufrn.br · Liliane Ribeiro da Silva Uma Plataforma Intervalar para...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPTO. DE INFORMÁTICA E MATEMÁTICA APLICADA

PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO

Liliane Ribeiro da Silva

Uma Plataforma Intervalar para Agrupamentos

de Dados

Orientador: Prof. Dr. Regivan Hugo Nunes Santiago

Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto

Natal- RN

2015

Liliane Ribeiro da Silva

Uma Plataforma Intervalar para Agrupamentos

de Dados

Orientador: Prof. Dr. Regivan Hugo Nunes Santiago

Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto

Tese de Doutorado apresentada ao Programa

de Pós-Graduação em Sistemas e Computa-

ção da UFRN como parte dos requisitos para

obtenção do título de Doutor em Ciências.

Área de Concentração: Teoria da Compu-

tação

Natal - RN

2015

Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial Centro de Ciências Exatas e da Terra – CCET.

Silva, Liliane Ribeiro da. Uma plataforma intervalar para agrupamentos de dados / Liliane Ribeiro da Silva. - Natal, 2015.

116 f. : il.

Orientador: Prof. Dr. Regivan Hugo Nunes Santiago. Coorientadora: Profa. Dra. Anne Magaly de Paula Canuto. Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de

Ciências Exatas e da Terra. Programa de Pós-Graduação em Ciência da Computação.

1. Algoritmos de agrupamento – Tese. 2. Distância intervalar – Tese. 3. Medida

de similaridade – Tese. 4. Índices de validação – Tese. 5. Agregações de i-distâncias – Tese. I. Santiago, Regivan Hugo Nunes. II. Canuto, Anne Magaly de Paula. III.Título.

RN/UF/BSE-CCET CDU: 004.421: 004.275

3

Agradecimentos

A Deus que é onipresente, onisciente e onipotente;

Ao meu orientador, Prof. Dr. Regivan Hugo Nunes Santiago, pela opor-

tunidade, dedicação, paciência e motivação durante todo o processo de ela-

boração dessa tese;

A minha coorientadora, Prof. Dr. Anne Magaly de Paula Canuto, pela

orientação e amizade durante todo o processo de construção dessa tese;

A minha mãe Tereza Ribeiro da Silva, pelo amor e apoio incondicional.

Por entender minha ausência em muitos momentos durante o curso e por

nunca medir esforços para que tivesse sempre o dinheiro da passagem para

chegar todos os dias na universidade, muitas vezes emprestando dos parentes

e até mesmo dos vizinhos;

Aos meus tios, Manoel do Carmo e José Ribeiro pelo apoio durante toda

a minha vida acadêmica e pessoal;

Ao meu esposo Luiz Ranyer de Araújo Lopes pelo amor, apoio, com-

panheirismo e principalmente pela paciência nessa etapa tão importante na

minha vida;

Ao meu amigo Ronildo Moura pela parceria durante os estudos e experi-

mentos;

Aos meus amigos do Doutorado (porão) que zeram os dias sem sol serem

mais leves;

5

Aos professores do Dimap pela contribuição na minha formação como

aluna e pessoa;

Aos funcionários do Dimap por facilitarem a minha vida;

Aos vizinhos e parentes não só por emprestaram o dinheiro da minha

passagem durante o curso de graduação, mas por contribuírem, de alguma

forma, com a minha evolução acadêmica;

Aos meus amigos, que de alguma forma contribuíram para manter essa

pessoa sã, na medida do possível.

6

"A dúvida permite extrair um núcleo de cer-

teza, que cresce à medida que ela se radicaliza;

é indubitável que, se duvido, penso."

Descartes

Resumo

Este trabalho propõe uma plataforma para métodos de agrupamento de

dados do tipo intervalar e uma solução para dados híbridos que contém esse

tipo de dados. O principal objetivo do uso de dados com natureza inter-

valar é representar informações numéricas dotadas de imprecisões, que são

normalmente capturadas a partir de medidas do mundo real. Para isso, é

necessário adaptar técnicas de valores reais para serem utilizadas em dados

intervalares. Para aplicações de agrupamento intervalares, por exemplo, é

necessário propor uma distância intervalar e também adaptar algoritmos de

agrupamento para serem utilizados nesse contexto. E mais, para trabalhar

com dados híbridos uma investigação inicial sobre funções de agregações de

i-distâncias é realizada. Neste caso, é adaptada uma distância intervalar,

chamada dkm, e são propostos algoritmos de agrupamento intervalares e três

índices de validação intervalares. Para validar a estrutura proposta, uma

análise empírica é realizada com conjuntos de dados sintéticos e reais. A

análise empírica é baseada em um índice de validade de cluster externo,

Correct Rand, e seis índices de validação interna, sendo que para três deles

são necessárias adequações para serem utilizados com dados intervalares. E

mais, é realizada uma análise comparativa entre os resultados existentes na

literatura e os resultados obtidos.

1

Palavras-chaves: Distância intervalar; Medida de similaridade;

Algoritmos de agrupamento; Índices de Validação; Agregações de

i-distâncias.

Sumário

Resumo 1

Lista de Siglas 6

Lista de Tabelas 8

Lista de Figuras 9

I Fundamentação 10

1 Introdução 11

2 Intervalos e i-Métricas 16

2.1 Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Análise Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3 Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.4 Métricas e i-métricas . . . . . . . . . . . . . . . . . . . . . . . 23

2.4.1 i-Métrica e i-Métrica dkm . . . . . . . . . . . . . . . . . 25

2.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 29

3 Análise de Agrupamento de Dados 31

3.1 Agrupamento de Dados . . . . . . . . . . . . . . . . . . . . . . 32

3

3.2 Algoritmos para Agrupamento de Dados . . . . . . . . . . . . 34

3.2.1 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.2 Fuzzy C-Means . . . . . . . . . . . . . . . . . . . . . . 38

3.2.3 Outros Métodos de Agrupamentos para Dados Inter-

valares . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.4 Métodos Usando Abordagens Fuzzy Para Dados Inter-

valares . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

II Métodos Propostos 45

4 Métodos Propostos para Dados Intervalares 46

4.1 Matriz de Pertinência Intervalar . . . . . . . . . . . . . . . . . 47

4.2 Algoritmo Intervalar Baseado no Fuzzy C-means - IbFcM . . . 52

4.3 Algoritmo Fuzzy Intervalar Baseado no Ck-Means - IbckM . . 55

4.4 Validação de Agrupamentos Intervalares . . . . . . . . . . . . 57

5 Métodos Propostos para Dados Híbridos 61

5.1 Algoritmos Intervalares Baseados no K-Means - IbKM . . . . 63

5.2 Algoritmo K-Means Intervalar Híbrido - IbKMH . . . . . . . . 65

5.3 Agregação de i-métricas e Algoritmos Híbridos . . . . . . . . . 66

III Experimentos e Resultados Obtidos 73

6 Experimentos e Resultados 74

6.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . 76

6.1.1 Conjuntos de Dados Sintéticos Intervalares . . . . . . 76

6.1.2 Conjuntos de Dados Sintéticos Híbridos . . . . . . . . . 77

6.1.3 Conjuntos de Dados Reais . . . . . . . . . . . . . . . . 78

4

6.2 Resultados Obtidos com Dados Intervalares . . . . . . . . . . 81

6.2.1 Conjuntos de Dados Sintéticos . . . . . . . . . . . . . 82

6.2.2 Conjuntos de Dados Reais . . . . . . . . . . . . . . . . 85

6.3 Análise Comparativa Para Dados Intervalares . . . . . . . . . 89

6.4 Análises e Resultados Obtidos com os Algoritmos IbKM, IbKMH

e IbKMHsup . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.4.1 Resultados e Análises dos Dados Sintéticos Híbridos . 93

6.4.2 Resultados e Análises dos Dados Reais Híbridos . . . 95

7 Conclusões e Perspectivas Futuras 97

Referências Bibliográcas 109

Lista de Siglas

FCM - Fuzzy c-means

IbckM - Interval Based ckmeans

IbFcM - Interval based Fuzzy C-Mens

IbKM - Interval based k-Means

IbKMH - Interval based hybrid k-Means

poset - partially ordered set

VID - Valoração de i-distâncias

SOM - Self-organizing maps

FKCN - fuzzy Kohonen clustering network

IFKCN - Interval fuzzy Kohonen clustering network

IFKCN-FD - IFKCN based on a xed Euclidean distance

IFKCN-NAD - IFKCN based on a non-adaptive squared Euclidean

IFCM-H - IFCM based on a Hausdorrf L1 distance

IAFCM-L1 - Interval adaptive fuzzy c-means on a L1 distance

IAFCM-L2 - Interval adaptive fuzzy c-means on a L2 distance

IAFCM-H - Interval adaptive fuzzy c-means on a Hausdor distance

6

Lista de Tabelas

6.1 Descrição das quatros bases articiais . . . . . . . . . . . . . . 76

6.2 Classicação do conjunto de dados Temperatura . . . . . . . . 79

6.3 Descrição do conjunto de dados Carro . . . . . . . . . . . . . . 80

6.4 Classicação do conjunto de dados Peixe . . . . . . . . . . . . 81

6.5 Resultado dos algoritmos de agrupamento intervalares para os

conjuntos de dados sintéticos- Média(Std) . . . . . . . . . . . 82

6.6 p-valores para Teste t de Student's para os conjuntos de dados

sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.7 p-valores para Teste t de Student's para os conjuntos de dados

sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.8 Número de grupos preferidos para vários índices de validação

dos dados sintéticos. . . . . . . . . . . . . . . . . . . . . . . . 85

6.9 Resultado dos algoritmos de agrupamentos intervalares para

os dados reais. . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.10 p-valores para o Teste t de Student's para os conjuntos de

dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.11 Números preferidos de grupos para vários índices de validação

nos conjuntos de dados reais . . . . . . . . . . . . . . . . . . . 88

6.12 Resultados dos algoritmos de agrupamentos baseados em in-

tervalos para o conjunto de dados Temperatura. . . . . . . . . 90

7


tervalos para o conjunto de dados Carro. . . . . . . . . . . . . 91


tervalos para o conjunto de dados Peixe. . . . . . . . . . . . . 92

6.15 Resultado dos algoritmos de agrupamento crisp com os con-

juntos de dados sintéticos híbridos - CR(Std) e Tempo. . . . . 94

6.16 Resultados dos algoritmos de agrupamento crisp com o con-

junto de dados real híbrido- CR(Std) e Tempo . . . . . . . . . 96

8

Lista de Figuras

6.1 Ilustra os conjuntos de dados 2Dim e Sun. . . . . . . . . . . . 77

6.2 Ilustra os conjuntos de dados 3Dim e 5Dim. . . . . . . . . . . 78

6.3 O gráco descreve a relação entre tempo a porcentagem de

atributos reais, utilizando os algoritmos IbKM e IbKMH. . . . 95

9

Parte I

Fundamentação

10

Capítulo 1

Introdução

Nos últimos anos houve um aumento signicativo na quantidade de dados

que são disponibilizados. Esses dados são oriundos das mais diversas áreas,

como medicina, física, pesquisa de mercado, ciências, etc.

A grande quantidade de informações presentes nesses dados nem sempre

está de uma forma organizada que seja possível extrair uma determinada

informação de imediato. Assim, essa diculdade em extrair informações ou

até mesmo condensar informações gera uma necessidade de desenvolver cada

vez mais ferramentas computacionais para organizar e analisar dados, ob-

jetivando encontrar padrões que possam ser considerados como informações

úteis para uma determinada área de conhecimento. Dentre essas várias áreas

de conhecimento, podemos citar: mineração de dados [6] e [60], análise de

expressão gênica [36], segmentação de imagens [74] e processamento de lin-

guagem natural [72]. Uma das principais áreas que vem sendo largamente

investigada por diversos pesquisadores é a Mineração de Dados, onde são

utilizados algoritmos de aprendizado de máquina para obter esses conheci-

mentos.

Por denição, agrupamento de dados é um conjunto de técnicas que visa

11

dividir objetos em grupos, de tal forma que os objetos (instâncias) em um

mesmo grupo (cluster) possuem uma maior semelhança do que objetos em

grupos diferentes. Em outras palavras, essas técnicas têm como objetivo

encontrar uma divisão dos objetos, em que exista uma alta similaridade entre

objetos de um grupo e uma alta dissimilaridade entre objetos de grupos

diferentes [37].

Existem vários algoritmos de agrupamento propostos na literatura os

quais podem ser divididos em duas categorias: crisp e fuzzy. Nos agrupamen-

tos crisp, uma instância pertence a um e somente um grupo, enquanto no

agrupamento fuzzy, uma instância pode pertencer a mais de um grupo com

um certo grau de pertinência a cada um deles. Nesta tese, são trabalhados

algoritmos de agrupamento fuzzy e crisp.

A caracterização de um problema de agrupamento é representada por um

conjunto de dados (conjunto de informações organizadas, resultante de um

experimento ou observação), que está frequentemente relacionada a proble-

mas encontrados diariamente. Esses conjuntos de dados contém algumas ca-

racterísticas (atributos) que descrevem um determinado problema. Algumas

dessas informações presentes nos problemas, podem ser melhor representa-

das se forem descritas como intervalos. Devido a esse fato, recentemente, a

comunidade cientíca tem voltado a sua atenção para dados que represen-

tam informações numéricas dotadas de imprecisões como, por exemplo, com

dados intervalares.

As primeiras investigações no campo de intervalos foram realizadas por

Sunaga e R. Moore [45] e [52]. No entanto, de forma independente em 1956,

Warmus, sugeriu formas de calcular intervalos, porém foi Moore que encon-

trou as primeiras aplicações não-triviais. Uma das principais vantagens de

utilizarmos dados intervalares é a sua capacidade de codicar a quantidade

12

de imprecisões envolvidas e a oportunidade de trabalhar com uma aritmética

que é capaz de controlar os erros nos cálculos. No entanto, apesar de um

intervalo poder ser visto como um número dotado de imprecisões, a noção de

distância, que retorna um intervalo como valor, em vez de um número real,

só foi investigada a partir dos trabalhos de Trindade, Vargas e Bedregal [70]

e [27].

Em 2011, Santana e Santiago [61] observaram a necessidade de denir

uma estrutura abstrata para distâncias essencialmente intervalares. A ideia

é que esses valores contém mais informações do que os números reais e po-

dem ser usados para informar a distância entre dois pontos. É utilizada a

KM-métrica que é uma das i-métricas propostas em [24] para aplicações em

agrupamentos de dados intervalares. Assim a imprecisão dos dados intervalos

é preservada durante o processo de medição da distância, a qual é perdida

ao obter um número real quando operamos dois intervalos, resultante do uso

de uma distância usual (por exemplo, Distância de Moore, [53]).

Para técnicas de agrupamento baseadas em intervalos, os autores propu-

seram em [28] uma nova maneira de calcular os centros dos aglomerados no

algoritmo FCM (Fuzzy c-means), chamado ckMeans, e em [27] isso foi apli-

cado à conjuntos de dados intervalares. No entanto, nenhum índice interno

foi proposto e alguns problemas foram detectados nesse algoritmo.

Neste trabalho, o objetivo é oferecer uma plataforma para aplicações em

agrupamentos usando dados baseados em intervalos, incluindo medida de

distância, algoritmos de agrupamento e índices de validação. E mais um

estudo inicial foi realizado sobre funções de agregações, onde são investigadas

as agregações de i-distâncias. Para este propósito, são propostos algoritmos

de agrupamento fuzzy , Interval Based ckmeans (IbckM) e Interval based

Fuzzy C-Mens (IbFcM), que são adaptações dos algoritmos ckMeans e FCM

13

para trabalhar com dados intervalares de uma forma eciente e algoritmos de

agrupamento crisp, Interval Based k-Means (IbKM), Interval Based hybrid

k-Means (IbKMH) e IbKMHsup, que são adaptações do algoritmo K-Means.

Além disso, aplicamos a distância teoricamente proposta em [61] para ser

utilizada em agrupamentos de dados intervalares. Foram também utilizados

três índices internos para trabalhar com conjuntos de dados intervalares,

apresentados na dissertação de [16].

É importante ressaltar que, diferentemente da maioria dos estudos com

dados baseados em intervalos, a medida de distância aplicada aqui retorna

um intervalo, em vez de um número real, como no caso da distância de Moore,

na qual a distância entre dois intervalos é denida pela maior distância em

módulo entre os extremos, [53].

A m de avaliar o desempenho das técnicas propostas, uma análise em-

pírica é conduzida. Nessa análise, são utilizados conjuntos de dados reais

e sintéticos, e para avaliar o desempenho dos algoritmos de agrupamento

utilizamos o índice externo chamado Correct Rand (CR) e seis índices inter-

nos. Sendo que três índices internos são adaptados para trabalhar com os

conjuntos de dados intervalares, como mencionado acima.

Para efeito de comparação, alguns algoritmos de agrupamento baseados

em intervalos são utilizados nesta análise, [18], [40], [17] e [19] . Esta análise

comparativa é feita unicamente em termos da medida do CR, uma vez que

não foi possível encontrar na literatura resultados internos na maioria dos

trabalhos que utilizam bases de dados intervalares.

Esta tese está dividida em 3 partes, sendo organizada da seguinte forma:

• Na primeira parte é feito um estudo teórico sobre os principais conceitos

utilizados neste trabalho. Assim, no segundo capítulo é dada uma

fundamentação teórica sobre matemática intervalar e sobre métricas

14

intervalares. No terceiro capítulo é apresentada uma introdução sobre

análise de agrupamento, onde são introduzidos os algoritmos que serão

utilizados como base para os algoritmos propostos.

• Na segunda parte são expostos os métodos propostos neste trabalho.

No quarto capítulo são apresentados os métodos propostos para dados

intervalares e os índices de validação intervalares. No capítulo 5 são

exibidos os métodos propostos para trabalhar com dados híbridos e são

expostos os estudos sobre funções de agregações de i-distâncias e um

exemplo de função de agregação de i-métricas.

• Na terceira parte, no capítulo 7 são exibidos os conjuntos de dados

sintéticos e reais que são utilizados nos experimentos, bem como os

resultados alcançados e a análise comparativa realizada. No oitavo e

último capítulo são apresentadas as conclusões dessa pesquisa e suas

perspectivas futuras.

15

Capítulo 2

Intervalos e i-Métricas

O conceito fundamental que suporta os algoritmos de agrupamento é o

de Espaço Métrico e o tipo de dados sobre o qual essa tese se desenvolve é o

de Intervalos. Este é o capítulo dedicado a esses dois conceitos.

2.1 Espaços Métricos

A noção de distância entre dois pontos oriunda da Geometria pode ser

formalizada como uma função d : R2 × R2 → R. Ela pode ser generalizada

para conjuntos quaisquer M da seguinte maneira:

Denição 2.1 (Métrica) Uma métrica em um conjunto não vazio M é

uma função d : M ×M → R que satisfaz:

1. d(x, y) ≥ 0;

2. d(x, y) = d(y, x);

3. d(x, y) = 0 se, e somente se, x = y;

4. d(x, z) ≤ d(x, y) + d(y, z) (desigualdade triangular).

16

O par (M,d), onde d é uma métrica, é chamado espaço métrico.

Exemplos:

• Métrica Usual da Reta: Considerando o conjunto dos números reais R,

a função d : R× R → R dada por d(x, y) = |x− y| é uma métrica em

R.

• Métrica Euclidiana: ConsiderandoM = R2, a função de : R2×R2 → R

dada por de(x, y) =√

(x1 − y1)2 + (x2 − y2)2 é uma métrica em R2.

• Métrica do Máximo: Considerando o conjunto R2, a função dmax :

R2 × R2 → R dada por dmax(x, y) = max|x1 − y1|, |x2 − y2|, onde

x = (x1, x2) e y = (y1, y2) é uma métrica em R2.

Todas essas métricas são denidas sobre o conjunto dos números reais

ou sobre o plano Euclideano (Produto Cartesiano Binário do conjunto dos

números reais). Ou seja, se pensarmos em termos de tipos de dados, temos

métricas para o tipo de dados real e para o tipo produto do tipo de dados

real. Uma métrica que foge a esse padrão e que está ligada a outro tipo de

dados é a métrica de Levenshtein. Ela é denida sobre o tipo de dados string,

dessa forma, assim como podemos medir a distância entre números e entre

pontos, podemos também medir a distância entre strings.

A distância de Levenshtein entre duas strings a, b é dada por leva,b(|a|, |b|),

onde

leva,b(i, j) =

max(i, j) se min(i, j) = 0,

min

leva,b(i, j)(i− 1, j) + 1

leva,b(i, j)(i, j − 1) + 1

leva,b(i, j)(i− 1, j − 1) + 1(a1 6=bj)

caso contrário.

17

onde 1(ai 6=bj) é a função indicador igual a 0 quando ai = bj e igual a 1

caso contrário.

Por exemplo distância entre as palavras kitten e siting é 3, pois com

apenas 3 edições conseguimos transformar uma palavra na outra.

1. kitten

2. sitten (substituição de 'k' por 's')

3. sittin (substituição de 'e' por 'i')

4. sitting (inserção de 'g' no nal).

A teoria de espaços métricos é suciente para suportar os algoritmos

de agrupamento, inclusive os heterogêneos. Entretanto quando o dado em

questão registra a imprecisão nele contida a noção usual de métrica deixa de

ser eciente, pois dois dados imprecisos não podem dá origem a uma distância

exata e manter a informação de imprecisão nesse valor de distância.

Essa tese pretende fundamentar aplicações que utilizem um tipo de dados

com essa característica, a saber intervalos, e aplica a generalização de métrica

proposta por Santana em [61, 24] para esse tipo de dados. No que segue

apresenta-se resumidamente a Análise Intervalar proposta por Moore [52] e

Sunaga [45] em meados de 1950 e a generalização de métricas proposta por

Santana.

2.2 Análise Intervalar

Em meados dos anos de 1950, Sunaga [45] e Moore [52] propuseram o que

hoje conhecemos como Matemática Intervalar. O passo fundamental dessa

Matemática foi a criação de uma Aritmética para operar intervalos.

18

Denição 2.2 Dados x, x ∈ R, tal que x ≤ x o conjunto:

X = [x, x] = x ∈ R/x ≤ x ≤ x,

é chamado intervalo fechado limitado inferiormente por x e superiormente

por x. Ao longo de todo esse texto, conjuntos desse tipo serão chamados sim-

plesmente de intervalos. Denota-se por I(R) o conjunto de todos os intervalos

desse tipo.

Um intervalo X é dito não-negativo, X ≥ 0, quando x ≥ 0 e é dito

negativo se, X < 0, se x < 0. Se x = x, então X é chamado intervalo

degenerado.

Ao realizar de operações sobre intervalos (operações intervalares) pretende

captar a seguinte ideia: um intervalo [a, b] representa qualquer um de seus

elementos, já uma operação intervalar, F , é adequada para representar uma

operação real f , se o intervalo F ([a, b]) contiver a imagem f([a, b]). Essa

propriedade chama-se corretude e foi investigada por Santiago e Bedregal em

[62]. Eles chamaram de representações intervalares as funções que satisfaziam

essa propriedade, o que foi formalizado da seguinte maneira:

Denição 2.3 (Representação Intervalar- [62]) Uma função intervalar

F é correta com respeito a uma função real f se é satisfeita a seguinte con-

dição:

x ∈ [a, b]⇒ f(x) ∈ F ([a, b])

A denição que segue formaliza a noção da melhor representação inter-

valar possível.

Denição 2.4 (Representação Canônica Intervalar - CIR [62]) Seja

f : R→ R uma função sem assíntotas verticais, então para cada [a, b] ∈ I(R),

19

CIR(f)[a, b] é o menor intervalo contendo a imagem de f([a, b]):

CIR(f)([a, b]) = [min f([a, b]),max f([a, b])]. (2.1)

Portanto, a função intervalar CIR é bem denida e além disso é a melhor

representação intervalar de f. Essa propriedade chama-se Optimalidade [35]

e se refere ao fato de que nenhuma outra função produz intervalos mais

precisos.

A Aritmética sobre intervalos, conhecida como Aritmética de Moore se-

gue esse paradigma, i.e., X♦Y = x y : x ∈ Xey ∈ Y . A seguir são

apresentadas as operações da aritmética de Moore:

Denição 2.5 Sejam X, Y ∈ I(R),

1. Adição: X + Y = [x+ y, x+ y];

2. Pseudo Inverso Aditivo: −X = [−x,−x];

3. Subtração: X + Y = [x− y, x− y];

4. Multiplicação: X · Y = [min(xy, xy, xy, xy),max(xy, xy, xy, xy)];

5. Pseudo Inverso Multiplicativo: 1X

=[1x, 1x

]se 0 /∈ X

6. Divisão: XY

=[min

(xy, xy, xy, xy

),max

(xy, xy, xy, xy

)], onde 0 /∈ Y .

7. Potência: Dado n ∈ N,

Xn=

[xn, xn] se x < 0 e n for par (2.2a)

[0,max(xn, xn)] se x < 0 < x n for par (2.2b)

[xn, xn]Caso contrário. (2.2c)

8. Dado n ∈ N,

n√X =

[

n√x,

n√x]se n for ímpar ou x ≥ 0 (2.3a)

indenido, Caso contrário. (2.3b)

20

Denição 2.6 (Diâmetro de um intervalo) Seja X ∈ I(R) um inter-

valo, chama-se diâmetro ou amplitude do intervalo X o número real não-

negativo,

Diam(X) = x− x.

O Diâmetro de um intervalo é a medida da qualidade do intervalo em ter-

mos de representação de números reais que ele contém, i.e., quanto maior o

diâmetro, maior a imprecisão existente, e, portanto, pior a representação (in-

tervalo) utilizada. Assim, as funções intervalares interessantes, serão aquelas

funções que preservarem a qualidade da representação, i.e.

X ⊆ Y ⇒ F (X) ⊆ F (Y ). Essas funções são denidas a seguir:

Denição 2.7 Uma função intervalar n-ária g de variáveis X1, X2, · · · , Xn

e Y1, Y2, · · · , Yn é uma inclusão monotônica se

Yi ⊆ Xi ⇒ g(Y1, Y2, · · · , Yn) ⊆ g(X1, X2, · · · , Xn). (2.4)

Denição 2.8 (Módulo de um Intervalo) Dado X ∈ I(R) chama-se mó-

dulo do intervalo X como o número real não-negativo:

|X| = max(|x|, |x|),

que corresponde à maior distância de elementos de X a zero.

2.3 Ordem

Na seção anterior, foram apresentadas algumas operações intervalares que

são fundamentais para aplicações envolvendo intervalos. Assim como elas

são contrapartida de operações reais a noção de ordem sobre números reais

também possui contrapartida intervalar.

21

Denição 2.9 Seja A um conjunto não-vazio. Uma relação binária ≤ sobre

A é chamada pré-ordem, se ela satisfaz as seguintes condições, ∀x, y ∈ A

1. Reexividade: x ≤ x;

2. Transitividade: Se x ≤ y e y ≤ z, então x ≤ z;

O par 〈A,≤〉, onde ≤ é uma pré-ordem em A, é chamado conjunto

pré-ordenado. Uma pré-ordem sobre A chama-se ordem parcial, se ela

satisfaz:

3. Anti-simetria: Se x ≤ y e y ≤ x, então x = y.

Neste caso, o par 〈A,≤〉 é chamado conjunto parcialmente ordenado ou

poset (abreviatura do inglês partially ordered set).

Uma ordem parcial em A é chamada de cadeia ou ordem total, se para

quaisquer x, y ∈ A tivermos x ≤ y ou y ≤ x.

Denição 2.10 Considere o poset 〈A,≤〉. Se A possui um elemento ⊥ tal

que ⊥≤ x,∀x ∈ A, então este elemento chama-se menor elemento ou bottom

e a estrutura 〈A,≤,⊥〉 chama-se ordem parcial com menor elemento.

Existem várias ordens que podem ser denidas sobre o conjunto dos in-

tervalos. Dentre elas a de maior importância para este trabalho chama-se

ordem de Kulisch-Miranker [43] apresentada abaixo:

Denição 2.11 Dados X, Y ∈ I(R):

X ≤KM Y ⇔ x ≤ y e x ≤ y (2.5)

Como mencionado, a ordem de Kulisch-Miranker [43] tem um maior des-

taque dentre as demais ordens. Pelo fato de que essa ordem tem a ideia

natural de que se X ≤KM Y , então X está à esquerda de Y na reta

22

real. Outro ponto de destaque sobre a ordem ≤KM é o fato que a estrutura

〈I(R),≤KM , [0, 0]〉 é um reticulado com menor elemento [0, 0].

Em conjuntos fuzzy intervalares, até recentemente, apenas uma ordem

total era considerada, chamada de Xu e Yager [76]:

Denição 2.12 Sejam X, Y ∈ I(R). A ordem Xu e Yager [76] é denida

pela equação:

X ≤XY Y ⇔ x+ x < y + y ∨ (x+ x = y + y ∧ x− x ≤ y − y) (2.6)

Em 2013, Bustince et al. [9] apresentaram um framework baseado em

funções de agregações para construir um novo conceito de ordem, chamado

ordens admissíveis. Ordens admissíveis são ordens lineares que incluem a

ordem de Kulisch-Miranker, porém apenas para o espaço [0, 1]. A denição

de ordens admissíveis é dada por:

Denição 2.13 Seja 〈L([0, 1]),≺〉 uma ordem parcial, onde L([0, 1]) = [x, x]|0 ≤

x ≤ x ≤ 1. A ordem ≺ é chamada de ordem admissível, se satisfazer:

1. ≺ é uma cadeia em L([0, 1]);

2. para quaisquer X, Y ∈ L([0, 1]) temos X≺Y sempre que X ≤KM Y .

Denida uma ordem sobre os intervalos podemos continuar com a noção

de distância.

2.4 Métricas e i-métricas

A noção geométrica de distância entre dois pontos pode ser generalizada

de uma função que mapeia dois pontos do plano Euclideano num número

real não negativo para uma função (com certas propriedades) que mapeia

dois objetos quaisquer num número real não negativo.

23

Essas funções são chamadas de métricas e são as entidades matemáti-

cas que fundamentam os algoritmos de agrupamento. Em 2012 Santana [24]

propôs uma generalização da noção de métrica de forma que o valor da dis-

tância entre dois objetos pudessem ser um objeto qualquer que pertencesse

a um conjunto que satiszesse algumas condições. Essas funções foram cha-

madas de i-métricas.

Um caso particular de i-métrica que mostrou-se eciente em algoritmos de

agrupamento de dados intervalares [66], [64] e [65] é uma função que retorna

um intervalo como resultado da medida de distância entre dois intervalos.

Essa i-métrica recebeu o nome de i-métrica KM, dkm.

Essa seção tem como objetivo apresentar os conceitos de métrica e i-

métrica, em especial a i-métrica dkm. Assim como as métricas fundamentam

os algoritmos usuais de agrupamento (baseados em métricas) a i-métrica dkm

fundamenta os algoritmos de agrupamento que envolvam dados intervalares.

A noção de distância é uma ferramenta matemática utilizada em vários

campos do conhecimento. Algoritmos de agrupamento usam a noção de

distância no cálculo da similaridade (dissimilaridade) para relacionar esses

objetos aos protótipos dos grupos. Em I(R), a métrica canônica é a chamada

distância de Moore [51]:

Denição 2.14 Sejam X, Y ∈ I(R), a distância de Moore é a função, dM :

I(R)× I(R)→ R+ dada por:

dM(X, Y ) = max(|x− y|, |x− y|), (2.7)

Observe que o módulo de um intervalo é um caso particular dessa distância,

ou seja: dM(X, [0, 0]) = |X|.

Muitos trabalhos, [24, 70], criticam a métrica de Moore, devido ao fato

dela não preservar a informação de imprecisão existente nos seus argumen-

24

tos, pois o valor que resultante, assim como de qualquer métrica, será um

número real. Em 1991, Acioly [1] apresentou um dos primeiros trabalhos que

questiona sobre a existência de métricas que preservassem tal informação.

Em 2006, Chakraborty et al. [14] defenderam que a distância entre duas

medidas imprecisas não poderia ser um valor exato, por isso propuseram

uma distância fuzzy para números fuzzy, tal distância tem a capacidade de

preservar a nebulosidade existente nos seus argumentos.

Em 2009, Trindade [70] apresentou os primeiros resultados na denição

de uma métrica intervalar. O objetivo foi promover uma distância intervalar

que preservasse a propriedade de inclusão e a informação de imprecisão. Essa

distância foi utilizada em processamento digital de sinais. Nesse trabalho,

características importantes foram apresentadas: d(X,X) = [0,max(x−x, x−

x)], garantindo apenas que 0 ∈ d(X,X).

Em 2010, foi apresentado o primeiro trabalho que aplicava uma distância

valorada em intervalos na área de agrupamento de dados, por Vargas e Be-

dregal [27]. Nesse trabalho, os autores propuseram um algoritmo chamado

ckMeans e uma nova distância intervalar, enunciada a seguir:

Denição 2.15 (Distância intervalar [27]) Sejam X, Y ∈ I(R). A i-

distância é a função denotada por dI : I(R)× I(R)→ I(R)+ denida por:

dI(X, Y ) = [minde(x, y), de(x, y); maxde(x, y), de(x, y)], (2.8)

onde de é a distância euclidiana.

2.4.1 i-Métrica e i-Métrica dkm

Em 2011 e 2012, Santana e Santiago [24, 61] propuseram uma genera-

lização no conceito de métrica, com modicação nos axiomas e no espaço

25

de valoração dando origem ao conceito de i-métrica. Além de fundamen-

tar algumas distâncias que possuíam valores que não eram números reais,

eles também apresentaram a i-métrica dkm, que sustentará os algoritmos de

agrupamento para dados intervalares.

Denição 2.16 (Conjunto d-dirigido) Seja 〈A,≤〉 um conjunto pré-ordenado,

um conjunto D ⊆ A, D chama-se conjunto d-dirigido, se para cada x, y ∈ D,

existe z ∈ D, tal que z ≤ x, y. Uma relação binária R sobre A é chamada

relação semi-auxiliar para ≤ sempre que:

1. Se xRy, então x ≤ y;

2. Se x ≤ y, yRz e z ≤ w então xRw.

3. Se 〈A,R,≤〉 possui menor elemento, ⊥, então ⊥ Rx para todo x ∈

A− ⊥.

Um conjunto pré-ordenado, 〈A,≤,⊥〉, munido de uma relação semi-auxiliar

R, possui menor elemento separável, sempre que A é d-dirigido e para cada

par de elementos x, y ∈ A, com ⊥ Rx e ⊥ Ry existe z ∈ A tal que z ≤ x, y

e ⊥ Rz.

A denição que segue fornece uma estrutura matemática que generaliza

o conjunto dos números reais não negativos como espaço de valores de dis-

tâncias.

Denição 2.17 (Valoração de i-Distâncias [24]) Uma Valoração de i-

distâncias (VID) é uma ordem parcial 〈A,≤, R,⊥〉 tal que R é uma relação

semi-auxiliar para ≤ com menor elemento separável ⊥.

Uma VID bem conhecida é a valoração das métricas usuais:

〈[0,+∞),≤, <, 0〉.

26

Após generalizar o espaço de valoração de distâncias, Santana e Santiago

propuseram, a generalização da noção de distância, dando origem à noção de

i-métricas.

Denição 2.18 (i-Métrica [24]) Seja M um conjunto não-vazio e

Ω = 〈A,≤, R,⊥〉 uma VID. Uma função d : M × M → A é chamada

i-métrica Ω-valorada, ou simplesmente i-métrica, quando ela satisfaz:

1. d(a, b) =⊥ se, e somente se, a = b;

2. d(a, b) = d(b, a), para quaisquer a, b ∈M ;

3. Se d(a, b)Rε, para algum ε ∈ A com ⊥ Rε, então existe δ ∈ A, com

⊥ Rδ, tal que d(b, c)Rδ ⇒ d(a, c)Rε, ∀c ∈M .

A tripla (M,d,Ω) é chamada de espaço i-métrico.

Em 2011, Santana e Santiago [61] propuseram algumas VID's dando ori-

gem as i-métricas baseadas em intervalos. Uma VID dessas, construída so-

bre a ordem de Kulisch-Miranker tornou-se interessante para a aplicação em

agrupamento de dados intervalares. No que segue, apresenta-se essa VID e a

i-métrica associada.

Denição 2.19 SejaM um conjunto não vazio e Ω = 〈I(R)+,≤km, R, [0, 0]〉

uma VID. A função d : M × M → Ω é chamada i-métrica intervalar ou

simplesmente i-métricas (neste trabalho), se:

1. d(x, y) = [0, 0] se, e somente se, x = y;

2. d(x, y) = d(y, x), para quaisquer x, y ∈M ;

3. Se d(x, y)Rε para algum ε ∈ I(R)+−[0, 0], então existe σ ∈ I(R)+−

[0, 0] no qual se z ∈ I(R) e d(y, z)Rσ, então d(x, z)Rε.

27

Nesse caso, a tripla (M,d,Ω) é chamada de espaço i-métrico aqui,

(neste trabalho) abrevia i-métrico intervalar, uma vez que se subentende que

os valores da i-métrica são intervalos.

Denição 2.20 (Essencialmente abaixo- [24]) Considere um conjunto pré-

ordenado〈A,≤〉. Diz-se que x está essencialmente abaixo de y, o que é

denotado por x y, se para todo conjunto dirigido D ⊆ A com ao menos

um supremóide s tal que y ≤ s, existe d ∈ D tal que x ≤ d.

Proposição 2.1 (Proposição 5.5, [24]) Seja a relação essencialmente

abaixo estrita para ≤KM em I(R)+:

1. [0, 0] X, para todo X ∈ I(R)+;

2. Se x, y > 0, então [0, x] [0, y]⇔ x < y;

3. Se x, x, y, y > 0, então X Y ⇔ (x < y) ∧ (x < y).

Denição 2.21 ([24]) Dados X, Y ∈ I(R), dena X ∗ Y ⇔ X Y e

Y 6= [0, 0].

Teorema 2.1 ([61]) A estrutura 〈I(R)+,≤KM ,∗, [0, 0]〉 é uma VID.

Teorema 2.2 ([24, 61]) Sejam dois intervalos X, Y ∈ I(R) e uma métrica

qualquer, considere o conjunto das distâncias entre os elementos de X e de

Y representado por DXY = d(x, y) : x ∈ X e y ∈ Y . Então, a função

dkm : I(R)× I(R)→ 〈I(R)+,≤km,, [0, 0]〉 denida abaixo é uma i-métrica.

dkm(X, Y ) =

[0, 0] , se X = Y

[min(DXY ),max(DXY )] , se X 6= Y. (2.9)

28

Observe que o conjunto DXY tem o mesmo princípio de um conjunto

X♦Y = x♦y : x ∈ X ∧ y ∈ Y , onde ♦ é uma operação sobre números

reais, ou seja, ele tem o resultado do cálculo da distância entre todos os

elementos de X com todos os elementos de Y . Entretanto, essa representação

do conjunto DXY não é calculável, é necessário que seja provida uma outra

representação para que se possa calcular dkm(X, Y ):

Teorema 2.3 Dados X, Y ∈ I(R), temos:

dkm(X, Y ) =

[0, 0] , se X = Y

[d(x, y), d(x, y)] , se x < y

[dx, y), d(x, y)] , se y < x

[0, d(x, y)] , se X <km Y e X ∩ Y 6= ∅

[0, d(x, y)] , se Y <km X e X ∩ Y 6= ∅

[0,max(d(x, y); d(x, y))] , se X 6= Y e (X ⊂ Y ouY ⊂ X)

.

(2.10)

2.5 Considerações Finais

A ideia principal que motivou este estudo foi a necessidade de distâncias

capazes de capturar as imprecisões. Incertezas essas que as métricas clássicas

não conseguem manter ao calcular a distância entre dois dados intervalares.

Assim, a investigação desse tipo de métrica dentro do contexto de agru-

pamento de dados tornou-se uma questão importante e o alvo desta tese.

O Teorema que segue encerra este capítulo e, apesar de simples, demons-

tra que qualquer distância que seja usada em algoritmos usuais de agrupa-

mento pode ser simulada pela i-métrica dkm, simplesmente aplicando uma

coerção dos argumentos reais para intervalos degenerados, e em seguida apli-

car a i-métrica. Isso signica que intervalos munidos da i-métrica dkm são um

29

ambiente onde a computação usando agrupamentos (pontuais) está imersa.

Teorema 2.4 Seja d : R2 → R uma métrica e i : R → I(R) a inclusão

canônica, i. e. i(x) = [x, x]. Então,

d(x, y) = z ⇔ dkm[i(x), i(y)] = i(z).

Demonstração:

Seja d : R2 → R uma métrica qualquer e i : R → I(R) denida por

i(x) = [x, x].

(⇒) Suponha que d(x, y) = z

Caso x = y, então d(x, y) = 0 e dkm(i(x), i(y))def

= [0, 0] = i(0).

Caso x < y, então i(x) = x < y = i(y) e

dkm(i(x), i(y))def

= [d(i(x), i(y)), d(i(x), i(y))] = [d(x, y), d(x, y)] = [z, z] = i(z)

Caso x > y, a prova é análoga. (⇐) Suponha que dkm(i(x), i(y)) = i(z), en-

tão dkm([x, x], [y, y]) = [z, z]. Caso [x, x] = [y, y], então x = y, dkm(i(x), i(y)def

=

[0, 0] = i(0) e d(x, y) = 0. Os casos dkm(x, y) = [0, d(x, y)] e dkm(x, y) =

[0, d(x, y)] são análagos ao anterior. Nos casos x < y e y < x, dkm(i(x), i(y))def

=

[d(x, y), d(x, y)] = [z, z]. Portanto, de acordo com a igualdade de intervalos,

temos d(x, y) = z.

30

Capítulo 3

Análise de Agrupamento de

Dados

Este capítulo realiza uma revisão da área Agrupamento de Dados. Nele

são descritos os métodos de agrupamento que servem de base para os algo-

ritmos propostos neste trabalho.

Atualmente, vive-se em um mundo com diversos tipos de dados que são

oriundos de todos os tipos de observação. Busca-se encontrar padrões de

similaridade (ou dissimilaridade) entre os objetos para efetuar classicações

ou mesmo, obter informações especícas.

Para buscar esses padrões de similaridade é necessário fazer uma aná-

lise para que seja possível tomar qualquer decisão sobre os objetos e/ou

fenômenos envolvidos. Uma das formas de efetuar classicações de dados

é utilizando o conhecimento de um especialista. No entanto, esse tipo de

prossional normalmente é muito caro. Assim, uma outra forma eciente é

realizar análise desses dados por meio dos métodos de agrupamento de dados.

31

3.1 Agrupamento de Dados

Agrupamento de dados é um campo que tem sido largamente estudado

em aprendizagem de máquina. O principal objetivo é organizar os objetos em

grupos. Por denição, agrupamento de dados é um conjunto de técnicas que

visa dividir os objetos em grupos, de tal forma que os objetos (instâncias) do

mesmo grupo (cluster) são considerados semelhantes e os objetos em grupos

distintos considerados dissemelhantes. Em outras palavras, estas técnicas

têm como objetivo encontrar uma divisão dos objetos em que há grande

similaridade entre os objetos de um mesmo grupo e alta dissimilaridade entre

objetos de grupos diferentes [37].

Existem vários algoritmos de agrupamento propostos na literatura. Eles

são divididos em agrupamentos particionais e agrupamentos hierárquicos

[2, 39, 50, 69, 75]. Este estudo é direcionado apenas para agrupamentos

particionais.

Os agrupamentos particionais podem ser divididos em duas categorias:

Crisp e Fuzzy. No agrupamento crisp, uma instância pertence a um e somente

um cluster, enquanto que o agrupamento fuzzy permite que uma instância

pode pertencer a mais de um cluster com um grau de pertinência uij ∈ [0, 1].

A notação uij ∈ [0, 1] representa o grau de pertinência da j-ésima instância

ao i-ésimo cluster.

Nesta tese são estudados algoritmos de agrupamento fuzzy para dados

intervalares e algoritmos de agrupamento crisp para dados híbridos que con-

tenham dados intervalares e dados cuja medida de distância sejam números

reais.

Não existe na literatura uma denição unicada para descrever agrupa-

mento. Isso pode ser reexo do fato de que, no geral, não existe informação

prévia sobre a estrutura dos dados e nem existe uma única medida de simi-

32

laridade capaz de diferenciar grupos em todas as situações [25, 32]. Como

mencionado, algoritmos de agrupamento formam grupos distintos de obje-

tos;esses grupos são formados com base em uma medida que visa estabelecer

a similaridade entre tais objetos [39].

Por esse motivo, Agrupamento de Dados é comumente reduzido à agru-

par objetos em grupos apropriadamente. Porém, algumas questões funda-

mentais se tornam pertinentes quando a análise de agrupamentos é necessária

[34]:

1. Como medimos a similaridade?

2. Como formamos os agrupamentos?

3. Quantos grupos formamos?

Geralmente três tipos de medidas de similaridade são utilizadas: medidas

correlacionais, medidas baseadas em distância e medidas de associação [34].

As duas primeiras estão ligadas a dados numéricos, já a última a dados não-

numéricos.

As medidas mais utilizadas são baseadas em métricas e, dentre estas, a

mais utilizada é a conhecida métrica Euclidiana.

No caso dos dados intervalares, várias medidas foram propostas ao longo

do tempo: Distância Hausdorf, L1, L2, Euclidiana [15, 17, 18, 21, 26].

Existem outras medidas tais como: distância de Mahalanobis, que faz

uma normalização em relação à variância; similaridade usando cossenos, que

é usada para a classicação de textos e outros dados de alta dimensão; a Cor-

relação de Pearson muito usada em bioinformática, entre outras. No entanto,

não é suciente medir a similaridade, é necessário haver um procedimento

para agrupar os dados mais similares em grupos.

33

O agrupamento crisp é insuciente em certas situações, por exemplo:

como agrupar um conjunto de carros pela cor? Normalmente um tom de

verde é diferente de outro e nem por isso deixou de ser verde. Para lidar com

esse tipo de situação o agrupamento fuzzy é aplicado, pois, nesta abordagem,

um determinado objeto pode pertencer a mais de um cluster com um grau

de pertinência. No caso de classicarmos um carro no grupo dos carros de

cor verde estaremos denindo o grau de pertinência do mesmo com relação

ao grupo de carros de cor verde.

A formação dos clusters necessitam de uma grande atenção quanto ao

terceiro questionamento. O número de grupos não é facilmente respondido,

pois na maioria dos casos não sabemos, a priori, o número de grupos.

Ao se aplicar agrupamento em dados rotulados nem sempre os grupos for-

mados coincidirão com os rótulos conhecidos, pois o objetivo de agrupamento

não é apenas classicar dados, mas encontrar grupos que tenham um signi-

cado relevante [31]. No entanto, existem na literatura heurísticas que guiam

a escolha da quantidade de grupos baseada na estrutura do agrupamento

formado [34].

O que buscamos é o menor número de grupos e a maior homogeneidade

dos objetos em cada grupo. Uma das formas de atingir isso é aplicando

métodos para agrupamentos de dados, que são tratados na próxima seção.

3.2 Algoritmos para Agrupamento de Dados

Apesar do grande potencial da maioria dos métodos de agrupamento,

não existe um único método que seja capaz de obter um bom desempenho

em todos os problemas, portanto se faz necessário escolher qual o melhor

algoritmo de agrupamento para um determinado conjunto de dados, dentro

34

da nalidade da aplicação em questão.

De uma forma geral, os algoritmos são classicados em hierárquicos e

particionais. Para maiores detalhes veja [2, 50, 69, 75].

Algoritmos hierárquicos são utilizados nas mais diversas áreas, desde a

economia [8] até a genética [30]. Esses algoritmos produzem uma série de

partições baseadas no critério de aglomeração ou no critério de divisão que

estão relacionados com a medida de similaridade. Os algoritmos aglomera-

tivos iniciam com cada objeto formando um grupo e durante as interações

os pares de grupos mais próximos são combinados até que todos os objetos

estejam em apenas um grupo.

A abordagem divisiva vai na direção contrária, todos os objetos pertencem

a um único grupo que iterativamente divide-se em grupos que estão mais

afastados um do outro, até que ao nal cada objeto forma um grupo unitário.

Algoritmos de agrupamento hierárquico produzem uma partição para

cada valor de c = 1, ..., n sendo n o número total de objetos [75].

No caso dos algoritmos particionais, são calculadas diretamente as par-

tições ao minimizar uma função de otimização. Uma função de otimização

muito utilizada é a função custo, a qual potencializa a dissimilaridade en-

tre os grupos e a similaridade dentro de cada grupo. Os algoritmos par-

ticionados têm sua estrutura centrada nos protótipos. Os algoritmos mais

conhecidos são: K-Means, Fuzzy c-Means, Possibilistic C-Means e Mapas

auto-organizáveis [3, 41, 42, 44]. Fuzzy C-Means (FCM), introduzido por

Bezdek em 1981 [3], é um dos primeiros e mais populares algoritmos de

agrupamento fuzzy. A partir dele inúmeras variações foram criadas. Outro

algoritmo muito utilizado e com diversas versões é o K-Means. Pelo fato

dos algoritmos aqui apresentados derivarem desses dois algoritmos, vamos

apresentá-los mais detalhadamente.

35

Para entender o funcionamento desses algoritmos é importante ter clara a

representação dos objetos. No caso, cada objeto de entrada para o algoritmo

é representado por um vetor de atributos. Por exemplo, considere o conjunto

de dados das amostras de informações clínicas de n pacientes (objetos), X =

x1, x2, · · · , xi, · · · , xn. Cada paciente xi possui um vetor de características,

tais como: peso, idade, sexo, altura, cor da pele, tipo de doença, entre outras.

Assim, o que algoritmos baseados no K-Means e no FCM buscam é criar

grupos com maior homogeneidade entre elementos do mesmo grupo e maior

heterogeneidade entre elementos de grupos diferentes.

Portanto, algoritmos baseados no K-Means e no FCM minimizam uma

função objetivo na forma:

J(U, V ) =c∑

i=1

n∑k=1

umik‖−→xk −−→vi ‖2 − P (U) (3.1)

sendo a partição [uik] = U pertencente a Mhcn, a Mfcn ou a Mpcn. Os pro-

tótipos dos grupos são representados pelo vetor V = −→v1 , · · · ,−→vc ∈ Rd×c,

c é o número de grupos, n o número de objetos, m o parâmetro de fuz-

zicação, sendo m = 1 para K-Means e m ∈ (1,+∞] para métodos fuzzy

e possibilístico, e P é uma função de penalidade, usada em agrupamentos

possibilísticos.

O cálculo da distância entre o objeto k e o protótipo i é geralmente

realizado pela distância euclidiana, ‖−→xk−−→vi ‖ =√∑p

j=1(xjk − v

pi )2 e pode ser

representado por d(−→xk,−→vi ). Os protótipos dos grupos podem ser calculados

da seguinte forma:−→vi =

∑nk=1(uik)m−→xk∑nk=1(uik)m

(3.2)

Para obter a matriz de partição, os algoritmos K-Means e FCM efetuam

seus cálculos de formas diferentes, assim as subseções seguintes descrevem

cada um desses algoritmos.

36

3.2.1 K-Means

No algoritmo K-Means, cada objeto é atribuído a um único grupo, e o

cálculo da matriz de partição é dado por

uik =

0 caso dik > min1≤j≤cdjk

1 caso contrário.(3.3)

O algoritmo K-Means é inicializado ao escolhermos aleatoriamente os cen-

tros iniciais dos clusters. O Algoritmo 1 apresenta os passos do algoritmo

K-Means.

Algoritmo 1: Algoritmo K-Means [44]Entrada: X - Conjunto de dados, c - número de grupos, ε - Tolerância

Dados: U - matriz de partição, onde uik indica se o objeto k está no

grupo i.

Saída: U e V

Inicialize V repitaCalcular U usando equação (3.3); Atualizar os c protótipos usando

a equação (3.2)

até ‖Vnew −Vold‖ ≤ ε;

Existem diversos problemas que envolvem o K-Means, tais como: os clus-

ters nais não representam uma otimização global mas apenas local e clus-

ters diferentes podem surgir a partir da diferença na escolha inicial aleatória

dos protótipos; o parâmetro c deve ser escolhido antecipadamente ou vários

valores devem ser testados até encontrar o melhor; os dados devem ser nu-

méricos e devem ser comparados através da distância Euclideana; o algoritmo

trabalha melhor com dados que contêm clusters esféricos; clusters com ou-

tras geometrias podem não ser encontrados; o algoritmo é sensível a outliers,

37

esses pontos podem distorcer a posição do centroide e deteriorar a qualidade

das partições.

3.2.2 Fuzzy C-Means

O FCM é baseado na lógica fuzzy [77], onde cada instância não pertence

apenas a um cluster, mas, ao invés disso, possui um grau de pertinência

para cada cluster existente no processo. U é uma matriz de partição (n ×

c) chamada matriz de pertinência. Todas as partições fuzzy satisfazem as

seguintes restrições:

µik ∈ [0, 1], (1 ≤ i ≤ n), (1 ≤ k ≤ c), (3.4)c∑

k=1

µik = 1, (1 ≤ i ≤ n), (3.5)

n∑i=1

µik > 0, (1 ≤ k ≤ c). (3.6)

Para o algoritmo FCM, a partição fuzzy é calculada por:

uik =

[∑cj=1

(‖xk−vi‖‖xk−vj‖

) 1m−1

]−1Se djk 6= 0 ∀j

1 Se dik = 0

0 Se dik 6= 0 e djk = 0 para algum j.

(3.7)

O cálculo do protótipo, Eq. (3.2), e da atualização da partição, Eq.

(3.7), são alternados até convergirem. O algoritmo FCM, assim como o K-

Means, sofre com a inicialização aleatória dos centros iniciais dos clusters.

O Algoritmo 2 apresenta os passos do algoritmo FCM.

Um ponto fraco do FCM é o fato dele ser computacionalmente mais caro

que o K-Means. E assim como o K-Means, o FCM é sensível a outliers. Assim

como esses algoritmos serviram de base para os algoritmos propostos neste

38

Algoritmo 2: Algoritmo FCM [3]Entrada: X - Conjunto de dados, c - número de grupos, ε- Tolerância

Dados: U - matriz de partição, onde uik é o grau de pertinência do

objeto k no grupo i.

Saída: U e V

Inicialize V repitaCalcular U usando a equação (3.7 ); Atualizar os c protótipos pela

equação (3.2);

até ‖Vnew −Vold‖ ≤ ε;

trabalho, muitos outros algoritmos são encontrados na literatura partindo

do FCM e K-Means, dentre esses vamos apresentar na próxima seção os que

usam dados intervalares.

3.2.3 Outros Métodos de Agrupamentos para Dados In-

tervalares

Nesta subseção vamos apresentar os métodos de agrupamentos para dados

intervalares, pois este trabalho é voltado para métodos particionais usando

dados intervalares.

Em 2000, Bock and Diday [5] propuseram uma maneira de trabalhar

com dados intervalares, o qual é conhecida como o método do centro. Neste

método é calculada a média aritmética dos valores mínimos e máximos para

cada dado intervalar de entrada e em seguida é feito o agrupamento usando

o FCM. Em 2003, Bock [4] construiu o algoritmo SOM (do inglês, Self-

organizing maps) baseado na distância dos vértices para visualizar dados

intervalares.

Em 2004, Souza e Carvalho [26] propuseram dois algoritmos de agrupa-

39

mento dinâmico para dados intervalares: o primeiro faz uma extensão para

intervalos usando city-block e o segundo é uma versão adaptada com uma ou

duas componentes. Ainda em 2004, Souza et al. [26], propuseram dois algo-

ritmos de agrupamento dinâmico usando a distância de Mahalanobis: sendo

que no primeiro método, a distância é igual para todos os grupos; no outro

algoritmo proposto é utilizada uma versão adaptativa da distância.

Em 2006, Sato-Ilic and Jain [63] zeram uma extensão do método desen-

volvido por Bock and Diday [5]. Nessa extensão, os dados são decompostos

em dois conjuntos de dados: um com os valores mínimos e o outro com os

valores máximos, onde, são atribuídos pesos para essas séries de dados nos

valores mínimos e máximos. Carvalho et al. [21] propuseram um algoritmo

de agrupamento dinâmico para dados intervalares usando a distância adap-

tativa de Hausdorf, onde a distância altera a cada iteração que depende da

estrutura de cada grupo.

Em 2007 Zang et al. [78] propuseram uma extensão do algoritmo FCM

para o processamento de dados intervalares. Nesse trabalho os autores re-

alizaram simulações com um conjunto de dados reais que foram obtidos de

um sistema de transporte real. O algoritmo permite processar conjuntos de

dados intervalares e ainda mostra que a proposta desse algoritmo pode ser

usada para extrair regras de intervalos fuzzy tipo 2 [54].

Carvalho [18], propôs um algoritmo não-adaptativo e adaptativo baseado

no FCM que utiliza a distância Euclideana entre vetores de intervalos. Em

[38], Irpino e Verde, propuseram uma nova distância,Wasserstein, para dados

intervalares e também implementaram um algoritmo dinâmico.

Em 2010, Carvalho e Tenório em [22], propuseram um algoritmo fuzzy

k-Means que é baseado em distâncias quadráticas e a distância muda a cada

iteração, podendo ser a mesma para todos os grupos ou uma para cada grupo.

40

Em [17], o autor propôs um algoritmo fuzzy SOM para dados intervalares que

é baseado no algoritmo SOM seguindo o mesmo modelo do algoritmo FCM e

o algoritmo combina a matriz de pertinência fuzzy com a taxa de aprendizado.

No contexto de dados intervalares e distâncias essencialmente intervalares

(distâncias cujos valores são intervalos), Vargas em [29] propôs uma extensão

do ckMeans baseado no FCM para dados intervalares, usando uma distância

essencialmente intervalar.

Na próxima subseção, são detalhados os métodos usados para o estudo

comparativo dos métodos propostos.

3.2.4 Métodos Usando Abordagens Fuzzy Para Dados

Intervalares

Em 2007, utilizando as estratégias adaptativa e não-adaptativa, Carvalho

[18] apresentou duas versões do FCM. Para o método não-adaptativo, cha-

mado de IFCM, foi utilizada a distância euclidiana em uma versão adaptada

do FCM que utiliza a seguinte função para calcular os protótipos.

vi = [vi, vi], onde vi =

∑nk=1(uik)mxk∑nk=1(uik)m

e

∑nk=1(uik)mxk∑nk=1(uik)m

, 1 ≤ i ≤ c. (3.8)

No método adaptativo o algoritmo busca que ao nal de cada etapa de

associação, a distância entre os objetos e os protótipos seja a menor possível,

para isso o algoritmo associa uma distância diferente para cada grupo. Nos

métodos, o autor, procura minimizar a seguinte função:

J(U, V, dA) =c∑

i=1

n∑k=1

umikd2A(xk, vi) (3.9)

onde U é a matriz de partição, V é o vetor dos protótipos, dA é uma distância

adaptativa que mede a dissimilaridade entre o protótipo vi e o objeto xk.

41

Nos métodos de agrupamentos dinâmicos são considerados pesos, λ, para

cada cálculo de distância. Esses pesos podem variar ao considerar o resultado

do agrupamento ao nal de cada iteração. E mais, eles podem considerar a

informação advinda dos grupos como também de cada objeto. O fato da

distância não ser única para todos os grupos e também o fato de que a cada

iteração deve ser medida a qualidade da soma das distâncias, são fatos muito

importantes. A distância dA(xk, vi) é denida por:

dA(xk, vi) =

√√√√ p∑j=1

λji [(xk − vi)2 + (xk − vi)2] (3.10)

sendo dA a parametrização da distância pelo vetor de pesos λi onde 1 ≤ i ≤ c,

e é alterado em cada iteração.

Observe que a equação (3.10) é a distância Euclidiana ponderada para

cada protótipo i e dimensão j pelo pesos λji . Esses pesos são atualizados

usando a seguinte equação:

λji =[Πp

h=1(∑n

k=1(uik)m((xhk − vh

i )2 + (xhk − vh

i )2))]1p∑n

k=1(uik)m((xjk − vj

i )2 + (xj

k − vji )

2), (1 ≤ j ≤ p), (1 ≤ i ≤ c)

(3.11)

onde Πpj=1λ

ji = 1, (1 ≤ i ≤ c).

O Algoritmo 3 descreve os passos do IFCMADC, ele é iniciado com a

escolha aleatória de U e alterna em três passos até obter a convergência.

Vargas e Bedregal [27] apresentaram a primeira versão de um algoritmo

que utiliza uma distância essencialmente intervalar. Nesse estudo, os autores

criaram uma versão intervalar do algoritmo ckMeans modicando a distância

proposta em [71]. Esse algoritmo, tem a capacidade de considerar graus de

pertinência intervalar. De acordo com Bedregal e Vargas em [27], o algoritmo

ckMeans segue a mesma estrutura do algoritmo FCM, no entanto, a única

mudança é sobre a forma de como calcular o centro dos grupos. Por isso, é

42

Algoritmo 3: Algoritmo IFCMADC [18]Entrada: X - Conjunto de dados, c - número de grupos, ε

Dados: U - matriz de partição fuzzy, λ - vetor de pesos.

Saída: U e V

Inicialize U

repitaCálculo de V é obtido pela equação 3.8. Os pesos são atualizados

utilizando a equação (3.11)

Atualiza a matriz de pertinência uik com equação:

uik =

[c∑

j=1

(dA(xk,vi)

dA(xk,vj)

) 1m−1

]−1

até ‖Jnew − Jold‖ ≤ ε;

criada uma nova matriz,chamada Ucrisp, contendo os valores 0 ou 1. Cada

linha desta nova matriz tem 1 na posição do maior valor desta linha na matriz

U e 0 nas outras posições da linha. O algoritmo ckMeans muda o método de

calcular os protótipos, já que ele não utiliza a matriz U , e sim uma matriz

Ucrisp, que é obtida a partir de U , pela equação abaixo:

µcrispij =

µijc

maxl=1

µlj

, (3.12)

e o cálculo dos centros em ckMeans usa a matriz Ucrisp, na equação:

vj =

n∑i=1

µcrispijxi

n∑i=1

µcrispij

, 1 ≤ j ≤ c. (3.13)

No ponto de vista das funções do algoritmo, a versão intervalar não sofreu

nenhuma alteração em relação à versão pontual desse algoritmo. Porém,

43

em [27] foi proposta uma nova forma de atualizar a matriz de pertinência

intervalar, onde foi obtido um intervalo mais estrito, uma vez que a divisão

entre dois intervalos iguais não é necessariamente igual ao intervalo [1,1],

para obter isso, foi feita a seguinte substituição: toda vez que a divisão é

entre intervalos iguais é substituído pelo intervalo [1,1], ao invés de realizar

a divisão.Algoritmo 4: Algoritmo ckMeans Intervalar [29]Entrada: X - Conjunto de dados, c - número de grupos, ε

Dados: U - matriz de partição fuzzy

Saída: U e V

Inicialize U

repitaCalcular Ucrisp usando a Equação (3.12).

Calcular V com vi = [vi,vi],

vi =

∑nk=1(ucrispik)mxk∑nk=1(ucrispik)m

e vi =

∑nk=1(ucrispik)mxk∑nk=1(ucrispik)m

, (1 ≤ i ≤ c).

(3.14)

Atualizar a matriz de pertinência uik com

uik =

i−1∑j=1

(dI(xk,vi)

dI(xk,vj)

) 1m−1

+ [1, 1] +

(c∑

j=i+1

dI(xk,vi)

dI(xk,vj)

) 1m−1

−1

até ‖dI(Jnew,Jold)‖ ≤ ε;

Esse algoritmo encerra essa parte onde os métodos atuais de agrupamento

são apresentados. A próxima seção apresenta os métodos desenvolvidos nessa

tese.

44

Parte II

Métodos Propostos

45

Capítulo 4

Métodos Propostos para Dados

Intervalares

Neste capítulo, são apresentados algumas das contribuições deste traba-

lho. É fornecida uma plataforma para a realização de agrupamento com da-

dos intervalares, incluindo medida de distância, algoritmos de agrupamento

fuzzy e índices de validação. Para isso, é formalizada a ideia de uma distância

baseada em intervalos.

Em seguida, são apresentados as adaptações necessárias para denir dois

algoritmos de agrupamento fuzzy para dados baseado em intervalos, os quais

são inspirados pelos algoritmos FCM e ckMeans. Ainda neste capítulo, serão

apresentados os índices de validação adaptados para dados intervalares, CIh,

FSh e XBh.

Seja Ω = x1, · · · , xn um conjunto com n objetos, sendo cada objeto xk

descrito por s variáveis intervalares, obtém-se um vetor de intervalos xk =

(x1k, · · · , xsk), onde xjk = [xjk, xjk] ∈ I(R), para todo j = 1, · · · , s.

Considere um conjunto de c clusters que também podem ser representa-

dos por um vetor de intervalos vi = (v1i , · · · , vsi ), onde vji = [vji , v

ji ] ∈ I(R),

46

para todo j = 1, · · · , s.

De acordo com a Denição 2.18, podemos denir uma distância baseada

em intervalos, d : 〈I(R)+, [0, 0]〉s × 〈I(R)+, [0, 0]〉s −→ 〈I(R)+, [0, 0]〉.

Seja dV ID uma i-métrica descrita na Denição 2.18, assim a distância

baseada em intervalos para dados s-dimensionais pode ser denida como:

d(xk, vi) =

√√√√ s∑j=1

dV ID(xjk, vji )

2. (4.1)

que representa a distância do objeto xk para o protótipo vi, onde xk e vi são

representados como um vetor de intervalos.

Para utilizar dados intervalares são denidos alguns algoritmos de agru-

pamentos fuzzy. Na próxima seção, apresentamos as adaptações necessárias

para a construção da matriz de pertinência para intervalos, U, para trabalhar-

mos com distância baseada em intervalos que também carreguem o conceito

de representação intervalar [62].

4.1 Matriz de Pertinência Intervalar

Para trabalhar com algoritmos de agrupamentos fuzzy que utilizam dados

intervalares é preciso também que o grau de pertinência seja intervalar, µik.

Portanto, a matriz U , precisa ser adaptada. Assim, considere agora a

matriz de pertinência intervalar U = [uik] ∈ I([0, 1])n×c, onde I([0, 1]) = x ∈

I(R) | 0 ≤ x ≤ x ≤ 1. As restrições descritas nas Eqs. (3.4), (3.5) e (3.6)

47

podem ser adaptadas, respectivamente, para U nas seguintes equações:

uik ∈ I([0, 1]), (1 ≤ k ≤ n), (1 ≤ i ≤ c) (4.2)c∑

i=1

uik = [1, 1], (1 ≤ k ≤ n) (4.3)

n∑k=1

uik > [0, 0], (1 ≤ i ≤ c) (4.4)

Portanto, para ser capaz de utilizar a distância baseada em intervalos,

equação (4.1), duas importantes questões devem ser consideradas: é neces-

sário vericar se a equação (3.7) satisfaz todas as restrições descritas nas

equações (4.2), (4.3) e (4.4); e é necessário fazer adequações na equação (3.7)

para os casos em que 0 ∈ dik e dik 6= [0, 0].

Primeira questão. A m de obtermos uma adaptação para pertinência

intervalar, uik, a ideia geral é calcular o maior e menor valor possível de todos

os graus de pertinências exatos µik. Em outras palavras, para cada intervalo

obtido pela distância baseada em intervalos, o grau de pertinência pontual ,

µik, é calculado para cada um dos elementos que são utilizados para construir

o grau de pertinência intervalar: uik.

Para isso, é importante mencionar que o cálculo do grau de pertinência

µik na equação (3.7) não depende apenas da distância de xk para o protótipo

vi, mas também depende das distâncias de xk para todos os outros valores

do vetor V .

Ao adaptar a equação (3.7) para uma distância intervalar é usado o vetor

de todas as distâncias, Dk, entre xk e os protótipos de V . Este vetor está

no domínio de uma função que fornece a maior distância relativa para os

elementos do vetor V . Essa função retorna o conjunto com a maior distância

(limite superior do intervalo) entre o objeto xk para o i ésimo protótipo e

a menor distância (limite inferior do intervalo) para os demais elementos de

48

Dk. Da mesma forma, é possível denir uma função que fornece a menor

distância relativa.

Formalmente, considere Dk = [dik, dik]|i = 1, . . . , c como uma distân-

cia intervalar obtida pela equação (4.1) apartir de xk para um conjunto

de valores do vetor V . As funções gmin : 〈I(R)+, [0, 0]〉c −→ 〈R+, 0〉c e

gmax : 〈I(R)+, [0, 0]〉c −→ 〈R+, 0〉c são a menor e a maior distância rela-

tiva para cada protótipo, respectivamente, e podem ser denidos como se

segue:

gmin(Dk) = dik∪djk | j ∈ 1, . . . , i−1, i+1β, . . . , c | 1 ≤ i ≤ c1 (4.5)

gmax(Dk) = dik ∪ djk | j ∈ 1, . . . , i− 1, i+ 1, . . . , c | 1 ≤ i ≤ c (4.6)

Seja f uma função que calcula a matriz de pertinência fuzzy para da-

dos pontuais e F a melhor representação intervalar de f , ver [62], ou seja,

F (Dk) = [min f(Dk),max f(Dk)].

De acordo com [62], F é isotônica e retorna o intervalo ótimo contendo a

imagem de f . No entanto, a pertinência fuzzy uik (similaridade) deve diminuir

à medida que a distância (dissimilaridade) dik aumenta, em outras palavras,

uik < µip ⇐⇒ dik > dip, para todo k, p, i. Portanto, min f(Dk) é o mesmo que

f(maxDk). Como o algoritmo de agrupamento c-means aplica distância re-

lativa, o mesmo é feito aqui, ou seja,

max f(Dk) = f(minDk) = f(gmin(Dk)).

Para calcular as funções intervalares é necessário deni-las em termos dos

extremos. Para atingir isso, é preciso redenir a função F (Dk) = [f(gmax(Dk)), f(gmin(Dk))]

da seguinte forma: Substituindo gmax e gmin na Eq. (3.7) obtemos umaxik e

1Nota-se que gmin(Dk) é a imagem direta gmin sob Dk. O mesmo é válido para gmax(Dk).

49

uminik do seguinte modo.

uminik =

k−1∑j=1

(dikdij

) 2m−1

+

(dik

dik

) 2m−1

+c∑

j=k+1

(dikdij

) 2m−1

−1 ,(4.7)

umaxik =

[k−1∑j=1

(dik

dij

) 2m−1

+

(dik

dik

) 2m−1

+c∑

j=k+1

(dik

dij

) 2m−1

]−1.

(4.8)

Simplicando as equações acima, obtém-se:

uminik =1

k−1∑j=1

(dikdij

) 2m−1

+ 1 +c∑

j=k+1

(dikdij

) 2m−1

(4.9)

umaxik =1

k−1∑j=1

(dik

dij

) 2m−1

+ 1 +c∑

j=k+1

(dik

dij

) 2m−1

(4.10)

Observe que as equações (4.7) e (4.8) evitam a aplicação da divisão in-

tervalar, que é diferente de 1 sempre que os seus operados não são intervalos

degenerados. Por outro lado,dikdik

= dikdik

= 1, garantem que o denominador

será sempre maior do que 1, obtendo os valores no intervalo (0, 1).

Segunda questão. Para lidar com essa questão, é necessário incluir

os casos em que 0 ∈ dik e dik 6= [0, 0] no cálculo do grau de pertinência

intervalar. Assim, a matriz intervalar U = [uik], tal que uik = [uik, uik], pode

ser obtida seguindo a representação baseada em intervalos da equação (3.7).

50

Essa matriz pode ser obtida para todos os casos, como segue:

uik =

[uminik , umaxik ] ,se Ik = ∅ e Ek = ∅

[0, umaxik ] ,se Ik 6= ∅ e i /∈ Ik e Ek = ∅

[uminik , 1]

,se Ik 6= ∅ e i ∈ Ik e Ek = ∅ e |Ik| = 1[0, 1]

,se Ik 6= ∅ e i ∈ Ik e Ek = ∅ e |Ik| > 1[0, 0]

,se Ek 6= ∅ e i /∈ Ek e Ik = ∅[1

|Ek|,

1

|Ek|

],se Ek 6= ∅ e i ∈ Ek e Ik = ∅[

0,1

1 + |Ek|

],se Ik 6= ∅ e Ek 6= ∅ e i ∈ Ik[

1

|Ik|+ |Ek|,

1

|Ek|

],se Ik 6= ∅ e Ek 6= ∅ e i ∈ Ek

(4.11)

Onde: Ik = i|0 ∈ dik and dik 6= [0, 0] e Ek = i|dik = [0, 0], assim

como |Ik| e |Ek| são as cardinalidades desses conjuntos, respectivamente.

Em (4.11) observe que uik ∈ U não satisfaz a restrição da equação (4.3)

que é uma das condições do primeiro questionamento. De fato, considere

o conjunto de intervalos [a1, a1], . . . , [aj, aj], . . . , [ac, ac],c∑

j=1

aj =c∑

j=1

aj se

e somente se aj = aj ∀j. Em outras palavras, uma soma de intervalos é

degenerada se, e somente se, todos os intervalos são degenerados. Portanto,

embora esse aspecto não seja satisfeito, os aspectos principais do primeiro

questionamento são.

Diferente do informado em [29], a diferença entre as funções modicadas

(4.7) e (4.8) e a clássica (3.7) para intervalos, não é meramente obter um

intervalo mais estreito, mas a versão clássica não é adequada para dados

intervalos. Contudo, a intuição do autor em modicar a divisão intervalar

do termo dik/dik pelo intervalo degenerado [1, 1], se mostrou acertada, pois

a modicação de uma operação, nesse caso a divisão intervalar para uma

mais estreita, levanta alguns questionamentos sobre a corretude, e nenhuma

informação sobre as consequência disso foi apresentada pelo autor. De fato,

51

vericar a corretude das operações intervalares é uma das motivações desta

pesquisa, ao propor uma versão intervalar da matriz de pertinência seguindo

o paradigma da Representação Intervalar [18]. O outro fator que motivou

esta pesquisa é a falta de informação dos casos excepcionais da Equação (3.7),

em outras palavras, o trabalho [29] não fez a adaptação quando 0 ∈ dik para

algum i ou k.

As próximas seção descrevem os algoritmos de agrupamentos fuzzy base-

ados em intervalos.

4.2 Algoritmo Intervalar Baseado no Fuzzy C-

means - IbFcM

IbFcM é um método intervalar baseado no comportamento do algoritmo

fuzzy c-means (FCM). Possui a mesma estrutura do FCM, apresentada na

subseção 3.2.2, mas a principal diferença é que são estendidas todas as fun-

ções usadas em FCM para intervalos. Além disso, é criada uma matriz de

pertinência U que contém intervalos degenerados de U de tal modo que a

proporção entre todos os intervalos sejam preservados na nova matriz. Essa

nova matriz U tem sido denida desde que U não satisfaça uma restrição da

equação (4.3), como indicado na seção anterior.

Apesar de estarmos transformando a matriz de pertinência intervalar U

em uma pontual U, a principal diferença das outras propostas [18, 21, 20,

40, 67], com agrupamentos intervalares é o ponto em que é feito essa trans-

formação para pontual. Aqui é feito após o cálculo da matriz de pertinência

intervalar, diferentemente das outras propostas que realizam esse processo

quando é realizado o cálculo da distância. Assim, a incerteza presente nos

dados são preservadas mais que nos outros métodos, o que tem um efeito

52

positivo quando tratamos com a natureza imprecisa dos dados.

Portanto, a função objetivo intervalar é apresentada a seguir, equação

(4.12), e o cálculo dos centros na equação (4.14) foi adaptado para utilizar

U em vez da original U.

Jm(U, V ) =n∑

k=1

c∑i=1

wmikd(xk, vi)

2, (4.12)

onde: n é o tamanho dos dados intervalares; c é o número de clusters que o

algoritmo considera; m é o parâmetro de fuzzicação, sendo m > 1; wik é o

grau de pertinência (intervalo degenerado) que xk em vi; xk é o k-ésimo dado

intervalar; vi é o centro (intervalar) do i-ésimo agrupamento e d(xk, vi) é a

distância intervalar (i-métrica) entre xk e vi. O grau de pertinência intervalar

degenerado, wik é obtido de uik por uma função que preserva a proporção

entre os pontos extremos de todos os intervalos da matriz de pertinência.

Então, sejam uik e uir ∈ U para todo k 6= r. Considere agora wik e wir ∈ U

e α1, α2 ∈ R, podemos manter a proporção entre as extremidade, de tal

maneira que se [uik, uik] = [α1uir, α2uir], então wik = wir · (α1 +α2)/2 ∀k 6= r

e i = (1, . . . , n), de tal modo que∑c

k=1wik = 1. Essa função é descrita pela

equação 4.13.

Os passos principais do algoritmos são descritos a seguir:

53

Algoritmo 5: Algoritmo IbFCM [66]Entrada: X- Conjunto de Dados; c é o número de clusters; m é o

parâmetro de fuzzicação, m > 1;ε é uma constante

pré-determinada

Saída: U e V

Inicialize V repitaCalcular U, usando a equação 4.11;

Calcular U que contém intervalos degenerados usando U:

wik =

uik

2c∑

j=1

ujk

+uik

2c∑

j=1

ujk

,c∑

j=1

uik 6= 0

uikc∑

j=1

uij

, caso contrário;(4.13)

Calcular Jm usando a equação (4.12); Calcular o novo protótipo do

grupo j. O valor vi é um intervalo [vi, vi]:

vi =

∑nk=1w

mik xk∑n

k=1wmik

vi =

∑nk=1w

mik xk∑n

k=1wmik

; (4.14)

até max(||Jm,new − Jm,old|| ≤ ε);

54

4.3 Algoritmo Fuzzy Intervalar Baseado no Ck-

Means - IbckM

IbckM é um algoritmo baseado no ck-Means intervalar proposto em [27].

A principal diferença entre eles está na função que calcula os valores de per-

tinência. Ao contrário do ckMeans intervalar, em nosso algoritmo proposto,

consideramos os casos 0 ∈ dik e usamos a melhor representação intervalar da

função de pertinência pontual.

Assim como o ckMeans intervalar, o IbckM constrói Ucrip que é baseada na

U. No entanto, IbckM usa uma técnica diferente para comparar os intervalos.

A maioria das medidas à base de intervalo existentes não usam ordem total,

como em Moore [52] e Kulisch-Miranker [24].

Em [9, 10], os autores armam que uma ordem admissível pode ser utili-

zada para comparar qualquer par de intervalos. É basicamente uma ordem

total que estende a ordem de Kulisch-Miranker. Ao nal do processo de agru-

pamento é necessário atribuir um elemento para um cluster, o paradigma

fuzzy baseado em intervalos atinge altos valores de uik para cada xi, quando

uij ∈ U. Se faz necessário utilizar uma ordem total admissível e, neste caso,

a ordem lexicográca é uma opção.

Os passos principais são descritos a seguir:

55

Algoritmo 6: Algoritmo IbckM [66]Entrada: X- Conjunto de Dados; c é o número de clusters; m é o

parâmetro de fuzzicação, m > 1;ε é uma constante

pré-determinada

Saída: U e V

Inicialize V repitaCalcular U, usando a equação 4.11;

Calcular Ucrisp que contém valores 1 ou 0; Calcular Jm usando a

equação (4.15);

Jm(U, V ) =n∑

k=1

c∑i=1

(µcrispik)md(xk, vi)2, (4.15)

Calcular o novo protótipo do grupo j. O valor vi é um intervalo

[vi, vi]:

vi =

∑nk=1(µcrispik) xk∑nk=1(µcrispik)

vi =

∑nk=1(µcrispik) xk∑nk=1(µcrispik)

; (4.16)

até max(||Jm,new − Jm,old|| ≤ ε);

56

Observa-se que os valores da matriz Ucrisp são 1 ou 0 e que cada linha

desta nova matriz tem 1 na posição do maior valor desta linha na matriz U

e 0 nas outras posições da linha. Em seguida, é utilizada uma ordem total

admissível para comparar os intervalos.

Ao calcular Jm, utilizando a equação (4.15), note que existe uma pequena

diferença em relação ao algoritmo ckMeans intervalar [29]. No ckMeans in-

tervalar, ao calcular Jm, é utilizada U ao invés de Ucrisp. No entanto, ao

fazer isso, é impossível satisfazer todas as restrições da equação (4.3), como

já dito. Portanto, Ucrisp é usada em IbckM.

4.4 Validação de Agrupamentos Intervalares

Como já mencionado, algoritmos de agrupamento baseado em intervalos

tomam como entrada uma matriz de pertinência intervalar e produzem pelo

menos uma partição U. Neste caso, Ucrisp e U consistem em matreizes com

intervalos degenerados, para ambos algoritmos ckMeans baseados em inter-

valos e FCM baseado em intervalos, respectivamente. Assim, qualquer índice

de validação que leva que considera apenas U como entrada, como PC e PE,

pode ser usado diretamente com algoritmos de agrupamento fuzzy baseados

em intervalos.

No entanto, os índices de validação que consideram X ou V como en-

tradas, não podem ser aplicados diretamente em agrupamentos intervalares

devido à exigência de uma aritmética intervalar.

Por exemplo, C-índice, estimador de coesão, tem seus valores no intervalo

[0, 1] e, se a menor soma das distâncias de todos os pares (considerando todos

os grupos) for igual à soma das distâncias dos pares considerando apenas

objetos do mesmo agrupamento, então obtém-se o ajuste perfeito. Em outras

57

palavras, C-índice é igual 0.

Na aritmética intervalar de Moore, no entanto, é possível que para Y ∈

I(R), Y − Y 6= [0, 0] , uma vez que a adição padrão de Moore e a multipli-

cação não são operações invertíveis. Para contornar esse problema, tivemos

que encontrar algumas operações inversas que podem ser utilizadas aqui. A

diferença Hukuhara, proposta em [37], tem esse comportamento e será usada.

H-diferença é denido da seguinte forma:

AB = C ⇔ A = B + C. (4.17)

H-diferença é única, mas uma condição necessária para A B existir é

que A contenha a translação de B , ou B contenha uma translação de A.

Em muitas aplicações, isso pode ter muitas restrições. Em [68], o autor

generalizou H-diferença e H-divisão, as quais passaram a se chamar gH-

diferença e gH-divisão, denidas pelas equações (4.18) e (4.19) a seguir:

AgH B =C ⇐⇒

(i) A = B + C,

ou (ii) B = A+ (−1)C.(4.18)

A÷gH B =C ⇐⇒

(iii) A = B × C,

ou (iv) B = A× C−1.(4.19)

Ao utilizar gH-diferença, [a, a]g [b, b] = [c, c], onde [c, c] é sempre denida

por c = mina− b, a− b, e c = maxa− b, a− b.

Para gH-divisão é necessário considerar seis casos, descritos na denição

a seguir.

Denição 4.1 (gH-divisão) O intervalo A÷gB para A = [a, a] e B = [b, b]

com 0 6= B, é denido por:

Caso 1: Se 0 ≤ a e b < 0, então Se a.b ≥ a.b =⇒ A ÷g B =[ab, ab

]Se a.b ≤ a.b =⇒ A÷g B =

[ab, ab

];

58

Caso 2: Se 0 ≤ a e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B =[ab, ab

]Se a.b ≥ a.b =⇒ A÷g B =

[ab, ab

];

Caso 3: Se a < 0 e b < 0, então Se a.b ≤ a.b =⇒ A ÷g B =[ab, ab

]Se a.b ≥ a.b =⇒ A÷g B =

[ab, ab

];

Caso 4: Se a < 0 e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B =[a

b, ab

]Se a.b ≤ a.b =⇒ A÷g B =

[ab, ab

];

Caso 5: Se a ≤ 0, a ≥ 0 e b < 0, então a solução não depende de b.

A÷g B =[ab, ab

]e,

Caso 6: Se a ≤ 0, a ≥ 0 e 0 < b, então a solução não depende de b.

A÷g B =[a

b, ab

].

Seguem as versões intervalares dos índices, FS, XB e CI, e a distância

usatilizada é uma i-métrica, obtemos então d(X, Y ) ∈ I(R) com X, Y ∈ I(R)

e J =c∑

j=1

n∑i=1

µmijd(xi, vj)

2 ∈ I(R). Portanto, esses índices, usando as operações

de Hukuhara, são denidos a seguir:

1. FSh: Seja K =c∑

j=1

n∑i=1

µmijd(vj, v)2 ∈ I(R) com v =

[c∑

i=1

vic,

c∑i=1

vic

]. O

índice FSh utilizando as operações de Hukuhara é denido da seguinte

forma:

FSh =[minJ −K, J −K,maxJ −K, J −K

](4.20)

2. XBh Seja S = n ·mini 6=j

d(vi, vj)2 ∈ I(R) O índice XBh usando as opera-

ções de Hukuhara, é denido por:

Caso 0 /∈ J e 0 /∈ S:

XBh =

[J

S,J

S

]se J · S ≤ J · S e (iii) (4.21a)[

J

S,J

S

]se J · S ≥ J · S e (iv) (4.21b)

59

Caso 0 ∈ J e 0 /∈ S:

XBh =

[J

S,J

S

](4.22)

Note queXBh não é denida para todos os valores, principalmente para

a distância baseada em intervalos, é possível que 0 ∈ d(vi, vj). Para os

valores elevados de c é possível haver sobreposições dos centros, assim

0 ∈ d(vi, vj). Esta propriedade contribui para eliminar a tendência da

monotonicidade, que ocorre quando c cresce.

3. (CIh): Considerando S, Smin e Smax valores intervalares denidos na

equação 4.23. Assim sejam A e B como abaixo:

A =[minS − Smin, S − Smin; maxS − Smin, S − Smin

]B =

[minSmax − Smin, Smax − Smin; maxSmax − Smin, Smax − Smin

]O C-índece usando as operações de Hukuhara são denidos por:

Caso 0 /∈ A e 0 /∈ B:

CIh =

[A

B,A

B

]se AB ≤ AB e (iii) (4.23a)[

A

B,A

B

]se AB ≥ AB e (iv) (4.23b)

Caso 0 ∈ A and 0 /∈ B:

CIh =

[A

B,A

B

](4.24)

Dessa forma, foram apresentados os métodos de agrupamento fuzzy para

dados intervalares, bem como os índices utilizados nas análises que são exi-

bidas nessa tese. No próximo capítulo serão introduzidos os algoritmos para

dados híbridos que contém dados reais e intervalares.

60

Capítulo 5

Métodos Propostos para Dados

Híbridos

No mundo real podemos observar que exite uma grande variedade de tipos

de dados categóricos, numéricos, fuzzy, intervalares, etc. além de propostas

de medidas de similaridade para eles. No entanto, na maioria das vezes, os

dados obtidos envolvem mais de um tipo de dados, por exemplo um mesmo

dado pode conter CPF, Nome, Faixa de Renda. O que normalmente é feito

nesses casos é transformar os dados que possuem uma determinada natureza

para uma única natureza, a m de obter uma base de dados homogênea.

Esse tipo de transformação pode acarretar em perda de informação,(por

exemplo, imprecisão), ou no aumento do custo computacional. Assim, é ne-

cessário obter uma maneira de medir similaridade sem transformar os dados.

O que é geralmente encontrado na literatura de algoritmos para agrupa-

mento de dados híbridos são combinações de algoritmos que atuam em cada

campo do dado. Chandra [73] propôs um método de agrupamento híbrido,

Hierarchical Ordered Partitioning And Collapsing Hybrid (HOPACH), que

é uma árvore de clusters. Existem diversos outros trabalhos desse tipo na

61

literatura [55].

Em 2012, a pesquisa realizada em [56] mostrou que existem poucos mé-

todos que são capazes de extrair conhecimento a partir de dados híbridos.

O autor em questão lidou com dados híbridos que são compostos por da-

dos convencionais (numéricos e textuais) e dados geográcos (pontos, linhas

e polígonos). Além de desenvolver algoritmos capazes de lidar com dados

geográcos, o autor relata o problema encontrado ao trabalhar com dados

híbridos:

Algoritmos que sejam capazes de manipular diretamente ba-

ses de dados híbridas, sem um pré-processamento ou uma estru-

tura particular de representação destes dados, não foram encon-

trados na literatura. Uma base de dados híbrida é composta por

atributos convencionais (e.g. numéricos, textuais, lógicos) e não

convencionais (e.g. geográcos). Geralmente, os algoritmos que

manipulam dados híbridos adotam algum tipo de estrutura par-

ticular para representar os atributos não convencionais.[56]

Essa abordagem é alterada neste trabalho. Ao invés de aplicar-se uma

coersão nos dados para um único tipo e uma medida de similaridade, esse

trabalho propõe que aplique-se cada medida de similaridade ligada aos da-

dos originais a cada campo (o resultado, até aqui, serão números reais ou

intervalos) e em seguida transforma-se esses valores para intervalos a m de

aplicar i-métricas. Assim, o resultado dessas medições não será mais um

único número real, mas uma tupla de intervalos. Essa abordagem é funda-

mentada pelo teorema e pelos comentários do nal do capítulo 2. No nal

será aplicado o que chamamos de agregação de i-métricas a m de produzir

um único intervalo como medida de similaridade.

62

Na seção a seguir, apresentamos uma variação do algoritmo K-Means,

chamado K-Means Intervalar, para dados híbridos que contém dados inter-

valares e reais. E na seção 5.2, é apresentado um algoritmo intervalar híbrido

também baseado no K-Means, ou seja, busca-se trabalhar apenas com um al-

goritmo e dentro desse algoritmo utilizamos diferentes distâncias. Cada uma

ligada a um atributo em questão, por exemplo: se os dados são reais pode-se

utilizar a distância Euclidiana, se forem dados intervalares pode-se utilizar a

KM-distância, se forem strings pode-se utilizar a distância de Levenshtein.

5.1 Algoritmos Intervalares Baseados no K-Means

- IbKM

O K-Means é um algoritmo iterativo que repete dois passos: no primeiro

passo cada ponto é atribuído ao centróide mais próximo baseado em uma

métrica especíca escolhida; no segundo passo, uma vez que os grupos são

formados, os centróides de cada grupo são atualizados. Assim, o algoritmo

repete de forma iterativa esses dois passos até que os seus centróides não

mudem.

Sendo F (C), a função objetivo do K-Means Intervalar e seguindo o pa-

radigma de representação intervalar [62]. Assim, F (C) pode ser obtido por

F = [minSSE(C),maxSSE(C)] e pode ser chamado a melhor represen-

tação intervalar, pois possui a propriedade de inclusão e a de optimalidade

(optimality).

Portanto, a função objetivo baseada no intervalo é dada por:

F (C) =

[min

K∑k=1

∑xi∈Ck

dIMV(xi,vk)2; maxK∑k=1

∑xi∈Ck

dIMV(xi,vk)2

](5.1)

onde vk é o protótipo do grupo Ck.

63

O Algoritmo K-Means Intervalar inicializa seus centros aleatoriamente,

onde K é o número de grupos, então cada objeto é atribuido ao centro mais

próximo, para realizar essa decisão uma ordem admissível total é utilizada.

Em seguida é feita a atualização dos centroídes, sendo vk o novo centroíde

calculado pela equação (5.2), onde seu centro é um intervalo. Esse processo

se repete iterativamente até que uma tolerança, ε seja satisfeita.Algoritmo 7: Intervalar k-MeansEntrada: X - Conjunto de dados, K - números de grupos, ε -

tolerança

Saída: C = C1, . . . , CK

Inicializa aleatoriamente os K centros: v0 = v01, . . . , v0K

repitaClassique: Na iteração t, atribui cada objeto (i ∈ 1, . . . , N)

para o agrupamento com o protótipo mais próximo:

Ct(i)← arg minkdIMV(xi, vk)2 ; // Usando uma ordem

admissível total

Atualização do protótipos: vk é o centroide dos novos conjuntos:

vt+1k = [vt+1

k , vt+1k ] =

∑xi∈Ct

k

xi

| Ctk |

;

∑xi∈Ct

k

xi

| Ctk |

(5.2)

até ‖ct gH ct−1‖ ≤ ε;

64

Na próxima seção será apresentado o K-Means Intervalar Híbrido, dife-

rente do K-Means Intervalar ele não transforma os dados reais para dados

intervalares.

5.2 Algoritmo K-Means Intervalar Híbrido - IbKMH

Uma outra extensão para o algoritmo K-Means é obtida para trabalhar

com conjuntos de dados híbridos, neste caso, dados que contém atributos

intervalares e reais, e busca-se otimizar o tempo computacional do processo,

pois no caso de bases híbridas o que é usualmente realizado é uma trans-

formação de um tipo dado em outro para uma homogeneidade do conjunto

de dados. Por exemplo, quando utilizados dados reais e intervalares para

não perder as informações presentes nos dados intervalares é realizado uma

intervalização dos dados reais, ou seja, transformado em intervalos degene-

rados. Esse processo preserva as imprecisões presentes nesses dados porém

torna o processo muito mais caro computacionalmente. Assim uma forma

de trabalhar com dados híbridos sem a necessidade de intervalizar os dados

reais, por exemplo, é por meio de um algoritmo que seja capaz de identicar

o tipo de dado e assim utilizar a distância que é computacionalmente mais

adequada, ou seja, mais "barata".

Seja m < s. Um conjunto de dados híbridos x1,x2, . . . ,xn−1,xn,

onde cada objeto xi é descrito por s variáveis (m variáveis reais e s − m

variáveis intervalares), é representado como um vetor xi = (x1i , . . . , xsi ),

j ∈ 1, 2, . . . , s, com xji = [xji , xji ] ∈ IR sendo xji ,≤ xji , e x

ji ∈ R por j

pertencendo ao conjunto de atributos reais.

d(xi,vk) =

√√√√ s∑j=1

dIMVh(xj

i , vjk)

2. (5.3)

Assim, diferentemente do que é feito no algoritmo K-Means intervalar,

65

ao calcularmos a dIMVh, não é feita a transformação dos dados reais para

intervalos degenerados. Assim, o algoritmo IbKMH sofre a alteração entre

duas funções de distâncias quando se é calculada a dIMVh, sendo neste caso

é a dkm , 2.10, e a distância Euclidiana, de.

Ao vericar que podemos trabalhar com diferentes métricas em um algo-

ritmo, um novo estudo sobre funções de agregações para i-métricas é apre-

sentado na próxima seção, chamado agregação de i-métricas.

5.3 Agregação de i-métricas e Algoritmos Hí-

bridos

Primeiramente esta seção faz uma breve introdução sobre funções de agre-

gação de métricas, a seguir ela introduz a noção de função de agregação de

i-métricas e por m, provê um exemplo de uma função de agregação de i-

métricas.

A noção de função de agregação de métricas foi introduzida por Borsik e

Dobos [7], onde eles buscavam resolver o problema de fundir várias métricas

numa única. Em [57, 58, 59] Pradera et al. propuseram, no espírito de Borsik

e Dobos, uma solução geral para o problema da fusão de dados representados

por meio de uma família de distâncias generalizadas e de pseudo-distâncias.

Com o objetivo de fundir um número nito de distâncias, em [13] os auto-

res analisaram os operadores de agregação dados: máximo, média ponderada,

soma ponderada e norma euclidiana ponderada, de modo a aplicar algumas

de suas propriedades para a comparação de sequências biológicas. Em 2005,

os mesmos autores relacionaram os operadores de agregações com aplicações

para o problema do diagnóstico em medicina [12].

Em 2010 Mayor e Valero [49], ampliaram o trabalho original de Borsík e

66

Dobos [7] ao contexto de quase-métricas dando uma descrição geral de como

mesclar duas quase-métricas em um única, através de uma função que eles

nomearam como função de agregação de quase-métricas.

Em 2012, Massanet e Valero [48], estenderam o artigo [47] para o caso de

quase-métrica valorada na reta estendida.

Em 2013, Martin et al. [46] provaram o teorema do ponto xo para um

novo tipo de contrações, que foram chamadas de Φ-contrações projetivas, de-

nidas entre espaços quase-métricos, obtidas por meio das chamadas funções

de agregação quase-métricas.

No que segue, apresenta-se resumidamente o trabalho proposto por Borsik

e Dobos em 1981.

Denição 5.1 ([7]) Seja T um conjunto de índices. Seja d = (dt)t∈T uma

família de funções dt : A2t → Bt, em que (At)t∈T e (Bt)t∈T são coleções de

conjuntos. Dene-se as seguintes funções e conjuntos:

1. %d : (∏

t∈T At)2 →

∏t∈T Bt por %d(x, y))(t) = dt(x(t), y(t)) para cada

x, y ∈∏

t∈T At, t ∈ T , e

2. σd : (∏

t∈T At)3 → (

∏t∈T Bt)

3 por σd(x, y, z) = (%d(x, y), %d(x, z), %d(y, z))

para cada x, y, z ∈∏

t∈T At;

3. Ed = %d(x, x) : x ∈∏

t∈T At e Fd = %d(x, y) : x, y ∈∏

t∈T At, x 6=

y.

Teorema 5.1 Dados B ⊃ Im%d (onde Imf = f(x) : x ∈ X, para cada

mapeamento f : X → Y ) e uma função f : B → R, a função h = f %d é

uma métrica se, e somente se, as três seguintes condições são satisfeitas:

1. Ed ∩ Fd = ∅,

67

2. ∀x ∈ Im%d : f(x) = 0⇔ x ∈ Ed,

3. ∀x, y, z ∈ Im%d : (x, y, z) ∈ Imσd ⇒ f(x) 5 f(y) + f(z)

Nos termos do teorema e Denição anteriores, a função f é chamada agre-

gação de métrica. Esse Teorema caracteriza as propriedades que uma função

h deve possuir para ser uma agregação de métricas. A partir disto, vários

autores apresentaram propostas para a agregação de alguns tipos de métricas

generalizadas, por exemplo, E. Castiñeira, A. Pradera e E. Trillas propuseram

uma solução para o problema da agregação de métricas C-generalizadas, dis-

tâncias e pseudometricas S-generalizadas em [57, 59, 58]. Mais recentemente,

em [48], os autores apresentaram o conceito de agregação de quase-métricas.

Dessa forma, motivado pelo uso das i-métricas em dados intervalares e

dados híbridos que contém dados intervalares [66, 65, 64], e pelo trabalho

de Borsik e Dobos [7], é introduzida, a seguir, a noção de agregação de i-

métricas.

Denição 5.2 SejamI um conjunto nito de índices, Xi, di,Ωi∈I uma fa-

mília de espaços i-métricos com o mesmo IMV, Ω = 〈A,≤, R,⊥〉. Seja AI

o conjunto de todas as funções a : I → A. Se a ∈ AI , é utilizada a nota-

ção ai para representar a(i). Considere o conjunto X =∏

i∈I Xi, se x ∈ X

indica-se por xi o elemento xi, (x ∈ X signica que x(i) ∈ Xi,∀i ∈ I). De-

nindo a função %d : X × X → AI , onde %d(x, y) : I → A é denida por

%d(x, y)(i) = di(xi, yi). Uma função φ : AI → A é chamada agregação de

i-métricas para Ω sempre que a função φ %d : X ×X → A é uma i-métrica.

68

Teorema 5.2 Seja φ : AI → A uma função. Se φ satisfaz:

1. φ(a) = ⊥ ⇔ a : I → A, é denida por: ai = ⊥, ∀i ∈ I,

2. Dados ai ∈ AI e ε ∈ A, com ⊥Rε, ∀i ∈ I, aiRε⇔ φ(a)Rε

então, ela é uma função de de agregação de i-métricas.

Demostração:

Suponha que φ satisfaz (1) e (2).

Dada a família (Xi, di,Ω)i∈I de espaços i-métricos, vamos mostrar que

φ %d é uma i-métrica.

(i) Sejam x, y ∈ X. Se x = y então xi = yi, ∀i ∈ I ⇒ di(xi, yi) = ⊥,

∀i ∈ I, ou seja, %d(x, y)(i) = ⊥,∀i ∈ I, logo %d(x, y) = ⊥, portanto, de (1)

segue que φ %d(x, y) = ⊥. Agora, suponha que φ %d(x, y) = ⊥. De (1),

segue que %d(x, y) = ⊥ ⇔ di(xi, yi) = ⊥,∀i ∈ I ⇒ xi = yi,∀i ∈ I ⇒ x = y

(ii) φ %d(x, y) = φ %d(y, x), ∀ x, y ∈ X.

(iii) Suponha φ %d(x, y)Rε, para algum ⊥Rε. De (2) segue que ∀i ∈

I, di(xi, yi)Rε,. Assim, para cada li ∈ I, existe δi ∈ A, com ⊥Rδi, tal

que di(xi, zi)Rδi ⇒ di(xi, zi)Rε. Como A possui menor elemento separável,

temos que existe δ ∈ A, com ⊥Rδ, tal que δ ≤ δi,∀i ∈ I. Dessa forma, se

φ %d(y, z)Rε, então pela condição (2), temos que di(yi, zi)Rε, ∀i ∈ I, logo

di(yi, zi)Rδi, ∀i ∈ I ⇒ di(xi, zi)Rε, ∀i ∈ I ⇒ φ %d(x, z)Rε ou seja, vale a

desigualdade triangular de i-métrica, (Denição 2.18).

No que segue, apresentamos um exemplo de agregação de i-métricas e em

seguida um algoritmo que lança mão dessa agregação para lidar com dados

híbridos.

Proposição 5.1 Considere o IMV Ω = 〈I(R)+,≤KM ,∗, [0, 0]〉, e seja I =

1, 2, ..., n um conjunto nito de índices e a função φ : ΩI → Ω, denida

69

por φ(X1, · · · , Xn) = supX1, · · · , Xn. Essa função é uma agregação i-

métricas. Demonstração: Seja a = (X1, · · · , Xn) ∈ I(R)n,

1. Suponha que φ(a) = ⊥, ou seja, φ(Xi, · · · , Xn) = Sup(Xi, · · · , Xn) =

[0, 0]. Como [0, 0] é o menor elemento de I(R)+, então ∀i ∈ I, Xi =

[0, 0]. Se Xi = [0, 0], ∀i ∈ I, então Sup(Xi, · · · , Xn) = [0, 0].

2. Suponha que φ(X1, · · · , Xn)∗ ε, com [0, 0]∗ ε, ou seja, supX1, · · · , Xn ∗

ε. Assim, para todo i ∈ I, Xi ≤ supX1, · · · , Xn ∗ ε, logo Xi ∗

ε, ∀i ∈ 1, 2 · · · , n. Agora, suponha que Xi ∗ ε, ∀i ∈ 1, 2 · · · , n,

ou seja, Xi = [xi, xi] ∗= [e, e], assim xi < e, ∀i ∈ 1, 2 · · · , n logo

maxi∈1,··· ,nxi < e. Se e = 0, então xi = 0,∀i ∈ 1, 2 · · · , n, logo

maxi∈1,··· ,nxi = 0⇒ supX1, · · · , Xn = [maxi∈1,··· ,nxi,maxi∈1,··· ,nxi]∗

ε. Se e > 0, então xi < e,∀i ∈ 1, 2 · · · , n logo maxi∈1,··· ,nxi < e,

portanto supX1, · · · , Xn ∗ ε. QED

Dessa proposição pode-se denir um algoritmo híbrido baseado no K-

Means, chamado IbKMHsup, em que a função Sup é usada para agregar as

distâncias aplicadas em cada componente do dado híbrido. Ou seja, pode-

se aplicar o seguinte esquema de cálculo para dados híbridos exemplicado

abaixo:

Examplo 5.1 Imagine que se queira agregar dados com os atributos: string,

real e intervalar. Assumindo, respectivamente, as distâncias de Levenshtein,

dL, a euclidiana, de, além da i-métrica KM, pode-se pensar no seguinte es-

quema de cálculo de distâncias usando a agregação de i-métricas sup:

70

Segue o algoritmo utilizando a função Supremo.

71

Algoritmo 8: K-Means Híbrido utilizando a função de agregação i-

métricas - supremoEntrada: X - Conjunto de dados, K - números de grupos, ε -

tolerança

Saída: C = C1, . . . , CK

Inicializa aleatoicamente os K centros: v0 = v01, . . . , v0K

repitaClassique: Na iteração t, atribui cada objeto (i ∈ 1, . . . , N)

para o agrupamento com o protótipo mais próximo:

Ct(i)← arg minksupX1, X2, · · · , XN

Atualização do protótipos, usando a média dos objetos de cada

grupo. Utiliza-se de para dados reais e dIMV para dados

intervalares.até ‖Ct gH Ct−1‖ ≤ ε;

Esse capítulo introduziu o conceito de agregação de i-métricas, propôs

um esquema de utilização de duas agregações através do supremo e forneceu

um algoritmo para aplicar essa agregação em agrupamento de dados.

72

Parte III

Experimentos e Resultados

Obtidos

73

Capítulo 6

Experimentos e Resultados

Este capítulo apresenta uma análise dos experimentos. Ele é dividido

em dois momentos. Primeiramente, nesta análise a distância dkm é aplicada

aos dois algoritmos de agrupamento fuzzy propostos: IbFcM e IbckM. Além

disso, usamos o parâmetro de fuzzicação nos algoritmos fuzzy, m, igual a 2 e

o critério de parada de [1e−4, 1e−4]. E mais, a ordem lexicográca é utilizada

para comparar os intervalos, quando necessário. Para ns de comparação,

nos algoritmos fuzzy também será usada uma outra distância baseada em

intervalos, proposta em [29]. Além disso, vamos comparar os resultados

obtidos por esses métodos com alguns trabalhos existentes na literatura.

Na metodologia de índices internos, calculamos o número ideal de grupos

para cada índice interno. Este número ideal de grupos representa o melhor

valor ao longo de todas as partições obtidas pelo algoritmo de agrupamento,

para cada índice interno.

Para obtermos esse número ideal de grupos, variamos o número de grupos

c sendo, cmin ≤ c ≤ cmax, e para todos os conjuntos de dados o valor mínimo

de C é igual a 2 e o valor máximo para c é igual a 10, cmin = 2 e cmax = 10.

Em seguida, selecionamos o número de grupos com o melhor valor do índice.

74

Por m, são realizados 31 diferentes execuções e o número ideal de grupos é

aquele com maior frequência.

Um teste estatístico foi aplicado, chamado o teste de hipótese (teste-t)

[27]. Esse teste é utilizado neste trabalho para determinar se dois conjuntos

de dados são signicativamente diferentes um do outro. Para realizarmos

esse teste, um conjunto de amostras (resultado dos classicadores), obtidos

a partir de dois métodos, deve ser utilizado para calcular o erro, a média e

o desvio padrão. Com base nas informações fornecidas, juntamente com o

número de amostras, a diferença da signicância entre os dois conjuntos de

amostras, baseado no grau de liberdade (α), é denido. O nível de conança

adotada é de 95% (α = 0, 05)

No segundo momento são avaliados os algoritmos IbKM, IbKMH e IbKMHsup,

sendo a principal análise relacionada ao custo computacional entre as diferen-

tes formas de tratar os dados híbridos que contém atributos dos tipos reais

e intervalares.

Assim, de uma forma geral, os resultados obtidos pelos algoritmos de

agrupamento são avaliados utilizando o índice externo chamado Corrigido

Rand (CR). Este índice não sofre adaptações para lidar com dados baseados

em intervalos. Nesta metodologia, realizamos 100 repetições e, em seguida,

os valores de CR são calculados. Para cada repetição o melhor, a média e o

desvio-padrão dos valores (std) são selecionados. Outra forma de avaliar a

qualidade dos agrupamentos utilizando apenas os dados originais (instâncias

ou matriz de similaridade) é usando os índices internos.

Os algoritmos foram implementados em Python (www.python.org) usando

a biblioteca MPMATH (Http://docs.sympy.org/dev/modules/mpmath) para

representar os dados intervalares. Tivemos que ter cuidado ao usar o ordem

padrão de biblioteca MPMATH, pois a mesma utiliza a ordem de Kulisch-

75

Miranker. Em nossos métodos propostos é usada a ordem lexicográca a

qual estende a ordem Kulisch-Miranker.

6.1 Conjuntos de Dados

Usamos 7 conjuntos de dados, sendo 4 conjunto de dados sintéticos e 3

reais, os quais são: 2Dim, 3Dim, 5Dim, Sun, temperatura, peixe e carro.

Para o caso dos dados híbridos temos as bases sintéticas: 10R90I, 30R70I,

50R50I, 70R30I e 10R90I que foram geradas através do experimento Monte

Carlo. E uma base real híbrida: carro.

6.1.1 Conjuntos de Dados Sintéticos Intervalares

Recriamos o conjunto de dados propostos em [11] para testarmos os algo-

ritmos propostos, para tal são utilizados quatro conjuntos de dados articiais

dos sete propostos em [11]: 2Dim, 3Dim, 5Dim e Sun. Nos conjuntos de dados

3Dim e 5Dim, ao contrário do que foi em [11], o número de pontos utilizados

é 300. A Tabela 6.1 apresenta uma breve descrição dos conjuntos de dados

articiais utilizados em nossos experimentos.

Tabela 6.1: Descrição das quatros bases articiais

Base de dados Número de Número de Número de

nome pontos grupos dimensões

2Dim 200 2 2

3Dim 300 4 3

5Dim 300 4 5

Sun 195 5 2

A Figura 6.1 ilustra uma representação gráca dos conjuntos de dados

76

2Dim e Sun. Onde o conjunto de dados 2Dim consiste em dois grupos de 200

pontos de dados em cada grupo, linearmente separados em duas dimensões.

O conjunto de dados Sun consiste em cinco grupos orientados de diferentes

formas. Esse conjunto de dados contém 195 pontos em duas dimensões.

Figura 6.1: Ilustra os conjuntos de dados 2Dim e Sun.

A Figura 6.2, representa gracamente os conjuntos de dados 3Dim e 5Dim,

onde o conjunto de dados 3Dim consiste em quatro grupos de tamanhos iguais

dispostos nos vértices de um tetraedro em um espaço tridimensional. Ambos

os conjuntos de dados contêm 300 pontos. Finalmente, no conjunto de dados

5Dim, os grupos são de vários formatos e tamanhos, em um espaço com cinco

dimensões.

6.1.2 Conjuntos de Dados Sintéticos Híbridos

Inicialmente, um conjunto de dados clássicos quantitativos no R10 são

gerados através de uma distribuição normal. Esse conjunto de dados contém

500 pontos dispersos em cinco classes de tamanhos iguais. Deste conjunto de

dados foram criados cincos conjuntos de dados híbridos (real-intervalar).

77

Figura 6.2: Ilustra os conjuntos de dados 3Dim e 5Dim.

Os cincos conjunto de dados híbridos possuindo 10 %, 30%, 50%, 70%

ou 90% de dados reais, são nomeados por: 10R90I, 30R70I, 50R50I, 70R30I

e 90R10I. Para os conjuntos de dados híbridos, cada ponto xi do conjunto

de dados clássicos quantitativo é usado como "semente"para tipo intervalo,

denido como [xi − zi/2, xi + zi/2] onde o parâmetro zi foi selecionado alea-

toriamente do intervalo [1, 5].

Na estrutura de simulação chamada Monte Carlo, 100 replicações são

consideradas para cada conjunto de dados. A média do índice Correct Rand

é calculada entre estas 100 replicações. Em cada replicação um método de

agrupamento é executado 100 vezes e o melhor resultado é selecionado de

acordo com o critério do método.

6.1.3 Conjuntos de Dados Reais

1. Temperatura: O conjunto de dados temperatura foi proposto origi-

nalmente em [33], esse conjunto representa a temperatura em diferentes

cidades ao redor do mundo. Essas cidades foram colocadas em grupos

usando o conhecimento de um especialista. O que resultou em qua-

tro conjuntos de cidades, [33]. As cidades pertencentes ao grupo 1 são

78

localizados entre 0 e 40 graus de latitude e as cidades que estão clas-

sicados no grupo 2 estão localizados entre 40 e 60 graus de latitude.

Maurício e Teerã são classicados como membros das classes 3 e 4, res-

pectivamente. Tabela 6.2 apresenta a distribuição de cluster baseado

no observador humano, que originalmente criou este conjunto de dados.

Tabela 6.2: Classicação do conjunto de dados Temperatura

No dos Grupos Nomes

I Bahraim Bombay Cairo Calcutta Colombo

Dubai Hong Kong Kula Lampur Madras

Manila Mexico Nairobi New Delhi Sydney

II Amsterdam Athens Copenhagen Frankfurt

Geneva Lisbon London Madrid Moscow Munich

New York Paris Rome San Francisco Seoul

Stockholm Tokyo Toronto Vienna Zurich

III Mauritius

IV Tehran

Para cada cidade (instância), temos 12 atributos intervalares e cada

um representa o mínimo e o máximo da temperatura da cidade em um

mês especíco.

2. Carros: O conjunto de dados carro considera um conjunto de 33 mo-

delos de carros descritos por oito variáveis intervalares e uma variável

categórica. É dividido em quatro classes: utilitário, berlina, esportivo e

de luxo, com 10, 8, 8 e 7 instâncias, respectivamente, conforme descrito

na Tabela 6.3. O valor das variáveis intervalares são preço, capacidade

do motor, velocidade, aceleração, step, comprimento, largura e altura.

79

Tabela 6.3: Descrição do conjunto de dados Carro

Variáveis Potência do Motor ... Altura Categoria

Alfa 145 [1370, 1910] ... [143, 143] Utilitário

Alfa 156 [1598, 2492] ... [142,142] Sedam

... ... ... ... ...

Porsche 25 [3387, 3600] ... [131,131] Esportivo

Rover 25 [1119, 1994] ... [142,142] Utilitário

Passat [1595, 2496] ... [146,146] Luxuoso

Nessa base, 4 variáveis são intervalos degenerados. Dessa forma, está

base também será utilizada no experimento com bases híbridas. Assim,

seus intervalos degenerados serão representados por um número real

sem que haja perda de informações.

3. Peixe: O conjunto de dados peixe representa 12 espécies de água doce,

onde cada espécie de peixe é descrita por 13 variáveis intervalares, são

estas: comprimento, peso, músculo, intestino, estômago, brânquias, fí-

gado, rins, fígado/muscular, rins/muscular, brânquias/muscular, intes-

tino/muscular e estômago/muscular. Essas espécies são agrupadas em

quatro classes: carnívoros, detritívoros, onívoros e herbívoros. A clas-

sicação original é apresentada na tabela 6.4, e é indicado pelo suxo

associado à denominação espécie de água doce.

80

Tabela 6.4: Classicação do conjunto de dados Peixe

Classes Espécies de Peixe

Carnivorous 1-Ageneiosusbrevili

2-Cynodongibbus

3-Hopliasa mara

4-Potamotrygonhystrix

Detritivorous 7-Dorasmicropoeus

8-Platydorascostatus

9-Pseudoancistrusbarbatus

10-Semaprochilodusvari

Omnivorous 5-Leporinusfasciatus

6-Leporinusfrederici

Herbivorous 11-Acnodonoligacanthus

12-Myleusrubripinis

6.2 Resultados Obtidos com Dados Intervala-

res

Como dito anteriormente, nesta análise empírica, os algoritmos fuzzy de

agrupamento propostos usam as distâncias intervalares adaptadas neste tra-

balho ( IbckMdkm , IbFcMdkm) e a distância à base intervalo proposta por

Vargas em [27] (IbckMdI , IbFcMdI ). Os resultados obtidos são expostos a

seguir.

81

6.2.1 Conjuntos de Dados Sintéticos

Nesta subseção, são apresentados os resultados dos algoritmos fuzzy de

agrupamento quando aplicados aos conjuntos de dados articiais: 2Dim,

3Dim, 5Dim e Sun. A Tabela 6.5 apresenta os resultados dos valores de

média dos CR e desvio padrão obtidos pelos dois algoritmos agrupamento

propostos (IbckM e IbFcM), utilizando a distância proposta dkm e a distân-

cia proposta em [27]. Todos os valores estão relacionados com os conjuntos

de dados sintéticos, 2Dim, 3Dim, 5Dim e Sun. Nesta tabela, os números

em negrito representam os melhores valores do CR que são estatisticamente

signicativos em relação aos outros valores do CR.

Tabela 6.5: Resultado dos algoritmos de agrupamento intervalares para os

conjuntos de dados sintéticos- Média(Std)

Algoritmos 2Dim 3Dim 5Dim Sun

IbckMdkm 1 0.820184 0.762843 0.897907

(0) (0.188877) (0.195350) (0.130803)

IbFcMdkm 1 1 0.908170 0.911790

(0) (0) (0.127516) (0.091005)

IbckMdI 1 0.816693 0.771111 0.897520

(0) (0.195730) (0.200871) (0.153709)

IbFcMdI 1 1 0.843905 0.924147

(0) (0) (0.1661116) (0.098020)

Da Tabela 6.5, pode-se observar que todas as quatro versões dos algorit-

mos propostos são capazes de produzir boas partições de dados intervalares,

já que os valores de CR correspondentes estão perto de 1 (as partições ob-

tidas estão perto da partição ideal). Para o conjunto de dados 2Dim, por

exemplo, foram obtidos valores do CR iguais a 1, para todas a versões pro-

82

postas dos algoritmos. Esse conjunto de dados pode ser considerado como

simples e a partição ideal pode ser facilmente obtida (classes são facilmente

separáveis). Para os outros três conjuntos de dados, apesar de não obterem

os valores dos CR iguais à 1 em todas as versões, são 1 ou muito próximo de

1. É importante notar que, no caso em que a nossa distância proposta, dkm ,

não alcançou o maior valor do CR (conjunto de dados Sun), forneceu valores

elevados do CR.

A análise estatística é feita utilizando o Teste t de Student, onde os resul-

tados são considerandos signicativos quando os valores de p são inferiores a

0,05. O teste foi realizado comparando o desempenho dos algoritmos, IbckM

e IbFcM, as duas primeiras linhas da Tabela 6.6, e das distâncias dkm e di,

as duas últimas linhas da Tabela 6.6. Nesta tabela, os números em negrito

representam os valores estatisticamente signicativos.

Tabela 6.6: p-valores para Teste t de Student's para os conjuntos de dados

sintéticos2Dim 3Dim 5Dim Sun

IbckMdkm × IbFcMdkm 1 6,240E-018 2,754E-009 0,384

IbckMdI × IbFcMdI 1 1,73E-017 0,0057 0,145

IbckMdkm × IbckMdI 1 0,898 0,768 0,984

IbFcMdkm × IbFcMdI 1 1 0,002 0,356

Tabela 6.7: p-valores para Teste t de Student's para os conjuntos de dados

sintéticos

A partir da tabela 6.6, podemos observar que a hipótese nula foi rejeitada,

na maioria dos casos. Em outras palavras, não há evidência estatística al-

guma para armar em que o desempenho dos dois algoritmos são diferentes,

para a maioria dos casos analisados. Nas duas primeiras linhas da Tabela

6.6, quando se comparam os algoritmos propostos, foi comparado o primeiro

83

algoritmo, IbckM, contra o segundo, IbFcM. Portanto, se o valor p é menor

que 0,05, isso signica que o primeiro algoritmo é estatisticamente diferente

do segundo. Podemos observar que o desempenho dos algoritmos de agrupa-

mento são diferentes em 4 casos analisados (de 8), a partir de um ponto de

vista estatístico. Neste caso, foram comparados os resultados do IbFcM com

IbckM em casos de dois-a-dois, usando as duas distâncias. Como resultado,

pode-se observar que o desempenho de IbFcM foi estatisticamente maior do

que IbckM em quatro casos, para os conjuntos de dados 3Dim e 5Dim. Nos

quatro casos restantes,ambos os algoritmos tiveram desempenho semelhante,

a partir de um ponto de vista estatístico.

Na comparação entre as duas distância intervalares, dkm e di, as duas

últimas linhas da Tabela 6.6, podemos observar um cenário diferente, em

que ambos os algoritmos proporcionam um desempenho semelhante, na mai-

oria dos casos analisados, a partir de um ponto de vista estatístico. A única

exceção é o conjunto de dados 5Dim, em que a distância proposta dkm pro-

porciona desempenho superior a distância di, usando o algoritmo IbFcM, a

partir de um ponto de vista estatístico.

Agora, a tabela 6.8 apresenta os resultados dos índices internos para os

conjuntos de dados sintéticos. Nesta tabela, representamos o número ideal de

grupos para cada índice interno. Os números entre parênteses representam o

número de vezes que o número ideal de grupos foi selecionado. Por exemplo,

5 (22), para o conjunto de dados Sun com o índice de CR, arma que o

número ideal de grupos é 5, e este número foi selecionado 22 vezes, das 31

corridas. A última linha desta tabela mostra o número total de vezes em

que o número ideal de grupos representa o número correto de classes. E na

última linha desta tabela, os números em negrito representam os índices que

obtiveram os valores corretos em todos os conjuntos de dados.

84

Tabela 6.8: Número de grupos preferidos para vários índices de validação dos

dados sintéticos.Dados Classes CR CIh FSh MPC PC PE XBh

2Dim 2 2(31) 2(31) 4(9) 2(31) 2(31) 2(31) 2(31)

3Dim 4 4(31) 4(31) 4(29) 4(31) 4(31) 4(31) 4(31)

5Dim 4 4(21) 4(21) 6(12) 4(21) 2(31) 2(31) 4(13)

Sun 5 5(22) 5(22) 4(26) 4(28) 4(31) 2(31) 5(22)

Total 4 4 1 3 2 2 4

A partir desta tabela, podemos ver que os melhores índices de desempenho

global para os quatro conjuntos de dados sintéticos foram CR, CIh e XBh. É

importante notar que os índices CR, CIh eXBh obtiveram 100% de acurácia,

selecionando o número correto de classes em todos os 4 conjuntos de dados

articiais.

Por outro lado, o índice MPC selecionado corretamente o número ideal de

grupos em 3 conjuntos de dados (2Dim, 3Dim 5Dim e conjuntos de dados),

atingindo 75% de acurácia, o que é um resultado signicativo. Contudo, os

índices de PC e PE alcançam apenas 50% de acurácia e o índice FS obteve

um baixo desempenho obtendo apenas 25% dos casos. É importante salien-

tar que dois dos índices interno propostos, forneceram as maiores acurácias.

Mostrando que a adaptação intervalar proposta é positivo para os índices

CIh e XBh.

6.2.2 Conjuntos de Dados Reais

Nesta subseção, são mostrados os resultados dos algoritmos de agrupa-

mento, quando aplicados a três conjuntos de dados com valores reais inter-

85

valares. São eles: temperatura, peixes e carro. A Tabela 6.9 mostra os

resultados dos valores do CR, média e o desvio padrão, obtidos com a dis-

tância dkm, e a distância proposta em Vargas [27], quando aplicados aos dois

algoritmos de agrupamento propostos (IbckM e IbFcM).

Tabela 6.9: Resultado dos algoritmos de agrupamentos intervalares para os

dados reais.Temperatura Peixe Carro

Algoritmos Melhor Melhor Melhor

Média (std) Média (std) Média (std)

IbckMdkm 0.915846 0.767278 0.724621

0.561(0.161277) 0.299(0.190870) 0.584(0.080535)

IbFcMdkm 0.657397 0.767278 0.680207

0.477(0.109553) 0.299(0.157102) 0.622(0.042386)

IbckMdI 0.883152 0.621656 0.680207

0.502(0.091141) 0.224(0.124540) 0.575(0.100857)

IbFcMdI 0.517390 0.558931 0.680207

0.455(0.066153) 0.266(0.110088) 0.566(0.020559)

Na Tabela 6.9, podemos observar que a distância proposta, dkm, obteve

excelentes resultados, proporcionando o maior CR em todos os casos estu-

dados, quando comparada com a distância di. Em particular, o algoritmo

IbckM usando a distância dkm, pode ser visto como a melhor opção, neste

trabalho, uma vez que forneceu o maior valor do CR em todos os conjuntos

de dados reais utilizados nesta análise empírica.

A tabela 6.10 apresenta os p-valores obtidos quando aplicado o teste es-

tatístico. Consideram-se os resultados signicativos quando os valores de p

são inferiores a 0,05. Nesta tabela, os números em negrito representam os

valores estatisticamente signicativos. Similar ao conjunto de dados artici-

86

Tabela 6.10: p-valores para o Teste t de Student's para os conjuntos de dados

reaisPeixe Carro Temperatura

IbckMdkm × IbFcMdkm 0,969 3,545E-005 0,000002

IbckMdI × IbFcMdI 0,0129 0,424 4,63E-005

IbckMdkm × IbckMdI 0,00126 0,486 0,0016

IbFcMdkm × IbFcMdI 0,0798 8,609E-025 0,0915

ais, o teste foi realizado comparado o desempenho dos algoritmos, IbckM e

IbFcM, e das distâncias utilizadas dkm e di. No geral, a partir da Tabela 6.10,

podemos notar que a hipótese nula foi rejeitada em 8 dos 12 casos analisados.

Ao comparar os algoritmos propostos com as duas distâncias, as duas

primeiras linhas da Tabela 6.10, podemos observar que o desempenho dos

algoritmos foram estatisticamente diferentes em 4 casos (de 6 casos). Especi-

almente, podemos observar que o desempenho de IbckM foi estatisticamente

superior ao IbFcM em todas as duas distâncias para conjunto de dados tem-

peratura. Para os outros dois conjuntos de dados, IbckM foi estatisticamente

superior ao IbFcM em um caso, dkm para o conjunto de dados carro e di para

o conjunto de dados peixe. Portanto, com base nos resultados obtidos, pode-

se armar que o IbckM forneceu melhor desempenho, quando se analisa o

índice CR, do que o outro algoritmo proposto, IbFcM, para os conjuntos de

dados analisados.

Na comparação entre as duas distâncias intervalares, dkm e di, as duas

últimas linhas da Tabela 6.10, podemos observar que há diferença de desem-

penho em três casos (um caso para cada conjunto de dados), de 6, em que o

algoritmo de agrupamento usando dkm proporcionou maior desempenho do

que os que usam di. Além disso, podemos observar que a escolha da distância

87

tem um maior impacto no desempenho do IbckM, uma vez que proporcio-

nou resultados estatisticamente signicativos em dois casos (terceira linha da

Tabela 6.10).

A tabela 6.11 contém os resultados dos índices internos sobre os dados

reais. A mesma metodologia da subseção anterior é adotada aqui. A última

linha desta tabela apresenta o número de vezes que cada índice seleciona o

número de classes como o número ideal de grupos.

Tabela 6.11: Números preferidos de grupos para vários índices de validação

nos conjuntos de dados reais

Dados Classes CR CIh FSh MPC PC PE XBh

Peixe 4 5(8) 8(11) 10(27) 10(24) 10(24) 10(22) 10(21)

Carro 8 4(29) 6(15) 6(9) 3(31) 2(31) 2(31) 10(26)

Temperatura 4 2(30) 4(25) 10(9) 2(21) 2(31) 2(31) 3(15)

Total 0 1 0 0 0 0 0

Ao contrário dos conjuntos de dados articiais, o número ideal de grupos

denidos pelos índices internos não corresponde ao número correto de gru-

pos para as bases de dados reais, na maioria dos casos. Esse é um resultado

esperado uma vez que o procedimento de agrupamento é geralmente feito

por um especialista e usando algumas instâncias. Esses fatos podem fazer

deste procedimento uma tarefa difícil. Para o conjunto de dados de tempe-

ratura, por exemplo, temos dois grupos solitários (grupos com apenas uma

instância) e esta partição é muito difícil de conseguir. Além disso, o CIh é

o único índice interno que escolhe com sucesso 4 grupos para o conjunto de

dados temperatura, que é o único resultado correto na Tabela 6.11. Existem

estudos na literatura, [23] por exemplo, que utilizam o conjunto de dados de

temperatura, com apenas duas classes, o que pode parecer ser um resultado

mais plausível. Isso é justicado pelo fato de que o número ideal de grupos

88

igual a 2 foi selecionado por quatro índices internos em Tabela 6.11.

6.3 Análise Comparativa Para Dados Interva-

lares

Para avaliar o desempenho dos algoritmos propostos, também realizamos

uma análise comparativa das abordagens propostas com algoritmos existen-

tes na literatura. Para esta análise, foi utilizado o melhor valor do CR obtido

a partir de 100 repetições. Ao contrário da análise anterior, usamos o melhor

valor do CR, onde só encontramos o melhor valor do CR da literatura dos

algoritmos analisados. A m de realizar uma comparação justa, nós também

apresentamos o melhor valor do CR dos algoritmos propostos. Nas tabelas

6.12 e 6.13, são apresentados os valores do CR obtidos pelos algoritmos de

agrupamento em que foram aplicados para os conjuntos de dados tempera-

tura, carro e peixe, respectivamente.

89

Tabela 6.12: Resultados dos algoritmos de agrupamentos baseados em inter-

valos para o conjunto de dados Temperatura.

Algoritmos CR

IbFcMdkm 0.657

IbckMdkm 0.915

IbFcMdI 0.517

IbckMdI 0.657

IFCM [18] 0.46

IFCMADC [18] 0.50

ICAE[40] 0.47

ICAH[40] 0.49

IFKCN-FD[17] 0.285

IFCM-NAD[17] 0.257

IFKCN-WD[17] 0.271

IFCM-AD[17] 0.345

Na Tabela 6.12, podemos observar que os métodos propostos obtiveram

resultados promissores, oferecendo os mais altos CR's, de todos os métodos

analisados. Acreditamos que, como usamos uma distância intervalar para

dados intervalares, representamos de forma mais eciente a imprecisão dos

dados intervalares, o que foi conrmado na tabela 6.12. Note que o CR obtido

pelo algoritmo IbckMdkm é de 0,915 e o melhor CR encontrado na literatura,

é de 0,50, [18].

Em outras outras palavras, obtivemos uma diferença nos valores de CR

de 0,415 entre o CR obtido pelo método proposto e o CR encontrado na

literatura, [18]. É importante ressaltar que todos os valores obtidos por

todas as quatro congurações propostas obtiveram maiores valores de CR do

90

que todos os métodos comparados.


valos para o conjunto de dados Carro.

Algorithms Carro CR

IbFcMdkm 0.680

IbckMdkm 0.725

IbFcMdI 0.680

IbckMdI 0.680

IFCMADC [18] 0.52

IFKCN-FD[17] 0.110

IFCM-NAD[17] 0.097

IFCM-L1[19] 0.392

IFCM-L2[19] 0.254

IFCM-H[19] 0.402

IAFCM-L1[19] 0.499

IAFCM-L2[19] 0.525

IAFCM-H[19] 0.562

A Tabela 6.13 ilustra os melhores valores do CR para o conjunto de da-

dos Carro. Novamente, podemos observar que todos os quatros algoritmos

obtiveram maiores valores do CR do que todos os algoritmos existentes ana-

lisados. É importante destacar que mesmo a pior abordagem proposta, 0,68

(IbFcMdkm), obteve CR maior que todos os algoritmos analisados, cerca de

12% maior do que o melhor algoritmo existente, IAFCM-H,[19].

Finalmente, a Tabela 6.14 ilustra os valores do CR para o conjunto de

dados peixe. Os resultados nesta tabela mostram que, mais uma vez, a

qualidade das partições obtidas de todos os quatro métodos propostos são

91


valos para o conjunto de dados Peixe.

Algoritmos Peixe CR

IbFcMdkm 0.767

IbckMdkm 0.767

IbFcMdI 0.559

IbckMdI 0.622

IFCMADC [18] 0.5

IFKCN-FD[17] 0.209

IFCM-NAD[17] 0.116

IFCM-L1[19] 0.033

IFCM-L2[19] -0.14

IFCM-H[19] -0.0002

IAFCM-L1[19] 0.157

IAFCM-L2[19] 0.274

IAFCM-H[19] 0.396

maiores do que todas os outros algoritmos comparados. Para as melhores

abordagens propostas, IbFcMdkm e IbckMdkm , a melhoria nos valores do CR

é em torno de 26%, quando comparados com o melhor algoritmo existente,

IFCMADC [18].

Em síntese, para todas as bases de dados reais intervalares, os resultados

obtidos mostraram que o CR das abordagens propostas, superou todos os

algoritmos existentes na literatura, em todos os casos. Esses resultados são

promissores, uma vez que podem serem vistos como uma maneira ecaz para

tratar conjunto de dados intervalares. O uso de mais conjuntos de dados

e também dados híbridos do tipo real-intervalar e uma análise comparativa

92

mais ampla são uns dos objetivos desta tese. Assim o próximo capítulo trata

de dados híbridos do tipo real-intervalar.

6.4 Análises e Resultados Obtidos com os Al-

goritmos IbKM, IbKMH e IbKMHsup

Para esta análise empírica, o algoritmo proposto, IbKM, utiliza as dis-

tâncias dkm e dI , (IbKMdkm , IbKMdI ). E os algoritmos híbridos, IbKMH e

IbKMHsup, utilizam a distância euclidiana, de para medir os dados do tipo

real e as distâncias dkm e dI , (IbKMHdkm , IbKMdI , IbKMHsupdIe IbKMHsupdkm

).

Os resultados obtidos são apresentados em duas seções: a primeira para da-

dos sintéticos e a segunda para o conjunto de dados real, carro.

Uma análise comparativa para a base real carro é realizada. No entanto,

a análise comparativa com outros resultados sintéticos da literatura não foi

possível de ser realizada, uma vez que não foram encontrados resultados

utilizando abordagens similares na literatura e também nenhuma base de

dados sintética híbrida que contenha somente dados reais e intervalares.

6.4.1 Resultados e Análises dos Dados Sintéticos Hí-

bridos

Nesta seção, são apresentados os resultados obtidos e as análises obtidas

utilizando os algoritmos de agrupamentos crisp quando aplicados aos conjun-

tos de dados sintéticos híbridos: 10R90I, 30R70I, 50R50I, 70R30I e 90R10I.

A tabela 6.15 abaixo, contém os resultados dos valores e o tempo gasto pelos

algoritmos propostos, IbKM e IbKMH, utilizando as distâncias dkm, de e dI .

Da tabela 6.15 podemos concluir que o tempo computacional realmente

93

Tabela 6.15: Resultado dos algoritmos de agrupamento crisp com os conjun-

tos de dados sintéticos híbridos - CR(Std) e Tempo.

Algoritmos 10R90I 30R70I 50R50I 70R30I 90R10I

IbkMdkm 1(0) 1(0) 1(0) 1(0) 1(0)

14.751 14.412 14.140 14.204 13.736

IbKMdI 1(0) 1(0) 1(0) 1(0) 1(0)

14.675 14.548 14.206 14.261 13.649

IbkMHde,dkm 1(0) 1(0) 1(0) 1(0) 1(0)

13.175 10.433 7.982 5.465 2,83

IbKMHde,dI 1(0) 1(0) 1(0) 1(0) 1(0)

12.9501 10.6188 8.0670 5.567 2.822

diminui signicativamente quando o algoritmo híbrido é utilizado. Na Se-

gunda coluna da tabela 6.15 pode-se observar que a diferença existe apesar

de pequena. No entanto na última coluna da tabela, é possível notar que o

tempo diminui signicativamente. Uma melhor forma de observar esse ganho

de tempo computacional pode ser visto na gura 6.3.

Da gura 6.3 pode-se observar que a melhor maneira de manter as incer-

tezas presentes nos dados intervalares e não aumentar o custo computacional

transformando os dados reais em intervalos é utilizando algoritmos híbridos.

94

Figura 6.3: O gráco descreve a relação entre tempo a porcentagem de atri-

butos reais, utilizando os algoritmos IbKM e IbKMH.

6.4.2 Resultados e Análises dos Dados Reais Híbridos

Nesta seção, são apresentados os resultados dos algoritmos de agrupa-

mento crisp, quando aplicado a base de dados carro que contém valores reais

e intervalares .

A tabela a seguir mostra os resultados dos valores do CR(std) e o tempo

computacional, obtidos com as distâncias dkm, de e dI aplicados aos algorit-

mos IbKM, IbKMH e IbKMHsup.

95

Tabela 6.16: Resultados dos algoritmos de agrupamento crisp com o conjunto

de dados real híbrido- CR(Std) e Tempo

.

Algoritmos Carro

IbkMdkm 0.792(0.1082)

0,9267

IbKMdI 0.724(0.0781)

1.4325

IbkMHde,dkm 0.7927(0.1283)

0.4648

IbKMHde,dI 0.792(0.1248)

0.5399

IbKMHsupde,dkm0.792(0.0937)

0.548

IbKMHsupde,dI0.7727(0.1024)

(0.616)

Podemos observar que a distância proposta dkm obteve bons resultados,

proporcionando os maiores CR's. Em relação ao tempo computacional os

algoritmos híbridos, de fato, obtiveram bons resultados. Pode-se vericar na

Tabela 6.16 que os valores em relação ao tipo de algoritmos tiveram uma

queda de mais de 50% no tempo, quando comparados com a mesma base

aplicada aos algoritmos intervalares, IbKMdkm e IbKMdI .

96

Capítulo 7

Conclusões e Perspectivas Futuras

Foram propostos métodos de agrupamento, crisp e fuzzy, utilizando algo-

ritmos com distâncias intervalares. Em comparação aos métodos de agrupa-

mento baseados em intervalos, a abordagem proposta possui a vantagem de

possibilitar a utilização de distâncias intervalares,as quais mantem as impre-

cisões presentes nos dados intervalares por mais tempo, durante o processo.

Este tipo de medida de dissimilaridade é adequado quando trabalhamos com

dados intervalares, levando a uma melhora no desempenho dos algoritmos.

A utilidade dos algoritmos propostos foi demonstrada através de experi-

mentos numéricos com conjuntos de dados sintéticos e conjuntos de dados

reais. É possível observar que os métodos propostos obtiveram resultados

promissores, oferecendo os mais altos CR's de todos os métodos analisados.

Pelos resultados obtidos, é possível armar que a melhor forma de análise

de dados intervalares é utilizando distâncias intervalares, o que é conrmado

nas tabelas 6.12, 6.13 e 6.14.

Outro ponto forte foi o uso de algoritmos híbridos para trabalhar com

bases de dados que contenham dados reais e intervalares. Os resultados

obtidos mostram um ganho computacional em relação ao tempo sem perder

97

a qualidade das partições.

O estudo sobre funções de agregações de i-métricas é novo, mas se mostrou

muito promissor. Uma vez que os resultados obtidos experimentalmente

foram signicativos ao compara-lós aos demais. O uso do supremo se mostrou

uma boa agregação de i-métricas.

Todos os resultados indicam que os modelos propostos conseguiram en-

contrar boas partições sobre todos os dados. Em relação aos conjuntos de

dados reais, foi mostrado que é adequado utilizar i-métricas para agrupamen-

tos de dados que contém dados intervalares.

Diante de todos os resultados, é possível armar que esta tese contribuiu

para o enriquecimento da área de agrupamento objetos dotados de impreci-

sões.

A seguir alguns dos possíveis trabalhos futuros:

• Uma das principais questões quando lidamos com dados intervalares é

como lidar com a questão da ordem entre intervalos. Uma análise mais

direcionada para vericar a importância da ordem é questionada.

• Quando trabalhomos com algoritmos fuzzy, o parâmetro de fuzzicação,

m, é um valor real. Uma pesquisa mais profunda desse parâmetro

é almejada, uma vez que é de interesse vericar seu comportamento

quando ele é do tipo intervalar.

• Investigar novas agregações de i-métricas. Aplicar em dados híbridos

para vericar as partições obtidas pelos algoritmos usando essas novas

agregações.

• Outro aspecto interessante para uma análise aprofundada é a diferença

computacional utilizando uma Big Data nos algoritmos híbridos.

98

Referências Bibliográcas

[1] B. M. Acioly. Fundamentação Computacional da Matemática Intervalar.

PhD thesis, Universidade Federal do Rio Grande do Sul Instituto de

Informática, 1991.

[2] P. Berkhin. A survey of clustering data mining techniques. In Grouping

multidimensional data, pages 2571. Springer, 2006.

[3] J. C. Bezdek. Pattern Recognition with Fuzzy Objective Function Algo-

rithms. Kluwer Academic Publishers, Norwell, MA, USA, 1981.

[4] H. Bock. Clustering algorithms and kohonen maps for symbolic data

(symbolic data analysis). Journal of the Japanese Society of Computa-

tional Statistics, 15(2):217229, 2003.

[5] H. Bock and E. Diday. Analysis of symbolic data: exploratory methods

for extracting statistical information from complex data. Springer, 2000.

[6] V. Boginski, S. Butenko, and P. M. Pardalos. Mining market data:

a network approach. Computers & Operations Research, 33(11):3171

3184, 2006.

[7] J. Borsík and J. Dobo². On a product of metric spaces. Mathematica

Slovaca, 31(2):193205, 1981.

99

[8] J.M. Bouroche and G. Saporta. L'Analyse des données. Que sais-je ?

Presses Universitaires de France - PUF, 1987.

[9] H. Bustince, J. Fernandez, A. Kolesárová, and R. Mesiar. Generation of

linear orders for intervals by means of aggregation functions. Fuzzy Sets

and Systems, 220(0):69 77, 2013.

[10] H. Bustince, M. Galar, B. Bedregal, A. Kolesarova, and R. Mesiar. A

new approach to interval-valued choquet integrals and the problem of

ordering in interval-valued fuzzy set applications. Fuzzy Systems, IEEE

Transactions on, 21(6):11501162, Dec 2013.

[11] G. Cabanes, Y. Bennani, R. Destenay, and A. Hardy. A new topological

clustering algorithm for interval data. Pattern Recognition, 46(11):3030

3039, 2013.

[12] J. Casasnovas and F. Roselló. Midpoints as average representations of

pairs of descriptions by means of fuzzy subsets. In Proceedings of the

Information Processing and Management of Uncertainty in Knowledge-

Based Systems International Conference, pages 21572164. Citeseer,

2005.

[13] J. Casasnovas and F. Rosselló. Averaging fuzzy biopolymers. Fuzzy Sets

and Systems, 152(1):139158, 2005.

[14] C. Chakraborty and D. Chakraborty. A theoretical development on a

fuzzy distance measure for fuzzy numbers. Mathematical and Computer

Modelling, 43(3):254261, 2006.

[15] M. Chavent and Y. Lechevallier. Dynamical clustering of interval data:

Optimization of an adequacy criterion based on hausdor distance. In

100

K. Jajuga, A. Sokolowski, and H. Bock, editors, Classication, Cluste-

ring, and Data Analysis, Studies in Classication, Data Analysis, and

Knowledge Organization, pages 5360. Springer Berlin Heidelberg, 2002.

[16] R. P. de A. Moura. Algoritmos de Agrupamentos Fuzzy Intervalares e

Índices de Validação para Agrupamento de Dados Simbólicos do Tipo

Intervalo . PhD thesis, Programa de Pós-Graduação em Sistemas e

Computação. Universidade Federal do Rio Grande do Norte, Natal-RN,

Fevereiro 2014.

[17] C. W.D. de Almeida, R. M. C. R. de Souza, and A. L.B. Candeias.

Fuzzy kohonen clustering networks for interval data. Neurocomputing,

99(0):65 75, 2013.

[18] F. de A.T. de Carvalho. Fuzzy c-means clustering methods for symbolic

interval data. Pattern Recognition Letters, 28(4):423 437, 2007.

[19] F. de A.T. de Carvalho. Some partitioning fuzzy clustering algo-

rithms for interval-valued data. In Workshop on Symbolic Data Analy-

sis:Fundamentals and Applications, No.43, Sec. 4, Keelung Rd., Da'an

Dist., Taipei City 106, Taiwan, 2012.

[20] F. de A.T. de Carvalho, P. Brito, and H. Bock. Dynamic clustering for

interval data based on l2 distance. Computational Statistics, 21(2):231

250, 2006.

[21] F. de A.T. de Carvalho, R.M.C.R. de Souza, M. Chavent, and Y. Leche-

vallie. Adaptive hausdor distances and dynamic clustering of symbolic

interval data. Pattern Recognition Letters, 27(3):167 179, 2006.

101

[22] F. de A.T. de Carvalho and C. P. Tenorio. Fuzzy k-means clustering al-

gorithms for interval-valued data based on adaptive quadratic distances.

Fuzzy Sets and Systems, 161(23):2978 2999, 2010.

[23] F.de A.T. de Carvalho and C. P. Tenório. Fuzzy k-means clustering al-

gorithms for interval-valued data based on adaptive quadratic distances.

Fuzzy Sets and Systems, 161(23):2978 2999, 2010.

[24] F. L. de Santana. Generalizações do Conceito de Distância, i-Distâncias,

Distâncias Intervalares e Topologia. PhD thesis, Programa de Pós-

Graduação em Sistemas e Computação. Universidade Federal do Rio

Grande do Norte, Natal-RN, Nov 2012.

[25] M. C. P. De Souto, D.S.A de Araujo, IG. Costa, R.G.F. Soares, T.B.

Ludermir, and A. Schliep. Comparative study on normalization procedu-

res for cluster analysis of gene expression datasets. In Neural Networks,

2008. IJCNN 2008. (IEEE World Congress on Computational Intelli-

gence). IEEE International Joint Conference on, pages 27922798, June

2008.

[26] R. M. C. R. de Souza and F. de A. T. de Carvalho. Clustering of

interval data based on cityblock distances. Pattern Recognition Letters,

25(3):353 365, 2004.

[27] R. R. de Vargas and B. R.C. Bedregal. Interval ckmeans: An algorithm

for clustering symbolic data. In Aleksandar Lazinica, editor, Fuzzy In-

formation Processing Society (NAFIPS), 2011 Annual Meeting of the

North American. InTech, 2010.

[28] R. R. de Vargas and B.R.C. Bedregal. A comparative study between

fuzzy c-means and ckmeans algorithms. In Fuzzy Information Processing

102

Society (NAFIPS), 2010 Annual Meeting of the North American, pages

16, 2010.

[29] R.R. de Vargas. Uma nova forma de calcular os centros dos clusters em

algoritmos de agrupamento tipo Fuzzy C-Means. PhD thesis, Universi-

dade Federal do Rio Grande do Norte Centro de Tecnologia, 2012.

[30] J. Dopazo, E. Zanders, I. Dragoni, G. Amphlett, and F. Falciani.

Methods and approaches in the analysis of gene expression data. Journal

of Immunological Methods, 250(12):93 112, 2001. Gene Expression

Technologies.

[31] J. Friedman, T. Hastie, and R. Tibshirani. The elements of statistical

learning: Data mining, inference, and prediction. Springer Series in

Statistics, 2009.

[32] E. Gokcay and J.C. Principe. Information theoretic clustering. Pattern

Analysis and Machine Intelligence, IEEE Transactions on, 24(2):158

171, Feb 2002.

[33] D.S. Guru, B. B. Kiranagi, and P. Nagabhushan. Multivalued type

proximity measure and concept of mutual similarity value useful for

clustering symbolic patterns. Pattern Recognition Letters, 25(10):1203

1213, 2004.

[34] J. F. Hair, W. C. Black, B. J Babin, R. E. Anderson, and R. L. Tatham.

Análise multivariada de dados. Bookman, 2007.

[35] T. Hickey, Q. Ju, and M. H. Van Emden. Interval arithmetic: From

principles to implementation. J. ACM, 48(5):10381068, sep 2001.

103

[36] D. J. Higham, G. Kalna, and J. K. Vass. Spectral analysis of two-

signed microarray expression data. Mathematical Medicine and Biology,

24(2):131148, 2007.

[37] M. Hukuhara. Intégration des applications mesurables dont la valeur

est un compact convexe. Funkcial. Ekvac, 10:205223, 1967.

[38] A. Irpino and R. Verde. Dynamic clustering of interval data using a

wasserstein-based distance. Pattern Recognition Letters, 29(11):1648

1658, 2008.

[39] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review.

ACM Comput. Surv., 31(3):264323, September 1999.

[40] J. T. Jeng, Chuang C. C., and C. W. Tao. Interval competitive ag-

glomeration clustering algorithm. Expert Syst. Appl., 37(9):65676578,

September 2010.

[41] T. Kohonen, T. Huang, and M. Schroeder. Self-organizing maps, 2000.

[42] R. Krishnapuram and J. M. Keller. A possibilistic approach to cluste-

ring. Fuzzy Systems, IEEE Transactions on, 1(2):98110, 1993.

[43] U. W. Kulisch and W. L. Miranker. Computer arithmetic in theory and

practice. Academic Press, Inc., 1981.

[44] J. MacQueen et al. Some methods for classication and analysis of

multivariate observations. In Proceedings of the fth Berkeley symposium

on mathematical statistics and probability, volume 1, pages 281297.

Berkley, CA, USA., 1967.

104

[45] S. Markov and K. Okumura. The contribution of t. sunaga to interval

analysis and reliable computing. In T. Csendes, editor, Developments

in Reliable Computing, pages 167188. Springer Netherlands, 1999.

[46] J. Martín, G. Mayor, and O. Valero. On quasi-metric aggregation func-

tions and xed point theorems. Fuzzy Sets and Systems, 228:88104,

2013.

[47] J. Martín, G. Mayor, and O. Valero. On the symmetrization of quasi-

metrics: An aggregation perspective. In Aggregation Functions in The-

ory and in Practise, pages 319331. Springer, 2013.

[48] S. Massanet and O. Valero. On aggregation of metric structures: the

extended quasi-metric case. International Journal of Computational In-

telligence Systems, 6(1):115126, 2013.

[49] G. Mayor and O. Valero. Aggregation of asymmetric distances in com-

puter science. Information Sciences, 180(6):803812, 2010.

[50] B. Mirkin. Mathematical classication and clustering: From how to what

and why. Springer, 1998.

[51] R. Moore. Methods and applications of interval analysis. SIAM, 1979.

[52] R. E. Moore. Interval Arithmetic and Automatic Error Analysis in Di-

gital Computing. Technical report (Stanford University. Applied Mathe-

matics and Statistics Laboratory). Department of Mathematics, Stan-

ford University., 1962.

[53] R.E. Moore. Interval analysis, volume 4. Prentice-Hall Englewood Clis,

1966.

105

[54] G. Nieradka and B. Butkiewicz. A method for automatic membership

function estimation based on fuzzy measures. In Foundations of Fuzzy

Logic and Soft Computing, pages 451460. Springer, 2007.

[55] Taher Niknam, Elahe Taherian Fard, Narges Pourjafarian, and Alireza

Rousta. An ecient hybrid algorithm based on modied imperialist

competitive algorithm and k-means for data clustering. Engineering

Applications of Articial Intelligence, 24(2):306317, 2011.

[56] M. de A. Pereira. Classicação de Dados Híbridos Através de Algoritmos

Evolucionários. PhD thesis, Universidade Federal de Minas Gerais, 2012.

[57] A. Pradera and E. Trillas. A note on pseudometrics aggregation. Inter-

national Journal of General Systems, 31(1):4152, 2002.

[58] A. Pradera, E. Trillas, and E. Castiñeira. On distances aggregation.

In Proceedings of the Information Processing and Management of Un-

certainty in Knowledge-Based Systems International Conference, page

693700, 2000.

[59] A. Pradera, E. Trillas, and E. Castiñeira. On the aggregation of some

classes of fuzzy relations. In Technologies for Constructing Intelligent

Systems 2, pages 125136. Springer, 2002.

[60] C. J. Romanowski, R. Nagi, and M. Sudit. Data mining in an engineering

design environment: Or applications from graph matching. Computers

& operations research, 33(11):31503160, 2006.

[61] F. Santana and R. Santiago. Interval metrics, topology and continu-

ous functions. Computational and Applied Mathematics, 32(3):459470,

2013.

106

[62] R. H. Nunes Santiago, B. R. Callejas Bedregal, and B. M. Acioly. Formal

aspects of correctness and optimality of interval computations. Formal

Aspects of Computing, 18(2):231243, 2006.

[63] M. Sato-Ilic and L. C. Jain. Innovations in fuzzy clustering: Theory and

applications, volume 205. Springer, 2006.

[64] L. Silva, R. Moura, A. Canute, R. Santiago, and B. Bedregal. Fuzzy

clustering algorithm with h-operator applied to problems with interval-

based data. In Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International

Conference on, pages 237244. IEEE, 2014.

[65] L. Silva, R. Moura, A. Canute, R. Santiago, and B. Bedregal. New ways

to calculate centers for interval data in fuzzy clustering algorithms. In

Norbert Wiener in the 21st Century (21CW), 2014 IEEE Conference

on, pages 16. IEEE, 2014.

[66] L. Silva, R. Moura, A. Canuto, R. Santiago, and B. Bedregal. An

interval-based framework for fuzzy clustering applications. Fuzzy Sys-

tems, IEEE Transactions on, PP(99):11, 2015.

[67] R.M.C.R. Souza, F. A. T. de Carvalho, C.P. Tenorio, and Y. Lecheval-

lier. Dynamic cluster methods for interval data based on mahalanobis

distances. In D. Banks, F. R. McMorris, P. Arabie, and W. Gaul, edi-

tors, Classication, Clustering, and Data Mining Applications, Studies

in Classication, Data Analysis, and Knowledge Organisation, pages

351360. Springer Berlin Heidelberg, 2004.

[68] L. Stefanini. A generalization of hukuhara dierence and division for

interval and fuzzy arithmetic. Fuzzy Sets and Systems, 161(11):1564

1584, 2010.

107

[69] P.N. Tan, M. Steinbach, and V. Kumar. Introduction To Data Mining.

Addison-Wesley, 2005.

[70] R. M. P. Trindade. Uma fundamentação matemática para processamento

digital de sinais intervalares. PhD thesis, Universidade Federal do Rio

Grande do Norte, 2009.

[71] R. M. P. Trindade, Bedregal B. R. C., A. D. D. Neto, and B. M. Acioly.

An interval metric. In New Advanced Technologies, pages 16. IEEE,

2011.

[72] A. Ushioda and J. Kawasaki. Hierarchical clustering of words and ap-

plication to nlp tasks. In Proceedings of the Fourth Workshop on Very

Large Corpora, pages 2841, 1996.

[73] Mark J Van der Laan and Katherine S Pollard. A new algorithm for hy-

brid hierarchical clustering with visualization and the bootstrap. Journal

of Statistical Planning and Inference, 117(2):275303, 2003.

[74] Z. Wu and R. Leahy. An optimal graph theoretic approach to data

clustering: Theory and its application to image segmentation. Pattern

Analysis and Machine Intelligence, IEEE Transactions on, 15(11):1101

1113, 1993.

[75] R. Xu and D. Wunsch. Survey of clustering algorithms. Neural Networks,

IEEE Transactions on, 16(3):645678, 2005.

[76] Z. Xu and R. R. Yager. Some geometric aggregation operators based

on intuitionistic fuzzy sets. International journal of general systems,

35(4):417433, 2006.

[77] L.A. Zadeh. Fuzzy sets. Information and Control, 8(3):338 353, 1965.

108

[78] Wei-bin Zhang, Huai-zhong Hu, and Wen-jiang Liu. Rules extraction

of interval type-2 fuzzy logic system based on fuzzy c-means clustering.

In Fuzzy Systems and Knowledge Discovery, 2007. FSKD 2007. Fourth

International Conference on, volume 2, pages 256260. IEEE, 2007.

109

de Dados - repositorio.ufrn.br · Liliane Ribeiro da Silva Uma Plataforma Intervalar para...

Documents

Transcript of de Dados - repositorio.ufrn.br · Liliane Ribeiro da Silva Uma Plataforma Intervalar para...