Cap 06 - Análise de Conglomerados
-
Upload
sobrinhop7167 -
Category
Documents
-
view
15 -
download
7
description
Transcript of Cap 06 - Análise de Conglomerados
CLUSTER ANALISYSCLUSTER ANALISYS
3
CONCEITOS E DISTINÇÕESCONCEITOS E DISTINÇÕES
É um grupo de técnicas de análise multivariada cujo propósito primário é reunir objetos baseado nas características dos mesmos.
Alta homogeneidade interna (within-cluster) e alta heterogeneidade externa (between-cluster).
Outras denominações: Q analysis, typology, classification analysis, numerical taxonomy; análise de agrupamento, análise de conglomerados.
4
OBJETIVOS, UTILIDADES E OBJETIVOS, UTILIDADES E APLICAÇÕESAPLICAÇÕES
Redução de dados de uma amostra a um número determinado de perfis (redução do número de objetos).
Desenvolver hipóteses quanto à natureza dos dados (caso do presente trabalho) ou examinar hipóteses já estabelecidas.
É utilizada mais para estudos exploratórios, mas pode ser empregada para fins confirmatórios.
5
PRESSUPOSTOS E LIMITAÇÕESPRESSUPOSTOS E LIMITAÇÕES
A validade das conclusões dependerá das variáveis selecionadas (cluster variate) a partir do conhecimento que o pesquisador tem da realidade observada.
É descritiva, ateórica e não inferencial (não tem base estatística) sempre cria grupos independentemente da verdadeira existência de uma estrutura nos dados.
Não existe o melhor, apenas bons e maus agrupamentos (exemplo das cartas do baralho).
6
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Metodologia proposta por Hair (1998): modelo de seis estágios: (1) definição dos objetivos; (2) delineamento da pesquisa; (3) presunções; (4) determinação e avaliação dos grupos; (5) interpretação dos grupos; (6) validação e definição dos perfis dos grupos.
Bussab (1990) propõe metodologia semelhante, apenas com uma etapa (a segunda) a mais, relativa à obtenção dos dados.
7
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 1: objetivos da análise cluster
Objetivos: descrição taxonômica, simplificação de dados ou identificação de relações.
Seleção das variáveis baseada em aspectos teóricos e práticos. Deve haver um referencial teórico que justifique a escolha.
Deve-se buscar variáveis distintivas. Variáveis irrelevantes aumentam as chances de surgimento de outliers.
8
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 2: delineamento da pesquisa (I)
Três questões devem ser resolvidas: (1) existem outliers? (2) como deve ser medida a similaridade? e (3) os dados devem ser padronizados?
Outliers podem representar: (1) verdadeiras aberrações, não representativas da população; ou (2) itens de um determinado grupo obtidos de uma amostra ruim.
Análise pode ser feita com base no diagrama de perfis. Se necessário, devem ser excluídos.
9
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 2: delineamento da pesquisa (II)
Medidas de similaridade (ou dissimilaridade): (1) medidas de correlação; (2) medidas de distância; e (3) medidas de associação.
As duas primeiras requerem dados quantitativos (metric), enquanto que as últimas são para dados qualitativos (nonmetric).
Bussab (1990) refere-se ao coeficiente de parecença, dividindo-os em medidas de similaridade e dissimilaridade.
10
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 2: delineamento da pesquisa (III)
Medidas correlacionais: semelhante ao Q-type da análise fatorial. Não se fixa na magnitude, mas nos padrões dos valores.
Medidas de distância: são medidas de dissimilaridade, com altos valores denotando menor similaridade.
Medidas de distância x medidas correlacionais: magnitudes x padrões.
11
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 2: delineamento da pesquisa (IV)
Tipos de medidas de distância: Distância euclidiana simples; Distância euclidiana quadrada ou absoluta; Distância City-block (Manhattan); Distância Chebychev; Distância Customized; Distância Minkowski.
12
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Estágio 2: delineamento da pesquisa (V)
Impacto da não-padronização dos dados nas medidas de distância: Inconsistências entre as soluções quando a escala das variáveis
é mudada. Distância Mahalanobis (D2) utiliza escala em termos de
desvios-padrões e soma a variância-covariância total do grupo, com ajustes das intercorrelações entre as variáveis (recomendável quando há multicolinearidade e é útil para detectar outliers).
13
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Medidas de associação: usadas para comparar objetos mensurados em termos não-métricos ou qualitativos (nominais ou ordinais).
A medida mais simples seria a percentagem de vezes que existiu concordância entre as respostas (ambos os respondentes disseram sim ou não a uma questão).
Estágio 2: delineamento da pesquisa (VI)
14
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Padronizando os dados: através das variáveis: média igual a zero e
desvio-padrão igual a 1 (escore Z). através das observações: padroniza não para a
média da amostra, mas para o escore médio de cada respondente.
Estágio 2: delineamento da pesquisa (VII)
15
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Ponderando os dados: recomendado quando as variáveis não têm a mesma importância para o problema;
Deve ser aplicada com cautela, dada a alta subjetividade desse procedimento;
O mais comum é se atribuir o mesmo peso para todas as variáveis.
Estágio 2: delineamento da pesquisa (VIII)
16
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Representatividade da amostra: a análise cluster será boa na medida em que a amostra for representativa.
Impacto da multicolinearidade: as variáveis que são multicolineares estão, de uma forma implícita, ponderadas mais pesadamente. Alternativas para compensar o problema: distância Mahalanobis e escores fatoriais.
Estágio 3: pressupostos
17
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Envolve: a escolha do algoritmo de agrupamento e a decisão quanto ao número de grupos.
Algoritmo de agrupamento: qual o procedimento deve ser usado para colocar objetos similares dentro de grupos? Temos os hierárquicos e os não-hierárquicos.
Todo algoritmo visa maximizar as diferenças entre os grupos em confronto com a variação dentro dos mesmos (between-cluster x within-cluster).
Estágio 4: determinação e avaliação dos grupos (I)
18
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Procedimentos hierárquicos de agrupamento: envolvem a construção de uma hierarquia semelhante a uma árvore. São de dois tipos: aglomerativos e divisivos.
Algoritmos mais populares: (1) single linkage; (2) complete linkage; (3) avarage linkage; (4) Ward’s method; e (5) centroid method.
Estágio 4: determinação e avaliação dos grupos (II)
19
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
1) Single linkage: baseado na distância mínima entre dois objetos. É também chamado de nearest neighbor. Problema da cadeia.
2) Complete linkage: é baseado na distância máxima, razão pela qual é conhecido como a abordagem do vizinho mais longe (furthest neighbor).
Estágio 4: determinação e avaliação dos grupos (III)
20
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
3) Avarage linkage: ou ligação média, onde o critério é a distância de todos os indivíduos de um grupo em relação a todos de outro (no SPSS, as opções between-groups e within-groups linkage). Tende a produzir grupos com aproximadamente a mesma variância.
4) Ward’s method: minimiza a soma dos quadrados entre dois grupos em relação a todas as variáveis. Tende a produzir grupos com mesmo número de observações.
Estágio 4: determinação e avaliação dos grupos (IV)
21
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
5) Centroid method: a distância entre os grupos é a distância entre seus centróides, que são os valores médios das observações em relação às variáveis. Cada vez que indivíduos são agrupados, um novo centróide é calculado. Tanto este método quanto o de Ward exigem a distância euclidiana.
Estágio 4: determinação e avaliação dos grupos (V)
22
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Métodos não-hierárquicos de agrupamento: ou métodos de partição, atribuem objetos a um grupo uma vez que o número de grupos a ser formado esteja especificado. São referidos como K-means clustering.
Seleciona um grupo “semente” (seed) como grupo inicial, e todos os objetos próximos são incluídos nesse grupo. Um novo grupo semente é escolhido, e o processo continua até todas as observações serem distribuídas.
Estágio 4: determinação e avaliação dos grupos (VI)
23
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
O métodos não-hierárquicos são os seguintes: Sequential threshold: ou princípio seqüencial,
seleciona um grupo semente e inclui todos os objetos dentro de uma distância preestabelecida. Após, um novo grupo semente é selecionado, e o processo continua. Quando um objeto é destinado a um grupo semente, ele não é mais considerado nos subseqüentes.
Estágio 4: determinação e avaliação dos grupos (VII)
24
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Parallel threshold: ou princípio paralelo, seleciona vários grupos semente e inclui todos os objetos dentro daquele mais próximo. À medida que o processo evolui, as distâncias podem ser ajustadas para incluir menos ou mais objetos (disponível no SPSS).
Optimization: similar aos anteriores, exceto que ele permite a realocação de objetos em função da maior proximidade com outro grupo (disponível no SPSS).
Estágio 4: determinação e avaliação dos grupos (VII)
25
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Seleção dos grupos sementes: pode ser aleatório ou escolhidos pelo pesquisador. Um dos problemas no primeiro caso é que o resultado final depende da ordem dos dados.
Vantagens e desvantagens dos métodos hierárquicos: (v) são rápidos e exigem menos tempo de processamento; (d) não realocam combinações anteriores; (d) é sensivelmente impactado por outliers; (d) não são apropriados para amostras muito grandes.
Estágio 4: determinação e avaliação dos grupos (VIII)
26
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Vantagens e desvantagens dos métodos não- hierárquicos: (v) podem realocar combinações anteriores; (v) são menos sensíveis a outliers, à medida de distância e a
variáveis inapropriadas (quando os grupos sementes são escolhidos pelo pesquisador);
(d) os resultados dependem do processo de escolha dos pontos semente. Segundo Hair, o processo aleatório é inferior às técnicas hierárquicas;
(d) Johnson e Wichern criticam prefixação do no de grupos.
Estágio 4: determinação e avaliação dos grupos (IX)
27
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Uma combinação de ambos os métodos: primeiro, uma técnica hierárquica estabelece o
número de grupos, traça o perfil dos núcleos centrais e identifica outliers;
Depois de eliminar eventuais outliers, aplica-se um método não-hierárquico, tendo como grupos sementes os núcleos centrais definidos através do método hierárquico.
Estágio 4: determinação e avaliação dos grupos (X)
28
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Quantos grupos devem ser formados? Não existe um critério categórico Uma regra de parada (stopping rule) simples é examinar a
distância entre os grupos a cada passo sucessivo; Outra regra seria adaptar um teste estatístico de significância; Além disso, o pesquisador deve confrontar com o referencial
teórico, que pode sugerir um número natural de grupos; Deve-se, ao final, buscar a melhor solução dentre as possíveis.
Estágio 4: determinação e avaliação dos grupos (XI)
29
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
A análise cluster deve ser estruturada novamente? Analisar se existe um disparate acentuado entre o tamanho dos
grupos, ou se existem grupos com uma ou duas observações (possíveis outliers);
Comparar a solução final com as expectativas do pesquisador; Bussab refere uma técnica quantitativa para avaliação dos
agrupamentos, o Coeficiente de Correlação Cofenética, que relaciona a matriz de distâncias originais com a oriunda da classificação (matriz cofenética); algo em torno de 0,8 já seria bom.
Estágio 4: determinação e avaliação dos grupos (X)
30
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Envolve o exame de cada grupo, tendo em vista o conjunto de variáveis, para denominar ou atribuir uma identificação que descreva adequadamente a natureza dos mesmos.
Para esse processo, podem ser utilizados escores, de modo a identificar alguma hierarquia dentre os mesmos.
Nessa fase, o pesquisador deve comparar os resultados com aqueles propostos anteriormente pela teoria ou pela experiência prática.
Estágio 5: interpretação dos grupos
31
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Alguns procedimentos de validação da solução: 1) dividir a amostra em dois grupos; 2) usar outras variáveis conhecidas por discriminar
entre os grupos, ou refazer a análise excluindo algumas variáveis;
3) refazer a análise utilizando outros métodos de agrupamento e outras medidas de similaridade.
Estágio 6: validação e definição dos perfis dos grupos (I)
32
O PROCESSO DE DECISÃO NA O PROCESSO DE DECISÃO NA ANÁLISE ANÁLISE CLUSTERCLUSTER
Definindo o perfil da solução: consiste na descrição das características de cada grupo para explicar como elas podem diferir em dimensões relevantes.
Utilizam-se dados não previamente incluídos no procedimento de agrupamento (demográficos, psicográficos etc.).
O enfoque é na descrição, não do que determinou diretamente os grupos, mas das características dos grupos depois de que eles foram identificados.
Pode-se utilizar a análise discriminante: a variável dependente categórica são os grupos.
Estágio 6: validação e definição dos perfis dos grupos (II)