Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8:...

Post on 05-Jan-2019

242 views 1 download

Transcript of Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8:...

Análise Multivariada

Aula 8: Análise de Correspondência (AC)

Prof. Admir Antonio Betarelli Junior

Juiz de Fora

AC

Técnica exploratória que busca identificar associações entre variáveis categóricas (ao invés de contínuas).

Representação geométrica das correspondências (similaridades) existentes em uma tabela de frequência.

Possui duas ou múltiplas entradas, não negativas.

Reduz as dimensões originais dos dados em ortogonais.

Dependendo do no. Variáveis, os escores gerados para as dimensões podem ser tratados como var. contínuas.

Quando usá-la?

Quando a preocupação principal é a redução do número de dimensões entre as correspondências das variáveis categóricas e que ainda possa representar bem a estrutura de dados originais.

Tem por principais objetivos:

redução dos dados.

transformações.

Versão simples (2 variáveis)

Tabela de contingência (frequência) - N

Z (variável linha) com I categorias. Y (variável coluna) com J categorias.

1 2 ... J

1 n11 n12 ... n1j n1+

2 n21 n22 ... n2j n2+

: : : : : :

I nI1 nI2 ... nIJ nI+

n+1 n+2 ... n+J n++= 1Total

Total Y

Z

J

j

iji nn1

I

i

ijj nn1

J

j

I

i

ijnn1 1

Versão simples (2 variáveis)

Matriz de correspondência – P

1 2 ... J

1 p11 p12 ... p1j p1+

2 p21 p22 ... p2j p2+

: : : : : :

I pi1 pi2 ... pij pI+

p+1 p+2 ... p+J p++= 1Total (c)

Total

(r)

Y

Z

n

np

ij

ij

Versão simples (2 variáveis)

Três conceitos básicos:

1. Frequências relativas marginais ou massas:

Vetor de massas de linha:

Vetor de massas de coluna:

2. Perfis:

Perfil linha:

Perfil coluna:

],...,,[],...,,[ 2121 II ppprrrr

],...,,[],...,,[ 2121 JI pppccc c

iiji ppa /

jiji ppb /

Versão simples (2 variáveis)

Três conceitos básicos:

3. Centroides dos perfis:

Linha: , pois ou .

Se e , então , coordenadas principais das linhas oriundas da matriz P.

Coluna: , pois ou .

Se e , então , coordenadas principais das colunas da matriz P.

],...,,[ 11 Jppp c

I

i

ii ar1

c rAc

PDA1 rrAc

cD /11 diagc

],...,,[ 21 Ipppr

J

j

jjbc1

r cBr

PDB 1 c

rD /11 diagr

cBr

Versão simples (2 variáveis)

AC busca uma representação gráfica de linhas e colunas de uma matriz P em um espaço de menor dimensão.

Por um problema de mínimos quadrados ponderados busca-se selecionar , uma matriz de posto reduzido que minimiza:

tal que: ; ;

ijp̂ˆ P

2/12/12/12/1

1 1

)ˆ()ˆ(ˆ

crcr

I

i

J

j ji

ijijtr

cr

ppDPPDDPPD

ji

ijij

cr

pp ˆ2/12/1 )ˆ( cr DPPD

rD

12/1 diagr

cD

12/1 diagc

Versão simples (2 variáveis)

_____ é a melhor aproximação de posto 1 para P pela decomposição de valor singular generalizado.

crP ˆ

s

k

s

k

kckrkkckrk

1 2

2/12/12/12/1 )~)(~(~

)~)(~(~

vDuDcrvDuDP

s

k

kckrk

1

2/12/1 )~)(~(~

vDuDcrP

VUΛDPDT 2/12/1 ˆcr

VDΛUDP 2/12/1ˆcr 1 VVUU

Coordenadas principais r Coordenadas principais c

Versão simples (2 variáveis)

Na AC é usual plotar as seguintes coordenadas principais:

Coordenadas principais das linhas:

Coordenadas principais das colunas:

i

kikikrrr

r

ur

~ que tal)(

~ 2/12/11 UΛDΛUDDR

j

kjk

jkcccc

vc

~ que tal)(

~ 2/12/11 VΛDΛVDDC

Versão simples (2 variáveis)

Deve-se decidir a escala das coordenadas (normalização):

se quer analisar os perfis linha, perfis coluna ou ambos (coordenadas simétricas).

Se (linhas); (colunas); (simetria).

i

kikik

r

ur

)()(~

j

kjk

jkc

vc

)1(

)(~

1 0 2/1

Versão simples (2 variáveis)

A inercia total principal da matriz P é:

Eij é a frequência esperada das observações na célula (i,j) , sob a hipótese os elementos das variáveis (Z,Y) sejam homogêneos.

Essa estatística pode ser interpretada como a diferença dos perfis linha (ou coluna) aos seus respectivos centroides.

ji ij

ijijJI

k

kE

En

nn ,

22)1,1min(

1

2)(1~

I

i

ijJ

j

ij

jiijn

n

n

nncnrE

11

ji ji

jiij

cr

crp

n ,

22 )(

I

i

iciii aarnad1

1),( cDcc

Versão simples (2 variáveis)

é possível computar a proporção acumulada de d dimensões selecionadas por:

O maior “autovalor” e “autovetores” associados expressam a maior parte da variabilidade do sistema.

Escolha em torno de 90% da inércia total. Os autovalores maiores que 0,20 devem ser incluídos na análise.

)1,1min(

1

2

1

2

~

~

JI

k

k

d

k

k

Versão simples (2 variáveis)

As distancias entre os perfis (e.g., de linha):

Em suma, AC busca uma representação gráfica de linhas e colunas de uma matriz com entradas não negativas em um espaço de menor dimensão de maneira que as distâncias chi-quadrado entre os perfis linha e entre perfis colunas são bem aproximadas por uma distância euclidiana

21

1

2121 ),( aaaaaad c

D

Versão simples (2 variáveis)

Qualidade de aproximação das categoriais (linha e

coluna).

Se for baixo, o número escolhido de dimensões não

representa bem a respectiva linha (ou coluna).

Se , então .

d

k

ikJ

j

ij

ir

i r

t

rq

1

2

1

2

)( ~

d

k

ikI

i

ij

jc

j c

t

cq

1

2

1

2

)( ~

)()( 1 c

j

r

i qq )1,1min( JId

Versão simples (2 variáveis)

Contribuição relativa (linha e coluna).

Quais as categorias que mais contribuem para

expressar a inércia total por dimensões, ou as

dimensões que mais contribuem para expressar a

inércia por categorias.

2

2)(

~

~

k

ikir

ik

rrg

2

2

)(

~

~

k

jkjc

jk

ccg

J

j

c

jk

I

i

r

ik gg1

)(

1

)( 1

AC MÚLTIPLA E CONJUNTA (ACM)

Uma extensão da versão simples porém para mais de 2 variáveis categóricas.

Existem:

Matriz indicadora;

Matriz Burt;

Conjunta (modificação da matriz Burt).

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz Indicadora: X

Se houver muitas obs, o metédo é inviável.

Obs. w1 w2 x1 x2 y1 y2

1 1 0 1 0 1 0

2 0 1 1 0 1 0

3 0 1 0 1 1 0

4 1 0 0 1 0 1

5 1 0 0 1 0 1

6 1 0 1 0 0 1

7 0 1 0 1 1 0

8 1 0 0 1 1 0

9 1 0 1 0 0 1

10 1 0 1 0 1 0

Total 7 3 5 5 6 4

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz Burt :

O total de observações nas categorias w1 e w2 é 10, ou seja, w1+w2=7+3=10 (=no. obs).

Combinação entre as categorias de uma variável exibe valores nulos. (vermelho)

w1 w2 x1 x2 y1 y2

w1 7 0 4 3 3 4

w2 0 3 1 2 3 0

x1 4 1 5 0 3 2

x2 3 2 0 5 3 2

y1 3 3 3 3 6 0

y2 4 0 2 2 0 4

XXB

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz de correspondência a partir a matriz Burt:

Vetor de massas de coluna:

Pode-se calcular a matriz simétrica:

A decomposição de valor singular:

khpP

b

bp kh

kh

J

k

J

h

khbb1 1

],...,,[],...,,[ 2121 JJ bbbccc c

J

k

khh pc1

ccPS

AC MÚLTIPLA E CONJUNTA (ACM)

A decomposição de valor singular:

As coordenadas principais das colunas:

A inércia principal (não-ajustada):

A inércia principal (ajustada):

O total da inércia principal:

...21 VVΦS

VDA 1 c

22

tt 2

2

2

1

1

qq

qt

adj

t

2

2

2

)(

1 q

qJ

q

qt t

adj

t

AC MÚLTIPLA E CONJUNTA (ACM)

Os resultados em AMC são idênticos aos resultados para as coordenadas de coluna na versão simples da matriz indicadora.

A interpretação dos valores das coordenadas, dos valores de qualidade e outras estatísticas são similares, porém se referindo à inércia total associada à matriz B.

AC MÚLTIPLA E CONJUNTA (ACM)

Correspondência conjunta (ACJ).

Uma vez que tanto a matriz indicadora quando à Burt inflam artificialmente as distâncias qui-quadrado entre os perfis coluna e a inércia total (GOWER, 2006),

a ACJ busca corrigir esse problema ao considerar somente os elementos fora da diagonal da matriz Burt.

Tal técnica baseia-se em um método interativo de mínimos quadrados, que inicia a partir de uma matriz . BB 0

AC MÚLTIPLA E CONJUNTA (ACM)

Tal algoritmo executa m interações, de maneira que em cada uma delas os elementos fora da diagonal são substituídos pelos elementos da matriz de aproximação.

Essas interações interrompem até que as matrizes Bm e Bm-1 sejam inexpressivas (convergência de solução).

A inércia total da matriz Burt modificada é definida como as somas das inércias de elementos fora da diagonal principal.

Cada elemento da matriz de aproximação em cada interação m é determinado como:

f

t

kthttkhhk aaccbb1

21ˆ