Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8:...

24
Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior Juiz de Fora

Transcript of Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8:...

Page 1: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Análise Multivariada

Aula 8: Análise de Correspondência (AC)

Prof. Admir Antonio Betarelli Junior

Juiz de Fora

Page 2: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC

Técnica exploratória que busca identificar associações entre variáveis categóricas (ao invés de contínuas).

Representação geométrica das correspondências (similaridades) existentes em uma tabela de frequência.

Possui duas ou múltiplas entradas, não negativas.

Reduz as dimensões originais dos dados em ortogonais.

Dependendo do no. Variáveis, os escores gerados para as dimensões podem ser tratados como var. contínuas.

Page 3: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Quando usá-la?

Quando a preocupação principal é a redução do número de dimensões entre as correspondências das variáveis categóricas e que ainda possa representar bem a estrutura de dados originais.

Tem por principais objetivos:

redução dos dados.

transformações.

Page 4: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Tabela de contingência (frequência) - N

Z (variável linha) com I categorias. Y (variável coluna) com J categorias.

1 2 ... J

1 n11 n12 ... n1j n1+

2 n21 n22 ... n2j n2+

: : : : : :

I nI1 nI2 ... nIJ nI+

n+1 n+2 ... n+J n++= 1Total

Total Y

Z

J

j

iji nn1

I

i

ijj nn1

J

j

I

i

ijnn1 1

Page 5: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Matriz de correspondência – P

1 2 ... J

1 p11 p12 ... p1j p1+

2 p21 p22 ... p2j p2+

: : : : : :

I pi1 pi2 ... pij pI+

p+1 p+2 ... p+J p++= 1Total (c)

Total

(r)

Y

Z

n

np

ij

ij

Page 6: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Três conceitos básicos:

1. Frequências relativas marginais ou massas:

Vetor de massas de linha:

Vetor de massas de coluna:

2. Perfis:

Perfil linha:

Perfil coluna:

],...,,[],...,,[ 2121 II ppprrrr

],...,,[],...,,[ 2121 JI pppccc c

iiji ppa /

jiji ppb /

Page 7: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Três conceitos básicos:

3. Centroides dos perfis:

Linha: , pois ou .

Se e , então , coordenadas principais das linhas oriundas da matriz P.

Coluna: , pois ou .

Se e , então , coordenadas principais das colunas da matriz P.

],...,,[ 11 Jppp c

I

i

ii ar1

c rAc

PDA1 rrAc

cD /11 diagc

],...,,[ 21 Ipppr

J

j

jjbc1

r cBr

PDB 1 c

rD /11 diagr

cBr

Page 8: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

AC busca uma representação gráfica de linhas e colunas de uma matriz P em um espaço de menor dimensão.

Por um problema de mínimos quadrados ponderados busca-se selecionar , uma matriz de posto reduzido que minimiza:

tal que: ; ;

ijp̂ˆ P

2/12/12/12/1

1 1

)ˆ()ˆ(ˆ

crcr

I

i

J

j ji

ijijtr

cr

ppDPPDDPPD

ji

ijij

cr

pp ˆ2/12/1 )ˆ( cr DPPD

rD

12/1 diagr

cD

12/1 diagc

Page 9: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

_____ é a melhor aproximação de posto 1 para P pela decomposição de valor singular generalizado.

crP ˆ

s

k

s

k

kckrkkckrk

1 2

2/12/12/12/1 )~)(~(~

)~)(~(~

vDuDcrvDuDP

s

k

kckrk

1

2/12/1 )~)(~(~

vDuDcrP

VUΛDPDT 2/12/1 ˆcr

VDΛUDP 2/12/1ˆcr 1 VVUU

Coordenadas principais r Coordenadas principais c

Page 10: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Na AC é usual plotar as seguintes coordenadas principais:

Coordenadas principais das linhas:

Coordenadas principais das colunas:

i

kikikrrr

r

ur

~ que tal)(

~ 2/12/11 UΛDΛUDDR

j

kjk

jkcccc

vc

~ que tal)(

~ 2/12/11 VΛDΛVDDC

Page 11: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Deve-se decidir a escala das coordenadas (normalização):

se quer analisar os perfis linha, perfis coluna ou ambos (coordenadas simétricas).

Se (linhas); (colunas); (simetria).

i

kikik

r

ur

)()(~

j

kjk

jkc

vc

)1(

)(~

1 0 2/1

Page 12: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

A inercia total principal da matriz P é:

Eij é a frequência esperada das observações na célula (i,j) , sob a hipótese os elementos das variáveis (Z,Y) sejam homogêneos.

Essa estatística pode ser interpretada como a diferença dos perfis linha (ou coluna) aos seus respectivos centroides.

ji ij

ijijJI

k

kE

En

nn ,

22)1,1min(

1

2)(1~

I

i

ijJ

j

ij

jiijn

n

n

nncnrE

11

ji ji

jiij

cr

crp

n ,

22 )(

I

i

iciii aarnad1

1),( cDcc

Page 13: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

é possível computar a proporção acumulada de d dimensões selecionadas por:

O maior “autovalor” e “autovetores” associados expressam a maior parte da variabilidade do sistema.

Escolha em torno de 90% da inércia total. Os autovalores maiores que 0,20 devem ser incluídos na análise.

)1,1min(

1

2

1

2

~

~

JI

k

k

d

k

k

Page 14: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

As distancias entre os perfis (e.g., de linha):

Em suma, AC busca uma representação gráfica de linhas e colunas de uma matriz com entradas não negativas em um espaço de menor dimensão de maneira que as distâncias chi-quadrado entre os perfis linha e entre perfis colunas são bem aproximadas por uma distância euclidiana

21

1

2121 ),( aaaaaad c

D

Page 15: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Qualidade de aproximação das categoriais (linha e

coluna).

Se for baixo, o número escolhido de dimensões não

representa bem a respectiva linha (ou coluna).

Se , então .

d

k

ikJ

j

ij

ir

i r

t

rq

1

2

1

2

)( ~

d

k

ikI

i

ij

jc

j c

t

cq

1

2

1

2

)( ~

)()( 1 c

j

r

i qq )1,1min( JId

Page 16: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

Versão simples (2 variáveis)

Contribuição relativa (linha e coluna).

Quais as categorias que mais contribuem para

expressar a inércia total por dimensões, ou as

dimensões que mais contribuem para expressar a

inércia por categorias.

2

2)(

~

~

k

ikir

ik

rrg

2

2

)(

~

~

k

jkjc

jk

ccg

J

j

c

jk

I

i

r

ik gg1

)(

1

)( 1

Page 17: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Uma extensão da versão simples porém para mais de 2 variáveis categóricas.

Existem:

Matriz indicadora;

Matriz Burt;

Conjunta (modificação da matriz Burt).

Page 18: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz Indicadora: X

Se houver muitas obs, o metédo é inviável.

Obs. w1 w2 x1 x2 y1 y2

1 1 0 1 0 1 0

2 0 1 1 0 1 0

3 0 1 0 1 1 0

4 1 0 0 1 0 1

5 1 0 0 1 0 1

6 1 0 1 0 0 1

7 0 1 0 1 1 0

8 1 0 0 1 1 0

9 1 0 1 0 0 1

10 1 0 1 0 1 0

Total 7 3 5 5 6 4

Page 19: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz Burt :

O total de observações nas categorias w1 e w2 é 10, ou seja, w1+w2=7+3=10 (=no. obs).

Combinação entre as categorias de uma variável exibe valores nulos. (vermelho)

w1 w2 x1 x2 y1 y2

w1 7 0 4 3 3 4

w2 0 3 1 2 3 0

x1 4 1 5 0 3 2

x2 3 2 0 5 3 2

y1 3 3 3 3 6 0

y2 4 0 2 2 0 4

XXB

Page 20: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Matriz de correspondência a partir a matriz Burt:

Vetor de massas de coluna:

Pode-se calcular a matriz simétrica:

A decomposição de valor singular:

khpP

b

bp kh

kh

J

k

J

h

khbb1 1

],...,,[],...,,[ 2121 JJ bbbccc c

J

k

khh pc1

ccPS

Page 21: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

A decomposição de valor singular:

As coordenadas principais das colunas:

A inércia principal (não-ajustada):

A inércia principal (ajustada):

O total da inércia principal:

...21 VVΦS

VDA 1 c

22

tt 2

2

2

1

1

qq

qt

adj

t

2

2

2

)(

1 q

qJ

q

qt t

adj

t

Page 22: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Os resultados em AMC são idênticos aos resultados para as coordenadas de coluna na versão simples da matriz indicadora.

A interpretação dos valores das coordenadas, dos valores de qualidade e outras estatísticas são similares, porém se referindo à inércia total associada à matriz B.

Page 23: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Correspondência conjunta (ACJ).

Uma vez que tanto a matriz indicadora quando à Burt inflam artificialmente as distâncias qui-quadrado entre os perfis coluna e a inércia total (GOWER, 2006),

a ACJ busca corrigir esse problema ao considerar somente os elementos fora da diagonal da matriz Burt.

Tal técnica baseia-se em um método interativo de mínimos quadrados, que inicia a partir de uma matriz . BB 0

Page 24: Apresentação do PowerPoint - ufjf.brºdo-8-–-A_Análise-de... · Análise Multivariada Aula 8: Análise de Correspondência (AC) Prof. Admir Antonio Betarelli Junior ... p I ]

AC MÚLTIPLA E CONJUNTA (ACM)

Tal algoritmo executa m interações, de maneira que em cada uma delas os elementos fora da diagonal são substituídos pelos elementos da matriz de aproximação.

Essas interações interrompem até que as matrizes Bm e Bm-1 sejam inexpressivas (convergência de solução).

A inércia total da matriz Burt modificada é definida como as somas das inércias de elementos fora da diagonal principal.

Cada elemento da matriz de aproximação em cada interação m é determinado como:

f

t

kthttkhhk aaccbb1

21ˆ