ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas...

8
1 ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) 1 A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso. Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas. Análise de Correspondências e Análise de Correspondências Múltiplas. 2 A matriz original de dados é constituída por “p” linhas (amostras) e “q” colunas (variáveis); os elementos, x ij , da matriz são contagens Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais. Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados. 3 Isso significa que as soluções, tanto entre amostras como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis. Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis. 4 Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas. A transformação consiste em recodificar duas variáveis qualitativas V 1 e V 2 em duas tabelas disjuntivas Z 1 e Z 2 . Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V 1 ocorre para uma observação i, o valor da Z 1 (i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V2. Os outros valores de Z1 e Z2 são definidos como 0(zero). A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas. Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z 1 'Z 2 (onde ‘ indica matriz transposta). 5 A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias. Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X 1 e X 2 . É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X 1 'X 2 . 6

Transcript of ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas...

Page 1: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

1

ANÁLISE DE CORRESPONDÊNCIAS(ASSOCIAÇÕES)

1

• A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso.

• Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas.

• Análise de Correspondências e Análise de Correspondências Múltiplas.

2

A matriz original de dados é constituída por “p” linhas (amostras) e “q” colunas (variáveis); os elementos, xij, da matriz são contagens

Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais.

Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados.

3

Isso significa que as soluções, tanto entre amostras como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis.

Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis.

4

•Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas.

•A transformação consiste em recodificar duas variáveis qualitativas V1 e V2 em duas tabelas disjuntivas Z1 e Z2 .

•Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V1 ocorre para uma observação i, o valor da Z1(i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V2.

•Os outros valores de Z1 e Z2 são definidos como 0(zero).

•A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas.

•Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z1'Z2 (onde ‘ indica matriz transposta).

5

•A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias.

•Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X1 e X2. É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X1'X2 .

6

Page 2: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

2

Tabela de contingências (p x q)

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

Variável X

Variável Y

7

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Tabela de contingências

Número de filhos (variáveis)

Renda familiar

(amostras,

casos)

8

039,0035,0051,0031,0

031,0047,0144,0097,0

167,0195,0105,0058,0

P 4,3

Tabela de frequências (pij = nij/N)

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

15/257 = 0,058 9

156,000

0319,00

00525,0

PL

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Matriz de perfil de linhas: Pi,j=(n1.//N, n2./N...np./N)

135/257 = 0,52510

237,0000

0276,000

00299,00

000187,0

PC

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

Matriz de perfil de colunas: Pi,j=(n.1 /N, n.2/N...n.q/N)

48/257 = 0,187 11 12

Page 3: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

3

Análise de Correspondência

>2F

2F

1F

0F

$>500

$200-500$<200

-0.1

-0.02

0.06

-0.48 -0.4 -0.32 -0.24 -0.16 -0.08 0 0.08 0.16 0.24 0.32 0.4 0.48 0.56

Colunas Linhas

1 2 … q total

1 N11 N12 … N1q N1.

2 N21 N22 … N2q N2.

… … … … … ׃

p Np1 Np2 … Npq Np.

total N.1 N.2 … N.q N.. = N

0 1 2 >2 total

<200 15 27 50 43 135

200-500 25 37 12 8 82

>500 8 13 9 10 40

total 48 77 71 61 257

13

•Inércia é uma medida, inspirada na Física, freqüentemente utilizada em Análise de Correspondências.•A inércia de um conjunto de pontos é a média ponderada das distâncias ao quadrado ao centro de gravidade. •No caso específico, a inércia total do conjunto de pontos (um ponto corresponde a uma categoria) pode ser escrita como:

1m

1i

2m

1j

2m

1j

1m

1iijj.ij.i

2

j..i

2

2

j..iij

22 nnenncom,

n

nnn

nn

n

n

n

χφ

.n é a soma de freqüencias na tabela de contingências; desse modo a inércia é proporcional à estatística qui-quadrado de Pearson, calculada a partir da tabela de contingência

•O objetivo da Análise de Correspondências é o de representar o máximo possível da inércia no primeiro eixo principal, a inércia residual sobre o segundo eixo principal e assim por diante até que toda a inércia esteja representada no espaço dos eixos principais.

14

•A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale à Analise de Componentes Principais para variáveis quantitativas.

•O produto final são gráficos onde é possível visualizar simultaneamente as distâncias entre as categorias das variáveis qualitativas e entre as observações.

•Também pode ser entendida como uma generalização da Análise de Correspondências para o caso em que existam mais de duas variáveis.

•Embora seja possível resumir numa tabela, com n observações e p (p> 2) variáveis qualitativas, numa estrutura próxima a uma tabela de contingência, é mais comum a ACM iniciar a partir da tabela original de observações e variáveis.

•A geração da tabela disjuntiva é o passo preliminar para o cáculo da ACM.

15

•As p variáveis qualitativas são recodificadas em p tabelas disjuntivas Z1, Z2, ..., ZP, compostas por um número de colunas idêntico ao de categorias em cada uma das variáveis.

•Cada vez que uma categoria c da j’ésima variável corresponder a uma observação i, o valor de ZJ (i,c) é definido como 1(um). Os outros valores Zj serão definidos como 0(zero). As p tabelas disjuntivas são concatenadas em uma tabela disjuntiva plena.

•Uma série de transformações permite a computação das coordenadas das categorias das variáveis qualitativas, bem como as coordenadas das observações em uma representação espacial ótima para um critério baseado na inércia.

•No caso da ACM a inércia total é igual à média do número de categorias menos um.

•A inércia depende fundamentalmente do grau de associação entre as categorias. 16

Avaliação de desempenho em uma oficina de automóveis

Satisfação: SIM – NÃO

Solução do problema: SIM – NÃO – DÚVIDA

Qualidade da recepção: 1-2-3-4-5

O preço cobrado esta de acordo com a razão custo/benefício: SIM – NÃO

Retorno à oficina: SIM – NÃO - DÚVIDA

17

Satisfeito Consertado Recepção Q/Preço Retorno

C01 Sim Sim 5 Sim Sim

C02 Sim Sim 4 Sim Dúvida

C03 Sim Sim 4 Sim Dúvida

C04 Sim Dúvida 4 Sim Dúvida

C05 Sim Dúvida 4 Sim Sim

C06 Sim Dúvida 4 Sim Sim

C07 Sim Dúvida 5 Sim Não

C08 Sim Dúvida 3 Sim Não

C09 Sim Sim 2 Sim Não

C10 Sim Sim 5 Não Dúvida

C11 Sim Sim 4 Não Dúvida

C12 Sim Sim 3 Não Sim

C13 Sim Sim 1 Não Não

C14 Sim Sim 1 Não Não

C15 Sim Dúvida 3 Não Não

C16 Não Não 3 Não Dúvida

C17 Não Sim 4 Não Dúvida

C18 Não Não 5 Sim Dúvida

C19 Não Sim 3 Não Dúvida

C20 Não Sim 3 Não Dúvida

C21 Não Não 3 Não Dúvida

C22 Não Não 1 Não Dúvida

C23 Não Sim 2 Não Dúvida

C24 Não Sim 2 Não Não

C25 Não Não 1 Não Não

C26 Não Sim 1 Não Não

C27 Não Sim 1 Não Não

C28 Não Dúvida 2 Não Não

18

Page 4: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

4

19

“Marketing” e tomada de decisões: clientes e modelos de carros

Modelo A Modelo B Modelo C Modelo D

Fem-1-S 58 36 24 10

Fem-2-S 54 33 49 15

Fem-3-S 36 23 55 24

Fem-1-C 45 20 25 8

Fem-2-C 24 12 45 12

Fem-3-C 45 15 23 12

Mas-1-S 23 61 15 14

Mas-2-S 21 59 16 20

Mas-3-S 15 45 21 13

Mas-1-C 12 50 32 14

Mas-2-C 21 48 21 18

Mas-3-C 14 49 25 15

20

Análise de Correspondência

Modelo D

Modelo C

Modelo B

Modelo A

Mas-3-C

Mas-2-C

Mas-1-C

Mas-3-S

Mas-2-S

Mas-1-S Fem-3-C

Fem-2-C

Fem-1-C

Fem-3-S

Fem-2-S

Fem-1-S

-0.45

-0.35

-0.25

-0.15

-0.05

0.05

0.15

0.25

0.35

-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6

Eixo I (70.69 %)

Eix

o II (26.4

4 %

)

Colunas Linhas21

Epidemiologia de doenças transmissíveis

Endemia de malária em Porto Velho (RO): um estudo baseado na análise estatística espacial de dados multivariados.

22

23

BAIRROS Criadouros Drenagens Áreas

Alagadas

Florestas

Remanescentes Nascentes Riscos

C1 >2 SIM SIM SIM SIM 2

C2 1 SIM SIM SIM SIM 1

C3 0 SIM SIM NÃO SIM 2

C4 2 SIM SIM NÃO SIM 2

C5 1 SIM NÃO SIM SIM 2

C6 0 NÃO NÃO SIM NÃO 2

C7 1 SIM SIM SIM SIM 2

C8 0 NÃO NÃO NÃO NÃO 1

C9 1 SIM NÃO NÃO SIM 1

C10 0 SIM SIM NÃO NÃO 2

C11 >2 SIM SIM SIM SIM 2

C12 0 NÃO NÃO NÃO NÃO 1

C13 1 SIM SIM NÃO SIM 1

C14 2 SIM NÃO SIM SIM 1

C15 >2 SIM SIM SIM SIM 3

C16 1 SIM SIM NÃO SIM 1

C17 0 SIM SIM NÃO SIM 3

C18 0 SIM SIM NÃO NÃO 2

C19 0 NÃO NÃO NÃO SIM 1

C20 0 SIM NÃO NÃO SIM 1

C21 0 SIM NÃO SIM SIM 2

C22 0 SIM NÃO NÃO NÃO 1

C23 0 NÃO SIM SIM NÃO 2

C24 1 SIM SIM SIM SIM 1

C25 1 SIM SIM SIM NÃO 1

C26 1 SIM SIM SIM SIM 1

C27 0 NÃO NÃO NÃO SIM 1

C28 0 SIM NÃO NÃO SIM 2

C29 >2 SIM SIM SIM SIM 3

C30 >2 SIM SIM NÃO NÃO 1

C31 0 NÃO NÃO NÃO NÃO 2

C32 0 NÃO SIM NÃO NÃO 1

C33 2 SIM SIM NÃO SIM 1

C34 0 SIM NÃO NÃO NÃO 1

C35 2 NÃO NÃO NÃO NÃO 2

C36 1 SIM SIM NÃO NÃO 2

C37 0 SIM SIM SIM SIM 1

C38 0 NÃO NÃO NÃO NÃO 1

C39 0 SIM SIM NÃO NÃO 2

C40 2 SIM SIM SIM SIM 3

C41 0 NÃO NÃO NÃO NÃO 1

C42 2 SIM SIM SIM SIM 3

24

Page 5: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

5

25

Em seguida essas informações nominais foram transformadas , para

notação binária, com a finalidade de fornecer uma tabela disjuntiva, segundo

os critérios:

a) número de criadouros: níveis; 0, 1 , 2 e mais de 2;

b) drenagens: presença (1) ou ausência (0);

c) áreas alagadas: presença (1) ou ausência (0);

d) floresta remanescente: presença (1) ou ausência (0);

e) nascentes: presença (1) ou ausência (0);

f) risco de contrair a doença, segundo o Índice P arasitário Anual (IPA):

sem risco IPA = 0 (nível 0); baixo risco 0,1 a 9,9 (nível 1); médio risco 10

a 49,9 (nível 2); alto risco IPA maior ou igual a 50 (nível 3).

Criadouros Drenagens Áreas

alagadas

Florestas

Remanescentes Nascentes Riscos

BAIRROS

0 1 2 >2 Sim Não Sim Não Sim Não Sim Não 0 1 2 3

1 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0

2 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0

3 1 0 0 0 1 0 1 0 1 0 1 0 0 0 1 0

4 0 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0

5 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0

6 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0

7 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0

8 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

9 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0

10 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0

11 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0

12 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

13 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0

14 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0

15 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1

16 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0

17 1 0 0 0 1 0 0 1 0 1 1 0 0 0 0 1

18 1 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0

19 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0

20 1 0 0 0 1 0 1 0 0 1 1 0 0 1 0 0

21 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0

22 1 0 0 0 1 0 0 1 0 1 0 1 0 1 0 0

23 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 0

24 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

25 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

26 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0

27 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0

28 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0

29 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1

30 0 0 0 1 1 0 1 0 0 1 0 1 0 1 0 0

31 1 0 0 0 0 1 0 1 0 1 0 1 0 0 1 0

32 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0

33 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0

34 1 0 0 0 0 1 0 1 0 1 0 1 0 1 0 0

35 0 0 1 0 0 1 1 0 0 1 0 1 0 0 1 0

36 0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0

37 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0 0

38 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0

26

27 28

Análise de Correspondências:Levantamento de solos efetuado pelo “Swiss Federal Institute ofTechnology” em Lausanne/Suíça, tendo sido coletado um total de 100 amostras

30

Na matriz de dados apresentada no exercício 02 constam valores para Cd, Cu e Pb.

Page 6: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

6

Os limites máximos considerados toleráveis para o consumo humano são:

Cd = 0.8; Cu = 50; Pb = 50

Tendo em vista esses valores, preliminarmente, efetuar uma transformação para as variáveis Cd, Cu e Pb da seguinte maneira:Se Cdi ≥ 0.8, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)Se Cu ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)Se Pb ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)

31 32

Para a transformação binária usar o aplicativo Excel®|função (fx)|Lógica|SE, da seguinte maneira:

Para cádmio: =SE(x,y<=0.8;0;1)Para cobre: =SE(x,y<=50;0;1)Para chumbo =SE(x,y<=50;0;1)

De posse dessa nova tabela, com valores binários, efetuar análise de correspondências múltiplas para confrontar os resultados das 3 variáveis geoquímicas tanto com a litologia como com o uso da terra.

33 34

35 36

Page 7: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

7

37

Concentrações de Cd e Pb

acima dos limites toleráveis estão associadas à lavoura.

Associação entre pradaria e

terrenos J3; entre floresta e terrenos J2.

explicação

38

39 40

41

Dados: metais pesados (ppm) provenientes de diversas profundidades (cm) de uma sondagem no leito de uma laguna

Page 8: ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) · •A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale

8

43

Tendência do teor em metais pesados com o aumento da profundidade?

Comportamento das variáveis é o mesmo com o aumento da profundidade?