UNIVERSIDADE FEDERAL DO PARANÁ
Programa de
Pós-Graduação em Métodos Numéricos em Engenharia
Trabalho de
Análise Multivariada Aplicada à Pesquisa
Prof. D. Jair Mendes Marques
Aluna
Marina Vargas R. P. G. Ferreira
Curitiba - PR
2010
Sumário
1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias 3
2 Lista 2 - Distribuição Normal Multivariada 33
3 Lista 3 - Inferência sobre o vetor de médias e MANOVA 48
4 Lista 4: Análise de Componentes Principais 75
5 Lista 5: Análise Fatorial 99
6 Lista 6: Análise Discriminante 121
7 Lista 7: Regressão Logística 135
8 Lista 8: Análise de Agrupamento 146
9 Lista 9: Análise de Correlação Canônica 169
2
1 Lista 1 - Álgebra matricial, vetores aleatórios e amostras aleatórias
Resolver os problemas 1 até 16, com uso do MATLAB
1. Dadas as matrizes
A =
⎡⎢⎢⎢⎢⎢⎢⎣
−7 0 5 4
3 −3 −2 3
7 5 4 1
2 2 7 −3
⎤⎥⎥⎥⎥⎥⎥⎦, B =
⎡⎢⎢⎢⎢⎢⎢⎣
8 5 7 5
−1 −3 −3 −1
−1 3 −2 5
1 1 3 6
⎤⎥⎥⎥⎥⎥⎥⎦
e C =
⎡⎢⎢⎢⎢⎢⎢⎣
−5 5 0 −5
2 −3 2 2
2 3 −1 1
0 4 1 −3
⎤⎥⎥⎥⎥⎥⎥⎦,
calcular:
(a) A+B;
>> A+B
ans =
1 5 12 9
2 -6 -5 2
6 8 2 6
3 3 10 3
(b) C −B;
>> C-B
ans =
-13 0 -7 -10
3 0 5 3
3 0 1 -4
-1 3 -2 -9
(c) −5 ⋅B;
>> (-5)*B
ans =
-40 -25 -35 -25
5 15 15 5
5 -15 10 -25
-5 -5 -15 -30
3
(d) A+ 3 ⋅B − 5 ⋅ C;
>> A+3*B-5*C
ans =
42 -10 26 44
-10 3 -21 -10
-6 -1 3 11
5 -15 11 30
(e) B ⋅A;
>> B*A
ans =
18 30 93 39
-25 -8 -18 -13
12 -9 16 -12
29 24 57 -8
(f) (C ⋅A) ⋅B;
>> (C*A)*B
ans =
425 75 525 -65
-106 15 -195 112
-62 20 -9 75
164 51 246 85
(g) A ⋅ (B − C);
>> A*(B-C)
ans =
-102 -12 -46 -14
57 -9 44 58
65 -3 22 80
-4 9 -9 15
(h) A−1;
>> inv(A)
ans =
4
-0.0507 0.0941 0.0404 0.0400
0.0097 -0.2008 0.1365 -0.1423
0.0526 0.0658 -0.0132 0.1316
0.0955 0.0824 0.0872 -0.0945
(i) (B ⋅ C)−1
>> inv(B*C)
ans =
-0.0568 0.0389 0.0019 0.1170
0.0181 -0.0776 -0.0252 -0.0256
0.0487 -0.1005 0.0613 -0.1177
0.0393 -0.1723 -0.0316 -0.1184
(j) tr(A);
>> trace(A)
ans =
-9
(k) tr(B + C);
>> trace(B+C)
ans =
-3
(l) B2;
>> B^2
ans =
57 51 42 100
-3 -6 5 -23
-4 -15 3 12
10 17 16 55
(m) C3;
>> C^3
ans =
-285 570 -75 -440
114 -257 52 180
5
50 -44 -12 66
-84 197 -28 -142
(n) tr(A+B)−1;
>> trace(inv(A+B))
ans =
-0.4004
(o) A′;
>> A’
ans =
-7 3 7 2
0 -3 5 2
5 -2 4 7
4 3 1 -3
(p) (B +A− C ′)′;
>> (B+A-C’)’
ans =
6 -3 6 8
3 -3 6 1
10 -8 3 9
9 -2 5 6
(q) det(B);
>> det(B)
ans =
613
(r) det(A−B).
>> det(A-B)
ans =
-152
2. Dados os vetores: u = [0, 3,−1, 0, 5], v = [−5, 1,−5, 1, 4] e w = [1,−1,−3, 0, 2], calcular:
6
(a) u ∙ v;
u ∙ v = 28
(b) w ∙ v;
w ∙ v = 17
(c) u ∙ (v + w);
u ∙ (v + w) = 38
(d) u ∙ (v − w).
u ∙ (v − w) = 18
3. Dados os vetores: u1 = [2,−1, 3, 2], u2 = [−1, 3, 2, 1], u3 = [−4, 2,−6,−4] e u4 =
[6,−3, 9, 6], verifique se são L.D. ou L.I.:
(a) u1 e u2;
Como
M =
⎡⎢⎢⎢⎢⎢⎢⎣
2 −1
−1 3
3 2
2 1
⎤⎥⎥⎥⎥⎥⎥⎦
e rank(MA) = 2, então os vetores u1 e u2 são Linearmente Independentes.
(b) u1 e u3;
Como
MM =
⎡⎢⎢⎢⎢⎢⎢⎣
2 −4
−1 2
3 −6
2 −4
⎤⎥⎥⎥⎥⎥⎥⎦
e rank(MM) = 1, então os vetores u1 e u3 são Linearmente Dependentes.
(c) u1, u2 e u3;
7
Como
TT =
⎡⎢⎢⎢⎢⎢⎢⎣
2 −1 −4
−1 3 2
3 2 −6
2 1 −4
⎤⎥⎥⎥⎥⎥⎥⎦
e rank(TT ) = 2, então os vetores u1, u2 e u3 são Linearmente Dependentes.
(d) u1, u3 e u4;
Como
TH =
⎡⎢⎢⎢⎢⎢⎢⎣
2 −4 6
−1 2 −3
3 −6 9
2 −4 6
⎤⎥⎥⎥⎥⎥⎥⎦
e rank(TH) = 1, então os vetores u1, u3 e u4 são Linearmente Dependentes.
(e) u1, u2 , u3 e u4.
Como
GG =
⎡⎢⎢⎢⎢⎢⎢⎣
2 −1 −4 6
−1 3 2 −3
3 2 −6 9
2 1 −4 6
⎤⎥⎥⎥⎥⎥⎥⎦
e rank(GG) = 2, então os vetores u1, u2, u3 e u4 são Linearmente Dependentes.
4. Calcular a norma ou comprimento de cada um dos vetores do item 2.
- ∥u∥ = 5.9161
- ∥v∥ = 8.2462
- ∥w∥ = 3.8730
5. Determinar os autovalores e autovetores normalizados das matrizes:
A =
⎡⎢⎢⎢⎣
9 −1 3
−1 5 1
3 1 7
⎤⎥⎥⎥⎦
Matriz de autovetores
8
e =
⎡⎢⎢⎢⎣
0.441225 0.374359 0.815583
0.687013 −0.725619 −0.0386051
−0.57735 −0.57735 0.57735
⎤⎥⎥⎥⎦
Matriz de autovalores
L =
⎡⎢⎢⎢⎣
3.51739 0 0
0 6.31158 0
0 0 11.171
⎤⎥⎥⎥⎦
Assim
Autovalores Autovetores
¸1 = 3.51739 e1 = [0.441225 0.687013 -0.57735]’
¸2 = 6.31158 e2 = [0.374359 -0.725619 -0.57735]’
¸3 = 11.171 e3 = [0.815583 -0.0386051 0.57735]’
e
B =
⎡⎢⎢⎢⎢⎢⎢⎣
−3 5 1 3
5 −3 1 5
1 1 3 −4
3 5 −4 6
⎤⎥⎥⎥⎥⎥⎥⎦
Matriz de autovetores
e =
⎡⎢⎢⎢⎢⎢⎢⎣
0.627122 −0.598371 0.408248 0.286361
−0.76064 −0.340226 0.408248 0.372836
0.0667588 0.469299 0.816497 −0.329599
0.153909 0.553133 1.69362e−017 0.818752
⎤⎥⎥⎥⎥⎥⎥⎦
Matriz de autovalores
L =
⎡⎢⎢⎢⎢⎢⎢⎣
−8.22181 0 0 0
0 −3.71455 0 0
0 0 4 0
0 0 0 10.9364
⎤⎥⎥⎥⎥⎥⎥⎦
Assim
9
Autovalores Autovetores
¸1 = -8.2218 e1 = [0.627122 -0.76064 0.0667588 0.153909]’
¸2 = -3.7146 e2 = [ -0.598371 -0.340226 0.469299 0.553133]’
¸3 = 4.0000 e3 = [0.408248 0.408248 0.816497 1.69362e−017]’
¸4 = 10.9364 e4 = [ 0.286361 0.372836 -0.329599 0.818752 ]’
6. Determine as matrizes A1/2 e B1/2, se existirem, para as matrizes do item 5.
>> A=[9 -1 3; -1 5 1; 3 1 7]
A =
9 -1 3
-1 5 1
3 1 7
>> [e,L]=eig(A)
e =
0.4412 0.3744 0.8156
0.6870 -0.7256 -0.0386
-0.5774 -0.5774 0.5774
L =
3.5174 0 0
0 6.3116 0
0 0 11.1710
>> AR=e*(sqrt(L))*e’
AR =
2.9404 -0.2192 0.5531
-0.2192 2.2130 0.2341
0.5531 0.2341 2.5767
ou
>> AR=sqrtm(A)
AR =
2.9404 -0.2192 0.5531
-0.2192 2.2130 0.2341
0.5531 0.2341 2.5767
10
A1/2 =
⎡⎢⎢⎢⎣
2.94042 −0.21917 0.553062
−0.21917 2.21295 0.234092
0.553062 0.234092 2.57669
⎤⎥⎥⎥⎦
>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6]
B =
-3 5 1 3
5 -3 1 5
1 1 3 -4
3 5 -4 6
>> [e,L]=eig(B)
e =
0.6271 -0.5984 0.4082 0.2864
-0.7606 -0.3402 0.4082 0.3728
0.0668 0.4693 0.8165 -0.3296
0.1539 0.5531 0.0000 0.8188
L =
-8.2218 0 0 0
0 -3.7146 0 0
0 0 4.0000 0
0 0 0 10.9364
B1/2 Não existe, pois B1/2 =k∑
i=1
√¸ieie
′i = PΛ1/2P ′, dependendo assim dos autovalores,
onde dois deles são negativos.
7. Para a matriz B do item 6 verifique se é possível: (B1/2)−1 = PΛ−1/2P ′.
Temos que(A1/2
)−1=
k∑i=′
1√¸ieie
′i = PΛ−1/2P ′, como existem autovalores negativos, não é
possível encontrar (B1/2)−1.
8. Verificar se existe alguma matriz positiva definida entre as matrizes A e B do item 6.
(a) Do item 6, temos
11
Autovalores A B
¸1 3.5174 -8.2218
¸2 6.3116 -3.7146
¸3 11.1710 4.0000
¸4 10.9364
A matriz A é positiva definida, pois seus autovalores são positivos, já a matriz B não é
positiva definida.
9. Calcular o comprimento ou norma de cada vetor coluna das matrizes A e B do item 6.
Matriz A
>> A=[9 -1 3; -1 5 1; 3 1 7];
>> u1=[9 -1 -3]
u1 =
9 -1 -3
>> u2=[-1 5 1]
u2 =
-1 5 1
>> u3=[3 1 7]
u3 =
3 1 7
>> norm(u1)
ans =
9.5394
>> norm(u2)
ans =
5.1962
>> norm(u3)
ans =
7.6811
>> B=[-3 5 1 3;5 -3 1 5;1 1 3 -4;3 5 -4 6];
>> u1=[-3 5 1 3]
u1 =
12
-3 5 1 3
>> u2=[5 -3 1 5]
u2 =
5 -3 1 5
>> u3=[1 1 3 -4]
u3 =
1 1 3 -4
>> u4=[3 5 -4 6]
u4 =
3 5 -4 6
>> norm(u1)
ans =
6.6332
>> norm(u2)
ans =
7.7460
>> norm(u3)
ans =
5.1962
>> norm(u4)
ans =
9.2736
Vetores Coluna A B
u1 9.5394 6.6332
u2 5.1962 7.7460
u3 7.6811 5.1962
u4 9.2736
10. Considere a matriz de covariância
Σ =
⎡⎢⎢⎢⎢⎢⎢⎣
9 0 0 0
0 16 0 0
0 0 20 0
0 0 0 25
⎤⎥⎥⎥⎥⎥⎥⎦,
13
determine:
(a) Σ−1;
>> sigma=[9 0 0 0;0 16 0 0;0 0 20 0;0 0 0 25]
sigma =
9 0 0 0
0 16 0 0
0 0 20 0
0 0 0 25
>> InvSigma=inv(sigma)
InvSigma =
0.1111 0 0 0
0 0.0625 0 0
0 0 0.0500 0
0 0 0 0.0400
(b) Os autovalores e autovetores normalizados de Σ;
>> [e,L]=eig(sigma)
e =
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
L =
9 0 0 0
0 16 0 0
0 0 20 0
0 0 0 25
Autovalores Autovetores
¸1 = 9 e1 = [1 0 0 0]’
¸2 = 16 e2 = [0 1 0 0]’
¸3 = 20 e3 = [0 0 1 0]’
¸4 = 25 e4 = [0 0 0 1 ]’
14
(c) os autovalores e autovetores normalizados de Σ−1.
>> [einv,Linv]=eig(InvSigma)
einv =
0 0 0 1
0 0 1 0
0 1 0 0
1 0 0 0
Linv =
0.0400 0 0 0
0 0.0500 0 0
0 0 0.0625 0
0 0 0 0.1111
Autovalores Autovetores
¸1 = 0.0400 e1 = [0 0 0 1]’
¸2 = 0.0500 e2 = [0 0 1 0]’
¸3 = 0.0625 e3 = [0 1 0 0]’
¸4 = 0.1111 e4 = [1 0 0 0 ]’
11. Dada a matriz covariância
Σ =
⎡⎢⎢⎢⎢⎢⎢⎣
4 −1 3 4
−1 5 2 1
3 2 4 5
4 1 5 5
⎤⎥⎥⎥⎥⎥⎥⎦
determine:
(a) A matriz de correlação ½;
>> Sigma=[4 -1 3 4;-1 5 2 1;3 2 4 5;4 1 5 5]
>> V=diag(diag(Sigma))
V =
4 0 0 0
0 5 0 0
0 0 4 0
0 0 0 5
>> Vraiz=sqrtm(V)
15
Vraiz =
2.0000 0 0 0
0 2.2361 0 0
0 0 2.0000 0
0 0 0 2.2361
>> IVraiz=inv(Vraiz)
IVraiz =
0.5000 0 0 0
0 0.4472 0 0
0 0 0.5000 0
0 0 0 0.4472
>> Corre=IVraiz*Sigma*IVraiz
Matriz de Correlação =
1.0000 -0.2236 0.7500 0.8944
-0.2236 1.0000 0.4472 0.2000
0.7500 0.4472 1.0000 1.1180
0.8944 0.2000 1.1180 1.0000
(b) Verifique a relação V 1/2½V 1/2 = Σ;
>> Corre=IVraiz*Sigma*IVraiz
Corre =
1.0000 -0.2236 0.7500 0.8944
-0.2236 1.0000 0.4472 0.2000
0.7500 0.4472 1.0000 1.1180
0.8944 0.2000 1.1180 1.0000
>> Sigma=Vraiz*Corre*Vraiz
Sigma =
4.0000 -1.0000 3.0000 4.0000
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000
(c) Efetue a decomposição espectral de Σ
Sigma =
4.0000 -1.0000 3.0000 4.0000
16
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000
>> [e,L]=eig(Sigma)
e =
0.0997 -0.7697 0.4143 0.4754
-0.1147 -0.3916 -0.8967 0.1715
0.7156 0.3704 -0.1434 0.5745
-0.6817 0.3421 0.0609 0.6438
L =
-0.6656 0 0 0
0 0.2695 0 0
0 0 5.7140 0
0 0 0 12.6821
>> Auto=e*L*e’
Auto =
4.0000 -1.0000 3.0000 4.0000
-1.0000 5.0000 2.0000 1.0000
3.0000 2.0000 4.0000 5.0000
4.0000 1.0000 5.0000 5.0000
Então, vê-se que A = PAP ′. A= matriz dos Autovalores de sigma P= matriz dos
Autovetores de sigma
12. Uma amostra multivariada aleatória X (com 12 observações e 6 variáveis) é dada a seguir:
17
X =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
39 51 53 42 55 48
47 51 53 48 53 57
43 45 46 44 44 51
49 46 49 45 48 57
51 55 44 57 49 56
52 49 39 50 44 47
57 52 55 44 43 44
48 50 47 50 55 50
53 47 52 44 50 48
54 47 51 43 47 46
55 52 50 49 54 52
43 43 45 56 52 56
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
(a) o vetor de médias;
>> X=[39 51 53 42 55 48;47 51 53 48 53 57; 43 45 46 44 44 51; 49 46 49 45 48 57;51 55 44 57 49 56;52 49 39 50 44 47;57 52 55 44 43 44;48 50 47 50 55 50;53 47 52 44 50 48;54 47 51 43 47 46;55 52 50 49 54 52;43 43 45 56 52 56]
X =
39 51 53 42 55 48
47 51 53 48 53 57
43 45 46 44 44 51
49 46 49 45 48 57
51 55 44 57 49 56
52 49 39 50 44 47
57 52 55 44 43 44
48 50 47 50 55 50
53 47 52 44 50 48
54 47 51 43 47 46
55 52 50 49 54 52
43 43 45 56 52 56
>> mean(X)
ans =
49.2500 49.0000 48.6667 47.6667 49.5000 51.0000
(b) a matriz covariância estimada S;
S=cov(X)
18
ans =
30.0227 6.4545 3.0000 -0.7273 -9.3182 -9.0909
6.4545 12.0000 2.8182 2.7273 2.7273 -1.3636
3.0000 2.8182 21.3333 -14.4848 4.6364 -4.6364
-0.7273 2.7273 -14.4848 24.6061 4.5455 12.8182
-9.3182 2.7273 4.6364 4.5455 19.1818 7.5455
-9.0909 -1.3636 -4.6364 12.8182 7.5455 21.0909
(c) a matriz de correlação R;
>> M=diag(diag(S))
M =
30.0227 0 0 0 0 0
0 12.0000 0 0 0 0
0 0 21.3333 0 0 0
0 0 0 24.6061 0 0
0 0 0 0 19.1818 0
0 0 0 0 0 21.0909
>> raizM=sqrtm(M)
raizM =
5.4793 0 0 0 0 0
0 3.4641 0 0 0 0
0 0 4.6188 0 0 0
0 0 0 4.9604 0 0
0 0 0 0 4.3797 0
0 0 0 0 0 4.5925
>> invRM=inv(raizM)
invRM =
0.1825 0 0 0 0 0
0 0.2887 0 0 0 0
0 0 0.2165 0 0 0
0 0 0 0.2016 0 0
0 0 0 0 0.2283 0
0 0 0 0 0 0.2177
>> R=invRM*S*invRM
R =
1.0000 0.3401 0.1185 -0.0268 -0.3883 -0.3613
0.3401 1.0000 0.1761 0.1587 0.1798 -0.0857
0.1185 0.1761 1.0000 -0.6322 0.2292 -0.2186
-0.0268 0.1587 -0.6322 1.0000 0.2092 0.5627
-0.3883 0.1798 0.2292 0.2092 1.0000 0.3751
-0.3613 -0.0857 -0.2186 0.5627 0.3751 1.0000
19
(d) a matriz desvio padrão D1/2.
>> DM=diag(diag(S))
DM =
30.0227 0 0 0 0 0
0 12.0000 0 0 0 0
0 0 21.3333 0 0 0
0 0 0 24.6061 0 0
0 0 0 0 19.1818 0
0 0 0 0 0 21.0909
>> DeM=sqrtm(DM)
DeM =
5.4793 0 0 0 0 0
0 3.4641 0 0 0 0
0 0 4.6188 0 0 0
0 0 0 4.9604 0 0
0 0 0 0 4.3797 0
0 0 0 0 0 4.5925
13. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens
obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,
situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de
estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para
cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...
, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;
COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área
total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e
b (mg/10g)).
20
Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT
1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00
2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22
3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90
6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73
7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32
9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09
10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28
11. F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25
12. F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35
13. F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26
14. F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
15. F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39
16. F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29
17. F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27
18. F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40
19. F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62
20. F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37
(a) montar a matriz de dados X;
>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22;5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61;7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44;5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90;9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73;9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82;6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32;6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09;8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28;9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25;5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35;6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26;7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36;8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39;6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29;8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27;6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40;7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62;8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37]
X =
4.50 6.75 5.25 71.00 45.50 8.75 97.90 5.12 18.00
8.75 9.50 11.50 43.50 53.75 14.50 52.40 1.91 15.22
5.75 8.25 8.50 51.25 42.00 9.50 50.60 2.74 15.61
7.75 9.75 11.75 50.25 41.25 10.25 49.30 0.89 14.44
5.50 6.50 5.00 73.25 40.50 6.50 96.50 6.68 17.90
9.50 12.00 28.50 31.50 61.75 31.25 11.10 0.27 12.73
9.00 10.25 9.25 61.75 48.00 10.00 90.20 3.71 14.82
6.75 7.75 6.25 82.00 44.50 6.75 96.70 5.36 17.32
6.25 6.50 5.25 80.25 46.75 6.75 96.00 6.55 15.09
8.50 10.00 8.25 74.75 55.50 10.50 97.90 2.05 16.28
9.00 11.50 20.50 43.75 58.00 22.25 19.70 0.81 10.25
21
5.75 7.00 11.00 28.25 31.00 9.00 14.30 0.62 12.35
6.25 7.50 17.50 22.00 31.00 13.50 4.20 0.15 8.26
7.00 9.75 9.75 61.25 53.75 11.75 55.30 1.96 14.36
8.25 10.50 9.00 83.00 60.00 11.75 85.80 6.64 11.39
6.75 8.25 8.00 59.00 46.75 9.75 45.50 2.20 12.29
8.00 10.00 11.00 49.25 48.00 14.00 16.90 1.17 13.27
6.75 8.00 10.75 43.75 42.00 10.00 38.10 1.58 14.40
7.75 10.25 15.50 45.25 58.75 20.50 29.20 0.74 15.62
8.25 11.00 16.75 31.25 46.75 18.25 21.50 9.63 10.37
(b) estimar o vetor de médias;
>> M=mean(X)
M =
7.30 9.05 11.46 54.31 47.77 12.77 53.45 3.04 13.99
(c) estimar a matriz de covariâncias;
>> S=cov(X)
S =
1.89 2.13 4.73 -4.94 8.22 5.53 -11.35 -0.72 -1.22
2.13 2.92 6.72 -8.54 10.94 8.06 -20.95 -0.90 -1.72
4.73 6.72 33.94 -80.04 16.73 33.67 -150.59 -6.78 -9.38
-4.94 -8.54 -80.04 352.20 40.52 -65.53 590.45 26.02 30.46
8.22 10.94 16.73 40.52 76.05 31.28 31.42 0.06 1.18
5.53 8.06 33.67 -65.53 31.28 37.74 -132.46 -5.62 -7.25
-11.35 -20.95 -150.59 590.45 31.42 -132.46 1160.39 51.43 63.90
-0.72 -0.90 -6.78 26.02 0.06 -5.62 51.43 7.30 1.41
-1.22 -1.72 -9.38 30.46 1.18 -7.25 63.90 1.41 6.91
(d) determinar os autovalores e autovetores da matriz de covariâncias;
Matriz dos autovetores. Cada coluna é um autovetor.
>> [e,L]=eig(S)
e =
0.71 0.23 0.58 0.31 -0.07 -0.01 0.05 -0.09 -0.01
-0.50 -0.50 0.64 0.24 -0.11 -0.01 0.04 -0.13 -0.02
-0.31 0.49 0.09 0.15 0.40 0.56 0.28 -0.26 -0.12
0.02 -0.01 0.07 -0.06 0.18 0.25 -0.78 -0.27 0.46
-0.10 0.19 -0.17 0.06 -0.28 -0.42 0.08 -0.81 0.03
0.37 -0.57 -0.09 -0.36 0.22 0.33 0.27 -0.41 -0.10
0.00 -0.03 -0.04 0.07 0.00 -0.00 0.47 0.08 0.87
-0.04 0.17 0.13 -0.42 -0.75 0.45 0.02 0.01 0.04
-0.09 0.23 0.43 -0.72 0.31 -0.37 0.06 0.02 0.05
22
A matriz de autovalores, onde estes se localizam na sua diagonal é:
L =
0.15 0 0 0 0 0 0 0 0
0 0.17 0 0 0 0 0 0 0
0 0 0.92 0 0 0 0 0 0
0 0 0 3.12 0 0 0 0 0
0 0 0 0 5.11 0 0 0 0
0 0 0 0 0 7.40 0 0 0
0 0 0 0 0 0 38.16 0 0
0 0 0 0 0 0 0 109.79 0
0 0 0 0 0 0 0 0 1514.51
(e) estimar a matriz de correlações.
>> X=[4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00; 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22;5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61;7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44;5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90;9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73;9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82;6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32;6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09;8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28;9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25;5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35;6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26;7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36;8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39;6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29;8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27;6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40;7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62;8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37]
X =
4.5000 6.7500 5.2500 71.0000 45.5000 8.7500 97.9000 5.1200 18.0000
8.7500 9.5000 11.5000 43.5000 53.7500 14.5000 52.4000 1.9100 15.2200
5.7500 8.2500 8.5000 51.2500 42.0000 9.5000 50.6000 2.7400 15.6100
7.7500 9.7500 11.7500 50.2500 41.2500 10.2500 49.3000 0.8900 14.4400
5.5000 6.5000 5.0000 73.2500 40.5000 6.5000 96.5000 6.6800 17.9000
9.5000 12.0000 28.5000 31.5000 61.7500 31.2500 11.1000 0.2700 12.7300
9.0000 10.2500 9.2500 61.7500 48.0000 10.0000 90.2000 3.7100 14.8200
6.7500 7.7500 6.2500 82.0000 44.5000 6.7500 96.7000 5.3600 17.3200
6.2500 6.5000 5.2500 80.2500 46.7500 6.7500 96.0000 6.5500 15.0900
8.5000 10.0000 8.2500 74.7500 55.5000 10.5000 97.9000 2.0500 16.2800
9.0000 11.5000 20.5000 43.7500 58.0000 22.2500 19.7000 0.8100 10.2500
5.7500 7.0000 11.0000 28.2500 31.0000 9.0000 14.3000 0.6200 12.3500
6.2500 7.5000 17.5000 22.0000 31.0000 13.5000 4.2000 0.1500 8.2600
7.0000 9.7500 9.7500 61.2500 53.7500 11.7500 55.3000 1.9600 14.3600
8.2500 10.5000 9.0000 83.0000 60.0000 11.7500 85.8000 6.6400 11.3900
6.7500 8.2500 8.0000 59.0000 46.7500 9.7500 45.5000 2.2000 12.2900
8.0000 10.0000 11.0000 49.2500 48.0000 14.0000 16.9000 1.1700 13.2700
6.7500 8.0000 10.7500 43.7500 42.0000 10.0000 38.1000 1.5800 14.4000
7.7500 10.2500 15.5000 45.2500 58.7500 20.5000 29.2000 0.7400 15.6200
8.2500 11.0000 16.7500 31.2500 46.7500 18.2500 21.5000 9.6300 10.3700
>> S=cov(X)
S =
1.0e+003 *
0.0019 0.0021 0.0047 -0.0049 0.0082 0.0055 -0.0113 -0.0007 -0.0012
0.0021 0.0029 0.0067 -0.0085 0.0109 0.0081 -0.0209 -0.0009 -0.0017
0.0047 0.0067 0.0339 -0.0800 0.0167 0.0337 -0.1506 -0.0068 -0.0094
-0.0049 -0.0085 -0.0800 0.3522 0.0405 -0.0655 0.5905 0.0260 0.0305
0.0082 0.0109 0.0167 0.0405 0.0761 0.0313 0.0314 0.0001 0.0012
0.0055 0.0081 0.0337 -0.0655 0.0313 0.0377 -0.1325 -0.0056 -0.0072
-0.0113 -0.0209 -0.1506 0.5905 0.0314 -0.1325 1.1604 0.0514 0.0639
-0.0007 -0.0009 -0.0068 0.0260 0.0001 -0.0056 0.0514 0.0073 0.0014
23
-0.0012 -0.0017 -0.0094 0.0305 0.0012 -0.0072 0.0639 0.0014 0.0069
>> V=diag(diag(S))
V =
1.0e+003 *
0.0019 0 0 0 0 0 0 0 0
0 0.0029 0 0 0 0 0 0 0
0 0 0.0339 0 0 0 0 0 0
0 0 0 0.3522 0 0 0 0 0
0 0 0 0 0.0761 0 0 0 0
0 0 0 0 0 0.0377 0 0 0
0 0 0 0 0 0 1.1604 0 0
0 0 0 0 0 0 0 0.0073 0
0 0 0 0 0 0 0 0 0.0069
>> RV=sqrtm(V)
RV =
1.3755 0 0 0 0 0 0 0 0
0 1.7083 0 0 0 0 0 0 0
0 0 5.8255 0 0 0 0 0 0
0 0 0 18.7671 0 0 0 0 0
0 0 0 0 8.7208 0 0 0 0
0 0 0 0 0 6.1435 0 0 0
0 0 0 0 0 0 34.0645 0 0
0 0 0 0 0 0 0 2.7021 0
0 0 0 0 0 0 0 0 2.6285
>> IRV=inv(RV)
IRV =
0.7270 0 0 0 0 0 0 0 0
0 0.5854 0 0 0 0 0 0 0
0 0 0.1717 0 0 0 0 0 0
0 0 0 0.0533 0 0 0 0 0
0 0 0 0 0.1147 0 0 0 0
0 0 0 0 0 0.1628 0 0 0
0 0 0 0 0 0 0.0294 0 0
0 0 0 0 0 0 0 0.3701 0
0 0 0 0 0 0 0 0 0.3804
>> R=IRV*S*IRV
R =
1.0000 0.9074 0.5897 -0.1913 0.6849 0.6546 -0.2421 -0.1940 -0.3388
0.9074 1.0000 0.6755 -0.2664 0.7343 0.7681 -0.3599 -0.1956 -0.3820
0.5897 0.6755 1.0000 -0.7321 0.3293 0.9408 -0.7588 -0.4304 -0.6124
-0.1913 -0.2664 -0.7321 1.0000 0.2476 -0.5683 0.9236 0.5131 0.6175
0.6849 0.7343 0.3293 0.2476 1.0000 0.5839 0.1058 0.0025 0.0513
0.6546 0.7681 0.9408 -0.5683 0.5839 1.0000 -0.6329 -0.3383 -0.4488
-0.2421 -0.3599 -0.7588 0.9236 0.1058 -0.6329 1.0000 0.5588 0.7137
-0.1940 -0.1956 -0.4304 0.5131 0.0025 -0.3383 0.5588 1.0000 0.1984
-0.3388 -0.3820 -0.6124 0.6175 0.0513 -0.4488 0.7137 0.1984 1.0000
14. Uma amostra multivariada X de tamanho n = 12 foi obtida de um vetor aleatório p =
24
[alturas pesos], resultando
Indivíduo Altura Peso
1 165 83
2 180 82
3 178 67
4 167 72
5 190 95
6 175 70
7 178 75
8 183 80
9 169 70
10 177 73
11 184 85
12 170 68
(a) Construir a matriz de dados;
>> X=[165 83;180 82; 178 67; 167 72;190 95; 175 70;178 75;183 80;169 70;177 73;184 85;170 68]
X =
165 83
180 82
178 67
167 72
190 95
175 70
178 75
183 80
169 70
177 73
184 85
170 68
(b) calcular o vetor de médias;
>> EX=mean(X)
EX =
176.3333 76.6667
(c) representar graficamente num espaço bidimensional as observações e o vetor de médias.
25
165 170 175 180 185 19065
70
75
80
85
90
95
Altura
Pes
o
Resolver os problemas 15 até 21, sem uso do MATLAB.
15. Determinar os autovalores e autovetores normalizados da matriz A =
⎡⎣ 9 −3
−3 9
⎤⎦ .
Seja Ae = ¸e, então (A− ¸I)e = 0, assim
∣ A− ¸I ∣= 0 ⇒∣∣∣∣∣∣9− ¸ −3
−3 9− ¸
∣∣∣∣∣∣= 0 ⇒ (9− ¸)2 − 9 = 0 ⇒ (¸− 6)(¸− 12) = 0
Para ¸1 = 6 Para ¸2 = 12⎛⎝ 3 −3
−3 3
⎞⎠
⎛⎝ e11
e21
⎞⎠ =
⎛⎝ 0
0
⎞⎠
⎛⎝ −3 −3
−3 −3
⎞⎠
⎛⎝ f11
f21
⎞⎠ =
⎛⎝ 0
0
⎞⎠
⎧⎨⎩
3e11 − 3e21 = 0
−3e11 + 3e21 = 0
⎧⎨⎩
−3f11 − 3f21 = 0
−3f11 − 3f21 = 0
3e11 = 3e21 ⇒ e11 = e21 −3f11 = 3f21 ⇒ f11 = −f21
Para autovetores normalizados, tem-se: Para autovetores normalizados, tem-se:√(e11)2 + (e11)2 = 1
√(f11)2 + (−f11)2 = 1
Assim e11 =1√2e e21 =
1√2
Assim f11 =1√2e f21 = − 1√
2
¸1 = 6, autovetor e =
⎛⎝
1√2
1√2
⎞⎠ ¸2 = 12, autovetor f =
⎛⎝
1√2
− 1√2
⎞⎠
16. Pesquisar o que é uma pseudo-inversa. Exemplificar e dar suas propriedades.
Definição: Dada a matriz A : mxn, m ≥ n com posto(A) = r e sua fatoração em de-
composição em valores singulares (SVD), chama-se pseudo-inversa de Moore-Penrose de
26
A, a matriz A+ ∈ IRnxm, A+ = V Σ+UT , onde Σ+ = diag
Ã1
¾1, ...1
¾r,0...,0
)∈ IRnxm,
U = [u1, ..., um] e v = [v1, ..., vn]. Se posto(A) = n, então A+ = (ATA)−1AT . Se
m = n = posto(A), então A+ = A−1.
Teorema:(Pseudo-Inversa) Para toda matriz A ∈ IRmxn, existe uma única matriz
A+ ∈ IRnxm, denominada pseudo-inversa de A, satisfazendo as condições de Moore-
Penrose.
(a) AA+A = A
(b) (A+A)T = A+A
(c) A+AA+ = A+
(d) (AA+)T = AA+
Demonstração: Seja A = UΣV T uma SVD da matriz A. Sabemos que A+ = V Σ+UT .
Assim:
(a) AA+A = UΣV TV Σ+UTUΣV T = UΣΣ+ΣV T = UΣV T = A
(b) (A+A)T = (V Σ+UTUΣV T )T = V (Σ+Σ)TV T = V (Σ+Σ)V T = V Σ+UTUΣV T =
A+A
(c) A+AA+ = V Σ+UTUΣV TV Σ+UT = V Σ+ΣΣ+UT = V Σ+UT = A+
(d) (AA+)T = (UΣV TV Σ+UT )T = U(ΣΣ+)TUT = U(ΣΣ+)UT = UΣV TV Σ+UT =
AA+
17. Dar um exemplo de uma matriz ortogonal 3 X 3 e calcular o determinante associado. Em
Álgebra linear, uma matriz ortogonal é uma matriz real M cuja inversa coincide com a sua
transposta, isto é: M−1 = MT , isto é, MMT = MTM = I Ex:
- A matriz Identidade, A =
⎛⎜⎜⎜⎝
1 0 0
0 1 0
0 0 1
⎞⎟⎟⎟⎠, det(A) = 1.
- B =
⎛⎜⎜⎜⎝
13
23
23
0 1√2
− 1√2
43√2
− 13√2
− 13√2
⎞⎟⎟⎟⎠, det(B) = −1
18. Provar as propriedades da transposta de uma matriz.
27
(a) (AT )T = A
- O elemento (i, j) da matriz A é o elemento aji.
- O elemento (i, j) da matriz AT é o elemento ®ij = aji.
- Portanto, o elemento (i, j) de (AT )T é o elemento ®ji = aij
(b) (A+B)T = AT +BT
Seja C = A + B então cij = aij + bij . Logo cij ∈ CT = (A + B)T . Por outro lado,
aij ∈ A ⇒ aij ∈ AT
bij ∈ B ⇒ bij ∈ BT
⎫⎬⎭ = aij + bij ∈ AT +BT .
Logo cij = aij + bij .
(c) (AB)T = BTAT Seja A uma matriz mxp e B uma matriz pxn. O produto C = AB
é uma matriz mxn e o seu elemento (i, j) é dado por cij =p∑
k=1
aikbkj .
a matriz (AB)T é portanto uma matriz nxm e nela, o elemento cij ocupa a i-ésima
coluna e a j-ésima linha. Por outro lado, a matriz BTAT também é de ordem nxm.
O elemento (i, j) de AT é o elemento ®ij = aji, assim como o elemento (i, j) de BT
é o elemento ¯ij = bji. Logo, o elemento de BTAT que ocupa a i-ésima coluna e a
j-ésima linha é dado por
p∑
k=1
¯jk®ki =
p∑
k=1
bkjaik = cij
(d) (kA)T = kAT
Seja C = kA, logo o elemento (i, j) de C é dado por cij = kaij . Na matriz (kA)T , o
elemento cij ocupa a i-ésima coluna e a j-ésima linha.
Por outro lado, o elemento (i, j) de AT é o elemento ®ij = aij . Logo, o elemento de
kAT que ocupa a i-ésima coluna e a jésima linha é dado por
k®ji = kaij = cij .
19. Provar as propriedades comutativa e associativa da adição de matrizes.
(a) Comutativa ⇒ A+B = B +A
Dada as matrizes A = [aij ]mxn e B = [bij ]mxn, tem-se:
28
A =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠, B =
⎛⎜⎜⎜⎜⎜⎜⎝
b11 b12 . . . b1n
b21 b22 . . . b2n...
.... . .
...
bm1 bm2 . . . bmn
⎞⎟⎟⎟⎟⎟⎟⎠, assim
A+B =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 + b11 a12 + b12 . . . a1n + b1n
a21 + b21 a22 + b22 . . . a2n + b2n...
.... . .
...
am1 + bm1 am2 + bm2 . . . amn + bmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
b11 + a11 b12 + a12 . . . b1n + a1n
b21 + a21 b22 + a22 . . . b2n + a2n...
.... . .
...
bm1 + am1 bm2 + am2 . . . bmn + amn
⎞⎟⎟⎟⎟⎟⎟⎠
= B +A,
logo
A+B = B +A
(b) Associativa ⇒ (A+B) + C = A+ (B + C)
Dada as matrizes A = [aij ]mxn, B = [bij ]mxn e C = [cij ]mxn, tem-se:
A =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠, B =
⎛⎜⎜⎜⎜⎜⎜⎝
b11 b12 . . . b1n
b21 b22 . . . b2n...
.... . .
...
bm1 bm2 . . . bmn
⎞⎟⎟⎟⎟⎟⎟⎠
e
C =
⎛⎜⎜⎜⎜⎜⎜⎝
c11 c12 . . . c1n
c21 c22 . . . c2n...
.... . .
...
cm1 cm2 . . . cmn
⎞⎟⎟⎟⎟⎟⎟⎠, assim:
(A+B)+C =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 + b11 a12 + b12 . . . a1n + b1n
a21 + b21 a22 + b22 . . . a2n + b2n...
.... . .
...
am1 + bm1 am2 + bm2 . . . amn + bmn
⎞⎟⎟⎟⎟⎟⎟⎠+
⎛⎜⎜⎜⎜⎜⎜⎝
c11 c12 . . . c1n
c21 c22 . . . c2n...
.... . .
...
cm1 cm2 . . . cmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
a11 + b11 + c11 a12 + b12 + c12 . . . a1n + b1n + c1n
a21 + b21 + c21 a22 + b22 + c22 . . . a2n + b2n + c2n...
.... . .
...
am1 + bm1 + cm1 am2 + bm2 + cm2 . . . amn + bmn + cmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
29
=
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
+
⎛⎜⎜⎜⎜⎜⎜⎝
b11 + c11 b12 + c12 . . . b1n + c1n
b21 + c21 b22 + c22 . . . b2n + c2n...
.... . .
...
bm1 + cm1 bm2 + cm2 . . . bmn + cmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
= A+ (B + C)
Portanto, (A+B) + C = A+ (B + C)
20. Provar as propriedades comutativa, associativa e distributiva da multiplicação de escalar
por matriz.
(a) Comutativa ⇒ kA = Ak
Seja A uma matriz mxn, tal que A =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
e seja k ∈ IR, assim
kA = k
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎝
ka11 ka12 . . . ka1n
ka21 ka22 . . . ka2n...
.... . .
...
kam1 kam2 . . . kamn
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
a11k a12k . . . a1nk
a21k a22k . . . a2nk...
.... . .
...
am1k am2k . . . amnk
⎞⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
k = Ak
(b) Associativa ⇒ k1(k2A) = (k1k2)A
Seja A uma matriz mxn, tal que A =
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
e seja k1, k2 ∈ IR,
assim
k1(k2A) = k1
⎛⎜⎜⎜⎜⎜⎜⎝
k2a11 k2a12 . . . k2a1n
k2a21 k2a22 . . . k2a2n...
.... . .
...
k2am1 k2am2 . . . k2amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎝
k1k2a11 k1k2a12 . . . k1k2a1n
k1k2a21 k1k2a22 . . . k1k2a2n...
.... . .
...
k1k2am1 k1k2am2 . . . k1k2amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
30
=
⎛⎜⎜⎜⎜⎜⎜⎝
(k1k2) a11 (k1k2) a12 . . . (k1k2) a1n
(k1k2) a21 (k1k2) a22 . . . (k1k2) a2n...
.... . .
...
(k1k2) am1 (k1k2) am2 . . . (k1k2) amn
⎞⎟⎟⎟⎟⎟⎟⎠
= (k1k2)
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
k1k2A
Logo k1(k2A) = (k1k2)A
(c) Distributiva
- k(A+B) = kA+ kB
Dada as matrizes A = [aij ]mxn, B = [bij ]mxn e k ∈ IR tem-se:
k(A+B) = k
⎛⎜⎜⎜⎜⎜⎜⎝
a11 + b11 a12 + b12 . . . a1n + b1n
a21 + b21 a22 + b22 . . . a2n + b2n...
.... . .
...
am1 + bm1 am2 + bm2 . . . amn + bmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
⎛⎜⎜⎜⎜⎜⎜⎝
k (a11 + b11) k (a12 + b12) . . . k (a1n + b1n)
k (a21 + b21) k (a22 + b22) . . . k (a2n + b2n)...
.... . .
...
k (am1 + bm1) k (am2 + bm2) . . . k (amn + bmn)
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
(ka11 + kb11) (ka12 + kb12) . . . (ka1n + kb1n)
(ka21 + kb21) (ka22 + kb22) . . . (ka2n + kb2n)...
.... . .
...
(kam1 + kbm1) (kam2 + kbm2) . . . (kamn + kbmn)
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
ka11 ka12 . . . ka1n
ka21 ka22 . . . ka2n...
.... . .
...
kam1 kam2 . . . kamn
⎞⎟⎟⎟⎟⎟⎟⎠
+
⎛⎜⎜⎜⎜⎜⎜⎝
kb11 kb12 . . . kb1n
kb21 kb22 . . . kb2n...
.... . .
...
kbm1 kbm2 . . . kbmn
⎞⎟⎟⎟⎟⎟⎟⎠
=
= kA+ kB. Portanto, k(A+B) = kA+ kB
- (k1 + k2)A = k1A+ k2A
Dada a matriz A = [aij ]mxn e k1, k2 ∈ IR, tem-se:
(k1 + k2)A = (k1 + k2)
⎛⎜⎜⎜⎜⎜⎜⎝
a11 a12 . . . a1n
a21 a22 . . . a2n...
.... . .
...
am1 am2 . . . amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
31
=
⎛⎜⎜⎜⎜⎜⎜⎝
(k1 + k2)a11 (k1 + k2)a12 . . . (k1 + k2)a1n
(k1 + k2)a21 (k1 + k2)a22 . . . (k1 + k2)a2n...
.... . .
...
(k1 + k2)am1 (k1 + k2)am2 . . . (k1 + k2)amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
(k1a11 + k2a11) (k1a12 + k2a12) . . . (k1a1n + k2a1n)
(k1a21 + k2a21) (k1a22 + k2a22) . . . (k1a2n + k2a2n)...
.... . .
...
(k1am1 + k2am1) (k1am2 + k2am2) . . . (k1amn + k2amn)
⎞⎟⎟⎟⎟⎟⎟⎠
=
=
⎛⎜⎜⎜⎜⎜⎜⎝
(k1)a11 (k1)a12 . . . (k1)a1n
(k1)a21 (k1)a22 . . . (k1)a2n...
.... . .
...
(k1)am1 (k1)am2 . . . (k1)amn
⎞⎟⎟⎟⎟⎟⎟⎠+
⎛⎜⎜⎜⎜⎜⎜⎝
(k2)a11 (k2)a12 . . . (k2)a1n
(k2)a21 (k2)a22 . . . (k2)a2n...
.... . .
...
(k2)am1 (k2)am2 . . . (k2)amn
⎞⎟⎟⎟⎟⎟⎟⎠
=
= k1A+ k2A.
Portanto, (k1 + k2)A = k1A+ k2A.
21. Provar todas as propriedades da multiplicação de duas matrizes.
(a) Distributividade da soma à direita, (A+B)C = AC +BC
Seja D = A+B
- elemento (i, k) de D:
dik = aik + bik (1)
- elemento (i, j) da matriz ((A+B)C)
((A+B)C)ij = (DC)ij =
p∑
k=1
dikckj =
p∑
k=1
aikckj + bikckj (2)
- elemento (i, j) da matriz (AC + BC) ≡ soma dos elementos (i, j) das matrizes
AC e BC.
((AC +BC))ij = (AC)ij + (BC)ij =
Ãp∑
k=1
aikckj
)+
Ãp∑
k=1
bikckj
)=
p∑
k=1
aikckj + bikckj = ((A+B)C)ij (3)
(b) Associatividade, A(BC) = (AB)C Seja D = BC
32
- elemento (k, j) de D:
dkj =
q∑
l=1
bklclj (4)
- elemento (i, j) de AD:
(AD)ij =
p∑
k=1
aikdkj (5)
Substituindo (4) em (5):
(AD)ij =
p∑
k=1
p∑
l=1
aikbklclj (6)
Seja Z = AB ≡ elemento (i, j) de (AB)C:
((AB)C)ij = (ZC)ij =
q∑
l=1
zilclj =
q∑
l=1
Ãp∑
k=1
aikbkl
)clj =
q∑
l=1
p∑
k=1
aikbklclj = (A(BC))ij
2 Lista 2 - Distribuição Normal Multivariada
1. Utilizando a função Matlab (que gera amostras aleatórias normais multivariadas): Xi =
mvnrnd(¹,Σ, n), i = 1, 2, 3, . . . sendo: ¹ = [4.5 6.0 8.5 10.0 12.5 15.0] o vetor de médias,
Σ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
1.5000 13.0000 2.7000 3.6000 4.7000 2.8000
3.0000 2.7000 13.9000 5.2000 6.2000 3.2000
2.3000 3.6000 5.2000 25.0000 3.1000 5.2000
5.1000 4.7000 6.2000 3.1000 36.0000 4.8000
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
a matriz de covariâncias e n o tamanho das amostras, gerar as amostras aleatórias normais
multivariadas X1, X2 e X3 do vetor de médias ¹ e Σ a matriz de covariâncias com tamanho:
(a) n = 10, calculando em seguida, para X1, o vetor de médias amostrais (X) e a matriz
de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹ e Σ.
Discutir as diferenças.
>> MI=[4.5 6 8.5 10 12.5 15]
MI =
4.5000 6.0000 8.5000 10.0000 12.5000 15.0000
33
>> Cov=[15 1.5 3.0 2.3 5.1 0.9; 1.5 13.0 2.7 3.6 4.7 2.8; 3.0 2.7 13.9 5.2 6.2 3.2; 2.3 3.6 5.2 25.0 3.1 5.2;5.1 4.7 6.2 3.1 36.0 4.8;0.9 2.8 3.2 5.2 4.8 48.0]
Cov =
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
1.5000 13.0000 2.7000 3.6000 4.7000 2.8000
3.0000 2.7000 13.9000 5.2000 6.2000 3.2000
2.3000 3.6000 5.2000 25.0000 3.1000 5.2000
5.1000 4.7000 6.2000 3.1000 36.0000 4.8000
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000
>> X1=mvnrnd(MI,Cov,10)
X1 =
6.5824 1.3693 10.4200 14.0294 11.8459 9.3273
11.6026 17.5895 7.6237 7.1229 15.6737 16.4204
-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432
7.8392 6.1079 14.9699 8.4866 17.3463 8.2866
5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773
-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321
2.8207 5.3871 10.6869 12.0000 11.7389 10.2523
5.8270 11.4728 8.6750 7.6792 17.8671 18.2602
18.3591 12.4369 13.2687 20.2792 25.2909 17.1399
15.2260 12.1528 8.7717 3.9651 23.1206 23.0164
>> mean(X1)
ans =
6.9178 8.7686 10.6260 9.3165 15.7175 14.9356
>> S=cov(X1)
S =
46.9874 18.2327 1.3555 6.9462 28.3493 12.9910
18.2327 22.2742 -4.3880 -7.6632 13.6887 10.4479
1.3555 -4.3880 4.7934 5.2097 1.4845 -4.0889
6.9462 -7.6632 5.2097 44.8926 9.2218 9.3750
28.3493 13.6887 1.4845 9.2218 27.2998 11.1871
12.9910 10.4479 -4.0889 9.3750 11.1871 43.5201
Para n = 10, tanto o vetor de médias X como a matriz de covariâncias amostrais S
têm seus valores bem distantes dos valores originais do vetor de médias ¹ e da matriz
34
de covariâncias Σ, respectivamente.
(b) n = 100, calculando em seguida, para X2, o vetor de médias amostrais (X) e a matriz
de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹ e Σ.
Discutir as diferenças.
>> X2=mvnrnd(MI,Cov,100);
>> mean(X2)
ans =
4.5417 7.0864 8.6808 10.0058 13.0134 14.8672
>> S2=cov(X2)
S2 =
14.6431 2.7541 3.6464 3.1158 5.3392 -1.2280
2.7541 13.6900 3.0848 3.5469 6.8503 0.3377
3.6464 3.0848 13.7587 6.0858 4.9247 5.7381
3.1158 3.5469 6.0858 26.5766 6.0904 6.3325
5.3392 6.8503 4.9247 6.0904 33.3137 2.5282
-1.2280 0.3377 5.7381 6.3325 2.5282 41.0911
Para n = 100, o vetor de médias X tem seus valores bem próximos do vetor de
médias¹, diferindo em apenas algumas unidades. Quanto a matriz de covariâncias
amostrais S seus valores estão bem distantes dos valores originais da matriz de covar-
iâncias Σ.
(c) n = 1000, calculando em seguida, para X3, o vetor de médias amostrais (X) e a
matriz de covariâncias amostrais (S), comparando esses valores com os parâmetros ¹
e Σ. Discutir as diferenças.
>> X3=mvnrnd(MI,Cov,1000);
>> mean(X3)
ans =
4.4758 6.1065 8.5225 9.8296 12.4343 14.8078
>> S3=cov(X3)
S3 =
14.4039 1.5281 2.7079 2.1403 3.7544 0.6423
1.5281 11.8247 2.6428 2.5697 4.0056 4.2034
2.7079 2.6428 12.7488 4.3487 5.2230 3.1401
35
2.1403 2.5697 4.3487 24.2446 2.5543 7.5897
3.7544 4.0056 5.2230 2.5543 32.5033 3.3190
0.6423 4.2034 3.1401 7.5897 3.3190 46.9719
Para n = 1000, tanto o vetor de médias X como a matriz de covariâncias amostrais S
têm seus valores bem próximos dos valores originais do vetor de médias ¹ e da matriz
de covariâncias Σ, respectivamente.
(d) Para os itens (a), (b) e (c) verificar a normalidade de cada amostra.
Usar:
function [ d2,q2 ] = normult( x )
%d2 = distâncias quadráticas
%q2 = qui-quadrado
%x= amostra multivariada
%função destinada a averiguar a normalidade multivariada
%Qual a dimensão de x?
[n,p]=size(x);
m=mean(x);
S=cov(x);
% cálculo das distâncias generalizadas, d2
for i=1:n
d2(i)=(x(i,:)-m)*inv(S)*(x(i,:)-m)’;
end
%ordem crescente
d2=sort(d2);
%calculo dos q2
for i=1:n
q2(i)=chi2inv(((i-0.5)/n),p);
end
q2
%grafico
plot(d2,q2,’*K’)
xlabel(’d^2’)
ylabel(’chi^2’)
grid
36
end
Para o item (a)
[d2j , Â
26
Ãj − 1
2
10
)]=
q2 =
1.6354 2.6613 3.4546 4.1973 4.9519 5.7652 6.6948 7.8408 9.4461 12.5916
ans =
2.5302 3.3036 4.4551 4.8674 5.3506 5.6743 6.5874 6.6517 7.2706 7.3091
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.50
2
4
6
8
10
12
14
d2
chi2
Para o item (b)
[d2j , Â
26
Ãj − 1
2
100
)]=
>> normult(X2);
q2 =
0.6757 1.0160 1.2373 1.4140 1.5659 ... 14.4494 15.7774 18.5476
ans =
0.8834 0.9080 1.2236 1.6460 ... 13.0529 14.7759 16.1014 18.2444
37
0 5 10 15 200
2
4
6
8
10
12
14
16
18
20
d2
chi2
Para o item (c)
[d2j , Â
26
Ãj − 1
2
1000
)]=
q2 =
0.2994 0.4394 0.5266 0.5940 0.6504 ... 19.4271 20.2494 21.4857 24.1028
ans =
0.4914 0.6709 0.7719 0.7788 0.9040 ... 19.6546 20.1195 20.5514 20.7033
0 5 10 15 20 250
5
10
15
20
25
d2
chi2
2. Uma amostra aleatória de n = 70 indivíduos do vetor aleatório: X = [X1, X2, X3]′, onde:
X1 = idade (anos), X2 = peso (kg) e X3 = altura (cm), é dada a seguir:
38
X1 X2 X3
29 71 170
25 65 158
30 69 170
31 69 175
27 61 155
34 72 172
34 73 176
30 71 174
31 77 177
31 69 165
29 72 172
32 75 178
28 73 174
37 71 173
30 71 170
30 71 170
33 68 169
30 67 171
30 74 174
28 67 161
31 72 175
26 67 161
32 69 170
35 72 173
28 70 171
33 68 171
34 77 180
25 68 159
26 63 159
32 70 176
29 64 165
39
32 62 156
32 76 179
32 70 168
34 75 175
32 73 171
34 73 177
26 63 157
30 66 165
30 68 166
25 61 154
31 66 167
27 74 175
34 74 184
28 63 155
32 71 169
31 66 168
27 62 157
23 63 154
30 74 176
27 68 171
32 74 179
32 66 172
35 72 177
32 70 177
28 63 159
31 65 161
27 72 170
30 70 174
30 67 163
30 73 176
29 70 168
33 68 172
24 71 165
40
31 72 174
33 79 176
32 77 178
32 68 170
30 65 162
32 71 177
Verificar a normalidade do vetor aleatório X.
d2j Â23
Ãj − 1
2
70
)
>> normult(X)
d2 =
Columns 1 through 11
0.2556 0.3173 0.3326 0.3326 0.4465 0.4606 0.6031 0.6491 0.7674 0.8370 1.0962
Columns 12 through 16
1.1121 1.1979 1.4144 1.5191 1.6057
Columns 17 through 27
1.6646 1.6969 1.7103 1.7106 1.7351 1.7416 1.7570 1.8258 1.8387 1.8826 1.9208
Columns 28 through 32
1.9396 1.9992 2.0073 2.0530 2.1582
Columns 33 through 43
2.3807 2.4055 2.4649 2.5009 2.5071 2.6760 2.7943 2.8713 2.9153 3.0750 3.0953
Columns 44 through 48
3.1039 3.1289 3.1679 3.1837 3.1871
Columns 49 through 59
3.2703 3.6031 3.6705 3.6872 3.7317 3.8597 3.9231 4.0450 4.2108 4.2481 4.5922
Columns 60 through 64
5.0297 5.3688 5.5681 5.6340 5.9425
Columns 65 through 70
6.0255 6.8449 7.7218 7.8503 9.3072 10.8191
41
0 2 4 6 8 10 120
2
4
6
8
10
12
14
d2
chi2
3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,
X1, X2, X3 e X4, de cada uma das n = 50 bordas de chapas. A primeira medida envolve
a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada
enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.
>> Y=[1949 1842 1666 1437;1814 1719 1647 1388;1901 1893 1668 1527;2084 1916 1808 1489;1991 1894 1753 1481;2030 1919 1640 1491;2076 1934 1666 1586;1830 1816 1605 1444;1948 1855 1661 1436;1944 1782 1632 1415;1919 1799 1667 1523;1985 1903 1671 1571;2122 1912 1701 1592;1997 1881 1682 1447;2098 1913 1724 1517;1944 1807 1654 1457;2001 1849 1715 1500;1937 1842 1683 1450;2047 1937 1660 1482;1980 1882 1714 1474;2038 1977 1776 1569;2053 1920 1744 1607;1994 1820 1709 1488;2071 1944 1747 1517;2185 2017 1766 1597;2042 1942 1723 1501;1999 1924 1618 1576;2073 2009 1785 1586;2004 1875 1693 1448;1911 1859 1641 1444;2039 1923 1694 1565;2000 1871 1644 1507;1978 1993 1740 1534;2102 1950 1758 1470;2149 1921 1725 1547;1958 1963 1704 1532;2008 1921 1711 1483;1935 1804 1634 1424;2054 1964 1705 1521;1811 1848 1689 1406;2079 1904 1733 1516;2018 1917 1761 1519;2021 1906 1688 1558;2097 1901 1676 1528;1978 1946 1750 1486;1989 1893 1696 1558
1898 1865 1635 1500;1867 1783 1614 1450;1944 1833 1579 1495
2022 1929 1760 1494]
Y =
1949 1842 1666 1437
1814 1719 1647 1388
1901 1893 1668 1527
2084 1916 1808 1489
1991 1894 1753 1481
2030 1919 1640 1491
2076 1934 1666 1586
1830 1816 1605 1444
1948 1855 1661 1436
1944 1782 1632 1415
1919 1799 1667 1523
1985 1903 1671 1571
2122 1912 1701 1592
1997 1881 1682 1447
2098 1913 1724 1517
1944 1807 1654 1457
2001 1849 1715 1500
1937 1842 1683 1450
2047 1937 1660 1482
1980 1882 1714 1474
42
2038 1977 1776 1569
2053 1920 1744 1607
1994 1820 1709 1488
2071 1944 1747 1517
2185 2017 1766 1597
2042 1942 1723 1501
1999 1924 1618 1576
2073 2009 1785 1586
2004 1875 1693 1448
1911 1859 1641 1444
2039 1923 1694 1565
2000 1871 1644 1507
1978 1993 1740 1534
2102 1950 1758 1470
2149 1921 1725 1547
1958 1963 1704 1532
2008 1921 1711 1483
1935 1804 1634 1424
2054 1964 1705 1521
1811 1848 1689 1406
2079 1904 1733 1516
2018 1917 1761 1519
2021 1906 1688 1558
2097 1901 1676 1528
1978 1946 1750 1486
1989 1893 1696 1558
1898 1865 1635 1500
1867 1783 1614 1450
1944 1833 1579 1495
2022 1929 1760 1494
Verificar a normalidade do vetor aleatório X = [X1, X2, X3, X4]′.
d2j Â24
Ãj − 1
2
50
)
d2 q2
0.7185 0.2971
1.1178 0.5351
1.1429 0.7107
1.3561 0.8616
1.3988 0.9987
1.5479 1.1268
1.5542 1.2488
1.5869 1.3665
1.6037 1.4810
1.8767 1.5933
1.9487 1.7039
43
1.9792 1.8136
2.1394 1.9226
2.2011 2.0313
2.2267 2.1402
2.2886 2.2494
2.3910 2.3593
2.4764 2.4701
2.5079 2.5821
2.5619 2.6955
2.5626 2.8106
2.5688 2.9277
3.0283 3.0469
3.1915 3.1687
3.4710 3.2933
3.6621 3.4209
3.7459 3.5521
3.8643 3.6871
4.2957 3.8265
4.4187 3.9706
4.5159 4.1201
4.5229 4.2755
4.9482 4.4377
5.0309 4.6074
5.0393 4.7857
5.1432 4.9738
5.2379 5.1730
5.3510 5.3853
5.6204 5.6127
5.8405 5.8581
5.9066 6.1251
5.9812 6.4185
6.0689 6.7449
6.9324 7.1137
7.0571 7.5390
7.3377 8.0434
7.5011 8.6664
7.5174 9.4877
9.1262 10.7119
9.8881 13.2767
44
0 2 4 6 8 100
2
4
6
8
10
12
14
d2
chi2
4. Representar graficamente uma distribuição normal bivariada com vetor de médias ¹ =
[10 15]′ e matriz covariância Σ =
⎡⎣ 4 0
0 9
⎤⎦ .
Como ¹1 = 10, ¹2 = 15, ¾1 = 2 e ¾2 = 3, temos
f(x1) =1
2√2¼
e−(x1 − 10)2
2 ⋅ 22
e
f(x2) =1
3√2¼
e−(x2 − 15)2
2 ⋅ 32
logo a f.d.p. conjunta é dada por:
f(x1, x2) = f(x1) ⋅ f(x2)
=1
2√2¼
e−(x1 − 10)2
2 ⋅ 22 ⋅ 1
3√2¼
e−(x2 − 15)2
2 ⋅ 32
=1
12¼e−⎡⎣(x1 − 10)2
8+
(x2 − 15)2
18
⎤⎦
>> x1=3:0.1:17;
>> x2=10:0.1:24;
>> [x1,x2]=meshgrid(x1,x2);
>> z=(1/(12*pi))*exp(((-1/8)*(x1-10).^2)+(-(1/18)*(x2-15).^2));
>> mesh(x1,x2,z)
45
05
1015
20
10
15
20
250
0.005
0.01
0.015
0.02
0.025
0.03
5. Seja X ∼ N3(¹,Σ) com ¹ = [−3, 1, 4]′ e Σ =
⎡⎢⎢⎢⎣
1 −2 0
−2 5 0
0 0 2
⎤⎥⎥⎥⎦. Quais das seguintes var-
iáveis são independentes? Justifique.
Substituir a matriz de covariância pela matriz de correlação
>> S=[1 -2 0;-2 5 0;0 0 2]
S =
1 -2 0
-2 5 0
0 0 2
>> V=diag(diag(S))
V =
1 0 0
0 5 0
0 0 2
>> RV=sqrtm(V)
RV =
1.0000 0 0
0 2.2361 0
46
0 0 1.4142
>> IRV=inv(RV)
IRV =
1.0000 0 0
0 0.4472 0
0 0 0.7071
>> R=IRV*S*IRV
R =
1.0000 -0.8944 0
-0.8944 1.0000 0
0 0 1.0000
A matriz de correlação nos dá justamente a relação de dependência entre as variáveis, logo
(a) X1 e X2 são dependestes, pois ½12 = ½21 ∕= 0.
(b) X2 e X3 são independentes, pois ½23 = ½32 = 0.
6. Seja X ∼ N3(¹,Σ) com ¹ =
⎡⎢⎢⎢⎣
¹1
¹2
¹3
⎤⎥⎥⎥⎦ e Σ =
⎡⎢⎢⎢⎣
¾21 ¾12 ¾13
¾21 ¾22 ¾23
¾31 ¾32 ¾23
⎤⎥⎥⎥⎦. Determine a f.d.p.
f(x1, x2, x3) padronizada.
Como ½12 =¾12¾1¾2
e ½13 =¾13¾1¾3
∴ ¾12 = ¾21 = ½12¾1¾2, ¾13 = ¾31 = ½13¾1¾3
e ¾23 = ¾32 = ½23¾2¾3, tem-se a matriz de correlação: R =
⎡⎢⎢⎢⎣
¾21 ½12¾1¾2 ½13¾1¾3
½12¾1¾2 ¾22 ½23¾2¾3
½13¾1¾3 ½23¾2¾3 ¾23
⎤⎥⎥⎥⎦
f(x1, x2, x3) =1√
(2¼)3¾1¾2¾3exp
Ã−1
2
3∑
i=1
(xi − ui
¾i
)2)
ou em notação matricial
f(x) =1√
(2¼)3∣Σ∣ 12exp
[−1
2(x− ¹)′Σ−1(x− ¹)
]
A fdp normal padronizada pode ser obtida fazendo-se zi =xi − ¹i
¾i
47
3 Lista 3 - Inferência sobre o vetor de médias e MANOVA
1. Para o problema 2 da lista 2, testar a hipótese: H0: ¹ = [30 60 170]′ contra a alternativa
H1: ¹ ∕= [30 60 170]′, aos níveis de significância:
(a) de 1%;Temos que H0: ¹ = [30 60 170]′, H1: ¹ ∕= [30 60 170]′, n = 70, assim
>> X=[ 29 71 170; 25 65 158; 30 69 170;31 69 175; 27 61 155;
34 72 172;
34 73 176; 30 71 174; 31 77 177; 31 69 165; 29 72 172;
32 75 178; 28 73 174; 37 71 173; 30 71 170; 30 71 170;
33 68 169; 30 67 171; 30 74 174; 28 67 161; 31 72 175;
26 67 161; 32 69 170; 35 72 173; 28 70 171; 33 68 171;
34 77 180; 25 68 159; 26 63 159; 32 70 176; 29 64 165;
32 62 156; 32 76 179; 32 70 168; 34 75 175; 32 73 171;
34 73 177; 26 63 157; 30 66 165; 30 68 166; 25 61 154;
31 66 167; 27 74 175; 34 74 184; 28 63 155; 32 71 169;
31 66 168; 27 62 157; 23 63 154; 30 74 176; 27 68 171;
32 74 179; 32 66 172; 35 72 177; 32 70 177; 28 63 159;
31 65 161; 27 72 170; 30 70 174; 30 67 163; 30 73 176;
29 70 168; 33 68 172; 24 71 165; 31 72 174; 33 79 176;
32 77 178; 32 68 170; 30 65 162; 32 71 177];
>> mi=mean(X)
mi =
30.2857 69.5286 169.4000
Sem o uso do computador usaríamos assim:
>> S=(1/2)*((X(1,:)-mi)’*(X(1,:)-mi)+(X(2,:)-mi)’*(X(2,:)-mi)+(X(3,:)-mi)’*(X(3,:)-mi))...
Com o uso do Matlab, faz-se:
>> S=cov(X)
S =
8.2070 6.1222 13.9855
6.1222 17.9340 27.0464
13.9855 27.0464 53.6638
>> InvS=inv(S)
InvS =
0.2292 0.0494 -0.0846
0.0494 0.2430 -0.1354
-0.0846 -0.1354 0.1089
Logo
>> T2=70*((mi-([30 60 170]))*InvS*(mi-([30 60 170]))’)
T2 =
1.6779e+003
48
Como
>> F=(((70-1)*3)/(70-3))*finv(0.99,3,67)
F =
12.6306
Como T 2 é maior que F então, rejeita-se H0, portanto ¹ é diferente de [30 60 170]′
(b) de 5%.
>> F=(((70-1)*3)/(70-3))*finv(0.95,3,67)
F =
8.4702
Com 5% de significância, temos que, F = 12.6306, logo T 2 > F2,1(0, 05), sendo assim,
rejeitamos a hipótese de que ¹ = ¹0.
2. A transpiração de 20 mulheres sadias foram analisadas. Três componentes, X1 = taxa de
suor, X2 = conteúdo de sódio e X3 = conteúdo de potássio, foram medidos, e os resultados,
aos quais chamamos “dados do suor”, são apresentados na tabela seguinte:
Identificação X1 X2 X3
1 3.7 48.5 9.3
2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
49
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
Testar a hipótese: H0: ¹ = [4 50 10]’ contra a alternativa H1: ¹ ∕= [4 50 10]’, ao nível designificância de 1%.
>> M=[3.7 48.5 9.3;5.7 65.1 8.0;3.8 47.2 10.9;3.2 53.2 12.0;3.1 55.5 9.7;
4.6 36.1 7.9;2.4 24.8 14.0;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;
3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;
8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4];
M =
3.7000 48.5000 9.3000
5.7000 65.1000 8.0000
3.8000 47.2000 10.9000
3.2000 53.2000 12.0000
3.1000 55.5000 9.7000
4.6000 36.1000 7.9000
2.4000 24.8000 14.0000
7.2000 33.1000 7.6000
6.7000 47.4000 8.5000
5.4000 54.1000 11.3000
3.9000 36.9000 12.7000
4.5000 58.8000 12.3000
3.5000 27.8000 9.8000
4.5000 40.2000 8.4000
1.5000 13.5000 10.1000
8.5000 56.4000 7.1000
4.5000 71.6000 8.2000
6.5000 52.8000 10.9000
4.1000 44.1000 11.2000
5.5000 40.9000 9.4000
>> Vmi=mean(M)
50
Vmi =
4.6400 45.4000 9.9650
>> S=cov(M)
S =
2.8794 10.0100 -1.8091
10.0100 199.7884 -5.6400
-1.8091 -5.6400 3.6277
>> InvS=inv(S)
InvS =
0.5862 -0.0221 0.2580
-0.0221 0.0061 -0.0016
0.2580 -0.0016 0.4018
>> T2=20*((Vmi-H0)*InvS*(Vmi-H0)’)
T2 =
9.7388
Sabendo que
H0: ¹ = [4 50 10]′,
H1: ¹ ∕= [4 50 10]′,
n = 20,
>> F=(((20-1)*3)/(20-3))*finv(0.99,3,17)
F =
17.3850
Temos que(n− 1) ⋅ pn− p
ℱ3,17(0.01) = 17.3850, logo T 2 <(n− 1) ⋅ p
n− pℱ3,17(0.01), sendo assim,
aceita-se H0, ou seja, com 1% de significância aceitamos a hipótese de que ¹ = [4 50 10]′.
3. Os dados da tabela seguinte foram obtidos tomando-se 4 medidas diferentes de dureza,
X1, X2, X3 e X4, de cada uma das n = 30 bordas de chapas. A primeira medida envolve
a transmissão de uma onda de choque sobre as bordas, a segunda medida é determinada
enquanto as bordas estão vibrando, e as últimas são obtidas a partir de testes estáticos.
Observações X1 X2 X3 X4
51
1 1874 1722 1420 1371
2 1535 1393 1299 1220
3 1754 1566 1296 1309
4 2211 2069 1742 1599
5 1977 1903 1533 1545
6 2076 1832 1524 1513
7 2189 1972 1633 1620
8 1576 1376 1245 1184
9 1871 1732 1542 1408
10 1859 1520 1436 1382
11 1796 1687 1586 1417
12 1964 1783 1555 1550
13 2304 2083 1668 1651
14 1992 1874 1623 1605
15 2245 1997 1773 1711
16 1861 1669 1531 1339
17 2002 1717 1622 1422
18 1843 1553 1580 1378
19 2117 1856 1612 1542
20 1950 1775 1597 1479
21 2096 1848 1654 1584
22 2134 1829 1606 1519
23 1984 1857 1826 1525
24 2178 1909 1683 1585
25 2462 2203 1783 1758
26 2105 1892 1849 1614
27 1998 1781 1625 1544
28 2183 1986 1626 1622
29 2011 1792 1664 1445
30 1779 1496 1534 1389
Testar a hipótese: H0: ¹ = [2000 1700 1500 1400]’, ao nível de significância de 5%.
Temos que
52
H0: ¹ = [2000 1700 1500 1400]’,
H1: ¹ ∕= [2000 1700 1500 1400]′,
n = 30,
>> Mi_O=mean(O)
Media =
1.0e+003 *
1.9975 1.7891 1.5889 1.4943
>> S=cov(O)
S =
1.0e+004 *
4.1962 3.8593 2.3421 2.6239
3.8593 3.9383 2.2569 2.5497
2.3421 2.2569 2.0993 1.6417
2.6239 2.5497 1.6417 1.8725
>> IS=inv(S)
IS =
1.0e-003 *
0.2922 -0.1788 -0.0126 -0.1549
-0.1788 0.3241 0.0007 -0.1914
-0.0126 0.0007 0.1523 -0.1169
-0.1549 -0.1914 -0.1169 0.6336
>> T2=30*((Media-([2000 1700 1500 1400]))*IS*(Media-([2000 1700 1500 1400]))’)
T2 =
132.1786
>> F=(((30-1)*4)/(30-4))*finv(0.95,4,26)
F =
12.2362
Temos que(n− 1) ⋅ pn− p
ℱ4,26(0.05) = 12.2362, logo T 2 >(n− 1) ⋅ p
n− pℱ4,26(0.05), sendo assim,
rejeita-se H0, ou seja, com 5% de significância rejeitamos a hipótese de que ¹ = ¹0.
4. As amostras de tamanhos n1 = 60 e n2 = 75 foram obtidas das avaliações de 4 disciplinas
(Matemática, História, Geografia e Ciências) das Escolas A e B, resultando nos vetores
53
de médias: x1 =[5.0 7.0 6.5 7.5
]′e x2 =
[6.0 6.5 7.5 6.0
]′e nas matrizes de
covariâncias:
S1 =
⎡⎢⎢⎢⎢⎢⎢⎣
1.00 0.20 0.30 0.28
0.20 0.25 0.27 0.12
0.30 0.27 0.36 0.12
0.28 0.12 0.12 0.16
⎤⎥⎥⎥⎥⎥⎥⎦
e S2 =
⎡⎢⎢⎢⎢⎢⎢⎣
1.00 0.18 0.24 0.24
0.18 0.36 0.19 0.17
0.24 0.19 0.16 0.08
0.24 0.17 0.08 0.16
⎤⎥⎥⎥⎥⎥⎥⎦
Testar a hipótese:
H0 : ¹1 = ¹2 contra a alternativa
H1 : ¹1 ∕= ¹2,
ao nível de significância de 5%, considerando que Σ1 = Σ2.
>> x1=[5 7 6.5 7.5]
x1 =
5.0000 7.0000 6.5000 7.5000
>> x2=[6 6.5 7.5 6]
x2 =
6.0000 6.5000 7.5000 6.0000
>> S1=[];
>> S2=[];
Calcular a matriz de covariância ponderada
>> Sp=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)
Sp =
1.0000 0.1889 0.2666 0.2577
0.1889 0.3112 0.2255 0.1478
0.2666 0.2255 0.2487 0.0977
0.2577 0.1478 0.0977 0.1600
>> T2=(x1-x2)*(inv(9/300*(Sp)))*(x1-x2)’
T2 =
1.4616e+003
>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)
F =
9.6959
>> F=finv(0.95,4,130)
54
F =
2.4414
Temos que(n1 + n2 − 2) ⋅ pn1 + n2 − p− 1
ℱ4,130(0.05) = 2.4414, logo Festatistico >(n1 + n2 − 2) ⋅ pn1 + n2 − p− 1
ℱ4,130(0.05),
sendo assim, rejeita-se H0, ou seja, com 5% de significância a hipótese H0 : mu1 = ¹2 é
rejeitada.
5. Observações com duas respostas (variáveis) foram obtidas para três tratamentos. Os vetores
observados foram:
Tratamento 1:
⎡⎣ 6
7
⎤⎦,
⎡⎣ 5
9
⎤⎦,
⎡⎣ 8
6
⎤⎦,
⎡⎣ 4
9
⎤⎦,
⎡⎣ 7
9
⎤⎦,
⎡⎣ 6
8
⎤⎦;
Tratamento 2:
⎡⎣ 3
3
⎤⎦,
⎡⎣ 1
6
⎤⎦,
⎡⎣ 2
3
⎤⎦,
⎡⎣ 1
4
⎤⎦;
Tratamento 3:
⎡⎣ 2
3
⎤⎦,
⎡⎣ 5
1
⎤⎦,
⎡⎣ 3
1
⎤⎦,
⎡⎣ 2
3
⎤⎦,
⎡⎣ 4
2
⎤⎦.
Aplicar a MANOVA para testar a igualdade de tratamentos, usando um nível de significân-
cia de 5%. Repita o teste usando o qui-quadrado aproximado de Bartlett. Compare os
resultados.
>> T1=[6 7;5 9;8 6;4 9;7 9;6 8]
T1 =
6 7
5 9
8 6
4 9
7 9
6 8
>> T2=[3 3;1 6;2 3;1 4]
T2 =
3 3
1 6
2 3
1 4
>> T3=[2 3;5 1;3 1;2 3;4 2]
55
T3 =
2 3
5 1
3 1
2 3
4 2
Calcular a média de cada amostra
>> x1=mean(T1)
x1 =
6 8
>> x2=mean(T2)
x2 =
1.7500 4.0000
>> x3=mean(T3)
x3 =
3.2000 2.0000
Calcular a média ponderada global
>> xg=(6*x1+4*x2+5*x3)/(15)
xg =
3.9333 4.9333
>> B=6*(x1-xg)’*(x1-xg)+4*(x2-xg)’*(x2-xg)+5*(x3-xg)’*(x3-xg)
B =
47.3833 56.9333
56.9333 102.9333
>> W=(T1(1,:)-x1)’*(T1(1,:)-x1)+(T1(2,:)-x1)’*(T1(2,:)-x1)+(T1(3,:)-x1)’*(T1(3,:)-x1)+
(T1(4,:)-x1)’*(T1(4,:)-x1)+(T1(5,:)-x1)’*(T1(5,:)-x1)+(T1(6,:)-x1)’*(T1(6,:)-x1)+
(T2(1,:)-x2)’*(T2(1,:)-x2)+(T2(2,:)-x2)’*(T2(2,:)-x2)+(T2(3,:)-x2)’*(T2(3,:)-x2)+
(T2(4,:)-x2)’*(T2(4,:)-x2)+(T3(1,:)-x3)’*(T3(1,:)-x3)+(T3(2,:)-x3)’*(T3(2,:)-x3)+
(T3(3,:)-x3)’*(T3(3,:)-x3)+(T3(4,:)-x3)’*(T3(4,:)-x3)+(T3(5,:)-x3)’*(T3(5,:)-x3)
W =
19.5500 -13.0000
-13.0000 18.0000
>> B+W
ans =
66.9333 43.9333
56
43.9333 120.9333
Lambda de Wilks
>> L=det(W)/(det(B+W))
L =
0.0297
>> Fteste=((15-3-1)/(3-1))*((1-sqrt(L))/(sqrt(L)))
Fteste =
26.4300
>> F=finv(0.95,4,22)
F =
2.8167
Como F2(g−1),2(n−g−1) = F4,22 = 2.8167 < Festatstico = 26.4300, então pelo menos um vetor
de médias é diferente dos demais.
Se fôssemos fazer a comparação por Barlett, teríamos (n− 1− p+g2 ) lnΛ X2
p (g − 1)
>> B=(15-1-(2+3))*log(L)
B =
-31.6584
>> X=chi2inv(0.95,4)
X =
9.4877
6. Um pesquisador deseja testar a igualdade dos vetores médios de duas populações. Os re-
sultados de suas pesquisas para o vetor aleatório X = [X1, X2, X3]′ forneceu as estatísticas:
n1 = 120, X1 =
⎡⎢⎢⎢⎣
44.3
53.8
60.5
⎤⎥⎥⎥⎦ , S1 =
⎡⎢⎢⎢⎣
22.5 4.4 −3.9
4.4 122.6 −17.5
−3.9 −17.5 214.7
⎤⎥⎥⎥⎦
n2 = 100, X2 =
⎡⎢⎢⎢⎣
49.2
56.5
65.2
⎤⎥⎥⎥⎦ , S2 =
⎡⎢⎢⎢⎣
95.7 10.2 −50.7
10.2 152.7 −7.1
−50.7 −7.1 302.3
⎤⎥⎥⎥⎦
Qual seria sua conclusão ao nível de significância de 1%? Considerar que Σ1 = Σ2.
H0 : ¹1 = ¹2
57
H0 : ¹1 ∕= ¹2
>> x1=[44.3 53.8 60.5]
x1 =
44.3000 53.8000 60.5000
>> x2=[49.2 56.5 65.2]
x2 =
49.2000 56.5000 65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]
S1 =
s 22.5000 4.4000 -3.9000
4.4000 122.6000 -17.5000
-3.9000 -17.5000 214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]
S2 =
95.7000 10.2000 -50.7000
10.2000 152.7000 -7.1000
-50.7000 -7.1000 302.3000
>> Sp=(((120-1)*S1)+((100-1)*S2))/(120+100-2)
Sp =
55.7422 7.0339 -25.1532
7.0339 136.2693 -12.7771
-25.1532 -12.7771 254.4817
>> T2=(x1-x2)*(inv(((1/120)+(1/100))*(Sp)))*(x1-x2)’
T2 =
36.4501
>> Fteste=(T2*(120+100-3-1))/((120+100-2)*3)
Fteste =
12.0386
>> F=finv(0.99,3,216)
F =
3.8735
Sendo Festatstico = 12.0386 maior que F3,216(0.01) = 3.8735, então rejeita-se a hipótese
58
H0 : ¹1 = ¹2.
Considerar que Σ1 ∕= Σ2. H0 : ¹1 = ¹2
H0 : ¹1 ∕= ¹2
>> x1=[44.3 53.8 60.5]
x1 =
44.3000 53.8000 60.5000
>> x2=[49.2 56.5 65.2]
x2 =
49.2000 56.5000 65.2000
>> S1=[22.5 4.4 -3.9;4.4 122.6 -17.5;-3.9 -17.5 214.7]
S1 =
22.5000 4.4000 -3.9000
4.4000 122.6000 -17.5000
-3.9000 -17.5000 214.7000
>> S2=[95.7 10.2 -50.7;10.2 152.7 -7.1;-50.7 -7.1 302.3]
S2 =
95.7000 10.2000 -50.7000
10.2000 152.7000 -7.1000
-50.7000 -7.1000 302.3000
>> (x1-x2)*inv(((1/120)*S1)+((1/100)*S2))*(x1-x2)’
ans =
33.9250
>> X=chi2inv(0.99,3)
X =
11.3449
Ao nível de significância de 1%, considerando Σ1 ∕= Σ2, rejeita-se a hipótese H0 onde
considera-se ¹1 = ¹2
7. Para o problema 1 da lista 2, testar a igualdade dos vetores médios resultantes das amostrasaleatórias obtidas (n1 = 10, n2 = 100 e n3 = 1000). Qual seria sua conclusão ao nível designificância de 5%? H0 : ¹1 = ¹2 = ¹3 H1 : Algum dos vetores difere dos outros
Sigma =
59
15.0000 1.5000 3.0000 2.3000 5.1000 0.9000
1.5000 13.0000 2.7000 3.6000 4.7000 2.8000
3.0000 2.7000 13.9000 5.2000 6.2000 3.2000
2.3000 3.6000 5.2000 25.0000 3.1000 5.2000
5.1000 4.7000 6.2000 3.1000 36.0000 4.8000
0.9000 2.8000 3.2000 5.2000 4.8000 48.0000
>> mi=[4.5 6.0 8.5 10.0 12.5 15.0]
mi =
4.5000 6.0000 8.5000 10.0000 12.5000 15.0000
>> mx1=[6.9178 8.7686 10.6260 9.3165 15.7175 14.9356]
mx1 =
6.9178 8.7686 10.6260 9.3165 15.7175 14.9356
>> mx2=[4.5417 7.0864 8.6808 10.0058 13.0134 14.8672]
mx2 =
4.5417 7.0864 8.6808 10.0058 13.0134 14.8672
>> mx3=[4.4758 6.1065 8.5225 9.8296 12.4343 14.8078]
mx3 =
4.4758 6.1065 8.5225 9.8296 12.4343 14.8078
>> X1=mvnrnd(mi,Sigma,10);
>> S1=cov(X1);
>> X2=mvnrnd(mi,Sigma,100);
>> S2=cov(X2);
>> X3=mvnrnd(mi,Sigma,1000);
>> S3=cov(X3);
>> Sp=((10-1)*S1+(100-1)*S2+(1000-1)*S3)/(10+100+1000-3)
Sp =
15.6287 1.9193 3.0319 1.4114 5.1191 -0.5561
1.9193 13.0521 2.6940 3.2722 3.9318 3.3664
3.0319 2.6940 13.2001 4.4627 6.9650 2.0574
1.4114 3.2722 4.4627 24.2386 2.3232 5.1255
5.1191 3.9318 6.9650 2.3232 35.6304 4.9712
-0.5561 3.3664 2.0574 5.1255 4.9712 46.5597
>> X=[X1;X2;X3];
>> n=[10 100 1000]
n =
10 100 1000
>> manova(X,n)
***********************************
* AMOSTRAS MULTIVARIADAS - GRUPOS *
***********************************
***********************************
* E MÉDIAS DOS GRUPOS *
***********************************
X1 =
6.5824 1.3693 10.4200 14.0294 11.8459 9.3273
11.6026 17.5895 7.6237 7.1229 15.6737 16.4204
-4.2485 7.7255 9.8072 5.0986 13.0840 6.6432
7.8392 6.1079 14.9699 8.4866 17.3463 8.2866
60
5.7346 8.6856 10.9781 -2.5282 9.6254 13.2773
-0.5647 4.7588 11.0591 17.0322 11.5824 26.7321
2.8207 5.3871 10.6869 12.0000 11.7389 10.2523
5.8270 11.4728 8.6750 7.6792 17.8671 18.2602
18.3591 12.4369 13.2687 20.2792 25.2909 17.1399
15.2260 12.1528 8.7717 3.9651 23.1206 23.0164
xm1 =
6.9178
8.7686
10.6260
9.3165
15.7175
14.9356
xm2 =
4.1854
5.7971
8.0434
9.6145
12.3953
14.9631
xm3 =
4.5368
6.1124
8.6809
10.1606
12.5119
14.9485
**********************************
* FONTE DE VARIAÇÃO: TRATAMENTOS *
**********************************
**********************************
* MATRIZ B *
**********************************
68.9232 74.2750 68.2612 -1.5521 80.6297 -0.8068
74.2750 80.4771 71.5727 -5.4796 88.9140 -0.7975
68.2612 71.5727 76.7049 15.8803 70.5974 -1.1282
-1.5521 -5.4796 15.8803 33.3743 -19.5365 -0.6119
80.6297 88.9140 70.5974 -19.5365 103.7436 -0.6089
-0.8068 -0.7975 -1.1282 -0.6119 -0.6089 0.0213
**********************************
* GRAUS DE LIBERDADE *
**********************************
12
**********************************
* FONTE DE VARIAÇÃO: RESIDUAL *
**********************************
* MATRIZ W *
61
**********************************
1.0e+004 *
1.7301 0.2125 0.3356 0.1562 0.5667 -0.0616
0.2125 1.4449 0.2982 0.3622 0.4353 0.3727
0.3356 0.2982 1.4613 0.4940 0.7710 0.2278
0.1562 0.3622 0.4940 2.6832 0.2572 0.5674
0.5667 0.4353 0.7710 0.2572 3.9443 0.5503
-0.0616 0.3727 0.2278 0.5674 0.5503 5.1542
**********************************
* GRAUS DE LIBERDADE *
**********************************
2204
**********************************
* FONTE DE VARIAÇÃO: TOTAL *
**********************************
**********************************
* MATRIZ B + W *
**********************************
1.0e+004 *
1.7370 0.2199 0.3425 0.1561 0.5747 -0.0616
0.2199 1.4529 0.3054 0.3617 0.4441 0.3726
0.3425 0.3054 1.4689 0.4956 0.7781 0.2276
0.1561 0.3617 0.4956 2.6865 0.2552 0.5673
0.5747 0.4441 0.7781 0.2552 3.9547 0.5503
-0.0616 0.3726 0.2276 0.5673 0.5503 5.1542
**********************************
* GRAUS DE LIBERDADE *
**********************************
2216
**********************************
* LÂMBDA DE WILKS *
**********************************
0.9864
**********************************
* ESTATÍSTICA DO TESTE *
**********************************
F =
1.2615
**********************************
* VALOR DE p *
**********************************
0.2349
Como o teste p = 0.2349 > 0.05 então, aceita-se a hipótese H0 : em que considera-se a
igualdade dos vetores médios resultantes das amostras aleatórias.
8. A tabela seguinte mostra 9 variáveis referentes a 5 espécies de cães da Tailândia.
62
Ident. X1 X2 X3 X4 X5 X6 X7 X8 X9
Cães Modernos da Tailândia
1 123 10.1 23 23 19 7.8 32 33 5.6
2 137 9.6 19 22 19 7.8 32 40 5.8
3 121 10.2 18 21 21 7.9 35 38 6.2
4 130 10.7 24 22 20 7.9 32 37 5.9
5 149 12 25 25 21 8.4 35 43 6.6
6 125 9.5 23 20 20 7.8 33 37 6.3
7 126 9.1 20 22 19 7.5 32 35 5.5
8 125 9.7 19 19 19 7.5 32 37 6.2
9 121 9.6 22 20 18 7.6 31 35 5.3
10 122 8.9 10 20 19 7.6 31 35 5.7
11 115 9.3 19 19 20 7.8 33 34 6.5
12 112 9.1 19 20 19 6.6 30 33 5.1
13 124 9.3 21 21 18 7.1 30 36 5.5
14 128 9.6 22 21 19 7.5 32 38 5.8
15 130 8.4 23 20 19 7.3 31 40 5.8
16 127 10.5 25 23 20 8.7 32 35 6.1
Chacais Dourados
1 120 8.2 18 17 18 7 32 35 5.2
2 107 7.9 17 17 20 7 32 34 5.3
3 110 8.1 18 16 19 7.1 31 32 4.7
4 116 8.5 20 18 18 7.1 32 33 4.7
5 114 8.2 19 18 19 7.9 32 33 5.1
6 111 8.5 19 16 18 7.1 30 33 5
7 113 8.5 17 18 19 7.1 30 34 4.6
8 117 8.7 20 17 18 7 30 34 5.2
9 114 9.4 21 19 19 7.5 31 35 5.3
10 112 8.2 19 17 19 6.8 30 34 5.1
11 110 8.5 18 17 19 7 31 33 4.9
12 111 7.7 20 18 18 6.7 30 32 4.5
13 107 7.2 17 16 17 6 28 35 4.7
14 108 8.2 18 16 17 6.5 29 33 4.8
63
15 110 7.3 19 15 17 6.1 30 33 4.5
16 105 8.3 19 17 17 6.5 29 32 4.5
17 107 8.4 18 17 18 6.2 29 31 4.3
18 106 7.8 19 18 18 6.2 31 32 4.4
19 111 8.4 17 16 18 7 30 34 4.7
20 111 7.6 19 17 18 6.5 30 35 4.6
Cuons
1 123 9.7 22 21 20 7.8 27 36 6.1
2 135 11.8 25 21 23 8.9 31 38 7.1
3 138 11.4 25 25 22 9 30 38 7.3
4 141 10.8 26 25 21 8.1 29 39 6.6
5 135 11.2 25 25 21 8.5 29 39 6.7
6 136 11 22 24 22 8.1 31 39 6.8
7 131 10.4 23 23 23 8.7 30 36 6.8
8 137 10.6 25 24 21 8.3 28 38 6.5
9 135 10.5 25 25 21 8.4 29 39 6.9
10 131 10.9 25 24 21 8.5 29 35 6.2
11 130 11.3 22 23 21 8.7 29 37 7
12 144 10.8 24 26 22 8.9 30 42 7.1
13 139 10.9 26 23 22 8.7 30 39 6.9
14 123 9.8 23 22 10 8.1 26 34 5.6
15 137 11.3 27 26 23 8.7 30 39 6.5
16 128 10 22 23 22 8.7 29 37 6.6
17 122 9.9 22 22 20 8.2 26 36 5.7
Lobos Indianos
1 167 11.5 29 28 25 9.5 41 45 7.2
2 164 12.3 27 26 25 10 42 47 7.9
3 150 11.5 21 24 25 9.3 41 46 8.5
4 145 11.3 28 24 24 9.2 36 41 7.2
5 177 12.4 31 27 27 10.5 43 50 7.9
6 166 13.4 32 27 26 9.5 40 47 7.3
7 164 12.1 27 24 25 9.9 42 45 8.3
8 165 12.6 30 26 25 7.7 40 43 7.9
64
9 131 11.8 20 24 23 8.8 38 40 6.5
10 163 10.8 27 24 24 9.2 39 48 7
11 164 10.7 24 23 26 9.5 43 47 7.6
12 141 10.4 20 23 23 8.9 38 43 6
13 148 10.6 26 21 24 8.9 39 40 7
14 158 10.7 25 25 24 9.8 41 45 7.4
Cães Pré-históricos Tailandeses
1 112 10.1 17 18 19 7.7 31 33 5.8
2 115 10 18 23 20 7.8 33 36 6
3 136 11.9 22 25 21 8.5 36 39 7
4 111 9.9 19 20 18 7.3 29 34 5.3
5 130 11.2 23 27 20 9.1 35 35 6.6
6 125 10.7 19 26 20 8.4 33 37 6.3
7 132 9.6 19 20 19 9.7 35 38 6.6
8 121 10.7 21 23 19 7.9 32 35 6
9 122 9.8 22 23 18 7.9 32 35 6.1
19 124 9.5 20 24 19 7.6 32 37 6
Nota: As variáveis são X1 = comprimento da mandíbula; X2 = largura da mandíbula abaixo do
primeiro molar; X3 = largura do côndilo articular; X4 = altura da mandíbula abaixo do primeiro
molar; X5 = comprimento do primeiro molar; X6 = largura do primeiro molar; X7 = comprimento
do primeiro ao terceiro molar, inclusive (primeiro ao segundo para o cuon); X8 = comprimento do
primeiro ao quarto premolar, inclusive; X9 = largura do canino inferior.
(a) Através da MANOVA, testar a existência de diferenças significativas, ao nível designificância de 5%, entre tratamentos para as cinco raças de cães.
>> Y=[Y1;Y2;Y3;Y4;Y5]
Y =
123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000
137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000
121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000
130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000
149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000
125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000
126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000
125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000
121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000
122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000
65
115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000
112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000
124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000
128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000
130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000
127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000
120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000
107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000
110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000
116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000
114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000
111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000
113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000
117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000
114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000
112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000
110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000
111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000
107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000
108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000
110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000
105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000
107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000
106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000
111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000
111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000
123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000
135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000
138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000
141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000
135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000
136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000
131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000
137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000
135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000
131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000
130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000
144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000
139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000
123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000
137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000
128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000
122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000
167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000
164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000
150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000
145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000
177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000
66
166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000
164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000
165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000
131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000
163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000
164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000
141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000
148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000
158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000
112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000
115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000
136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000
111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000
130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000
125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000
132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000
121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000
122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000
124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000
>> n=[16 20 17 14 10]
n =
16 20 17 14 10
>> manova(Y,n)
***********************************
* AMOSTRAS MULTIVARIADAS - GRUPOS *
***********************************
***********************************
* E MÉDIAS DOS GRUPOS *
***********************************
X1 =
123.0000 10.1000 23.0000 23.0000 19.0000 7.8000 32.0000 33.0000 5.6000
137.0000 9.6000 19.0000 22.0000 19.0000 7.8000 32.0000 40.0000 5.8000
121.0000 10.2000 18.0000 21.0000 21.0000 7.9000 35.0000 38.0000 6.2000
130.0000 10.7000 24.0000 22.0000 20.0000 7.9000 32.0000 37.0000 5.9000
149.0000 12.0000 25.0000 25.0000 21.0000 8.4000 35.0000 43.0000 6.6000
125.0000 9.5000 23.0000 20.0000 20.0000 7.8000 33.0000 37.0000 6.3000
126.0000 9.1000 20.0000 22.0000 19.0000 7.5000 32.0000 35.0000 5.5000
125.0000 9.7000 19.0000 19.0000 19.0000 7.5000 32.0000 37.0000 6.2000
121.0000 9.6000 22.0000 20.0000 18.0000 7.6000 31.0000 35.0000 5.3000
122.0000 8.9000 10.0000 20.0000 19.0000 7.6000 31.0000 35.0000 5.7000
115.0000 9.3000 19.0000 19.0000 20.0000 7.8000 33.0000 34.0000 6.5000
112.0000 9.1000 19.0000 20.0000 19.0000 6.6000 30.0000 33.0000 5.1000
124.0000 9.3000 21.0000 21.0000 18.0000 7.1000 30.0000 36.0000 5.5000
128.0000 9.6000 22.0000 21.0000 19.0000 7.5000 32.0000 38.0000 5.8000
130.0000 8.4000 23.0000 20.0000 19.0000 7.3000 31.0000 40.0000 5.8000
127.0000 10.5000 25.0000 23.0000 20.0000 8.7000 32.0000 35.0000 6.1000
xm1 =
125.9375
67
9.7250
20.7500
21.1250
19.3750
7.6750
32.0625
36.6250
5.8687
X2 =
120.0000 8.2000 18.0000 17.0000 18.0000 7.0000 32.0000 35.0000 5.2000
107.0000 7.9000 17.0000 17.0000 20.0000 7.0000 32.0000 34.0000 5.3000
110.0000 8.1000 18.0000 16.0000 19.0000 7.1000 31.0000 32.0000 4.7000
116.0000 8.5000 20.0000 18.0000 18.0000 7.1000 32.0000 33.0000 4.7000
114.0000 8.2000 19.0000 18.0000 19.0000 7.9000 32.0000 33.0000 5.1000
111.0000 8.5000 19.0000 16.0000 18.0000 7.1000 30.0000 33.0000 5.0000
113.0000 8.5000 17.0000 18.0000 19.0000 7.1000 30.0000 34.0000 4.6000
117.0000 8.7000 20.0000 17.0000 18.0000 7.0000 30.0000 34.0000 5.2000
114.0000 9.4000 21.0000 19.0000 19.0000 7.5000 31.0000 35.0000 5.3000
112.0000 8.2000 19.0000 17.0000 19.0000 6.8000 30.0000 34.0000 5.1000
110.0000 8.5000 18.0000 17.0000 19.0000 7.0000 31.0000 33.0000 4.9000
111.0000 7.7000 20.0000 18.0000 18.0000 6.7000 30.0000 32.0000 4.5000
107.0000 7.2000 17.0000 16.0000 17.0000 6.0000 28.0000 35.0000 4.7000
108.0000 8.2000 18.0000 16.0000 17.0000 6.5000 29.0000 33.0000 4.8000
110.0000 7.3000 19.0000 15.0000 17.0000 6.1000 30.0000 33.0000 4.5000
105.0000 8.3000 19.0000 17.0000 17.0000 6.5000 29.0000 32.0000 4.5000
107.0000 8.4000 18.0000 17.0000 18.0000 6.2000 29.0000 31.0000 4.3000
106.0000 7.8000 19.0000 18.0000 18.0000 6.2000 31.0000 32.0000 4.4000
111.0000 8.4000 17.0000 16.0000 18.0000 7.0000 30.0000 34.0000 4.7000
111.0000 7.6000 19.0000 17.0000 18.0000 6.5000 30.0000 35.0000 4.6000
xm2 =
111.0000
8.1800
18.6000
17.0000
18.2000
6.8150
30.3500
33.3500
4.8050
X3 =
123.0000 9.7000 22.0000 21.0000 20.0000 7.8000 27.0000 36.0000 6.1000
135.0000 11.8000 25.0000 21.0000 23.0000 8.9000 31.0000 38.0000 7.1000
138.0000 11.4000 25.0000 25.0000 22.0000 9.0000 30.0000 38.0000 7.3000
141.0000 10.8000 26.0000 25.0000 21.0000 8.1000 29.0000 39.0000 6.6000
135.0000 11.2000 25.0000 25.0000 21.0000 8.5000 29.0000 39.0000 6.7000
136.0000 11.0000 22.0000 24.0000 22.0000 8.1000 31.0000 39.0000 6.8000
131.0000 10.4000 23.0000 23.0000 23.0000 8.7000 30.0000 36.0000 6.8000
137.0000 10.6000 25.0000 24.0000 21.0000 8.3000 28.0000 38.0000 6.5000
68
135.0000 10.5000 25.0000 25.0000 21.0000 8.4000 29.0000 39.0000 6.9000
131.0000 10.9000 25.0000 24.0000 21.0000 8.5000 29.0000 35.0000 6.2000
130.0000 11.3000 22.0000 23.0000 21.0000 8.7000 29.0000 37.0000 7.0000
144.0000 10.8000 24.0000 26.0000 22.0000 8.9000 30.0000 42.0000 7.1000
139.0000 10.9000 26.0000 23.0000 22.0000 8.7000 30.0000 39.0000 6.9000
123.0000 9.8000 23.0000 22.0000 10.0000 8.1000 26.0000 34.0000 5.6000
137.0000 11.3000 27.0000 26.0000 23.0000 8.7000 30.0000 39.0000 6.5000
128.0000 10.0000 22.0000 23.0000 22.0000 8.7000 29.0000 37.0000 6.6000
122.0000 9.9000 22.0000 22.0000 20.0000 8.2000 26.0000 36.0000 5.7000
xm3 =
133.2353
10.7235
24.0588
23.6471
20.8824
8.4882
29.0000
37.7059
6.6118
X4 =
167.0000 11.5000 29.0000 28.0000 25.0000 9.5000 41.0000 45.0000 7.2000
164.0000 12.3000 27.0000 26.0000 25.0000 10.0000 42.0000 47.0000 7.9000
150.0000 11.5000 21.0000 24.0000 25.0000 9.3000 41.0000 46.0000 8.5000
145.0000 11.3000 28.0000 24.0000 24.0000 9.2000 36.0000 41.0000 7.2000
177.0000 12.4000 31.0000 27.0000 27.0000 10.5000 43.0000 50.0000 7.9000
166.0000 13.4000 32.0000 27.0000 26.0000 9.5000 40.0000 47.0000 7.3000
164.0000 12.1000 27.0000 24.0000 25.0000 9.9000 42.0000 45.0000 8.3000
165.0000 12.6000 30.0000 26.0000 25.0000 7.7000 40.0000 43.0000 7.9000
131.0000 11.8000 20.0000 24.0000 23.0000 8.8000 38.0000 40.0000 6.5000
163.0000 10.8000 27.0000 24.0000 24.0000 9.2000 39.0000 48.0000 7.0000
164.0000 10.7000 24.0000 23.0000 26.0000 9.5000 43.0000 47.0000 7.6000
141.0000 10.4000 20.0000 23.0000 23.0000 8.9000 38.0000 43.0000 6.0000
148.0000 10.6000 26.0000 21.0000 24.0000 8.9000 39.0000 40.0000 7.0000
158.0000 10.7000 25.0000 25.0000 24.0000 9.8000 41.0000 45.0000 7.4000
xm4 =
157.3571
11.5786
26.2143
24.7143
24.7143
9.3357
40.2143
44.7857
7.4071
X5 =
112.0000 10.1000 17.0000 18.0000 19.0000 7.7000 31.0000 33.0000 5.8000
115.0000 10.0000 18.0000 23.0000 20.0000 7.8000 33.0000 36.0000 6.0000
136.0000 11.9000 22.0000 25.0000 21.0000 8.5000 36.0000 39.0000 7.0000
69
111.0000 9.9000 19.0000 20.0000 18.0000 7.3000 29.0000 34.0000 5.3000
130.0000 11.2000 23.0000 27.0000 20.0000 9.1000 35.0000 35.0000 6.6000
125.0000 10.7000 19.0000 26.0000 20.0000 8.4000 33.0000 37.0000 6.3000
132.0000 9.6000 19.0000 20.0000 19.0000 9.7000 35.0000 38.0000 6.6000
121.0000 10.7000 21.0000 23.0000 19.0000 7.9000 32.0000 35.0000 6.0000
122.0000 9.8000 22.0000 23.0000 18.0000 7.9000 32.0000 35.0000 6.1000
124.0000 9.5000 20.0000 24.0000 19.0000 7.6000 32.0000 37.0000 6.0000
xm5 =
122.8000
10.3400
20.0000
22.9000
19.3000
8.1900
32.8000
35.9000
6.1700
**********************************
* FONTE DE VARIAÇÃO: TRATAMENTOS *
**********************************
**********************************
* MATRIZ B *
**********************************
1.0e+004 *
1.8577 0.1326 0.3230 0.2982 0.2658 0.0996 0.3587 0.4543 0.1029
0.1326 0.0112 0.0240 0.0268 0.0182 0.0081 0.0209 0.0313 0.0084
0.3230 0.0240 0.0614 0.0550 0.0463 0.0179 0.0482 0.0767 0.0186
0.2982 0.0268 0.0550 0.0650 0.0400 0.0189 0.0420 0.0692 0.0196
0.2658 0.0182 0.0463 0.0400 0.0390 0.0140 0.0536 0.0656 0.0143
0.0996 0.0081 0.0179 0.0189 0.0140 0.0059 0.0169 0.0238 0.0061
0.3587 0.0209 0.0482 0.0420 0.0536 0.0169 0.1138 0.0955 0.0168
0.4543 0.0313 0.0767 0.0692 0.0656 0.0238 0.0955 0.1125 0.0245
0.1029 0.0084 0.0186 0.0196 0.0143 0.0061 0.0168 0.0245 0.0063
**********************************
* FONTE DE VARIAÇÃO: RESIDUAL *
**********************************
* MATRIZ W *
**********************************
1.0e+003 *
4.7028 0.2151 0.9154 0.6018 0.4049 0.1633 0.6246 1.0197 0.1692
0.2151 0.0373 0.0707 0.0528 0.0377 0.0116 0.0404 0.0377 0.0130
0.9154 0.0707 0.4991 0.1717 0.0681 0.0255 0.0764 0.1282 0.0254
0.6018 0.0528 0.1717 0.2174 0.0677 0.0233 0.0845 0.1170 0.0190
0.4049 0.0377 0.0681 0.0677 0.1897 0.0243 0.1157 0.1097 0.0320
0.1633 0.0116 0.0255 0.0233 0.0243 0.0205 0.0406 0.0358 0.0102
0.6246 0.0404 0.0764 0.0845 0.1157 0.0406 0.1854 0.1444 0.0412
1.0197 0.0377 0.1282 0.1170 0.1097 0.0358 0.1444 0.3491 0.0415
0.1692 0.0130 0.0254 0.0190 0.0320 0.0102 0.0412 0.0415 0.0163
70
**********************************
* FONTE DE VARIAÇÃO: TOTAL *
**********************************
*********************************
* MATRIZ B + W *
**********************************
1.0e+004 *
2.3280 0.1541 0.4146 0.3584 0.3063 0.1160 0.4212 0.5563 0.1198
0.1541 0.0150 0.0311 0.0320 0.0220 0.0092 0.0249 0.0350 0.0096
0.4146 0.0311 0.1113 0.0722 0.0531 0.0205 0.0558 0.0896 0.0211
0.3584 0.0320 0.0722 0.0867 0.0468 0.0213 0.0504 0.0809 0.0215
0.3063 0.0220 0.0531 0.0468 0.0580 0.0164 0.0651 0.0766 0.0175
0.1160 0.0092 0.0205 0.0213 0.0164 0.0080 0.0210 0.0274 0.0071
0.4212 0.0249 0.0558 0.0504 0.0651 0.0210 0.1323 0.1099 0.0209
0.5563 0.0350 0.0896 0.0809 0.0766 0.0274 0.1099 0.1475 0.0286
0.1198 0.0096 0.0211 0.0215 0.0175 0.0071 0.0209 0.0286 0.0079
**********************************
* LÂMBDA DE WILKS *
**********************************
0.0049
**********************************
* ESTATÍSTICA DO TESTE *
**********************************
qui2 =
366.9383
**********************************
* VALOR DE p *
**********************************
0
Como o teste p = 0 < 0.05 então, rejeita-se a hipótese H0 : em que considera-se a
igualdade dos vetores médios.
(b) Testar isoladamente cada raça com os cães pré-históricos tailandeses, ao nível designificância de 5%.
>> Y1=[];
>> Y2=[];
>> Y3=[];
>> Y4=[];
>> Y5=[];
>> S1=cov(Y1)
S1 =
72.3292 4.3350 12.9167 9.8083 2.4250 2.1450 5.2708 19.9083 1.4979
4.3350 0.7180 1.5467 1.0433 0.4767 0.2893 0.7983 0.9300 0.1828
12.9167 1.5467 13.4000 2.9667 0.6333 0.6333 1.0167 2.7000 0.2983
9.8083 1.0433 2.9667 2.6500 0.5500 0.4633 0.9250 1.6500 0.1108
2.4250 0.4767 0.6333 0.5500 0.7833 0.2700 1.1083 0.9500 0.2925
2.1450 0.2893 0.6333 0.4633 0.2700 0.2313 0.4617 0.4167 0.1385
71
5.2708 0.7983 1.0167 0.9250 1.1083 0.4617 2.0625 1.9583 0.4887
19.9083 0.9300 2.7000 1.6500 0.9500 0.4167 1.9583 7.4500 0.5742
1.4979 0.1828 0.2983 0.1108 0.2925 0.1385 0.4887 0.5742 0.1796
>> S2=cov(Y2)
S2 =
15.0526 0.8000 1.5263 1.1053 0.6842 1.1158 2.2632 2.1579 0.6474
0.8000 0.2533 0.1968 0.2368 0.1568 0.1566 0.1495 0.0284 0.0691
1.5263 0.1968 1.3053 0.5263 -0.0737 0.1221 0.2526 -0.1158 0.0495
1.1053 0.2368 0.5263 0.9474 0.3684 0.2158 0.4737 0.0526 0.0526
0.6842 0.1568 -0.0737 0.3684 0.6947 0.2653 0.6105 0.1368 0.1358
1.1158 0.1566 0.1221 0.2158 0.2653 0.2308 0.3629 0.1208 0.0994
2.2632 0.1495 0.2526 0.4737 0.6105 0.3629 1.2921 0.1342 0.1718
2.1579 0.0284 -0.1158 0.0526 0.1368 0.1208 0.1342 1.3974 0.2192
0.6474 0.0691 0.0495 0.0526 0.1358 0.0994 0.1718 0.2192 0.0973
>> S3=cov(Y3)
S3 =
41.3162 2.6191 7.2978 7.4007 9.9669 1.0404 7.0625 10.6360 2.2783
2.6191 0.3707 0.5610 0.3713 0.9467 0.1309 0.7063 0.5824 0.2103
7.2978 0.5610 2.8088 1.4596 1.2574 0.1882 0.9375 1.3934 0.2368
7.4007 0.3713 1.4596 2.4926 1.4559 0.1643 0.9375 2.0147 0.3044
9.9669 0.9467 1.2574 1.4559 8.7353 0.4923 3.1875 3.1507 0.9577
1.0404 0.1309 0.1882 0.1643 0.4923 0.1174 0.3250 0.2401 0.1151
7.0625 0.7063 0.9375 0.9375 3.1875 0.3250 2.2500 1.7500 0.6125
10.6360 0.5824 1.3934 2.0147 3.1507 0.2401 1.7500 3.7206 0.6287
2.2783 0.2103 0.2368 0.3044 0.9577 0.1151 0.6125 0.6287 0.2286
>> S4=cov(Y4)
S4 =
156.4011 4.8467 37.1484 14.6484 11.9560 3.8016 18.9945 30.5440 4.9203
4.8467 0.8049 2.1203 1.1703 0.5703 0.0585 0.4665 0.7874 0.2717
37.1484 2.1203 14.9505 4.6044 2.8352 0.5225 1.8736 4.5879 0.9060
14.6484 1.1703 4.6044 3.6044 1.1429 0.3648 1.3736 2.9341 0.3637
11.9560 0.5703 2.8352 1.1429 1.2967 0.3725 1.7582 2.5495 0.5176
3.8016 0.0585 0.5225 0.3648 0.3725 0.4455 0.7764 1.3005 0.1459
18.9945 0.4665 1.8736 1.3736 1.7582 0.7764 4.1813 4.5110 0.9214
30.5440 0.7874 4.5879 2.9341 2.5495 1.3005 4.5110 9.2582 0.9786
4.9203 0.2717 0.9060 0.3637 0.5176 0.1459 0.9214 0.9786 0.4607
>> S5=cov(Y5)
S5 =
70.8444 3.3311 10.3333 13.8667 4.5111 4.8756 15.8444 12.5333 3.7822
3.3311 0.5938 0.8000 1.2822 0.5533 0.1571 0.9089 0.4044 0.2269
10.3333 0.8000 3.7778 3.7778 0.3333 0.4333 1.8889 0.8889 0.4889
13.8667 1.2822 3.7778 8.1000 1.5889 0.5433 3.2000 2.3222 0.7522
4.5111 0.5533 0.3333 1.5889 0.9000 0.2811 1.5111 1.0333 0.3322
4.8756 0.1571 0.4333 0.5433 0.2811 0.5499 1.2756 0.7211 0.2797
15.8444 0.9089 1.8889 3.2000 1.5111 1.2756 4.4000 2.8667 0.9822
12.5333 0.4044 0.8889 2.3222 1.0333 0.7211 2.8667 3.4333 0.6633
3.7822 0.2269 0.4889 0.7522 0.3322 0.2797 0.9822 0.6633 0.2290
>> X1=mean(Y1)
72
X1 =
125.9375 9.7250 20.7500 21.1250 19.3750 7.6750 32.0625 36.6250 5.8687
>> X2=mean(Y2)
X2 =
111.0000 8.1800 18.6000 17.0000 18.2000 6.8150 30.3500 33.3500 4.8050
>> X3=mean(Y3)
X3 =
133.2353 10.7235 24.0588 23.6471 20.8824 8.4882 29.0000 37.7059 6.6118
>> X4=mean(Y4)
X4 =
157.3571 11.5786 26.2143 24.7143 24.7143 9.3357 40.2143 44.7857 7.4071
>> X5=mean(Y5)
X5 =
122.8000 10.3400 20.0000 22.9000 19.3000 8.1900 32.8000 35.9000 6.1700
>> n1=16;
>> n2=20;
>> n3=17;
>> n4=14;
>> n5=10;
>> Sp1=(((n1-1)*S1)+(n5-1)*S5)/(n1+n5-2)
Sp1 =
71.7724 3.9585 11.9479 11.3302 3.2073 3.1690 9.2359 17.1427 2.3545
3.9585 0.6714 1.2667 1.1329 0.5054 0.2398 0.8398 0.7329 0.1994
11.9479 1.2667 9.7917 3.2708 0.5208 0.5583 1.3438 2.0208 0.3698
11.3302 1.1329 3.2708 4.6938 0.9396 0.4933 1.7781 1.9021 0.3514
3.2073 0.5054 0.5208 0.9396 0.8271 0.2742 1.2594 0.9812 0.3074
3.1690 0.2398 0.5583 0.4933 0.2742 0.3508 0.7669 0.5308 0.1914
9.2359 0.8398 1.3438 1.7781 1.2594 0.7669 2.9391 2.2990 0.6738
17.1427 0.7329 2.0208 1.9021 0.9812 0.5308 2.2990 5.9438 0.6076
2.3545 0.1994 0.3698 0.3514 0.3074 0.1914 0.6738 0.6076 0.1981
>> Sp2=(((n2-1)*S2)+(n5-1)*S5)/(n2+n5-2)
Sp2 =
32.9857 1.6136 4.3571 5.2071 1.9143 2.3243 6.6286 5.4929 1.6550
1.6136 0.3627 0.3907 0.5729 0.2843 0.1568 0.3936 0.1493 0.1198
4.3571 0.3907 2.1000 1.5714 0.0571 0.2221 0.7786 0.2071 0.1907
5.2071 0.5729 1.5714 3.2464 0.7607 0.3211 1.3500 0.7821 0.2775
1.9143 0.2843 0.0571 0.7607 0.7607 0.2704 0.9000 0.4250 0.1989
2.3243 0.1568 0.2221 0.3211 0.2704 0.3334 0.6562 0.3137 0.1573
6.6286 0.3936 0.7786 1.3500 0.9000 0.6562 2.2911 1.0125 0.4323
5.4929 0.1493 0.2071 0.7821 0.4250 0.3137 1.0125 2.0518 0.3620
1.6550 0.1198 0.1907 0.2775 0.1989 0.1573 0.4323 0.3620 0.1397
>> Sp3=(((n3-1)*S3)+(n5-1)*S5)/(n3+n5-2)
Sp3 =
51.9464 2.8754 8.3906 9.7285 8.0028 2.4211 10.2240 11.3191 2.8197
2.8754 0.4510 0.6471 0.6992 0.8051 0.1403 0.7792 0.5183 0.2163
8.3906 0.6471 3.1576 2.2941 0.9247 0.2765 1.2800 1.2118 0.3275
9.7285 0.6992 2.2941 4.5113 1.5038 0.3008 1.7520 2.1254 0.4656
8.0028 0.8051 0.9247 1.5038 5.9146 0.4163 2.5840 2.3885 0.7325
73
2.4211 0.1403 0.2765 0.3008 0.4163 0.2731 0.6672 0.4132 0.1744
10.2240 0.7792 1.2800 1.7520 2.5840 0.6672 3.0240 2.1520 0.7456
11.3191 0.5183 1.2118 2.1254 2.3885 0.4132 2.1520 3.6172 0.6412
2.8197 0.2163 0.3275 0.4656 0.7325 0.1744 0.7456 0.6412 0.2287
>> Sp4=(((n4-1)*S4)+(n5-1)*S5)/(n4+n5-2)
Sp4 =
121.4006 4.2267 26.1786 14.3286 8.9104 4.2410 17.7058 23.1760 4.4547
4.2267 0.7185 1.5802 1.2161 0.5634 0.0989 0.6475 0.6307 0.2534
26.1786 1.5802 10.3799 4.2662 1.8117 0.4860 1.8799 3.0747 0.7354
14.3286 1.2161 4.2662 5.4435 1.3253 0.4379 2.1208 2.6838 0.5227
8.9104 0.5634 1.8117 1.3253 1.1344 0.3351 1.6571 1.9292 0.4418
4.2410 0.0989 0.4860 0.4379 0.3351 0.4882 0.9806 1.0635 0.2006
17.7058 0.6475 1.8799 2.1208 1.6571 0.9806 4.2708 3.8383 0.9463
23.1760 0.6307 3.0747 2.6838 1.9292 1.0635 3.8383 6.8753 0.8496
4.4547 0.2534 0.7354 0.5227 0.4418 0.2006 0.9463 0.8496 0.3659
>> T1=(X1-X5)*inv(((1/n1)+(1/n5))*Sp1)*(X1-X5)’
T1 =
110.8603
>> T2=(X2-X5)*inv(((1/n2)+(1/n5))*Sp2)*(X2-X5)’
T2 =
296.4411
>> T3=(X3-X5)*inv(((1/n3)+(1/n5))*Sp3)*(X3-X5)’
T3 =
474.5587
>> T4=(X4-X5)*inv(((1/n4)+(1/n5))*Sp4)*(X4-X5)’
T4 =
243.2363
>> Fteste1=T1*((n1+n5-9-1)/(n1+n5-2))
Fteste1 =
73.9068
>> Fteste2=T2*((n2+n5-9-1)/(n2+n5-2))
Fteste2 =
211.7437
>> Fteste3=T3*((n3+n5-9-1)/(n3+n5-2))
Fteste3 =
322.6999
>> Fteste4=T4*((n4+n5-9-1)/(n4+n5-2))
Fteste4 =
154.7867
>> F1=finv(0.95,9,(n1+n5-9-1))
F1 =
2.5377
>> F2=finv(0.95,9,(n2+n5-9-1))
F2 =
2.3928
>> F3=finv(0.95,9,(n3+n5-9-1))
F3 =
2.4943
74
>> F4=finv(0.95,9,(n4+n5-9-1))
F4 =
2.6458
Comparando as médias dos cães Pré-históricos tailandeses primeiramente com os cães
modernos da Tailândia, depois com os Chacais Dourados, em seguida com os Cuons
e depois com os lobos indianos, pode-se dizer que rejeita-se a hipótese de que: H0 :
a média ¹5 é igual a média ¹1, H0 : ¹5 = ¹2, H0 : ¹5 = ¹3, H0 : ¹5 = ¹4. Ou seja,
rejeita-se as 4 hipóteses em que compara-se a média dos cães pré-históricos tailandeses
com as demais médias, uma a uma.
4 Lista 4: Análise de Componentes Principais
1. A tabela seguinte mostra as estimativas de consumo médio de proteínas de diferentes fontes
de alimentos para os habitantes de 25 países europeus como publicados por Weber (1973).
Use a análise de componentes principais para investigar o relacionamento entre os países
com base nestas variáveis.
Países X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Albânia 10 1 1 9 0 42 1 6 2 72
Austria 9 14 4 20 2 28 4 1 4 86
Bélgica 14 9 4 18 5 27 6 2 4 89
Bulgária 8 6 2 8 1 57 1 4 4 91
Tchecoslováquia 10 11 3 13 2 34 5 1 4 83
Dinamarca 11 11 4 25 10 22 5 1 2 91
Alemanha Ocidental 8 12 4 11 5 25 7 1 4 77
Finlândia 10 5 3 34 6 26 5 1 1 91
França 18 10 3 20 6 28 5 2 7 99
Grécia 10 3 3 18 6 42 2 8 7 99
Hungria 5 12 3 10 0 40 4 5 4 83
Irlanda 14 10 5 26 2 24 6 2 3 92
Itália 9 5 3 14 3 37 2 4 7 84
Países Baixos 10 14 4 23 3 22 4 2 4 86
Noruega 9 5 3 23 10 23 5 2 3 83
Polônia 7 10 3 19 3 36 6 2 7 93
Portugal 6 4 1 5 14 27 6 5 8 76
75
Romênia 6 6 2 11 1 50 3 5 3 87
Espanha 7 3 3 9 7 29 6 6 7 77
Suécia 10 8 4 25 8 20 4 1 2 82
Suíça 13 10 3 24 2 26 3 2 5 88
Reino Unido 17 6 5 21 4 24 5 3 3 88
URSS 9 5 2 17 3 44 6 3 3 92
Alemanha Oriental 11 13 4 19 3 19 5 2 4 80
Iugoslávia 4 5 1 10 1 59 3 6 3 89
Tabela 5: Consumo de proteínas (g por pessoa por dia) em 25 países europeus
>> X
X =
10 1 1 9 0 42 1 6 2 72
9 14 4 20 2 28 4 1 4 86
14 9 4 18 5 27 6 2 4 89
8 6 2 8 1 57 1 4 4 91
10 11 3 13 2 34 5 1 4 83
11 11 4 25 10 22 5 1 2 91
8 12 4 11 5 25 7 1 4 77
10 5 3 34 6 26 5 1 1 91
18 10 3 20 6 28 5 2 7 99
10 3 3 18 6 42 2 8 7 99
5 12 3 10 0 40 4 5 4 83
14 10 5 26 2 24 6 2 3 92
9 5 3 14 3 37 2 4 7 84
10 14 4 23 3 22 4 2 4 86
9 5 3 23 10 23 5 2 3 83
7 10 3 19 3 36 6 2 7 93
6 4 1 5 14 27 6 5 8 76
6 6 2 11 1 50 3 5 3 87
7 3 3 9 7 29 6 6 7 77
10 8 4 25 8 20 4 1 2 82
13 10 3 24 2 26 3 2 5 88
17 6 5 21 4 24 5 3 3 88
9 5 2 17 3 44 6 3 3 92
11 13 4 19 3 19 5 2 4 80
4 5 1 10 1 59 3 6 3 89
>> comp2(X)
***********************
* VETOR DE MÉDIAS *
***********************
9.8000 7.9200 3.0800 17.2800 4.2800 32.4400 4.3600 3.0800 4.2000 86.3200
**************************
76
* MATRIZ COVARIÂNCIA *
**************************
11.5833 2.4000 2.1833 13.1417 0.7667 -19.8250 0.8667 -2.8167 -0.4167 8.6083
2.4000 13.9933 2.5067 7.8983 -2.5600 -18.4633 2.0717 -5.0767 -0.5250 2.6100
2.1833 2.5067 1.2433 4.8517 0.1850 -8.8700 0.7617 -1.3400 -0.3500 1.4317
13.1417 7.8983 4.8517 50.3767 4.0017 -47.2117 2.5200 -8.9400 -5.4333 22.1150
0.7667 -2.5600 0.1850 4.0017 12.0433 -20.1700 2.5200 -0.8567 1.5250 -2.1350
-19.8250 -18.4633 -8.8700 -47.2117 -20.1700 127.5067 -10.7067 14.5050 0.7417 14.1867
0.8667 2.0717 0.7617 2.5200 2.5200 -10.7067 2.7400 -1.6550 0.2167 -0.4950
-2.8167 -5.0767 -1.3400 -8.9400 -0.8567 14.5050 -1.6550 4.0767 1.3583 -1.1100
-0.4167 -0.5250 -0.3500 -5.4333 1.5250 0.7417 0.2167 1.3583 3.6667 0.9333
8.6083 2.6100 1.4317 22.1150 -2.1350 14.1867 -0.4950 -1.1100 0.9333 45.8100
*************************
* MATRIZ CORRELAÇÃO *
*************************
1.0000 0.1885 0.5753 0.5440 0.0649 -0.5159 0.1538 -0.4099 -0.0639 0.3737
0.1885 1.0000 0.6010 0.2975 -0.1972 -0.4371 0.3346 -0.6721 -0.0733 0.1031
0.5753 0.6010 1.0000 0.6130 0.0478 -0.7045 0.4127 -0.5952 -0.1639 0.1897
0.5440 0.2975 0.6130 1.0000 0.1625 -0.5891 0.2145 -0.6238 -0.3998 0.4604
0.0649 -0.1972 0.0478 0.1625 1.0000 -0.5147 0.4387 -0.1223 0.2295 -0.0909
-0.5159 -0.4371 -0.7045 -0.5891 -0.5147 1.0000 -0.5728 0.6362 0.0343 0.1856
0.1538 0.3346 0.4127 0.2145 0.4387 -0.5728 1.0000 -0.4952 0.0684 -0.0442
-0.4099 -0.6721 -0.5952 -0.6238 -0.1223 0.6362 -0.4952 1.0000 0.3513 -0.0812
-0.0639 -0.0733 -0.1639 -0.3998 0.2295 0.0343 0.0684 0.3513 1.0000 0.0720
0.3737 0.1031 0.1897 0.4604 -0.0909 0.1856 -0.0442 -0.0812 0.0720 1.0000
************************************
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
************************************
4.1288 1.7392 1.3090 1.0425 0.7043 0.4268 0.3409 0.1907 0.1169 0.0009
************************************
* AUTOVETORES DA MATRIZ CORRELAÇÃO *
************************************
-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112
-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179
-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796
-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294
-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106
0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792
-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934
0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093
0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280
-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177
******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.
77
LORES (EM %) ACUM. (%)
-----------------------------------------
1 4.1288 41.29 41.29
2 1.7392 17.39 58.68
3 1.3090 13.09 71.77
4 1.0425 10.42 82.20
5 0.7043 7.04 89.24
6 0.4268 4.27 93.51
7 0.3409 3.41 96.92
8 0.1907 1.91 98.82
9 0.1169 1.17 99.99
10 0.0009 0.01 100.00
-----------------------------------------
***************************************************
* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *
***************************************************
-----------------------------------------------------------------------------------------------------
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10
-----------------------------------------------------------------------------------------------------
-0.3190 -0.1751 0.3820 0.0391 -0.5262 -0.3962 0.4308 0.1648 -0.1702 0.2112
-0.3139 -0.1184 -0.3655 -0.5378 0.0977 0.3086 0.0915 0.2980 -0.4639 0.2179
-0.4207 -0.0810 -0.0212 -0.1548 -0.2657 -0.0634 -0.6428 0.2590 0.4803 0.0796
-0.3868 -0.2340 0.2010 0.3197 0.1577 0.3080 -0.1754 -0.5434 -0.1513 0.4294
-0.1268 0.5741 0.3272 0.3062 0.2066 0.3046 0.0588 0.5195 0.0169 0.2106
0.4175 -0.3131 0.0214 -0.1019 0.2997 -0.1942 0.0663 0.1969 0.2912 0.6792
-0.2875 0.4095 -0.0615 -0.1477 0.4277 -0.6787 -0.1137 -0.1891 -0.1517 0.0934
0.4178 0.0419 0.2492 -0.0104 -0.2241 -0.0942 -0.5757 0.0893 -0.5924 0.1093
0.1188 0.3524 0.4095 -0.6439 -0.1667 0.2210 0.0859 -0.3704 0.2045 0.1280
-0.1065 -0.4155 0.5818 -0.2060 0.4740 -0.0058 -0.0496 0.1791 -0.0364 -0.4177
------------------------------------------------------------------------------------------------------
************************************
* ESCORES (VARIÁVEIS PADRONIZADAS) *
************************************
3.5846 -0.6366 -1.0980 1.9094 -1.9046 -0.3755 0.6478 -0.3053 -0.3526 -0.0195
-1.3867 -0.7113 -1.1613 -0.9297 0.0030 0.7585 -0.0035 0.0116 0.1224 0.0028
-1.6610 0.1110 0.4197 -0.2448 -0.1771 -0.9116 0.1568 0.3353 0.0311 0.0045
2.9589 -1.8221 0.0786 -0.3038 0.1108 0.3073 0.5911 0.7438 0.6695 -0.0256
-0.3746 -0.0991 -1.2188 -0.7155 0.0603 -0.3630 0.7876 0.0356 0.2421 -0.0023
-2.4856 0.1781 0.2057 0.9408 0.8262 0.6554 -0.0422 0.9847 -0.1600 -0.0067
-1.2347 1.5744 -1.9410 -0.7611 0.1491 -0.5881 -0.0637 0.3088 0.3230 0.0059
-1.7694 -0.7613 0.3701 2.2834 1.2175 0.1889 -0.0506 -0.7986 -0.0118 -0.0140
-1.6486 -0.2912 2.4813 -1.2583 -0.2198 -0.3329 1.3674 0.1890 -0.3773 0.0083
2.0780 -0.5979 3.0891 -0.3236 -0.2798 0.6437 -1.1895 0.2496 -0.1912 -0.0190
1.4700 -0.4362 -1.6091 -1.2139 0.1306 0.1162 -0.8172 0.1993 -0.5050 -0.0360
-2.6687 -1.0385 0.2851 -0.1597 -0.1726 -0.8685 -0.7282 -0.1938 -0.0476 0.0036
1.5548 0.0024 0.5927 -0.5451 -1.0798 0.7736 0.0020 -0.4436 0.8068 0.0196
-1.6954 -0.5091 -0.7578 -0.6459 -0.2956 0.9166 -0.2545 -0.0803 -0.4348 0.0003
-0.8764 1.2778 0.1813 1.7222 0.4407 0.4217 0.0080 -0.0127 0.1780 0.0021
78
-0.2370 0.2054 0.3976 -1.6733 1.3304 0.0985 -0.0287 -0.8496 0.3263 -0.0088
2.0934 4.4131 0.6559 0.0422 0.2991 0.3364 0.6442 0.2105 -0.3033 -0.0057
2.5845 -1.0469 -0.5828 0.1458 0.5135 -0.1880 -0.2154 0.1985 -0.0370 -0.0423
1.5699 2.6779 0.2804 -0.2350 -0.5869 -0.6143 -0.9496 -0.4113 0.1588 0.0040
-1.8256 0.3542 -0.5423 1.5654 -0.1584 0.8009 -0.1532 0.2391 0.3407 0.0138
-0.9293 -0.9597 0.3534 -0.2847 -0.7621 0.7048 0.6845 -0.6688 -0.2549 0.0094
-1.9713 -0.5516 0.8763 0.6070 -1.3824 -1.2223 -0.4761 0.3677 0.2345 0.0201
0.7518 -0.4765 0.2702 0.4153 1.4640 -1.2218 0.3177 -0.2993 -0.0508 -0.0385
-1.6774 0.3019 -1.2198 -0.5504 -0.8067 0.1908 -0.0960 -0.1307 -0.4123 0.0083
3.7960 -1.1582 -0.4065 0.2131 1.2807 -0.2274 -0.1388 0.1204 -0.2945 0.1157
***********************************************
* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *
* E AS COMPONENTES PRINCIPAIS *
***********************************************
-----------------------------------------------------------------------------------
| COMPONENTES PRINCIPAIS
-------------------------------------------------------------------------------------------------
|VAR.| CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10 |
-------------------------------------------------------------------------------------------------
1 -0.6482 -0.2310 0.4371 0.0399 -0.4415 -0.2588 0.2515 0.0720 -0.0582 0.0062
2 -0.6379 -0.1561 -0.4182 -0.5491 0.0820 0.2016 0.0534 0.1301 -0.1586 0.0064
3 -0.8549 -0.1069 -0.0243 -0.1580 -0.2230 -0.0414 -0.3753 0.1131 0.1642 0.0024
4 -0.7859 -0.3086 0.2300 0.3264 0.1324 0.2012 -0.1024 -0.2373 -0.0517 0.0127
5 -0.2578 0.7572 0.3744 0.3126 0.1734 0.1990 0.0343 0.2269 0.0058 0.0062
6 0.8482 -0.4129 0.0245 -0.1040 0.2515 -0.1269 0.0387 0.0860 0.0996 0.0201
7 -0.5842 0.5401 -0.0704 -0.1508 0.3589 -0.4434 -0.0664 -0.0826 -0.0519 0.0028
8 0.8490 0.0553 0.2851 -0.0107 -0.1880 -0.0615 -0.3362 0.0390 -0.2026 0.0032
9 0.2414 0.4648 0.4685 -0.6574 -0.1399 0.1444 0.0502 -0.1618 0.0699 0.0038
10 -0.2163 -0.5480 0.6657 -0.2103 0.3978 -0.0038 -0.0290 0.0782 -0.0124 -0.0124
----------------------------------------------------------------------------------------------------
ans =
FUNÇÃO COMP/UFPR/DEPTO. DE ESTATÍSTICA/JMM
As 4 primeiras componentes principais explicam quase 82.2% das variáveis originais, sendo
que as variáveis X1, X2, X3, X4, X6, X7 e X8 são melhores explicadas pela primeira com-
ponente Y 1 nos países: Albânia e Iugoslávia e pior explicadas para Dinamarca e Irlanda;
X5 é melhor explicada pela componente Y 2 nos países Espanha e Suíça e pior explicada
para Iugoslávia e Bulgária; X10 é melhor explicada pela componente Y 3 nos países França
e Grécia e pior explicada para Alemanha Oriental e Alemanha Ocidental; X9 é melhor
explicada pela componente Y 4 nos países Albânia e Finlândia e pior explicada por França
e Polônia.
79
1 2 3 4 5 6 7 8 9 100
0.5
1
1.5
2
2.5
3
3.5
4
4.5AUTOVALORES DA MATRIZ CORRELAÇÃO
NÚMERO DO AUTOVALOR
AU
TO
VA
LOR
−0.5 0 0.5−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
12
3
4
5
6
7
8
9
10
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2
COMPONENTE 1
CO
MP
ON
EN
TE
2
80
−3 −2 −1 0 1 2 3 4−2
−1
0
1
2
3
4
5
12
3
4
56
7
8
910
11
12
13
14
15
16
17
18
19
20
21
22 23
24
25
DISPERSÃO DOS ESCORES: COMP1 versus COMP2
ESCORE − COMP1
ES
CO
RE
− C
OM
P2
2. Com o título: “Brasil fica mais vulnerável no governo FH” , o jornal “A folha de São Paulo”
publicou um artigo mostrando os seguintes indicadores usados pelo Banco Central (vamos
reproduzir 5 desses indicadores):
Ano X1 X2 X3 X4 X5
1995 46.1 3 31.7 3.4 64.5
1996 56.9 3.5 32.8 3.8 56.8
1997 76.3 5 25.7 3.8 47.4
1998 92.3 6 18.1 3.8 46.2
1999 146.6 13.3 14.7 4.7 46.5
2000 101.7 9.4 14 5 44.6
X1 = parcela das exportações que é comprometida pelos gastos com a dívida externa (em
%), X2 = quanto os gastos da dívida externa representam do PIB (em %), X3 = parcela
da dívida externa bruta que poderia ser paga com as reservas internacionais (em %), X4
= quantos anos de exportação são necessários para pagar a dívida externa bruta (divisão
do saldo da dívida externa bruta pelo saldo das exportações no ano) e X5 = parcela do
governo na dívida externa bruta (em %).
(a) Calcular o vetor de médias amostrais.
>> Mi=mean(X)
Mi =
86.6500 6.7000 22.8333 4.0833 51.0000
(b) Calcular a matriz de covariância amostral.
81
>> S=cov(X)
S =
1.0e+003 *
1.2978 0.1390 -0.2666 0.0176 -0.2152
0.1390 0.0156 -0.0288 0.0021 -0.0212
-0.2666 -0.0288 0.0706 -0.0043 0.0566
0.0176 0.0021 -0.0043 0.0004 -0.0034
-0.2152 -0.0212 0.0566 -0.0034 0.0626
(c) Calcular a matriz de correlação amostral.
>> comp2(X)
* MATRIZ CORRELAÇÃO *
*************************
1.0000 0.9762 -0.8811 0.7888 -0.7548
0.9762 1.0000 -0.8660 0.8683 -0.6777
-0.8811 -0.8660 1.0000 -0.8231 0.8517
0.7888 0.8683 -0.8231 1.0000 -0.6971
-0.7548 -0.6777 0.8517 -0.6971 1.0000
(d) Calcular os autovalores da matriz de correlação R.
************************************
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
************************************
4.2812 0.3957 0.2297 0.0918 0.0016
(e) Calcular o % de explicação de cada autovalor de R.
******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ CORRELAÇÃO *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.
LORES (EM %) ACUM. (%)
-----------------------------------------
1 4.2812 85.62 85.62
2 0.3957 7.91 93.54
3 0.2297 4.59 98.13
4 0.0918 1.84 99.97
5 0.0016 0.03 100.00
-----------------------------------------
(f) Determinar as componentes principais de R.
***************************************************
* COMPONENTES PRINCIPAIS (VARIÁVEIS PADRONIZADAS) *
***************************************************
------------------------------------------------
CP1 CP2 CP3 CP4 CP5
------------------------------------------------
82
-0.4612 -0.2182 0.5303 -0.2410 -0.6328
-0.4602 -0.4496 0.2184 -0.1285 0.7224
0.4622 -0.2062 -0.0431 -0.8610 0.0260
-0.4365 -0.2694 -0.8179 -0.1356 -0.2226
0.4139 -0.7969 0.0192 0.4071 -0.1657
------------------------------------------------
(g) Determinar as correlações entre as variáveis (indicadores) e as componentes principais.Discutir os resultados.
* CORRELAÇÕES ENTRE AS VARIÁVEIS PADRONIZADAS *
* E AS COMPONENTES PRINCIPAIS *
***********************************************
-----------------------------------------------
| COMPONENTES PRINCIPAIS |
----------------------------------------------------
|VAR.| CP1 CP2 CP3 CP4 CP5 |
----------------------------------------------------
1 -0.9542 -0.1373 0.2541 -0.0730 -0.0256
2 -0.9522 -0.2828 0.1047 -0.0389 0.0292
3 0.9564 -0.1297 -0.0207 -0.2609 0.0010
4 -0.9032 -0.1695 -0.3920 -0.0411 -0.0090
5 0.8563 -0.5013 0.0092 0.1233 -0.0067
----------------------------------------------------
(h) Calcular os escores correspondentes.
************************************
* ESCORES (VARIÁVEIS PADRONIZADAS) *
************************************
2.6241 -0.6145 0.0860 0.3264 0.0259
1.8043 -0.1618 -0.2786 -0.3583 -0.0512
0.4990 0.6711 0.1034 -0.2927 0.0570
-0.3032 0.7679 0.4302 0.2851 -0.0397
-2.6521 -0.7283 0.4657 -0.1480 0.0008
-1.9721 0.0655 -0.8068 0.1876 0.0071
Observando o "Acumulado", é possível admitir um ou 2 fatores para explicar a variân-
cia do modelo. Com relação aos coeficientes de correlação e seus pesos na componente,
pode-se admitir que todas as variáveis são importantes e a componente 1 é de certa
forma uma medida entre valores governamentais (reservas e parcela do governo) ver-
sus gastos com a dívida, anos para pagar e "exportações". Isto sugere um coeficiente
que mensura ações responsáveis pelo governo, contra aspectos econômicos.
Se observarmos a tendência que se observa através do score 1, percebe-se que o cenário
de comprometimento dos fatores externos foram aumentando, implicando em pouca
ação do governo ou influência das reservas. O que permite dar suporte ao título.
83
−0.5 0 0.5−0.8
−0.7
−0.6
−0.5
−0.4
−0.3
−0.2
−0.1
1
2
3
4
5
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2
COMPONENTE 1
CO
MP
ON
EN
TE
2
−3 −2 −1 0 1 2 3−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
2
3
4
5
6
DISPERSÃO DOS ESCORES: COMP1 versus COMP2
ESCORE − COMP1
ES
CO
RE
− C
OM
P2
84
1 1.5 2 2.5 3 3.5 4 4.5 50
0.5
1
1.5
2
2.5
3
3.5
4
4.5AUTOVALORES DA MATRIZ CORRELAÇÃO
NÚMERO DO AUTOVALOR
AU
TO
VA
LOR
3. Jolicoer e Mosiman (1960) investigaram as componentes principais do comprimento (X1),
largura (X2) e altura (X3) da carapaça de tartarugas pintadas, com o objetivo de dar
um significado para o conceito de “tamanho” e “forma”. Foram feitas as medidas (em
milímetros) de 24 tartarugas fêmeas e a matriz de covariância é dada por:
S =
⎡⎢⎢⎢⎣
451, 39 271, 17 168, 70
171, 73 103, 29
66, 65
⎤⎥⎥⎥⎦
(a) Encontre os autovalores e autovetores de S.
>> S=[451.39 271.17 168.7; 271.17 171.73 103.29;168.7 103.29 66.65]
S =
451.3900 271.1700 168.7000
271.1700 171.7300 103.2900
168.7000 103.2900 66.6500
>> [e,l]=eig(S)
e =
0.2053 0.5454 0.8126
0.2493 -0.8321 0.4955
-0.9464 -0.1009 0.3068
l =
2.8573 0 0
85
0 6.5016 0
0 0 680.4111
(b) Encontre as componentes principais: Y1, Y2 e Y3.
- Y1 = 0.8126X1 + 0.4955X2 + 0.3068X3
- Y2 = 0.5454X1 − 0.8321X2 − 0.1009X3
- Y3 = 0.2053X1 + 0.2493X2 − 0.9464X3
(c) Qual a % da variância total que é explicada pelas componentes principais?
Variável Nome e1 e2 e3 Total
comprimento X1 0.8126 0.5454 0.2053
largura X2 0.4955 -0.8321 0.2493
altura X3 0.3068 -0.1009 -0.9464
autovalores 680.41 6.50 2.86 689.77
%Explicada 98.64% 0.94% 0.41%
%Acumulado Explicado 98.64% 99, 59% 100%
(d) Encontre os coeficientes de correlação entre as componentes principais e as variáveis
originais.
Y1 Y2 Y3
X1 0.998 0.065 0.016
X2 0.986 −0.162 0.032
X3 0.98 −0.032 −0.196
(e) Interprete os resultados encontrados. O percentual explicado pela 1o componente
principal, domina o modelo, sendo responsável por mais que 98% da explicação da
variância. Portanto, a análise conduz a apenas um componente principal Y1. Na
primeira componente, observa-se que a variável comprimento tem um peso maior
sobre esta componente, sendo as demais variáveis de menor relevância. Porém ao se
observar a correlação das variáveis com a primeira componente, infere-se que todos
são significativos. Em Johnson há uma análise que sugere que estes valores são os
expoentes das variáveis, de forma que este componente dá uma espécie de volume da
pinta. Pois, apesar de não ser comentado no enunciado, se estas variáveis estiverem
logaritmadas, vem que y1 = e1 lnx1+e2 lnx2+e3 lnx3, o que implica em lnxe11 .xe22 .xe33 ,
onde o valor e3 é uma espécie de correlação devido a ovacidade provável da pinta.
(f) Verifique que S = CD¸C′ onde C é a matriz cujas colunas são os autovetores de S e
D¸ é a matriz diagonal dos autovalores.
86
C D C S
0.2053 0.5454 0.8126 2.8573 0 0 0.2053 0.2493 -0.9464 451.39 271.17 168.7
0.2493 -0.8321 0.4955 0 6.5016 0 0.5454 -0.8321 -0.1009 271.17 171.73 103.29
-0.9464 -0.1009 0.3068 0 0 680.4111 0.8126 0.4955 0.3068 168.7 103.29 66.65
>> e*l*e’;
4. Num estudo da influência do adubo N-P-K em doses crescentes na produção de forragem,
a tabela abaixo mostra as produções de forragem (em kg/ha de matéria seca) nos meses
de 6/78, 9/78 e 6/79, 9/79, 6/80 e 9/80 (são as nossas variáveis). Determine:
Adubo 1978 1979 1980
X1 X2 X3 X4 X5 X6
N P K Jun Set Jun Set Jun Set
0 0 0 3994 2282 3068 1694 4320 1382
0 0 1 5316 1981 4168 3470 5900 2214
0 0 2 5050 1883 4408 3373 6476 1761
0 0 3 5996 2162 3614 3003 5021 1411
1 0 0 6086 5601 4599 3091 6145 2014
1 0 1 5180 2506 5022 2506 8299 2478
1 0 2 5291 1998 5241 2614 7768 2247
1 0 3 6148 2444 6147 2278 7440 2026
2 0 0 7292 2784 5692 2592 7978 2586
2 0 1 6615 3204 7655 3331 9225 3336
(a) o vetor médio amostral;
>> comp2(X)
***********************
* VETOR DE MÉDIAS *
***********************
1.0e+003 *
5.6968 2.6845 4.9614 2.7952 6.8572 2.1455
(b) a matriz de covariâncias S que estima Σ (covariância populacional);
**************************
* MATRIZ COVARIÂNCIA *
**************************
87
1.0e+006 *
0.8586 0.3721 0.8188 0.1755 0.8017 0.3090
0.3721 1.2132 0.2661 0.0909 0.1335 0.1255
0.8188 0.2661 1.7494 0.1618 1.8596 0.6752
0.1755 0.0909 0.1618 0.3161 0.1659 0.1077
0.8017 0.1335 1.8596 0.1659 2.3876 0.8084
0.3090 0.1255 0.6752 0.1077 0.8084 0.3376
(c) os autovalores e autovetores de S;
>> S=(1.0e+006)*T
S =
858600 372100 818800 175500 801700 309000
372100 1213200 266100 90900 133500 125500
818800 266100 1749400 161800 1859600 675200
175500 90900 161800 316100 165900 107700
801700 133500 1859600 165900 2387600 808400
309000 125500 675200 107700 808400 337600
>> [e,l]=eig(S)
e =
-0.0540 0.2829 -0.3509 0.7876 -0.2823 0.3063
0.0503 0.0357 0.0538 -0.3609 -0.9218 0.1158
0.1239 -0.7773 -0.1606 0.0002 0.0418 0.5940
0.1771 -0.1075 0.8905 0.3897 -0.0864 0.0691
0.2309 0.5503 0.1248 -0.3053 0.2472 0.6884
-0.9458 -0.0018 0.1990 -0.0658 0.0167 0.2475
l =
1.0e+006 *
0.0426 0 0 0 0 0
0 0.1466 0 0 0 0
0 0 0.2706 0 0 0
0 0 0 0.4386 0 0
0 0 0 0 1.2855 0
0 0 0 0 0 4.6786
(d) Escreva as componentes principais da matriz de dados.
- Y1 = 0.3063X1 + 0.1158X2 + 0.5940X3 + 0.0691X4 + 0.6884X5 + 0.2475X6
- Y2 = −0.2823X1 − 0.9218X2 + 0418X3 − 0.0864X4 + 0.2472X5 + 0.0167X6
- Y3 = 0.7876X1 − 0.3609X2 + 0.0002X3 + 0.3897X4 − 0.3053X5 − 0.0658X6
- Y4 = −0.3509X1 + 0.0538X2 − 0.1606X3 + 0.8905X4 + 0.1248X5 + 0.1990X6
88
- Y5 = 0.2829X1 + 0.0357X2 − 0.7773X3 − 0.1075X4 + 0.5503X5 − 0.0018X6
- Y6 = −0.0540X1 + 0.0503X2 + 0.1239X3 + 0.1771X4 + 0.2309X5 − 0.9458X6
1 2 3 4 5 60
0.5
1
1.5
2
2.5
3
3.5AUTOVALORES DA MATRIZ CORRELAÇÃO
NÚMERO DO AUTOVALOR
AU
TO
VA
LOR
−0.55 −0.5 −0.45 −0.4 −0.35 −0.3 −0.25 −0.2 −0.15−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
1
2
3
4
5
6
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2
COMPONENTE 1
CO
MP
ON
EN
TE
2
89
−4 −3 −2 −1 0 1 2 3 4−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
1
2
3
4
5
6 7
8
910
DISPERSÃO DOS ESCORES: COMP1 versus COMP2
ESCORE − COMP1
ES
CO
RE
− C
OM
P2
5. Os dados da tabela seguinte pertencem ao censo de 1970, de determinado país desenvolvido.
Tabelou-se 5 variáveis sócio-econômicas de 14 comarcas de determinado estado. Considere
as 14 comarcas como uma amostra aleatória dos municípios do estado.
Comarca X1 X2 X3 X4 X5
1 5.935 14.2 2.265 2.27 2.91
2 1.523 13.1 0.597 0.75 2.62
3 2.599 12.7 1.237 1.11 1.72
4 4.009 15.2 1.649 0.81 3.02
5 4.687 14.7 2.312 2.5 2.22
6 8.044 15.6 3.641 4.51 2.36
7 2.766 13.3 1.244 1.03 1.97
8 6.538 17 2.618 2.39 1.85
9 6.451 12.9 3.147 5.52 2.01
10 3.314 12.2 1.606 2.18 1.82
11 3.777 13 2.119 2.83 1.8
12 1.53 13.8 0.798 0.84 4.25
13 2.768 13.6 1.336 1.75 2.64
14 6.585 14.9 2.763 1.91 3.17
X1 = população total em 1000 hab, X2 = mediana dos anos de escolaridade da população,
X3 = total de empregos em milhares, X4 = total de empregos nos serviços de saúde em
90
centenas e X5 = valor mediano das residências em US$10.000.
(a) Construa a matriz de covariância amostral S.
* MATRIZ COVARIÂNCIA *
**************************
4.3076 1.6837 1.8028 2.1553 -0.2535
1.6837 1.7675 0.5880 0.1780 0.1755
1.8028 0.5880 0.8007 1.0648 -0.1583
2.1553 0.1780 1.0648 1.9695 -0.3568
-0.2535 0.1755 -0.1583 -0.3568 0.5044
(b) Obtenha os pares de autovalores-autovetores e as 2 primeiras componentes principais
amostrais para a matriz de covariância do item (a).
* AUTOVALORES DA MATRIZ COVARIÂNCIA *
*************************************
6.9311 1.7851 0.3896 0.2295 0.0142
*************************************
* AUTOVETORES DA MATRIZ COVARIÂNCIA *
*************************************
-0.7812 0.0709 0.0037 0.5417 -0.3020
-0.3056 0.7639 -0.1618 -0.5448 -0.0093
-0.3344 -0.0829 0.0148 0.0510 0.9373
-0.4260 -0.5795 0.2205 -0.6360 -0.1721
0.0544 0.2624 0.9618 0.0513 0.0246
* COMPONENTES PRINCIPAIS (VARIÁVEIS ORIGINAIS *
***********************************************
CP1 CP2
----------------------
-0.7812 0.0709
-0.3056 0.7639
-0.3344 -0.0829
-0.4260 -0.5795
0.0544 0.2624
91
1 1.5 2 2.5 3 3.5 4 4.5 50
1
2
3
4
5
6
7AUTOVALORES DA MATRIZ COVARIÂNCIA
NÚMERO DO AUTOVALOR
AU
TO
VA
LOR
−0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 0 0.1−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
2
3
4
5
COMPONENTES PRINCIPAIS: COMPON 1 versus COMPON 2
COMPONENTE 1
CO
MP
ON
EN
TE
2
(c) Calcule a proporção da variação total explicada pelas duas primeiras componentes
principais.
******************************************
* PROPORÇÃO DE VARIÂNCIA EXPLICADA PELOS *
* AUTOVALORES DA MATRIZ COVARIÂNCIA *
******************************************
-----------------------------------------
ORDEM AUTOVA- VAR. EXPL. VAR. EXPL.
LORES (EM %) ACUM. (%)
92
-----------------------------------------
1 6.9311 74.13 74.13
2 1.7851 19.09 93.23
-----------------------------------------
Ou seja, as 2 primeiras componentes explicam 93, 23% da variância.
(d) Calcule os coeficientes de correlação ½(yi, xj) = ½ij e interprete-os se possível.
CORRELAÇÕES ENTRE AS VARIÁVEIS ORIGINAIS *
E AS COMPONENTES PRINCIPAIS *
*****************************************
---------------------
COMPONENTES PRINCIPAIS
---------------------------
|VAR.| CP1 CP2
-------------------------
1 -0.9909 0.0456
2 -0.6053 0.7677
3 -0.9840 -0.1238
4 -0.7992 -0.5517
5 0.2015 0.4936
-------------------------
Na primeira componente principal as variáveisX1 eX3 estão muito bem representadas,
tendo X4 como uma variável que também pesa sobre esta componente. A variável
X2 tem maior peso na componente 2. Com isso, verificamos que as duas primeiras
componentes fazem uma boa avaliação de todas as variáveis presentes neste problema.
(e) Calcule os escores dados pelas duas primeiras componentes principais ou melhor, cada
comarca terá duas variáveis ao invés de 5 originais, você deverá determinar o valor de
cada componente principal para cada comarca.
*********************************
* ESCORES (VARIÁVEIS ORIGINAIS) *
*********************************
Score(Y1) Score(Y2)
-----------------------
93
-10.5431 10.5279
-5.5705 10.3180
-6.7052 9.5909
-8.5101 12.0812
-9.8722 10.5032
-14.0629 10.1904
-6.9737 10.1724
-12.0968 12.3326
-12.2773 7.3790
-7.6847 8.6352
-8.7405 8.8547
-5.8069 11.2120
-7.3680 10.1526
-11.2639 11.3442
−5 −4 −3 −2 −1 0 1 2 3 4−3
−2
−1
0
1
2
3ESCORES: COMP.PRINC.1 X COMP.PRINC.2
ESCORE COMP. PRINC.1
ES
CO
RE
CO
MP
. PR
INC
.2
12
3
4
56 7
8
9
1011
12
13
14
6. Suponha que você está com o problema de ajustar o modelo Y = X¯ + " a um conjunto
de dados. Mas, ocorre que as linhas da matriz do modelo X(n×p) são aproximadamente
colineares. Esta colinearidade faz com que algumas variáveis independentes contribuam
pouco para a regressão. Assim, pode-se descartar algumas das variáveis independentes
com o objetivo de: aumentar a precisão das estimativas de regressão com as variáveis
retidas e reduzir o número de medidas necessárias em dados semelhantes no futuro. Uma
maneira de descartar variáveis (variáveis redundantes) usando componentes principais é a
94
seguinte:
- Determine os autovalores e autovetores da matriz de correlação das variáveis indepen-
dentes;
- Considere o autovetor correspondente ao menor autovalor (valor absoluto), descarte,
aí, a variável cujo coeficiente no autovetor for o maior (valor absoluto). É claro que o
autovetor com menor autovalor é o menos importante no conjunto.
- O número de variáveis descartadas deve ser igual ao número de autovalores menores
ou iguais a 0.70.
Use as informações anteriores para descartar variáveis redundantes no problema seguinte:
um estudo de n = 180 estacas de pinheiro Corsican foi feito com o objetivo de estudar
a dependência da força de compressão máxima (Y ) de 13 outras variáveis independentes
(Xi, i = 1, 2, . . . , 13). Estas estacas são usadas para escorar tetos de minas. Os autovalores
e autovetores da matriz de correlação das 13 variáveis independentes são dados. Responder
quais das 13 variáveis independentes devem ser descartadas.
X1 = diâmetro do topo da estaca, X2 = comprimento da estaca, X3 = unidade da estaca,
X4 = massa específica da madeira, X5 = massa específica da madeira seca, X6 = número
de anéis no topo da estaca, X7 = número de anéis na base, X8 = curvatura máxima, X9 =
distância da curvatura máxima-topo da estaca, X10 = número de nós, X11 = comprimento
da base ao topo, X12 = número médio de nós por estaca e X13 = diâmetro médio dos nós.
Autovalores:
¸1 = 4.22, ¸2 = 2.38, ¸3 = 1.88, ¸4 = 1.11, ¸5 = 0.91, ¸6 = 0.82, ¸7 = 0.58, ¸8 = 0.54,
¸9 = 0.35, ¸10 = 0.19, ¸11 = 0.05, ¸12 = 0.04 e ¸13 = 0.04.
95
e1 e2 e3 e4 e5 e6 e7 e8 e9 e10 e11 e12 e13
1 -0,4 0,22 -0,21 -0,09 -0,08 0,12 -0,11 0,014 0,33 -0,31 0 0,39 -0,57
2 -0,41 0,19 -0,24 -0,1 -0,11 0,16 -0,08 0,02 0,32 -0,27 -0,05 -0,41 0,58
3 -0,12 0,54 0,14 0,08 0,35 -0,28 -0,02 0 -0,08 0,06 0,12 0,53 0,41
4 -0,17 0,46 0,35 0,05 0,36 -0,05 0,08 -0,02 -0,01 0,1 -0,02 -0,59 -0,38
5 -0,06 -0,17 0,48 0,05 0,18 0,63 0,42 -0,01 0,28 0 0,01 0,2 0,12
6 -0,28 -0,01 0,48 -0,06 -0,32 0,05 -0,3 0,15 -0,41 -0,1 -0,54 0,08 0,06
7 -0,4 -0,19 0,25 -0,07 -0,22 0 -0,23 0,01 -0,13 0,19 0,76 -0,04 0
8 -0,29 -0,19 -0,24 0,29 0,19 -0,06 0,4 0,64 -0,35 -0,08 0,03 -0,05 0,02
9 -0,36 0,02 -0,21 0,1 -0,1 0,03 0,4 -0,7 -0,38 -0,06 -0,05 0,05 -0,06
10 -0,38 -0,25 -0,12 -0,21 0,16 -0,17 0 -0,01 0,27 0,71 -0,32 0,06 0
11 0,01 0,21 -0,07 0,8 -0,34 0,18 -0,14 0,01 0,15 0,34 -0,05 0 -0,01
12 0,12 0,34 0,09 -0,3 -0,6 -0,17 0,54 0,21 0,08 0,19 0,05 0 0
13 0,11 0,31 -0,33 -0,3 0,08 0,63 -0,16 0,11 -0,38 0,33 0,04 0,01 -0,01
¸ 4,22 2,38 1,88 1,11 0,91 0,82 0,58 0,54 0,35 0,19 0,05 0,04 0,04Utilizando a heurística sugerida para eliminação de variáveis e aplicando para a matriz da
tabela acima, obtém-se o conjunto de variáveis conforme destacada na própria tabela. As
variáveis eliminadas são:
- ¸13 = X2 comprimento da estaca
- ¸12 = X4 massa específica da madeira
- ¸11 = X7 número de anéis na base
- ¸10 = X10 número de nós
- ¸9 = X6 número de anéis no topo da estaca
- ¸8 = X9 distância da curvatura máxima-topo da estaca
- ¸7 = X12 número médio de nós por estaca
7. Provar os seguintes resultados: (ver livro: Johnson & Wichern):
Resultado 1: Seja a matriz covariância associada ao vetor aleatórioX ′ = [X1, X2, . . . , Xp].
Seja Σ com os pares de autovalores e autovetores: (¸1, e1), (¸2, e2), . . . , (¸p, ep) onde
¸1 > ¸2 > . . . > ¸p > 0. A j-ésima componente principal é dada por:
Yj = e′jX = e1jX1 + e2jX2 + . . .+ epjXp, i = 1, 2, . . . , p
com essa escolha:
V (Yj) = e′jΣej = ¸j , j = 1, 2, . . . , p.
96
Cov(Yi, Yj) = e′jX = 0, para todo i ∕= j
Suponha que xi = (xi1, ..., xip)′ sejam n vetores de p variáveis e definida:
- zi = (zi1, ..., zip)′ tal que zij = xij − n−1
∑ni=1 xij . zij é igual a xij centrado na
média
- ℎ = (ℎ1, ..., ℎn)′ tal que:
ℎ1 = ⟨¯, z1⟩ = ¯1z11 + ...+ ¯pz1p
ℎ2 = ⟨¯, z2⟩ = ¯1z21 + ...+ ¯pz2p...
......
......
ℎn = ⟨¯, zn⟩ = ¯1zn1 + ...+ ¯pznp
Para encontrar a primeira componente principal temos que resolver:
»1 = maxV ar(ℎ) = max
{n−1
n∑
i=1
ℎ2i
}(7)
s.a.
p∑
j=1
»2j1 = ∣∣»1∣∣2 = 1
O vetor »1 = (»11, ..., »1p)′ é o primeiro componente principal. Se definirmos uma
matriz Znxp tal que suas linhas são formadas por n ocorrências dos vetores zi, então:
ℎ = ¯′Z ′ ⇒n∑
i=1
ℎ2i = ¯′Z ′Z¯
Substituindo na equação (7) temos
»1 = maxn−1¯′Z ′Z¯
V ar(z) = n−1Z ′Z é o estimador da matriz de covariância de z. Os demais com-
ponentes principais podem ser obtidos repetindo o procedimento de maximização da
equação (7) e acrescentando a restrição de ortogonalidade com as componentes prin-
cipais já obtidas. Logo, se »k = (»k1, ..., »kp)′, então:
»k = maxV ar(ℎ) = max
{n−1
n∑
i=1
ℎ2i
}(8)
97
s.a.
p∑
j=1
»2jk = ∣∣»k∣∣2 = 1
e⟨¯, »m⟩ = 0 para todo m < k
Chamamos ℎik =∑p
j=1 »jkzik de Escores de Componentes Principais (ECP) do k-
ésimo componente principal.
A restrição de norma unitária para os vetores de componentes principais é necessária
para delimitar o problema não permitindo que »′1V ar(z)»1 possa assumir valores ar-
bitrariamente grandes.
A idéia é encontrar a forma mais forte e, portanto, mais importante das variáveis
observadas.
Na obtenção dos componentes principais subseqüentes acrescentam-se restrições de or-
togonalidade (produto interno igual a zero) com os componentes principais já obtidos
para garantir que as próximas componentes principais representem inovações.
Logicamente, a cada componente principal obtido, o valor maximizado será cada vez
menor permitindo aferir o percentual explicado por cada componente. Observe que
esta definição de componentes principais não possui solução única. Para ver isto,
basta notar que se »k é um componente principal, então −»k também o será.
Sabemos que V ar(z) é uma matriz simétrica e não negativa definida. Logo, se ¸1 ≥... ≥ ¸p são os seus autovalores e e1, ..., ep os respectivos autovetores normalizados,
então »k ≡ ek para todo k.
Além disso, cada autovalor ¸k é um estimador para a variância de xk. Logo
¸k∑pi=1 ¸i
.100
é o percentual da variação explicada pelo componente principal de ordem k.
Prova
Variância é dada por V (Yj) =e′jΣeje′jej
, como e′jej = 1, tem-se V (Yj) = e′jΣej . Ree-
screvendo V (Yj) = e′j(Σej), a parte entre parênteses pode ser substituída por ¸jej ,
pois ej é o autovetor do autovalor ¸j . Obtem-se então V (Yj) = e′j(¸jej). Como ¸j é
um escalar é possível reescrever como V (Yj) = ¸je′jej . Como o vetor ej é normalizado,
o produto e′jej = 1. Com isso V (Yj) = ¸j .
Resultado 2: Seja X ′ = [X1, X2, . . . , Xp] tendo matriz covariância Σ , com pares de
autovalores e autovetores (¸1, e1), (¸2, e2), . . . , (¸p, ep) onde ¸1 > ¸2 > . . . > ¸p > 0.
98
Sejam Y1 = e1X1, Y2 = e2X2, . . . , Yp = epXp as componentes principais. Então
¾11 + ¾22 + . . .+ ¾pp =
p∑
j=1
V (Xj) = ¸1 + ¸2 + . . .+ ¸p =
p∑
j=1
V (Yj)
Prova
Traço (Σ) =traço(PΛP ′) =traço(ΛPP ′) =traçoΛI =traçoΛ. Donde Λ é a matriz
diagonal dos autovalores e P é a matriz dos autovetores associados aos autovalores.
Assim
Traço(Σ) =traço(Λ) ou seja:
¾11 + ¾22 + ...+ ¾pp =∑p
j=1 V (Xj) = ¸1 + ¸2 + ...+ ¸p =∑p
j=1 V (Yj)
5 Lista 5: Análise Fatorial
1. Uma empresa do ramo de calçados populares gostaria de entender melhor a forma de rela-
cionamento de algumas variáveis e como este relacionamento pode interferir na condução
de seus negócios. Para isso, resolveu encomendar uma pesquisa com outras empresas do
ramo para identificar a importância de algumas variáveis. As variáveis que fizeram parte
da pesquisa foram:
v1 = automação, v2 = crescimento do PIB, v3 = parceria com os fornecedores, v4 = novos
concorrentes v5 = diversidade de produtos, v6 = controle de despesas, v7 = câmbio e v8 =
estabilidade econômica.
A pesquisa era respondida por uma escala de concordância: 1 = não interfere, 2 = interfere
pouco, 3 = interfere, 4 = interfere muito e 5 = fundamental.
Os resultados da pesquisa foram:
Empresas v1 v2 v3 v4 v5 v6 v7 v8
C1 4 1 2 2 2 4 1 3
C2 4 1 2 2 2 4 1 3
C3 2 2 1 3 1 3 2 4
C4 5 4 3 3 3 5 2 4
C5 4 2 3 3 1 3 2 4
C6 4 2 2 3 3 4 2 4
C7 5 3 3 4 5 5 4 5
C8 2 1 1 4 6 3 5 5
99
C9 3 2 1 3 3 5 2 4
C10 4 2 2 3 1 3 2 4
C11 3 2 1 3 1 3 2 4
C12 3 2 1 3 2 4 6 4
C13 3 3 1 4 2 4 3 5
C14 3 3 1 4 2 4 3 5
C15 5 3 3 4 1 3 3 5
C16 3 1 1 2 2 4 1 3
C17 3 3 1 4 2 4 3 5
C18 5 2 3 3 3 5 2 4
C19 3 3 1 4 1 3 3 5
C20 3 2 1 3 3 5 2 4
C21 3 2 1 2 3 5 3 2
C22 4 3 2 3 1 3 2 3
C23 4 5 2 4 1 3 3 5
C24 4 3 2 4 3 5 3 5
C25 4 2 2 3 2 4 2 4
C26 4 3 2 4 3 5 3 5
C27 5 3 3 4 2 4 3 5
C28 5 3 3 4 2 4 3 5
C29 4 3 2 4 2 4 3 5
C30 5 3 3 4 2 4 3 5
(a) Faça uma Análise Fatorial e avalie seu resultado (teste de esfericidade, KMO, total devariância explicada e comunalidades) e comente sobre a aderência técnica à soluçãodeste caso.
>> y = kmo(A)
Teste de Esfericidade - Estatística de Bartlett
Q2 = 192.5975 pvalor = 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.4467
*************************
100
* MATRIZ CORRELAÇÃO *
*************************
1.00 0.40 0.94 0.18 -0.05 0.24 -0.13 0.18
0.40 1.00 0.32 0.66 -0.21 0.02 0.26 0.57
0.94 0.32 1.00 0.20 -0.00 0.10 -0.10 0.21
0.18 0.66 0.20 1.00 0.11 -0.11 0.58 0.96
-0.05 -0.21 -0.00 0.11 1.00 0.55 0.38 0.11
0.24 0.02 0.10 -0.11 0.55 1.00 -0.02 -0.09
-0.13 0.26 -0.10 0.58 0.38 -0.02 1.00 0.51
0.18 0.57 0.21 0.96 0.11 -0.09 0.51 1.00
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
--------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 | | ESP.
--------------------------------------------------
1 | 0.5115 0.8285 0.0976 | 0.96 | 0.04
2 | 0.7780 0.0975 -0.2392 | 0.67 | 0.33
3 | 0.5111 0.7862 0.0633 | 0.88 | 0.12
4 | 0.9155 -0.3221 -0.0917 | 0.95 | 0.05
5 | 0.1157 -0.2342 0.8969 | 0.87 | 0.13
6 | 0.0337 0.2295 0.8324 | 0.75 | 0.25
7 | 0.5378 -0.6010 0.2364 | 0.71 | 0.29
8 | 0.8794 -0.3002 -0.0809 | 0.87 | 0.13
--------------------------------------------------
AUTO | 3.04 1.98 1.64 |
----------------------------------
PROP. | |
ACUM. | 38.04 62.75 83.24 |
----------------------------------
****************************
* MATRIZ DOS RESÍDUOS *
****************************
0 -0.06 0.02 -0.01 0.00 -0.05 0.07 -0.01
-0.06 0 -0.14 -0.04 -0.06 0.17 -0.05 -0.11
101
0.02 -0.14 0 -0.01 0.07 -0.15 0.09 -0.00
-0.01 -0.04 -0.01 0 0.01 0.01 -0.09 0.05
0.00 -0.06 0.07 0.01 0 -0.15 -0.04 0.01
-0.05 0.17 -0.15 0.01 -0.15 0 -0.09 0.01
0.07 -0.05 0.09 -0.09 -0.04 -0.09 0 -0.13
-0.01 -0.11 -0.00 0.05 0.01 0.01 -0.13 0
*******************
* ROTAÇÃO VARIMAX *
*******************
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
--------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 | | ESP.
--------------------------------------------------
1 | 0.0804 0.9741 0.0468 | 0.96 | 0.04
2 | 0.6729 0.4217 -0.2034 | 0.67 | 0.33
3 | 0.1020 0.9342 0.0167 | 0.88 | 0.12
4 | 0.9676 0.1181 -0.0092 | 0.95 | 0.05
5 | 0.1237 -0.1030 0.9201 | 0.87 | 0.13
6 | -0.1487 0.2697 0.8074 | 0.75 | 0.25
7 | 0.7238 -0.2804 0.3224 | 0.71 | 0.29
8 | 0.9247 0.1221 -0.0025 | 0.87 | 0.13
--------------------------------------------------
AUTO | 3.04 1.98 1.64 |
----------------------------------
PROP. | |
ACUM. | 35.28 62.66 83.24 |
----------------------------------
Comentários: Pelo teste de esfericidade de Bartlett os dados são apropriados a análise
fatorial, o resultado do teste foi um p-value = 0, No entanto no Medida de adequaci-
dade da amostra de Kayser-Meyer-Olkin obtemos 0,44, um valor insatisfatório, pois o
MSA deve ser de no mínimo 0,5. Isso indica que a estrutura da matriz de correlação
não é apropriada à análise fatorial.
Aplicando a análise fatorial ao conjunto de dados (matriz de correlação) e usando
o critério de Kayser para determinar o número de fatores, obtemos três fatores que
102
explicam 83,24% da variância total.
A análise dos fatores se torna complexa, pois existem com pesos parecidos nos fatores
obtidos, sendo assim foi aplicado o critério varimax de rotação com o objetivo de
facilitar a interpretação dos fatores.
Quanto as comunalidades, existem algumas com valores altos como v1, v4 e outras
com valores em torno de 0,7 como v2, v6 e v7. No geral, as comunalidades são altas,
não sendo necessário excluir variáveis do modelo.
Após a rotação observamos o seguinte relação entre variáveis por fator.
Fator 1: v4, v8, v7 e v2
Fator 2: v1, v3
Fator 3: v5, v6
(b) Qual a sua conclusão sobre os fatores encontrados para este caso?
O Fator 1 é uma junção das variáveis {novos concorrentes, estabilidade econômica, câmbio,
crescimento do PIB}, sugerindo assim um fator ligado a parte econômica. Já no Fator 2,
temos {automação e parceria com fornecedores } que está ligado a fornecedores, enquanto
que no Fator 3 temos {diversidade de produtos e controle de despesa} que está ligado a
produtos e despesas das empresas.
Dessa maneira a parte econômica é mais importante para as empresas, seguido da relação
com os fornecedores e por último as variáveis que envolvem produtos e despesas.
2. Os dados a seguir representam as notas de 88 alunos em cinco matérias onde foram real-
izadas provas com o livro “aberto” (A) ou o livro fechado (F). As cinco variáveis envolvidas
são: X1 = Mecânica, X2 = Vetores, X3 = Álgebra, X4 = Análise e X5 = Estatística.
Faça uma Análise Fatorial pelo Método das Componentes Principais: utilizar a rotação
Varimax. Procurar interpretar os fatores. Utilizar o Matlab.
Al. X1(F ) X2(F ) X3(A) X4(A) X5(A) Al. X1(F ) X2(F ) X3(A) X4(A) X5(A)
1 77 82 67 67 81 45 46 61 46 38 41
2 63 78 80 70 81 46 40 57 51 52 31
3 75 73 71 66 81 47 49 49 45 48 39
4 55 72 63 70 68 48 22 58 53 56 41
5 63 63 65 70 63 49 35 60 47 54 33
6 53 61 72 64 73 50 48 56 49 42 32
7 51 67 65 65 68 51 31 57 50 54 34
8 59 70 68 62 56 52 17 53 57 43 51
103
9 62 60 58 62 70 53 49 57 47 39 26
10 64 72 60 62 45 54 59 50 47 15 46
11 52 64 60 63 54 55 37 56 49 28 45
12 55 67 59 62 44 56 40 43 48 21 61
13 50 50 64 55 63 57 35 35 41 51 50
14 65 63 58 56 37 58 38 44 54 47 24
15 31 55 60 57 73 59 43 43 38 34 49
16 60 64 56 54 40 60 39 46 46 32 43
17 44 69 53 53 53 61 62 44 36 22 42
18 42 69 61 55 45 62 48 38 41 44 33
19 62 46 61 57 45 63 34 42 50 47 29
20 31 49 62 63 62 64 18 51 40 56 30
21 44 61 52 62 46 65 35 36 46 48 29
22 49 41 61 49 64 66 59 53 37 22 19
23 12 58 61 63 67 67 41 41 43 30 33
24 49 53 49 62 47 68 31 52 37 27 40
25 54 49 56 47 53 69 17 51 52 35 31
26 54 53 46 59 44 70 34 30 50 47 36
27 44 56 55 61 36 71 46 40 47 29 17
28 18 44 50 57 81 72 10 46 36 47 39
29 46 52 65 50 35 73 46 37 45 15 30
30 32 45 49 57 64 74 30 34 43 46 18
31 30 69 50 52 45 75 13 51 50 25 31
32 46 49 53 59 37 76 49 50 38 23 9
33 40 27 54 61 61 77 18 32 31 45 40
34 31 42 48 54 68 78 8 42 48 26 40
35 36 59 51 45 51 79 23 38 36 48 15
36 56 40 56 54 35 80 30 24 43 33 25
37 46 56 57 49 32 81 3 9 51 47 40
38 45 42 55 56 40 82 7 51 43 17 22
39 42 60 54 49 33 83 15 40 43 23 18
40 40 63 53 54 25 84 15 38 39 28 17
41 23 55 59 53 44 85 5 30 44 36 18
42 48 48 49 51 37 86 12 30 32 35 21
43 41 63 49 46 44 87 5 26 15 20 20
44 46 52 53 41 40 88 0 40 21 9 14
Teste de Esfericidade -Estatística de Bartlett
Q2 = 194.55 pvalor = 0
104
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.78
*************************
* MATRIZ CORRELAÇÃO *
*************************
1.00 0.55 0.55 0.41 0.39
0.55 1.00 0.61 0.49 0.44
0.55 0.61 1.00 0.71 0.66
0.41 0.49 0.71 1.00 0.61
0.39 0.44 0.66 0.61 1.00
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | -0.7126 -0.5587 | 0.82 | 0.18
2 | -0.7709 -0.3737 | 0.73 | 0.27
3 | -0.8970 0.1116 | 0.82 | 0.18
4 | -0.8147 0.3367 | 0.78 | 0.22
5 | -0.7834 0.3980 | 0.77 | 0.23
------------------------------------------
AUTO | 3.18 0.74 |
---------------------------
PROP. | |
ACUM. | 63.68 78.41 |
---------------------------
****************************
* MATRIZ DOS RESÍDUOS *
****************************
0 -0.20 -0.03 0.02 0.05
-0.20 0 -0.04 -0.02 -0.01
-0.03 -0.04 0 -0.06 -0.08
0.02 -0.02 -0.06 0 -0.16
0.05 -0.01 -0.08 -0.16 0
105
*******************
* ROTAÇÃO VARIMAX *
*******************
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | -0.1998 -0.8832 | 0.82 | 0.18
2 | -0.3618 -0.7766 | 0.73 | 0.27
3 | -0.7660 -0.4799 | 0.82 | 0.18
4 | -0.8443 -0.2533 | 0.78 | 0.22
5 | -0.8588 -0.1860 | 0.77 | 0.23
-------------------------------------------
AUTO | 3.18 0.74 |
---------------------------
PROP. | |
ACUM. | 44.16 78.41 |
---------------------------
Comentários: Pelo teste de esfericidade de Bartlett (p-value = 0) e pela medida de ade-
quacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.78), a matriz de dados é adequada
à análise fatorial.
Fazendo a análise fatorial (matriz de correlação), escolheu-se 2 fatores que representam
78.41% da variância total do conjunto de dados original. Quanto as comunalidades, todas
as variáveis tem comunalidade acima de 0,7, não sendo necessário eliminar nenhuma delas.
A interpretação dos fatores obtidos é complicada, pois todas as variáveis tem alta correlação
com primeiro fator, e no segundo as correlações são baixas. Realizou-se então a rotação dos
fatores pelo critério varimax, onde podemos identificar claramente os grupos de variáveis
em cada fator.
Fator 1: Álgebra, Análise e Estatística (livro aberto)
Fator 2: Mecânica e vetores (livro fechado)
O primeiro fator mais representativo envolve as matérias de Álgebra, Análise e Estatística,
todas feitas com o livro aberto, já o segundo fator engloba as matérias Mecânica e Vetores,
ambas feitas com o livro fechado. Nesse caso os fatores separou as duas maneiras como as
106
provas foram aplicadas.
3. Os dados seguintes representam os escores de 15 variáveis resultantes da avaliação de 48
candidatos a um certo posto de serviço. As variáveis são: X1 = forma da letra, X2 =
aparência, X3 = habilidade acadêmica, X4 = habilidade para o posto, X5 = confiança em
si mesmo, X6 = lucidez, X7 = honestidade, X8 = aptidão para vendas, X9 = experiência,
X10 = iniciativa, X11 = ambição, X12 = domínio, X13 = potencial, X14 = entusiasmo e
X15 = conveniência.
Can. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
1 6 7 2 5 8 7 7 8 3 8 9 7 5 7 10
2 9 10 5 8 10 9 9 10 5 9 9 8 8 8 10
3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10
4 5 6 8 5 6 5 9 2 8 4 5 8 7 6 5
5 6 8 8 8 4 4 9 2 8 4 5 8 7 6 5
6 7 7 7 6 8 7 10 5 9 6 5 8 6 6 6
7 9 9 8 8 8 8 8 8 10 8 10 8 9 8 10
8 9 9 9 8 9 9 8 8 10 9 10 9 9 9 10
9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 10
10 4 7 10 2 10 10 7 10 3 10 10 10 9 3 10
11 4 7 10 0 10 8 3 9 5 9 10 8 10 2 5
12 4 7 10 4 10 10 7 8 2 8 8 10 10 3 7
13 6 9 8 10 5 4 9 4 4 4 5 4 7 6 8
14 8 9 8 9 6 3 8 2 5 2 6 6 7 5 6
15 4 8 8 7 5 4 10 2 7 5 3 6 6 4 6
16 6 9 6 7 8 9 8 9 8 8 7 6 8 6 10
17 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8
18 6 8 8 4 8 8 6 4 3 3 6 7 2 6 4
19 6 7 8 4 7 8 5 4 4 2 6 8 3 5 4
20 4 8 7 8 8 9 10 5 2 6 7 9 8 8 9
21 3 8 6 8 8 8 10 5 3 6 7 8 8 5 8
22 9 8 7 8 9 10 10 10 3 10 8 10 8 10 8
23 7 10 7 9 9 9 10 10 3 9 9 10 9 10 8
24 9 8 7 10 8 10 10 10 2 9 7 9 9 10 8
25 6 9 7 7 4 5 9 3 2 4 4 4 4 5 4
26 7 8 7 8 5 4 8 2 3 4 5 6 5 5 6
27 2 10 7 9 8 9 10 5 3 5 6 7 6 4 5
28 6 3 5 3 5 3 5 0 0 3 3 0 0 5 0
29 4 3 4 3 3 0 0 0 0 4 4 0 0 5 0
30 4 6 5 6 9 4 10 3 1 3 3 2 2 7 3
31 5 5 4 7 8 4 10 3 2 5 5 3 4 8 3
107
32 3 3 5 7 7 9 10 3 2 5 3 7 5 5 2
33 2 3 5 7 7 9 10 3 2 2 3 6 4 5 2
34 3 4 6 4 3 3 8 1 1 3 3 3 2 5 2
35 6 7 4 3 3 0 9 0 1 0 2 3 1 5 3
36 9 8 5 5 6 6 8 2 2 2 4 5 6 6 3
37 4 9 6 4 10 8 8 9 1 3 9 7 5 3 2
38 4 9 6 6 9 9 7 9 1 2 10 8 5 5 2
39 10 6 9 10 9 10 10 10 10 10 8 10 10 10 10
40 10 6 9 10 9 10 10 10 10 10 10 10 10 10 10
41 10 7 8 0 2 1 2 0 10 2 0 3 0 0 10
42 10 3 8 0 1 1 0 0 10 0 0 0 0 0 10
43 3 4 9 8 2 4 5 3 6 2 1 3 3 3 8
44 7 7 7 6 9 8 8 6 8 8 10 8 8 6 5
45 9 6 10 9 7 7 10 2 1 5 5 7 8 4 5
46 9 8 10 10 7 9 10 3 1 5 7 9 9 4 4
47 0 7 10 3 5 0 10 0 0 2 2 0 0 0 0
48 0 6 10 1 5 0 10 0 0 2 2 0 0 0 0
Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais
e pelo Método da Máxima Verossimilhança. Utilizar a rotação Varimax. Utilizar o software
Statistica.
Teste de Esfericidade -Estatística de Bartlett Q2 = 649.25 pvalor
= 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.77
Método das Componentes Principais (Matriz Corelação) Varimax
Fator 1 Fator 2 Fator 3 Fator 4 Com. Var. Esp.
Forma da Letra 0.115 0.834 0.114 -0.136 0.740 0.260
Aparência 0.438 0.151 0.399 0.224 0.424 0.576
Habilidade Acadêmica 0.062 0.128 0.018 0.927 0.881 0.119
Habilidade p/ o posto 0.219 0.244 0.871 -0.090 0.875 0.125
Confiança em si mesmo 0.918 -0.103 0.167 -0.064 0.885 0.115
Lucidez 0.863 0.100 0.260 0.001 0.823 0.177
Honestidade 0.210 -0.244 0.866 0.014 0.854 0.146
108
Aptidão p/ vendas 0.917 0.207 0.085 -0.054 0.895 0.105
Experiência 0.082 0.849 -0.048 0.216 0.776 0.224
Iniciativa 0.805 0.343 0.148 -0.057 0.790 0.210
Ambição 0.916 0.160 0.104 -0.039 0.878 0.122
Domínio 0.806 0.253 0.338 0.145 0.848 0.152
Potencial 0.751 0.320 0.414 0.220 0.887 0.113
Entusiasmo 0.445 0.355 0.529 -0.533 0.888 0.112
Conveniência 0.397 0.790 0.058 0.072 0.790 0.210
Expl.Var 5.793 2.696 2.390 1.355
Prp.Totl 0.386 0.180 0.159 0.090
Prop. Acum. 50.023 63.654 73.344 81.554
Comentários: Realizando o teste de esfericidade de Bartlett (p-value = 0) e Medida de
Adequacidade da amostra de Kayser-Meyer-Olkin (MSA = 0.77), concluí-se que a matriz
de dados é adequada à análise fatorial.
Pelo Método das componentes principais (Software Statistica), obteve-se 4 fatores uti-
lizando o critério de Kayser, que explicam 81.55% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.
Observando-se as comunalidades, podemos eliminar a variável Aparência do modelo, pois
sua comunalidade está abaixo de 0,5.
No primeiro fator podemos reunir as variáveis: Confiaça em si mesmo, Lucidez, Aptidão
para vendas, Iniciativa, Ambição, Domínio e Potencial.
No fator 2 temos: Forma da letra, Experiência e Conveniência.
Fator 3: Habilidade para o posto, Honestidade.
Fator 4: Habilidade Acadêmica.
109
5 10 15 20 25 30 355
10
15
20
25
30
35
d2
χ2
Método da Máxima Verossimilhança(Matriz Corelação) Varimax
Factor 1 Factor 2 Factor 3 Com. Var. Esp.
Forma da Letra 0.120 0.188 0.655 0.479 0.521
Aparência 0.437 0.276 0.176 0.298 0.702
Habilidade Acadêmica 0.055 -0.044 0.217 0.052 0.948
Habilidade p/ o posto 0.202 0.948 0.158 0.965 0.035
Confiança em si mesmo 0.930 0.138 -0.091 0.892 0.108
Lucidez 0.832 0.309 0.125 0.804 0.196
Honestidade 0.263 0.672 -0.257 0.586 0.414
Aptidão p/ vendas 0.882 0.132 0.253 0.860 0.140
Experiência 0.070 0.005 0.788 0.626 0.374
Iniciativa 0.767 0.186 0.374 0.763 0.237
Ambição 0.890 0.143 0.177 0.844 0.156
Domínio 0.780 0.325 0.280 0.793 0.207
Potencial 0.721 0.424 0.349 0.822 0.178
Entusiasmo 0.446 0.579 0.217 0.580 0.420
Conveniência 0.346 0.126 0.813 0.797 0.203
Expl.Var 5.486 2.287 2.388
Prp.Totl 0.366 0.152 0.159
Prop. Acum. 45.758 56.346 67.739
110
Comentários: Para utilizar o Método da Máxima Verossimilhança, testamos primeiro a
normalidade da amostra. Pelo gráfico acima, podemos aceitar a hipótese de que os dados
sejam normalmente distribuídos.
Pelo Método da Máxima Verossimilhança (Software Statistica), obteve-se 3 fatores uti-
lizando o critério de Kayser, que explicam 67.73% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.
Observando-se as comunalidades, podemos eliminar as variáveis Forma da letra, Habilidade
acadêmica e Aparência do modelo, pois suas comunalidades estão abaixo de 0,5.
No primeiro fator podemos reunir as variáveis: Confiança em si mesmo, Lucidez, Aptidão
para vendas, Iniciativa, Ambição, Domínio e Potencial.
No fator 2 temos: Habilidade para o posto, Honestidade.
Fator 3: Experiência
Comparando as duas análises, podemos concluir que ambas agruparam as mesmas variáveis
no primeiro fator e no restante dos fatores as diferenças foram pouco significativas.
4. Os dados seguintes representam as taxas dos crimes ocorridos por 100.000 habitantes nos
EUA, em 1986, por estado, segundo as categorias dos crimes:
Estado Ass. Estupro Assalto Ass. c/ viol. Arromb. Roubo simp. Roubo carro
ME 2 14.8 28 102 803 2347 164
NH 2.2 21.5 24 92 755 2208 228
VT 2 21.8 22 103 949 2697 181
MA 3.6 29.7 193 331 1071 2189 906
RI 3.5 21.4 119 192 1294 2568 705
CT 4.6 23.4 192 205 1198 2758 447
NY 10.7 30.5 514 431 1221 2924 637
NJ 5.2 33.2 269 265 1071 2822 776
PA 5.5 25.1 152 176 735 1654 354
OH 5.5 38.6 142 235 988 2574 376
IN 6 25.9 90 186 887 2333 328
IL 8.9 32.4 325 434 1180 2938 628
MI 11.3 67.4 301 424 1509 3378 800
WI 3.1 20.1 73 162 783 2802 254
MN 2.5 31.8 102 148 1004 2785 288
IA 1.8 12.5 42 179 956 2801 158
MO 9.2 29.2 170 370 1136 2500 439
ND 1 11.6 7 32 385 2049 120
111
SD 4 17.7 16 87 554 1939 99
NE 3.1 24.6 51 184 748 2677 168
KS 4.4 32.9 80 252 1188 3008 258
DE 4.9 56.9 124 241 1042 3090 272
MD 9 43.6 304 476 1296 2978 545
DC 31 52.4 754 668 1728 4131 975
VA 7.1 26.5 106 167 813 2522 219
WV 5.9 18.9 41 99 625 1358 169
NC 8.1 26.4 88 354 1225 2423 208
SC 8.6 41.3 99 525 1340 2846 277
GA 11.2 43.9 214 319 1453 2984 430
FL 11.7 52.7 367 605 2221 4373 598
KY 6.7 23.1 83 222 824 1740 193
TN 10.4 47 208 274 1325 2126 544
AL 10.1 28.4 112 408 1159 2304 267
MS 11.2 25.8 65 172 1076 1845 150
AR 8.1 28.9 80 278 1030 2305 195
LA 12.8 40.1 224 482 1461 3417 442
OK 8.1 36.4 107 285 1787 3142 649
TX 13.5 51.6 240 354 2049 3987 714
MT 2.9 17.3 20 118 783 3314 215
ID 3.2 20 21 178 1003 2800 181
WY 5.3 21.9 22 243 817 3078 169
CO 7 42.3 145 329 1792 4231 486
NM 11.5 46.9 130 538 1845 3712 343
AZ 9.3 43 169 437 1908 4337 419
UT 3.2 25.3 59 180 915 4074 223
NV 12.6 64.9 287 354 1604 3489 478
WA 5 53.4 135 244 1861 4267 315
OR 6.6 51.1 206 286 1967 4163 402
CA 11.3 44.9 343 521 1696 3384 762
AK 4.6 72.7 88 401 1162 3910 604
KI 4.8 31 106 103 1339 3759 328
Efetuar uma análise fatorial utilizando a rotação pelo Método das Componentes Principais.
Mostrar e comentar: os fatores, a matriz de correlação, a matriz de resíduos, as comunali-
dades, os escores fatoriais. Utiliizar a rotação Varimax. Utilizar o software Statistica.
Teste de Esfericidade -Estatística de Bartlett
Q2 = 274.37
112
pvalor = 0
Medida de adequacidade da amostra de Kaiser-Meyer-Olkin
MSA = 0.80
Método das Componentes Principais (Matriz Corelação) Varimax
Fator 1 Fator 2 Com. Var. Esp.
Assassinato 0.86 0.23 0.80 0.20
Estupro 0.43 0.75 0.74 0.26
Assalto 0.92 0.23 0.90 0.10
Assalto c/ Violência 0.76 0.48 0.80 0.20
Arrombamento 0.43 0.82 0.86 0.14
Roubo Simples 0.13 0.92 0.87 0.13
Roubo de Carro 0.78 0.31 0.70 0.30
Expl.Var 3.15 2.52
Prp.Totl 0.45 0.36
Prop. Acum. 66.69 81.01
Matriz Correlação
Assassinato 1.00 0.53 0.81 0.77 0.58 0.34 0.56
Estupro 0.53 1.00 0.53 0.66 0.72 0.63 0.57
Assalto 0.81 0.53 1.00 0.74 0.55 0.40 0.79
Assalto c/ Violência 0.77 0.66 0.74 1.00 0.71 0.51 0.64
Arrombamento 0.58 0.72 0.55 0.71 1.00 0.76 0.58
Roubo Simples 0.34 0.63 0.40 0.51 0.76 1.00 0.39
Roubo de Carro 0.56 0.57 0.79 0.64 0.58 0.39 1.00
Matriz Resíduos
Assassinato 0.20 -0.01 -0.04 0.00 0.02 0.01 -0.19
Estupro -0.01 0.26 -0.04 -0.03 -0.08 -0.11 0.00
Assalto -0.04 -0.04 0.10 -0.06 -0.03 0.07 0.00
Assalto c/ Violência 0.00 -0.03 -0.06 0.20 -0.01 -0.03 -0.10
Arrombamento 0.02 -0.08 -0.03 -0.01 0.14 -0.05 -0.01
Roubo Simples 0.01 -0.11 0.07 -0.03 -0.05 0.13 0.00
Roubo de Carro -0.19 0.00 0.00 -0.10 -0.01 0.00 0.30
113
Escores Fatoriais
ME -0.97272 -0.83601
NH -0.86210 -0.85943
VT -1.15465 -0.27514
MA 0.92052 -0.91994
RI 0.06027 -0.45561
CT -0.02263 -0.39470
NY 1.90205 -0.81223
NJ 0.74618 -0.49537
PA 0.26503 -1.55250
OH -0.09568 -0.30010
IN -0.18792 -0.80005
IL 1.19235 -0.44878
MI 1.15525 0.86828
WI -0.73038 -0.52244
MN -0.75178 -0.09742
IA -1.03247 -0.40273
MO 0.59479 -0.61096
ND -1.06528 -1.44864
SD -0.76823 -1.33710
NE -0.84043 -0.47240
KS -0.67895 0.26114
DE -0.60030 0.65133
MD 1.00802 0.01707
DC 4.35648 -0.12070
VA -0.28687 -0.73616
WV -0.23685 -1.81118
NC -0.04473 -0.39898
SC 0.13600 0.34052
GA 0.48788 0.23986
FL 0.91822 1.94079
KY -0.03453 -1.31962
TN 0.82878 -0.46695
AL 0.39241 -0.62470
MS 0.02771 -1.07690
AR -0.12453 -0.60846
LA 0.75353 0.43845
OK 0.07215 0.66752
TX 0.64618 1.48818
MT -1.20159 -0.11200
ID -0.99452 -0.21698
114
WY -0.81908 -0.19755
CO -0.48450 1.68428
NM 0.10974 1.40918
AZ -0.22861 1.81708
UT -1.30216 0.70518
NV 0.62783 1.07213
WA -1.09641 2.17257
OR -0.55725 1.94986
CA 1.41923 0.49975
AK -0.43878 1.70137
KI -1.00664 0.80720
Comentários: Fazendo o teste de esfericidade de Bartlett e da medida de adequacidade da
amostra, concluí-se que os dados são apropriados à análise fatorial.
Analisando a matriz de correlação, as variáveis Assassinato, Assalto e Assalto com violência
formam um grupo, enquanto que estupro, roubo simples e roubo de carro formam outro
grupo, com correlações mais baixas que o primeiro grupo.
Pelo Método das componentes principais (Software Statistica), obteve-se 2 fatores uti-
lizando o critério de Kayser, que explicam 81.01% da variância dos dados originais. Foi
Aplicada a rotação pelo critério Varimax.
Todas as comunalidades estão acima de 0,7, não sendo necessário eliminar variáveis. E a
matriz de resíduos tem valores baixos.
No primeiro fator podemos reunir as variáveis: Assassinato, Assalto, Assalto com violência
e Roubo de Carro.
No fator 2 temos: Estupro, Arrombamento e Roubo Simples.
Nos escores fatoriais, conseguimos identificar Nova York que se destaca no primeiro fator
e Washington que se destaca no segundo fator.
5. Uma matriz de dados X(86×4), resultou na seguinte matriz covariância:
S =
⎡⎢⎢⎢⎢⎢⎢⎣
0, 029004 −0, 008545 0, 001143 −0, 006594
−0, 008545 0, 003318 0, 000533 0, 003248
0, 001143 0, 000533 0, 004898 0, 005231
−0, 006594 0, 003248 0, 005231 0, 008463
⎤⎥⎥⎥⎥⎥⎥⎦
115
Aqui as variáveis relacionam o número de árvores, altura, área da superfície e o volume de
86 parcelas de terra. Utilizando o MATLAB, calcular:
(a) a matriz correlação;
*************************
* MATRIZ CORRELAÇÃO *
*************************
1.0000 -0.8711 0.0959 -0.4209
-0.8711 1.0000 0.1322 0.6129
0.0959 0.1322 1.0000 0.8125
-0.4209 0.6129 0.8125 1.0000
(b) os autovalores associados à matriz de correlação;
>> [e,l]=eig(R)
e =
0.1925 0.6792 0.5162 -0.4849
-0.2110 0.7214 -0.3388 0.5660
-0.6129 -0.1169 0.7030 0.3413
0.7368 -0.0682 0.3529 0.5727
l =
0.0386 0 0 0
0 0.1005 0 0
0 0 1.4146 0
0 0 0 2.4463
(c) escolher um número adequado de fatores; Pelo critério de Kayser escolhemos 2 fatores
(d) estimar a matriz de pesos;
F1 F2
0.7584 -0.6140 número de árvores
-0.8852 0.4029 altura -0.5339 -0.8361 área da superfície
-0.8958 -0.4197 volume
(e) estimar as comunalidades;
0.95 número de árvores 0.95 altura 0.98 área da
superfície 0.98 volume
(f) estimar as variâncias específicas;
0.05 número de árvores 0.05 altura 0.02 área da
superfície 0.02 volume
116
(g) construir uma tabela resumindo os resultados;
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
-------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 | | ESP.
-------------------------------------------
1 | 0.7584 -0.6140 | 0.95 | 0.05
2 | -0.8852 0.4029 | 0.95 | 0.05
3 | -0.5339 -0.8361 | 0.98 | 0.02
4 | -0.8958 -0.4197 | 0.98 | 0.02
-------------------------------------------
AUTO | 2.45 1.41 |
---------------------------
PROP. | |
ACUM. | 61.16 96.52 |
---------------------------
(h) Você consegue interpretar os fatores resultantes?
O primeiro fator constitui-se principalmente pelas variáveis Altura, Volume e Número
de árvores, enquanto que o segundo é dado pela área de superfície.
(i) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.
****************************
* MATRIZ DOS RESÍDUOS *
****************************
0.0000 0.0477 -0.0126 0.0008
0.0477 -0.0000 -0.0035 -0.0109
-0.0126 -0.0035 0 -0.0166
0.0008 -0.0109 -0.0166 0
Os resíduos são pequenos, visto que o modelo explica 96.52% da variância total dos
dados.
6. Um conjunto de p = 10 variáveis psicológicas foram medidas para n = 810 crianças normais,
gerando as correlações dadas pela tabela seguinte:
Testes 1 2 3 4 5 6 7 8 9 10
117
1 1.000 0.345 0.594 0.404 0.579 -0.280 -0.449 -0.188 -0.303 -0.200
2 1.000 0.477 0.338 0.230 -0.159 -0.205 -0.120 -0.168 -0.145
3 1.000 0.498 0.505 -0.251 -0.377 -0.186 -0.273 -0.154
4 1.000 0.389 -0.168 -0.249 -0.173 -0.195 -0.055
5 1.000 -0.151 -0.285 -0.129 -0.159 -0.079
6 1.000 0.363 0.359 0.227 0.260
7 1.000 0.448 0.439 0.511
8 1.000 0.429 0.316
9 1.000 0.301
10 1.000
Determine, utilizando o MATLAB,
(a) os autovalores associados à matriz de correlação;
>> [v,d] = eig(R)
v =
0.73 0.20 0.20 -0.07 -0.26 -0.12 0.12 0.27 0.23 -0.39
-0.08 0.31 -0.09 0.26 -0.24 -0.04 0.12 -0.78 0.24 -0.27
-0.16 -0.80 0.26 -0.05 -0.09 -0.01 0.02 -0.09 0.30 -0.39
0.07 0.16 -0.09 -0.32 0.73 0.25 -0.24 -0.11 0.31 -0.30
-0.38 0.13 -0.48 0.35 -0.05 -0.07 0.07 0.51 0.34 -0.32
0.09 -0.03 0.17 0.27 0.16 0.58 0.63 0.05 0.24 0.26
0.43 -0.33 -0.62 0.04 -0.12 0.08 -0.23 -0.13 0.29 0.38
-0.22 0.12 -0.06 -0.66 -0.14 -0.30 0.37 0.01 0.41 0.27
0.09 -0.02 0.28 0.42 0.41 -0.63 -0.04 -0.02 0.29 0.29
-0.18 0.21 0.40 0.04 -0.32 0.31 -0.56 0.11 0.43 0.24
d =
0.35 0 0 0 0 0 0 0 0 0
0 0.38 0 0 0 0 0 0 0 0
0 0 0.43 0 0 0 0 0 0 0
0 0 0 0.53 0 0 0 0 0 0
0 0 0 0 0.61 0 0 0 0 0
0 0 0 0 0 0.78 0 0 0 0
0 0 0 0 0 0 0.79 0 0 0
0 0 0 0 0 0 0 0.83 0 0
0 0 0 0 0 0 0 0 1.61 0
0 0 0 0 0 0 0 0 0 3.70
(b) escolher um número adequado de fatores;
118
Escolheu-se 4 fatores que representam aproximadamente 70% da variância total
(c) estimar a matriz de pesos;
-0.7552 0.2870 0.2496 0.1064 -0.5212 0.3086 -0.7112 0.1047
-0.7469 0.3856 -0.0851 0.0215 -0.5851 0.3988 -0.1015 -0.2168
-0.6065 0.4339 0.4642 0.0591
0.5077 0.3089 0.0422 0.5600
0.7223 0.3701 -0.1183 -0.2051
0.5250 0.5236 0.0046 0.3335
0.5657 0.3743 -0.0143 -0.0316
0.4659 0.5395 0.0990 -0.5009
(d) estimar as comunalidades;
0.73
0.88
0.71
0.56
0.78
0.67
0.71
0.66
0.46
0.77
(e) estimar as variâncias específicas;
0.27
0.12
0.29
0.44
0.22
0.33
0.29
0.34
0.54
0.23
(f) construir uma tabela resumindo os resultados.
119
********************************************************
* ANÁLISE FATORIAL - MÉTODO DAS COMPONENTES PRINCIPAIS *
********************************************************
---------------------------------------------------------
VAR. | PESOS ESTIMADOS | COM. | VAR.
| F1 F2 F3 F4 | | ESP.
---------------------------------------------------------
1 | -0.7552 0.2870 0.2496 0.1064 | 0.73 | 0.27
2 | -0.5212 0.3086 -0.7112 0.1047 | 0.88 | 0.12
3 | -0.7469 0.3856 -0.0851 0.0215 | 0.71 | 0.29
4 | -0.5851 0.3988 -0.1015 -0.2168 | 0.56 | 0.44
5 | -0.6065 0.4339 0.4642 0.0591 | 0.78 | 0.22
6 | 0.5077 0.3089 0.0422 0.5600 | 0.67 | 0.33
7 | 0.7223 0.3701 -0.1183 -0.2051 | 0.71 | 0.29
8 | 0.5250 0.5236 0.0046 0.3335 | 0.66 | 0.34
9 | 0.5657 0.3743 -0.0143 -0.0316 | 0.46 | 0.54
10 | 0.4659 0.5395 0.0990 -0.5009 | 0.77 | 0.23
---------------------------------------------------------
AUTO | 3.70 1.61 0.83 0.79 |
-----------------------------------------
PROP. | |
ACUM. | 37.02 53.14 61.41 69.33 |
-----------------------------------------
(g) Você consegue interpretar os fatores resultantes?
O primeiro fator é composto principalmente pelas variáveis 1, 3, 5, 7, 9. Já o segundo
fator é composto pelas variáveis 8, 9, mas com correlações em torno de 0,5. O terceiro
fator é composto pela variável 2 e o último pela variável 6.
(h) Determinar a matriz de resíduos? Faça um comentário sobre essa matriz.
****************************
* MATRIZ DOS RESÍDUOS *
****************************
0 0.03 -0.06 -0.10 -0.13 -0.06 0.04 0.02 0.02 0.03
0.03 0 -0.09 -0.14 0.10 -0.02 -0.01 -0.04 0.00 0.05
-0.06 -0.09 0 -0.10 -0.08 0.00 0.01 -0.00 0.00 0.01
-0.10 -0.14 -0.10 0 -0.08 0.13 -0.03 -0.00 -0.02 -0.10
-0.13 0.10 -0.08 -0.08 0 -0.03 0.06 -0.06 0.03 -0.05
-0.06 -0.02 0.00 0.13 -0.03 0 0.00 -0.26 -0.16 0.13
0.04 -0.01 0.01 -0.03 0.06 0.00 0 -0.06 -0.12 -0.12
120
0.02 -0.04 -0.00 -0.00 -0.06 -0.26 -0.06 0 -0.05 -0.04
0.02 0.00 0.00 -0.02 0.03 -0.16 -0.12 -0.05 0 -0.18
0.03 0.05 0.01 -0.10 -0.05 0.13 -0.12 -0.04 -0.18 0
Existem algumas variáveis com resíduos altos, em torno 0,1.
6 Lista 6: Análise Discriminante
1. Considere as observações de p = 2 variáveis oriundas de 3 populações ¼1, ¼2 e ¼3. As
matrizes de dados correspondentes às amostras das 3 populações todas com o mesmo
tamanho ni = 4 estão a seguir.
X1 =
⎡⎢⎢⎢⎢⎢⎢⎣
7, 4 9, 1
7, 2 14, 2
6, 7 9, 6
8, 0 10, 7
⎤⎥⎥⎥⎥⎥⎥⎦, X2 =
⎡⎢⎢⎢⎢⎢⎢⎣
6, 5 7, 8
5, 1 5, 5
4, 9 9, 4
3, 8 11, 6
⎤⎥⎥⎥⎥⎥⎥⎦
e X3 =
⎡⎢⎢⎢⎢⎢⎢⎣
8, 0 1, 2
10, 2 5, 5
10, 8 4, 3
6, 7 4, 0
⎤⎥⎥⎥⎥⎥⎥⎦
(a) Determine os vetores médios amostrais xi, i = 1, 2, 3.
>> pi1 =[ 7.4 9.1; 7.2 14.2 ; 6.7 9.6 ; 8.0 10.7 ];
>> pi2 = [ 6.5 7.8; 5.1 5.5 ; 4.9 9.4 ; 3.8 11.6 ];
>> pi3 = [ 8.0 1.2 ; 10.2 5.5 ; 10.8 4.3; 6.7 4.0 ];
>> PI = [pi1;pi2;pi3];
>> V = [4 4 4];
>> disc1(PI,V)
*********************
* MÉDIAS DOS GRUPOS *
*********************
xm1 =
7.3250 10.9000
xm2 =
5.0750 8.5750
xm3 =
8.9250 3.7500
(b) Determine o vetor médio global amostral.
*****************
* MÉDIA GLOBAL *
*****************
121
7.1083 7.7417
(c) Calcule matrizes de covariâncias amostrais: S1, S2 , S3 e também as matrizes: Sp, B0
e W .
**********************************
* MATRIZES COVARIÂNCIAS - GRUPOS *
**********************************
COV1 =
0.2892 0.0433
0.0433 5.2867
COV2 =
1.2292 -1.7275
-1.7275 6.6292
COV3 =
3.6492 1.6883
1.6883 3.3100
************************************
* MATRIZ B - VARIAÇÃO ENTRE GRUPOS *
************************************
7.4817 -8.2617
-8.2617 26.6029
************************************
* MATRIZ COVARIÂNCIA CONJUNTA - Sp *
************************************
1.7225 0.0014
0.0014 5.0753
*****************************************
* MATRIZ W - VARIAÇÃO DENTRO DOS GRUPOS *
*****************************************
15.5025 0.0125
0.0125 45.6775
(d) Determine a matriz inversa W−1 e W−1B0.
>> Winv = inv(W)
Winv =
0.06 -0.00
-0.00 0.02
>> WinvB0 = inv(Winv*B0)
WinvB0 =
3.15 2.89
0.98 2.61
(e) Determine os autovalores e autovetores de W−1B0.
122
**********************************
* AUTOVALORES DA MATRIZ INV(W)*B *
**********************************
0.8474
0.2180
******************************
* AUTOVALORES SATISFAZENDO À *
* CONDIÇÃO s=min(g-1,p) *
******************************
0.8474
0.2180
(f) Determine os discriminantes para as populações com base nos resultados amostrais.
*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
-0.4944 0.3379
Y2 =
0.5798 0.2878
(g) Faça uma gráfico que represente espaço discriminante nas dimensões que você deter-
minou, represente a amostra no gráfico.
−4 −3 −2 −1 0 1 2 34.5
5
5.5
6
6.5
7
7.5
8
8.5
1
1
1
1
2
2
2 2
3
33
3
1
2
3
ESPAÇO DISCRIMINANTE
Y1
Y2
2. Considere dois grupos de agricultores em uma cidade: ¼1, os possuidores de determinada
123
máquina agrícola e ¼2 os não-possuidores da máquina. O fabricante da máquina está in-
teressado em identificar possuidores ou não do equipamento, com a finalidade de promover
vendas futuras. Dispõe dos dados da renda e tamanho da fazenda de 24 fazendeiros pos-
suidores ou não do equipamento. Construa uma F.D.L. de Fisher para alocar um novo
agricultor em um ou dois grupos, com base nas informações a seguir. Em qual grupo você
alocaria o indivíduo x0 = [18.0 7.51]?
¼1 ¼2
x1 = renda x2 = área x1 = renda x2 = área
20 9.2 25 9.8
28.5 8.4 17.6 10.4
21.6 10.8 21.6 8.6
20.5 10.4 14.4 10.2
29 11.8 28 8.8
36.7 9.6 16.4 8.8
36 8.8 19.8 8
27.6 11.2 22 9.2
23 10 15.8 8.2
31 10.4 11 9.4
17 11 17 7
27 10 21 7.4
*********************
* MÉDIAS DOS GRUPOS *
*********************
xm1 =
24.8833 11.7417
xm2 =
18.4833 9.4667
************************************
* MATRIZES COVARIÂNCIAS DOS GRUPOS *
************************************
S1 =
63.1761 -7.4965
-7.4965 28.7863
S2 =
29.5452 3.0667
124
3.0667 7.5806
************************
* MATRIZ ESTIMADA - Sp *
************************
Sp =
46.3606 -2.2149
-2.2149 18.1834
*****************************************
* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
*****************************************
0.1449 0.1428
**********************
* MÉDIA UNIVARIADA *
**********************
4.6551
>> v = 0.1449*(18) + 0.1428*(7.51)
v =
3.6806
Comentários: O indivíduo x0 será alocado no grupo ¼1
3. Pacientes com certa enfermidade são submetidos durante um certo período a um treina-
mento que envolve, inclusive, uma certa operação. No instante pré-operatório, do período
de tratamento, são feitos 9 exames clínicos que formam com a idade e sexo um conjunto
de 11 variáveis. As tabelas 1 e 2 mostram os resultados das medidas dessas 11 variáveis
para amostras da população de sobreviventes (n1 = 23) e mortos (n2 = 7), respectiva-
mente, ao fim do período de tratamento. Um médico pesquisador quer saber no instante
pré-operatório, com base nas medidas das 11 variáveis, se o paciente morrerá ou não ao
fim do período de tratamento. Você seria capaz de auxiliar o médico nesta questão? Como
faria?
i idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU
1 46 1 41.8 21.2 20.6 234 178 58.75 92 14 3.3
2 52 0 21.4 12.95 8.45 55 80 20.87 92 15 3.5
3 73 0 26.2 13.6 12.6 90 97 10.58 104 14 2.7
4 47 0 31.6 16.5 15.4 31 59 15.86 92 13 3
5 66 0 40 20.9 19.1 45 108 33.34 66 11 3.6
6 26 0 22 13.1 8.9 80 29 11.79 158 14 3
7 66 1 25.6 14 11.6 125 129 27.34 100 13 2.7
8 53 1 24.4 15 9.4 43 63 19.4 60 14 2.4
125
9 34 0 19.8 11.6 8.2 24 47 6.41 92 13 3.6
10 50 1 25 14 11 86 149 42.48 10 14 1.5
11 69 1 11.9 7.55 4.35 176 92 21.88 104 13 3.4
12 63 1 15.6 9.1 6.5 21 44 22.1 144 15 3.9
13 43 1 13.7 7.7 6 25 63 26 79 13 3.2
14 76 0 10.4 7.3 3.1 35 50 25.74 104 13 3
15 66 1 19.8 10.7 9.1 48 68 25.74 104 14 3
16 73 0 16.2 9.9 6.3 132 71 22.08 196 15 3
17 46 1 8.6 5.6 3 28 56 25.74 104 15 3
18 45 1 19.4 10.1 9.3 99 87 10.43 158 17 2.6
19 60 1 18.8 10.1 8.7 33 92 24.07 158 17 2.3
20 76 0 19.1 12.2 6.9 60 71 44.31 66 13 4.2
21 33 0 3.8 2.4 1.4 35 61 21.33 60 13 3
22 46 1 3 2.2 0.8 390 400 65.95 132 15 3
23 55 1 13.4 6.85 6.55 45 97 9.85 123 14 2.7
Tabela 18: 1
i idade sexo BT BD BI SGPT SGOT FOSF AMI TAP ALBU
1 61 0 18.8 10.45 8.35 21 49 9.45 82 15 3.4
2 71 1 27.2 16.5 10.7 82 87 23.82 88 14 3.1
3 54 1 31.2 16.2 15 37 92 28.82 88 15 2.7
4 64 0 24.4 13.45 10.95 18 63 9.71 82 14 1.9
5 76 0 22 13.45 8.55 53 66 21.86 90 13 3.4
6 69 0 6.4 4.1 2.3 17 47 35.29 121 14 1.5
7 66 1 11.6 6.7 4.9 148 140 24.1 82 15 3.2
Tabela 19: 2
Faria uma análise discriminante para encontrar os coeficientes da função discriminante,onde seria possível, após a realização dos exames de certo paciente classifica-lo em algumgrupo. Neste caso, temos os coeficientes da função discriminante dado por:
*****************************************
* COEFICIENTES DA FUNÇÃO DISCRIMINANTE *
*****************************************
Columns 1 through 6
-0.0986 1.3059 -3.9929 3.9850 3.9813 -0.0023
Columns 7 through 11
0.0010 0.0338 0.0364 -1.0364 0.7732
**********************
126
* MÉDIA UNIVARIADA *
**********************
-13.6213
onde a média univariada é -13.6213. Com os dados dos exames do paciente o médico pode
enquadrá-lo no grupo 1 caso o valor da função seja menor que a média univariada e no
grupo 2 se for maior.
4. Dados sobre petróleo coletados do arenito na região de Elk Hills, California, forneceram os
dados a seguir para as três amostras coletadas de 3 unidades estratigráficas: ¼1 = arenito
Wilhelm, ¼2 = arenito Sub-Mulinia e ¼3 = arenito Upper. Os dados referem-se às análise
químicas das amostras.
X1 X2 X3 X4 X5
3.9 51 0.2 7.06 12.19
2.7 49 0.07 7.14 12.23
2.8 36 0.3 7 11.3
3.1 45 0.08 7.2 13.01
3.5 46 0.1 7.81 12.63
3.9 43 0.07 6.25 10.42
2.7 35 0 5.11 9
Tabela 20: Amostra da População 1
X1 X2 X3 X4 X5
5 47 0.07 7.06 6.1
3.4 32 0.2 5.82 4.69
1.2 12 0 5.54 3.15
8.4 17 0.07 6.31 4.55
4.2 36 0.5 9.25 4.95
4.2 35 0.5 5.69 2.22
3.9 41 0.1 5.63 2.94
3.9 36 0.07 6.19 2.27
7.3 32 0.3 8.02 12.92
4.4 46 0.07 7.54 5.76
3 30 0 5.12 10.77
Tabela 21: Amostra da População 2
X1 X2 X3 X4 X5
127
6.3 13 0.5 4.24 8.27
1.7 5.6 1 5.69 4.64
7.3 24 0 4.34 2.99
7.8 18 0.5 3.92 6.09
7.8 25 0.7 5.39 6.2
7.8 26 1 5.02 2.5
9.5 17 0.05 3.52 5.71
7.7 14 0.3 5.65 8.63
11 20 0.5 4.27 8.4
8 14 0.3 4.32 7.87
8.4 18 0.2 4.38 7.98
10 18 0.1 3.06 7.67
7.3 15 0.05 3.76 6.84
9.5 22 0.3 3.98 5.02
8.4 15 0.2 5.02 10.12
8.4 17 0.2 4.42 8.25
9.5 25 0.5 4.44 5.95
7.2 22 1 4.7 3.49
4 12 0.5 5.71 6.32
6.7 52 0.5 4.8 3.2
9 27 0.3 3.69 3.3
7.8 29 1.5 6.72 5.75
4.5 41 0.5 3.33 2.27
4 34 0.7 7.56 6.93
5.6 20 0.5 5.07 6.7
9 17 0.2 4.39 8.33
8.4 20 0.1 3.74 3.77
9.5 19 0.5 3.72 7.37
9 20 0.5 5.97 11.17
6.2 16 0.05 4.23 4.18
7.3 20 0.5 4.39 3.5
3.6 15 0.7 7 4.82
6.2 34 0.07 4.84 2.37
7.3 22 0 4.13 2.7
4.1 29 0.7 5.78 7.76
5.4 29 0.2 4.64 2.65
5 34 0.7 4.21 6.5
6.2 27 0.3 3.97 2.97
Tabela 22: Amostra da População 3
128
(a) Determine os discriminantes para as populações com base nas observações amostrais.
*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
0.3183 -0.0668 2.1116 -0.2960 -0.2500
Y2 =
-0.0906 0.0287 2.2717 -1.0046 0.3771
*******************************************
* MÉDIAS UNIVARIADAS - MÉDIA(Y1)=COLUNA 1 *
* MÉDIA(Y2)=COLUNA 2, ETC. *
*******************************************
-6.5334 -1.2508
-3.7485 -3.5878
-1.1213 -1.5599
(b) Faça um gráfico que represente o “espaço discriminante” nas dimensões que você de-
terminou e represente a amostra no gráfico.
−8 −7 −6 −5 −4 −3 −2 −1 0 1−6
−5
−4
−3
−2
−1
0
1
11 1
1
1
11
2
2
2
2
2
22
2
2
2
23
3
3
3
333
3
3
33
3
33
3 3 3 3
3
33
3
3
3
33
3
3
3
3
3
333
3
3
3
3
1
2
3
ESPAÇO DISCRIMINANTE
Y1
Y2
(c) Marque no gráfico os centróides de cada população (estimados).
Vide gráfico do item anterior.
5. Uma Universidade aplicou 5 testes diferentes ao seus alunos, atribuindo escores que vari-
avam de 0 a 10. Em seguida separou-os em 3 grupos semelhantes, com base nos escores
dos testes. Uma amostra de cada grupo com os respectivos escores são dados:
129
Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
1 9 6 8 6 8
2 8 7 7 7 9
3 7 6 8 6 10
4 7 8 7 5 9
5 7 7 8 6 10
6 8 6 9 7 9
7 9 7 7 8 8
8 6 8 8 6 9
9 7 9 6 7 7
10 8 8 7 6 9
11 9 7 8 8 10
12 9 6 9 9 8
13 9 8 8 7 9
14 10 9 7 6 9
15 8 8 9 7 7
Tabela 23: Grupo A
Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
1 6 7 6 5 8
2 5 7 7 6 7
3 6 6 8 5 8
4 7 7 7 4 7
5 5 7 6 5 6
6 5 8 5 6 8
7 5 7 6 5 8
8 6 6 7 6 7
9 7 5 6 4 9
10 5 4 5 5 6
Tabela 24: Grupo B
Aluno Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
1 4 6 5 3 7
2 5 6 4 4 6
3 5 5 5 4 6
4 5 6 6 3 7
5 4 7 6 4 5
6 5 4 5 2 6
130
7 6 5 6 3 7
8 5 6 5 3 5
Tabela 25: Grupo C
(a) Através da MANOVA, ao nível de significância de 5%, testar se os três grupos diferemsignificativamente, caso contrário eliminar as variáveis que não discriminam os grupos.
**********************************
* ESTATÍSTICA DO TESTE *
**********************************
F =
12.3047
**********************************
* VALOR DE p *
**********************************
1.4032e-010
Pela MANOVA concluímos que os três grupos diferem significativamente.
(b) Determine a função discriminante linear de Fisher para os três grupos, com base nas
amostras.
**********************************
* MATRIZ B *
**********************************
64.1523 31.4174 46.3409 61.6985 47.1659
31.4174 16.0280 23.4803 32.0439 24.2553
46.3409 23.4803 34.4364 46.8061 35.4864
61.6985 32.0439 46.8061 64.5455 48.6561
47.1659 24.2553 35.4864 48.6561 36.7614
**********************************
* MATRIZ W *
**********************************
25.9083 -5.5083 4.4167 2.8167 2.5917
-5.5083 33.6083 -6.1167 0.6833 -3.8917
4.4167 -6.1167 22.5333 3.1333 2.4833
2.8167 0.6833 3.1333 23.3333 -6.7167
2.5917 -3.8917 2.4833 -6.7167 26.2083
>> inv(W)*B
ans =
2.0452 0.9855 1.4577 1.9212 1.4747
1.7629 0.8906 1.3068 1.7730 1.3452
1.4671 0.7424 1.0891 1.4791 1.1218
131
2.8544 1.4950 2.1808 3.0219 2.2736
2.4517 1.2731 1.8596 2.5641 1.9330
>> [e,l]=eig(inv(W)*B)
e =
0.3980 0.7450 0.2890 -0.0202 0.1123
0.3587 0.0905 -0.3979 0.6831 0.3708
0.2990 0.0583 -0.6784 0.0176 -0.7557
0.6010 -0.5653 0.5252 0.1972 -0.1293
0.5120 -0.3375 -0.1485 -0.7027 0.5120
l =
8.8265 0 0 0 0
0 0.1532 0 0 0
0 0 0.0000 0 0
0 0 0 -0.0000 0
0 0 0 0 0.0000
*******************************************
* COEFICIENTES DAS FUNÇÕES DISCRIMINANTES *
*******************************************
Y1 =
0.3980 0.3587 0.2990 0.6010 0.5120
Y2 =
0.7450 0.0905 0.0583 -0.5653 -0.3375
(c) Determine o erro de classificação.
Utilizando-se como base:
Grupo Média Y1 Média Y2
1 19,05495 -0,88322
2 15,21688 -0,08769
3 12,12641 -0,9544Calculando-se os escores Y1 e Y2 para cada amostra e verificando em qual ponto esta
amostra esta mais próxima, vem:
132
Distância
Grupo 1 2 3 Classificação Tipo
1 18,06 -2,46 1,87 3,7 6,12 1 11
1 18,99 -0,42 0,47 3,78 6,88 1 11
1 18,38 0,3 1,36 3,18 6,37 1 11
1 17,55 -1 1,51 2,51 5,43 1 11
1 18,78 0,17 1,09 3,58 6,75 1 11
1 19,26 -0,46 0,47 4,06 7,15 1 11
1 19,53 -1,09 0,52 4,43 7,4 1 11
1 18,16 0,59 1,72 3,02 6,23 1 11
1 17,84 -0,46 1,29 2,65 5,73 1 11
1 18,69 -1,25 0,52 3,66 6,57 1 11
1 21,06 -0,33 2,08 5,85 8,95 1 11
1 20,51 -0,42 1,52 5,3 8,4 1 11
1 20,17 -1,59 1,32 5,17 8,07 1 11
1 19,97 -3,3 2,58 5,73 8,18 1 11
1 18,89 -1,54 0,68 3,95 6,78 1 11
2 15,78 -0,25 3,34 0,58 3,72 2 22
2 15,79 0,92 3,73 1,16 4,12 2 22
2 16,05 -0,29 3,06 0,86 3,98 2 22
2 15,25 -2,42 4,1 2,33 3,45 2 22
2 14,15 -0,12 4,96 1,07 2,19 2 22
2 16,11 1,38 3,71 1,72 4,62 2 22
2 15,34 0,72 4,04 0,81 3,62 2 22
2 15,82 0,09 3,38 0,62 3,83 2 22
2 15,29 -1,25 3,78 1,16 3,17 2 22
2 12,59 0,33 6,58 2,66 1,37 3 23
3 12,16 0,05 6,96 3,06 1,01 3 33
3 12,36 -0,54 6,7 2,89 0,48 3 33
3 12,29 -0,5 6,77 2,95 0,49 3 33
3 12,93 -0,99 6,12 2,46 0,81 3 33
3 12,42 -0,29 6,66 2,8 0,73 3 33
3 10,48 -1,79 8,62 5,03 1,85 3 33
3 12,96 -1,83 6,17 2,85 1,21 3 33
3 11,4 -1,75 7,7 4,16 1,07 3 33
O que dá a seguinte matriz confusão:
133
Grupo Classificado
Grupo Origem 1 2 3
1 15 0 0
2 0 9 1
Com as probabilidades de classificação das por:
Grupo Classificado
Grupo Origem 1 2 3
1 0% 0% 0%
2 0% 90% 10%
3 0% 0% 100%
(d) Em qual grupo você classificaria um aluno com escores: x0 = [6 7 7 8 8]?
>> Xm1;
>> Xm2;
>> Xm3;
>> Y11=e(:,1)’*Xm1
Y11 =
16.6730
>> Y12=e(:,1)’*Xm2
Y12 =
13.3031
>> Y13=e(:,1)’*Xm3
Y13 =
10.6180
>> Y21=e(:,2)’*Xm1
Y21 =
0.3705
>> Y22=e(:,2)’*Xm2
Y22 =
-0.1874
>> Y23=e(:,2)’*Xm3
Y23 =
0.5427
>> YK=e(:,1)’*K
134
YK =
15.8974
>> YK=e(:,2)’*K
YK =
-1.7106
Seria classificado no primeiro grupo, como pode ser observado na figura a seguir.
7 Lista 7: Regressão Logística
1. O gerente de uma seguradora de veículos está interessado em aprimorar a sua política
de vendas para expandir a base de clientes. Ele acredita que em muitas situações teria
condições de realizar contratos a preços mais competitivos se tivesse uma melhor percepção
da taxa de risco a que se expõe em cada operação. Recorrendo à sua base de dados, resolveu
extrair uma amostra aleatória de 36 elementos para identificar quais são as variáveis que
mais contribuem para diferenciá-los quanto à ocorrência de sinistros. Com isso, espera
poder estimar de forma mais racional o arisco a que ficará exposto em futuras operações
e, conseqüentemente, conceder descontos mais adequados. Os dados são:
Sinistro Idade Estado Civil Sexo
0 22 1 1
135
1 24 0 0
0 45 1 1
0 58 0 1
0 27 1 0
1 31 0 1
1 32 0 1
0 30 0 0
0 56 0 1
0 44 0 1
1 21 0 1
1 23 0 1
0 29 1 0
0 20 1 0
0 60 1 1
1 30 0 1
1 22 0 1
0 26 1 0
0 19 0 0
0 18 0 0
0 21 1 1
0 59 0 1
1 24 0 0
0 56 0 1
0 54 0 1
0 47 0 1
0 40 1 0
1 31 1 1
0 43 0 0
0 35 1 0
0 23 1 0
1 22 1 1
0 21 1 1
0 63 0 1
0 22 1 0
0 26 1 0
Como consta no quadro dos dados, verificaram-se 17 ocorrências de sinistro numa amostra
de 36 clientes ( 1 = houve sinistro; 0 = não houve sinistro). Em relação a cada indivíduo,
foram levantadas as seguintes informações adicionais: o estado civil (1 = solteiro, 0 =
casado), a idade e, finalmente, o sexo (1 = feminino; 0 = masculino). Baseando-se nesse
136
histórico pede-se:
(a) determine um modelo capaz de descrever o relacionamento existente entre a ocorrência
de sinistros e as variáveis sexo, idade e estado civil. Usando o Software Statistica,
obteve-se
ˆ0 = 3.78104, ˆ1 = −0.189572, ˆ2 = −3.62511 e ˆ
3 = 3.70268
logo temos
¼(x1, x2, x3) =e3.78104−0.189572x1−3.62511x2+3.70268x3
1 + e3.78104−0.189572x1−3.62511x2+3.70268x3
x1 = Idade, x2 = Estado Civil, x3 = Sexo.
(b) estime a probabilidade de sinistro associada a um cliente de sexo masculino, casado e
com 25 anos de idade.
¼(25, 0, 0) = 0.2772
(c) para o mesmo cliente do item anterior, qual a probabilidade de sinistro se ele fore
solteiro?
¼(25, 1, 0) = 0.0101
(d) compare os resultados obtidos nos dois itens anteriores e reflita sobre as estratégias
que poderiam ser adotadas pela companhia para atrair novos clientes.
2. Considere a variável idade (AGE) e a variável dicotômica (CHD) que indica a presença (1)
ou ausência (0) de evidência de problemas coronários significativos em 100 indivíduos (ID)
com os números 1 a 100. A variável (AGRP) indica a faixa etária do indivíduo.
ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD
1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0
137
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0
(a) Efetuar uma regressão logística considerando a variável dependente (CHD) e como
variável independente as idades (AGE).
ˆ0 = −5.30945 e ˆ
1 = 0.1109
Logo, tem-se
¼(AGE) =e−5.30945+0.1109AGE
1 + e−5.30945+0.1109AGE
(b) Determinar os % de classificação correta.
Pred. Pred. Percent
0 1 Correct
0 45 12 78, 94736
1 14 29 67, 44186
(c) Determinar a variável (CHD) estimada para cada indivíduo.
138
C:1 0,043479 C:34 0,250781 C:68 0,586017
C:2 0,059621 C:35 0,250781 C:69 0,612645
C:3 0,066153 C:36 0,272192 C:70 0,612645
C:4 0,073344 C:37 0,272192 C:71 0,638617
C:5 0,073344 C:38 0,294712 C:72 0,638617
C:6 0,081248 C:39 0,294712 C:73 0,663803
C:7 0,081248 C:40 0,318280 C:74 0,688091
C:8 0,099422 C:41 0,318280 C:75 0,688091
C:9 0,099422 C:42 0,342817 C:76 0,688091
C:10 0,109804 C:43 0,342817 C:77 0,711387
C:11 0,121125 C:44 0,342817 C:78 0,711387
C:12 0,121125 C:45 0,342817 C:79 0,711387
C:13 0,121125 C:46 0,368224 C:80 0,733617
C:14 0,121125 C:47 0,368224 C:81 0,733617
C:15 0,121125 C:48 0,368224 C:82 0,733617
C:16 0,121125 C:49 0,394383 C:83 0,733617
C:17 0,146793 C:50 0,394383 C:84 0,733617
C:18 0,146793 C:51 0,394383 C:85 0,733617
C:19 0,161237 C:52 0,394383 C:86 0,754725
C:20 0,161237 C:53 0,421163 C:87 0,754725
C:21 0,176807 C:54 0,421163 C:88 0,754725
C:22 0,176807 C:55 0,448414 C:89 0,774674
C:23 0,176807 C:56 0,448414 C:90 0,774674
C:24 0,176807 C:57 0,475979 C:91 0,793445
C:25 0,176807 C:58 0,475979 C:92 0,793445
C:26 0,193533 C:59 0,475979 C:93 0,811033
C:27 0,193533 C:60 0,503690 C:94 0,827449
C:28 0,211436 C:61 0,503690 C:95 0,827449
C:29 0,211436 C:62 0,503690 C:96 0,842716
C:30 0,211436 C:63 0,531379 C:97 0,856866
C:31 0,230521 C:64 0,531379 C:98 0,856866
C:32 0,230521 C:65 0,531379 C:99 0,869939
C:33 0,230521 C:66 0,558876 C:100 0,912465
C:67 0,558876
(d) Construir o histograma para os resíduos da regressão.
139
Normal Esperada
No de obs.
Distr. Frequencia
(e) Considere agora uma regressão logística múltipla onde a variável dependente é CHD
e as variáveis independentes são ID e AGRP.
ˆ0 = −5.93116, ˆ
1 = −0.148642 e ˆ0 = 0.1399
logo tem-se
¼(AGRP,AGE) = e−5.93116−0.148642+0.1399AGE
1+e−5.93116−0.148642+0.1399AGE
(f) Determinar os % de classificação correta.
Pred. Pred. Percent
0 1 Correct
0 45 12 78,94736
1 14 29 67,44186
(g) Determinar a variável (CHD) estimada para cada indivíduo.
140
C:1 0,036193 C:34 0,257058 C:68 0,577206
C:2 0,054046 C:35 0,257058 C:69 0,610925
C:3 0,061660 C:36 0,284667 C:70 0,610925
C:4 0,070268 C:37 0,284667 C:71 0,643615
C:5 0,070268 C:38 0,282888 C:72 0,643615
C:6 0,079974 C:39 0,282888 C:73 0,675020
C:7 0,079974 C:40 0,312106 C:74 0,673097
C:8 0,103130 C:41 0,312106 C:75 0,673097
C:9 0,103130 C:42 0,342899 C:76 0,673097
C:10 0,116806 C:43 0,342899 C:77 0,703103
C:11 0,115906 C:44 0,342899 C:78 0,703103
C:12 0,115906 C:45 0,342899 C:79 0,703103
C:13 0,115906 C:46 0,375073 C:80 0,731453
C:14 0,115906 C:47 0,375073 C:81 0,731453
C:15 0,115906 C:48 0,375073 C:82 0,731453
C:16 0,115906 C:49 0,408390 C:83 0,731453
C:17 0,147794 C:50 0,408390 C:84 0,731453
C:18 0,147794 C:51 0,408390 C:85 0,731453
C:19 0,166295 C:52 0,408390 C:86 0,758027
C:20 0,166295 C:53 0,406277 C:87 0,758027
C:21 0,186604 C:54 0,406277 C:88 0,758027
C:22 0,186604 C:55 0,440412 C:89 0,782753
C:23 0,186604 C:56 0,440412 C:90 0,782753
C:24 0,186604 C:57 0,475121 C:91 0,781261
C:25 0,186604 C:58 0,475121 C:92 0,781261
C:26 0,185279 C:59 0,475121 C:93 0,804226
C:27 0,185279 C:60 0,510071 C:94 0,825319
C:28 0,207330 C:61 0,510071 C:95 0,825319
C:29 0,207330 C:62 0,510071 C:96 0,844578
C:30 0,207330 C:63 0,544923 C:97 0,862069
C:31 0,231261 C:64 0,544923 C:98 0,862069
C:32 0,231261 C:65 0,544923 C:99 0,877877
C:33 0,231261 C:66 0,542752 C:100 0,926357
C:67 0,542752141
(h) Construir o histograma para os resíduos da regressão.
3. Uma amostra consiste de 40 empresas clientes de um Banco de Desenvolvimento, sendo
30 classificadas como adimplentes e 10 como inadimplentes. Conhece-se os índices de
8 variáveis econômico-financeiras descritas como: MG = margem de garantia; PCT =
participação de capitais de terceiros; IPL = imobilização do patrimônio líquido; LS =
liquidez seca; LC = liquidez corrente; LG = liquidez geral; RSV = retorno sobre vendas;
RPL = retorno sobre patrimônio líquido. Seja a variável dependente VD onde VD = 1
para as empresas adimplentes e VD = 0 para as empresas inadimplentes.
Empresa VD MG PCT IPL LS LC LG RVS RPL
1 1 1.72 1.39 97.87 2.61 2.61 0.61 9.7 32.58
2 1 1.6 1.67 152.17 0.56 0.94 0.69 12.54 26.42
3 1 8.65 0.13 21.24 4.17 7.02 7.02 13.35 21.11
4 1 3.17 0.46 84.57 1 1.6 1.33 5.59 7.75
5 1 1.63 1.58 90.15 1.02 1.25 1.06 -0.45 -3.43
6 1 2.15 0.87 56.5 1.16 1.4 1.5 7.46 7.83
7 1 1.94 1.06 61.38 0.98 1.5 1.36 0.82 3.49
8 1 1.97 1.03 84.46 0.4 0.95 1.14 0.45 2.08
9 1 1.68 1.47 104.91 0.79 1 0.97 -0.02 0.24
10 1 2.89 0.53 59.13 3.86 3.86 1.76 7.75 23.21
11 1 6.66 0.18 90.02 1.11 1.55 1.68 9.03 6.05
12 1 1.43 2.32 51.67 0.53 1.06 1.2 0.29 1.42
142
13 1 3.6 0.38 91.81 1.59 3.22 1.21 15.53 20.52
14 1 1.67 1.49 144.64 0.71 1.76 0.7 19.18 84.12
15 1 1.71 1.4 35.57 1.91 2.13 1.45 3.78 11.15
16 1 13.44 0.09 95.61 2.39 3.57 2.51 17.49 17.98
17 1 3.05 0.49 115.49 0.7 0.79 0.68 2.23 2.64
18 1 21.29 0.05 98.44 1.79 2.07 2.07 21.94 12.84
19 1 2.24 0.81 87.25 1.11 1.49 1.16 -0.06 0.98
20 1 3.18 0.46 76.34 2.17 2.18 1.51 10.03 7.3
21 1 5.71 0.28 125 1.29 1.29 1.29 26.06 56.67
22 1 1.37 2.67 229.32 0.42 0.55 0.52 -0.99 -11.28
23 1 1.6 1.68 78.97 1.21 1.28 1.12 6.69 29.24
24 1 3.54 0.39 35.21 2.27 2.65 2.65 15 32.73
25 1 1.47 2.14 87.65 0.6 1.03 1.03 -2.13 -23.46
26 1 4.37 0.3 84.45 1.59 1.59 1.52 3.79 7.59
27 1 1.64 1.55 25.26 0.16 1.48 1.48 9.01 77.34
28 1 1.23 4.31 187.46 0.31 0.36 0.76 0.52 7.67
29 1 1.25 4.05 86.62 0.36 1.03 1.03 2.07 17.35
30 1 5.3 0.23 94.38 0.54 1.03 1.24 -3.06 -9.83
31 0 1.67 1.59 216.77 0.33 0.39 0.29 -1.05 -10.85
32 0 1.21 4.72 387.18 0.21 0.4 0.39 -23.45 -147.63
33 0 1.25 4.04 102.84 -0.03 1 0.99 2.02 8.06
34 0 1.08 17.52 63 0.24 1.21 1.05 -7.76 -25.24
35 0 1.17 5.88 219.05 0.36 1.29 0.8 1.62 2.2
36 0 1.87 1.15 87.61 0.74 1.28 1.1 -40.36 -135.03
37 0 1.45 2.22 227.74 0.39 0.92 0.42 -50.67 -26.3
38 0 1.19 5.31 475.96 0.3 0.33 0.27 -0.61 -9.55
39 0 2.09 0.92 189.03 0.06 0.06 0.03 -0.08 5.61
40 0 1.31 15.81 154.59 0.75 1.35 1.21 4.72 34.67
(a) Utilizando o Método de Descarte de Variáveis Independentes, visto na Lista 4 (Análise
de Componentes Principais) determinar quais variáveis devem permanecer na análise.
143
O método de descarte sugere descartar um número de variáveis igual ao número de
autovalores menores que 0.7. Como pode ser observado no screeplot acima, são 5
variáveis. Analisando os coeficientes:
Autovalor
Var 1 2 3 4 5 6 7 8 9
X1 0.0956 0.4145 -0.2769 -0.5960 -0.0542 0.1745 -0.3204 0.3600 0.3486
X2 0.0333 0.2195 0.1665 0.0467 -0.5641 -0.6898 -0.1216 -0.1850 0.2787
X3 -0.0024 0.2190 0.0172 -0.4346 -0.2761 0.0691 0.7854 -0.1119 -0.2292
X4 0.0160 0.2528 -0.2666 -0.1758 0.6075 -0.5919 -0.0051 -0.1068 -0.3209
X5 -0.4827 0.0551 0.5558 -0.2709 0.3632 0.0502 0.0188 -0.2957 0.3992
X6 0.7739 0.0475 0.0435 0.0678 0.2440 0.0986 0.1680 -0.3653 0.4018
X7 -0.3820 -0.0335 -0.7085 0.1713 -0.0371 0.0707 0.1535 -0.3882 0.3756
X8 0.0421 -0.6759 -0.0757 -0.2437 0.0905 -0.3442 0.2724 0.4059 0.3328
X9 -0.0994 0.4527 0.0758 0.5061 0.1800 -0.0532 0.3733 0.5253 0.2697As variáveis descartadas foram: X2 : MG, X3: PCT , X4: IPL, X6: LC, X9: RPL
(b) Efetuar uma regressão logística múltipla considerando a variável dependente (VD) e
como variáveis independente aquelas que permaneceram após o descarte feito no item
anterior.
Model: Logistic regression (logit) N of 0’s:10 1’s:30
Dep. var: VD Loss: Max likelihood
Final loss: 8,953831045 Chi2(3)=27,079 p=,00001
144
Const.B0 LS LG RVS
Estimate -3,24551 5 2 0,15
Odds ratio (unit ch) 0,03895 126 8 1,16
Odds ratio (range) 671741504 1729328 72719,5
e−3,24551+5LS+2LG+0,15RV S
1 + e−3,24551+5LS+2LG+0,15RV S
(c) Determinar os % de classificação correta.
Classification of Cases (lista7exe2.sta)
Odds ratio: 56,000
Pred. Pred. Percent
0 1 Correct
0 8 2 80
1 2 28 93,33334
(d) Determinar a variável (VD) estimada para cada empresa.
C:1 ,999994 C:11 ,998989 C:21 ,999921 C:31 ,230445
C:2 ,937724 C:12 ,861459 C:22 ,428275 C:32 ,007775
C:3 1,000000 C:13 ,999899 C:23 ,997234 C:33 ,256984
C:4 ,994190 C:14 ,988191 C:24 1,000000 C:34 ,257574
C:5 ,978185 C:15 ,999927 C:25 ,812119 C:35 ,593120
C:6 ,998556 C:16 1,000000 C:26 ,999704 C:36 ,035836
C:7 ,988006 C:17 ,865842 C:27 ,868120 C:37 ,000375
C:8 ,749960 C:18 ,999997 C:28 ,473084 C:38 ,209509
C:9 ,928765 C:19 ,989024 C:29 ,714051 C:39 ,051899
C:10 1,000000 C:20 ,999993 C:30 ,812953 C:40 ,972320
(e) Construir o histograma para os resíduos da regressão.
145
(f) Como você classificaria uma empresa com os seguintes valores para as variáveis (con-
sidere somente aquelas variáveis que não foram descartadas)
MG = 2,37; PCT = 8,75; IPL = 254,54; LS = 0,97; LC = 1,23; LG = 0,76; RSV = 0,57;
RPL = 7,45.
Aplicando a fórmula vem:
Calculando g(x) = −3, 24551− 5LS + 2LG+ 0, 15RV S , vem: g(x) = 4, 242.
Calculando ¼(x) = eg(x)
1+eg(x)= e4,242
1+e4,242= 0, 9858 Sendo classificado como adimplente.
8 Lista 8: Análise de Agrupamento
1. As distâncias entre 5 pares de itens são dadas abaixo:
146
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
0
4 0
6 9 0
1 7 10 0
6 3 5 8 0
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
Faça uma análise de agrupamentos utilizando os métodos:
(a) do vizinho mais próximo;
A B C D E
A 0
B 4 0
C 6 9 0
D 1 7 10 0
E 6 3 5 8 0
A,D B C E
A,D 0
B 4 0
C 6 9 0
E 6 3 5 0
A,D B,E C
A,D 0
B,E 4 0
C 6 5 0
O passo 3 junta A,D com B,E, sobrando a última ligação, A,D, B,E com C, na
distância 5.
No matlab
>> D=[0 4 6 1 6;
4 0 9 7 3;
6 9 0 10 5;
1 7 10 0 8;
6 3 5 8 0]
>> y=squareform(D)
>> z=linkage(y)
>> dendrogram(z)
>> r=cophenet(z,y)
D =
0 4 6 1 6
4 0 9 7 3
6 9 0 10 5
1 7 10 0 8
6 3 5 8 0
y =
147
4 6 1 6 9 7 3 10 5 8
z =
1 4 1
2 5 3
6 7 4
3 8 5
r =
0.7727
(b) do vizinho mais distante;
>> z=linkage(y,’complete’)
>> dendrogram(z)
>> r=cophenet(z,y) z =
1 4 1
2 5 3
6 7 8
3 8 10
r =
0.7893
(c) construa os dendrogramas.
1 4 2 5 3
1
1.5
2
2.5
3
3.5
4
4.5
5
148
1 4 2 5 3
1
2
3
4
5
6
7
8
9
10
2. Suponha que temos as medidas de 3 variáveis: X1, X2 e X3 para 6 itens: A, B, C, D, E e
F. Os dados são dados abaixo:
Itens X1 X2 X3
A 2 5 7
B 1 4 5
C 2 6 4
D 3 5 5
E 4 5 6
F 2 6 5
Usando a técnica das k-médias dividir os ítens em K = 2 grupos. Começar com os grupos
iniciais (ABC) e (DEF).
>> M=[2 5 7
1 4 5 2 6 4 3 5 5 4 5 6 2 6 5]
mx_ABC=mean(M(1:3,:)) mx_DEF=mean(M(4:6,:)) M =
2 5 7
1 4 5
2 6 4
3 5 5
4 5 6
2 6 5
mx_ABC =
149
1.6667 5.0000 5.3333
mx_DEF =
3.0000 5.3333 5.3333
>> %Distancia A
>> d_A_ABC=sqrt(sum((M(1,:)-mx_ABC).^2))
>> d_A_DEF=sqrt(sum((M(1,:)-mx_DEF).^2))
>> %Distancia B
>> d_B_ABC=sqrt(sum((M(2,:)-mx_ABC).^2))
>> d_B_DEF=sqrt(sum((M(2,:)-mx_DEF).^2))
>> %Distancia C
>> d_C_ABC=sqrt(sum((M(3,:)-mx_ABC).^2))
>> d_C_DEF=sqrt(sum((M(3,:)-mx_DEF).^2))
>> %Distancia D
>> d_D_ABC=sqrt(sum((M(4,:)-mx_ABC).^2))
>> d_D_DEF=sqrt(sum((M(4,:)-mx_DEF).^2))
>> %Distancia E
>> d_E_ABC=sqrt(sum((M(5,:)-mx_ABC).^2))
>> d_E_DEF=sqrt(sum((M(5,:)-mx_DEF).^2))
>> %Distancia F
>> d_F_ABC=sqrt(sum((M(6,:)-mx_ABC).^2))
>> d_F_DEF=sqrt(sum((M(6,:)-mx_DEF).^2))
d_A_ABC =
1.6997
d_A_DEF =
1.9720
d_B_ABC =
1.2472
d_B_DEF =
2.4267
d_C_ABC =
1.6997
d_C_DEF =
1.7951
150
d_D_ABC =
1.3744
d_D_DEF =
0.4714
d_E_ABC =
2.4267
d_E_DEF =
1.2472
d_F_ABC =
1.1055
d_F_DEF =
1.2472
>> G_ABCF=[M(1:3,:);M(6,:)]
G_DE=M(4:5,:)
mx_ABCF=mean(G_ABCF) mx_DE=mean(G_DE)
%Distancia A
d_A_ABCF=sqrt(sum((M(1,:)-mx_ABCF).^2))
d_A_DE=sqrt(sum((M(1,:)-mx_DE).^2))
%Distancia B
d_B_ABCF=sqrt(sum((M(2,:)-mx_ABCF).^2))
d_B_DE=sqrt(sum((M(2,:)-mx_DE).^2))
%Distancia C
d_C_ABCF=sqrt(sum((M(3,:)-mx_ABCF).^2))
d_C_DE=sqrt(sum((M(3,:)-mx_DE).^2))
%Distancia D
d_D_ABCF=sqrt(sum((M(4,:)-mx_ABCF).^2))
d_D_DE=sqrt(sum((M(4,:)-mx_DE).^2))
%Distancia E
d_E_ABCF=sqrt(sum((M(5,:)-mx_ABCF).^2))
d_E_DE=sqrt(sum((M(5,:)-mx_DE).^2))
%Distancia F
d_F_ABCF=sqrt(sum((M(6,:)-mx_ABCF).^2))
151
d_F_DE=sqrt(sum((M(6,:)-mx_DE).^2)) disp(’Grupo1: ABCF’)
disp(’Grupo2: DE’) G_ABCF =
2 5 7
1 4 5
2 6 4
2 6 5
G_DE =
3 5 5
4 5 6
mx_ABCF =
1.7500 5.2500 5.2500
mx_DE =
3.5000 5.0000 5.5000
d_A_ABCF =
1.7854
d_A_DE =
2.1213
d_B_ABCF =
1.4790
d_B_DE =
2.7386
d_C_ABCF =
1.4790
d_C_DE =
2.3452
d_D_ABCF =
1.2990
d_D_DE =
0.7071
d_E_ABCF =
2.3848
d_E_DE =
0.7071
152
d_F_ABCF =
0.8292
d_F_DE =
1.8708
Grupo1: ABCF Grupo2: DE
3. Usando os dados do Exercício 4 da LISTA 5 (Análise Fatorial), fazer uma Análise de
Agrupamento utilizando os diversos tipos de distâncias e ligações. Construir o dendrograma
para a melhor solução.
A tabela seguinte mostra as quantidades das 25 espécies de plantas mais abundantes em
17 lotes de um prado de pastagem na Reserva natural em Steneryd na Suécia medidas
por Persson (1981) e usadas para um exemplo de Digby e Kempton (1987). Cada valor
na tabela é a soma dos valores cobertos em intervalo de 0 a 5 por nove quadrantes de
amostra, de modo que um valor de 45 corresponde à completa cobertura pelas espécies
sendo consideradas. Note que as espécies estão em ordem das mais abundantes (1) às
menos abundantes (25), e os lotes estão na ordem dada por Digby e Kempton , a qual
corresponde à variação em certos fatores ambientais tais como luz e umidade. Execute
uma análise de agrupamentos para estudar o relacionamento entre (a) os 17 lotes e (b) as
25 espécies.
Espécies Lotes
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
E1 38 43 43 30 10 11 20 0 0 5 4 1 1 0 0 0 0
E2 0 0 0 4 10 7 21 14 13 19 20 19 6 10 12 14 21
E3 0 0 0 0 0 6 8 21 39 31 7 12 0 16 11 6 9
E4 10 12 19 15 16 9 0 9 28 8 0 4 0 0 0 0 0
E5 0 0 0 0 0 0 0 0 0 0 13 0 0 21 20 21 37
E6 0 0 0 0 0 0 0 0 0 0 1 0 0 0 11 45 45
E7 1 0 5 6 2 8 10 15 12 15 4 5 6 7 0 0 0
E8 0 7 0 10 9 9 3 9 8 9 2 5 5 1 7 0 0
E9 0 0 1 4 6 9 9 9 11 11 6 5 4 1 7 0 0
E10 0 0 0 0 0 8 0 14 2 14 3 9 8 7 7 2 1
E11 0 0 0 0 0 8 0 0 6 5 4 7 9 8 8 7 6
153
E12 0 5 3 9 12 9 0 1 7 4 5 1 1 1 3 0 0
E13 0 0 0 0 0 0 30 0 14 3 8 0 3 3 0 0 0
E14 4 10 10 9 7 6 9 0 0 2 1 0 2 0 1 0 0
E15 2 9 7 15 13 8 0 0 0 0 0 0 0 0 0 0 0
E16 0 0 0 0 15 6 0 18 1 9 0 0 2 0 0 0 0
E17 12 7 16 8 1 6 0 0 0 0 0 0 0 0 0 0 0
E18 0 0 0 0 0 7 0 2 2 1 0 7 9 2 3 8 7
E19 0 0 0 0 0 7 9 2 12 6 3 8 0 0 0 0 0
E20 0 0 0 0 2 6 3 0 6 5 3 9 3 2 7 0 0
E21 0 0 0 0 0 4 1 4 2 9 6 8 4 1 6 0 0
E22 0 0 0 0 0 8 0 4 0 6 2 10 6 0 2 7 0
E23 1 9 16 9 5 2 0 0 0 0 0 0 0 0 0 0 0
E24 0 0 0 0 2 7 0 1 0 3 1 6 8 2 0 7 4
E25 0 0 6 14 19 2 0 0 0 0 0 0 0 0 0 0 0
Espécies: E1 = festuca ovina; E2 = anemone nemorosa; E3 = stallaria holostea; E4 =
agrostis tenuis; E5 = ranunculus ficaria; E6 = merculrialis perenis; E7 = poa pratenis; E8
= rumex acetosa; E9 = verônica chamaedrys; E10 = dactylis glomerata; E11 = fraxinus
Excelsior; E12 = saxifraga granulata; E13 = deschampsia flexuosa; E14 = luzula campestris;
E15 = plantago lanceolata; E16 = festuca rubra; E17 = hieracium pilosella; E18 = geum
urbanum; E19 = lathyrus montanus; E20 = campânula persicifolia; E21 = viola riviniana;
E22 = hepática nobilis; E23 = achillea millefolium; E24 = allium sp.; E25 = trifolim repens.
function analisefunc(X) distancia = [
’euclidean ’
’seuclidean ’
’mahalanobis’
’cityblock ’
’minkowski ’
’cosine ’
’correlation’
’hamming ’
’jaccard ’
’chebychev ’
154
];
strdist= cellstr(distancia);
iTamDist = size(strdist);
ligacao = [
’single ’
’complete’
’average ’
’weighted’
’centroid’
’median ’
’ward ’ ];
strlink = cellstr(ligacao);
iTamLink = size(strlink); fid =
fopen(’c:\cophenet.txt’,’w’); for i=1:iTamDist
Y = pdist(X,char(strdist(i)));
for j=1:iTamLink
Z = linkage(Y,char(strlink(j)));
c = cophenet(Z,Y);
fprintf(fid,’%12s %12s %6.4f\n’,char(strdist(i)), char(strlink(j)), c);
end
end fclose(fid);
Distância Link Cophenet
euclidean single 0,68
euclidean complete 0,7
euclidean average 0,75
euclidean weighted 0,74
euclidean centroid 0,75
euclidean median 0,74
euclidean ward 0,64
seuclidean single 0,75
seuclidean complete 0,7
seuclidean average 0,83
seuclidean weighted 0,81
155
seuclidean centroid 0,83
seuclidean median 0,43
seuclidean ward 0,61
mahalanobis single 0,81
mahalanobis complete 0,73
mahalanobis average 0,85
mahalanobis weighted 0,8
mahalanobis centroid 0,84
mahalanobis median 0,72
mahalanobis ward 0,58
cityblock single 0,61
cityblock complete 0,6
cityblock average 0,66
cityblock weighted 0,58
cityblock centroid 0,66
cityblock median 0,72
cityblock ward 0,6
minkowski single 0,68
minkowski complete 0,7
minkowski average 0,75
minkowski weighted 0,74
minkowski centroid 0,75
minkowski median 0,74
minkowski ward 0,64
cosine single 0,49
cosine complete 0,55
cosine average 0,65
cosine weighted 0,56
cosine centroid 0,64
cosine median 0,5
cosine ward 0,55
correlation single 0,59
correlation complete 0,47
correlation average 0,66
correlation weighted 0,53
correlation centroid 0,65
correlation median 0,62
correlation ward 0,48
hamming single 0,56
156
hamming complete 0,69
hamming average 0,7973
hamming weighted 0,7906
hamming centroid -0,2757
hamming median 0,1574
hamming ward 0,2909
jaccard single 0,5581
jaccard complete 0,6883
jaccard average 0,7973
jaccard weighted 0,7906
jaccard centroid -0,2757
jaccard median 0,1574
jaccard ward 0,2909
chebychev single 0,6429
chebychev complete 0,7247
chebychev average 0,7307
chebychev weighted 0,7254
chebychev centroid 0,7307
chebychev median 0,6334
chebychev ward 0,7161
Ao analisar os dados acima, a melhor solução foi
Distância Link Cophenet
mahalanobis average 0,85
4. A tabela abaixo fornece as medidas de 5 variáveis nutricionais para 12 tipos de cereais
usados no café da manhã.
157
Cereal X1 X2 X3 X4 X5
Proteínas Carboidratos Fat Calorias Vitamina A
2. Grape nuts 3 23 0 100 25
3. Super sugar 2 26 0 110 25
4. Special K 6 21 0 110 25
5.Rice Krispies 2 25 0 110 25
6. Raisin Bran 3 28 1 120 25
7. Product 19 2 24 0 110 100
8.Wheaties 3 23 1 110 25
9. Total 3 23 1 110 100
10.Puffed Rice 2 13 0 50 0
11. Sugar Corn Po 2 26 0 110 25
12. Sugar Smacks 1 25 0 110 25
(a) Usando os dados dessa tabela, calcular as distâncias Euclidianas entre pares de cereais.
- 27,4 26,29 25,1 26,04 28,55 100,21 25,5 100,12 60,44 26,29 26,21
27,4 - 10,49 10,63 10,25 20,64 75,68 10,05 75,67 56,8 10,49 10,39
26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41
25,1 10,63 6,4 - 5,66 12,61 75,17 3,74 75,09 65,61 6,4 6,4
26,04 10,25 1 5,66 - 10,54 75,01 2,45 75,04 66,1 1 1
28,55 20,64 10,3 12,61 10,54 - 75,78 11,18 75,83 75,84 10,3 10,68
100,21 75,68 75,03 75,17 75,01 75,78 - 75,02 1,73 117,14 75,03 75,01
25,5 10,05 3,32 3,74 2,45 11,18 75,02 - 75 65,78 3,32 3
100,12 75,67 75,07 75,09 75,04 75,83 1,73 75 - 117,06 75,07 75,06
60,44 56,8 66,29 65,61 66,1 75,84 117,14 65,78 117,06 - 66,29 66,11
26,29 10,49 - 6,4 1 10,3 75,03 3,32 75,07 66,29 - 1,41
26,21 10,39 1,41 6,4 1 10,68 75,01 3 75,06 66,11 1,41 -
(b) Tratando as distâncias calculadas em (a) como medidas de similaridade, efetuar o
procedimento hierárquico do vizinho mais próximo, construindo o dendrograma cor-
respondente.
Este procedimento no matlab corresponde ao modelo ’single’, com distância ’eu-
clidean’. Este dá o seguinte dendrogram.
158
3 11 5 12 8 4 2 6 1 10 7 90
10
20
30
40
50
60
70
5. O problema a seguir envolve áreas de plantio de trigo e feijão, com os resultados de imagens
obtidas por satélite. A área de estudo compreendeu as regiões de Barretos e Guaíra,
situadas no Estado de São Paulo. A tabela a seguir mostra as variáveis e as áreas de
estudo (T = trigo e F = feijão) obtidas em 17/06/86, sendo consideradas 10 áreas para
cada cultura. As siglas de identificação das 10 variáveis e seus significados são: CTM1, ...
, CTM7 - correspondem, respectivamente, aos níveis de cinza nas bandas TM1, ... , TM7;
COB - percentagem de cobertura do solo; IAF - índice de área foliar (definido como área
total de folhas por área unitária de solo); CLT - clorofila total (quantidade de clorofila a e
b (mg/10g)).
Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT
1. T1 4.5 6.75 5.25 71 45.5 8.75 97.9 5.12 18
2. T2 8.75 9.5 11.5 43.5 53.75 14.5 52.4 1.91 15.22
3. T7 5.75 8.25 8.5 51.25 42 9.5 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
5. T15 5.5 6.5 5 73.25 40.5 6.5 96.5 6.68 17.9
6. T22 9.5 12 28.5 31.5 61.75 31.25 11.1 0.27 12.73
7. T26 9 10.25 9.25 61.75 48 10 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82 44.5 6.75 96.7 5.36 17.32
9. T33 6.25 6.5 5.25 80.25 46.75 6.75 96 6.55 15.09
159
10. T43 8.5 10 8.25 74.75 55.5 10.5 97.9 2.05 16.28
11.F3A 9 11.5 20.5 43.75 58 22.25 19.7 0.81 10.25
12.F9 5.75 7 11 28.25 31 9 14.3 0.62 12.35
13.F10 6.25 7.5 17.5 22 31 13.5 4.2 0.15 8.26
14.F17 7 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
15.F18 8.25 10.5 9 83 60 11.75 85.8 6.64 11.39
16.F36 6.75 8.25 8 59 46.75 9.75 45.5 2.2 12.29
17.F6A 8 10 11 49.25 48 14 16.9 1.17 13.27
18.F40 6.75 8 10.75 43.75 42 10 38.1 1.58 14.4
19.F41 7.75 10.25 15.5 45.25 58.75 20.5 29.2 0.74 15.62
20.F42 8.25 11 16.75 31.25 46.75 18.25 21.5 9.63 10.37
Agrupar as áreas de plantio em 2 grupos, utilizando as distâncias estudadas e as diferentes
ligações, calculando o coeficiente cofenético. Construir também o dendrograma e discutir
os resultados.
Euclidiana
Mahalanobis
160
Cityblock
Minkosk
161
Cosseno
Correlação
162
Hamming
Jaccard
163
Chebychev
Quadrado euclideana
164
Distância Link Cophenet
chebychev average 0,8575
chebychev centroid 0,8569
chebychev median 0,8561
chebychev weighted 0,8549
chebychev ward 0,8544
chebychev complete 0,8542
chebychev single 0,853
euclidean average 0,8349
minkowski average 0,8349
euclidean weighted 0,8347
minkowski weighted 0,8347
euclidean median 0,8341
minkowski median 0,8341
euclidean centroid 0,8337
minkowski centroid 0,8337
euclidean single 0,83
minkowski single 0,83
euclidean complete 0,8295
165
minkowski complete 0,8295
euclidean ward 0,8288
minkowski ward 0,8288
seuclidean centroid 0,7823
seuclidean average 0,7737
cityblock average 0,7684
seuclidean weighted 0,767
cityblock centroid 0,7668
seuclidean complete 0,7581
correlation average 0,7578
correlation centroid 0,7577
correlation weighted 0,7575
correlation median 0,7575
cityblock ward 0,7571
correlation complete 0,7565
correlation ward 0,7551
cosine average 0,7356
cosine centroid 0,7355
cosine weighted 0,7354
cosine median 0,7353
cosine complete 0,7349
cosine ward 0,734
correlation single 0,7317
seuclidean median 0,7288
cityblock weighted 0,7275
cityblock median 0,726
cityblock complete 0,7168
mahalanobis average 0,7059
cosine single 0,704
mahalanobis weighted 0,6818
cityblock single 0,6781
hamming average 0,6656
166
jaccard average 0,6656
seuclidean ward 0,6648
mahalanobis centroid 0,6543
hamming weighted 0,6538
jaccard weighted 0,6538
mahalanobis median 0,6139
hamming ward 0,6067
jaccard ward 0,6067
mahalanobis complete 0,5812
hamming complete 0,5791
jaccard complete 0,5791
seuclidean single 0,5639
mahalanobis single 0,5571
mahalanobis ward 0,4771
hamming median 0,1378
jaccard median 0,1378
hamming single 0,1357
jaccard single 0,1357
hamming centroid -0,3076
jaccard centroid -0,3076
As distância que sugerem uma boa classificação são a de chebychev, euclideana e minkowski.
Todas elas, possuem o agrupamento similar ao dendrograma abaixo (chebychev, average).
167
Grupo Áreas CTM1 CTM2 CTM3 CTM4 CTM5 CTM7 COB IAF CLT
1 1. T1 4.50 6.75 5.25 71.00 45.50 8.75 97.9 5.12 18.00
5. T15 5.50 6.50 5.0 73.25 40.50 6.50 96.5 6.68 17.90
7. T26 9.00 10.25 9.25 61.75 48.00 10.00 90.2 3.71 14.82
8. T28 6.75 7.75 6.25 82.00 44.50 6.75 96.7 5.36 17.32
9. T33 6.25 6.50 5.25 80.25 46.75 6.75 96.0 6.55 15.09
10. T43 8.50 10.00 8.25 74.75 55.50 10.50 97.9 2.05 16.28
15.F18 8.25 10.50 9.0 83.00 60.00 11.75 85.8 6.64 11.39
2 2. T2 8.75 9.50 11.50 43.50 53.75 14.50 52.4 1.91 15.22
3. T7 5.75 8.25 8.50 51.25 42.00 9.50 50.6 2.74 15.61
4. T14 7.75 9.75 11.75 50.25 41.25 10.25 49.3 0.89 14.44
6. T22 9.50 12.00 28.50 31.50 61.75 31.25 11.1 0.27 12.73
11.F3A 9.00 11.50 20.50 43.75 58.00 22.25 19.7 0.81 10.25
12.F9 5.75 7.00 11.0 28.25 31.00 9.00 14.3 0.62 12.35
13.F10 6.25 7.50 17.5 22.00 31.00 13.50 4.2 0.15 8.26
14.F17 7.00 9.75 9.75 61.25 53.75 11.75 55.3 1.96 14.36
16.F36 6.75 8.25 8.0 59.00 46.75 9.75 45.5 2.20 12.29
17.F6A 8.00 10.00 11.0 49.25 48.00 14.00 16.9 1.17 13.27
18.F40 6.75 8.00 10.75 43.75 42.00 10.00 38.1 1.58 14.40
19.F41 7.75 10.25 15.50 45.25 58.75 20.50 29.2 0.74 15.62
20.F42 8.25 11.00 16.75 31.25 46.75 18.25 21.5 9.63 10.37
168
9 Lista 9: Análise de Correlação Canônica
1. (Variáveis solo e vegetação em Belize) Para uma exemplo com um grande número de da-
dos, considere parte dos dados coletados por Green (1973) para um estudo dos fatores
influenciando a locação de lugares de habitação Maya pré-históricos no distrito de Corozal
em Belize na América Central. A Tabela seguinte mostra quatro variáveis do solo e qua-
tro variáveis da vegetação registradas para quadrados de 2,5 x 2,5 km. Use a análise de
correlação canônica para estudar o relacionamento entre estes dois grupos de variáveis.
Quadrado Variáveis de Solo Variáveis de Vegetação
X1 X2 X3 X4 Y1 Y2 Y3 Y4
1 40 30 0 30 0 25 0 0
2 20 0 0 10 10 90 0 0
3 5 0 0 50 20 50 0 0
4 30 0 0 30 0 60 0 0
5 40 20 0 20 0 95 0 0
6 60 0 0 5 0 100 0 0
7 90 0 0 10 0 100 0 0
8 100 0 0 0 20 80 0 0
9 0 0 0 10 40 60 0 0
10 15 0 0 20 25 10 0 0
11 20 0 0 10 5 50 0 0
12 0 0 0 50 5 60 0 0
13 10 0 0 30 30 60 0 0
14 40 0 0 20 50 10 0 0
15 10 0 0 40 80 20 0 0
16 60 0 0 0 100 0 0 0
17 45 0 0 0 5 60 0 0
18 100 0 0 0 100 0 0 0
19 20 0 0 0 20 0 0 0
20 0 0 0 60 0 50 0 0
21 0 0 0 80 0 75 0 0
22 0 0 0 50 0 50 0 0
23 30 10 0 60 0 100 0 0
24 0 0 0 50 0 50 0 0
169
25 50 20 0 30 0 100 0 0
26 5 15 0 80 0 100 0 0
27 60 40 0 0 10 90 0 0
28 60 40 0 0 50 50 0 0
29 94 5 0 0 90 10 0 0
30 80 0 0 20 0 100 0 0
31 50 50 0 0 25 75 0 0
32 10 40 50 0 75 25 0 0
33 12 12 75 0 10 90 0 0
34 50 50 0 0 15 85 0 0
35 50 40 10 0 80 20 0 0
36 0 0 100 0 100 0 0 0
37 0 0 100 0 100 0 0 0
38 70 30 0 0 50 50 0 0
39 40 40 20 0 50 50 0 0
40 0 0 100 0 100 0 0 0
41 25 25 50 0 100 0 0 0
42 40 40 0 20 80 20 0 0
43 90 0 0 10 100 0 0 0
44 100 0 0 0 100 0 0 0
45 100 0 0 0 90 10 0 0
46 10 0 0 90 100 0 0 0
47 80 0 0 20 100 0 0 0
48 60 0 0 30 80 0 0 0
49 40 0 0 0 0 30 0 0
50 50 0 0 50 100 0 0 0
51 50 0 0 0 40 0 0 0
52 30 30 0 20 30 60 0 0
53 20 20 0 40 0 100 0 0
54 20 80 0 0 0 100 0 0
55 0 10 0 60 0 75 0 0
56 0 50 0 30 0 75 0 0
57 50 50 0 0 30 70 0 0
170
58 0 0 0 60 0 60 0 0
59 20 20 0 60 0 100 0 0
60 90 10 0 0 70 30 0 0
61 100 0 0 0 100 0 0 0
62 15 15 0 30 0 40 0 0
63 100 0 0 0 25 75 0 0
64 95 0 0 5 90 10 0 0
65 95 0 0 5 90 10 0 0
66 60 40 0 0 50 50 0 0
67 30 60 10 10 50 10 0 0
68 50 0 50 50 100 0 0 0
69 60 30 0 10 69 40 0 0
70 90 8 0 2 80 20 0 0
71 30 30 30 40 60 40 0 0
72 33 33 33 33 75 25 0 0
73 20 10 0 40 0 100 0 0
74 50 0 0 50 40 60 0 0
75 75 12 0 12 50 50 0 0
76 75 0 0 25 40 60 0 0
77 30 0 0 50 0 100 0 0
78 50 10 0 30 5 95 0 0
79 100 0 0 0 60 40 0 0
80 50 0 0 50 20 80 0 0
81 10 0 0 90 0 100 0 0
82 30 30 0 20 0 85 0 0
83 20 20 0 20 0 75 0 0
84 90 0 0 0 50 25 0 0
85 30 0 0 0 30 5 0 0
86 20 30 0 50 20 80 0 0
87 50 30 0 10 50 50 0 0
88 80 0 0 0 70 10 0 0
89 80 0 0 0 50 0 0 0
90 60 10 0 25 80 15 0 0
171
91 50 0 0 0 75 0 0 0
92 70 0 0 0 75 0 0 0
93 100 0 0 0 85 15 0 0
94 60 30 0 0 40 60 0 0
95 80 20 0 0 50 50 0 0
96 100 0 0 0 100 0 0 0
97 100 0 0 0 95 5 0 0
98 0 0 0 60 0 50 0 0
99 30 20 0 30 0 60 0 40
100 15 0 0 35 20 30 0 0
101 40 0 0 45 70 20 0 0
102 30 0 0 45 20 40 0 20
103 60 10 0 30 10 65 5 20
104 40 20 0 40 0 25 0 75
105 100 0 0 0 70 0 0 30
196 100 0 0 0 40 60 0 0
107 80 10 0 10 40 60 0 0
108 90 0 0 10 10 0 0 90
109 100 0 0 0 20 10 0 70
110 30 50 0 20 10 90 0 0
111 60 40 0 0 50 50 0 0
112 100 0 0 0 80 10 0 10
113 60 0 0 40 60 10 30 0
114 50 50 0 0 0 100 0 0
115 60 30 0 10 25 75 0 0
116 40 0 0 60 30 20 50 0
117 30 0 0 70 0 50 50 0
118 50 20 0 30 0 100 0 0
119 50 50 0 0 25 75 0 0
120 90 10 0 0 50 50 0 0
121 100 0 0 0 60 40 0 0
122 50 0 0 50 70 30 0 0
123 10 10 0 80 0 100 0 0
172
124 50 50 0 0 30 70 0 0
125 75 0 0 25 80 20 0 0
126 40 0 0 60 0 100 0 0
127 90 10 0 10 75 25 0 0
128 45 45 0 55 30 70 0 0
129 20 35 0 80 10 90 0 0
130 80 0 0 20 70 30 0 0
131 100 0 0 0 90 0 0 0
132 75 0 0 25 50 50 0 0
133 60 5 0 40 50 50 0 0
134 40 0 0 60 60 40 0 0
135 60 0 0 40 70 15 0 0
136 90 10 0 10 75 25 0 0
137 50 0 5 0 30 20 0 0
138 70 0 30 0 70 30 0 0
119 60 0 40 0 100 0 0 0
140 50 0 0 0 50 0 0 0
141 30 0 50 0 60 40 0 0
142 5 0 95 0 80 20 0 0
143 10 0 90 0 70 30 0 0
144 50 0 0 0 15 30 0 0
145 20 0 80 0 50 50 0 0
146 0 0 100 0 90 10 0 0
147 0 0 100 0 75 25 0 0
148 90 0 10 0 60 30 10 0
149 0 0 100 0 80 10 10 0
150 0 0 100 0 60 40 0 0
151 0 40 60 40 50 50 0 0
Nota: X1 = % de solo com enriquecimento constante de calário; X2 = % de solo de prado
com cálcio na água subterrânea; X3 = % de solo com matriz de coral sob condições de
enriquecimento constante de calcário; X4 = % de solo aluvial e orgânico adjacentes a rios
e solo orgânico salino na costa; Y1 = % de floresta decídua estacional com ervas de folhas
173
largas; Y2 = % de floresta de locais altos e baixos coberta com água, plantas herbáceas em
lugares úmidos e pântanos; Y3 = % de floresta de palma de cohune; Y4 = % de floresta
mista.
>> X=[];
>> Y=[];
>> R11=corr(X)
R11 =
1.0000 -0.1433 -0.4089 -0.4692
-0.1433 1.0000 -0.0959 -0.0948
-0.4089 -0.0959 1.0000 -0.2387
-0.4692 -0.0948 -0.2387 1.0000
>> R22=corr(Y)
R22 =
1.0000 -0.7854 -0.0597 -0.1542
-0.7854 1.0000 -0.0682 -0.1366
-0.0597 -0.0682 1.0000 -0.0235
-0.1542 -0.1366 -0.0235 1.0000
>> R12=corr(X,Y)
R12 =
0.3785 -0.2693 -0.0292 0.1414
-0.2270 0.3831 -0.1045 -0.0494
0.3477 -0.2238 -0.0172 -0.0748
-0.3944 0.3475 0.2070 -0.0128
>> R21=corr(Y,X)
R21 =
0.3785 -0.2270 0.3477 -0.3944
-0.2693 0.3831 -0.2238 0.3475
-0.0292 -0.1045 -0.0172 0.2070
0.1414 -0.0494 -0.0748 -0.0128
>> R11i=inv(sqrtm(R11))
R11i =
1.3660 0.1922 0.4490 0.4905
0.1922 1.0479 0.1499 0.1574
174
0.4490 0.1499 1.2362 0.3562
0.4905 0.1574 0.3562 1.2748
>> R22i=inv(R22)
R22i =
3.3498 2.7827 0.4111 0.9062
2.7827 3.3359 0.4147 0.8944
0.4111 0.4147 1.0562 0.1449
0.9062 0.8944 0.1449 1.2653
>> Rx=R11i*R12*R22i*R21*R11i
Rx =
0.3511 0.0271 0.2734 -0.0079
0.0271 0.1835 0.0077 0.1113
0.2734 0.0077 0.2407 -0.0290
-0.0079 0.1113 -0.0290 0.1578
>> [e,l]=eig(Rx)
e =
-0.7718 -0.0395 -0.6198 0.1361
-0.0531 -0.7421 -0.0333 -0.6673
-0.6321 0.0640 0.7700 -0.0593
0.0441 -0.6660 0.1478 0.7298
l =
0.5773 0 0 0
0 0.2841 0 0
0 0 0.0147 0
0 0 0 0.0569
>> A=R11i*e
A =
-1.3267 -0.4945 -0.4349 0.3891
-0.2917 -0.8805 -0.0153 -0.5671
-1.1201 -0.2870 0.7213 0.1478
-0.5559 -0.9624 0.1534 0.8710
>> a1=R11i*e(:,1)
a1 =
175
-1.3267
-0.2917
-1.1201
-0.5559
>> a2=R11i*e(:,2)
a2 =
-0.4945
-0.8805
-0.2870
-0.9624
>> a3=R11i*e(:,3)
a3 =
-0.4349
-0.0153
0.7213
0.1534
>> a4=R11i*e(:,4)
a4 =
0.3891
-0.5671
0.1478
0.8710
>> R22i=inv(sqrtm(R22))
R22i =
1.5975 0.8473 0.1152 0.2583
0.8473 1.5939 0.1176 0.2523
0.1152 0.1176 1.0136 0.0411
0.2583 0.2523 0.0411 1.0645
>> R11i=inv(R11)
R11i =
2.3451 0.6084 1.3718 1.4856
0.6084 1.1823 0.4846 0.5133
1.3718 0.4846 1.8791 1.1382
176
1.4856 0.5133 1.1382 2.0175
>> Ry=R22i*R21*R11i*R12*R22i
Ry =
0.5463 0.0123 0.0356 0.1177
0.0123 0.2731 0.0486 0.0262
0.0356 0.0486 0.0673 0.0242
0.1177 0.0262 0.0242 0.0464
>> [f,l]=eig(Ry)
f =
0.9687 0.1071 0.1898 -0.1193
0.0717 -0.9694 0.0353 -0.2322
0.0849 -0.2079 0.2721 0.9357
0.2222 -0.0747 -0.9427 0.2374
l =
0.5773 0 0 0
0 0.2841 0 0
0 0 0.0147 0
0 0 0 0.0569
>> B=R22i*f
B =
1.6753 -0.6936 0.1209 -0.2181
1.0010 -1.4977 0.0112 -0.3012
0.2152 -0.3155 0.2631 0.9171
0.5083 -0.3050 -0.9344 0.2018
>> b1=R22i*f(:,1)
b1 =
1.6753
1.0010
0.2152
0.5083
>> b2=R22i*f(:,2)
b2 =
-0.6936
177
-1.4977
-0.3155
-0.3050
>> b3=R22i*f(:,3)
b3 =
0.1209
0.0112
0.2631
-0.9344
>> b4=R22i*f(:,4)
b4 =
-0.2181
-0.3012
0.9171
0.2018
Primeiro par de variáveis canônicas
U1 = a′1Z(1) = −1.3267Z
(1)1 − 0.2917Z
(1)2 − 1.1201Z
(1)3 − 0.5559Z
(1)4
V1 = b′1Z(2) = 1.6753Z
(2)1 + 1.0010Z
(2)2 + 0.2152Z
(2)3 + 0.5083Z
(2)4
Correlação Canônica
Corr(U1, V1) =√
(½∗1)2 =√¸1 =
√0, 5773 = 0.7598
−0, 76 representa a maior correlação possível entre Z(1) e Z(2).
Se fizermos
>> (a1’*a1)/4
ans =
0.8522
>> (b1’*b1)/4
ans =
1.0283
[(−1.3267)2 + (−0.2917)2 + (−1.1201)2 + (−0.5559)2]/4 = 0.8522
[(1.6753)2 + (1.0010)2 + (0.2152)2 + (0.5083)2]/4 = 1.0283
As variáveis do grupo 2 representam melhor o total de variáveis.
178
Correlações amostrais entre as variáveis originais e as variáveis canônicas
- U1 com X(1) =
X(1)1 −0.5661
X(1)2 0.0585
X(1)3 −0.4170
X(1)4 0.3617
>> Rux1=a1’*R11;
- U1 com X(2) =
X(2)1 −0.6063
X(2)2 0.3031
X(2)3 −0.0266
X(2)4 −0.0823
>> Rux2=a1’*R12;
- V1 com X(1) =
X(1)1 0.4301
X(1)2 −0.0444
X(1)3 0.3168
X(1)4 −0.2748
>> Rvx1=b1’*R21;
- V1 com X(2) =
X(2)1 0.7979
X(2)2 −0.3989
X(2)3 0.0349
X(2)4 0.1083
>> Rvx2=b1’*R22;
Segundo par de variáveis canônicas
U2 = a′2Z(1) = −0.4945Z
(1)1 − 0.8805Z
(1)2 − 0.2870Z
(1)3 − 0.9624Z
(1)4
V2 = b′2Z(2) = −0.6936Z
(2)1 − 1.4977Z
(2)2 − 0.3155Z
(2)3 − 0.3050Z
(2)4
Correlação Canônica
Corr(U2, V2) =√
(½∗2)2 =√¸2 =
√0, 2841 = 0.5330 O segundo par de variáveis tem uma
correlação menor do que o primeiro, e assim segue se calcularmos o terceiro e o quarto par
de variáveis.
2. Considere a matriz de covariância
179
Cov(X) =
⎡⎢⎢⎢⎣
Σ11 ∣ Σ12
−−− ∣ − −−Σ21 ∣ Σ22
⎤⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
100 0 ∣ 0 0
0 1 ∣ 0.95 0
−−− −−− ∣ − −− −−−0 0.95 ∣ 1 0
0 0 ∣ 0 100
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
Verifique que o primeiro par de variáveis canônicas são: U1 = X(1)2 , V1 = X
(2)1 com
correlação canônica ½∗1 = 0, 95.
Grupo 1:
>> S11=[100 0;0 1]
S11 =
100 0
0 1
>> S12=[0 0;0.95 0]
S12 =
0 0
0.9500 0
>> S21=S12’
S21 =
0 0.9500
0 0
>> S22=[1 0;0 100]
S22 =
1 0
0 100
>> S11i=inv(sqrtm(S11));
>> S22i=inv(S22);
>> S=S11i*S12*S22i*S21*S11i;
>> [e,l]=eig(S)
e =
1 0
0 1
l =
180
0 0
0 0.9025
>> a1=S11i*e(:,2)
a1 =
0
1
Grupo 2:
>> S22i=inv(sqrtm(S22));
>> S11i=inv(S11);
>> S=S22i*S21*S11i*S12*S22i;
>> [f,l]=eig(S)
f =
0 1
1 0
l =
0 0
0 0.9025
>> b1=S22i*f(:,2)
b1 =
1
0
Assim,
- U1 = a′1X(1) =
(0 1
)⎛⎝ X
(1)1
X(1)2
⎞⎠ = X
(1)2
- V1 = b′1X(2) =
(1 0
)⎛⎝ X
(2)1
X(2)2
⎞⎠ = X
(2)1
- Correlação Canônica
corr(U1, V1) =a′1Σ12b1√
a′1Σ11a1√b′1Σ22b1
=√
(½∗1)2 = 0, 95
3. Considere os vetores aleatórios (2× 1): X(1) e X(2) tendo vetor de médias e matriz covar-
iância conjuntas:
181
¹ =
⎡⎢⎢⎢⎣
¹(1)
−−−¹(2)
⎤⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
−3
2
−−−0
1
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
Σ =
⎡⎢⎢⎢⎣
Σ11 ∣ Σ12
−−− ∣ − −−Σ21 ∣ Σ22
⎤⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
8 2 ∣ 3 1
2 5 ∣ −1 3
−−− −−− ∣ − −− −−−3 −1 ∣ 6 −2
1 3 ∣ −2 7
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
(a) Calcule as correlações canônicas: ½∗1 e ½∗2.
Grupo 1:
>> S11=[8 2;2 5]
S11 =
8 2
2 5
>> S12=[3 1;-1 3]
S12 =
3 1
-1 3
>> S21=S12’
S21 =
3 -1
1 3
>> S22=[6 -2;-2 7]
S22 =
6 -2
-2 7
>> S11i=inv(sqrtm(S11))
S11i =
0.3667 -0.0667
-0.0667 0.4667
182
>> S22i=inv(S22)
S22i =
0.1842 0.0526
0.0526 0.1579
>> S=S11i*S12*S22i*S21*S11i
S =
0.2756 -0.0322
-0.0322 0.2690
>> [e,l]=eig(S)
e =
0.7422 0.6702
-0.6702 0.7422
l =
0.3046 0
0 0.2400
A =
0.3168 0.1962
-0.3622 0.3017
Grupo 2:
>> S22i=inv(sqrtm(S22))
S22i =
0.4243 0.0645
0.0645 0.3921
>> S11i=inv(S11)
S11i =
0.1389 -0.0556
-0.0556 0.2222
>> S=S22i*S21*S11i*S12*S22i
S =
0.2946 -0.0234
-0.0234 0.2500
>> [f,l]=eig(S)
f =
183
0.9193 0.3936
-0.3936 0.9193
l =
0.3046 0
0 0.2400
>> B=S22i*f
B =
0.3647 0.2263
-0.0951 0.3858
Correlação Canônica
corr(U1, V1) = (½∗1)12 =
√0, 3046 = 0, 5519
corr(U2, V2) = (½∗2)12 =
√0, 24 = 0, 4899
0,5519 Representa a maior correlação possível entre X(1) e X(2).
(b) Determine os pares de variáveis canônicas: (U1, V1) e (U2, V2).
U1 = 0, 3168X(1)1 − 0, 3622X
(1)2 V1 = 0, 3647X
(2)1 − 0, 0951X
(2)2
U2 = 0, 1962X(1)1 + 0, 3017X
(1)2 V2 = 0, 2263X
(2)1 + 0, 3858X
(2)2
4. Em um estudo sobre pobreza, crime e repressão. Parker e Smith determinaram certos
sumários estatísticos do crime em vários estados americanos para os anos de 1970 e 1973.
Uma parte da matriz de correlação amostral é dada abaixo. As variáveis são:
X(1)1 = homicídios não-primários em 1973;
X(1)2 = homicídios primários (envolvendo familiares ou conhecidos) em 1973;
X(2)1 = severidade da penalidade (mediana dos meses de pena) em 1970;
X(2)2 = certeza da penalidade (número de admissões à prisão dividido pelo número de
homicídios) em 1970.
R =
⎡⎢⎢⎢⎣
R11 ∣ R12
−−− ∣ − −−R21 ∣ R22
⎤⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
1.0 0.615 ∣ −0.111 −0.266
0.615 1.0 ∣ −0.195 −0.085
−−− −−− ∣ − −− −−−−0.111 −0.195 ∣ 1.0 −0.269
−0.266 −0.085 ∣ −0.269 1.0
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
(a) Calcule as correlações canônicas amostrais.
184
Primeiro Grupo
>> R11=[1 0.615; 0.615 1];
>> R12=[-0.111 -0.266;-0.195 -0.085];
>> R22=[1 -0.269;-0.269 1];
>> R21=R12’;
>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.9463 -0.3232
0.3232 0.9463
l =
0.1067 0
0 0.0293
>> a1=R11i*e(:,1)
a1 =
1.0016
-0.0026
>> A=R11i*e
A =
1.0016 -0.7779
-0.0026 1.2682
Segundo Grupo
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.8861 0.4634
0.4634 0.8861
l =
185
0.0293 0
0 0.1067
>> b1=R22i*f(:,2)
b1 =
0.6016
0.9769
>> B=R22i*f
B =
-0.8462 0.6016
0.3518 0.9769
U1 = 1.0016Z(1)1 − 0.0026Z
(1)2
V1 = 0.6016Z(2)1 + 0.9769Z
(2)2
U2 = −0.7779Z(1)1 + 1.2682Z
(1)2
V2 = −0.8462Z(2)1 + 0.3518Z
(2)2
variáveis padronizadas variáveis padronizadas
z(1)1 z
(1)2 ½∗i z
(2)1 z
(2)2
a1 1.0016 -0.7779 0.3266 b1 -0.8462 0.6016
a2 -0.0026 1.2682 0.1712 b2 0.3518 0.9769
(b) Determine o primeiro par de correlação canônica amostral U1, V1 e interprete essas
quantidades.
U1 = 1.0016X(1)1 − 0.0026X
(1)2
V1 = 0.6016X(2)1 + 0.9769X
(2)2
>> Rux1=a1’*R11
Rux1 =
1.0000 0.6134
>> Rvx2=b1’*R22
Rvx2 =
0.3388 0.8150
>> Rux2=a1’*R12
Rux2 =
-0.1107 -0.2662
>> Rvx1=b1’*R21
186
Rvx1 =
-0.3266 -0.2003
X(1) variáveis canônicas X(2) variáveis canônicas
U1 V1 U1 V1
hom. não-primários 1.0000 -0.1107 sever. pen. -0.3266 0.3388
hom. primários 0.6134 -0.2662 cert. da pen. -0.2003 0.8150O valor da correlação entre U1 e V1 é baixo, pode-se inferir com isso que não é pos-
sível, através de uma combinação linear de X(1) com outra combinação linear de
X(2), identificar uma relação ou influência ou associação entre estes conjuntos de var-
iáveis. Pode-se dizer que a certeza de penalidade faz com que o número de homicídios
primários seja menor do que o número de homicídios não primários. Este, por sua
vez, aumenta quando a severidade da pena cai.
5. Uma pesquisa envolvendo uma amostra de n = 70 famílias foi utilizada para determinar a
associação entre certas variáveis “demográficas” e certas variáveis “consumo”. Sejam:
- Conjunto padrão: X(1)1 = freqüência anual de refeições em restaurantes; X(1)
2 = fre-
qüência anual de ida ao cinema.
- Conjunto preditor: X(2)1 = idade do cabeça da família; X(2)
2 = renda anual da família;
X(2)3 = nível educacional do cabeça da família.
Suponha que a amostra forneceu para as variáveis consideradas a seguinte matriz de cor-
relação amostral:
R =
⎡⎢⎢⎢⎣
R11 ∣ R12
−−− ∣ − −−R21 ∣ R22
⎤⎥⎥⎥⎦ =
⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
1.0 ∣0.80 1.0 ∣− − − −−− ∣ − −− −−− −−−0.26 0.33 ∣ 1.0
0.67 0.59 ∣ 0.37 1.0
0.34 0.34 ∣ 0.21 0.35 1.0
⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
(a) Determine as correlações canônicas amostrais.
>> R11=[1 0.8;0.8 1];
>> R21=[0.26 0.33;0.67 0.59;0.34 0.34];
>> R12=R21’;
187
>> R22=[1 0.37 0.21;0.37 1 0.35; 0.21 0.35 1];
>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.5872 -0.8094
-0.8094 -0.5872
l =
0.0349 0
0 0.4733
>> a1=R11i*e(:,2)
a1 =
-0.7689
-0.2721
>> A=R11i*e
A =
1.4787 -0.7689
-1.6443 -0.2721
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.2288 -0.9001 -0.3708
-0.9105 0.3326 -0.2456
-0.3444 -0.2814 0.8956
l =
0.4733 0 0
0 0.0349 0
0 0 -0.0000
>> B=R22i*f
B =
188
-0.0491 -1.0003 -0.4070
-0.8975 0.5837 -0.3561
-0.1900 -0.2956 1.0129
>> b1=R22i*f(:,1)
b1 =
-0.0491
-0.8975
-0.1900
>> C1=sqrt(0.4733)
C1 =
0.6880
>> C2=sqrt(0.0349)
C2 =
0.1868
Logo, as correlações canônicas são:
- corr(U1, V1) = 0, 688
- corr(U2, V2) = 0, 1868
(b) Calcule as variáveis canônicas e procure interpretá-las.
- U1 = −0.8094Z(1)1 − 0.5872Z
(1)2 e V1 = −0.2288Z
(2)1 − 0.9105Z
(2)2 − 0.3444Z
(2)3
- U2 = 0.5872Z(1)1 − 0.8094Z
(1)2 e V2 = −0.9001Z
(2)1 + 0.3326Z
(2)2 − 0.2814Z
(2)3
Correlações entre as variáveis canônicas e as variáveis amostrais
- U1 com X(1) =X
(1)1 −0.9866
X(1)2 −0.8872
>> Rux1=a1’*R11;
- U1 com X(2) =
X(2)1 −0.2897
X(2)2 −0.6757
X(2)3 −0.3539
>> Rux2=a1’*R12;
- V1 com X(1) =X
(1)1 −0.6787
X(1)2 −0.6104
>> Rvx1=b1’*R21;
- V1 com X(2) =
X(2)1 −0.4211
X(2)2 −0.9822
X(2)3 −0.5145
189
>> Rvx2=b1’*R22;
O grupo 1 tem uma boa correlação com o grupo 2 de quase 70%. O grupo 2 recebe
influência das variáveis do grupo 1 (X(1)1 e X(2)
1 ), ou seja, idade, renda familiar e nível
educacional demonstram quem são os frequentadores de cinemas e restaurantes, en-
quanto no grupo 1, recebe uma influência grande da variávelX(2)2 , ou seja, a frequência
em restaurantes e idas ao cinema crescem quando cresce a renda familiar.
6. Uma amostra das medidas do comprimento e da largura da cabeça dos dois primeiros filhos
adultos de uma amostra de 25 famílias são fornecidos abaixo (Data from Frets, 1921):
Identificação Primeiro Filho Segundo Filho
X(1)1 X
(1)2 X
(2)1 X
(2)2
1 191 155 179 145
2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147
190
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150
Onde:
X(1)1 = comprimento da cabeça (primeiro filho)
X(1)2 = largura da cabeça (primeiro filho)
X(2)1 = comprimento da cabeça (segundo filho)
X(2)2 = largura da cabeça (segundo filho)
(a) Determinar a matriz de correlação amostral.
>> X=[];
>> Y=[];
>> R11=corr(X)
R11 =
1.0000 0.7346
0.7346 1.0000
>> R22=corr(Y)
R22 =
1.0000 0.8393
0.8393 1.0000
>> R12=corr(X,Y)
R12 =
0.7108 0.7040
0.6932 0.7086
>> R21=corr(Y,X)
R21 =
0.7108 0.6932
0.7040 0.7086
191
R =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1.0000 0.7346... 0.7108 0.7040
0.7346 1.0000... 0.6932 0.7086
. . . . . . . . . . . . . . .
0.7108 0.6932... 1.0000 0.8393
0.7040 0.7086... 0.8393 1.0000
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
(b) Calcule as correlações canônicas amostrais.
>> R11i=inv(sqrtm(R11));
>> R22i=inv(R22);
>> Rx=R11i*R12*R22i*R21*R11i;
>> [e,l]=eig(Rx)
e =
0.7150 -0.6992
0.6992 0.7150
l =
0.6217 0
0 0.0029
>> a1=R11i*e(:,1)
a1 =
0.5522
0.5215
>> A=R11i*e
A =
0.5522 -1.3664
0.5215 1.3784
>> R22i=inv(sqrtm(R22));
>> R11i=inv(R11);
>> Ry=R22i*R21*R11i*R12*R22i;
>> [f,l]=eig(Ry)
f =
-0.7139 -0.7003
0.7003 -0.7139
l =
192
0.0029 0
0 0.6217
>> b1=R22i*f(:,2)
b1 =
-0.5044
-0.5383
>> B=R22i*f
B =
-1.7686 -0.5044
1.7586 -0.5383
Assim, tem-se que
- corr(U1, V1) = 0.7885
- corr(U2, V2) = 0.0539
(c) Calcule as variáveis canônicas amostrais e procure interpretá-las.
- U1 = 0.5522Z(1)1 + 0.5215Z
(1)2 e V1 = −0.5044Z
(2)1 − 0.5383Z
(2)2
- U2 = −1.3664Z(1)1 + 1.3784Z
(1)2 e V2 = −1.7686Z
(2)1 + 1.7586Z
(2)2
>> Rux1=a1’*R11
Rux1 =
0.9353 0.9272
>> Rvx2=b1’*R22
Rvx2 =
-0.9562 -0.9616
>> Rux2=a1’*R12
Rux2 =
0.7540 0.7583
>> Rvx1=b1’*R21
Rvx1 =
-0.7375 -0.7311
Correlações entre as variáveis canônicas e as variáveis originais
- U1 com X(1) =X
(1)1 0.9353
X(1)2 0.9272
193
- U1 com X(2) =X
(2)1 0.7540
X(2)2 0.7583
- V1 com X(1) =X
(1)1 −0.7375
X(1)2 −0.7311
- V1 com X(2) =X
(2)1 −0.9562
X(2)2 −0.9616
O primeiro par de variáveis canônicas tem uma alta correlação de quase 79%. As
variáveis do grupo 1 tem uma excelente correlação com U1 e o mesmo ocorre com as
variáveis do grupo 2 (correlação alta com V1). As cabeças dos irmãos mais velhos com
seus respectivos irmãos mais novos são bem correlacionadas, o que indica a cabeça de
irmãos serão sempre parecidas em relação ao comprimento e largura.
194
Top Related