Sumário
i
Aula 1
Introdução
A Análise Multivariada é um conjunto de métodos estatísticos utilizados em situações nas quais várias
variáveis são medidas simultaneamente, em cada elemento amostral. Em geral, as variáveis são correlaciona-
das entre si, e quanto maior o número, mais complexa torna-se a análise por métodos comuns de estatística
univariada. A escolha dos métodos e o tipo de análise a ser processado são muitas vezes determinados pelos
objetivos do estudo empreendido pelo pesquisador. A seguir listamos alguns objetivos da pesquisa científica
que podem levar ao uso da análise multivariada:
1. Redução dos dados ou simplificação de sua estrutura: propiciar mais fácil interpretação dos dados;
2. Partição ou agrupamento: identificar grupos de unidades similares ou de grupos de variáveis similares,
estabelecer regras para classificar unidades em grupos bem definidos;
3. Análise de dependência entre variáveis: Verificar se uma ou mais variáveis dependem(e como) de ou-
tras;
4. Predição: relações entre variáveis podem ser determinadas com o propósito de predizer valores de uma
ou mais variáveis com base na observação de outras;
5. Construção de hipóteses e testes: para reforçar convicções preliminares ou para validar hipóteses ini-
ciais.
A seguir são apresentados alguns exemplos de aplicação da Análise Multivariada.
Construção de Índices. Em muitas situações, coletam-se um conjunto de variáveis que descrevem um fenô-
meno, com o intuito de construir algum índice relativo a sua quantificação. A função básica do índice
é a de sintetizar em uma única variável a informação de todas as variáveis que foram medidas sobre o
fenômeno, sendo que seus valores podem ser analisados por métodos da Estatística Univariada. Técni-
cas como Análise de Componentes Principais, Análise Fatorial e Análise de correlações Canônicas são
1
2 AULA 1. INTRODUÇÃO
úteis na construção desses índices. Alguns exemplos de índices são: índice de inflação(por ex.: IGP-M
e IPCA), de desemprego, de qualidade de vida, risco Brasil(por ex.: EMBI+ Brasil, calculado pelo Banco
JP Morgan Chase). Muitos outros exemplos aparecem em pesquisa de mercado, veja ?, em ergonomia
?.
Classificação e discriminação. Muitas são as situações nas quais se tem um conjunto de dados e se busca
uma divisão desses dados em grupos, de modo que dentro dos grupos os elementos sejam os mais
homogêneos possíveis e entre os grupos os elementos sejam os mais heterogêneos possíveis. O exemplo
mais comum é o da amostragem aleatória estratificada, veja ?. A técnica de análise de agrupamento ou
"‘cluster"’ constitui uma ferramenta indispensável neste processo de partição dos dados em grupos.
Aula 2
Vetores aleatórios
Um vetor aleatório é um vetor cujos elementos são variáveis aleatórias. Similarmente, uma matriz alea-
tória é uma matriz cujos elementos são variáveis aleatórias. Os vetores aleatórios são também chamados de
variáveis aleatórias multidimensionais.
O valor esperado de uma matriz aleatória é uma matriz consistindo dos valores esperados de cada um de
seus elementos. Seja Xe
uma matriz aleatória p ×n ,
Xe
=
X11 X12 . . . X1n
X21 X22 . . . X2n
. . . . . . . . . . . . . . . . . . . .
Xp 1 Xp 2 . . . Xp n
então
E�
Xe
�
=
E (X11) E (X12) . . . E (X1n )
E (X21) E (X22) . . . E (X2n )
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
E (Xp 1) E (Xp 2) . . . E (Xp n )
se existirem os valores esperados E (X i j ). Se Xe
e Ye
são matrizes aleatórias com mesma dimensão e Ae
e Be
são
matrizes constantes adequadas então
E�
Xe
+Ye
�
= E�
Xe
�
+E�
Ye
�
E�
Ae
Xe
Be
�
= Ae
E�
Xe
�
Be
3
4 AULA 2. VETORES ALEATÓRIOS
2.1 Vetor de médias e matriz de covariância
Seja Xe
um vetor aleatório p × 1, com E (X i ) = µi , i = 1, . . . , p , Cov (X i , X j ) = E�
(X i −µi )(X j −µj )�
= σi j ,
i , j = 1, . . . , p , então
E�
Xe
�
=µe
=
µ1
µ2
...
µp
e
Cov�
Xe
�
= Eh
�
Xe
−µe
��
Xe
−µe
�ti
=Σe
=
σ11 σ12 . . . σ1p
σ21 σ22 . . . σ2p
. . . . . . . . . . . . . . . . . . . .
σp 1 σp 2 . . . σp p
Note que, σi j = σj i portanto a matriz é simétrica e que para i = j σi i = σ2i . Além disso, a matriz de covari-
âncias é não negativa definida(n.n.d), isto é, ae
tΣe
ae
≥ 0 para todo vetor de constantes ae
p×1 ∈Rp (Ex.: verificar!)
ae
p×1. Esta condição implica que os autovalores da matriz de covariâncias Σe
p×p denotados por λ1, . . . ,λp , são
negativos, isto é, λi ≥ 0, para todo i = 1, . . . , p (Ex.: verificar!). Algumas matrizes de covariâncias são positivas
definidas(p.d), isto é, ae
tΣe
ae
> 0 para todo vetor de constantes ae
p×1 ∈Rp , em que ae
é não nulo. Neste caso, os
autovalores da matriz de covariâncias Σe
p×p são todos positivos , isto é, λi > 0, para todo i = 1, . . . , p e portanto
a matriz Σe
p×p terá sua inversa denotado por Σe
−1p×p . Conseqüentemente, tem-se que
Σe
−1p×pΣe
p×p = Ie
p×p
em que Ie
p×p é a matriz identidade.
Observação 2.1. A condição para que a matriz Σe
p×p seja positiva definida implica que a variância de combi-
nações lineares construídas com componentes do vetor Xe
p×1 é sempre não negativa.
2.2 Matriz de correlação
Uma medida de associação linear entre X i e X j é dada pelo coeficiente de correlação linear,
ρi j =σi j
pσi iσj j
.
2.3. MATRIZ DE COVARIÂNCIA PARTICIONADA 5
A matriz de correlação,
ρe
=
1 ρ12 . . . ρ1p
ρ21 1 . . . ρ2p
. . . . . . . . . . . . . . . . . . . .
ρp 1 ρp 2 . . . 1
pode ser obtida por,
ρe
=Ve
− 12Σe
Ve
− 12 .
Daí segue que,
Σe
=Ve
12ρe
Ve
12 .
em que,
Ve
12 =
pσ11 0 . . . 0
0pσ22 . . . 0
. . . . . . . . . . . . . . . . . . . . . . . . . .
0 0 . . .pσp p
.
é a matriz de desvios padrão.
2.3 Matriz de covariância particionada
Freqüentemente as características observadas num experimento podem ser classificados em dois gru-
pos. Por exemplo, em observando-se estudantes, as variáveis sócio econômicas podem formar um grupo,
enquanto que o desempenho escolar é composto por outro grupo de variáveis. Em geral, particionado o vetor
Xe
em dois grupos de variáveis, digamos Xe
(1)q×1 e X
e
(2)(p−q )×1, obtém-se
E�
Xe
�
=
E�
Xe
(1)q×1
�
— — — —
E�
Xe
(2)(p−q )×1
�
=
µe
(1)
— — —
µe
(2)
e
Cov�
Xe
�
= Eh
�
Xe
−µe
��
Xe
−µe
�ti
=Σe
6 AULA 2. VETORES ALEATÓRIOS
Cov�
Xe
�
=Cov
Xe
(1)
— — — —
Xe
(2)
= E
Xe
(1)q×1−µ
e
(1)
— — — —
Xe
(2)(p−q )×1−µ
e
(2)
Xe
(1)q×1−µ
e
(1)
— — — —
Xe
(2)(p−q )×1−µ
e
(2)
t
= E
�
Xe
(1)q×1−µ
e
(1)��
Xe
(1)q×1−µ
e
(1)�t �
Xe
(1)q×1−µ
e
(1)��
Xe
(2)(p−q )×1−µ
e
(2)�t
�
Xe
(2)(p−q )×1−µ
e
(2)��
Xe
(1)q×1−µ
e
(1)�t �
Xe
(2)(p−q )×1−µ
e
(2)��
Xe
(2)(p−q )×1−µ
e
(2)�t
=
E�
�
Xe
(1)q×1−µ
e
(1)��
Xe
(1)q×1−µ
e
(1)�t �
E�
�
Xe
(1)q×1−µ
e
(1)��
Xe
(2)(p−q )×1−µ
e
(2)�t �
E�
�
Xe
(2)(p−q )×1−µ
e
(2)��
Xe
(1)q×1−µ
e
(1)�t �
E�
�
Xe
(2)(p−q )×1−µ
e
(2)��
Xe
(2)(p−q )×1−µ
e
(2)�t �
=
Σe
11 | Σe
12
— — — —
Σe
21 | Σe
22
Aula 3
Teorema da decomposição Espectral
Este teorema é de fundamental importância em estatística multivariada. Ele relaciona uma matriz si-
métrica com seus autovalores e autovetores. Como, Σe
será sempre uma matriz simétrica, apresentaremos o
teorema para o caso particular em que temos uma matriz de covariâncias.
Teorema 3.1. Seja Σe
p×p uma matriz de covariâncias. Então, Σe
pode ser expresso em termos do seus p pares de
autovalores-autovetores (λi , ee
i ) como,
Σe
=p∑
i=1
λi ee
i ee
ti .
Isto implica que,
(i)�
�Σe
�
�=∏p
i=1λi ;
(ii) t r�
Σe
�
=∑p
i=1λi .
Exemplo 3.1. Considere a seguinte matriz,
Σe
=
8 −2
−2 5
.
Então, os autovalores desta matriz são dados por:
�
�
�Σe
2×2−λIe
2×2
�
�
�=
�
�
�
�
�
�
8 −2
−2 5
−λ
1 0
0 1
�
�
�
�
�
�
=
�
�
�
�
�
�
8−λ −2
−2 5−λ
�
�
�
�
�
�
= 0
assim,
(8−λ)(5−λ)−4= 0,
logo, λ1 = 9 e λ2 = 4. Os autovetores correspondentes são dados por,
Σe
ve
1 =λ1ve
1.
7
8 AULA 3. TEOREMA DA DECOMPOSIÇÃO ESPECTRAL
Assim,
8 −2
−2 5
v11
v12
= 9
v11
v12
e
8v11−2v12
−2v11+5v12
=
9v11
9v12
⇒
−v11−2v12 = 0
−2v11−4v12 = 0⇒ v11 =−2v12
Uma solução possível é,
ve
1 =
−2
1
assim,
ve
1
=p
ve
t1ve
1 =p
(−2)2+(1)2 =p
5
Portanto, o autovetor ee
1 correspondente a λ1 é,
ee
1 =
−2p5
1p5
Para λ2 = 4 tem-se que,
Σe
ve
2 =λ2ve
2.
Assim,
8 −2
−2 5
v21
v22
= 4
v21
v22
e
8v21−2v22
−2v21+5v22
=
4v21
4v22
⇒
4v21−2v22 = 0
−2v21+v22 = 0⇒ 2v21 = v22
Uma solução possível é,
ve
2 =
1
2
assim,
ve
2
=p
12+22 =p
5
Portanto, o autovetor ee
2 correspondente a λ2 é,
ee
2 =
1p5
2p5
Agora note que,
3.1. DERIVADAS DE MATRIZES E VETORES 9
1. ee
t1ee
1 = ee
t2ee
2 = 1;
2. ee
t1ee
2 = ee
t2ee
1 = 0;
3.
2∑
i=1
λi ee
i ee
ti = 9
−2p5
1p5
�
−2p5
1p5
�
+4
1p5
2p5
�
1p5
2p5
�
= 9
45
−25
−25
15
+4
15
25
25
45
=
8 −2
−2 5
=Σe
4. A variância generalizada é dada por: λ1×λ2 = 9×4= 36=�
�Σe
�
�;
5. A variância total é dada por: λ1+λ2 = 9+4= 13= t r�
Σe
�
.
6. A inversa de Σe
é dada por,
Σe
−1 =2∑
i=1
1
λiee
i ee
ti
=1
9
45
−25
−25
15
+
1
4
15
25
25
45
=
536
236
236
836
3.1 Derivadas de matrizes e Vetores
As derivadas de funções envolvendo vetores e matrizes são necessárias em inúmeras aplicações na mul-
tivariada e em outras áreas. Apesar de ser possível escrever essas mesmas funções em uma forma expandida
e tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é vantajoso definir regras
que retenham vetores e matrizes na notação (Bock, 1975). A seguir são apresentadas as principais regras de
diferenciação vetorial e matricial.
3.2 Derivadas de matrizes de funções em relação a variáveis escalares
Seja Ae(m×n )
uma matriz m×n cujos elementos são funções diferenciáveis com relação a uma variável escalar
X . A derivada de Ae
em relação a X é uma matriz m ×n :
∂ Ae
∂ X=
∂ a 11
∂ X. . . ∂ a 1n
∂ X
. . . . . . . . . . . . . . . .
∂ a m 1
∂ X. . . ∂ a m n
∂ X
10 AULA 3. TEOREMA DA DECOMPOSIÇÃO ESPECTRAL
Seja Ae(m×n )
uma matriz m × n e Be(p×q )
uma matriz p × q duas matrizes cujos elementos são funções di-
ferenciáveis em X . Para cada caso abaixo, são adotadas dimensões tais que as operações matriciais sejam
conformáveis.
∂ (Ae
+ Be
)
∂ X=∂ Ae
∂ X+∂ Be
∂ Xpara m = p e n =q
∂ (Ae
Be
)
∂ X= Ae
∂ (Be
)
∂ X+∂ (Ae
)
∂ XBe
para n = p
∂ (Ae
−1)
∂ X=−A
e
−1∂ Ae
∂ XAe
−1 para m = n e�
�
�Ae
�
�
� 6= 0
Observação 3.1. Continuar com as notas do capítulo 2 Daniel Furtado e página 68 de Härdle e Simar
Aula 4
Distribuição Normal Multivariada
A generalização da densidade normal univariada para várias dimensões tem um fundamental papel na
análise multivariada. Enquanto dados reais nunca são exatamente multivariados, a densidade normal é
freqüentemente uma aproximação útil para a verdadeira distribuição da população.
Uma vantagem da distribuição normal multivariada é que ela é matematicamente tratável e dela podem
ser obtidos resultados interessantes. Mas, estatísticamente, duas outras razões são as que indicam o uso da
distribuição normal: Primeira, distribuições amostrais de muitas estatísticas multivariadas são aproximada-
mente normais, devido ao efeito do Teorema Central do Limite. Em segundo lugar, a distribuição normal
serve como modelo aproximado em muitos problemas reais.
4.1 A densidade normal multivariada e suas propriedades
Sabe-se que a distribuição normal univariada, com média µ e variância σ2, tem função densidade de
probabilidade,
f (x ) =1
p2πσ2
exp�x −µσ
�2
, −∞< x <∞.
A densidade da normal multivariada é uma generalização da densidade normal multivariada para dimensões
p ≥ 2. O termo,�x −µσ
�2
= (x −µ)�
σ2�−1(x −µ)
no expoente da densidade da normal univariada, que é o quadrado da distância do ponto x a µ em unidades
do desvio padrãoσ, pode ser generalizado para um vetor de observações xe
p×1 como
�
xe
−µe
�tΣe
−1�xe
−µe
�
11
12 AULA 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA
que é a distância de Mahalanobis do vetor xe
ao vetro de médias µe
, quando Σe
admite inversa, caso contrário a
densidade não estará bem definida. O termo,
1p
2πσ2=�
2π�− 1
2�
σ2�− 12
também pode ser generalizado como,
�
2π�− p
2�
�Σe
�
�
− 12
em que�
�Σe
�
� é a variância generalizada do vetor aleatório Xe
. Assim, para Σe
positiva definida(implica que�
�Σe
�
� 6=
0), a função densidade da normal multivariada será dada por,
f (xe
) =�
2π�− p
2�
�Σe
�
�
− 12 exp
�
−1
2
�
xe
−µe
�tΣe
−1�xe
−µe
�
�
para −∞< x i <∞, i = 1, . . . , p . Notação: Xe
∼Np�
µe
,Σe
�
.
Utilizando o teorema da decomposição espectral, a função densidade da normal multivariada pode ser
expressa como,
f (xe
) =�
2π�− p
2�
�Σe
�
�
− 12 exp
−1
2
�
xe
−µe
�t
p∑
i=1
1
λiee
i ee
ti
!
�
xe
−µe
�
=�
2π�− p
2�
�Σe
�
�
− 12 exp
−1
2
p∑
i=1
1
λi
�
xe
−µe
�t ee
i ee
ti
�
xe
−µe
�
=�
2π�− p
2�
�Σe
�
�
− 12 exp
−1
2
p∑
i=1
1
λi
�
�
xe
−µe
�t ee
i
�2
Se com exceção da diagonal principal, todos os elementos de Σe
forem zero, isto é, todas as covariâncias
forem zero, as p componentes de Xe
serão independentes, pois nesse caso teremos(verificar!),
f (xe
) = f 1(x1) f 2(x2) · · · f p (xp ).
A densidade da normal multivariada é constante nas superfícies onde a distância�
xe
− µe
�tΣe
−1�
xe
− µe
�
é
constante. Esse corte é chamado de contorno.
O contorno de uma densidade de probabilidade constante é a superfície de um elipsóide centrado em µe
e
é igual ao conjunto de pontos,n
xe
∈Rp :�
xe
−µe
�tΣe
−1�xe
−µe
�
= c 2o
.
Esses elipsóides têm eixos ±cp
λi ee
i , onde (λi , ee
i ) é um par de autovalor-autovetor da matriz Σe
. De fato, para
4.1. A DENSIDADE NORMAL MULTIVARIADA E SUAS PROPRIEDADES 13
xe
−µe
= cp
λi ee
i tem-se que, para i = 1,
�
xe
−µe
�tΣe
−1�xe
−µe
�
=p∑
i=1
1
λi
�
�
xe
−µe
�t ee
i
�2
=p∑
i=1
1
λi
h
cp
λi ee
t1ee
i
i2
=1
λ1c 2λ1
ee
t1ee
1︸︷︷︸
=1
2
+1
λ2c 2λ2
ee
t1ee
2︸︷︷︸
=0
2
= c 2
e para i = 2,
�
xe
−µe
�tΣe
−1�xe
−µe
�
=p∑
i=1
1
λi
h
cp
λi ee
t2ee
i
i2
=1
λ1c 2λ1
ee
t2ee
1︸︷︷︸
=0
2
+1
λ2c 2λ2
ee
t2ee
2︸︷︷︸
=1
2
= c 2
14 AULA 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA
Aula 5
Exemplo 5.1. Vamos determinar os eixos do contorno de uma densidade de probabilidade constante para uma
normal bivariada quandoσ11 =σ22. Assim,
�
�
�
�
�
�
σ11 σ12
σ21 σ22
−λ
1 0
0 1
�
�
�
�
�
�
=
�
�
�
�
�
�
σ11−λ σ12
σ12 σ11−λ
�
�
�
�
�
�
=�
σ11−λ�2−σ2
12 =�
λ−σ11−σ12��
λ−σ11+σ12�
= 0
Portanto, λ1 =σ11+σ12 e λ2 =σ11−σ12. Os autovetores associados são dados por,
Σe
ve
1 =λ1ve
1.
Assim,
σ11 σ12
σ21 σ22
v11
v12
= (σ11+σ12)
v11
v12
e
σ11v11+σ12v12
σ12v11+σ11v12
=
(σ11+σ12)v11
(σ11+σ12)v12
⇒
−σ12(v11−v12) = 0
−σ12(v11−v12) = 0⇒ v11 = v12
Assim,
ve
1
=p
ve
t1ve
1 =p
v 211+v 2
11 =p
v 212+v 2
12 = v11
p2= v12
p2
Portanto, o autovetor ee
1 correspondente a λ1 é,
ee
1 =
1p2
1p2
Similarmente, para λ2 =σ11−σ12 tem-se que
ee
2 =
1p2
− 1p2
15
16 AULA 5.
Quando a covariância σ12 ou correlação ρ12 é positiva, λ1 = σ11 +σ12 é o maior autovalor, e seu autovetor
associado ee
1 cai ao longo da linha de 45, pois,
cosθ =ie
t ee
1p
ie
t ie
p
ee
t1ee
1
=
0
1
t
1p2
1p2
p
02+12
q
2�
1p2
�2=
0+ 1p2
1×1≈ 0, 707⇒ θ = 45
através do ponto µe
t = [µ1,µ2]. Visto que os eixos da elipse de densidade constante são dados por ±cp
λ1ee
1
e ±cp
λ2ee
2 e cada autovetor tem tamanho unitário, o maior eixo estará associado com o maior autovalor.
Portanto, para variaveis aleatórias normais positivamente correlacionadas o maior eixo cairá ao longo da linha
de 45 através do ponto µe
t = [µ1,µ2]. Quando a covariância σ12 ou correlação ρ12 é negativa, λ2 = σ11 −σ12
será o maior autovalor e seu autovetor associado ee
2 cairá ao longo da linha de 45. Portanto, para variaveis
aleatórias normais negativamente correlacionadas o maior eixo cairá ao longo da linha de 45 através do ponto
µe
t = [µ1,µ2]. Estes resultados são válidos somente quandoσ11 =σ22.
5.1 Propriedades Adicionais da Distribuição Normal Multivariada
Certas propriedades da distribuição normal serão utilizadas repetidamente. Estas propriedades possibili-
tam uma manipulação fácil da distribuição normal.
Teorema 5.1. Seja Xe(p×1)
um vetor aleatório e ae(p×1)
um vetor constante. Então qualquer combinação linear ae
t Xe
=
a 1X1+a 2X2+ · · ·+a p Xp tem distribuição N�
ae
tµe
, ae
tΣe
ae
�
se e somente se Xe
p×1 tem distribuição Np�
µe
, Σe
�
, para
todo vetor constante ae
p×1.
Demonstração. Note que,
E�
ae
t Xe
�
= ae
t E�
Xe
�
= ae
tµ
e
.
V a r�
ae
t Xe
�
= E
�
�
ae
t Xe
−ae
tµ
e
��
ae
t Xe
−ae
tµ
e
�t�
= E
�
ae
t �Xe
−µe
��
Xe
−µe
�t ae
�
= ae
t E
�
�
Xe
−µe
��
Xe
−µe
�t�
ae
= ae
tΣe
ae
.
Teorema 5.2. Se Xe(p×1)
tem distribuição Np�
µe
, Σe
�
então, Ae(q×p )
Xe(p×1)
tem distribuição Nq�
Ae
µe
, Ae
Σe
Ae
t�
, para toda
matriz constante Ae(q×p )
. Tem-se também que, Xe(p×1)+ d
e(p×1)tem distribuição Np
�
µe
+de
, Σe
�
, para todo vetor cons-
tante de(p×1)
.
5.1. PROPRIEDADES ADICIONAIS DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 17
Exemplo 5.2. Seja Xe
∼N3�
µe
, Σe
�
então a distribuição conjunta de Y1 =X1−X2 e Y2 =X2−X3 é Ye
∼N2�
Ae
µe
, Ae
Σe
Ae
t�
em que,
Ye
=
Y1
Y2
=
X1−X2
X2−X3
=
1 −1 0
0 1 −1
X1
X2
X3
=Ae
(2×3)Xe
(3×1)
e
Ae
Σe
Ae
t =
1 −1 0
0 1 −1
σ11 σ12 σ13
σ12 σ22 σ23
σ13 σ23 σ33
1 0
−1 1
0 −1
=
σ11−σ12 σ12−σ22 σ13−σ33
σ12−σ13 σ22−σ23 σ23−σ33
1 0
−1 1
0 −1
=
σ11+σ22−2σ12 σ12+σ23−σ22−σ13
σ12+σ23−σ22−σ13 σ22+σ33−2σ23
18 AULA 5.
Aula 6
Teorema 6.1. Todos os subconjuntos de Xe
são normalmente distribuidos. Isto é, se particionarmos Xe
,
Xe
=
Xe
1
(q×1)
— — — —
Xe
2
((p−q )×1)
então
µe
1
— — —
µe
2
e
Σe
11
||||Σe
12
- - - - - - - - - -
Σe
21
||||Σe
22
Deste modo, Xe
1 terá distribuição Nq
�
µe
1,Σe
11
�
e Xe
2 terá distribuição N(p−q )
�
µe
2,Σe
22
�
.
Demonstração. Para verificar Xe
1 faça no teorema ??,
A =�
Ie(q×q )
||||
Oe(q×(p−q ))
�
em que Oe
é uma matriz de zeros. Para verificar Xe
2 faça no teorema ??,
A =�
Oe(q×q )
||||
Ie(q×(p−q ))
�
.
Teorema 6.2.
(a) SeX1
e(q1×1)e
X2
e(q2×1)são independentes, então Cov
�
X1f
, X2f
�
= Oe(q1×q2)
;
19
20 AULA 6.
(b) Se
Xe
1
(q×1)
— — — —
Xe
2
((p−q )×1)
∼Nq1+q2
µe
1
— — —
µe
2
,
Σe
11
||||Σe
12
- - - - - - - - - -
Σe
21
||||Σe
22
então Xe
1 e Xe
2 são independentes se e somente se Σe
12
(q1×q2)= O
e(q1×q2)= Σ
e
t21
(q1×q2);
(c) Se Xe
1 e Xe
2 são independentes e
Xe
1 ∼Nq1
�
µe
1 , Σe
11
�
e Xe
2 ∼Nq2
�
µe
2 , Σe
22
�
então,
Xe
1
(q1×1)
— — — —
Xe
2
(q2×1)
∼Nq1+q2
µ
e
1
(q1×1)
— — —µ
e
2
(q2×1)
,
Σe
11
(q1×q1)
||||
0e(q1×q2)
- - - - - - - -
0e
t
(q1×q2)
||||
Σe
22
(q2×q2)
.
Teorema 6.3. Seja
Xe
1
— — — —
Xe
2
∼Np
µe
1
— — —
µe
2
,
Σe
11
||||Σe
12
- - - - - - - - - -
Σe
21
||||Σe
22
comΣe
22 > 0. Então a distribuição condicional de Xe
1, dado que Xe
2 = xe
2 é normal com médiaµe
1+Σe
12Σe
−122
�
xe
2−µe
2
�
e matrix de covariâncias Σe
11−Σe
12Σe
−122Σe
21.
Observação 6.1. Note que a matriz de covariâncias não dependende do valor xe
2 da variável condicionada.
Demonstração. Fazer demonstração.
Exemplo 6.1. Seja o vetor aleatório (X1, X2) tendo distribuição,
N2
µ1
µ2
,
σ11 σ12
σ21 σ22
então a distribuição condicional de X2 = x2 é dado por,
N�
µ1+σ12σ−122 (x2−µ2) ,σ11−σ12σ
−122σ12
�
Agora note que,
ρ12 =σ12pσ11σ22
assim,
σ11−σ212σ
−122 =σ11
�
1−σ2
12
σ11σ22
�
=σ11(1−ρ212)
21
Portanto a distribuição condicional de X2 = x2 é
N
�
µ1+σ12
σ22(x2−µ2) ,σ11(1−ρ2
12)�
Teorema 6.4. Seja Xe
um vetor aleatório com distribuição Np
�
µe
, Σe
�
com�
�Σe
�
�> 0. Então:
(a)�
Xe
−µe
�tΣe
−1�
Xe
−µe
�
tem distribuição χ2p ;
(b) O elipsóide sólido§
xe
∈Rp :�
xe
−µe
�tΣe
−1�
xe
−µe
�
≤χ2p (α)
ª
tem probabilidade 1− α, em que χ2p (α) é o α-
quantil superior da distribuição χ2p .
Demonstração. Fazer demonstração.
Teorema 6.5. Seja Xe
1, . . . , Xe
n vetores aleatórios mutuamente independentes com Xe
i ∼Np
�
µe
i , Σe
�
. Então,
Ve
1 =n∑
i=1
c i Xe
i
tem distribuição Np
�
∑ni=1 c iµ
e
i ,�∑n
i=1 c 2i
�
Σe
�
. Além do mais, Ve
1 e Ve
2 =∑n
i=1 b i Xe
i tem distribuição conjunta
normal multivariada com matriz de covariância,
�∑n
i=1 c 2i
�
Σe
�∑n
i=1 b i c i
�
Σe
�∑n
i=1 b i c i
�
Σe
�∑n
i=1 b 2i
�
Σe
Conseqüentemente, Ve
1 e Ve
2 serão independentes se∑n
i=1 b i c i = 0.
22 AULA 6.
Aula 7
Amostras aleatórias de uma distribuição normal
multivariada
Seja Xe
1, . . . , Xe
n uma amostra aleatória de uma população p-variada com vetor de médias µe
e matriz de co-
variânciaΣe
. Visto que Xe
1, . . . , Xe
n são independentes e identicamente distribuídos com distribuição Np
�
µe
, Σe
�
.
Então a função de verossimilhança é dada por,
f�
xe
1, . . . ,xe
n�
=n∏
i=1
f�
xe
i�
=n∏
i=1
�
2π�− p
2�
�Σe
�
�
− 12 exp
�
−1
2
�
xe
i −µe
�tΣe
−1�xe
i −µe
�
�
=�
2π�− np
2�
�Σe
�
�
− n2 exp
−1
2
n∑
i=1
�
xe
i −µe
�tΣe
−1�xe
i −µe
�
Agora note que(Verificar!),
n∑
i=1
�
xe
i −µe
�tΣe
−1�xe
i −µe
�
= t r
Σe
−1
n∑
i=1
�
xe
i −xe
��
xe
i −xe
�t +n�
xe
i −µe
��
xe
i −µe
�t
!
Assim,
f�
xe
1, . . . ,xe
n�
=�
2π�− np
2�
�Σe
�
�
− n2 exp
−1
2t r
Σe
−1
n∑
i=1
�
xe
i −xe
��
xe
i −xe
�t +n�
xe
−µe
��
xe
−µe
�t
!
Deste modo, os estimadores de máxima verossimilhança para µe
e Σe
são dados por,
bµe
= xe
e bΣe
=1
n
n∑
i=1
�
xe
i −xe
��
xe
i −xe
�t =n −1
nSe
23
24 AULA 7. AMOSTRAS ALEATÓRIAS DE UMA DISTRIBUIÇÃO NORMAL MULTIVARIADA
Aula 8
Distribuição amostral do vetor de médias e da
matriz de covariâncias
Teorema 8.1. Seja Ze
1, . . . ,Ze
m vetores aleatórios independentes e identicamente distribuídos com distribuição
Np
�
0e
, Σe
�
. Então,m∑
i=1
Ze
iZe
ti ∼Wm (.
�
�Σe
)
em que Wm�
.�
�Σe
�
representa a distribuição de Wishart com parâmetro Σe
e m graus de liberdade.
Propriedades:
1. Se Ae
1 ∼Wm1(Ae
1
�
�Σe
) e Ae
2 ∼Wm2(Ae
2
�
�Σe
) com Ae
1 e Ae
2 independentes, então,
Ae
1+Ae
2 ∼Wm1+m2(Ae
1+Ae
2
�
�Σe
);
2. Se Ae
∼Wm�
Ae
�
�Σe
�
então para Ce
uma matriz de constantes tem-se que Ce
Ae
Ce
t ∼Wm�
Ce
Ae
Ce
t�
�Ce
Σe
Ce
t�
;
3. A função densidade Wishart existe somente quando o tamnaho da amostra n é maior que o número de
variáveis p e é definida para o valor de uma matriz positiva definida Ae
como,
wn−1�
Ae
�
�Σe
�
=
�
�Ae
�
�
n−p−22 exp
�
− 12
t r�
Ae
Σe
−1��
2p (n−1)
2 πp (p−1)
4
�
�Σe
�
�
n−12∏p
i=1Γ�
12(n − i )
�
25
26 AULA 8. DISTRIBUIÇÃO AMOSTRAL DO VETOR DE MÉDIAS E DA MATRIZ DE COVARIÂNCIAS
Teorema 8.2. Seja Xe
1, . . . , Xe
n uma amostra aleatória de um vetor aleatório com distribuição Nq
�
µe
,Σe
�
. Então,
(i) Xe
e Se
são estatística suficientes e completas;
(ii) Xe
tem distriuição N�
µe
, 1nΣe
�
;
(iii) Xe
e Se
são independentes;
(iv) (n −1)Se
=∑n
i=1
�
Xe
i −Xe
��
Xe
i −Xe
�t tem distribuição Wn−1�
. , Σe
�
(v) Se
é um estimador não viciado para Σe
Demonstração. Veja prova em ? páginas 345-350.
8.1 Comportatmento assintótico do vetor de médias e da matriz de co-
variâncias amostrais
Seja Xe
1, . . . , Xe
n uma amostra aleatória de um vetor aleatório com média µe
e matriz de covariância finita e
não singular Σe
. Então, tem-se que
Xe
p−−→n→∞
µe
e Se
p−−→n→∞
Σe
e para n −p suficientemente grande tem-se,
pn�
Xe
−µe
� a∼ Np
�
0e
, Σe
�
e
n�
Xe
−µe
�
Se
−1�
Xe
−µe
�t a∼ χ2p
8.2 Investigação da normalidade dos dados
As propriedades da distribuição normal multivariada garantem que todas as combinações lineares das
componentes de um vetor aleatório com distribuição normal multivariada são normais, e além disso, que os
contornos da densidade normal multivariada são elipsóides. Portanto algumas questões imediatas podem
ser formuladas:
1. As distribuições marginais das componentes de Xe
parecem ser normais?
2. O diagrama de dispersão de pares de observações de diferentes características parecem elipses como
esperado para normais bivariadas?
Note que nossa investigação sobre a normalidade dos dados irá restringir-se em uma e duas dimensões.
Aula 9
Avaliando a normalidade das distribuições
marginais univariadas
Para verificar se existe assimetria nos dados é comum serem utilizados o diagrama de dispersão para pe-
quenas amostras(n ≤ 25) e o histograma se n > 25, estes gráficos ajudam revelar situações em que uma cauda
da distribuição é muito maior que a outra. Se a variável X i parecer razoavelmente simétrica, analisa-se o acha-
tamento da distribuição contando o número de observações de certos intervalos. Sabe-se que a distribuição
normal univariada atribui probabilidade de 0, 683 ao intervalo (µ−σ,µ+σ) e de 0, 954 para (µ−2σ,µ+2σ).
Conseqüentemente, para uma amostra de tamanho n grande, espera-se que a proporção bp i 1 de pontos con-
tidos no primeiro intervalo seja aproximadamente 0, 683 e no segundo intervalo a proporção bp i 2 seja aproxi-
madamente 0, 954. Deste modo, utilizando a aproximação normal para a distribuição amostral da proporção
pode-se chegar a seguinte regra de decisão(verificar!): Se
�
�
bp i 1−0, 683�
�> 3
r
0, 683× (1−0, 683)n
=1, 396p
n
ou�
�
bp i 2−0, 954�
�> 3
r
0, 954× (1−0, 954)n
=0, 628p
n
admite-se não normalidade dos dados.
Para avaliar a hipótese de normalidade muitas vezes requerida nos métodos estatísticos, utiliza-se tam-
bém um diagrama quantil x quantil conhecido como "‘Q-Q plot"’. Esse diagrama é a representação dos quan-
tis amostrais versus os quantis esperados se as observações fossem distribuídos normalmente. Assim, quando
os pontos ficam muito perto de uma linha reta a hipótese de normalidade é admitida como verdadeira. Para
construir um diagrama "‘Q-Q plot"’segue-se os seguintes passos:
(Passo 1) Para cada componente de Xe
, toma-se os valores amostrais e os ordena x (i 1),x (i 2), . . . ,x (i n ), estes são
os quantis amostrais; quando os x (i j )’s são distintos exatamente j observações menores ou iguais a x (i j );
27
28 AULA 9. AVALIANDO A NORMALIDADE DAS DISTRIBUIÇÕES MARGINAIS UNIVARIADAS
(Passo 2) Calcula-se(estima-se) as probabilidades p (i j ) associadas aos valores ordenados x (i j ), em que
p (i j ) =i −0, 5
n;
(Passo 3) Calcula-se os quantis da normal padrão q(i j ) associadas aos valores p (i j ), assim
P(Z ≤q(i j )) =
∫ ∞
−∞
e−z 2
2
p2π= p (i j )
;
(Passo 4) Constrói-se o diagrama de dispersão com os pontos (q(i 1),x (i 1)), (q(i 2),x (i 2)), . . . , (q(i n ),x (i n ))
Observação 9.1. O "‘Q-Q plot"’ não são informativos a menos que a amostra seja moderadamente grande,
por exemplo n > 20. Isto se deve a maior variação amostral devido ao pequeno tamanho da amostra, mesmo
quando as observações são de fato de uma população normal.
Observação 9.2. Um procedimento mais interessante é construir o diagrama de dispersão com os pontos (m (i 1),x (i 1)), (m (i 2),x (i 2)), . . . , (m (i n ),x (i n ))
em que m (i j ) = E (z (i j )). (Pesquisar este procedimento!)
A grau de relação linear do "‘Q-Q plot"’ pode ser medido pelo coeficiente de correlação linear dos pontos
no diagrama,
rQ =
∑nj=1
�
x (i j )−x i��
q(i j )−q i
�
Æ
∑nj=1
�
x (i j )−x i�2�q(i j )−q i
�2
e um teste de normalidade pode ser baseado nesta medida. Formalmente, rejeitamos a hipótese de norma-
lidade ao nível de significância α se rQ fica abaixo de um certo valor. Veja tabela 4.2 página 193 Johnson e
Wichern (1999).
Outro teste de normalidade foi proposto por ?. Verificar a informação!!! O teste é semelhante a esse, a
única diferença é que troca-se o quantil da normal padrão q(i ) pelo valor esperado do quantil m (i j ) = E (z (i j )).
No R faça: shapiro.test(dados)
Exemplo 9.1. Fazer exemplo 4.10 pg. 191.
Aula 10
Avaliando a normalidade multivariada
Verificar se um conjunto de dados possui distribuição normal multivariada é conceitualmente não tão di-
reto quanto a verificação no caso univariado. A complexidade desta tarefa pode ser ilustrada no contexto do
teste de ajustamento a normalidade para a normalidade em que o tamanho da amostra deve ser razoalvel-
mente grande para que se possa checar de maneira adequada a normalidade. Apesar disso, algum procedi-
mento para checar a distribuição do conjunto de dados é desejável. Vários procedimentos foram propostos,
a seguir apresentaremos dois deles.
O primeiro procedimento consiste em utilizar o fato que
�
Xe
−µe
�
Σe
−1�
Xe
−µe
�t∼ χ2
p
Deste modo, substituindo µe
por Xe
e Σe
por Se
tem-se, para n e n −p grande, que
�
Xe
−Xe
�
Se
−1�
Xe
−Xe
�t a∼ χ2p .
Assim, seja
d 2i =�
xe
i −xe
�
Se
−1�
xe
−xe
�t
a distância quadrática generalizada, em que xe
1, . . . ,xe
n são os valores observados(elementos amostrais). Então
d 21 , . . . , d 2
n terá ditribuição aproximadamente χ2p . Desta maneira, elabora-se um diagrama quantil x quantil
conhecido como "‘Qui-quadrado plot"’ ou "‘Gama plot"’. Assim, quando os pontos ficam muito perto de
uma linha reta a hipótese de normalidade é admitida como verdadeira. Para construir um diagrama "‘Qui-
quadrado plot"’ segue-se os seguintes passos:
(Passo 1) Ordena-se os valores amostrais d 21 , . . . , d 2
n , assim d (1), d (2), . . . , d (n ) são os quantis amostrais;
(Passo 2) Calcula-se(estima-se) as probabilidades p (i j ) associadas aos valores ordenados d (i ), em que
p (i ) =i −0, 5
n;
29
30 AULA 10. AVALIANDO A NORMALIDADE MULTIVARIADA
(Passo 3) Calcula-se os quantis do Qui-quadrado q(i ) associados aos valores p (i ), assim
P(Q ≤q(i )) = p (i ) ⇒ q(i )) =χ2p
�
p (i )�
;
Observação 10.1. No R tem-se que: q(i )) =qc hi sq ((i −0.5)/n , p ).
(Passo 4) Constrói-se o diagrama de dispersão com os pontos (q(1), d (1)), (q(2), d (2)), . . . , (q(n ), d (n ))
Note que este procedimento não é limitado ao caso bivariado.
Exemplo 10.1. Os dados da Tabela ?? foram obtidos tomando quatro medidas diferentes de rigidez x1,x2,x3,x4
de cada uma das 30 placas. A primeira medida ...
Tabela 10.1: Dados sobre rigidez
x1 x2 x3 x4
1889 1651 1561 1778
2403 2048 2087 2197
2119 1700 1815 2222
1645 1627 1110 1533
1976 1916 1614 1883
1712 1712 1439 1546
1943 1685 1271 1671
2104 1820 1717 1874
2983 2794 2412 2581
1745 1600 1384 1508
1710 1591 1518 1667
2046 1907 1627 1898
1840 1841 1595 1741
1867 1685 1493 1678
1859 1649 1389 1714
x1 x2 x3 x4
1954 2149 1180 1281
1325 1170 1002 1176
1419 1371 1252 1308
1828 1634 1602 1755
1725 1594 1313 1646
2276 2189 1547 2111
1899 1614 1422 1477
1633 1513 1290 1516
2061 1867 1646 2037
1856 1493 1356 1533
1727 1412 1238 1469
2168 1896 1701 1834
1655 1675 1414 1597
2326 2301 2065 2234
1490 1382 1214 1284
O segundo procedimento consite em utilizar o fato quem se Xe
tem distribuição normal multivariada então
nd 2i
(n −1)2∼ Beta(a,b)
em que,
a =p
2e b =
n −p −1
2
31
este resultado foi apresentado por Gnanadesikan and Kettenring (1972). Um teste baseado nesta informação
é dado por
d 2(n ) =max d 2
i
Em Barnett and Lewis (1978) fornece uma tabela com os valores críticos para 1% e 5% e p = 2, 3, 4, 5.
32 AULA 10. AVALIANDO A NORMALIDADE MULTIVARIADA
Aula 11
Inferência sobre o vetor de médias
A partir de agora iremos utilizar os conceitos e os resultados apresentados até o momento. As inferên-
cias que serão realizadas são relativas ao vetor populacional de médias e aos seus componentes. Umas das
mensagens centrais da análise multivariada, que deverá ser abordada daqui por diante, é que p variáveis cor-
relacionadas devem ser analisadas simultaneamente. Para tanto, será descrita uma generalização direta do
teste t de Student às situações que envolvem mais de uma variável.
11.1 Testes Multivariados versus Testes Univariados
Um teste de hipótese no contexto multivariado é mais complexo do que em um ajuste univariate. O nú-
mero dos parâmetros pode desconcertar. A distribuição normal p-variada, por exemplo, tem p médias, p
variâncias, e�n
2
�
covariâncias, onde�n
2
�
representa o número dos pares entre as p variáveis. O número total de
parâmetros é
p +p +�
n
2
�
=1
3p (p +3)
Para p = 10, por exemplo, o número de parâmetros é 65, para cada um dos quais, uma hipótese poderia
ser formulada. Adicionalmente, pode-se estar interessado em testar hipóteses sobre subconjuntos destes
parâmetros ou sobre funções deles. Em alguns casos, tem-se ainda o dilemma de escolher entre outros testes
estatísticos concorrentes.
Primeiramente vamos discutir a motivação para testar p variáveis multivariadamente ao invés de univari-
adamente, como por exemplo, nas hipóteses sobre µ1, . . . ,µp em µe
. Existem ao menos quatro argumentos em
favor do enfoque multivariado de teste de hipótese:
1. O uso de testes univariados inflaciona o erro tipo I,α, enquanto que o teste multivariado preserva o nível
exato de α. Por exemplo, se fizermos testes univariados separados para p = 10 ao nível de significância
33
34 AULA 11. INFERÊNCIA SOBRE O VETOR DE MÉDIAS
de 0, 05, a probabilidade de ao menos uma rejeição falsa é maior que que 0, 05. De fato, seja A i o evento
rejeitar H0i quando H0i é verdadeira. Assim, para αi = P(A i ) = 0, 05, i = 1, . . . , 10, tem-se que,
α= P
10⋃
i=1
A i
!
⇒ 1−α= 1−P
10⋃
i=1
A i
!c!
= P
10⋂
i=1
Aci
!
.
Agora note que,
P
10⋂
i=1
Aci
!
≤ P(Aci )
para todo i = 1, . . . , 10, logo
1−α≤min�
P(Ac1), . . . , P(Ac
10)�
= 1−max (P(A1), . . . , P(A10)) ⇒ α≥max (α1, . . . ,α10) .
Por outro lado, note que,
P
10⋂
i=1
Aci
!
= 1−P
10⋃
i=1
A i
!
≥ 1−10∑
i=1
P(A i ) = 1−10∑
i=1
αi
logo,
α≤10∑
i=1
αi e α≤ 1 assim α≤min
1,10∑
i=1
αi
!
.
Portanto, para a execução dos teste univariados todos com nível de significância αi = 0, 05 tem-se que o
nível de significância total α ficará entre,
max (α1, . . . ,α10) = 0, 05≤α≤ 0, 5=min
1,10∑
i=1
αi
!
2. Os testes univariados ignoram completamente a corelação entre as variáveis, enquanto que os testes
multivariados fazem o uso direto das correlações;
3. O teste multivariado é mais poderoso em muitos casos. O poder do teste é a probabilidade de rejeitar
H0 quando ela é falsa. Em alguns casos, todos os p testes univariados não alcançam significancia, mas
o teste multivariado é significante porque pequenos efeitos em algumas das variáveis combinam para
conjuntamente indicar significancia. Entretanto, para um dado tamanho de amostra há um limite para
o número de variáveis que um teste multivariado pode lidar sem perder poder;
4. Muitos testes multivariados envolvendo médias tem como produto a construção de uma combinação
linear das variáveis que revela mais sobre como as variáveis se combinam para rejeitar a hipótese.
11.2 Teste sobre o vetor de médias com matriz de covariâncias conhecida
O teste sobre o vetor de médias µe
supondo que a matriz de covariâncias Σe
é conhecida é introduzido para
ilustrar os problemas envolvidos nos testes multivariados e para servir como uma base para o caso em que
11.3. REVISÃO DO TESTE UNIVARIADO 35
Σe
é desconhecida. Primeiro será feita uma revisão do caso univariado no qual trabalha-se com uma única
variável que tenha distribuição N (µ,σ2).
11.3 Revisão do teste univariado
A hipótese de interesse é que a média de X é igual a um dado valor µ0, contra a hipótese alternativa que
não é igual a µ0:
H0 :µ=µ0 vs. H1 :µ 6=µ0.
Não foi considerada hipóteses alternativas simples porque não generalizam diretamente para o caso multiva-
riado. Supõe-se uma amostra aleatória de n observações X1, . . . , Xn de N (µ,σ2) com oσ2 conhecido. Calcula-
se x =∑n
i=1 x i
ne comparamo-lo a µ0 usando a estatística
Z =X −µ0
σpn
que tem distribuição N (0, 1) se H0 for verdadeira. Assim, para α = 0, 05 rejeita-se H0 se |z | ≥ 1, 96. Equiva-
lentemente, pode-se usar Z 2 que tem distribuição χ21 e rejeitar H0 se z 2 ≥ 3, 84. Se n for grande, o Teorema
Central do Limite nos assegura que Z é aproximadamente normal, mesmo se as observações não possuem
distribuição normal.
36 AULA 11. INFERÊNCIA SOBRE O VETOR DE MÉDIAS
Aula 12
Teste multivariado para µe
com Σe
conhecido
No caso multivariado tem-se várias variáveis medidas em cada unidade amostral, e deseja-se formular
uma hipótese para a média de cada variável,
H0 :µe
=µe
0 vs. H1 :µe
6=µe
0,
isto é,
H0 :
µ1
µ2
...
µp
=
µ01
µ02
...
µ0p
vs. H1 :
µ1
µ2
...
µp
6=
µ01
µ02
...
µ0p
A hipótese H0 implica que µi = µ0i para todo i = 1, . . . , p , enquanto que a hipótese H1 implica que ao menos
um µi 6= µ0i . Deste modo, por exemplo, se µi = µ0i para todo i exceto para i = k para o qual µk = µ0k , então
deseja-se rejeitar H0.
Para testar H0, utiliza-se uma amostra aleatória de n observações Xe
1, . . . , Xe
n de Np
�
µe
,Σe
�
comΣe
conhecido
e calcula-se Xe
. A estatística do teste é
Z 2 = n�
Xe
−µe
0
�tΣe
−1�
Xe
−µe
0
�
.
Se H0 é verdadeira, então Z 2 tem distribuição χ2p e portanto rejeita-se H0 se z 2 >χ2
p (α). Note que para o caso
univariado Z 2 tem distribuição χ2 enquanto que para o caso p-variado Z 2 tem distribuição χ2p .
SeΣe
é desconhecido, utiliza-se Se
em seu lugar e se n for suficientemente grande então Z 2 terá distribuição
aproximadamente χ2p . O valor de n necessário para se obter a aproximação dependerá de p .
Exemplo 12.1. Na Tabela ?? peso e altura foram informados para uma amostra de 20 estudantes do sexo mas-
culino.
1. Verificar a normalidade dos dados;
37
38 AULA 12. TESTE MULTIVARIADO PARA µe
COM Σe
CONHECIDO
2. Assuma que a amostra é proveniente de uma população com distribuição N2
�
µe
,Σe
�
e que
Σe
=
20 100
100 1000
.
Suponha que deseja-se testar a hipótese H0 :µe
= (70, 170)t . Utilize α= 0, 05.
Tabela 12.1: Dados sobre peso e altura
PESSOA PESO ALTURA
1 69 153
2 74 175
3 68 155
4 70 135
5 72 172
6 67 150
7 66 115
8 70 137
9 76 200
10 68 130
PESSOA PESO ALTURA
11 72 140
12 79 265
13 74 185
14 67 112
15 66 140
16 71 150
17 74 165
18 75 185
19 75 210
20 76 220
Assim, tem-se que
Xe
=
71, 45
164, 7
.
Deste modo, tem-se
Z 2 = 20
71, 45−70
164, 7−170
t
20 100
100 1000
−1
71, 45−70
164, 7−170
= 8, 4026
Para α = 0, 05 obtem-se χ22 (0, 05) = 5, 99. O p-valor é p − v a l or = 0, 01498. Portanto, como p − v a l or ≤ 0, 05
ou z 2 > 5, 99, rejeita-se a hipótese H0 a nível de significância de 5%. Logo, existem evidências de que H1 é
verdadeira. A região de rejeição é a área fora da elipse da Figura ??. A elipse é determinada do seguinte modo,
20
x 1−70
x 2−170
t
20 100
100 1000
−1
x 1−70
x 2−170
=
x 1−70
x 2−170
t
20
0, 1 −0, 01
−0, 01 0, 002
x 1−70
x 2−170
=
x 1−70
x 2−170
t
2 −0, 2
−0, 2 0, 04
x 1−70
x 2−170
= 2(x 1−70)2−0, 4(x 1−70)(x 2−170)+0, 04(x 2−170)2.
39
67 68 69 70 71 72 73
155
160
165
170
175
180
185
x1
x 2
((µµ1,, µµ2))+
((x1,, x2))+
z2 >> 5.99
z2 << 5.99
z2 == 5.99
Figura 12.1: Região crítica para o teste multivariado
Assim, para 2(x 1 − 70)2 − 0, 4(x 1 − 70)(x 2 − 170) + 0, 04(x 2 − 170)2 = 5, 99 obtém-se a elipse da Figura ?? Isto é,
se Xe
cai fora do interior da elipse, H0 é rejeitada, se Xe
cai dentro do interior da elipse, H0 não é rejeitada. Deste
modo, a distancia de µe
0 assim como a direção deve ser levado em conta. Quando a distancia é padronizada por
Σe
−1 todos os pontos sobre a curva são "‘estatisticamente eqüidistantes"’ do centro. Note que o teste é sensível a
estrutura de covariância. Se Cov (X1, X2) fosse negativa X2 tenderia a decrescer quando X1 crescesse, e a elipse
teria uma inclinação diferente. Neste caso, Xe
poderia cair na região de não rejeição.
Programa R 12.1: Região crítica para o teste multivariado
1 dados . 1 a11 = read . t a b l e ( " C : / U l i s s e s /A n á l i s e Multivariada /Dados l i v r o ALVIN C . RENCHER/
T3_1_HEIGHTWT . dat " , header= FALSE , sep= " " , dec= " . " )
3 dados . 1 a11 =matrix ( as . matrix ( dados . 1 a11 [ , 2 : 3 ] ) , 2 0 , 2 , byrow= FALSE )
n = nrow ( dados . 1 a11 )
5 xbt = ( t ( dados . 1 a11)%∗%rep ( 1 , n ) ) /n
mi . o = c ( 7 0 , 1 7 0 )
7 Sigma = matrix ( c ( 2 0 , 1 0 0 , 1 0 0 , 1 0 0 0 ) , 2 , 2 , byrow=TRUE)
p l o t ( e l l i p s e ( Sigma/n , c e n t r e = c ( mi . o [1 ] , mi . o [ 2 ] ) ,
9 t=s q r t ( qchisq ( 0 . 9 5 , 2 ) ) ) , type= ’ l ’ , xlab=expression ( x [ 1 ] ) , ylab=expression ( x [2 ] , xlim=c ( 6 7 , 7 3 ) ,
ylim=c ( 1 5 2 , 1 8 8 ) )
11 t e x t ( mi . o [1 ] , mi . o [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t (mu[0 1 ] ,mu[ 0 2 ] ) , " ) " ) ) )
40 AULA 12. TESTE MULTIVARIADO PARA µe
COM Σe
CONHECIDO
t e x t ( mi . o [1 ] , mi . o [2 ] , l a b e l s = ’+ ’ )
13 t e x t ( xbt [1 ]+0 . 2 5 , xbt [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t ( bar ( x ) [ 1 ] , bar ( x ) [ 2 ] ) , " ) " ) ) )
t e x t ( xbt [1 ] , xbt [2 ] , l a b e l s = ’+ ’ )
15 segments ( c ( mi . o [ 1 ] , 0 ) , c ( 0 , mi . o [ 2 ] ) , c ( mi . o [1 ] , mi . o [ 1 ] ) , c ( mi . o [2 ] , mi . o [ 2 ] ) , l t y = c ( 2 , 2 ) )
t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2>5.99)))
17 t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2<5.99)))
t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2==5.99)))
Vamos investigar as conseqüencias de testar as hipóteses separadamente. Usando z 0,05 = 1.96 tem-se que
z 1 =x 1−µ01
σ1
n
= 1, 450< 1.96
e
z 1 =x 2−µ02
σ2
n
=−0, 7495>−1.96
Deste modo, ambos os teste não rejeitaram a hipótese. Neste caso, nenhuma das médias x i estão longe o su-
ficiente do valor hipótético µ0i para causar rejeição. Entretanto, quando a correlação entre X1 e X2 é levada
em conta no teste multivariado, as duas evidências contra µe
0 se combinam para causar a rejeição. A Figura ??
mostra a região crítica para o teste univariado, o retângulo, e a região crítica para o teste multivariado, a elipse.
O retângulo foi obtido calculando,
67 68 69 70 71 72 73
155
160
165
170
175
180
185
x1
x 2
((µµ1,, µµ2))+
Figura 12.2: Regiões críticas
41
Programa R 12.2: Região crítica para o teste univariado e para o teste multivariado
l i . x1 = round ( mi . o [1 ] − 1. 96∗ s q r t ( Sigma [1 , 1 ] /n ) , 2 )
2 l i . x2 = round ( mi . o [2 ] − 1. 96∗ s q r t ( Sigma [2 , 2 ] /n ) , 2 )
l s . x1 = round ( mi . o [1 ] + 1. 96∗ s q r t ( Sigma [1 , 1 ] /n ) , 2 )
4 l s . x2 = round ( mi . o [2 ] + 1. 96∗ s q r t ( Sigma [2 , 2 ] /n ) , 2 )
6 plot ( e l l i p s e ( Sigma/n , c e n t r e = c ( mi . o [1 ] , mi . o [ 2 ] ) ,
t=s q r t ( qchisq ( 0 . 9 5 , 2 ) ) ) , type= ’ l ’ , xlab=expression ( x [ 1 ] ) ,
8 ylab=expression ( x [ 2 ] ) , xlim=c ( 6 7 , 7 3 ) , ylim=c ( 1 5 2 , 1 8 8 ) )
t e x t ( mi . o [1 ] , mi . o [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t (mu[0 1 ] ,mu[ 0 2 ] ) , " ) " ) ) )
10 t e x t ( mi . o [1 ] , mi . o [2 ] , l a b e l s= ’+ ’)
segments ( c ( l i . x1 , l i . x1 , l s . x1 , l s . x1 ) , c ( l i . x2 , l s . x2 , l s . x2 , l i . x2 ) , c ( l i . x1 , l s . x1 , l s . x1 , l i . x1 ) ,
12 c ( l s . x2 , l s . x2 , l i . x2 , l i . x2 ) , l t y = rep ( 2 , 4 ) )
µ01−1, 96σ1p
n< x 1 <µ01+1, 96
σ1pn
µ02−1, 96σ2p
n< x 2 <µ02+1, 96
σ2pn
Assim,
1, 96σ1p
n= 1, 96
Ç
20
20= 1, 96 e 1, 96
σ2pn= 1, 96
Ç
1000
20= 13, 86.
Logo, 68, 04< x 1 < 71, 96 e 156, 13< x 2 < 183, 87.
Pontos dentro da elipse mas fora do retângulo será rejeitado em pelo menos uma dimensão univariada mas
não será rejeitado multivariadamente. Isso ilustra a inflação do erro tipo I, α, como discutido no primeiro
motivo para se utilizar testes multivariados. Este fenômeno é conhecido como paradoxo de Rao, veja ?. Pontos
fora da elipse mas dentro do retângulo será rejeitados pelo teste multivariado mas não serão rejeitados nos
testes univariados em ambas dimensões. Isso ilustra a terceira razão para se utilizar os testes multivariados, a
saber, que os testes multivariados são mais poderosos em algumas situações. Deste modo, em ambos os casos
representados pelas áreas rachuradas, deve-se utilizar o resultado do teste multivariado ao invés do univariado.
Em um caso o teste multivariado preserva o nível de significância α enquanto que o teste univariado inflaciona
α, no outro caso o teste multivariado é mais poderoso que o teste univariado.
42 AULA 12. TESTE MULTIVARIADO PARA µe
COM Σe
CONHECIDO
Aula 13
Teste multivariado para µe
com Σe
desconhecido
Considerando o caso univariado primeiro, tem-se para uma amostra aleatória X1, . . . , Xn de uma popula-
ção normal, a estatística apropriada para esta hipótese é:
t =X −µ0
Spn
que tem distribuição tn−1 se H0 for verdadeira. Portanto, rejeita-se a hipótese H0 se |t | > tn−1(α/2) em que
tn−1(α/2) é o α/2 quantil da distribuição de t-student com n − 1 graus de liberdade. Analogamente, conside-
rando agora a distância quadrática da média amostral X para o valor a ser testado, rejeita-se H0 a um nível de
significância α, se
t 2 = n (X −µ0)(S2)−1(X −µ0)≥ F1,n−1(α/2)
em que, F1,n−1(α/2) representa o quantil superior da distribuição F com 1 e n−1 graus de liberdade. Se H0 não
é rejeitada, então se conclui que µ0 é um valor plausível para representar a média populacional. No entanto,
uma pergunta natural pode surgir: existem outros valores deµ que são consistentes com os dados? A resposta
é sim. De fato, existe um conjunto de valores plausíveis que serviriam como média para a população normal
estudada. Da conhecida correspondência entre a região de não rejeição dos testes de hipóteses e o intervalo
de confiança para µ tem-se que não rejeitar H0, isto é,
�
�
�
�
�
X −µ0
Spn
�
�
�
�
�
< tn−1(α/2)
é equivalente a
X − tn−1(α/2)Sp
n<µ0 <X + tn−1(α/2)
Sp
n.
Antes de a amostra ser retirada, o intervalo de confiança é um intervalo aleatório, pois seus limites dependem
das variáveis aleatórias X e S.
43
44 AULA 13. TESTE MULTIVARIADO PARA µe
COM Σe
DESCONHECIDO
Para o caso multivariado, uma generalização da distância quadrática apresentada para o caso univariado
é,
T 2 = n
�
Xe
−µe
0
�t
Se
−1
�
Xe
−µe
0
�
=p
n
�
Xe
−µe
0
�t
∑ni=1
�
Xe
i −Xe
��
Xe
i −Xe
�t
n −1
−1
pn
�
Xe
−µe
0
�
=Np
�
0e
, Σe
�t�
1
n −1Wp ,n−1
�
Σe
�
�
Np
�
0e
, Σe
�
Note que esta expressão é análoga a
t 2 = n (X −µ0)(S2)−1(X −µ0)
=p
n (X −µ0)
∑n
i=1(X i −X )(X i −X )n −1
!−1
(X −µ0)p
n
=N (0,σ)χ2
n−1(σ)
n −1N (0,σ)
para o caso univariado.
A estatística T 2 é chamada de estatística T 2 de Hotelling. Como no caso univariado em que t 2n−1 = F1,n−1, a
estatística T 2 também pode se transformada em um estatística F como segue,
ν −p +1
νpT 2 = Fp ,ν−p+1
Note que o número de variáveis p da estatística T 2 transforma-se no primeiro do dois parâmetros da distri-
buição F. O número dos graus de liberdade de T 2 é denotado por ν , e a transformação F é dada em termos de
um geral ν , visto que em outras aplicações de T 2 terão ν diferente de n −1.
Desta forma para se testar a hipótese H0 : µe
= µe
0 versus H1 : µe
6= µe
0 para um nível de significância α,
deve-se rejeitar H0 em favor de H1 se
T 2 = n�
Xe
−µe
0
�tSe
−1�
Xe
−µe
0
�
>νp
ν +1−pFp ,ν+1−p (α)
em que neste caso tem-se ν = n −1.
Exemplo 13.1 (Johnson and Wichern, pg 229). A transpiração de 20 mulheres saudáveis foi analizada. Três
componentes, X1 = taxa de suor, X2 = quantidade de sódio, e X3 = quantidade de potássio foram medidos e os
resultados são apresentados na Tabela abaixo. Testar a hipótese
H0 :µe
=
4
50
10
versus H0 :µe
6=
4
50
10
.
13.1. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA 45
Tabela 13.1: Dados sobre a transpiração de mulheres
Taxa de suor Sódio Potássio
3.7 48.5 9.3
5.7 65.1 8.0
3.8 47.2 10.9
3.2 53.2 12.0
3.1 55.5 9.7
4.6 36.1 7.9
2.4 24.8 14.0
7.2 33.1 7.6
6.7 47.4 8.5
5.4 54.1 11.3
Taxa de suor Sódio Potássio
3.9 36.9 12.7
4.5 58.8 12.3
3.5 27.8 9.8
4.5 40.2 8.4
1.5 13.5 10.1
8.5 56.4 7.1
4.5 71.6 8.2
6.5 52.8 10.9
4.1 44.1 11.2
5.5 40.9 9.4
Utilize α= 0, 05 Solução: Tem-se que,
Xe
=
4, 640
45, 400
9, 965
e Se
=
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
Assim,
T 2 = 20
4, 640
45, 400
9, 965
t
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
4, 640
45, 400
9, 965
= 9, 74
O p-valor é dado por: p−v a l or = 0, 065 e Fp ,n−p (0, 1). Portanto rejeita-se a hipótese H0 ao nível de significância
de 10%.
13.1 Regiões de Confiança e comparações simultâneas de componentes
da média
Seja θe
um vetor de parâmetros populacionais desconhecidos e Θe
o seu espaço paramétrico, isto é, o con-
junto de todos os valores possíveis para θe
. Uma região de confiança é uma região de prováveis valores para
θe
. Esta região R(Xe
) é determinada pelos dados, em que Xe
é a matriz de dados. Assim a região R(Xe
) é dita ter
100(1−α)% de confiança se antes da amostra ser selecionada
P(R(Xe
) cobrir o verdadeiro valor θe
) = 1−α.
46 AULA 13. TESTE MULTIVARIADO PARA µe
COM Σe
DESCONHECIDO
Programa R 13.1: ’Teste sobre a transpiração de 20 mulheres’
t a b l e 5 . 1 = matrix ( scan ( f i l e = ’D: / U l i s s e s /D i s c i p l i n a s ministradas /A n á l is e Mult ivariada /
2 Dados l i v r o Johnson and Wichern/Table5−1. t x t ’ )
, 2 0 , 3 , byrow=TRUE)
4 # ∗∗∗∗∗∗∗∗∗∗∗∗ Hipótese Ho ∗∗∗∗∗∗∗∗∗∗∗∗∗∗
mi . o = c ( 4 , 5 0 , 1 0 )
6 # ∗∗∗∗∗∗∗∗∗∗∗∗ Vetor de Médias ∗∗∗∗∗∗∗∗∗∗∗∗
n = nrow ( t a b l e 5 . 1 )
8 xbt = ( t ( t a b l e 5 .1)%∗%rep ( 1 , n ) ) /n
# ∗∗∗∗∗∗∗∗∗∗∗ Matriz de c o v a r i â n c i a s ∗∗∗∗∗∗∗∗∗
10 St = t ( t a b l e 5 .1)%∗%( diag ( n)−rep ( 1 , n)%∗% t ( rep ( 1 , n ) ) /n)%∗%t a b l e 5 . 1 / ( n−1)
# ∗∗∗∗∗∗∗∗∗∗∗∗∗ E s t a t í s t i c a T^2 de H o t e l l i n g ∗∗∗∗∗∗∗∗∗∗
12 T2 = n∗ t ( xbt−mi . o)%∗%s o l v e ( St )%∗%(xbt−mi . o )
# ∗∗∗∗∗∗∗∗∗∗∗∗∗ P−v a l o r e F_ {p , n−p } ( 0 . 1 ) ∗∗∗∗∗∗∗∗∗∗∗∗∗∗
14 p . v a l o r = 1 − pf ( T2 ∗ ( n−ncol ( t a b l e 5 . 1 ) ) / ( ( n−1)∗ncol ( t a b l e 5 . 1 ) ) , 3 , n−3)
q . a l f a = qf ( 0 . 9 , 3 , n−3)∗(n−1)∗ncol ( t a b l e 5 . 1 ) / ( n−ncol ( t a b l e 5 . 1 ) )
O elipsóide de confiança será composto dos pontos µe
para os quais
n�
Xe
−µe
0
�tSe
−1�
Xe
−µe
0
� (n −1)pn −p
Fp ,n−p (α)
O elipsóide será centrado no ponto Xe
. Pode-se calcular os eixos do elipsóide de confiança 100(1−α)% e suas
longitudes relativas atráves dos autovetores e autovalores da matriz de covariância amostral Se
. Existem p eixos
no elipsóide e a direção de cada eixo é determinada pelo respectivo autovetor, traçado com Xe
como origem.
Deste modo, começando do centro, determinado por Xe
, os eixos da elipsóide são:
±p
λi
r
p (n −1)n (n −p )
Fp ,n−p (α)
Aula 14
47
48 AULA 14.
Aula 15
Teste para µe
com Σe
desconhecido
Considere o caso univariado em que deseja-se saber se um determminado valor µo é um valor plausível
para a média populacional µ. Formalmente tem-se que,
Ho :µ=µo versus H1 :µ 6=µo .
Assim, para uma amostra aleatória X1, . . . , Xn de uma população normal, a estatística apropriada para esta
testar esta hipótese é:
t =X −µ0
Spn
que tem distribuição tn−1 se H0 for verdadeira. Portanto, rejeita-se a hipótese H0 se |t | > tn−1(α/2) em que
tn−1(α/2) é o α/2 quantil da distribuição de t-student com n − 1 graus de liberdade. Analogamente, conside-
rando agora a distância quadrática da média amostral X para o valor a ser testado, rejeita-se H0 a um nível de
significância α, se
t 2 = n (X −µ0)(S2)−1(X −µ0)≥ F1,n−1(α/2)
em que, F1,n−1(α/2) representa o quantil superior da distribuição F com 1 e n−1 graus de liberdade. Se H0 não
é rejeitada, então se conclui que µ0 é um valor plausível para representar a média populacional. No entanto,
uma pergunta natural pode surgir: existem outros valores deµ que são consistentes com os dados? A resposta
é sim. De fato, existe um conjunto de valores plausíveis que serviriam como média para a população normal
estudada. Da conhecida correspondência entre a região de não rejeição dos testes de hipóteses e o intervalo
de confiança para µ tem-se que não rejeitar H0, isto é,
�
�
�
�
�
X −µ0
Spn
�
�
�
�
�
< tn−1(α/2)
é equivalente a
X − tn−1(α/2)Sp
n<µ0 <X + tn−1(α/2)
Sp
n.
49
50 AULA 15. TESTE PARA µe
COM Σe
DESCONHECIDO
Antes de a amostra ser retirada, o intervalo de confiança é um intervalo aleatório, pois seus limites dependem
das variáveis aleatórias X e S.
Para o caso multivariado, uma generalização da distância quadrática apresentada para o caso univariado
é,
T 2 = n
�
Xe
−µe
0
�t
Se
−1
�
Xe
−µe
0
�
=p
n
�
Xe
−µe
0
�t
∑ni=1
�
Xe
i −Xe
��
Xe
i −Xe
�t
n −1
−1
pn
�
Xe
−µe
0
�
=Np
�
0e
, Σe
�t�
1
n −1Wp ,n−1
�
Σe
�
�
Np
�
0e
, Σe
�
Note que esta expressão é análoga a
t 2 = n (X −µ0)(S2)−1(X −µ0)
=p
n (X −µ0)
∑n
i=1(X i −X )(X i −X )n −1
!−1
(X −µ0)p
n
=N (0,σ)χ2
n−1(σ)
n −1N (0,σ)
para o caso univariado, em que no caso multivariado a distribuição, a distribuição de Wishart Wp ,n−1�
Σe
�
é a
generalização da distribuição Qui-quadrado para o caso multivariado. Visto que Np
�
0e
, Σe
�
e Wp ,n−1�
Σe
�
são
independentes, como no caso univariado, então sua distribuição conjunta é o produto das densidades nor-
mal e Wishart. Deste modo, a distribuição de T 2 pode ser encontrada utilizando, por exemplo, o método do
jacobiano.
A estatística T 2 é chamada de estatística T 2 de Hotelling. Como no caso univariado em que t 2n−1 = F1,n−1, a
estatística T 2 também pode se transformada em um estatística F como segue,
ν −p +1
νpT 2 = Fp ,ν−p+1
Note que o número de variáveis p da estatística T 2 transforma-se no primeiro do dois parâmetros da distri-
buição F. O número dos graus de liberdade de T 2 é denotado por ν . A transformação é dada em termos de um
geral ν , visto que em outras aplicações de T 2 terão ν diferente de n −1.
Desta forma para se testar a hipótese H0 : µe
= µe
0 versus H1 : µe
6= µe
0 para um nível de significância α,
deve-se rejeitar H0 em favor de H1 se
T 2 = n�
Xe
−µe
0
�tSe
−1�
Xe
−µe
0
�
>νp
ν +1−pFp ,ν+1−p (α)
em que neste caso tem-se ν = n −1.
51
Exemplo 15.1 (Johnson and Wichern, pg 229). A transpiração de 20 mulheres saudáveis foi analizada. Três
componentes, X1 = taxa de suor, X2 = quantidade de sódio, e X3 = quantidade de potássio foram medidos e os
resultados são apresentados na Tabela abaixo. Testar a hipótese
Tabela 15.1: Dados sobre a transpiração de mulheres
Taxa de suor Sódio Potássio
3.7 48.5 9.3
5.7 65.1 8.0
3.8 47.2 10.9
3.2 53.2 12.0
3.1 55.5 9.7
4.6 36.1 7.9
2.4 24.8 14.0
7.2 33.1 7.6
6.7 47.4 8.5
5.4 54.1 11.3
Taxa de suor Sódio Potássio
3.9 36.9 12.7
4.5 58.8 12.3
3.5 27.8 9.8
4.5 40.2 8.4
1.5 13.5 10.1
8.5 56.4 7.1
4.5 71.6 8.2
6.5 52.8 10.9
4.1 44.1 11.2
5.5 40.9 9.4
H0 :µe
=
4
50
10
versus H0 :µe
6=
4
50
10
.
Utilize α= 0, 05.
Solução: Tem-se que,
Xe
=
4, 640
45, 400
9, 965
e Se
=
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
Assim,
T 2 = 20
4, 640−4
45, 400−50
9, 965−10
t
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
4, 640−4
45, 400−50
9, 965−10
= 9, 74
O p-valor é dado por: p − v a l or = 0, 065 e (20−1)×320−3
F3,20−3(0, 1) = 8, 17. Portanto rejeita-se a hipótese H0 ao nível
de significância de 10%.
52 AULA 15. TESTE PARA µe
COM Σe
DESCONHECIDO
Programa R 15.1: Teste sobre a transpiração de 20 mulheres
1 t a b l e 5 . 1 = matrix ( scan ( f i l e = ’D: / U l i s s e s /D i s c i p l i n a s ministradas /
A n á l is e Mult ivariada /Dados l i v r o Johnson and Wichern/Table5−1. t x t ’ )
3 , 2 0 , 3 , byrow=TRUE)
# ∗∗∗∗∗∗∗∗∗∗∗∗ Hipótese Ho ∗∗∗∗∗∗∗∗∗∗∗∗∗∗
5 mi . o = c ( 4 , 5 0 , 1 0 )
# ∗∗∗∗∗∗∗∗∗∗∗∗ Vetor de Médias ∗∗∗∗∗∗∗∗∗∗∗∗
7 n = nrow ( t a b l e 5 . 1 )
xbt = ( t ( t a b l e 5 .1)%∗%rep ( 1 , n ) ) /n
9 # ∗∗∗∗∗∗∗∗∗∗∗ Matriz de c o v a r i â n c i a s ∗∗∗∗∗∗∗∗∗
St = t ( t a b l e 5 .1)%∗%( diag ( n)−rep ( 1 , n)%∗% t ( rep ( 1 , n ) ) /n)%∗%t a b l e 5 . 1 / ( n−1)
11 # ∗∗∗∗∗∗∗∗∗∗∗∗∗ E s t a t í s t i c a T^2 de H o t e l l i n g ∗∗∗∗∗∗∗∗∗∗
T2 = n∗ t ( xbt−mi . o)%∗%s o l v e ( St )%∗%(xbt−mi . o )
13 # ∗∗∗∗∗∗∗∗∗∗∗∗∗ P−v a l o r e F_ {p , n−p } ( 0 . 1 ) ∗∗∗∗∗∗∗∗∗∗∗∗∗∗
p . v a l o r = 1 − pf ( T2 ∗ ( n−ncol ( t a b l e 5 . 1 ) ) / ( ( n−1)∗ncol ( t a b l e 5 . 1 ) ) , 3 , n−3)
15 q . a l f a = qf ( 0 . 9 , 3 , n−3)∗(n−1)∗ncol ( t a b l e 5 . 1 ) / ( n−ncol ( t a b l e 5 . 1 ) )
Aula 16
Regiões de confiança e comparações simultâneas
de componentes da média
Seja θe
um vetor de parâmetros populacionais desconhecidos e Θe
o seu espaço paramétrico, isto é, o con-
junto de todos os valores possíveis para θe
. Uma região de confiança é uma região de prováveis valores para
θe
. Esta região R(Xe
) é determinada pelos dados, em que Xe
é a matriz de dados. Assim a região R(Xe
) é dita ter
100(1−α)% de confiança se antes da amostra ser selecionada
P(R(Xe
) cobrir o verdadeiro valor θe
) = 1−α.
O elipsóide de confiança será composto dos pontos µe
para os quais
n�
Xe
−µe
0
�tSe
−1�
Xe
−µe
0
�
≤(n −1)p
n −pFp ,n−p (α)
O elipsóide será centrado no ponto Xe
. Pode-se também calcular os eixos do elipsóide de confiança 100(1−α)%
e suas longitudes relativas atráves dos autovetores e autovalores da matriz de covariância amostral Se
. Existem
p eixos no elipsóide e a direção de cada eixo é determinada pelo respectivo autovetor, traçado com Xe
como
origem. Deste modo, começando do centro, determinado por Xe
, os eixos da elipsóide são:
±p
λi
r
p (n −1)n (n −p )
Fp ,n−p (α)
para ver isso, basta fazer Xe
−µe
0 = cÆ
λi
nee
i , em que
c 2 =(n −1)p
n −pFp ,n−p (α).
Exemplo 16.1. A partir dos dados do Exemplo ??, obter a região de confianca de 95%, e verificar se o ponto
µe
=
4
50
10
53
54 AULA 16. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA
pertence a mesma.
Solução: Do Exemplo ?? tem-se,
Xe
=
4, 640
45, 400
9, 965
e Se
=
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
Portanto a região de confiança é dada por:
20
4, 640−µ1
45, 400−µ2
9, 965−µ3
t
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
4, 640−µ1
45, 400−µ2
9, 965−µ3
≤(20−1)×3
20−3F3,20−7(0, 1) = 8, 17
Assim, para
µe
=
4
50
10
tem-se que
20
4, 640−4
45, 400−50
9, 965−10
t
2, 879 10, 010 −1, 810
10, 010 199, 788 −5, 640
−1, 810 −5, 640 3, 628
4, 640−4
45, 400−50
9, 965−10
= 9, 74
Logo, µe
não pertence ao IC.
16.1 Intervalos de Confiança simultâneos
Apesar de n�
Xe
−µe
�tSe
−1�
Xe
−µe
�
≤ c 2, fornecer corretamente a região de confiança para as médias de
uma população normal p-variada, qualquer resumo de conclusões, em geral, inclui intervalos de confiança
sobre médias individuais.
Seja Xe
∼ N�
µe
, Σe
�
e seja a seguinte combinação linear
Z = ae
t Xe
= a 1X1+ . . .+a p Xp
Assim do Teorema ?? segue que
Z ∼ N�
ae
tµe
, ae
tΣe
ae
�
Seja Xe
1, . . . , Xe
n uma amostra aleatória de Xe
, assim a amostra corresponde de Z’s pode ser criada tomando,
Z j = ae
t Xe
j = a 1X j 1+ . . .+a p X j p
16.1. INTERVALOS DE CONFIANÇA SIMULTÂNEOS 55
a média e a variância amostrais dos valores observados são,
Z = ae
t Xe
e S2Z = a
e
t Se
ae
Agora para ae
fixo e σ2Z desconhecido, segue que um intervalo de confiança 100(1− α)% para µZ = a
e
tµe
é
baseado na distribuição t-Student da estatística
t =Z −µZσZp
n
=
pn (ae
t Xe
−ae
tµe
)p
ae
t Se
ae
.
Assim, um intervalo de confiança 100(1−α)% para µZ = ae
tµe
é dado por
I C (µZ , 100(1−α)%) =�
ae
t Xe
− tn−1
�
α
2
�
p
ae
t Se
ae
, ae
t Xe
+ tn−1
�
α
2
�
p
ae
t Se
ae
�
Agora note que se ae
t = [1, 0, . . . , 0], então ae
tµe
= µ1 e o intervalo de confiança acima se torna o IC usual para
a média. Desta maneira, pode-se construir um IC para cada componente do vetor de médias, mas como já
foi demonstrado anteriormente para o caso de testes de hipótese univariados, o nível de confiança associado
com os intervalos de confiança separados possuem confiança menor que 100(1−α)%.
Agora note que o intervalo de confiança acima pode ser escrito como,
|t |=
�
�
�
�
�
pn (ae
t Xe
−ae
tµe
)p
ae
t Se
ae
�
�
�
�
�
≤ tn−1
�
α
2
�
ou equivalentemente,
t 2 =n (ae
t Xe
−ae
tµe
)2
ae
t Se
ae
=n�
ae
t (Xe
−µe
)�2
ae
t Se
ae
≤ t 2n−1
�
α
2
�
= F1,n−1
�
α
2
�
= c 2
Deseja-se determinar um valor ótimo para c 2, tal que t 2 será relativamente pequeno para todas as escolhas
de ae
. Desta modo, parece ser razoável esperar que a constante c 2 será substituída por um valor maior. Consi-
derando os valores de ae
para o qual t 2 ≤ c 2, tem-se o seguinte problema,
maxae
t 2 =maxae
n�
ae
t (Xe
−µe
)�2
ae
t Se
ae
Pode ser demonstrado que,
maxae
t 2 = n (Xe
−µe
)t Se
(Xe
−µe
) = T 2
Assim,
P(T 2 ≤ c 2) = 1−α⇒ c 2 =p (n −1)Fp ,n−p
�
α2
�
n −p
Portanto, simultaneamente para todo ae
, o intervalo
ae
t Xe
−
È
p (n −1)Fp ,n−p
�
α2
�
n −p
p
ae
t Se
ae
, ae
t Xe
+
È
p (n −1)Fp ,n−p
�
α2
�
n −p
p
ae
t Se
ae
56 AULA 16. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA
irá conter ae
tµe
com probabilidade 1−α.
Deste modo, para ae
t = [1, 0, . . . , 0], ae
t = [0, 1, 0, . . . , 0], . . . , ae
t = [0, . . . , 0, 1] tem-se que,
X i −
È
p (n −1)Fp ,n−p
�
α2
�
n −p
Ç
Si i
n, X i +
È
p (n −1)Fp ,n−p
�
α2
�
n −p
Ç
Si i
n
irá conter µi para todo i = {1, 2, . . . , p} simultaneamente com probabilidade 1−α. Note ainda que, sem qual-
quer modificação do nível de confiança 100(1−α)%, pode-se construir intervalos de confiança para diferenças
µi −µk correspondendo a ae
t = [0, . . . , 0, a i , 0, . . . , 0, a j , 0, . . . , 0] em que a i = 1 e a k =−1.
16.2 Método de Bonferroni
Muitas vezes um pequeno número de intervalos de confiança são necessários. Nestas situações pode-se
ter uma opção melhor do que as comparações simultâneas, obtendo intervalos de confiança menores do que
os intervalo simultâneos. Esta alternativa é conhecida por método de Bonferroni. A seguir é apresentado o
método para obtenção de intervalos de confiança para os componentes de média.
Seja ae
t1µe
, . . . , ae
tmµe
m combinações lineares para as quais se deseja obter seus respectivos intervalos de
confiança. Seja I C i o IC para ae
tiµe
com nível de confiança 100(1−αi )%, assim P(I C i ) = 1−αi e P(I C ci ) = αi ,
para i = 1, 2, . . . , m . Então,
P(∩mi=1I C i ) = 1−P(∪m
i=1I C ci )
≥ 1−m∑
i=1
P(I C ci )
= 1−m∑
i=1
[1−P(I C i )]
= 1−m∑
i=1
[1−1+αi ]
= 1−m∑
i=1
αi
Deste modo, os intervalos de Bonferroni serão construídos de tal forma que a confiança conjunta dos m IC
seja maior ou igual a 1−α. Uma alternativa é escolher cada αi = αm
, assim∑m
i=1αi =α.
Se m = p médias forem consideradas, então, o método de Bonferroni é:
I C
�
µi , 100
�
1−α
p
�
%
�
=
�
X i − tn−1
�
α
2p
�
Ç
Si i
n, X i + tn−1
�
α
2p
�
Ç
Si i
n
�
.
Aula 17
Comparações de vetores de médias para duas
populações
O teste T 2 para a igualdade de vetores média de duas populações pode ser desenvolvido por analogia ao
procedimento univariado. Este teste é apropriado para comparar a resposta média de um grupo experimental
(população 1) com a resposta média “independente” de outro grupo experimental (população 2). Se possível,
as unidades experimentais devem ser sorteadas para cada conjunto de observações de ambas as populações,
o que abrandará o efeito da variabilidade entre unidades na comparação entre tratamentos. Apesar disto, este
tipo de comparação, é em geral, menos preciso do que o caso de comparações pareadas.
17.1 Revisão do teste t para duas populações
Seja X11, . . . , X1n 1 uma amostra aleatória de tamanho n 1 da população 1 com distribuição N (µ1,σ21) e X21, . . . , X2n 2
uma amostra aleatória de tamanho n 2 da população 2 com distribuição N (µ2,σ22). Seja X 1, X 2 as médias amos-
trais e S1,S2 os desvios padrões amostrais. Assumindo que as amostras são independentes e que σ1 =σ2 =σ
comσ desconhecido, tem-se, para testar
H0 :µ1 =µ2 versus H1 :µ1 6=µ2
utiliza-se a estatística,
t =X 1−X 2
Sp
Æ
1n 1+ 1
n 2
que tem distribuição t com n 1+n 2−2 graus de liberdade se H0 for verdadeira. Em que,
S2p =(n 1−1)S2
1+(n 2−1)S22
n 1+n 2−2.
57
58 AULA 17. COMPARAÇÕES DE VETORES DE MÉDIAS PARA DUAS POPULAÇÕES
Logo rejeita-se H0 se |t |> tn 1+n 2−2
�
α2
�
. Similarmente, tem-se que,
t 2 =(X 1−X 2)2
S2p
�
1n 1+ 1
n 2
� =n 1n 2
n 1+n 2(X 1−X 2)(S2
p )−1(X 1−X 2).
Logo, rejeita-se H0 se t 2 > t 2n 1+n 2−2
�
α2
�
= F1,n 1+n 2−2(α).
Observação 17.1. Note que,
σX 1−X 2=p
V a r (X 1−X 2) =p
V a r (X 1)+V a r (X 2)
=
r
σ21
n 1+σ2
2
n 2=
r
σ2
n 1+σ2
n 2
=σ
r
1
n 1+
1
n 2
Logo, Sp é uma estimativa para σX 1−X 2. Note ainda que, E (S2
p ) =σ2 logo, S2
p é um estimador não viciado para
σ2.
17.2 Teste T 2 para duas amostras independentes
Seja Xe
11, . . . , Xe
1n 1 uma amostra aleatória de tamanho n 1 da população 1 com distribuição Np (µe
1,Σe
1) e
Xe
21, . . . , Xe
2n 2 uma amostra aleatória de tamanho n 2 da população 2 com distribuição Np (µe
2,Σe
2). Seja Xe
1, Xe
2
os vetores de médias amostrais e Se
1,Se
2 as matrizes de covariâncias amostrais.
17.2.1 Caso 1 - Σe
1 =Σe
2 =Σe
Desconhecido
Quando as duas populações têm mesma matriz de convariância Σe
e se deseja comparar seus vetores de
médias, então para testar a hipótese H0 : µe
1 = µe
2 ou similarmente H0 : µe
1−µe
2 = 0e
tem-se que a generalização
de t 2 para o caso multivaraiado é a estatística T 2 de Hotelling
T 2 =n 1n 2
n 1+n 2(Xe
1−Xe
2)t Se
−1p (Xe
1−Xe
2)
em que
Se
p =(n 1−1)S
e
1+(n 2−1)Se
2
n 1+n 2−2.
Sob a hipótese H0 tem-se que ν−p+1νp
T 2 tem distribuição Fp ,ν−p+1. Para este caso ν = n 1+n 2−2 assim, n 1+n 2−p−1(n 1+n 2−2)p T 2
tem distribuição Fp ,n 1+n 2−p−1. Deste modo, rejeita-se H0 se
n 1+n 2−p −1
(n 1+n 2−2)pT 2 ≥ Fp ,n 1+n 2−p−1(α)
ou
T 2 ≥(n 1+n 2−2)pn 1+n 2−p −1
Fp ,n 1+n 2−p−1(α)
17.3. TESTE T 2 PARA DUAS AMOSTRAS PAREADAS 59
17.2.2 Caso 2 - Σe
1 6=Σe
2 Desconhecidos
Quando Σe
1 6=Σe
2, a distribuição das estatísticas dependem de uma medida de distância que não são inde-
pendentes das covariâncias populacionais desconhecidas. Por serem desconhecidas as covariâncias popula-
cionais, o teste de Bartlett pode ser usado para testar H0 :Σe
1 =Σe
2. No entanto, este teste é fortemente afetado
se a pressuposição de normalidade for violada. O teste em questão não pode diferenciar entre a ausência
de normalidade e a heterogeneidade das covariâncias. O problema de covariâncias heterogêneas, quando as
amostras são provenientes de populações normais é conhecido como problema de Behrens-Fisher multiva-
riado. Sete soluções para o problema multivariado de Behrens-Fisher foram estudadas por ? por meio de
simulação Monte Carlo, comparando as taxas de erro tipo I e o poder destas soluções. Seis destas aproxima-
ções são: ?, ?, ?, ?, ? e ?.
Quando ambos n 1−p e n 2−p são grandes, pode-se evitar as complicações da desigualdade de variâncias
utilizando a aproximação assintótica. Deste modo, rejeita-se H0 se,
(Xe
1−Xe
2)t�
1
n 1Se
1+1
n 2Se
2
�−1
(Xe
1−Xe
2)≥χ2
p (α)
Exemplo 17.1.
17.3 Teste T 2 para duas amostras pareadas
Em muitas situações experimentais deseja-se testar o efeito ou eficácia de um tratamento. Para isso, me-
didas são tomadas nas unidades experimentais antes e após a aplicação do tratamento. Uma outra situa-
ção em que esta comparação pode ser de interesse é quando na mesma unidade amostral ou experimental
dois tratamentos são aplicados. Estas respostas são denominadas medidas pareadas, e podem ser analisa-
das calculando-se suas diferenças, eliminando a influência da variação entre as unidades experimentais ou
amostrais.
17.3.1 Caso univariado
Seja X1i a resposta do tratamento 1 (ou resposta antes do tratamento) e X2i a resposta do tratamento
2 (ou resposta após o tratamento) para a i -ésima unidade amostral ou experimental, em que (X1i , X2i ) são
medidas tomadas na mesma unidade amostral ou experimental, então as n diferenças Di = X2i −X1i devem
refletir somente o efeito diferencial entre os tratamentos. Supõe-se que as diferenças Di são observações
independentes de uma distribuição N (µD ,σ2D). A estatística para testar esta hipótese
H0 :µD = 0(O tratamento não tem efeito) versus H1 :µD 6= 0
60 AULA 17. COMPARAÇÕES DE VETORES DE MÉDIAS PARA DUAS POPULAÇÕES
é,
t =DSDp
n
que tem distribuição t com n −1 graus de liberdade se H0 for verdadeira. Em que,
D =1
n
n∑
i=1
Di e S2D =
1
n −1
n∑
i=1
(Di −D)2.
Logo rejeita-se H0 se |t |> tn−1
�
α2
�
. Similarmente, tem-se que,
t 2 =D
2
S2D
n
= nD(S2D)−1D.
Logo, rejeita-se H0 se t 2 > t 2n−1
�
α2
�
= F1,n−1(α).
17.3.2 Caso multivariado
Seja Xe
1i representa a resposta do tratamento 1 (ou resposta antes do tratamento) e Xe
2i a resposta do tra-
tamento 2 (ou resposta após o tratamento). Seja De
i =Xe
2i −Xe
1i as n diferenças. Supõe-se aqui também que as
diferenças De
i são observações independentes de uma distribuição Np (µe
D ,Σe
2D). Assim, para testar a hipótese,
H0 :µe
D = 0e
(O tratamento não tem efeito) versus H1 :µe
D 6= 0e
tem-se que a estatística do teste é,
T 2 = nDe
Se
−1D De
que tem distribuição (n−1)pn−p
Fp ,n−p . Deste modo, rejeita-se H0 se
T 2 >(n −1)p
n −pFp ,n−p (α)
Aula 18
Análise de Componentes Principais
A análise de componentes principais tem como objetivos:
• redução da dimensão original;
• facilitação da interpretação das análises realizadas.
Em geral, a explicação de toda a variabilidade do sistema determinado por p variáveis só pode ser efetuada
por p componentes principais. No entanto, uma grande parte dessa variabilidade pode ser explicada por
um número k menor de componentes, k < p . Os componentes principais são uma técnica de análise in-
termediária e, portanto não se constituem em um método final e conclusivo. Esse tipo de análise se presta
fundamentalmente como um passo intermediário em grandes investigações científicas.
Essa técnica pode ser aplicada em:
1. análise de regressão múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;
2. análise de agrupamento;
3. como estimadores de fatores na Análise fatores comums;
4. Ordenação dos elementos amostrais;
Uma componente principal é uma combinação linear das variáveis originais. As componentes principais,
que denotaremos por Y1, . . . , Yp com matriz de covariancia Λe
, são obtidas de tal forma que:
1. Sejam não correlacionadas, isto é, Cov (Yi .Yj ) = 0; Se as variáveis originais tiverem distribuição normal
p-variada então as componentes principais serão independentes;
2. A variância generalizada do vetor de componentes principais é igual variância generalizada do vetor de
variáveis originais, isto é,
|Λe
|= |Σe
|=p∏
i=1
λi ;
61
62 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS
3. A variância total do vetor de componentes principais é igual variância total do vetor de variáveis origi-
nais, isto é,
t r (Λe
) = t r (Σe
) =p∑
i=1
λi .
Assim, seja,
Xe
=
X1
...
Xp
então p componentes principais podem ser obtidas, como Ye
= Ae
Xe
, isto é,
Ye
=
Y1
...
Yp
=
a 11 a 21 . . . a p 1
a 12 a 22 . . . a p 2
. . . . . . . . . . . . . . . . . . . .
a 1p a 2p . . . a p p
X1
...
Xp
Agora note que, como as componentes principais são não correlacionadas, segue que,
Λe
=
Λ11 0 . . . 0
0 Λ22 . . . 0
. . . . . . . . . . . . . . . . . . .
0 0 . . . Λp p
como |Λe
|=∏p
i=1λi , segue que,
Λ=
λ1 0 . . . 0
0 λ2 . . . 0
. . . . . . . . . . . . . . . .
0 0 . . . λp
Agora, note também que
V a r (Ye
) = Λe
=V a r (Ae
Xe
) = Ae
V a r (Xe
)Ae
t = Ae
Σe
Ae
t
Assim,
Λe
=
ae
t1Σe
ae
1 ae
t1Σe
ae
2 . . . ae
t1Σe
ae
p
ae
t2Σe
ae
1 ae
t2Σe
ae
2 . . . ae
t2Σe
ae
p
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ae
tpΣe
ae
1 ae
tpΣe
ae
2 . . . ae
tpΣe
ae
p
Assim, tem-se que
ae
tiΣe
ae
i = ae
ti
p∑
i=1
λi ee
i ee
ti ae
i =λi
63
e
ae
tiΣe
ae
j = ae
ti
p∑
i=1
λi ee
i ee
i ae
j = 0
para i 6= j . Destas relações segue que, ae
i = ee
i .
Geometricamente, essas combinações lineares representam a seleção de novos eixos coordenados, os
quais são obtidos por rotações do sistema de eixos original, representados por X1, · · · , Xp . Os novos eixos
representam as direções de máxima variabilidade.
Como foi demonstrado, os componentes principais dependem somente da matriz de covariância Σe
(ou
da matriz de correlação ρ) e de X1, . . . , Xp . Seu desenvolvimento também não requer pressuposições de nor-
malidade multivariada.
Definição 18.1. A proporção da variância total que é explicada pelas k primeiras componentes principais é
dada por,∑k
i=1 V a r (Yi )t r (Σe
)=
∑ki=1λi
∑pi=1λi
.
Em muitas situações em que se aplicam os componentes principais se uma porcentagem de 70% ou mais
for atribuída aos primeiros k componentes principais, então, esses podem substituir as p variáveis originais
sem perda de uma quantidade demasiada de informações. A determinação dessa porcentagem da variação
explicada pelos primeiros k componentes deve ser feita pelo pesquisador interessado e que possui maior
conhecimento da área estudada. A determinação do número k de componentes para que uma determinada
porcentagem fixada da informação seja contemplada por eles é um dos problemas que dificulta o emprego
dessa metodologia.
Os componentes do autovetor podem informar sobre a importância das variáveis para o i-ésimo compo-
nente principal, por meio de suas magnitudes. No entanto, esses componentes são influenciados pela escala
das variáveis. Para contornar tal problema, os pesquisadores podem utilizar uma importante medida de asso-
ciação, a qual não depende da magnitude das mensurações (escala) das variáveis originais, que é o coeficiente
de correlação entre Yi e Xk que é dado por,
ρ =Cov (Yi , Xk )
p
V a r (Yi )V a r (Xk )=
Cov (ee
ti Xe
, le
t Xe
)p
V a r (Yi )V a r (Xk )
em que le
= (0, . . . , 1, 0, . . . , 0)t . Assim,
ρ =ee
tiΣe
le
t
p
λiσk k
=λi e i kp
λiσk k
=
p
λi e i kpσk k
.
Observação 18.1. Um problema que pode ser encontrado a análise de componentes principais é quando existe
uma discrepância muito grande entre as variâncias das variáveis originais, pois isso irá influenciar na compo-
nentes principais que serão obtidas. Este problema pode ser contornado por exemplo fazendo uma padroniza-
64 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS
ção nas variáveis originais. Deste modo, a matriz de covariancia das variáveis padronizadas será a matriz de
correlação das variáveis originais.
Portanto, para Zi =X i−µi
σi, tem-se que Yi = e
e
ti Ze
em que ee
i é um autovetor da matriz de correlação. A
variância de Yi é igual a λi em que λi é um autovalor da matriz de correlação e a correlação entre Yi e Zk é
dado por,
ρ =p
λi e i k .
A proporção da variância total que é explicada pelas k primeiras componentes principais é igual a∑k
i=1λi
p.
Exemplo 18.1. Considere a seguinte matriz de covariância,
Σe
=
1 4
4 100
e sua respectiva matriz de correlação,
ρe
=
1 0.4
0.4 1
Programa R 18.1: Região crítica para o teste multivariado
1 S ig = matrix ( c ( 1 , 4 , 4 , 1 0 0 ) , 2 , 2 )
rho = matrix ( c ( 1 , 0 . 4 , 0 . 4 , 1 ) , 2 , 2 )
3
> eigen ( S ig )
5 $values
[1 ] 100.1613532 0.8386468
7
$ v e c t o r s
9 [ , 1 ] [ , 2 ]
[1 , ] 0.04030552 0.99918740
11 [2 , ] 0.99918740 −0.04030552
13
> eigen ( rho )
15 $values
[1 ] 1 . 4 0 . 6
17
$ v e c t o r s
19 [ , 1 ] [ , 2 ]
65
[1 , ] 0.7071068 0.7071068
21 [2 , ] 0.7071068 −0.7071068
Deste modo, as respectivas componentes principais são dadas por:
• Para Σe
Y1 = 0, 040X1+0, 999X2
Y2 = 0, 999X1−0, 040X2
• Para ρe
Y1 = 0, 707Z1+0, 707Z2
Y2 = 0, 707Z1−0, 707Z2
em que Zi =X i−µi
σi
Note que devido a variância de X2 ser bem maior que a variância de X1, X2 domina completamente a primeira
componente principal. Note também que, a proporção de variância explicada pela primeira componente prin-
cipal é,λ1
λ1+λ2=
100, 16
101= 0, 992
Entretanto quando a variável é transformada, verifica-se que ambas as variáveis tem peso igual na primeira
componente principal, isto pode ser visto calculando-se as correlações entre as componentes e as variáveis,
ρY1,Z1 = e11
p
λ1 = 0, 707×p
1, 4= 0.837 e ρY1,Z2 = e12
p
λ1 = 0, 707×p
1, 4= 0.837
e neste caso, a proporção de variância explicada pela primeira componente principal é,
λ1
λ1+λ2=
1, 4
2= 0, 7.
Pequenos valores para os últimos autovalores, tanto de S como de R, indicam, em geral, a presença de
dependência linear no conjunto de dados. Neste contexto pelo menos uma variável é redundante e pode ser
eliminada do conjunto de variáveis originais.
Existe sempre a questão importante de o número de componentes a ser retido. Não existe uma resposta
definitiva para essa questão. Os aspectos que devem ser considerados incluem a quantidade da variação
amostral explicada, o tamanho relativo dos autovalores e a interpretação subjetiva dos componentes. Uma
ferramenta visual importante para auxiliar a determinação de o número suficiente de componentes a ser re-
tido é o "‘scree plot"’. O termo "‘scree"’ refere-se ao acumulo de rochas nas bases de um penhasco, portanto
os "‘scree plots"’ serão considerados "‘gráficos de cotovelos"’. Na Figura ?? observa-se que um cotovelo é
66 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS
formado aproximadamente na posição i=4. Isso significa que os componentesacima de bλ3 possuem aproxi-
madamente a mesma magnitude e são relativamente pequenos. Isso indica que os três primeiros, talvez os
quatros primeiros componentes são suficientes para resumir a variação amostral total.
Figura 18.1: "‘Scree plot"’ de um exemplo com p=6 componentes principais para ilustrar o processo de de-
terminação de o número apropriado de componentes a ser retido.
Apêndice A
Lista 1
1. Considere oito pares de medidas de duas variáveis X1 e X2:
X1 -6 -3 -2 1 2 5 6 8
X2 -2 -3 1 -1 2 1 5 3
a. Trace um diagrama de dispersão e calcule Xe
e Se
;
b. Admitindo uma rotação de 26 nos eixos originais, transforme os pontos para
ex1 = x1cos(θ )+x2sen(θ )
ex2 =−x1sen(θ )+x2cos(θ ).
Calcule eXe
e eSe
;
c. Considere P = (4,−2), transforme para eP = (ex1, ex2) e calcule a distância estatística para a origem do
sistema usando,
d (O, eP) =
r
ex 21
es11+ex 2
2
es22;
d. Calcule a distância generalizada dos pontos xe
i à sua média xe
d (xe
i ,xe
) =p
(xe
i −xe
)t Se
−1(xe
i −xe
)
2. Seja Xe
=
3 4 5 4
6 4 7 7
. Encontre os valores dos estimadores de máxima verossimilhança de µ
e
e Σe
;
3. Análise a normalidade dos dados abaixo.
67
68 APÊNDICE A. LISTA 1
Referências Bibliográficas
BENNETT, B.M. (1951). Note on a solution of the generalized Behrens-Fisher problem. Annals of the Institute
of Statistical Mathematics 2, 97-90.
CHRISTENSEN, W.F.; RENCHER, A.C. (1997). A comparison of type I rates and power levels for seven solutions
to the multivariate Behrens-Fisher problem. Communication in Statistics: Simulation and Computation 26,
no. 4, 1251-1273.
Dillon, W., Goldstein, M. (1984). Multivariate Analysis. New York: John Wiley & Sons.
Graybill, F. A. (1976). Theory and Applications of the Linear model. Duxbury.
JAMES, G.S. 1954. Tests of linear hypotheses in univariate and multivariate analysis when the ratios of the
population variances are unknown, Biometrika 41, 19-43.
JOHANSEN, S. (1980). The Welch-James approximation to the distribution of the residual sum of squares in a
weighted linear regression, Biometrika 67, no.1, 85-92.
KIM, S. (1992). A practical solution to the multivariate Behrens-Fisher problem, Biometrika 79, no.1, 171-176.
NEL, D.G.; Van der MERWE, C.A. (1986). A solution to the multivariate Behrens-Fisher problem.
Communications in Statistics: Theory and Methods 15, 3719-3735.
Análise da percepção sobre assentos de trabalho utilizando técnicas estatísticas multivariadas. Produção 13,
34-49.
Scheaffer, R.L., Mendenhall, W., Ott, L. Elementary survey sampling. Boston: PWS-KENT Publishing Company,
1996.
Rao, C. R. (1966). Covariance adjustment and related problems in multivariate analysis, in Multivariate Analy-
sis, P. Krishnaiah (ed.), Academic Press, 87-103.
Shapiro, S. S., Wilk,M. B.(1965). An analysis of variance test of normality, Biometrika 52, no. 4, 591-611.
69
70 REFERÊNCIAS BIBLIOGRÁFICAS
YAO, Y. (1965). An approximate degrees of freedom solution to the multivariate Behrens-Fisher problem. Bio-
metrika 52, no.1, 139-147.
Top Related