notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Transcript

Sumário

Aula 1

Introdução

A Análise Multivariada é um conjunto de métodos estatísticos utilizados em situações nas quais várias

variáveis são medidas simultaneamente, em cada elemento amostral. Em geral, as variáveis são correlaciona-

das entre si, e quanto maior o número, mais complexa torna-se a análise por métodos comuns de estatística

univariada. A escolha dos métodos e o tipo de análise a ser processado são muitas vezes determinados pelos

objetivos do estudo empreendido pelo pesquisador. A seguir listamos alguns objetivos da pesquisa científica

que podem levar ao uso da análise multivariada:

1. Redução dos dados ou simplificação de sua estrutura: propiciar mais fácil interpretação dos dados;

2. Partição ou agrupamento: identificar grupos de unidades similares ou de grupos de variáveis similares,

estabelecer regras para classificar unidades em grupos bem definidos;

3. Análise de dependência entre variáveis: Verificar se uma ou mais variáveis dependem(e como) de ou-

tras;

4. Predição: relações entre variáveis podem ser determinadas com o propósito de predizer valores de uma

ou mais variáveis com base na observação de outras;

5. Construção de hipóteses e testes: para reforçar convicções preliminares ou para validar hipóteses ini-

ciais.

A seguir são apresentados alguns exemplos de aplicação da Análise Multivariada.

Construção de Índices. Em muitas situações, coletam-se um conjunto de variáveis que descrevem um fenô-

meno, com o intuito de construir algum índice relativo a sua quantificação. A função básica do índice

é a de sintetizar em uma única variável a informação de todas as variáveis que foram medidas sobre o

fenômeno, sendo que seus valores podem ser analisados por métodos da Estatística Univariada. Técni-

cas como Análise de Componentes Principais, Análise Fatorial e Análise de correlações Canônicas são

Page 3: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

2 AULA 1. INTRODUÇÃO

úteis na construção desses índices. Alguns exemplos de índices são: índice de inflação(por ex.: IGP-M

e IPCA), de desemprego, de qualidade de vida, risco Brasil(por ex.: EMBI+ Brasil, calculado pelo Banco

JP Morgan Chase). Muitos outros exemplos aparecem em pesquisa de mercado, veja ?, em ergonomia

Classificação e discriminação. Muitas são as situações nas quais se tem um conjunto de dados e se busca

uma divisão desses dados em grupos, de modo que dentro dos grupos os elementos sejam os mais

homogêneos possíveis e entre os grupos os elementos sejam os mais heterogêneos possíveis. O exemplo

mais comum é o da amostragem aleatória estratificada, veja ?. A técnica de análise de agrupamento ou

"‘cluster"’ constitui uma ferramenta indispensável neste processo de partição dos dados em grupos.

Page 4: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 2

Vetores aleatórios

Um vetor aleatório é um vetor cujos elementos são variáveis aleatórias. Similarmente, uma matriz alea-

tória é uma matriz cujos elementos são variáveis aleatórias. Os vetores aleatórios são também chamados de

variáveis aleatórias multidimensionais.

O valor esperado de uma matriz aleatória é uma matriz consistindo dos valores esperados de cada um de

seus elementos. Seja Xe

uma matriz aleatória p ×n ,

X11 X12 . . . X1n

X21 X22 . . . X2n

. . . . . . . . . . . . . . . . . . . .

Xp 1 Xp 2 . . . Xp n

então

E�

�

E (X11) E (X12) . . . E (X1n )

E (X21) E (X22) . . . E (X2n )

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

E (Xp 1) E (Xp 2) . . . E (Xp n )

se existirem os valores esperados E (X i j ). Se Xe

e Ye

são matrizes aleatórias com mesma dimensão e Ae

e Be

são

matrizes constantes adequadas então

E�

+Ye

�

= E�

�

+E�

�

E�

�

= Ae

E�

�

Page 5: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

4 AULA 2. VETORES ALEATÓRIOS

2.1 Vetor de médias e matriz de covariância

Seja Xe

um vetor aleatório p × 1, com E (X i ) = µi , i = 1, . . . , p , Cov (X i , X j ) = E�

(X i −µi )(X j −µj )�

= σi j ,

i , j = 1, . . . , p , então

E�

�

=µe

µ1

µ2

...

µp

Cov�

�

= Eh

�

−µe

��

−µe

�ti

=Σe

σ11 σ12 . . . σ1p

σ21 σ22 . . . σ2p

. . . . . . . . . . . . . . . . . . . .

σp 1 σp 2 . . . σp p

Note que, σi j = σj i portanto a matriz é simétrica e que para i = j σi i = σ2i . Além disso, a matriz de covari-

âncias é não negativa definida(n.n.d), isto é, ae

tΣe

≥ 0 para todo vetor de constantes ae

p×1 ∈Rp (Ex.: verificar!)

p×1. Esta condição implica que os autovalores da matriz de covariâncias Σe

p×p denotados por λ1, . . . ,λp , são

negativos, isto é, λi ≥ 0, para todo i = 1, . . . , p (Ex.: verificar!). Algumas matrizes de covariâncias são positivas

definidas(p.d), isto é, ae

tΣe

> 0 para todo vetor de constantes ae

p×1 ∈Rp , em que ae

é não nulo. Neste caso, os

autovalores da matriz de covariâncias Σe

p×p são todos positivos , isto é, λi > 0, para todo i = 1, . . . , p e portanto

a matriz Σe

p×p terá sua inversa denotado por Σe

−1p×p . Conseqüentemente, tem-se que

Σe

−1p×pΣe

p×p = Ie

p×p

em que Ie

p×p é a matriz identidade.

Observação 2.1. A condição para que a matriz Σe

p×p seja positiva definida implica que a variância de combi-

nações lineares construídas com componentes do vetor Xe

p×1 é sempre não negativa.

2.2 Matriz de correlação

Uma medida de associação linear entre X i e X j é dada pelo coeficiente de correlação linear,

ρi j =σi j

pσi iσj j

Page 6: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

2.3. MATRIZ DE COVARIÂNCIA PARTICIONADA 5

A matriz de correlação,

ρe

1 ρ12 . . . ρ1p

ρ21 1 . . . ρ2p

. . . . . . . . . . . . . . . . . . . .

ρp 1 ρp 2 . . . 1

pode ser obtida por,

ρe

=Ve

− 12Σe

− 12 .

Daí segue que,

Σe

=Ve

12ρe

12 .

em que,

12 =

pσ11 0 . . . 0

0pσ22 . . . 0

. . . . . . . . . . . . . . . . . . . . . . . . . .

0 0 . . .pσp p

é a matriz de desvios padrão.

2.3 Matriz de covariância particionada

Freqüentemente as características observadas num experimento podem ser classificados em dois gru-

pos. Por exemplo, em observando-se estudantes, as variáveis sócio econômicas podem formar um grupo,

enquanto que o desempenho escolar é composto por outro grupo de variáveis. Em geral, particionado o vetor

em dois grupos de variáveis, digamos Xe

(1)q×1 e X

(2)(p−q )×1, obtém-se

E�

�

E�

(1)q×1

�

— — — —

E�

(2)(p−q )×1

�

µe

(1)

— — —

µe

(2)

Cov�

�

= Eh

�

−µe

��

−µe

�ti

=Σe

Page 7: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

6 AULA 2. VETORES ALEATÓRIOS

Cov�

�

=Cov

(1)

— — — —

(2)

= E

(1)q×1−µ

(1)

— — — —

(2)(p−q )×1−µ

(2)

(1)q×1−µ

(1)

— — — —

(2)(p−q )×1−µ

(2)

= E

�

(1)q×1−µ

(1)��

(1)q×1−µ

(1)�t �

(1)q×1−µ

(1)��

(2)(p−q )×1−µ

(2)�t

�

(2)(p−q )×1−µ

(2)��

(1)q×1−µ

(1)�t �

(2)(p−q )×1−µ

(2)��

(2)(p−q )×1−µ

(2)�t

E�

�

(1)q×1−µ

(1)��

(1)q×1−µ

(1)�t �

E�

�

(1)q×1−µ

(1)��

(2)(p−q )×1−µ

(2)�t �

E�

�

(2)(p−q )×1−µ

(2)��

(1)q×1−µ

(1)�t �

E�

�

(2)(p−q )×1−µ

(2)��

(2)(p−q )×1−µ

(2)�t �

Σe

11 | Σe

— — — —

Σe

21 | Σe

Page 8: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 3

Teorema da decomposição Espectral

Este teorema é de fundamental importância em estatística multivariada. Ele relaciona uma matriz si-

métrica com seus autovalores e autovetores. Como, Σe

será sempre uma matriz simétrica, apresentaremos o

teorema para o caso particular em que temos uma matriz de covariâncias.

Teorema 3.1. Seja Σe

p×p uma matriz de covariâncias. Então, Σe

pode ser expresso em termos do seus p pares de

autovalores-autovetores (λi , ee

i ) como,

Σe

=p∑

i=1

λi ee

i ee

ti .

Isto implica que,

(i)�

�Σe

�

�=∏p

i=1λi ;

(ii) t r�

Σe

�

=∑p

i=1λi .

Exemplo 3.1. Considere a seguinte matriz,

Σe

8 −2

−2 5

Então, os autovalores desta matriz são dados por:

�

�Σe

2×2−λIe

2×2

�

�=

�

8 −2

−2 5

−λ

1 0

0 1

�

8−λ −2

−2 5−λ

�

= 0

assim,

(8−λ)(5−λ)−4= 0,

logo, λ1 = 9 e λ2 = 4. Os autovetores correspondentes são dados por,

Σe

1 =λ1ve

Page 9: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

8 AULA 3. TEOREMA DA DECOMPOSIÇÃO ESPECTRAL

Assim,

8 −2

−2 5

v11

v12

= 9

v11

v12

8v11−2v12

−2v11+5v12

9v11

9v12

⇒

−v11−2v12 = 0

−2v11−4v12 = 0⇒ v11 =−2v12

Uma solução possível é,

1 =

−2

assim,

t1ve

1 =p

(−2)2+(1)2 =p

Portanto, o autovetor ee

1 correspondente a λ1 é,

1 =

−2p5

1p5

Para λ2 = 4 tem-se que,

Σe

2 =λ2ve

Assim,

8 −2

−2 5

v21

v22

= 4

v21

v22

8v21−2v22

−2v21+5v22

4v21

4v22

⇒

4v21−2v22 = 0

−2v21+v22 = 0⇒ 2v21 = v22

Uma solução possível é,

2 =

assim,

12+22 =p

Portanto, o autovetor ee

2 correspondente a λ2 é,

2 =

1p5

2p5

Agora note que,

Page 10: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

3.1. DERIVADAS DE MATRIZES E VETORES 9

1. ee

t1ee

1 = ee

t2ee

2 = 1;

2. ee

t1ee

2 = ee

t2ee

1 = 0;

2∑

i=1

λi ee

i ee

ti = 9

−2p5

1p5

�

−2p5

1p5

�

1p5

2p5

�

1p5

2p5

�

= 9

−25

8 −2

−2 5

=Σe

4. A variância generalizada é dada por: λ1×λ2 = 9×4= 36=�

�Σe

�

�;

5. A variância total é dada por: λ1+λ2 = 9+4= 13= t r�

Σe

�

6. A inversa de Σe

é dada por,

Σe

−1 =2∑

i=1

λiee

i ee

−25

536

236

836

3.1 Derivadas de matrizes e Vetores

As derivadas de funções envolvendo vetores e matrizes são necessárias em inúmeras aplicações na mul-

tivariada e em outras áreas. Apesar de ser possível escrever essas mesmas funções em uma forma expandida

e tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é vantajoso definir regras

que retenham vetores e matrizes na notação (Bock, 1975). A seguir são apresentadas as principais regras de

diferenciação vetorial e matricial.

3.2 Derivadas de matrizes de funções em relação a variáveis escalares

Seja Ae(m×n )

uma matriz m×n cujos elementos são funções diferenciáveis com relação a uma variável escalar

X . A derivada de Ae

em relação a X é uma matriz m ×n :

∂ Ae

∂ X=

∂ a 11

∂ X. . . ∂ a 1n

∂ X

. . . . . . . . . . . . . . . .

∂ a m 1

∂ X. . . ∂ a m n

∂ X

Page 11: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

10 AULA 3. TEOREMA DA DECOMPOSIÇÃO ESPECTRAL

Seja Ae(m×n )

uma matriz m × n e Be(p×q )

uma matriz p × q duas matrizes cujos elementos são funções di-

ferenciáveis em X . Para cada caso abaixo, são adotadas dimensões tais que as operações matriciais sejam

conformáveis.

∂ (Ae

+ Be

)

∂ X=∂ Ae

∂ X+∂ Be

∂ Xpara m = p e n =q

∂ (Ae

)

∂ X= Ae

∂ (Be

)

∂ X+∂ (Ae

)

∂ XBe

para n = p

∂ (Ae

−1)

∂ X=−A

−1∂ Ae

∂ XAe

−1 para m = n e�

�

�Ae

�

� 6= 0

Observação 3.1. Continuar com as notas do capítulo 2 Daniel Furtado e página 68 de Härdle e Simar

Page 12: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 4

Distribuição Normal Multivariada

A generalização da densidade normal univariada para várias dimensões tem um fundamental papel na

análise multivariada. Enquanto dados reais nunca são exatamente multivariados, a densidade normal é

freqüentemente uma aproximação útil para a verdadeira distribuição da população.

Uma vantagem da distribuição normal multivariada é que ela é matematicamente tratável e dela podem

ser obtidos resultados interessantes. Mas, estatísticamente, duas outras razões são as que indicam o uso da

distribuição normal: Primeira, distribuições amostrais de muitas estatísticas multivariadas são aproximada-

mente normais, devido ao efeito do Teorema Central do Limite. Em segundo lugar, a distribuição normal

serve como modelo aproximado em muitos problemas reais.

4.1 A densidade normal multivariada e suas propriedades

Sabe-se que a distribuição normal univariada, com média µ e variância σ2, tem função densidade de

probabilidade,

f (x ) =1

p2πσ2

exp�x −µσ

�2

, −∞< x <∞.

A densidade da normal multivariada é uma generalização da densidade normal multivariada para dimensões

p ≥ 2. O termo,�x −µσ

�2

= (x −µ)�

σ2�−1(x −µ)

no expoente da densidade da normal univariada, que é o quadrado da distância do ponto x a µ em unidades

do desvio padrãoσ, pode ser generalizado para um vetor de observações xe

p×1 como

�

−µe

�tΣe

−1�xe

−µe

�

Page 13: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

12 AULA 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA

que é a distância de Mahalanobis do vetor xe

ao vetro de médias µe

, quando Σe

admite inversa, caso contrário a

densidade não estará bem definida. O termo,

2πσ2=�

2π�− 1

2�

σ2�− 12

também pode ser generalizado como,

�

2π�− p

2�

�Σe

�

− 12

em que�

�Σe

�

� é a variância generalizada do vetor aleatório Xe

. Assim, para Σe

positiva definida(implica que�

�Σe

�

� 6=

0), a função densidade da normal multivariada será dada por,

f (xe

) =�

2π�− p

2�

�Σe

�

− 12 exp

�

−1

�

−µe

�tΣe

−1�xe

−µe

�

para −∞< x i <∞, i = 1, . . . , p . Notação: Xe

∼Np�

µe

,Σe

�

Utilizando o teorema da decomposição espectral, a função densidade da normal multivariada pode ser

expressa como,

f (xe

) =�

2π�− p

2�

�Σe

�

− 12 exp

−1

�

−µe

�t

p∑

i=1

λiee

i ee

�

−µe

�

=�

2π�− p

2�

�Σe

�

− 12 exp

−1

p∑

i=1

λi

�

−µe

�t ee

i ee

�

−µe

�

=�

2π�− p

2�

�Σe

�

− 12 exp

−1

p∑

i=1

λi

�

−µe

�t ee

�2

Se com exceção da diagonal principal, todos os elementos de Σe

forem zero, isto é, todas as covariâncias

forem zero, as p componentes de Xe

serão independentes, pois nesse caso teremos(verificar!),

f (xe

) = f 1(x1) f 2(x2) · · · f p (xp ).

A densidade da normal multivariada é constante nas superfícies onde a distância�

− µe

�tΣe

−1�

− µe

�

constante. Esse corte é chamado de contorno.

O contorno de uma densidade de probabilidade constante é a superfície de um elipsóide centrado em µe

é igual ao conjunto de pontos,n

∈Rp :�

−µe

�tΣe

−1�xe

−µe

�

= c 2o

Esses elipsóides têm eixos ±cp

λi ee

i , onde (λi , ee

i ) é um par de autovalor-autovetor da matriz Σe

. De fato, para

Page 14: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

4.1. A DENSIDADE NORMAL MULTIVARIADA E SUAS PROPRIEDADES 13

−µe

= cp

λi ee

i tem-se que, para i = 1,

�

−µe

�tΣe

−1�xe

−µe

�

=p∑

i=1

λi

�

−µe

�t ee

�2

=p∑

i=1

λi

λi ee

t1ee

λ1c 2λ1

t1ee

1︸︷︷︸

λ2c 2λ2

t1ee

2︸︷︷︸

= c 2

e para i = 2,

�

−µe

�tΣe

−1�xe

−µe

�

=p∑

i=1

λi

λi ee

t2ee

λ1c 2λ1

t2ee

1︸︷︷︸

λ2c 2λ2

t2ee

2︸︷︷︸

= c 2

Page 15: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

14 AULA 4. DISTRIBUIÇÃO NORMAL MULTIVARIADA

Page 16: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 5

Exemplo 5.1. Vamos determinar os eixos do contorno de uma densidade de probabilidade constante para uma

normal bivariada quandoσ11 =σ22. Assim,

�

σ11 σ12

σ21 σ22

−λ

1 0

0 1

�

σ11−λ σ12

σ12 σ11−λ

�

=�

σ11−λ�2−σ2

12 =�

λ−σ11−σ12��

λ−σ11+σ12�

= 0

Portanto, λ1 =σ11+σ12 e λ2 =σ11−σ12. Os autovetores associados são dados por,

Σe

1 =λ1ve

Assim,

σ11 σ12

σ21 σ22

v11

v12

= (σ11+σ12)

v11

v12

σ11v11+σ12v12

σ12v11+σ11v12

(σ11+σ12)v11

(σ11+σ12)v12

⇒

−σ12(v11−v12) = 0

−σ12(v11−v12) = 0⇒ v11 = v12

Assim,

t1ve

1 =p

v 211+v 2

11 =p

v 212+v 2

12 = v11

p2= v12

Portanto, o autovetor ee

1 correspondente a λ1 é,

1 =

1p2

Similarmente, para λ2 =σ11−σ12 tem-se que

2 =

1p2

− 1p2

Page 17: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

16 AULA 5.

Quando a covariância σ12 ou correlação ρ12 é positiva, λ1 = σ11 +σ12 é o maior autovalor, e seu autovetor

associado ee

1 cai ao longo da linha de 45, pois,

cosθ =ie

t ee

t ie

t1ee

1p2

02+12

2×�

1p2

�2=

0+ 1p2

1×1≈ 0, 707⇒ θ = 45

através do ponto µe

t = [µ1,µ2]. Visto que os eixos da elipse de densidade constante são dados por ±cp

λ1ee

e ±cp

λ2ee

2 e cada autovetor tem tamanho unitário, o maior eixo estará associado com o maior autovalor.

Portanto, para variaveis aleatórias normais positivamente correlacionadas o maior eixo cairá ao longo da linha

de 45 através do ponto µe

t = [µ1,µ2]. Quando a covariância σ12 ou correlação ρ12 é negativa, λ2 = σ11 −σ12

será o maior autovalor e seu autovetor associado ee

2 cairá ao longo da linha de 45. Portanto, para variaveis

aleatórias normais negativamente correlacionadas o maior eixo cairá ao longo da linha de 45 através do ponto

µe

t = [µ1,µ2]. Estes resultados são válidos somente quandoσ11 =σ22.

5.1 Propriedades Adicionais da Distribuição Normal Multivariada

Certas propriedades da distribuição normal serão utilizadas repetidamente. Estas propriedades possibili-

tam uma manipulação fácil da distribuição normal.

Teorema 5.1. Seja Xe(p×1)

um vetor aleatório e ae(p×1)

um vetor constante. Então qualquer combinação linear ae

t Xe

a 1X1+a 2X2+ · · ·+a p Xp tem distribuição N�

tµe

, ae

tΣe

�

se e somente se Xe

p×1 tem distribuição Np�

µe

, Σe

�

, para

todo vetor constante ae

p×1.

Demonstração. Note que,

E�

t Xe

�

= ae

t E�

�

= ae

tµ

V a r�

t Xe

�

= E

�

t Xe

−ae

tµ

��

t Xe

−ae

tµ

�t�

= E

�

t �Xe

−µe

��

−µe

�t ae

�

= ae

t E

�

−µe

��

−µe

�t�

= ae

tΣe

Teorema 5.2. Se Xe(p×1)

tem distribuição Np�

µe

, Σe

�

então, Ae(q×p )

Xe(p×1)

tem distribuição Nq�

µe

, Ae

Σe

t�

, para toda

matriz constante Ae(q×p )

. Tem-se também que, Xe(p×1)+ d

e(p×1)tem distribuição Np

�

µe

+de

, Σe

�

, para todo vetor cons-

tante de(p×1)

Page 18: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

5.1. PROPRIEDADES ADICIONAIS DA DISTRIBUIÇÃO NORMAL MULTIVARIADA 17

Exemplo 5.2. Seja Xe

∼N3�

µe

, Σe

�

então a distribuição conjunta de Y1 =X1−X2 e Y2 =X2−X3 é Ye

∼N2�

µe

, Ae

Σe

t�

em que,

X1−X2

X2−X3

1 −1 0

0 1 −1

=Ae

(2×3)Xe

(3×1)

Σe

t =

1 −1 0

0 1 −1

σ11 σ12 σ13

σ12 σ22 σ23

σ13 σ23 σ33

1 0

−1 1

0 −1

σ11−σ12 σ12−σ22 σ13−σ33

σ12−σ13 σ22−σ23 σ23−σ33

1 0

−1 1

0 −1

σ11+σ22−2σ12 σ12+σ23−σ22−σ13

σ12+σ23−σ22−σ13 σ22+σ33−2σ23

Page 19: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

18 AULA 5.

Page 20: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 6

Teorema 6.1. Todos os subconjuntos de Xe

são normalmente distribuidos. Isto é, se particionarmos Xe

(q×1)

— — — —

((p−q )×1)

então

µe

— — —

µe

Σe

||||Σe

- - - - - - - - - -

Σe

||||Σe

Deste modo, Xe

1 terá distribuição Nq

�

µe

1,Σe

�

e Xe

2 terá distribuição N(p−q )

�

µe

2,Σe

�

Demonstração. Para verificar Xe

1 faça no teorema ??,

A =�

Ie(q×q )

||||

Oe(q×(p−q ))

�

em que Oe

é uma matriz de zeros. Para verificar Xe

2 faça no teorema ??,

A =�

Oe(q×q )

||||

Ie(q×(p−q ))

�

Teorema 6.2.

(a) SeX1

e(q1×1)e

e(q2×1)são independentes, então Cov

�

X1f

, X2f

�

= Oe(q1×q2)

;

Page 21: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

20 AULA 6.

(b) Se

(q×1)

— — — —

((p−q )×1)

∼Nq1+q2

µe

— — —

µe

Σe

||||Σe

- - - - - - - - - -

Σe

||||Σe

então Xe

1 e Xe

2 são independentes se e somente se Σe

(q1×q2)= O

e(q1×q2)= Σ

t21

(q1×q2);

1 e Xe

2 são independentes e

1 ∼Nq1

�

µe

1 , Σe

�

e Xe

2 ∼Nq2

�

µe

2 , Σe

�

então,

(q1×1)

— — — —

(q2×1)

∼Nq1+q2

(q1×1)

— — —µ

(q2×1)

Σe

(q1×q1)

||||

0e(q1×q2)

- - - - - - - -

(q1×q2)

||||

Σe

(q2×q2)

Teorema 6.3. Seja

— — — —

∼Np

µe

— — —

µe

Σe

||||Σe

- - - - - - - - - -

Σe

||||Σe

comΣe

22 > 0. Então a distribuição condicional de Xe

1, dado que Xe

2 = xe

2 é normal com médiaµe

1+Σe

12Σe

−122

�

2−µe

�

e matrix de covariâncias Σe

11−Σe

12Σe

−122Σe

21.

Observação 6.1. Note que a matriz de covariâncias não dependende do valor xe

2 da variável condicionada.

Demonstração. Fazer demonstração.

Exemplo 6.1. Seja o vetor aleatório (X1, X2) tendo distribuição,

µ1

µ2

σ11 σ12

σ21 σ22

então a distribuição condicional de X2 = x2 é dado por,

N�

µ1+σ12σ−122 (x2−µ2) ,σ11−σ12σ

−122σ12

�

Agora note que,

ρ12 =σ12pσ11σ22

assim,

σ11−σ212σ

−122 =σ11

�

1−σ2

σ11σ22

�

=σ11(1−ρ212)

Page 22: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Portanto a distribuição condicional de X2 = x2 é

�

µ1+σ12

σ22(x2−µ2) ,σ11(1−ρ2

12)�

Teorema 6.4. Seja Xe

um vetor aleatório com distribuição Np

�

µe

, Σe

�

com�

�Σe

�

�> 0. Então:

(a)�

−µe

�tΣe

−1�

−µe

�

tem distribuição χ2p ;

(b) O elipsóide sólido§

∈Rp :�

−µe

�tΣe

−1�

−µe

�

≤χ2p (α)

tem probabilidade 1− α, em que χ2p (α) é o α-

quantil superior da distribuição χ2p .

Demonstração. Fazer demonstração.

Teorema 6.5. Seja Xe

1, . . . , Xe

n vetores aleatórios mutuamente independentes com Xe

i ∼Np

�

µe

i , Σe

�

. Então,

1 =n∑

i=1

c i Xe

tem distribuição Np

�

∑ni=1 c iµ

i ,�∑n

i=1 c 2i

�

Σe

�

. Além do mais, Ve

1 e Ve

2 =∑n

i=1 b i Xe

i tem distribuição conjunta

normal multivariada com matriz de covariância,

�∑n

i=1 c 2i

�

Σe

�∑n

i=1 b i c i

�

Σe

�∑n

i=1 b i c i

�

Σe

�∑n

i=1 b 2i

�

Σe

Conseqüentemente, Ve

1 e Ve

2 serão independentes se∑n

i=1 b i c i = 0.

Page 23: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

22 AULA 6.

Page 24: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 7

Amostras aleatórias de uma distribuição normal

multivariada

Seja Xe

1, . . . , Xe

n uma amostra aleatória de uma população p-variada com vetor de médias µe

e matriz de co-

variânciaΣe

. Visto que Xe

1, . . . , Xe

n são independentes e identicamente distribuídos com distribuição Np

�

µe

, Σe

�

Então a função de verossimilhança é dada por,

f�

1, . . . ,xe

n�

=n∏

i=1

f�

i�

=n∏

i=1

�

2π�− p

2�

�Σe

�

− 12 exp

�

−1

�

i −µe

�tΣe

−1�xe

i −µe

�

=�

2π�− np

2�

�Σe

�

− n2 exp

−1

n∑

i=1

�

i −µe

�tΣe

−1�xe

i −µe

�

Agora note que(Verificar!),

n∑

i=1

�

i −µe

�tΣe

−1�xe

i −µe

�

= t r

Σe

−1

n∑

i=1

�

i −xe

��

i −xe

�t +n�

i −µe

��

i −µe

�t

Assim,

f�

1, . . . ,xe

n�

=�

2π�− np

2�

�Σe

�

− n2 exp

−1

2t r

Σe

−1

n∑

i=1

�

i −xe

��

i −xe

�t +n�

−µe

��

−µe

�t

Deste modo, os estimadores de máxima verossimilhança para µe

e Σe

são dados por,

bµe

= xe

e bΣe

n∑

i=1

�

i −xe

��

i −xe

�t =n −1

nSe

Page 25: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

24 AULA 7. AMOSTRAS ALEATÓRIAS DE UMA DISTRIBUIÇÃO NORMAL MULTIVARIADA

Page 26: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 8

Distribuição amostral do vetor de médias e da

matriz de covariâncias

Teorema 8.1. Seja Ze

1, . . . ,Ze

m vetores aleatórios independentes e identicamente distribuídos com distribuição

�

, Σe

�

. Então,m∑

i=1

iZe

ti ∼Wm (.

�

�Σe

)

em que Wm�

.�

�Σe

�

representa a distribuição de Wishart com parâmetro Σe

e m graus de liberdade.

Propriedades:

1. Se Ae

1 ∼Wm1(Ae

�

�Σe

) e Ae

2 ∼Wm2(Ae

�

�Σe

) com Ae

1 e Ae

2 independentes, então,

1+Ae

2 ∼Wm1+m2(Ae

1+Ae

�

�Σe

);

2. Se Ae

∼Wm�

�

�Σe

�

então para Ce

uma matriz de constantes tem-se que Ce

t ∼Wm�

t�

�Ce

Σe

t�

;

3. A função densidade Wishart existe somente quando o tamnaho da amostra n é maior que o número de

variáveis p e é definida para o valor de uma matriz positiva definida Ae

como,

wn−1�

�

�Σe

�

�Ae

�

n−p−22 exp

�

− 12

t r�

Σe

−1��

2p (n−1)

2 πp (p−1)

�

�Σe

�

n−12∏p

i=1Γ�

12(n − i )

�

Page 27: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

26 AULA 8. DISTRIBUIÇÃO AMOSTRAL DO VETOR DE MÉDIAS E DA MATRIZ DE COVARIÂNCIAS

Teorema 8.2. Seja Xe

1, . . . , Xe

n uma amostra aleatória de um vetor aleatório com distribuição Nq

�

µe

,Σe

�

. Então,

(i) Xe

e Se

são estatística suficientes e completas;

(ii) Xe

tem distriuição N�

µe

, 1nΣe

�

;

(iii) Xe

e Se

são independentes;

(iv) (n −1)Se

=∑n

i=1

�

i −Xe

��

i −Xe

�t tem distribuição Wn−1�

. , Σe

�

(v) Se

é um estimador não viciado para Σe

Demonstração. Veja prova em ? páginas 345-350.

8.1 Comportatmento assintótico do vetor de médias e da matriz de co-

variâncias amostrais

Seja Xe

1, . . . , Xe

n uma amostra aleatória de um vetor aleatório com média µe

e matriz de covariância finita e

não singular Σe

. Então, tem-se que

p−−→n→∞

µe

e Se

p−−→n→∞

Σe

e para n −p suficientemente grande tem-se,

pn�

−µe

� a∼ Np

�

, Σe

�

n�

−µe

�

−1�

−µe

�t a∼ χ2p

8.2 Investigação da normalidade dos dados

As propriedades da distribuição normal multivariada garantem que todas as combinações lineares das

componentes de um vetor aleatório com distribuição normal multivariada são normais, e além disso, que os

contornos da densidade normal multivariada são elipsóides. Portanto algumas questões imediatas podem

ser formuladas:

1. As distribuições marginais das componentes de Xe

parecem ser normais?

2. O diagrama de dispersão de pares de observações de diferentes características parecem elipses como

esperado para normais bivariadas?

Note que nossa investigação sobre a normalidade dos dados irá restringir-se em uma e duas dimensões.

Page 28: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 9

Avaliando a normalidade das distribuições

marginais univariadas

Para verificar se existe assimetria nos dados é comum serem utilizados o diagrama de dispersão para pe-

quenas amostras(n ≤ 25) e o histograma se n > 25, estes gráficos ajudam revelar situações em que uma cauda

da distribuição é muito maior que a outra. Se a variável X i parecer razoavelmente simétrica, analisa-se o acha-

tamento da distribuição contando o número de observações de certos intervalos. Sabe-se que a distribuição

normal univariada atribui probabilidade de 0, 683 ao intervalo (µ−σ,µ+σ) e de 0, 954 para (µ−2σ,µ+2σ).

Conseqüentemente, para uma amostra de tamanho n grande, espera-se que a proporção bp i 1 de pontos con-

tidos no primeiro intervalo seja aproximadamente 0, 683 e no segundo intervalo a proporção bp i 2 seja aproxi-

madamente 0, 954. Deste modo, utilizando a aproximação normal para a distribuição amostral da proporção

pode-se chegar a seguinte regra de decisão(verificar!): Se

�

bp i 1−0, 683�

�> 3

0, 683× (1−0, 683)n

=1, 396p

ou�

�

bp i 2−0, 954�

�> 3

0, 954× (1−0, 954)n

=0, 628p

admite-se não normalidade dos dados.

Para avaliar a hipótese de normalidade muitas vezes requerida nos métodos estatísticos, utiliza-se tam-

bém um diagrama quantil x quantil conhecido como "‘Q-Q plot"’. Esse diagrama é a representação dos quan-

tis amostrais versus os quantis esperados se as observações fossem distribuídos normalmente. Assim, quando

os pontos ficam muito perto de uma linha reta a hipótese de normalidade é admitida como verdadeira. Para

construir um diagrama "‘Q-Q plot"’segue-se os seguintes passos:

(Passo 1) Para cada componente de Xe

, toma-se os valores amostrais e os ordena x (i 1),x (i 2), . . . ,x (i n ), estes são

os quantis amostrais; quando os x (i j )’s são distintos exatamente j observações menores ou iguais a x (i j );

Page 29: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

28 AULA 9. AVALIANDO A NORMALIDADE DAS DISTRIBUIÇÕES MARGINAIS UNIVARIADAS

(Passo 2) Calcula-se(estima-se) as probabilidades p (i j ) associadas aos valores ordenados x (i j ), em que

p (i j ) =i −0, 5

(Passo 3) Calcula-se os quantis da normal padrão q(i j ) associadas aos valores p (i j ), assim

P(Z ≤q(i j )) =

∫ ∞

−∞

e−z 2

p2π= p (i j )

;

(Passo 4) Constrói-se o diagrama de dispersão com os pontos (q(i 1),x (i 1)), (q(i 2),x (i 2)), . . . , (q(i n ),x (i n ))

Observação 9.1. O "‘Q-Q plot"’ não são informativos a menos que a amostra seja moderadamente grande,

por exemplo n > 20. Isto se deve a maior variação amostral devido ao pequeno tamanho da amostra, mesmo

quando as observações são de fato de uma população normal.

Observação 9.2. Um procedimento mais interessante é construir o diagrama de dispersão com os pontos (m (i 1),x (i 1)), (m (i 2),x (i 2)), . . . , (m (i n ),x (i n ))

em que m (i j ) = E (z (i j )). (Pesquisar este procedimento!)

A grau de relação linear do "‘Q-Q plot"’ pode ser medido pelo coeficiente de correlação linear dos pontos

no diagrama,

rQ =

∑nj=1

�

x (i j )−x i��

q(i j )−q i

�

∑nj=1

�

x (i j )−x i�2�q(i j )−q i

�2

e um teste de normalidade pode ser baseado nesta medida. Formalmente, rejeitamos a hipótese de norma-

lidade ao nível de significância α se rQ fica abaixo de um certo valor. Veja tabela 4.2 página 193 Johnson e

Wichern (1999).

Outro teste de normalidade foi proposto por ?. Verificar a informação!!! O teste é semelhante a esse, a

única diferença é que troca-se o quantil da normal padrão q(i ) pelo valor esperado do quantil m (i j ) = E (z (i j )).

No R faça: shapiro.test(dados)

Exemplo 9.1. Fazer exemplo 4.10 pg. 191.

Page 30: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 10

Avaliando a normalidade multivariada

Verificar se um conjunto de dados possui distribuição normal multivariada é conceitualmente não tão di-

reto quanto a verificação no caso univariado. A complexidade desta tarefa pode ser ilustrada no contexto do

teste de ajustamento a normalidade para a normalidade em que o tamanho da amostra deve ser razoalvel-

mente grande para que se possa checar de maneira adequada a normalidade. Apesar disso, algum procedi-

mento para checar a distribuição do conjunto de dados é desejável. Vários procedimentos foram propostos,

a seguir apresentaremos dois deles.

O primeiro procedimento consiste em utilizar o fato que

�

−µe

�

Σe

−1�

−µe

�t∼ χ2

Deste modo, substituindo µe

por Xe

e Σe

por Se

tem-se, para n e n −p grande, que

�

−Xe

�

−1�

−Xe

�t a∼ χ2p .

Assim, seja

d 2i =�

i −xe

�

−1�

−xe

�t

a distância quadrática generalizada, em que xe

1, . . . ,xe

n são os valores observados(elementos amostrais). Então

d 21 , . . . , d 2

n terá ditribuição aproximadamente χ2p . Desta maneira, elabora-se um diagrama quantil x quantil

conhecido como "‘Qui-quadrado plot"’ ou "‘Gama plot"’. Assim, quando os pontos ficam muito perto de

uma linha reta a hipótese de normalidade é admitida como verdadeira. Para construir um diagrama "‘Qui-

quadrado plot"’ segue-se os seguintes passos:

(Passo 1) Ordena-se os valores amostrais d 21 , . . . , d 2

n , assim d (1), d (2), . . . , d (n ) são os quantis amostrais;

(Passo 2) Calcula-se(estima-se) as probabilidades p (i j ) associadas aos valores ordenados d (i ), em que

p (i ) =i −0, 5

Page 31: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

30 AULA 10. AVALIANDO A NORMALIDADE MULTIVARIADA

(Passo 3) Calcula-se os quantis do Qui-quadrado q(i ) associados aos valores p (i ), assim

P(Q ≤q(i )) = p (i ) ⇒ q(i )) =χ2p

�

p (i )�

;

Observação 10.1. No R tem-se que: q(i )) =qc hi sq ((i −0.5)/n , p ).

(Passo 4) Constrói-se o diagrama de dispersão com os pontos (q(1), d (1)), (q(2), d (2)), . . . , (q(n ), d (n ))

Note que este procedimento não é limitado ao caso bivariado.

Exemplo 10.1. Os dados da Tabela ?? foram obtidos tomando quatro medidas diferentes de rigidez x1,x2,x3,x4

de cada uma das 30 placas. A primeira medida ...

Tabela 10.1: Dados sobre rigidez

x1 x2 x3 x4

1889 1651 1561 1778

2403 2048 2087 2197

2119 1700 1815 2222

1645 1627 1110 1533

1976 1916 1614 1883

1712 1712 1439 1546

1943 1685 1271 1671

2104 1820 1717 1874

2983 2794 2412 2581

1745 1600 1384 1508

1710 1591 1518 1667

2046 1907 1627 1898

1840 1841 1595 1741

1867 1685 1493 1678

1859 1649 1389 1714

x1 x2 x3 x4

1954 2149 1180 1281

1325 1170 1002 1176

1419 1371 1252 1308

1828 1634 1602 1755

1725 1594 1313 1646

2276 2189 1547 2111

1899 1614 1422 1477

1633 1513 1290 1516

2061 1867 1646 2037

1856 1493 1356 1533

1727 1412 1238 1469

2168 1896 1701 1834

1655 1675 1414 1597

2326 2301 2065 2234

1490 1382 1214 1284

O segundo procedimento consite em utilizar o fato quem se Xe

tem distribuição normal multivariada então

nd 2i

(n −1)2∼ Beta(a,b)

em que,

a =p

2e b =

n −p −1

Page 32: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

este resultado foi apresentado por Gnanadesikan and Kettenring (1972). Um teste baseado nesta informação

é dado por

d 2(n ) =max d 2

Em Barnett and Lewis (1978) fornece uma tabela com os valores críticos para 1% e 5% e p = 2, 3, 4, 5.

Page 33: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

32 AULA 10. AVALIANDO A NORMALIDADE MULTIVARIADA

Page 34: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 11

Inferência sobre o vetor de médias

A partir de agora iremos utilizar os conceitos e os resultados apresentados até o momento. As inferên-

cias que serão realizadas são relativas ao vetor populacional de médias e aos seus componentes. Umas das

mensagens centrais da análise multivariada, que deverá ser abordada daqui por diante, é que p variáveis cor-

relacionadas devem ser analisadas simultaneamente. Para tanto, será descrita uma generalização direta do

teste t de Student às situações que envolvem mais de uma variável.

11.1 Testes Multivariados versus Testes Univariados

Um teste de hipótese no contexto multivariado é mais complexo do que em um ajuste univariate. O nú-

mero dos parâmetros pode desconcertar. A distribuição normal p-variada, por exemplo, tem p médias, p

variâncias, e�n

�

covariâncias, onde�n

�

representa o número dos pares entre as p variáveis. O número total de

parâmetros é

p +p +�

�

3p (p +3)

Para p = 10, por exemplo, o número de parâmetros é 65, para cada um dos quais, uma hipótese poderia

ser formulada. Adicionalmente, pode-se estar interessado em testar hipóteses sobre subconjuntos destes

parâmetros ou sobre funções deles. Em alguns casos, tem-se ainda o dilemma de escolher entre outros testes

estatísticos concorrentes.

Primeiramente vamos discutir a motivação para testar p variáveis multivariadamente ao invés de univari-

adamente, como por exemplo, nas hipóteses sobre µ1, . . . ,µp em µe

. Existem ao menos quatro argumentos em

favor do enfoque multivariado de teste de hipótese:

1. O uso de testes univariados inflaciona o erro tipo I,α, enquanto que o teste multivariado preserva o nível

exato de α. Por exemplo, se fizermos testes univariados separados para p = 10 ao nível de significância

Page 35: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

34 AULA 11. INFERÊNCIA SOBRE O VETOR DE MÉDIAS

de 0, 05, a probabilidade de ao menos uma rejeição falsa é maior que que 0, 05. De fato, seja A i o evento

rejeitar H0i quando H0i é verdadeira. Assim, para αi = P(A i ) = 0, 05, i = 1, . . . , 10, tem-se que,

α= P

10⋃

i=1

A i

⇒ 1−α= 1−P

10⋃

i=1

A i

!c!

= P

10⋂

i=1

Aci

Agora note que,

10⋂

i=1

Aci

≤ P(Aci )

para todo i = 1, . . . , 10, logo

1−α≤min�

P(Ac1), . . . , P(Ac

10)�

= 1−max (P(A1), . . . , P(A10)) ⇒ α≥max (α1, . . . ,α10) .

Por outro lado, note que,

10⋂

i=1

Aci

= 1−P

10⋃

i=1

A i

≥ 1−10∑

i=1

P(A i ) = 1−10∑

i=1

αi

logo,

α≤10∑

i=1

αi e α≤ 1 assim α≤min

1,10∑

i=1

αi

Portanto, para a execução dos teste univariados todos com nível de significância αi = 0, 05 tem-se que o

nível de significância total α ficará entre,

max (α1, . . . ,α10) = 0, 05≤α≤ 0, 5=min

1,10∑

i=1

αi

2. Os testes univariados ignoram completamente a corelação entre as variáveis, enquanto que os testes

multivariados fazem o uso direto das correlações;

3. O teste multivariado é mais poderoso em muitos casos. O poder do teste é a probabilidade de rejeitar

H0 quando ela é falsa. Em alguns casos, todos os p testes univariados não alcançam significancia, mas

o teste multivariado é significante porque pequenos efeitos em algumas das variáveis combinam para

conjuntamente indicar significancia. Entretanto, para um dado tamanho de amostra há um limite para

o número de variáveis que um teste multivariado pode lidar sem perder poder;

4. Muitos testes multivariados envolvendo médias tem como produto a construção de uma combinação

linear das variáveis que revela mais sobre como as variáveis se combinam para rejeitar a hipótese.

11.2 Teste sobre o vetor de médias com matriz de covariâncias conhecida

O teste sobre o vetor de médias µe

supondo que a matriz de covariâncias Σe

é conhecida é introduzido para

ilustrar os problemas envolvidos nos testes multivariados e para servir como uma base para o caso em que

Page 36: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

11.3. REVISÃO DO TESTE UNIVARIADO 35

Σe

é desconhecida. Primeiro será feita uma revisão do caso univariado no qual trabalha-se com uma única

variável que tenha distribuição N (µ,σ2).

11.3 Revisão do teste univariado

A hipótese de interesse é que a média de X é igual a um dado valor µ0, contra a hipótese alternativa que

não é igual a µ0:

H0 :µ=µ0 vs. H1 :µ 6=µ0.

Não foi considerada hipóteses alternativas simples porque não generalizam diretamente para o caso multiva-

riado. Supõe-se uma amostra aleatória de n observações X1, . . . , Xn de N (µ,σ2) com oσ2 conhecido. Calcula-

se x =∑n

i=1 x i

ne comparamo-lo a µ0 usando a estatística

Z =X −µ0

σpn

que tem distribuição N (0, 1) se H0 for verdadeira. Assim, para α = 0, 05 rejeita-se H0 se |z | ≥ 1, 96. Equiva-

lentemente, pode-se usar Z 2 que tem distribuição χ21 e rejeitar H0 se z 2 ≥ 3, 84. Se n for grande, o Teorema

Central do Limite nos assegura que Z é aproximadamente normal, mesmo se as observações não possuem

distribuição normal.

Page 37: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

36 AULA 11. INFERÊNCIA SOBRE O VETOR DE MÉDIAS

Page 38: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 12

Teste multivariado para µe

com Σe

conhecido

No caso multivariado tem-se várias variáveis medidas em cada unidade amostral, e deseja-se formular

uma hipótese para a média de cada variável,

H0 :µe

=µe

0 vs. H1 :µe

6=µe

isto é,

H0 :

µ1

µ2

...

µp

µ01

µ02

...

µ0p

vs. H1 :

µ1

µ2

...

µp

µ01

µ02

...

µ0p

A hipótese H0 implica que µi = µ0i para todo i = 1, . . . , p , enquanto que a hipótese H1 implica que ao menos

um µi 6= µ0i . Deste modo, por exemplo, se µi = µ0i para todo i exceto para i = k para o qual µk = µ0k , então

deseja-se rejeitar H0.

Para testar H0, utiliza-se uma amostra aleatória de n observações Xe

1, . . . , Xe

n de Np

�

µe

,Σe

�

comΣe

conhecido

e calcula-se Xe

. A estatística do teste é

Z 2 = n�

−µe

�tΣe

−1�

−µe

�

Se H0 é verdadeira, então Z 2 tem distribuição χ2p e portanto rejeita-se H0 se z 2 >χ2

p (α). Note que para o caso

univariado Z 2 tem distribuição χ2 enquanto que para o caso p-variado Z 2 tem distribuição χ2p .

SeΣe

é desconhecido, utiliza-se Se

em seu lugar e se n for suficientemente grande então Z 2 terá distribuição

aproximadamente χ2p . O valor de n necessário para se obter a aproximação dependerá de p .

Exemplo 12.1. Na Tabela ?? peso e altura foram informados para uma amostra de 20 estudantes do sexo mas-

culino.

1. Verificar a normalidade dos dados;

Page 39: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

38 AULA 12. TESTE MULTIVARIADO PARA µe

COM Σe

CONHECIDO

2. Assuma que a amostra é proveniente de uma população com distribuição N2

�

µe

,Σe

�

e que

Σe

20 100

100 1000

Suponha que deseja-se testar a hipótese H0 :µe

= (70, 170)t . Utilize α= 0, 05.

Tabela 12.1: Dados sobre peso e altura

PESSOA PESO ALTURA

1 69 153

2 74 175

3 68 155

4 70 135

5 72 172

6 67 150

7 66 115

8 70 137

9 76 200

10 68 130

PESSOA PESO ALTURA

11 72 140

12 79 265

13 74 185

14 67 112

15 66 140

16 71 150

17 74 165

18 75 185

19 75 210

20 76 220

Assim, tem-se que

71, 45

164, 7

Deste modo, tem-se

Z 2 = 20

71, 45−70

164, 7−170

20 100

100 1000

−1

71, 45−70

164, 7−170

= 8, 4026

Para α = 0, 05 obtem-se χ22 (0, 05) = 5, 99. O p-valor é p − v a l or = 0, 01498. Portanto, como p − v a l or ≤ 0, 05

ou z 2 > 5, 99, rejeita-se a hipótese H0 a nível de significância de 5%. Logo, existem evidências de que H1 é

verdadeira. A região de rejeição é a área fora da elipse da Figura ??. A elipse é determinada do seguinte modo,

x 1−70

x 2−170

20 100

100 1000

−1

x 1−70

x 2−170

x 1−70

x 2−170

0, 1 −0, 01

−0, 01 0, 002

x 1−70

x 2−170

x 1−70

x 2−170

2 −0, 2

−0, 2 0, 04

x 1−70

x 2−170

= 2(x 1−70)2−0, 4(x 1−70)(x 2−170)+0, 04(x 2−170)2.

Page 40: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

67 68 69 70 71 72 73

155

160

165

170

175

180

185

x 2

((µµ1,, µµ2))+

((x1,, x2))+

z2 >> 5.99

z2 << 5.99

z2 == 5.99

Figura 12.1: Região crítica para o teste multivariado

Assim, para 2(x 1 − 70)2 − 0, 4(x 1 − 70)(x 2 − 170) + 0, 04(x 2 − 170)2 = 5, 99 obtém-se a elipse da Figura ?? Isto é,

se Xe

cai fora do interior da elipse, H0 é rejeitada, se Xe

cai dentro do interior da elipse, H0 não é rejeitada. Deste

modo, a distancia de µe

0 assim como a direção deve ser levado em conta. Quando a distancia é padronizada por

Σe

−1 todos os pontos sobre a curva são "‘estatisticamente eqüidistantes"’ do centro. Note que o teste é sensível a

estrutura de covariância. Se Cov (X1, X2) fosse negativa X2 tenderia a decrescer quando X1 crescesse, e a elipse

teria uma inclinação diferente. Neste caso, Xe

poderia cair na região de não rejeição.

Programa R 12.1: Região crítica para o teste multivariado

1 dados . 1 a11 = read . t a b l e ( " C : / U l i s s e s /A n á l i s e Multivariada /Dados l i v r o ALVIN C . RENCHER/

T3_1_HEIGHTWT . dat " , header= FALSE , sep= " " , dec= " . " )

3 dados . 1 a11 =matrix ( as . matrix ( dados . 1 a11 [ , 2 : 3 ] ) , 2 0 , 2 , byrow= FALSE )

n = nrow ( dados . 1 a11 )

5 xbt = ( t ( dados . 1 a11)%∗%rep ( 1 , n ) ) /n

mi . o = c ( 7 0 , 1 7 0 )

7 Sigma = matrix ( c ( 2 0 , 1 0 0 , 1 0 0 , 1 0 0 0 ) , 2 , 2 , byrow=TRUE)

p l o t ( e l l i p s e ( Sigma/n , c e n t r e = c ( mi . o [1 ] , mi . o [ 2 ] ) ,

9 t=s q r t ( qchisq ( 0 . 9 5 , 2 ) ) ) , type= ’ l ’ , xlab=expression ( x [ 1 ] ) , ylab=expression ( x [2 ] , xlim=c ( 6 7 , 7 3 ) ,

ylim=c ( 1 5 2 , 1 8 8 ) )

11 t e x t ( mi . o [1 ] , mi . o [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t (mu[0 1 ] ,mu[ 0 2 ] ) , " ) " ) ) )

Page 41: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

40 AULA 12. TESTE MULTIVARIADO PARA µe

COM Σe

CONHECIDO

t e x t ( mi . o [1 ] , mi . o [2 ] , l a b e l s = ’+ ’ )

13 t e x t ( xbt [1 ]+0 . 2 5 , xbt [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t ( bar ( x ) [ 1 ] , bar ( x ) [ 2 ] ) , " ) " ) ) )

t e x t ( xbt [1 ] , xbt [2 ] , l a b e l s = ’+ ’ )

15 segments ( c ( mi . o [ 1 ] , 0 ) , c ( 0 , mi . o [ 2 ] ) , c ( mi . o [1 ] , mi . o [ 1 ] ) , c ( mi . o [2 ] , mi . o [ 2 ] ) , l t y = c ( 2 , 2 ) )

t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2>5.99)))

17 t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2<5.99)))

t e x t ( l o c a t o r ( 1 ) , l a b e l s=( expression ( z ^2==5.99)))

Vamos investigar as conseqüencias de testar as hipóteses separadamente. Usando z 0,05 = 1.96 tem-se que

z 1 =x 1−µ01

σ1

= 1, 450< 1.96

z 1 =x 2−µ02

σ2

=−0, 7495>−1.96

Deste modo, ambos os teste não rejeitaram a hipótese. Neste caso, nenhuma das médias x i estão longe o su-

ficiente do valor hipótético µ0i para causar rejeição. Entretanto, quando a correlação entre X1 e X2 é levada

em conta no teste multivariado, as duas evidências contra µe

0 se combinam para causar a rejeição. A Figura ??

mostra a região crítica para o teste univariado, o retângulo, e a região crítica para o teste multivariado, a elipse.

O retângulo foi obtido calculando,

67 68 69 70 71 72 73

155

160

165

170

175

180

185

x 2

((µµ1,, µµ2))+

Figura 12.2: Regiões críticas

Page 42: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Programa R 12.2: Região crítica para o teste univariado e para o teste multivariado

l i . x1 = round ( mi . o [1 ] − 1. 96∗ s q r t ( Sigma [1 , 1 ] /n ) , 2 )

2 l i . x2 = round ( mi . o [2 ] − 1. 96∗ s q r t ( Sigma [2 , 2 ] /n ) , 2 )

l s . x1 = round ( mi . o [1 ] + 1. 96∗ s q r t ( Sigma [1 , 1 ] /n ) , 2 )

4 l s . x2 = round ( mi . o [2 ] + 1. 96∗ s q r t ( Sigma [2 , 2 ] /n ) , 2 )

6 plot ( e l l i p s e ( Sigma/n , c e n t r e = c ( mi . o [1 ] , mi . o [ 2 ] ) ,

t=s q r t ( qchisq ( 0 . 9 5 , 2 ) ) ) , type= ’ l ’ , xlab=expression ( x [ 1 ] ) ,

8 ylab=expression ( x [ 2 ] ) , xlim=c ( 6 7 , 7 3 ) , ylim=c ( 1 5 2 , 1 8 8 ) )

t e x t ( mi . o [1 ] , mi . o [2 ]+1 . 5 , l a b e l s=expression ( group ( " ( " , l i s t (mu[0 1 ] ,mu[ 0 2 ] ) , " ) " ) ) )

10 t e x t ( mi . o [1 ] , mi . o [2 ] , l a b e l s= ’+ ’)

segments ( c ( l i . x1 , l i . x1 , l s . x1 , l s . x1 ) , c ( l i . x2 , l s . x2 , l s . x2 , l i . x2 ) , c ( l i . x1 , l s . x1 , l s . x1 , l i . x1 ) ,

12 c ( l s . x2 , l s . x2 , l i . x2 , l i . x2 ) , l t y = rep ( 2 , 4 ) )

µ01−1, 96σ1p

n< x 1 <µ01+1, 96

σ1pn

µ02−1, 96σ2p

n< x 2 <µ02+1, 96

σ2pn

Assim,

1, 96σ1p

n= 1, 96

20= 1, 96 e 1, 96

σ2pn= 1, 96

1000

20= 13, 86.

Logo, 68, 04< x 1 < 71, 96 e 156, 13< x 2 < 183, 87.

Pontos dentro da elipse mas fora do retângulo será rejeitado em pelo menos uma dimensão univariada mas

não será rejeitado multivariadamente. Isso ilustra a inflação do erro tipo I, α, como discutido no primeiro

motivo para se utilizar testes multivariados. Este fenômeno é conhecido como paradoxo de Rao, veja ?. Pontos

fora da elipse mas dentro do retângulo será rejeitados pelo teste multivariado mas não serão rejeitados nos

testes univariados em ambas dimensões. Isso ilustra a terceira razão para se utilizar os testes multivariados, a

saber, que os testes multivariados são mais poderosos em algumas situações. Deste modo, em ambos os casos

representados pelas áreas rachuradas, deve-se utilizar o resultado do teste multivariado ao invés do univariado.

Em um caso o teste multivariado preserva o nível de significância α enquanto que o teste univariado inflaciona

α, no outro caso o teste multivariado é mais poderoso que o teste univariado.

Page 43: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

42 AULA 12. TESTE MULTIVARIADO PARA µe

COM Σe

CONHECIDO

Page 44: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 13

Teste multivariado para µe

com Σe

desconhecido

Considerando o caso univariado primeiro, tem-se para uma amostra aleatória X1, . . . , Xn de uma popula-

ção normal, a estatística apropriada para esta hipótese é:

t =X −µ0

Spn

que tem distribuição tn−1 se H0 for verdadeira. Portanto, rejeita-se a hipótese H0 se |t | > tn−1(α/2) em que

tn−1(α/2) é o α/2 quantil da distribuição de t-student com n − 1 graus de liberdade. Analogamente, conside-

rando agora a distância quadrática da média amostral X para o valor a ser testado, rejeita-se H0 a um nível de

significância α, se

t 2 = n (X −µ0)(S2)−1(X −µ0)≥ F1,n−1(α/2)

em que, F1,n−1(α/2) representa o quantil superior da distribuição F com 1 e n−1 graus de liberdade. Se H0 não

é rejeitada, então se conclui que µ0 é um valor plausível para representar a média populacional. No entanto,

uma pergunta natural pode surgir: existem outros valores deµ que são consistentes com os dados? A resposta

é sim. De fato, existe um conjunto de valores plausíveis que serviriam como média para a população normal

estudada. Da conhecida correspondência entre a região de não rejeição dos testes de hipóteses e o intervalo

de confiança para µ tem-se que não rejeitar H0, isto é,

�

X −µ0

Spn

�

< tn−1(α/2)

é equivalente a

X − tn−1(α/2)Sp

n<µ0 <X + tn−1(α/2)

Antes de a amostra ser retirada, o intervalo de confiança é um intervalo aleatório, pois seus limites dependem

das variáveis aleatórias X e S.

Page 45: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

44 AULA 13. TESTE MULTIVARIADO PARA µe

COM Σe

DESCONHECIDO

Para o caso multivariado, uma generalização da distância quadrática apresentada para o caso univariado

é,

T 2 = n

�

−µe

�t

−1

�

−µe

�

−µe

�t

∑ni=1

�

i −Xe

��

i −Xe

�t

n −1

−1

�

−µe

�

=Np

�

, Σe

�t�

n −1Wp ,n−1

�

Σe

�

, Σe

�

Note que esta expressão é análoga a

t 2 = n (X −µ0)(S2)−1(X −µ0)

n (X −µ0)

∑n

i=1(X i −X )(X i −X )n −1

!−1

(X −µ0)p

=N (0,σ)χ2

n−1(σ)

n −1N (0,σ)

para o caso univariado.

A estatística T 2 é chamada de estatística T 2 de Hotelling. Como no caso univariado em que t 2n−1 = F1,n−1, a

estatística T 2 também pode se transformada em um estatística F como segue,

ν −p +1

νpT 2 = Fp ,ν−p+1

Note que o número de variáveis p da estatística T 2 transforma-se no primeiro do dois parâmetros da distri-

buição F. O número dos graus de liberdade de T 2 é denotado por ν , e a transformação F é dada em termos de

um geral ν , visto que em outras aplicações de T 2 terão ν diferente de n −1.

Desta forma para se testar a hipótese H0 : µe

= µe

0 versus H1 : µe

6= µe

0 para um nível de significância α,

deve-se rejeitar H0 em favor de H1 se

T 2 = n�

−µe

�tSe

−1�

−µe

�

>νp

ν +1−pFp ,ν+1−p (α)

em que neste caso tem-se ν = n −1.

Exemplo 13.1 (Johnson and Wichern, pg 229). A transpiração de 20 mulheres saudáveis foi analizada. Três

componentes, X1 = taxa de suor, X2 = quantidade de sódio, e X3 = quantidade de potássio foram medidos e os

resultados são apresentados na Tabela abaixo. Testar a hipótese

H0 :µe

versus H0 :µe

Page 46: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

13.1. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA 45

Tabela 13.1: Dados sobre a transpiração de mulheres

Taxa de suor Sódio Potássio

3.7 48.5 9.3

5.7 65.1 8.0

3.8 47.2 10.9

3.2 53.2 12.0

3.1 55.5 9.7

4.6 36.1 7.9

2.4 24.8 14.0

7.2 33.1 7.6

6.7 47.4 8.5

5.4 54.1 11.3

Taxa de suor Sódio Potássio

3.9 36.9 12.7

4.5 58.8 12.3

3.5 27.8 9.8

4.5 40.2 8.4

1.5 13.5 10.1

8.5 56.4 7.1

4.5 71.6 8.2

6.5 52.8 10.9

4.1 44.1 11.2

5.5 40.9 9.4

Utilize α= 0, 05 Solução: Tem-se que,

4, 640

45, 400

9, 965

e Se

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

Assim,

T 2 = 20

4, 640

45, 400

9, 965

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

4, 640

45, 400

9, 965

= 9, 74

O p-valor é dado por: p−v a l or = 0, 065 e Fp ,n−p (0, 1). Portanto rejeita-se a hipótese H0 ao nível de significância

de 10%.

13.1 Regiões de Confiança e comparações simultâneas de componentes

da média

Seja θe

um vetor de parâmetros populacionais desconhecidos e Θe

o seu espaço paramétrico, isto é, o con-

junto de todos os valores possíveis para θe

. Uma região de confiança é uma região de prováveis valores para

θe

. Esta região R(Xe

) é determinada pelos dados, em que Xe

é a matriz de dados. Assim a região R(Xe

) é dita ter

100(1−α)% de confiança se antes da amostra ser selecionada

P(R(Xe

) cobrir o verdadeiro valor θe

) = 1−α.

Page 47: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

46 AULA 13. TESTE MULTIVARIADO PARA µe

COM Σe

DESCONHECIDO

Programa R 13.1: ’Teste sobre a transpiração de 20 mulheres’

t a b l e 5 . 1 = matrix ( scan ( f i l e = ’D: / U l i s s e s /D i s c i p l i n a s ministradas /A n á l is e Mult ivariada /

2 Dados l i v r o Johnson and Wichern/Table5−1. t x t ’ )

, 2 0 , 3 , byrow=TRUE)

4 # ∗∗∗∗∗∗∗∗∗∗∗∗ Hipótese Ho ∗∗∗∗∗∗∗∗∗∗∗∗∗∗

mi . o = c ( 4 , 5 0 , 1 0 )

6 # ∗∗∗∗∗∗∗∗∗∗∗∗ Vetor de Médias ∗∗∗∗∗∗∗∗∗∗∗∗

n = nrow ( t a b l e 5 . 1 )

8 xbt = ( t ( t a b l e 5 .1)%∗%rep ( 1 , n ) ) /n

# ∗∗∗∗∗∗∗∗∗∗∗ Matriz de c o v a r i â n c i a s ∗∗∗∗∗∗∗∗∗

10 St = t ( t a b l e 5 .1)%∗%( diag ( n)−rep ( 1 , n)%∗% t ( rep ( 1 , n ) ) /n)%∗%t a b l e 5 . 1 / ( n−1)

# ∗∗∗∗∗∗∗∗∗∗∗∗∗ E s t a t í s t i c a T^2 de H o t e l l i n g ∗∗∗∗∗∗∗∗∗∗

12 T2 = n∗ t ( xbt−mi . o)%∗%s o l v e ( St )%∗%(xbt−mi . o )

# ∗∗∗∗∗∗∗∗∗∗∗∗∗ P−v a l o r e F_ {p , n−p } ( 0 . 1 ) ∗∗∗∗∗∗∗∗∗∗∗∗∗∗

14 p . v a l o r = 1 − pf ( T2 ∗ ( n−ncol ( t a b l e 5 . 1 ) ) / ( ( n−1)∗ncol ( t a b l e 5 . 1 ) ) , 3 , n−3)

q . a l f a = qf ( 0 . 9 , 3 , n−3)∗(n−1)∗ncol ( t a b l e 5 . 1 ) / ( n−ncol ( t a b l e 5 . 1 ) )

O elipsóide de confiança será composto dos pontos µe

para os quais

n�

−µe

�tSe

−1�

−µe

� (n −1)pn −p

Fp ,n−p (α)

O elipsóide será centrado no ponto Xe

. Pode-se calcular os eixos do elipsóide de confiança 100(1−α)% e suas

longitudes relativas atráves dos autovetores e autovalores da matriz de covariância amostral Se

. Existem p eixos

no elipsóide e a direção de cada eixo é determinada pelo respectivo autovetor, traçado com Xe

como origem.

Deste modo, começando do centro, determinado por Xe

, os eixos da elipsóide são:

±p

λi

p (n −1)n (n −p )

Fp ,n−p (α)

Page 48: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 14

Page 49: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

48 AULA 14.

Page 50: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 15

Teste para µe

com Σe

desconhecido

Considere o caso univariado em que deseja-se saber se um determminado valor µo é um valor plausível

para a média populacional µ. Formalmente tem-se que,

Ho :µ=µo versus H1 :µ 6=µo .

Assim, para uma amostra aleatória X1, . . . , Xn de uma população normal, a estatística apropriada para esta

testar esta hipótese é:

t =X −µ0

Spn

que tem distribuição tn−1 se H0 for verdadeira. Portanto, rejeita-se a hipótese H0 se |t | > tn−1(α/2) em que

tn−1(α/2) é o α/2 quantil da distribuição de t-student com n − 1 graus de liberdade. Analogamente, conside-

rando agora a distância quadrática da média amostral X para o valor a ser testado, rejeita-se H0 a um nível de

significância α, se

t 2 = n (X −µ0)(S2)−1(X −µ0)≥ F1,n−1(α/2)

em que, F1,n−1(α/2) representa o quantil superior da distribuição F com 1 e n−1 graus de liberdade. Se H0 não

é rejeitada, então se conclui que µ0 é um valor plausível para representar a média populacional. No entanto,

uma pergunta natural pode surgir: existem outros valores deµ que são consistentes com os dados? A resposta

é sim. De fato, existe um conjunto de valores plausíveis que serviriam como média para a população normal

estudada. Da conhecida correspondência entre a região de não rejeição dos testes de hipóteses e o intervalo

de confiança para µ tem-se que não rejeitar H0, isto é,

�

X −µ0

Spn

�

< tn−1(α/2)

é equivalente a

X − tn−1(α/2)Sp

n<µ0 <X + tn−1(α/2)

Page 51: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

50 AULA 15. TESTE PARA µe

COM Σe

DESCONHECIDO

Antes de a amostra ser retirada, o intervalo de confiança é um intervalo aleatório, pois seus limites dependem

das variáveis aleatórias X e S.

Para o caso multivariado, uma generalização da distância quadrática apresentada para o caso univariado

é,

T 2 = n

�

−µe

�t

−1

�

−µe

�

−µe

�t

∑ni=1

�

i −Xe

��

i −Xe

�t

n −1

−1

�

−µe

�

=Np

�

, Σe

�t�

n −1Wp ,n−1

�

Σe

�

, Σe

�

Note que esta expressão é análoga a

t 2 = n (X −µ0)(S2)−1(X −µ0)

n (X −µ0)

∑n

i=1(X i −X )(X i −X )n −1

!−1

(X −µ0)p

=N (0,σ)χ2

n−1(σ)

n −1N (0,σ)

para o caso univariado, em que no caso multivariado a distribuição, a distribuição de Wishart Wp ,n−1�

Σe

�

é a

generalização da distribuição Qui-quadrado para o caso multivariado. Visto que Np

�

, Σe

�

e Wp ,n−1�

Σe

�

são

independentes, como no caso univariado, então sua distribuição conjunta é o produto das densidades nor-

mal e Wishart. Deste modo, a distribuição de T 2 pode ser encontrada utilizando, por exemplo, o método do

jacobiano.

A estatística T 2 é chamada de estatística T 2 de Hotelling. Como no caso univariado em que t 2n−1 = F1,n−1, a

estatística T 2 também pode se transformada em um estatística F como segue,

ν −p +1

νpT 2 = Fp ,ν−p+1

Note que o número de variáveis p da estatística T 2 transforma-se no primeiro do dois parâmetros da distri-

buição F. O número dos graus de liberdade de T 2 é denotado por ν . A transformação é dada em termos de um

geral ν , visto que em outras aplicações de T 2 terão ν diferente de n −1.

Desta forma para se testar a hipótese H0 : µe

= µe

0 versus H1 : µe

6= µe

0 para um nível de significância α,

deve-se rejeitar H0 em favor de H1 se

T 2 = n�

−µe

�tSe

−1�

−µe

�

>νp

ν +1−pFp ,ν+1−p (α)

em que neste caso tem-se ν = n −1.

Page 52: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Exemplo 15.1 (Johnson and Wichern, pg 229). A transpiração de 20 mulheres saudáveis foi analizada. Três

componentes, X1 = taxa de suor, X2 = quantidade de sódio, e X3 = quantidade de potássio foram medidos e os

resultados são apresentados na Tabela abaixo. Testar a hipótese

Tabela 15.1: Dados sobre a transpiração de mulheres

Taxa de suor Sódio Potássio

3.7 48.5 9.3

5.7 65.1 8.0

3.8 47.2 10.9

3.2 53.2 12.0

3.1 55.5 9.7

4.6 36.1 7.9

2.4 24.8 14.0

7.2 33.1 7.6

6.7 47.4 8.5

5.4 54.1 11.3

Taxa de suor Sódio Potássio

3.9 36.9 12.7

4.5 58.8 12.3

3.5 27.8 9.8

4.5 40.2 8.4

1.5 13.5 10.1

8.5 56.4 7.1

4.5 71.6 8.2

6.5 52.8 10.9

4.1 44.1 11.2

5.5 40.9 9.4

H0 :µe

versus H0 :µe

Utilize α= 0, 05.

Solução: Tem-se que,

4, 640

45, 400

9, 965

e Se

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

Assim,

T 2 = 20

4, 640−4

45, 400−50

9, 965−10

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

4, 640−4

45, 400−50

9, 965−10

= 9, 74

O p-valor é dado por: p − v a l or = 0, 065 e (20−1)×320−3

F3,20−3(0, 1) = 8, 17. Portanto rejeita-se a hipótese H0 ao nível

de significância de 10%.

Page 53: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

52 AULA 15. TESTE PARA µe

COM Σe

DESCONHECIDO

Programa R 15.1: Teste sobre a transpiração de 20 mulheres

1 t a b l e 5 . 1 = matrix ( scan ( f i l e = ’D: / U l i s s e s /D i s c i p l i n a s ministradas /

A n á l is e Mult ivariada /Dados l i v r o Johnson and Wichern/Table5−1. t x t ’ )

3 , 2 0 , 3 , byrow=TRUE)

# ∗∗∗∗∗∗∗∗∗∗∗∗ Hipótese Ho ∗∗∗∗∗∗∗∗∗∗∗∗∗∗

5 mi . o = c ( 4 , 5 0 , 1 0 )

# ∗∗∗∗∗∗∗∗∗∗∗∗ Vetor de Médias ∗∗∗∗∗∗∗∗∗∗∗∗

7 n = nrow ( t a b l e 5 . 1 )

xbt = ( t ( t a b l e 5 .1)%∗%rep ( 1 , n ) ) /n

9 # ∗∗∗∗∗∗∗∗∗∗∗ Matriz de c o v a r i â n c i a s ∗∗∗∗∗∗∗∗∗

St = t ( t a b l e 5 .1)%∗%( diag ( n)−rep ( 1 , n)%∗% t ( rep ( 1 , n ) ) /n)%∗%t a b l e 5 . 1 / ( n−1)

11 # ∗∗∗∗∗∗∗∗∗∗∗∗∗ E s t a t í s t i c a T^2 de H o t e l l i n g ∗∗∗∗∗∗∗∗∗∗

T2 = n∗ t ( xbt−mi . o)%∗%s o l v e ( St )%∗%(xbt−mi . o )

13 # ∗∗∗∗∗∗∗∗∗∗∗∗∗ P−v a l o r e F_ {p , n−p } ( 0 . 1 ) ∗∗∗∗∗∗∗∗∗∗∗∗∗∗

p . v a l o r = 1 − pf ( T2 ∗ ( n−ncol ( t a b l e 5 . 1 ) ) / ( ( n−1)∗ncol ( t a b l e 5 . 1 ) ) , 3 , n−3)

15 q . a l f a = qf ( 0 . 9 , 3 , n−3)∗(n−1)∗ncol ( t a b l e 5 . 1 ) / ( n−ncol ( t a b l e 5 . 1 ) )

Page 54: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 16

Regiões de confiança e comparações simultâneas

de componentes da média

Seja θe

um vetor de parâmetros populacionais desconhecidos e Θe

o seu espaço paramétrico, isto é, o con-

junto de todos os valores possíveis para θe

. Uma região de confiança é uma região de prováveis valores para

θe

. Esta região R(Xe

) é determinada pelos dados, em que Xe

é a matriz de dados. Assim a região R(Xe

) é dita ter

100(1−α)% de confiança se antes da amostra ser selecionada

P(R(Xe

) cobrir o verdadeiro valor θe

) = 1−α.

O elipsóide de confiança será composto dos pontos µe

para os quais

n�

−µe

�tSe

−1�

−µe

�

≤(n −1)p

n −pFp ,n−p (α)

O elipsóide será centrado no ponto Xe

. Pode-se também calcular os eixos do elipsóide de confiança 100(1−α)%

e suas longitudes relativas atráves dos autovetores e autovalores da matriz de covariância amostral Se

. Existem

p eixos no elipsóide e a direção de cada eixo é determinada pelo respectivo autovetor, traçado com Xe

como

origem. Deste modo, começando do centro, determinado por Xe

, os eixos da elipsóide são:

±p

λi

p (n −1)n (n −p )

Fp ,n−p (α)

para ver isso, basta fazer Xe

−µe

0 = cÆ

λi

nee

i , em que

c 2 =(n −1)p

n −pFp ,n−p (α).

Exemplo 16.1. A partir dos dados do Exemplo ??, obter a região de confianca de 95%, e verificar se o ponto

µe

Page 55: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

54 AULA 16. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA

pertence a mesma.

Solução: Do Exemplo ?? tem-se,

4, 640

45, 400

9, 965

e Se

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

Portanto a região de confiança é dada por:

4, 640−µ1

45, 400−µ2

9, 965−µ3

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

4, 640−µ1

45, 400−µ2

9, 965−µ3

≤(20−1)×3

20−3F3,20−7(0, 1) = 8, 17

Assim, para

µe

tem-se que

4, 640−4

45, 400−50

9, 965−10

2, 879 10, 010 −1, 810

10, 010 199, 788 −5, 640

−1, 810 −5, 640 3, 628

4, 640−4

45, 400−50

9, 965−10

= 9, 74

Logo, µe

não pertence ao IC.

16.1 Intervalos de Confiança simultâneos

Apesar de n�

−µe

�tSe

−1�

−µe

�

≤ c 2, fornecer corretamente a região de confiança para as médias de

uma população normal p-variada, qualquer resumo de conclusões, em geral, inclui intervalos de confiança

sobre médias individuais.

Seja Xe

∼ N�

µe

, Σe

�

e seja a seguinte combinação linear

Z = ae

t Xe

= a 1X1+ . . .+a p Xp

Assim do Teorema ?? segue que

Z ∼ N�

tµe

, ae

tΣe

�

Seja Xe

1, . . . , Xe

n uma amostra aleatória de Xe

, assim a amostra corresponde de Z’s pode ser criada tomando,

Z j = ae

t Xe

j = a 1X j 1+ . . .+a p X j p

Page 56: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

16.1. INTERVALOS DE CONFIANÇA SIMULTÂNEOS 55

a média e a variância amostrais dos valores observados são,

Z = ae

t Xe

e S2Z = a

t Se

Agora para ae

fixo e σ2Z desconhecido, segue que um intervalo de confiança 100(1− α)% para µZ = a

tµe

baseado na distribuição t-Student da estatística

t =Z −µZσZp

pn (ae

t Xe

−ae

tµe

t Se

Assim, um intervalo de confiança 100(1−α)% para µZ = ae

tµe

é dado por

I C (µZ , 100(1−α)%) =�

t Xe

− tn−1

�

t Se

, ae

t Xe

+ tn−1

�

t Se

�

Agora note que se ae

t = [1, 0, . . . , 0], então ae

tµe

= µ1 e o intervalo de confiança acima se torna o IC usual para

a média. Desta maneira, pode-se construir um IC para cada componente do vetor de médias, mas como já

foi demonstrado anteriormente para o caso de testes de hipótese univariados, o nível de confiança associado

com os intervalos de confiança separados possuem confiança menor que 100(1−α)%.

Agora note que o intervalo de confiança acima pode ser escrito como,

|t |=

�

pn (ae

t Xe

−ae

tµe

t Se

�

≤ tn−1

�

ou equivalentemente,

t 2 =n (ae

t Xe

−ae

tµe

t Se

=n�

t (Xe

−µe

)�2

t Se

≤ t 2n−1

�

= F1,n−1

�

= c 2

Deseja-se determinar um valor ótimo para c 2, tal que t 2 será relativamente pequeno para todas as escolhas

de ae

. Desta modo, parece ser razoável esperar que a constante c 2 será substituída por um valor maior. Consi-

derando os valores de ae

para o qual t 2 ≤ c 2, tem-se o seguinte problema,

maxae

t 2 =maxae

n�

t (Xe

−µe

)�2

t Se

Pode ser demonstrado que,

maxae

t 2 = n (Xe

−µe

)t Se

(Xe

−µe

) = T 2

Assim,

P(T 2 ≤ c 2) = 1−α⇒ c 2 =p (n −1)Fp ,n−p

�

α2

�

n −p

Portanto, simultaneamente para todo ae

, o intervalo

t Xe

−

p (n −1)Fp ,n−p

�

α2

�

n −p

t Se

, ae

t Xe

p (n −1)Fp ,n−p

�

α2

�

n −p

t Se

Page 57: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

56 AULA 16. REGIÕES DE CONFIANÇA E COMPARAÇÕES SIMULTÂNEAS DE COMPONENTES DA MÉDIA

irá conter ae

tµe

com probabilidade 1−α.

Deste modo, para ae

t = [1, 0, . . . , 0], ae

t = [0, 1, 0, . . . , 0], . . . , ae

t = [0, . . . , 0, 1] tem-se que,

X i −

p (n −1)Fp ,n−p

�

α2

�

n −p

Si i

n, X i +

p (n −1)Fp ,n−p

�

α2

�

n −p

Si i

irá conter µi para todo i = {1, 2, . . . , p} simultaneamente com probabilidade 1−α. Note ainda que, sem qual-

quer modificação do nível de confiança 100(1−α)%, pode-se construir intervalos de confiança para diferenças

µi −µk correspondendo a ae

t = [0, . . . , 0, a i , 0, . . . , 0, a j , 0, . . . , 0] em que a i = 1 e a k =−1.

16.2 Método de Bonferroni

Muitas vezes um pequeno número de intervalos de confiança são necessários. Nestas situações pode-se

ter uma opção melhor do que as comparações simultâneas, obtendo intervalos de confiança menores do que

os intervalo simultâneos. Esta alternativa é conhecida por método de Bonferroni. A seguir é apresentado o

método para obtenção de intervalos de confiança para os componentes de média.

Seja ae

t1µe

, . . . , ae

tmµe

m combinações lineares para as quais se deseja obter seus respectivos intervalos de

confiança. Seja I C i o IC para ae

tiµe

com nível de confiança 100(1−αi )%, assim P(I C i ) = 1−αi e P(I C ci ) = αi ,

para i = 1, 2, . . . , m . Então,

P(∩mi=1I C i ) = 1−P(∪m

i=1I C ci )

≥ 1−m∑

i=1

P(I C ci )

= 1−m∑

i=1

[1−P(I C i )]

= 1−m∑

i=1

[1−1+αi ]

= 1−m∑

i=1

αi

Deste modo, os intervalos de Bonferroni serão construídos de tal forma que a confiança conjunta dos m IC

seja maior ou igual a 1−α. Uma alternativa é escolher cada αi = αm

, assim∑m

i=1αi =α.

Se m = p médias forem consideradas, então, o método de Bonferroni é:

I C

�

µi , 100

�

1−α

�

X i − tn−1

�

Si i

n, X i + tn−1

�

Si i

�

Page 58: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 17

Comparações de vetores de médias para duas

populações

O teste T 2 para a igualdade de vetores média de duas populações pode ser desenvolvido por analogia ao

procedimento univariado. Este teste é apropriado para comparar a resposta média de um grupo experimental

(população 1) com a resposta média “independente” de outro grupo experimental (população 2). Se possível,

as unidades experimentais devem ser sorteadas para cada conjunto de observações de ambas as populações,

o que abrandará o efeito da variabilidade entre unidades na comparação entre tratamentos. Apesar disto, este

tipo de comparação, é em geral, menos preciso do que o caso de comparações pareadas.

17.1 Revisão do teste t para duas populações

Seja X11, . . . , X1n 1 uma amostra aleatória de tamanho n 1 da população 1 com distribuição N (µ1,σ21) e X21, . . . , X2n 2

uma amostra aleatória de tamanho n 2 da população 2 com distribuição N (µ2,σ22). Seja X 1, X 2 as médias amos-

trais e S1,S2 os desvios padrões amostrais. Assumindo que as amostras são independentes e que σ1 =σ2 =σ

comσ desconhecido, tem-se, para testar

H0 :µ1 =µ2 versus H1 :µ1 6=µ2

utiliza-se a estatística,

t =X 1−X 2

1n 1+ 1

n 2

que tem distribuição t com n 1+n 2−2 graus de liberdade se H0 for verdadeira. Em que,

S2p =(n 1−1)S2

1+(n 2−1)S22

n 1+n 2−2.

Page 59: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

58 AULA 17. COMPARAÇÕES DE VETORES DE MÉDIAS PARA DUAS POPULAÇÕES

Logo rejeita-se H0 se |t |> tn 1+n 2−2

�

α2

�

. Similarmente, tem-se que,

t 2 =(X 1−X 2)2

S2p

�

1n 1+ 1

n 2

� =n 1n 2

n 1+n 2(X 1−X 2)(S2

p )−1(X 1−X 2).

Logo, rejeita-se H0 se t 2 > t 2n 1+n 2−2

�

α2

�

= F1,n 1+n 2−2(α).

Observação 17.1. Note que,

σX 1−X 2=p

V a r (X 1−X 2) =p

V a r (X 1)+V a r (X 2)

σ21

n 1+σ2

n 2=

σ2

n 1+σ2

n 2

=σ

n 1+

n 2

Logo, Sp é uma estimativa para σX 1−X 2. Note ainda que, E (S2

p ) =σ2 logo, S2

p é um estimador não viciado para

σ2.

17.2 Teste T 2 para duas amostras independentes

Seja Xe

11, . . . , Xe

1n 1 uma amostra aleatória de tamanho n 1 da população 1 com distribuição Np (µe

1,Σe

1) e

21, . . . , Xe

2n 2 uma amostra aleatória de tamanho n 2 da população 2 com distribuição Np (µe

2,Σe

2). Seja Xe

1, Xe

os vetores de médias amostrais e Se

1,Se

2 as matrizes de covariâncias amostrais.

17.2.1 Caso 1 - Σe

1 =Σe

2 =Σe

Desconhecido

Quando as duas populações têm mesma matriz de convariância Σe

e se deseja comparar seus vetores de

médias, então para testar a hipótese H0 : µe

1 = µe

2 ou similarmente H0 : µe

1−µe

2 = 0e

tem-se que a generalização

de t 2 para o caso multivaraiado é a estatística T 2 de Hotelling

T 2 =n 1n 2

n 1+n 2(Xe

1−Xe

2)t Se

−1p (Xe

1−Xe

em que

p =(n 1−1)S

1+(n 2−1)Se

n 1+n 2−2.

Sob a hipótese H0 tem-se que ν−p+1νp

T 2 tem distribuição Fp ,ν−p+1. Para este caso ν = n 1+n 2−2 assim, n 1+n 2−p−1(n 1+n 2−2)p T 2

tem distribuição Fp ,n 1+n 2−p−1. Deste modo, rejeita-se H0 se

n 1+n 2−p −1

(n 1+n 2−2)pT 2 ≥ Fp ,n 1+n 2−p−1(α)

T 2 ≥(n 1+n 2−2)pn 1+n 2−p −1

Fp ,n 1+n 2−p−1(α)

Page 60: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

17.3. TESTE T 2 PARA DUAS AMOSTRAS PAREADAS 59

17.2.2 Caso 2 - Σe

1 6=Σe

2 Desconhecidos

Quando Σe

1 6=Σe

2, a distribuição das estatísticas dependem de uma medida de distância que não são inde-

pendentes das covariâncias populacionais desconhecidas. Por serem desconhecidas as covariâncias popula-

cionais, o teste de Bartlett pode ser usado para testar H0 :Σe

1 =Σe

2. No entanto, este teste é fortemente afetado

se a pressuposição de normalidade for violada. O teste em questão não pode diferenciar entre a ausência

de normalidade e a heterogeneidade das covariâncias. O problema de covariâncias heterogêneas, quando as

amostras são provenientes de populações normais é conhecido como problema de Behrens-Fisher multiva-

riado. Sete soluções para o problema multivariado de Behrens-Fisher foram estudadas por ? por meio de

simulação Monte Carlo, comparando as taxas de erro tipo I e o poder destas soluções. Seis destas aproxima-

ções são: ?, ?, ?, ?, ? e ?.

Quando ambos n 1−p e n 2−p são grandes, pode-se evitar as complicações da desigualdade de variâncias

utilizando a aproximação assintótica. Deste modo, rejeita-se H0 se,

(Xe

1−Xe

2)t�

n 1Se

1+1

n 2Se

�−1

(Xe

1−Xe

2)≥χ2

p (α)

Exemplo 17.1.

17.3 Teste T 2 para duas amostras pareadas

Em muitas situações experimentais deseja-se testar o efeito ou eficácia de um tratamento. Para isso, me-

didas são tomadas nas unidades experimentais antes e após a aplicação do tratamento. Uma outra situa-

ção em que esta comparação pode ser de interesse é quando na mesma unidade amostral ou experimental

dois tratamentos são aplicados. Estas respostas são denominadas medidas pareadas, e podem ser analisa-

das calculando-se suas diferenças, eliminando a influência da variação entre as unidades experimentais ou

amostrais.

17.3.1 Caso univariado

Seja X1i a resposta do tratamento 1 (ou resposta antes do tratamento) e X2i a resposta do tratamento

2 (ou resposta após o tratamento) para a i -ésima unidade amostral ou experimental, em que (X1i , X2i ) são

medidas tomadas na mesma unidade amostral ou experimental, então as n diferenças Di = X2i −X1i devem

refletir somente o efeito diferencial entre os tratamentos. Supõe-se que as diferenças Di são observações

independentes de uma distribuição N (µD ,σ2D). A estatística para testar esta hipótese

H0 :µD = 0(O tratamento não tem efeito) versus H1 :µD 6= 0

Page 61: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

60 AULA 17. COMPARAÇÕES DE VETORES DE MÉDIAS PARA DUAS POPULAÇÕES

é,

t =DSDp

que tem distribuição t com n −1 graus de liberdade se H0 for verdadeira. Em que,

D =1

n∑

i=1

Di e S2D =

n −1

n∑

i=1

(Di −D)2.

Logo rejeita-se H0 se |t |> tn−1

�

α2

�

. Similarmente, tem-se que,

t 2 =D

S2D

= nD(S2D)−1D.

Logo, rejeita-se H0 se t 2 > t 2n−1

�

α2

�

= F1,n−1(α).

17.3.2 Caso multivariado

Seja Xe

1i representa a resposta do tratamento 1 (ou resposta antes do tratamento) e Xe

2i a resposta do tra-

tamento 2 (ou resposta após o tratamento). Seja De

i =Xe

2i −Xe

1i as n diferenças. Supõe-se aqui também que as

diferenças De

i são observações independentes de uma distribuição Np (µe

D ,Σe

2D). Assim, para testar a hipótese,

H0 :µe

D = 0e

(O tratamento não tem efeito) versus H1 :µe

D 6= 0e

tem-se que a estatística do teste é,

T 2 = nDe

−1D De

que tem distribuição (n−1)pn−p

Fp ,n−p . Deste modo, rejeita-se H0 se

T 2 >(n −1)p

n −pFp ,n−p (α)

Page 62: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Aula 18

Análise de Componentes Principais

A análise de componentes principais tem como objetivos:

• redução da dimensão original;

• facilitação da interpretação das análises realizadas.

Em geral, a explicação de toda a variabilidade do sistema determinado por p variáveis só pode ser efetuada

por p componentes principais. No entanto, uma grande parte dessa variabilidade pode ser explicada por

um número k menor de componentes, k < p . Os componentes principais são uma técnica de análise in-

termediária e, portanto não se constituem em um método final e conclusivo. Esse tipo de análise se presta

fundamentalmente como um passo intermediário em grandes investigações científicas.

Essa técnica pode ser aplicada em:

1. análise de regressão múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;

2. análise de agrupamento;

3. como estimadores de fatores na Análise fatores comums;

4. Ordenação dos elementos amostrais;

Uma componente principal é uma combinação linear das variáveis originais. As componentes principais,

que denotaremos por Y1, . . . , Yp com matriz de covariancia Λe

, são obtidas de tal forma que:

1. Sejam não correlacionadas, isto é, Cov (Yi .Yj ) = 0; Se as variáveis originais tiverem distribuição normal

p-variada então as componentes principais serão independentes;

2. A variância generalizada do vetor de componentes principais é igual variância generalizada do vetor de

variáveis originais, isto é,

|Λe

|= |Σe

|=p∏

i=1

λi ;

Page 63: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

62 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS

3. A variância total do vetor de componentes principais é igual variância total do vetor de variáveis origi-

nais, isto é,

t r (Λe

) = t r (Σe

) =p∑

i=1

λi .

Assim, seja,

...

então p componentes principais podem ser obtidas, como Ye

= Ae

, isto é,

...

a 11 a 21 . . . a p 1

a 12 a 22 . . . a p 2

. . . . . . . . . . . . . . . . . . . .

a 1p a 2p . . . a p p

...

Agora note que, como as componentes principais são não correlacionadas, segue que,

Λe

Λ11 0 . . . 0

0 Λ22 . . . 0

. . . . . . . . . . . . . . . . . . .

0 0 . . . Λp p

como |Λe

|=∏p

i=1λi , segue que,

Λ=

λ1 0 . . . 0

0 λ2 . . . 0

. . . . . . . . . . . . . . . .

0 0 . . . λp

Agora, note também que

V a r (Ye

) = Λe

=V a r (Ae

) = Ae

V a r (Xe

)Ae

t = Ae

Σe

Assim,

Λe

t1Σe

1 ae

t1Σe

2 . . . ae

t1Σe

t2Σe

1 ae

t2Σe

2 . . . ae

t2Σe

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

tpΣe

1 ae

tpΣe

2 . . . ae

tpΣe

Assim, tem-se que

tiΣe

i = ae

p∑

i=1

λi ee

i ee

ti ae

i =λi

Page 64: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

tiΣe

j = ae

p∑

i=1

λi ee

i ee

i ae

j = 0

para i 6= j . Destas relações segue que, ae

i = ee

i .

Geometricamente, essas combinações lineares representam a seleção de novos eixos coordenados, os

quais são obtidos por rotações do sistema de eixos original, representados por X1, · · · , Xp . Os novos eixos

representam as direções de máxima variabilidade.

Como foi demonstrado, os componentes principais dependem somente da matriz de covariância Σe

(ou

da matriz de correlação ρ) e de X1, . . . , Xp . Seu desenvolvimento também não requer pressuposições de nor-

malidade multivariada.

Definição 18.1. A proporção da variância total que é explicada pelas k primeiras componentes principais é

dada por,∑k

i=1 V a r (Yi )t r (Σe

∑ki=1λi

∑pi=1λi

Em muitas situações em que se aplicam os componentes principais se uma porcentagem de 70% ou mais

for atribuída aos primeiros k componentes principais, então, esses podem substituir as p variáveis originais

sem perda de uma quantidade demasiada de informações. A determinação dessa porcentagem da variação

explicada pelos primeiros k componentes deve ser feita pelo pesquisador interessado e que possui maior

conhecimento da área estudada. A determinação do número k de componentes para que uma determinada

porcentagem fixada da informação seja contemplada por eles é um dos problemas que dificulta o emprego

dessa metodologia.

Os componentes do autovetor podem informar sobre a importância das variáveis para o i-ésimo compo-

nente principal, por meio de suas magnitudes. No entanto, esses componentes são influenciados pela escala

das variáveis. Para contornar tal problema, os pesquisadores podem utilizar uma importante medida de asso-

ciação, a qual não depende da magnitude das mensurações (escala) das variáveis originais, que é o coeficiente

de correlação entre Yi e Xk que é dado por,

ρ =Cov (Yi , Xk )

V a r (Yi )V a r (Xk )=

Cov (ee

ti Xe

, le

t Xe

V a r (Yi )V a r (Xk )

em que le

= (0, . . . , 1, 0, . . . , 0)t . Assim,

ρ =ee

tiΣe

λiσk k

=λi e i kp

λiσk k

λi e i kpσk k

Observação 18.1. Um problema que pode ser encontrado a análise de componentes principais é quando existe

uma discrepância muito grande entre as variâncias das variáveis originais, pois isso irá influenciar na compo-

nentes principais que serão obtidas. Este problema pode ser contornado por exemplo fazendo uma padroniza-

Page 65: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

64 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS

ção nas variáveis originais. Deste modo, a matriz de covariancia das variáveis padronizadas será a matriz de

correlação das variáveis originais.

Portanto, para Zi =X i−µi

σi, tem-se que Yi = e

ti Ze

em que ee

i é um autovetor da matriz de correlação. A

variância de Yi é igual a λi em que λi é um autovalor da matriz de correlação e a correlação entre Yi e Zk é

dado por,

ρ =p

λi e i k .

A proporção da variância total que é explicada pelas k primeiras componentes principais é igual a∑k

i=1λi

Exemplo 18.1. Considere a seguinte matriz de covariância,

Σe

1 4

4 100

e sua respectiva matriz de correlação,

ρe

1 0.4

0.4 1

Programa R 18.1: Região crítica para o teste multivariado

1 S ig = matrix ( c ( 1 , 4 , 4 , 1 0 0 ) , 2 , 2 )

rho = matrix ( c ( 1 , 0 . 4 , 0 . 4 , 1 ) , 2 , 2 )

> eigen ( S ig )

5 $values

[1 ] 100.1613532 0.8386468

$ v e c t o r s

9 [ , 1 ] [ , 2 ]

[1 , ] 0.04030552 0.99918740

11 [2 , ] 0.99918740 −0.04030552

> eigen ( rho )

15 $values

[1 ] 1 . 4 0 . 6

$ v e c t o r s

19 [ , 1 ] [ , 2 ]

Page 66: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

[1 , ] 0.7071068 0.7071068

21 [2 , ] 0.7071068 −0.7071068

Deste modo, as respectivas componentes principais são dadas por:

• Para Σe

Y1 = 0, 040X1+0, 999X2

Y2 = 0, 999X1−0, 040X2

• Para ρe

Y1 = 0, 707Z1+0, 707Z2

Y2 = 0, 707Z1−0, 707Z2

em que Zi =X i−µi

σi

Note que devido a variância de X2 ser bem maior que a variância de X1, X2 domina completamente a primeira

componente principal. Note também que, a proporção de variância explicada pela primeira componente prin-

cipal é,λ1

λ1+λ2=

100, 16

101= 0, 992

Entretanto quando a variável é transformada, verifica-se que ambas as variáveis tem peso igual na primeira

componente principal, isto pode ser visto calculando-se as correlações entre as componentes e as variáveis,

ρY1,Z1 = e11

λ1 = 0, 707×p

1, 4= 0.837 e ρY1,Z2 = e12

λ1 = 0, 707×p

1, 4= 0.837

e neste caso, a proporção de variância explicada pela primeira componente principal é,

λ1

λ1+λ2=

1, 4

2= 0, 7.

Pequenos valores para os últimos autovalores, tanto de S como de R, indicam, em geral, a presença de

dependência linear no conjunto de dados. Neste contexto pelo menos uma variável é redundante e pode ser

eliminada do conjunto de variáveis originais.

Existe sempre a questão importante de o número de componentes a ser retido. Não existe uma resposta

definitiva para essa questão. Os aspectos que devem ser considerados incluem a quantidade da variação

amostral explicada, o tamanho relativo dos autovalores e a interpretação subjetiva dos componentes. Uma

ferramenta visual importante para auxiliar a determinação de o número suficiente de componentes a ser re-

tido é o "‘scree plot"’. O termo "‘scree"’ refere-se ao acumulo de rochas nas bases de um penhasco, portanto

os "‘scree plots"’ serão considerados "‘gráficos de cotovelos"’. Na Figura ?? observa-se que um cotovelo é

Page 67: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

66 AULA 18. ANÁLISE DE COMPONENTES PRINCIPAIS

formado aproximadamente na posição i=4. Isso significa que os componentesacima de bλ3 possuem aproxi-

madamente a mesma magnitude e são relativamente pequenos. Isso indica que os três primeiros, talvez os

quatros primeiros componentes são suficientes para resumir a variação amostral total.

Figura 18.1: "‘Scree plot"’ de um exemplo com p=6 componentes principais para ilustrar o processo de de-

terminação de o número apropriado de componentes a ser retido.

Page 68: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Apêndice A

Lista 1

1. Considere oito pares de medidas de duas variáveis X1 e X2:

X1 -6 -3 -2 1 2 5 6 8

X2 -2 -3 1 -1 2 1 5 3

a. Trace um diagrama de dispersão e calcule Xe

e Se

;

b. Admitindo uma rotação de 26 nos eixos originais, transforme os pontos para

ex1 = x1cos(θ )+x2sen(θ )

ex2 =−x1sen(θ )+x2cos(θ ).

Calcule eXe

e eSe

;

c. Considere P = (4,−2), transforme para eP = (ex1, ex2) e calcule a distância estatística para a origem do

sistema usando,

d (O, eP) =

ex 21

es11+ex 2

es22;

d. Calcule a distância generalizada dos pontos xe

i à sua média xe

d (xe

i ,xe

) =p

(xe

i −xe

)t Se

−1(xe

i −xe

)

2. Seja Xe

3 4 5 4

6 4 7 7

. Encontre os valores dos estimadores de máxima verossimilhança de µ

e Σe

;

3. Análise a normalidade dos dados abaixo.

Page 69: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

68 APÊNDICE A. LISTA 1

Page 70: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

Referências Bibliográficas

BENNETT, B.M. (1951). Note on a solution of the generalized Behrens-Fisher problem. Annals of the Institute

of Statistical Mathematics 2, 97-90.

CHRISTENSEN, W.F.; RENCHER, A.C. (1997). A comparison of type I rates and power levels for seven solutions

to the multivariate Behrens-Fisher problem. Communication in Statistics: Simulation and Computation 26,

no. 4, 1251-1273.

Dillon, W., Goldstein, M. (1984). Multivariate Analysis. New York: John Wiley & Sons.

Graybill, F. A. (1976). Theory and Applications of the Linear model. Duxbury.

JAMES, G.S. 1954. Tests of linear hypotheses in univariate and multivariate analysis when the ratios of the

population variances are unknown, Biometrika 41, 19-43.

JOHANSEN, S. (1980). The Welch-James approximation to the distribution of the residual sum of squares in a

weighted linear regression, Biometrika 67, no.1, 85-92.

KIM, S. (1992). A practical solution to the multivariate Behrens-Fisher problem, Biometrika 79, no.1, 171-176.

NEL, D.G.; Van der MERWE, C.A. (1986). A solution to the multivariate Behrens-Fisher problem.

Communications in Statistics: Theory and Methods 15, 3719-3735.

Análise da percepção sobre assentos de trabalho utilizando técnicas estatísticas multivariadas. Produção 13,

34-49.

Scheaffer, R.L., Mendenhall, W., Ott, L. Elementary survey sampling. Boston: PWS-KENT Publishing Company,

1996.

Rao, C. R. (1966). Covariance adjustment and related problems in multivariate analysis, in Multivariate Analy-

sis, P. Krishnaiah (ed.), Academic Press, 87-103.

Shapiro, S. S., Wilk,M. B.(1965). An analysis of variance test of normality, Biometrika 52, no. 4, 591-611.

Page 71: Sumário - UFPBulisses/disciplinas/notasdeaula-anamult.pdf · A função básica do índice é a de sintetizar em uma única variável a informação de todas as variáveis que foram

70 REFERÊNCIAS BIBLIOGRÁFICAS

YAO, Y. (1965). An approximate degrees of freedom solution to the multivariate Behrens-Fisher problem. Bio-

metrika 52, no.1, 139-147.

Top Related

INF05010–Otimização combinatória Notasdeaulamrpritt/lib/exe/fetch.php?media=inf05010:... · INF05010–Otimização combinatória Notasdeaula Luciana Buriol, Marcus Ritt com

DINÂMICA DO SISTEMA SOLAR - astro.iag.usp.brpicazzio/aga292/Notasdeaula/dinamica-sistema... · Excentricidade da órbita (e) - relação entre a semi -distância focal e o semi-eixo

Interfaces - Escola de Artes, Ciências e Humanidades ...each.uspnet.usp.br/digiampietri/ACH2002/notasdeaula/0c_interfaces.pdf · Interface • Definição: s.f. Limite comum a dois

Esta aula: Circuitos elétricos Circuito elétrico: nó, laço Conjunto de …cardieri/NotasdeAula... · 2015. 8. 18. · EA513 – Circuitos Elétricos – DECOM – FEEC – UNICAMP

Banco de Dados Distribuídos - Faculdade de Computaçãoilmerio/GBC043/notasdeaula/bccSbdA_SQL... · 2021. 5. 7. · realizarem alterações nos dados do banco de dados por meio da

Computação Gráfica I - mat.ufc.bresdras/ck090_2007/notasdeaula/Capitulo01.pdf · 4 Sumário do Curso 1. Sistemas Gráficos e Modelos 1.1 Aplicações de Computação Gráfica (A1)

4444W-02 Sistemas Robotizadosfkuhne/files/sistrob_em/notasdeaula/4... · • Slides • Vídeos – Groover, cap. 8 (pag. 182 ~ 188) • complementar. 01/04/2015 2 3 Aplicações

Notasdeaula Algoritmoseprogramacao Ele Eca