aula 16- Análise de variância (ANOVA)
1
Lembrando: para testar hipóteses segundo estratégia de Neyman e Pearson é necessário
1) formular as hipóteses estatísticas;
2) fixar a probabilidade do erro tipo I;
3) calcular o tamanho da amostra necessária para detectar uma diferença que se suspeita existente o que é equivalente a fixar a probabilidade do erro tipo II.
4) apresentar a distribuição de probabilidade da estatística do teste;
5) estabelecer a(s) região(ões) de rejeição e aceitação (regiões críticas) do teste;
6) realizar o estudo, ou seja , coletar os dados e calcular a estatística do teste;
7) confrontar a estatística observada com a região crítica;
8) tomar a decisão;
9) elaborar a conclusão.
Teste de hipóteses de mais de duas médias – Análise de variância (ANOVA)
aula 16- Análise de variância (ANOVA)
2
Considerar a situação na qual deseja-se saber se o tipo de gordura produz efeitos diferentes, quanto a absorção, em doughnouts fritos. Inicialmente será apresentada a comparação de duas médias e, posteriormente, serão comparadas três médias. Desenho experimental: São sorteados (aleatoriamente) doughnuts que foram fritos em cada um de dois tipos de gordura. Quantifica-se a gordura absorvida em cada tipo. Notação: Tipo de gordura (fator): tipo 1 e tipo 2 (i=1,2) Número de doughnuts sorteados em cada tipo: 6 (j=1,...,6) Dados obtidos: quantidade de gordura (g) absorvida por doughnut, segundo tipo de gordura
doughnut Tipo (i) (j) 1 2 1 78 55 2 91 66 3 97 49 4 82 64 5 85 70 6 77 68
média 85 62 73,5
aula 16- Análise de variância (ANOVA)
3
Fixando-se a probabilidade de erro tipo I: Nível de significância () = 0,05
Hipóteses: 21
210
::
aHH
Para nível de significância pré-fixado, define-se as áreas de aceitação e rejeição de H0 utilizando-se a distrbuição F de Snedecor.
Calcula-se a estatística do teste e compara-se o valor observado com a área de rejeição/aceitação de H0 para tomada de decisão.
Density
0
.5
1
1.5
2
2.5
3
3.5
Rejeição de H0 Aceitação de H0
H0
aula 16- Análise de variância (ANOVA)
4
Estatística do teste Para a definição da estatística do teste, parte-se da idéia que se as médias fossem iguais, a média do tipo 1 seria igual à media do tipo 2 e estas seriam iguais à média total. Se isto acontecesse, não existiria variabilidade. Assim, na análise de variância estuda-se a variabilidade dos dados. A variabilidade total dos dados é decomposta em dois componentes: a variabilidade das observações dentro de cada tipo (em torno de suas médias) e a variabilidade entre tipo (cada média em torno da média total). Estrutura geral dos dados
i Unidade de
observação 1 2
1 X11 X21 2 X12 X22 j j X1j X2j 6 X16 X26 Médias
.1X .2X ..X no exemplo: n1=6 n2=6 N=12
aula 16- Análise de variância (ANOVA)
5
O número total de observações é igual a
2
121
iinnnN ;
A média de cada tipo é igual a
1
11
6
11
161211.1 66
...n
xxxxx
X
in
jj
jj
2
12
6
12
262221.2
2
66...
n
xxxxx
X
n
jj
jj
A média de um tipo genérico i é igual a i
n
jij
jij
iiii n
xxxxx
X
i
1
6
1621. 66
...
A média geral é igual a N
xxxxxxX i
n
jij
i jij
i
2
1 1
2
1
6
126211611.. 1266
......
aula 16- Análise de variância (ANOVA)
6
Variabilidade dos dados Chamando-se os tipos de gordura de k; no exemplo k=2, tem-se que o índice para tipo de gordura (i) varia de 1 a k (i=1,..,k) Considerando-se o número de unidades de observação (doughnuts) ni, tem-se que o índice para unidade (j) varia de 1 a ni. No exemplo, j= 1, 2,...6 para i=1 e j= 1, 2, ...6 para i=2 pois n1 = n2 = n = 6 (modelo balanceado). A variabilidade total dos dados é decomposta em duas: variabilidade dentro e variabilidade dentro:
Variação dentro de tipo de gordura
k
i
n
jiij
i
xx1 1
2. )(
Soma de quadrado dentro (SQD) Sum of squares within (SQW).
SQD também chamada resíduo (SQR)
aula 16- Análise de variância (ANOVA)
7
Variação entre tipo
k
iii xxn
1
2... )(
Soma de quadrado entre (SQE) Sum of squares between (SQB).
Variação total
k
i
n
jij
i
xx1 1
2.. )(
Soma de quadrado total (SQT)
SQT=SQE+SQD
aula 16- Análise de variância (ANOVA)
8
Recapitulando-se X:variável contínua de interesse
Populações P1 P2
Médias 1 2
Variâncias 2
2
Deseja-se comparar as médias mediante o cálculo da variabilidade dos dados. É necessário estimar 2 (variância populacional). Para tanto, divide-se cada soma de quadrados pelo respectivo grau de
liberdade. Graus de liberdade (número de observações necessárias)
Graus de liberdade dentro = N-k=10
Graus de liberdade entre = k-1=1
Graus de liberdade total = N-1
aula 16- Análise de variância (ANOVA)
9
Estimador de 2 : se H0 for verdade,
2̂ knSQD
kNSQD
= Quadrado médio dentro (QMD), também chamado quadrado médio do resíduo (QMR)
outro estimador de 2 : se H0 for verdade, 2ˆ
1
kSQE
1kSQE = Quadrado médio entre (QME), se H0 não for verdade, o valor estimado do quadrado
médio entre será igual a
k
iii xxn
kQME
1
2...
2 )(1
1̂
aula 16- Análise de variância (ANOVA)
10
Para a realização do teste confronta-se o QMD e o QME.
Estatística do teste: QMDQME
Se H0 for verdade, 1QMDQME
Se H0 não for verdade, 1QMDQME
Se H0 for verdade, 21 ,~ FQMDQME
onde F é a curva F de Snedecor e 1 e 2 são os graus de
liberdade do numerador e denominador, respectivamente
aula 16- Análise de variância (ANOVA)
11
Tabela da Análise de Variância – ANOVA Fonte de variação
gl SQ QM F
Entre k-1 SQE 1
kSQE
QME QMDQME
Dentro N-k SQD kN
SQDQMD
Total N-1 SQT Fórmulas operacionais:
SQT = NTX
i jij
22 , onde
i jijXT
SQD =
X Tnij
ji
i
ii
22
, onde
jiji XT
SQE = NT
nT
i i
i22
aula 16- Análise de variância (ANOVA)
12
Aplicação: Hipóteses:
21
210
::
aHH
Gramas de gordura absorvida por doughnut, segundo tipo de gordura; k=2; N=12
doughnut Tipo de gordura (i) j 1 2 1 78 55 2 91 66 3 97 49 4 82 64 5 85 70 6 77 68 ni 6 6 N=12
Médias ( .iX ) 85 62 73,5
Ti 510 372 T = 882 X ij
j
2
43652 23402 i j
ijX 670542
i
i
nT 2
43350
65102
1
21 nT
230646
372 2
2
22 nT
6482712
882 22
NT
aula 16- Análise de variância (ANOVA)
13
Soma de quadrado entre: SQE = NT
nT
i i
i22
SQE = 1587648272306443350
Soma de quadrado dentro i i
i
i jij n
TXSQD2
2
SQD = 67054-(43350+23064)=640
Soma de quadrado totalSQT = NTX
i jij
22
SQT = 67054-64827= 2227
aula 16- Análise de variância (ANOVA)
14
ANOVA (N=12; k=2) Fonte de variação
gl SQ QM F
Entre k-1=1 1587 1587/ 1= 1587 1587/ 64 = 24,80 Dentro N-k=10 640 640/ 10 = 64 Total N-1=11 2227
Para nível de significância de 5% e gl = 1 no numerador e 10 no denominador, tem-se a área de rejeição/aceitação de H0, se H0 for verdade: Como o valor de Fobs (24,8) cai na área de rejeição, decide-se por rejeitar H0. Foi encontrada diferença estatisticamente significante entre as médias, para nível de significância de 5%.
Density
0
.5
1
1.5
2
2.5
3
3.5
Rejeição de H0 =0,05
Aceitação de H0
H0
Fcritico, 1, 10 = 4,96 Fobs=24,8
Os doughnuts ficam encharcados diferentemente segundo o tipo de gordura. O tipo 1 encharca mais que o tipo 2.
aula 16- Análise de variância (ANOVA)
15
Abordagem de Fisher Proposição inicial: 21 Cálculo do valor de p A probabilidade de se observar um valor F=24,8 ou um valor mais extremo em uma curva onde as médias são iguais é < 0,5% (p<0,005). Como o valor de p é pequeno, diz-se que existe evidência contrária à proposição inicial de igualdade de médias. O tipo 1 encharca mais os doughnuts que o tipo 2.
Curva F com 1 e 10 graus de liberdade sob a hipótese (H0) de igualdade de médias
Fobs = 24,8
p<0,005
H0
aula 16- Análise de variância (ANOVA)
16
A Análise de variância é equivalente ao teste t de Student para amostras independentes, se o número de tratamentos for igual a 2.
2321 xx ;
6410
5x60,67 5x40,60
60,675
3385
62
40,605
3025
85
2
222
2
212
1
p
j
j
j
j
s
xs
xs
2
21
2121
~;11
nn
p
tt
nns
xxt ; 9796,4)
61
61(8
23
t ;
note que )]2( ,1[2
2 2121 nnnn Ft utilizando-se os dados, 80,249796,4 2
aula 16- Análise de variância (ANOVA)
17
Situação para mais de duas médias Abordagem de Neyman e Pearson Hipóteses:
diferenteémédiaumamenospeloHH
a :: 3210
Gramas de gordura absorvidas por doughnuts, segundo tipo de gordura, k=3; n=17 Tipo doughnuts 1 2 3 1 78 55 75 2 91 66 93 3 97 49 78 4 82 64 71 5 85 70 63 6 77 68 ni n1=6 n2=6 n3=5 n=17 Ti T1=510 T2=372 T3=380 T=1262 X i 85 62 76 74,24 X ij
j
2 43652 23402 29368 96422
T ni i2 43350 23064 28880 93684,94
aula 16- Análise de variância (ANOVA)
18
Soma de quadrado entre
06,160994,9368428880230644335022
nT
nT
SQEi i
i
Soma de quadrado dentro
i i
i
i jij n
TXSQD 1128 28880)23064(43350-964222
2
Soma de quadrdo total
2737,06 93684,94-964222
2 nTXSQT
i jij
ANOVA F. V. g.l. SQ QM F Entre 2 1609,06 SQEntre/2 = 804,53 QME/QMD= 9,99 Dentro 14 1128 SQDentro/14 = 80,57 Total 16 2737,06
aula 16- Análise de variância (ANOVA)
19
Para nível de significância de 5% e gl = 2 no numerador e 14 no denominador, tem-se a área de rejeição/aceitação de H0, se H0 for verdade: Como o valor de Fobs (9,99) cai na área de rejeição, decide-se por rejeitar H0. Foi encontrada diferença estatisticamente significante entre as médias, para nível de significância de 5%.
Os doughnuts ficam encharcados diferentemente segundo o tipo de gordura. Não é possível afirmar qual gordura encharca mais, mas pode-se afirmar que as quantidades médias diferem. Para localizar a diferençca deve-se utilizar algum tipo de contraste, como por exemplo o de Scheffé.
Density
0
.5
1
1.5
2
2.5
3
3.5
Rejeição de H0 =0,05
Aceitação de H0
H0
Fcritico, 2, 14 = 3,74 Fobs=9,99
aula 16- Análise de variância (ANOVA)
20
Abordagem de Fisher Proposição inicial: 321 Cálculo do valor de p: A probabilidade de se observar um valor F=9,99 ou um valor mais extremo em uma curva onde as médias são iguais é < 0,5% (p<0,005). Como o valor de p é pequeno, diz-se que existe evidência contrária à proposição inicial de igualdade de médias. Existe pelo menos uma média diferente.
Curva F com 2 e 14 graus de liberdade sob a hipótese (H0) de igualdade de médias
Fobs = 9,99
p<0,005
H0
aula 16- Análise de variância (ANOVA)
21
COMPARAÇÕES MÚLTIPLAS - TÉCNICA DE SCHEFFÉ Contraste : são valores que multiplicam as médias de modo formam uma combinação algébrica do
tipo 21 . Neste caso, a combinação é 21 )1()1( . Os valores +1 e –1 constituem os
contrastes c1 e c2 que somados resultam no valor zero. Utiliza-se os contrastes para compor combinações (lineares) do tipo
iiic , tal que 0
iic
As comparações podem ser feitas pelos Intervalos de Confiança de 95% (IC95%) para as combinações. Se o IC95% incluir o zero, então as médias são iguais.
Cálculo do IC95%:
)(1
2
i
i
iii n
cQMDentroSXc , onde ),,1()1( kNkFkS
aula 16- Análise de variância (ANOVA)
22
Comparações múltiplas 2 a 2: Média 1 x Média 2
)14,37 86,8( ;14,1423 ; 18,5x73,223
)61
61(5714,8074,3x2)6285(
O intervalo não inclui o valor 0, portanto existe diferença entre as médias.
Média 1 x Média 3
)85,2385,5( ;85,149 ; 44,5x73,29
)51
61(5714,8074,3x2)7685(
O intervalo inclui o valor 0, portanto não existe diferença entre as médias. Média 2 x Média 3
)85,28 85,0 ( 14,85;14 ; 44,5x73,214
)51
61(5714,8074,3x2)6276(
O intervalo inclui o valor 0, portanto não existe diferença entre as médias.
aula 16- Análise de variância (ANOVA)
23
Exemplo 36 pacientes hospitalizados foram submetidos a três dietas especiais. Medidas do ácido ascórbico no plasma foram tomadas. Realize um teste de hipóteses para investigar se os dados sugerem algum efeito de dieta.
Dieta 1 Dieta2 Dieta 3 0,22 1,03 0,75 0,88 0,96 0,98 0,73 1,18 1,07 0,30 0,74 1,48 0,54 1,33 1,30 0,16 1,27 1,39 0,30 1,17 1,17 0,70 1,80 1,60 0,31 0,54 0,77 1,40 1,40 1,12 0,60 0,80 1,16 0,73 0,50 1,17
318,372 i j
ijX ;
603,11252 T
656,332
i i
i
nT
Top Related