An alise de Vari^ancia com mais de duas tores) · 2013-11-08 · An alise de Vari^ancia com mais de...
Transcript of An alise de Vari^ancia com mais de duas tores) · 2013-11-08 · An alise de Vari^ancia com mais de...
Analise de Variancia com mais de duas
variaveis independentes (mais de dois fa-
tores)
Na aula do dia 17 de outubro (aula #08) in-
troduzimos a tecnica de Analise de variancia
(ANOVA) a um fator, que resulta num teste
F cuja hipotese nula e a igualdade das medias
para a condicoes diferentes (variavel indepen-
dente). As suposicoes sao de que a variavel
resposta (dependente) tem distribuicao nor-
mal e as variancias sao iguais sob as diferentes
condicoes.
Podemos ter amostras independentes (expe-
rimento entre participantes ou como chama-
mos em estatıstica: experimento completamen-
te aleatorizado) ou amostras relacionadas (ex-
perimento intraparticipantes ou como chama-
mos em estatıstica experimentos em blocos
completos aleatorizados).
1
Na ANOVA a um fator (uma variavel indepen-
dente) com amostras independentes, os dados
sao representados da seguinte forma
condicao 1 condicao 2 ... condicao ay11 y12 ... y1ay21 y22 ... y2a
... ... ... ...yn11 yn22 ... ynaa
yij representa a i-esima observacao sob a j-
esima condicao (variavel independente), i =
1,2, ..., nj, nj - e o numero de observacoes sob
a j-esima condicao e j = 1,2, ..., a.
2
Na ANOVA a um fator a hipotese nula e dadapor{H0 : µ1 = µ2 = ... = µaH1 : pelo menos uma das medias e diferente das demais
µj corresponde a media do j-esimo grupo.
Variancia entre grupos: corresponde a variacaodevida as condicoes que definem os grupos.
Variancia intra-grupos: corresponde a variacaodentro de cada grupo.
Na ANOVA a um fator com amostras inde-pendentes a variacao total e decomposta emduas parcelas correspondentes a variacao entregrupos e a variacao intra-grupos.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQdentro︸ ︷︷ ︸variacao dentro dos grupos
Se a hipotese nula de que todas as medias sao iguais,isto e, de que nao ha variacao entre grupos, e ver-dadeira, segue que a variacao dentro dos grupos tendea ser igual a variacao total.
3
Notacao: SQTot: variacao total, SQentre: va-riacao entre grupos e SQdentro: variacao intragrupos.
QMTot =SQTotN − 1
: e uma media da variacao to-
tal.
N = n1 + n2 + ... + na e o numero total deobservacoes no problema. Se nj = n para todoj, teremos N = an.
QMentre =SQentre
a− 1: e uma media da variacao
entre grupos, chamada quadrado medio entregrupos.
a e o numero de grupos (condicoes) no pro-blema.
QMdentro =SQdentroN − a
: e uma media da variacao
intra grupos, chamada quadrado medio intragrupos ou quadrado medio residual.
4
A estatıstica do teste realizado pela ANOVA
e dada pela razao dos quadrados medios entre
grupos e intra grupos, a saber,
F =QMentre
QMdentro.
Se a hipotese nula e verdadeira, e possıvel mos-
trar que a estatıstica F tem uma distribuicao F
de Snedecor com a− 1 e N − a graus de liber-
dade no numerador e denominador, respecti-
vamente.
Se a hipotese nula e verdadeira, espera-se que
a razao entre os quadrados medios entre e den-
tro dos grupos seja pequena. Em geral, re-
jeitaremos H0 quando os valores amostrais de
F forem grandes.
5
Usando um nıvel de significancia α, a Regiao
Crıtica do teste da ANOVA sera a cauda su-
perior da distribuicao Fa−1,N−a de area α.
Na ANOVA e comum apresentar os resultados
usando uma tabela chamada tabela ANOVA.
Esta tabela contem as seguintes informacoes:
fontes de variacao, graus de liberdade, quadra-
dos medios e a razao F .
fonte devariacao SQ gl QM Fentregrupos SQentre a− 1 QMentre F = QMentre
QMdentro
dentro dosgrupos (residual) SQdentro N − a QMdentro -
total SQTot N − 1 - -
QMentre =SQentre
a− 1e QMDentro =
SQdentro
N − a
Se o valor de F for grande, H0 sera rejeitada.
6
Amostras relacionadas: experimento intrapar-
ticipantes: Como fica?
Em Estatıstica o nome usado para esse tipo
de situacao e Experimento a um fator em
Blocos Completos Aleatorizados.
No Bioestat usa-se a seguinte funcao para esse
caso: Estatisticas, Analise da Variancia, ANO-
VA:dois criterios.
Nesse caso as amostras nao sao independentes
e alem da variacao entre grupos e dentro do
grupos, passamos a poder medir uma variacao
inerente a cada participante (variacao de linha,
tambem chamada variacao devido aos blocos).
Observe que agora as amostras sob cada con-
dicao terao tamanhos iguais.
7
ind. cond. 1 cond. 2 ... cond. a1 y11 y12 ... y1a2 y21 y22 ... y2a... ... ... ... ...n yn1 yn2 ... yna
a representa o numero de condicoes diferentes.
n representa o numero de observacoes sob cada
condicao.
N = an e o numero total de observacoes.
yij representa a i-esima observacao sob a j-
esima condicao, i = 1,2, ..., n e j = 1,2, ..., a.
8
Na ANOVA a um fator com amostras rela-
cionadas a variacao total e decomposta em
tres parcelas correspondentes a variacao entre
grupos, a variacao inerente a cada participante
(variacao dos blocos) e a variacao residual.
SQTot︸ ︷︷ ︸variacao total
= SQentre︸ ︷︷ ︸variacao entre grupos
+ SQBl︸ ︷︷ ︸variacao do indivıduo
+ SQres︸ ︷︷ ︸variacao residual
Notacao: SQTot: variacao total, SQentre: va-
riacao entre grupos, SQBl - variacao nos blo-
cos (individual) e SQdentro: variacao residual
(dentro de cada grupo).
QMTot =SQTotN − 1
: e uma media da variacao to-
tal.
N e o numero total de observacoes no pro-
blema.
9
QMentre =SQentre
a− 1: e uma media da variacao
entre grupos, chamada quadrado medio entre
grupos.
a e o numero de grupos (condicoes) no pro-
blema.
QMBl =SQBln− 1
: e uma media da variacao dos
blocos, chamada quadrado medio dos blocos.
n e o numero de observacoes (igual) sob cada
condicao.
QMdentro =SQdentro
(a− 1)(n− 1): e uma media da
variacao residual, chamada quadrado medio re-
sidual ou intra grupos.
10
A estatıstica do teste realizado pela ANOVAnesse caso e dada pela razao dos quadradosmedios entre grupos e residual, a saber,
F =QMentre
QMdentro.
Se a hipotese nula e verdadeira, e possıvel mos-trar que a estatıstica F tem uma distribuicaoF de Snedecor com a − 1 e (a − 1)(n − 1)graus de liberdade no numerador e denomi-nador, respectivamente. Observe que apesarda aparencia da estatıstica F ser a igual emambos os casos, o calculo de QMDentro e dife-rente em ambos os casos.
Se a hipotese nula e verdadeira, espera-se quea razao entre os quadrados medios entre e den-tro dos grupos seja pequena. Em geral, re-jeitaremos H0 quando os valores amostrais deF forem grandes.
11
A tabela ANOVA correspondente a esse caso
e dada por
fonte devariacao SQ gl QM F
entregrupos SQentre a− 1 QMentre F = QMentre
QMdentro
blocos(individual) SQBl n− 1 QMBl
dentro dosgrupos
(residual) SQdentro (a− 1)(n− 1) QMdentro
total SQTot N − 1
QMentre =SQentre
a− 1, QMDentro =
SQdentro
(a− 1)(n− 1)
Se o valor de F for grande, H0 sera rejeitada.
O Bioestat tem essa funcao.
Estatısticas, Analise da Variancia, ANOVA: dois criterios.
12
Cuidado: toda vez que as medidas forem re-
petidas para as mesmas unidades amostrais e
fundamental rodar a ANOVA adequada, pois,
caso contrario, a variacao dentro dos grupos
podera ficar inflacionada acarretando na nao
rejeicao de H0 um maior numero de vezes por
conta da variacao residual inflacionada, ou seja,
aumentando a chance de cometer o erro tipo
II.
Se as amostras forem relacionadas, ou seja, se
for um experimento intra-participantes, rode o
a ANOVA adequada. No Bioestat isso corre-
sponde a rodar o caso ANOVA a dois criterios.
13
Na aula de hoje veremos uma extensao da A-
NOVA: ANOVA com mais de um fator (mais
de uma variavel independente) nas seguintes
situacoes:
(S1) dois fatores inter participantes (experi-
mento completamente aleatorizado);
(S2) dois fatores intra participantes (experi-
mento em blocos completos aleatorizado);
(S3) dois fatores um inter e um intra partici-
pantes. (experimento hierarquico a dois esta-
gios).
O mais importante aqui e o princıpio por tras
de cada uma dessas situacoes que e a decom-
posicao da variacao total dos dados em parce-
las devidas a cada um dos fatores e possıveis
interacoes entre fatores mais a variacao que
sobre chamada variacao residual.
14
Todas as situacoes levarao a uma tabela ANO-
VA similar as ja estudadas na aula #08, in-
cluindo mais linhas na tabela devido a presenca
de mais fontes de variacao.
Vamos comecar com o caso em que ha duas
variaveis independentes A e B e as amostras
sao independentes sob cada condicao do ex-
perimento. Se a variavel A admite a nıveis e,
a B admite b nıveis, teremos ao todo ab com-
binacoes de nıveis de tratamento.
15
Veja na figura a seguir, como e o planejamento
de uma situacao como essa na qual as variaveis
independentes tem duas respostas cada.
Observe que para cada combinacao de condicoes,
os grupos investigados sao independentes.
16
Na situacao mais simples temos a = 2 e b = 2
tal que o numero de combinacoes possıveis e
2 × 2 = 4.
Veja o exemplo a seguir.
EXEMPLO 1: Os dados a seguir referem a
notas finais para cada participante em quatro
condicoes distintas: revisao na sala de estar
ou na sala do exame, exame na sala de estar
ou na sala do exame. Suponha que os quatro
grupos seja independentes (experimento inter-
participantes).
A - sala do exame: estar ou de exame
B - sala da revisao: estar ou de exame
Variavel observada: desempenho final na avaliacao
apos o processo de revisao.
17
18
Nesse primeiro momento vamos supor que tem-
se 4 grupos diferentes de 20 participantes: ao
todo N = 80 participantes distribuıdos aleato-
riamente em 4 grupos de 20.
A variacao total SQTot aqui sera decomposta
em 4 parcelas, a saber, SQA - variacao devido
a sala do exame, SQB - variacao devido a sala
da revisao, SQAB - variacao devido a uma in-
teracao entre sala do exame e sala da revisao
e, SQRes - variacao residual.
SQTot︸ ︷︷ ︸N−1=abn−1
= SQA︸︷︷︸a−1
+SQB︸ ︷︷ ︸b−1
+ SQAB︸ ︷︷ ︸(a−1)(b−1)
+ SQRes︸ ︷︷ ︸ab(n−1)
19
A tabela ANOVA contera as linhas de variacao
devido ao fator A, ao fator B, ao fator de in-
teracao AB mais a variacao residual, que jun-
tas dao a variacao total.
fonte devariacao SQ gl QM F
A SQA a− 1 QMA FA = QMA
QMRes
B SQB b− 1 QMB FB = QMB
QMRes
AB SQAB (a− 1)(b− 1) QMAB FAB = QMAB
QMRes
Residual SQRes ab(n− 1) QMRes
total SQTot abn− 1
n e o numero de observacoes sob cada combinacao denıveis dos fatores (variaveis independentes).
No exemplo sob investigacao n = 20, a = b = 2, asvariaveis independentes sao sala do exame(estar ou ex-ame) e sala da revisao (estar ou exame).
A variavel dependente e o desempenho (nota) do exame.
20
As hipoteses de interesse aqui sao investigar
se os fatores A (sala do exame), B (sala da
revisao) e de interacao AB sala do exame com
sala de revisao exercem algum efeito sobre a
media do desempenho. Nos testes da ANOVA
nesse caso, a hipotese nula e a de que esses
fatores nao exercem nenhum efeito sobre a
media, contra a alternativa de que exercem al-
gum efeito.
Sob H0 as estatısticas de teste seguem uma
distribuicao F com os seguintes graus de liber-
dade
FA ∼ Fa−1,ab(n−1),
FB ∼ Fb−1,ab(n−1) e
FAB ∼ F (a− 1)(b− 1), abn(n− 1).
21
Rejeitaremos a hipotese nula de ausencia de
efeito sobre a media em relacao a cada fator
se o valor amostral da estatıstica de teste for
grande.
Vamos ver como realizar essa ANOVA usando
o Bioestat.
Estatısticas, ANOVA fatorial a× b.
Nesse caso, o Bioestat demanda que entremos
com os dados de forma isolada conforme a tela
a seguir.
22
Observe que nessa entrada de dados os trata-
mentos correspondem ao tipo de sala do exame
e os blocos correspondem ao tipo de sala da
revisao.
tratamento 1: sala do exame em sala de es-
tar, tratamento 2: sala do exame em sala do
exame.
Bloco A: sala da revisao em sala de estar,
Bloco B: sala da revisao em sala do exame.23
O resultado obtido esta na tela a seguir.
Da saıda do Bioestat, verificamos que ao nıvel
de significancia de 5%, os efeitos de sala da re-
visao (blocos) e de interacao de sala da revisao
com sala de exame sao significativos.
24
Para interpretar os efeitos dos fatores sobrea media, um grafico de medias e sempre util.A seguir apresentamos graficos ilustrando osefeitos principais de sala do exame (que foinao significativo) e de sala de revisao. Observeque as medias sao calculadas com base nas 40 notas sob cada nıveldo fator principal.
25
Para entender melhor o efeito de interacao quefoi significativo para esses dados, observe ografico de medias a seguir. Agora as mediasforam calculadas com base nos 4 grupos de 20,sob as diferentes combinacoes dos nıveis dosfatores.
Percebe-se que se o exame foi feito na sala doexame, a media parece sofrer um efeito posi-tivo quando a revisao e feita tambem na salado exame; ao passo que se o exame e feito nasala de estar, a media parece sofrer um efeitonegativo se a revisao e feita na sala do exame.
26
Quando o efeito de um fator varia com os
nıveis do outro fator, dizemos que ha interacao.
Nos graficos ilustrativos, os perfis tendem a ser
paralelos, na ausencia de interacao.
A figura a seguir ilustra o grafico tıpico quando
nao ha interacao num experimento 2 × 2
27
A seguir apresentam-se graficos que ilustram a
presenca de interacao em experimentos 2 × 2.
28
29
Vamos supor agora que os grupos de 20 sao
os mesmos, ou seja que foram realizados 4 e-
xames para o mesmo grupo de 20 pessoas em
cada uma das 4 combinacoes. Ao todo temos
um grupo de N=20 participantes testados em
4 condicoes distintas.
O que esta ocorrendo agora, e que ha uma
nova fonte de variacao a ser considerada na
decomposicao da soma de quadrados total que
corresponde a variacao individual que costu-
mamos chamar de variacao devida ao bloco
“indivıduo”.
30
Veja na figura o formato dos dados nesse caso
numa situacao em que as respostas tem duas
categorias cada.
Observe que sao os mesmos participantes sob
cada combinacao de condicoes.
31
Suponha que seja essa a situacao dos dados
do exemplo 1.
32
Para cada linha da tabela de dados, temos um
mesmo participante e, portanto, fara sentido,
quantificar a variabilidade referente a cada in-
divıduo (linha) da tabela que denotaremos por
SQBl.
Nesse caso, a decomposicao da variacao total
inclui a parcela SQBl referente a variacao de-
vida a cada participante. Isso, de fato, ira re-
duzir o valor de SQRes, pois as outras variacoes
permanecem as mesmas.
SQTot = SQA+SQB+SQAB+SQBloco+SQRes
Aqui terıamos a segunda situacao na qual esta-
mos investigando duas condicoes num experi-
mento intraparticipantes.
33
Uma tabela ANOVA para esse caso e dada por
fonte devariacao SQ gl QM F
Bloco SQBl n− 1 QMBl
A SQA a− 1 QMA FA = QMA
QMRes
B SQB b− 1 QMB FB = QMB
QMRes
AB SQAB (a− 1)(b− 1) QMAB FAB = QMAB
QMRes
Residual SQRes (ab− 1)(n− 1) QMRes
total SQTot abn− 1
34
A terceira possibilidade e quando um dos fa-
tores e interparticipantes e, o outro intra-par-
ticipantes.
Suponha que na condicao de exame tenhamos
apenas 20 pessoas no grupo em sala do exame
e 20 pessoas em sala de estar. Porem, suponha
que para cada um desses grupos realizamos
dois exames: um deles com revisao na mesma
sala em que o exame foi realizado e, o outro
com a revisao em sala diferente da de exame.
Ao todo temos N = 40 participantes em dois
grupos de 20 e a variavel sala do exame e in-
terparticipantes, mas sala de revisao e intra
participantes.
35
A tabela a seguir ilustra a forma dos dados
nesse caso simples em que as duas variaveis sob
investigacao tem duas categorias de resposta.
Observe que os participantes sao os mesmos
para ambos os nıveis de sala de revisao (B),
fixado o nıvel da sala do exame. Mas, os par-
ticipantes sao diferentes, quando variamos o
nıvel do fator sala do exame (A).
36
37
Nesse ultimo caso, a decomposicao da variacao
total pode ser da forma:
SQTot︸ ︷︷ ︸abn−1
= SQA︸ ︷︷ ︸a−1
+SQB.(A)︸ ︷︷ ︸a(b−1)
+ SQRes︸ ︷︷ ︸ab(n−1)
A tabela ANOVA desse caso envolve
fonte devariacao SQ gl QM F
A SQA a− 1 QMA FA = QMA
QMRes
B dentro de A SQB.(A) a(b− 1) QMB FB = QMB
QMRes
Residual SQRes ab(n− 1) QMRes
total SQTot abn− 1
38
Observacao: A medida que o modelo torna-se
mais complexo, isto e, inclui mais variaveis in-
dependentes a modelagem tambem fica mais
complexa e, neste caso, o Bioestat torna-se
inadequado para realizar as analises quantita-
tivas.
Se voce se deparar com um problema mais
complexo, a recomendacao e consultar um es-
pecialista ou usar um programa mais sofisti-
cado do que o Bioestat, por exemplo o SPSS
(comercial) ou o R (domınio publico).
39
Exemplo 2: Dr. Kid esta interessado em in-
vestigar se meninos e meninas diferem na ha-
bilidade de perceber cores. Ele acha que as
meninas sao melhores do que meninos na per-
cepcao de cores desde os 5 anos de idade. Ele
testa dois grupos de idades diferentes (5 e 11
anos) por intermedio de um teste padrao de
percepcao de cores e compara o desempenho
(notas de 0 a 10) de meninos e meninas.
Os dados obtidos estao na tabela a seguir.
40
meninos de 5 meninas de 5 meninos de 11 meninas de 114 6 4 83 5 2 94 6 3 95 4 4 89 6 7 71 7 5 100 8 4 92 6 3 103 5 2 83 4 2 64 6 4 95 3 5 8
1. Qual e a situacao nesse caso?
2. Quais sao as variaveis dependentes e inde-
pendentes?
3. Entre com os dados no Bioestat e realize
uma ANOVA.
4. Existem efeitos significativos de idade, gene-
ro ou interacao idade e genero? Em caso afir-
mativo, descreva os efeitos por meio de um
grafico de medias.
41
1. Observe que sao 4 grupos diferentes de 12
criancas nas seguintes condicoes: meninos de
5 anos, meninas de 5 anos, meninos de 11 anos
e meninas de 11 anos.
Logo, trata-se da situacao 1: duas variaveis
independentes ao ANOVA a dois fatores num
experimento completqamente aleatorizado.
2. Variaveis independentes: idade - 5 ou 11
anos e genero: menino ou menina.
Variavel dependente: medida quantitativa da
habilidade de perceber cores.
42
3. Entramos com os dados:
43
E, obtemos
Ao nıvel de significancia de 5% verificamos que
todos os efeitos sao significativos, a saber, de
genero, de idade e de interacao genero e idade.
44
A seguir apresentamos os graficos de medias
para interpretar os efeitos dos fatores.
Quanto aos efeitos principais percebe-se um
efeito positivo na media quando:
- o genero varia de menino para menina e,
- a idade varia de 5 para 11 anos (de menor
amplitude).
45
Para interpretar o efeito significativo de in-
teracao genero versus idade, o grafico a seguir
sera util.
Vemos que em ambas as idades o efeito e po-
sitivo na media, mas na idade menor (5 anos)
a variacao na media de menino para menina e
de menor intensidade do que na idade de 11
anos.
46
Referencias bibliograficas:
(1) Dancey e Reidy - Estatıstica sem Matematica
para Psicologia. Penso.
(2) Triola. Introducao a Estatıstica. LTC.
(3) Montgomery, D. C. - Design and Analysis
of Experiments. Wiley.
(4) Busssab e Morettin - Estatıstica Basica.
Editora Saraiva.
47