Post on 13-Nov-2018
Cecilia Machado
FGV-EPGE
Abdul Latif Jameel Poverty Action Lab
www.povertyactionlab.org
O tamanho da amostra em avaliações aleatórias
1. Avaliações de impacto: O que são? Por que fazê-las? Quando fazê-las?
2. Marco lógico, indicadores e medição de impacto
3. Por que aleatorizar? 4. Como aleatorizar? 5. O tamanho da amostra 6. Implementar uma avaliação 7. Análise e inferência
Programa do curso
1. Avaliações de impacto: O que são? Por que fazê-las? Quando fazê-las?
2. Marco lógico, indicadores e medição de impacto
3. Por que aleatorizar? 4. Como aleatorizar? 5. O tamanho da amostra 6. Implementar uma avaliação 7. Análise e inferência
Programa do curso
• Introdução ao método científico
• Estimação
• Teste de hipótese
• Significância estatística
• Magnitude do efeito
• Poder
• Fatores que influenciam o poder
Programa da apresentação
1. Relembrar/entender elementos básicos de estatística:
– Estimação, Teste de hipótese, Significância estatística
2. Conceito-chave em avaliações aleatórias: Poder
– Sem análise de poder é possivel “matar” bons programas sem perceber
– Fatores que influenciam o poder
Objetivos da aula
• Aplicação do método científico às ciências sociais
• O método científico implica:
1. Propor uma hipótese
2. Elaborar estudos experimentais para testar a hipótese
• Como testamos as hipóteses em ciências sociais?
Método científico: proposta J-PAL
Quão grande deve ser a amostra para identificar “de maneira confiável” uma diferença entre
dois grupos?
A pergunta de hoje
7
Exemplo: Os homens são, em média, mais altos do que as mulheres?
8
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
• Quanto maior é a nossa amostra:
– Mais nos aproximamos das características da população, reduzimos nossa incerteza, e portanto,
– Será mais provável concluir que há uma diferença, dado que esta diferença existe na população.
Intuição
• Em direito penal, a maioria das instituições seguem a norma:
– “Inocente, até prova do contrário”
• A promotoria quer comprovar a hipótese de que a pessoa acusada é culpada
• Cabe à promotoria demonstrar a culpa
– O júri começa com a “hipótese nula” de inocência
Teste de hipótese
10
• Em estatística aplicada/avaliação, no lugar da “presunção de inocência” a norma é: “presunção de não diferença”
• Hipótese do avaliador/pesquisador: não há diferença na estatura média entre homens e mulheres
• A evidência deve demonstrar o contrário
Teste de hipótese
VOCÊ CONCLUI
homens mais altos homens não são mais altos
A
VERDADE
homens mais altos que mulheres
Erro tipo II
(baixo poder)
homens não são mais altos que mulheres
Erro tipo I
O problema é que podemos cometer dois tipos de erros
12
VOCÊ CONCLUI
homens mais altos homens não são mais altos
A
VERDADE
homens mais altos que mulheres
Erro tipo II
homens não são mais altos que mulheres
Erro tipo I
O problema é que podemos cometer dois tipos de erros
Probabilidade de rejeitar a hipótese
nula, dado que é verdadeira
VOCÊ CONCLUI
homens mais altos homens não são mais altos
A
VERDADE
homens mais altos que mulheres
Erro tipo II
homens não são mais altos que mulheres
Erro tipo I
O problema é que podemos cometer dois tipos de erros
14
Probabilidade de NÃO rejeitar a
hipótese nula, dado que é falsa
Exemplo: Os homens são, em média, mais altos do que as mulheres?
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
MÉDIA MULHERES
MÉDIA HOMENS
Poder: Quando se rejeita H0: homens não são mais altos do que as mulheres?
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
MÉDIA HOMENS
MÉDIA MULHERES
A hipótese nula seria rejeitada só 26% das vezes
Se a diferença observada em estatura fosse de 1 DS…
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
MÉDIA MULHERES
MÉDIA HOMENS
Se a diferença observada em estatura fosse de 3 DS, quanto seria o poder?
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
MÉDIA MULHERES
MÉDIA HOMENS
• Dois tipos de erros de decisão
• Sempre temos controle sobre o erro de tipo I
– É o limiar de decisão que nós escolhemos, geralmente 5%
• NEM sempre temos controle sobre o erro de tipo II,
– Quando trabalhamos com enquetes, o número de enquetes está determinado
Em resumo, até agora
• Em modelos experimentais podemos determinar quantos erros do tipo II vamos tolerar => Cálculos de poder
• Quanto maior a diferença média entre os dois grupos, maior o poder (menor o erro do tipo II) dado a amostra que temos
Em resumo, até agora
NÃO USE: Magnitude de efeito em programas similares
• Qual o menor efeito que justificaria o programa que está sendo realizado?
• Se o efeito é menor do que isso, não nos interessaria muito provar que seja diferente de zero
• Em contraste, se qualquer efeito maior que esse justificasse adotar este programa: gostaríamos de poder distingui-lo de zero
Como faço uma escolha antecipada da magnitude do efeito?
23
• Unidades típicas de medida são absolutas
– Centímetros, pontos, ocorrências, etc.
• Não é a mesma coisa uma diferença de 20cms quando o desvio padrão (variabilidade) é de 20 cms, do que quando é de 40cms
• efeito padronizado é a magnitude do efeito dividida pelo desvio padrão da variável de resultado
– Suas unidades são desvios padrões
Efeitos padronizados
24
Um efeito de magnitude…
é considerado… …e significa que…
0.2 Pequeno-modesto
O beneficiário médio do grupo de tratamento teve melhor resultado do que 58% do grupo de controle
0.5 Modesto-grande
O beneficiário médio do grupo de tratamento teve melhor resultado do que 69% do grupo de controle
0.8 Grande O beneficiário médio do grupo de tratamento teve melhor resultado do que 79% do grupo de controle
Magnitude do efeito padronizado
0
0,2
0,4
-4 -3 -2 -1 0 1 2 3 4 5 6
0
0,2
0,4
-4 -3 -2 -1 0 1 2 3 4 5 6
0
0,2
0,4
-4 -3 -2 -1 0 1 2 3 4 5 6
Como muda o poder com o tamanho da amostra?
Segundo o nível de significância e a magnitude do efeito…
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
MÉDIA HOMENS
MÉDIA MULHERES
Maior amostra, menor variação da minha estimativa, e portanto maior poder…
MÉDIA MULHERES
MÉDIA HOMENS
Quão grande deve ser a amostra para identificar “de maneira confiável” uma
diferença entre dois grupos?
A pergunta de hoje
30
Tamanho da amostra
3 ingredientes essenciais, até agora…
31
Nível de significância 5%, 10%
Poder mínimo desejado 80%, 90%
Efeito mínimo padronizado 0.2 DS, 0.5 DS
Uma relação muito simples entre eles…
32
N 4(t1 t )2
1
MEE 2
t1-k = Valor crítico de t associado ao poder 1-k. Para poder k=80%, t1-k=0.84 t = Valor crítico de t associado ao nível de significância . Para =0.05 t=1.666 MEE = Magnitude de efeito Padronizado = Magnitude de efeito/ Desvio Padronizado
• Imagine que você quer elaborar um experimento
para estudar o impacto da tecnologia (ex:
sementes de alto rendimento) sobre a
produtividade agrícola
• Estime quantos agricultores você precisará se
quiser ter um efeito de 10% no rendimento por
hectare, tendo em vista um rendimento médio de
50 quilos/hectare e um desvio padronizado de 60
quilos/hectare
Exercício
1. Há dados de linha de base?
2. A alocação do tratamento é a nível individual ou grupal (ex: colégio ou município)?
3. O protocolo de alocação experimental é cumprido de forma parcial ou total?
Três considerações práticas que afetam os requerimentos da amostragem
• Dada uma magnitude do efeito esperada e um tamanho de amostra, o poder é maior se há covariáveis de linha de base que tenham poder explicativo sobre o indicador do resultado
• Isto é, dado uma MEE e poder desejado, posso identificá-lo com uma amostra menor (menos $$$)
1. Há dados de linha de base?
36
• A covariável da linha de base com maior poder explicativo é o próprio indicador de impacto medido na linha de base
• Por exemplo, se eu quiser medir o impacto de um programa educativo sobre o resultado das provas é uma boa idéia aplicar a prova também na linha de base
1. Há dados de linha de base?
37
• Queremos saber o resultado das próximas eleições
• Método 1: Selecionar aleatoriamente 50 pessoas de toda a população da Índia
• Método 2: Selecionar aleatoriamente 5 famílias e pedir a opinião de dez membros de cada família
2. Alocação individual ou grupal
38
• Desenhos de agrupamentos são experimentos em que unidades sociais ou agrupamentos (em vez de pessoas), são alocadas aleatoriamente aos grupos de intervenção
• A unidade de aleatorização (ex: o colégio) é mais ampla que a unidade de análise (ex: os estudantes)
– Aleatorizar colégios e utilizar testes de crianças como indicador de impacto
Desenho de agrupamento
39
• Se as respostas estão correlacionadas dentro de um mesmo grupo, obtemos menos informação medindo várias pessoas do grupo
• É mais informativo medir pessoas não relacionadas
– É melhor ter 200 enquetes, 2 por conglomerado em 100 conglomerados que 100 por conglomerado em dois conglomerados
Desenho de agrupamento: intuição
40
• Como porcentagem, r deve estar entre 0 e 1
• Ao trabalhar com desenhos de agrupamentos, é melhor ter um menor r
• Às vezes é baixo: 0, 0,05, 0,08, mas pode ser alto: 0,62
Valores de r (rho)
42
Madagascar Matemática + Linguagem 0.5
Busia, Kenia Matemática + Linguagem 0.22
Udaipur, India Matemática + Linguagem 0.23
Mumbai, India Matemática + Linguagem 0.29
Vadodara, India Matemática + Linguagem 0.28
Busia, Kenia Matemática 0.62
Estudo N° de grupos tratamento/ controle
Número total de agrupamentos
tamanho total da amostra
Empoderamento das mulheres
2 Rajasthan: 100 Bengalia Ocidental: 161
1996 entrevistados 2813 entrevistados
Read Índia de Pratham 4 280 aldeias 17.500 crianças
Balsakhi de Pratham 2 Mumbai: 77 escolas Vadodara: 122 escolas
10.300 crianças 12.300 crianças
Programa de Professores Adicionais no Quênia
8 210 escolas 10.000 crianças
Desparasitação no Quênia 3 75 escolas 30.000 crianças
Alguns exemplos de tamanho da amostra
• Os resultados para as pessoas dentro de um agrupamento podem estar correlacionados
• Desenho: Devemos levar em conta os agrupamentos quando planificarmos o tamanho da amostra
• Quanto maior a correlação, é mais importante ter um maior número de agrupamentos no experimento, para um número de enquetes dado
Consequências dos agrupamentos
44
• Da maneira que o fizemos, os cálculos do tamanho da amostra assumem que todos os participantes seguem o protocolo de alocação
• Em programas sociais não trabalhamos com ratos, mas sim com pessoas
– As pessoas têm livre-arbítrio e podem escolher
3. O protocolo de alocação experimental é
cumprido de forma parcial ou total?
45
• Algumas pessoas alocadas ao tratamento podem não utilizá-lo, e algumas alocadas ao controle podem procurar receber o tratamento
• Por exemplo, no programa de bolsas PACES na Colômbia, só 50% dos estudantes inicialmente alocados para receber bolsa a mantiveram até 3 anos depois
3. O protocolo de alocação experimental é
cumprido de forma parcial ou total?
46
• Isto implica que o tamanho mínimo da amostra para identificar um impacto dado deve ser QUATRO vezes maior
• Em geral, o tamanho mínimo da amostra aumenta com o recíproco do quadrado da diferença no cumprimento entre tratamento e controle: 1/(c-s)2
3. O protocolo de alocação experimental é
cumprido de forma parcial ou total?
47
1. Relembrar/entender elementos básicos de estatística:
– Estimação, Teste de Hipótese, Significância estatística
2. Conceito-chave em avaliações aleatórias: Poder
– Sem Análise de poder é possível “matar” bons programas sem perceber
– Fatores que influenciam o poder
Objetivos da aula