Post on 21-Oct-2019
Distribuição amostral da média;
Teorema do Limite Central; estimação
por ponto e intervalo de confiança
Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais
Exercício para entrega em 25/02 – grupos até 3 pessoas
Uma máquina automática de encher latas de sopa é ajustada para que o peso líquido do produto tenha uma média de 450g e desvio padrão de 15g, seguindo uma distribuição normal. Qual é a probabilidade de encontrarmos uma lata com peso líquido menor que 425g?
2 Prof. Marcos Vinicius Pó 32 Campbell's Soup Cans 1962 - Andy Warhol
Distribuição amostral
• É altamente improvável que duas amostras de mesmo tamanho e da mesma população possuam estatísticas iguais.
• Amostragens são probabilísticas, portanto, estatísticas baseadas nas amostragens também serão.
• Se as características da amostragem são conhecidas podemos estimar a probabilidade de cada resultado.
• Podemos também estimar a probabilidade de que uma estatística amostral esteja próxima do parâmetro populacional.
4
5
Amostras variadas, ainda que da
mesma população, geram estatísticas
diferentes.
• As amostras são aleatórias (randômicas), ou seja, todos os elementos da população possuem a mesma probabilidade de serem sorteados.
6
Pressuposto básico da amostragem
• Seja X uma variável aleatória com média μ e variância σ2, se fizermos seguidas Amostras Aleatórias Simples (AAS) com tamanho n, verificaremos que as suas médias seguem uma distribuição normal com os seguintes parâmetros.
• Ou seja, quanto maior a amostra, menor o desvio padrão da distribuição amostral das médias.
1. O valor esperado (esperança) da média das médias amostrais será a média da população.
2. A variância das médias amostrais será definida por:
7
Distribuição amostral da média
= X)E(
n =
n =
XX
2
2
Teorema do Limite Central (TLC)
Quando o tamanho da amostra (n) aumenta, independente da distribuição da população, a distribuição amostral da média da amostra (x) converge para uma distribuição normal.
8
Histogramas de distribuição da
média para amostras de algumas populações
Por que o TLC é importante para nós?
• Se nosso estimador for a média não é necessário conhecer a distribuição da população, pois a distribuição probabilística das médias amostrais tenderá à uma normal.
• A média das distribuições amostrais será igual à da população (μ) e a sua variância será dada por σ2/n.
• Com base nisso conseguimos fazer inferências a respeito da amostra e definir estimativas e critérios de aceitação.
9
Exemplo: uso da curva normal e do TLC
Um aluno empolgado por MQCS de ressaca decide fazer um levantamento dos valores* em posse dos frequentadores do saudoso Culto. Ele verificou que eles seguiam uma distribuição normal, com média R$100 e desvio-padrão de R$20.
a. Qual a P(90<X<110)?
b. Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)?
10
* Valores incluem grana, saldo de bilhete único, créditos do RU, bilhete do trem, etc.
Estimação de parâmetros
• Problemas: ► Estimar parâmetros de uma população a partir de amostras.
► Testar hipótese sobre os parâmetros.
• Estimador: estatística usada para aferir parâmetro da população. ► Genericamente: T estimador de
• Há vários estimadores possíveis. ► Ex. para média populacional :
• Erro entre a estimativa e o alvo: ► erro absoluto: |T-|
► erro quadrático: (T-)²
x
x
x
x
x
x
erro
x
11
Características de um bom estimador
• Precisão: (proximidade sistemática das observações entre si)
• Acurácia: (proximidade do valor alvo)
• Ausência de viés (desvio sistemático das observações em relação ao alvo)
(a) (b) (c)
12
Estimador de ponto
• Fornece um único número como estimativa.
• A preocupação é minimizar o erro para que nossa estimativa seja o mais próxima possível do parâmetro da população.
• Pelo TLC sabemos que nossos erros tem uma distribuição normal.
2 2
2
ˆ ˆˆE
13
14
Pequena questão: como saber se as estimativas das
nossas amostras estão perto do alvo considerando
que não sabemos os parâmetros da população?
Prof. Marcos Vinicius Pó
Estimação de intervalos
• Quando determinamos uma estimativa T de uma amostra, não temos nenhuma indicação de sua proximidade em relação ao parâmetro θ da população.
• A estimação pontual, a estimação por intervalo nos permite julgar a magnitude do erro que estamos cometendo. Sua determinação é baseada na distribuição amostral do estimador pontual.
• No nosso caso, na distribuição amostral das médias ou das proporções.
15
Intervalo de confiança (IC)
• IC = Probabilidade de que um intervalo estimado de valores contenha o parâmetro populacional que queremos determinar.
• Medido com coeficiente (ou nível) de confiança (γ), cujos valores mais comuns são 95% e 99%.
16
Fo
nte
: Bu
ssab
; Mo
rett
in, 2
00
2:
30
4
17 Prof. Marcos Vinicius Pó
https://g1.globo.com/politica/eleicoes/2018/noticia/2018/09/14/pesquisa-datafolha-bolsonaro-26-ciro-13-haddad-13-alckmin-9-marina-8.ghtml
Ilustrativamente
18
Fon
te:
Bu
ssab
; Mo
rett
in, 2
002:
305
95,096,196,1 = X X xxP
Metaforicamente
19
96,1x
96,1x
96,1x
96,1x
• Aumentamos o “calibre” das estimativas e conhecemos a chance de ter acertado o alvo.
• Mas não teremos certeza absoluta da estimativa que fizemos ter acertado!
Exemplos
• Calcule o intervalo de confiança para a média de altura de uma população normal em cada uma das amostras abaixo:
20
x n σ γ
170 cm 25 15 cm 95%
170 cm 25 15 cm 99%
170 cm 225 15 cm 99%
Distribuição amostral de uma proporção
• Consideramos X uma variável aleatória onde:
1, se portador da característica
0, se não for portador da característica
• Proporção é a freqüência de ocorrência da característica, podendo ser descrita como uma porcentagem.
► Ex.: doador de órgãos, profissão, preferência futebolística, intenção de voto em tal pessoa...
• É uma variável categórica binomial.
22
X
Proporção
• Proporção populacional é a frequência relativa com que se observa uma categoria na população.
X = total de vezes que a categoria ocorre na população
N = tamanho da população
• Proporção amostral é a frequência relativa com que a categoria se observa em uma amostra.
x = total de vezes que a categoria ocorre na amostra
n = tamanho da amostra
23
N
Xp
n
xp ˆ
Distribuição amostral de uma proporção
• Podemos aproximar a distribuição binomial para uma normal, onde a média e a variância são definidos como:
μ= E(X) = p
σ2 = Var(X) = p(1-p)
• A distribuição amostral da proporção é:
• O IC da proporção é similar ao de variáveis contínuas.
n
pppNp
)1(;~ˆ
24
n
pppp
n
ppp zz
)1(ˆ
)1(ˆ
Exemplo: binomial como normal
• Uma pesquisa de boca-de-urna com 400 eleitores aleatoriamente selecionados mostra que um candidato tem 51% das preferências dos votos válidos. Com base nisso, calcule:
► Um intervalo de confiança de 95% para a votação desse candidato.
► A probabilidade de que o candidato não vença a eleição, ficando com menos de 50% dos votos.
25
Intervalo de confiança: limites
nZxIC
x
;
n
ppZpIC
p
)1(ˆ
;ˆ
26
Valores absolutos
Proporções
Desvio-padrão da distribuição
amostral
Índice Z do coeficiente de
confiança γ
E se a variância da população não for conhecida?
• Para proporções: considerando que σ = p(1-p), se não soubermos o valor de p, há duas alternativas:
► Buscar uma estimativa de p (outros estudos, pesquisa piloto...).
► Usar uma estimativa conservadora com a máxima variância, considerando p = 0,5 (50%), portanto p(1-p) = 0,25 (valor máximo).
► Amostras pequenas: usar a distribuição t de Student para os limites de γ.
• Para medidas absolutas:
► Teremos que usar o s da amostra para determinar o intervalo de confiança. Podemos ter duas situações:
o Amostras grandes: pode-se considerar que ela aproxima-se da normal.
o Amostras pequenas: usar a distribuição t de Student para os limites de γ.
27
O que é uma amostra pequena?
• Costuma-se tomar arbitrariamente algo entre 30 e 60 como referência para definir se uma amostra é grande ou pequena.
• O mais adequado é analisar o problema e a variância amostral antes de decidir.
► Com variâncias grandes é necessária uma amostra maior para termos mais confiança na estimativa.
► Já para populações mais uniformes (variância pequena), podemos ter mais confiança na estimativa com amostras pequenas.
28 Prof. Marcos Vinicius Pó
Distribuição t de Student
• Desenvolvida por Willian S. Gosset em 1908, que publicou sob o pseudônimo Student.
• Ele desenvolveu essa distribuição enquanto trabalhava nas cervejarias Guinness ao verificar que pequenas amostras não se comportavam como previsto pela distribuição normal.
29
Distribuição t de Student
A distribuição t é semelhante à normal, mas com caudas mais largas. O parâmetro que a define são os graus de liberdade (ν).
gl = ν = n-1.
Fon
te:
htt
p:/
/en
.wik
iped
ia.o
rg/w
iki/
File
:Stu
den
t_t_
pd
f.sv
g
30
31
Exemplo: distribuição t
O número de horas de sono de uma amostra de 25 estudantes universitários* tem uma distribuição normal e é de 7 horas, com desvio-padrão de 2 horas.
(a). Determine um intervalo de confiança de 95% para o número médio de horas de sono dos estudantes.
(b). Calcule novamente o IC considerando que a amostra fosse de apenas 4 estudantes.
* Se fossem da UFABC não teriam tempo para essas coisas.
32 Prof. Marcos Vinicius Pó
Atividade para entrega em 07/03: grupos até 3 pessoas
No teste-piloto de um novo procedimento de compilação de apelações contra multas de trânsito foi feita uma amostra aleatória com 20 funcionários. A taxa média de compilação dessa amostra foi de 80 multas/hora, com desvio-padrão de 10 multas/hora e distribuição normal.
(a) Forneça o intervalo de confiança de 95% e 99% para a média de compilação desse novo procedimento.
(b) Considerando que o procedimento antigo possui uma média de 74 multas/hora e que trocá-lo implica em custos altos (treinamento, equipamento, ...), você aconselharia a substituição levando em conta os dois ICs calculados? Justifique sua resposta.
33 Prof. Marcos Vinicius Pó
Amostras, amostragem e tamanho
da amostra
Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Conceitos básicos
• Amostra: subconjunto de uma população, por meio do qual se estimam as propriedades e características dessa população.
• Amostra representativa: toda amostra que permite fazer inferências sobre a população.
• Amostragem: processo ou ato de construir uma amostra.
• Característica de interesse: propriedade dos elementos da população que se pretende conhecer.
• Plano amostral: protocolo que descreve os procedimentos da amostragem.
• População: conjunto de elementos cujos parâmetros se investigam por meio de amostras.
• População amostrada: população da qual foi retirada a amostra.
• Unidade elementar: entidade portadora das informações que se pretende coletar.
• Unidade de resposta: aquele que fornece as informações.
• Subpopulação: estrato da população que partilha alguma característica comum.
35 Fo
nte
: Bo
lfar
ine;
Bu
ssab
, 20
05
Tópicos básicos para um levantamento amostral
1. Identificação dos objetivos e populações ► Definir os objetivos gerais e
específicos.
► Especificar os parâmetros de interesse.
► Definir a população e as subpopulações de interesse (estratos).
2. Planejamento da coleta das informações ► Escolher o tipo de investigação
e o modo de coleta.
► Operacionalizar os conceitos e elaborar o instrumento de mensuração/coleta dos dados.
3. Planejamento e seleção da amostra
► Definir o plano amostral.
► Fixar o tamanho da amostra.
► Escolher os melhores estimadores e determinar seus erros amostrais.
4. Coleta dos dados
► Elaborar os procedimentos e treinar os pesquisadores.
► Controlar a qualidade no campo.
36
Fon
te: B
olf
arin
e; B
uss
ab, 2
00
5
Operacionalizando um levantamento amostral
• Uma boa amostragem permite a generalização de resultados dentro de limites aceitáveis de dúvidas e minimiza os custos de execução da pesquisa.
• Etapas: ► Constructo das variáveis
o Formulação de questões, definições de métricas e sua operacionalização.
► Definição dos objetivos do levantamento o Deve-se procurar focar em um conjunto pequeno de questões
chaves. Cuidado com o “já que estamos pesquisando, por não perguntamos também...”.
► Levantamento da informação o Garantir que os respondentes entendam o que está sendo
perguntado.
o Garantir que os aplicadores de questionários tenham coerência nos questionamentos e captação da informação.
37
Possíveis problemas na amostragem
• Inadequação.
► A amostra não reflete adequadamente a população alvo da pesquisa.
► Estão sendo feitas comparações inadequadas.
• Viés: todos os indivíduos da população tem chances iguais de participar ou alguns podem ser mais privilegiados? Como isso afeta os resultados?
• Estratificação inadequada: os grupos pesquisados na amostra correspondem à sua proporção na população? Há grupos superestimados ou subestimados?
38
Tipos de amostragem
• Aleatória Simples (AAS)
► Com reposição
► Sem reposição
• Estratificada
• Por cotas
• Conglomerado
• Sistemática
• Por julgamento
• Por conveniência
• Oportunística
Essas amostragens podem ser combinadas em diferentes estágios do processo amostral, de acordo com os interesses e possibilidades do pesquisador.
39
Avalie criticamente os seguintes planos amostrais:
a. Para investigar a proporção dos estudantes favoráveis à mudança de início das aulas das 8h para as 7h30min, decidiu-se entrevistar os 50 primeiros que chegassem em determinado dia.
b.Mesmo procedimento, mas para verificar a altura média dos estudantes.
c. Com o objetivo de estimar o orçamento de esportes enviam-se questionários para prefeituras aleatoriamente selecionadas. A amostra é formada pelas que respondem.
d.Para verificar se um brinde aumenta as vendas, oferta-se o produto com o brinde em quatro lojas na zona norte e sem em quatro lojas da zona sul de uma cidade. No final do período comparam-se as vendas nas duas regiões.
40
• Objetivos
► Melhoria da precisão das estimativas.
► Produzir estimativas para a população e para as subpopulações.
► Questões administrativas.
• Por que ela é interessante?
► Uma população muito heterogênea necessita de amostras grandes para maior precisão. Dividindo a população em estratos pode-se obter subpopulações mais homogêneas.
► Além disso, passa s ser possível comparar os parâmetros de diferentes subpopulações.
Montagem de uma amostra estratificada:
► Divisão da população em estratos (subpopulações) bem definidas, segundo alguma variável auxiliar.
► De cada estrato retira-se uma amostra de acordo com regras específicas.
► Monta-se para toda a população um estimador combinando os estimadores de cada estrato.
41
Amostragem estratificada
Vantagens e limites da amostragem estratificada
• Vantagem: pode-se obter estimativas com maior precisão com o mesmo tamanho amostral.
A amostragem estratificada elimina a segunda fonte de variação
• Alguns métodos de alocação de amostras pelos estratos:
► Proporcional: amostra é distribuída proporcionalmente aos estratos.
► Uniforme: atribui-se o mesmo tamanho de amostra para cada estrato.
► Ótima de Neyman: o n de cada estrato é definido de acordo com a sua variância visando minimizar o erro e a amostra.
42
Variância
total da
população
Variância
nos
estratos
Variância
entre os
estratos
Amostragem por cotas
• Envolve uma escolha não aleatória de participantes com o objetivo garantir a representatividade de determinadas categorias de interesse e/ou de ponderar os parâmetros da amostra total.
• As cotas são categorias selecionadas na amostragem para garantir que suas proporções sejam iguais às da população.
► É necessário ter informações prévias sobre as proporções de cada categoria e avaliar.
► Exemplos: faixa etária, faixa de renda, escolaridade, gênero, etc.
• É muito utilizada em pesquisas de opinião.
43
Amostra: retomando o exercício do Culto
Um aluno empolgado por MQCS de ressaca decide fazer um levantamento dos valores* em posse dos frequentadores do saudoso Culto. Ele verificou que eles seguiam uma distribuição normal, com média R$100 e desvio-padrão de R$20.
a. Qual a P(90<X<110)?
b. Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)?
c. Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95?
44
* Valores incluem grana, saldo de bilhete único, créditos do RU, bilhete do trem, etc.
Determinando o tamanho da amostra
• O tamanho de uma amostra está relacionado com os erros e a confiabilidade de nossas estimações. Suponha que estejamos tentando a estimar a média μ de uma população usando a média x de uma amostra de tamanho n.
• Sabemos que:
• Com base na distribuição amostral de x podemos estimar a probabilidade de cometer erros de determinadas magnitudes na estimação de μ, como, por exemplo, 5% (IC=95%). Ou seja:
Onde:
e = Erro amostral máximo que podemos suportar
γ = Coeficiente de confiança desejado, ou seja, intervalo no qual estaríamos confiantes de que o valor real do parâmetro está incluído.
nNX - e =
2
,0~
45
eXP
Calculando o tamanho de uma amostra
Erro amostral da média:
O erro é determinado por:
Deduzimos que o tamanho de uma amostra pode ser dado pela seguinte expressão:
e
ze
zn
2
2
22
x - e =
nze =
46
Onde:
Zγ = Índice de confiança (95%, 99%...)
σ=desvio-padrão da população
e = erro amostral máximo
Amostra para proporção
No caso de proporção, onde a variância é p(1-p), temos:
Se não conhecermos p podemos usar um valor conservador, ou seja, o caso que proporciona o máximo erro amostral. Isso ocorre quando a variância assume seu valor máximo, ou seja, quando:
Erro amostral máximo: p = 50% (σ2 = 0,25 )
e
ppz n
2
21
47
Tamanho da amostra para populações finitas
Quando a população for pequena (finita) e a amostragem for sem reposição é necessário ajustar o cálculo da amostra.
48
N z
en=
1
1
22
2
Fon
te: B
olf
arin
e; B
uss
ab, 2
00
5
N: tamanho da população
Como estimar o desvio-padrão?
• Para determinar o tamanho da amostra é necessária informação prévia do valor de σ. Mas como saber isso?
► Usar estudos anteriores ou relacionados ao tema.
► Pesquisa piloto para determinar um desvio-padrão (s) de referência.
► Chute educado: estimar um intervalo que englobe cerca de 95% das observações da população, o que corresponde, aproximadamente, à 4 desvios-padrão.
49
Exemplos: tamanho de amostra
1. Para uma pesquisa visando estimar proporções de uma população, qual seria o tamanho das amostras para, com confiança de 95%, termos um erro máximo de 3% e de 1%?
2. Uma secretaria de obras deseja saber a duração média de lixeiras para serem colocadas em praças, com confiança de 95%. O gênio da variância indicou que o desvio padrão é 150 dias. a. Quantas amostras são necessárias para um erro máximo de 30 dias?
b. Foram testadas 50 amostras. Qual o erro máximo nesse caso, mantendo-se o índice de confiança?
3. A coordenação de um curso planeja uma pesquisa para saber, com 95% de confiança e erro menor que 3%, a proporção de alunos que se utilizam de seus programas de apoio ao estudante. a. Sabendo-se que o curso tem 300 estudantes, qual deve ser o tamanho
da amostra?
b. Se a população fosse de 10 mil alunos, qual deveria ser tamanho da amostra?
50
Referências úteis
• Bolfarine, Heleno; Bussab, Wilton O. Elementos de amostragem. São Paulo: Blücher, 2005
• BUSSAB, Wilton de Oliveira; MORETTIN, Pedro A. Estatística Básica. 6ª edição. Editora Saraiva, 2010;
• Neder, Henrique Dantas. Amostragem em pesquisas socioeconômicas. Editora Alínea, 2008.
51