Aula 5. Intervalos de Confiança - Universidade de Aveirosweet.ua.pt/gladys/ME/Acetatos/Aula...
Transcript of Aula 5. Intervalos de Confiança - Universidade de Aveirosweet.ua.pt/gladys/ME/Acetatos/Aula...
1
Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán
Aula 5. Intervalos de Confiança
2
Duas Fases da Estatística� Estatística Descritiva: descrever e estudar uma amostra
� Estatística Indutiva (inferencial): a partir de umaamostra inferir sobre as características de umapopulação
Fonte Diagrama: Projecto ALEA – Noçoes de Estatísticahttp://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html
2
3
População vs. Amostra
População: colecção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se
pretendem estudar.
Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objectivo de tirar conclusões para a população de
onde foi recolhida
Podemos inferir (deduzir) determinadas características de uma população se extraímos uma amostra representativa desta
amostragem
Imagens extraídas da referência 2
4
Amostragem
� Amostragem Aleatória Simples: cada elemento da amostra é retirado
aleatoriamente de toda a população (com ou sem reposição)
⇒⇒⇒⇒ cada possível amostra tem a mesma probabilidade de ser recolhida
� Amostragem Estratificada: subdividir a população em, pelo menos,
dois subgrupos distintos que partilham alguma característica e, em
seguida, recolher uma amostra de cada um dos subgrupos (estratos)
� Amostragem por clusters: dividir a população em secções (clusters);
seleccionar aleatoriamente alguns desses clusters; escolher todos os
membros dos clusters seleccionados.
Processo pelo qual se extraem dados de uma população
Vamos usar apenas este tipoExistem vários tipos de amostragem:
3
6
Amostra Aleatória
Note que usamos letras maiúsculas, pois estamos a definir variáveis
aleatórias e medidas em função dessas variáveis
Note que usamos letras minúsculas pois estamos a definir concretizações (observações) de variáveis aleatórias
acetato adaptado de referencia 1
7
� Parâmetro – Medida usada para descrever a distribuição da população� a média µ e o desvio padrão σ2 são parâmetros de uma distribuição Normal - N(µ,σ2)
� a probabilidade de sucesso p é um parâmetro da distribuição Binomial - B(n,p)
� Estatística – Função de uma amostra aleatória que não depende de parâmetros desconhecidos � Média amostral:
� Variância amostral:
� Amplitude da amostra:
Parâmetro vs. Estatística
2
1
2 )(1 ∑ =−= n
i i XXnS
∑ == n
i iXnX1
1
nnn XXR :1: −=
4
8
Parâmetro vs. Estatística
Proporção dos inquiridos de raça branca
numa população e numa amostra
ππππ ≈≈≈≈ p
exemplo extraído da referência 2
9
Estimação de ParâmetrosPopulação Amostra
Distribuição da População
Parâmetros
Distribuição Amostral
Estatísticas(valor fixo)
estimar
(função da amostra)
pontual (estatísticas)
por intervalo (intervalos de confiança)Estimação
OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional)as vezes é chamada simplesmente de estimador
estimativa: é o valor do estimador obtido para uma amostra específica
acetato adaptado de referencia 3
5
13
Intervalo de Confiança
Um intervalo de confiança para um parâmetro θθθθ, a um grau de confiança 1-αααα,
é um intervalo aleatório (Linf, Lsup) tal que:
P(Linf < θθθθ < Lsup) = 1-αααα , αααα ∈∈∈∈ (0,1)
onde αααα deve ser um valor muito reduzido por forma a temos confianças elevadas
Valores usuais para o grau de confiança: 95%, 99% e 90%
14
Intervalo de Confiança (IC)
I. IC para a média µ com variância conhecida
� Caso 1: população Normal
� Caso 2: população qualquer (n>>30) aproximada pela Normal
II. IC para a média µ com variância desconhecida
� Caso 1: população Normal
� Caso 2: população qualquer (n>>30) aproximada pela Normal
III. IC para a diferença de médias de duas populações Normais
� Caso 1: duas amostras independentes, variâncias conhecidas
� Caso 2: duas amostras independentes, variâncias desconhecidas
� Caso 3: amostras emparelhadas, variâncias desconhecidas
IV. IC para uma proporção
6
15
IC para µ com variância conhecidaCaso 1: População Normal
~ ?X
~ ?X
n
µσ−
(0,1)N (Normal Padrão)
( ) 1P z Z z α− < < = −
( ) 1X
P z z
n
µ ασ−− < < = −
( ) 1P z X zn n
σ σµ α− < − < = −
( ) 1P X z X zn n
σ σµ α− < < + = −
2~ ( , )X N µ σ µ desconhecido, mas σ2 conhecido2
~ ( , )X Nn
σµ
IC para µ a grau de confiança 1-α
+−= −−−n
zXn
zXICσσµ ααα 2121)1( ,)(
-∞ +∞0
(0,1)N
2
α2
α
z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2
Zz-z
1 α−
acetato adaptado de referencia 3
centrando e reduzindo:
Linf Lsup
16
Interpretação do IC para µPara uma amostra aleatória de tamanho 50 seguindo uma distribuição
Normal com média µ = 10 e variância σ2 = 4 ,
determinamos o IC para µ com 95% de grau confiança:
2 2( 1,96 1,96 ) 95%
50 50P X Xµ− < < + =
~ (10,4)X N→
( 0,5544 0,5544) 95%P X Xµ− < < + = ( )5544.0,5544.0)(%95 +−= XXIC µ
Interpretação: 95% dos possíveis ICsobtidos a partir de uma amostra de tamanho 50, conterão de facto o verdadeiro valor da média µ=10
µ=10
7
17
IC para µ com variância conhecidaCaso 1: População Normal
Uma v.a. qualquer tem uma distribuição Normal com média µ desconhecida e variância σ2 = 16. Retira-se uma amostra de 25 valores e calcula-se a média amostral. Construa um IC de 95% para µ supondo que 12,7.X =
(11,132 14,268) 0,95P µ< < =
+−= −−−n
zXn
zXICσσµ ααα 2121)1( ,)(
+−=n
zXn
zXICσσµ 9750.09750.0%95 ,)(
+−=25
496.17,12,
25
496,17,12
( )568,17,12 ,568,17,12 +−=
( )268.14 ,132.11)(%95 =µIC
Exemplo:
2,5%
z0,9750=1,96
2,5%
012.7
95%
Java Applet em:
http://psych.colorado.edu/~mcclella/java/normal/normz.html
18
Determinando o Quantil de Ordem 1-α/2Distribuição Normal Padronizada
Tabela 3.a. Normal Distribution Para grau de confiança (1-α)x100 = 95%⇒ nível de significância αααα=0.05
⇒ φ(z) = P(Z < z) = 1 - α/2 ⇔ z = z 1 - α/2
quantil de ordem 1-α/2
φ(z) = P(Z < z) = 1- (0.05/ 2) = 0.975
buscar valor de z na tabela:
φφφφ(z) = 0.9750 ⇔ z = 1.96
2
α2
α
2.5899%
1.9695%
1.6590%
Valor zGrau de Confiança
90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional99% grau de confiança – existe 1 possibilidade de 100 que o IC não contenha a média populacional
8
19
Como poderia obter intervalos de confiança mais estreitos,ou seja, com limites mais próximos a média verdadeira?
Diminuindo o grau de confiança
IC & Grau de Confiança
Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar errados: de 1% de risco passamos a 5% de risco, ou seja temos mais
possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média populacional. Ao aumentar o risco, o intervalo deve ser mais preciso
figura extraída da referência 2
20
IC & Dimensão da Amostra
Como poderia obter intervalos de confiança mais estreitos,ou seja, com limites mais próximos a média verdadeira?
Aumentando a dimensão da amostra
Tabela extraída da referência 2
9
21
-∞ +∞0
(0,1)N
-∞ +∞0-∞ +∞0
(0,1)N
1 α−
z-z
2
α2
α
z1 - α/2quantil de ordem 1-α/2
z-z
2
α2
α2
α2
α
z1 - α/2quantil de ordem 1-α/2 z1 - α/2quantil de ordem 1-α/2
IC para µ com variância conhecidaCaso 2: População Genérica aproximada pela Normal
IC para µ a grau de confiança 1-α
+−≈ −−−n
zXn
zXICσσµ ααα 21211 ,)(
Se uma distribuição qualquer tiver média µµµµ (desconhecida) e variância σσσσ2 (conhecida) e se forem validas as condições do TLC (n>>30) podemos obter um IC aproximado para a média µµµµ
22
2º caso
A expressão é chamada
erro padrão (standard error)
IC para µ com variância conhecidaResumo
IC para µµµµ a grau de confiança 1-αααα
nzXIC
σµ αα 21)( −±=
quanto maior n⇒ menor o erro padrão⇒ IC mais preciso
quanto maior z⇒ IC menos preciso
Se aumentarmos o grau de confiança⇒ a precisão diminui porque aumenta o valor z
se 90% ⇒ z = 1.65se 95% ⇒ z = 1.96se 99% ⇒ z = 2.58
µµµµ desconhecido, mas σσσσ2 conhecido
nzXIC
σµ αα 21)( −±≈
nzX
σ±
1º caso
n
σ
10
23
IC para µ com variância desconhecidaSe o valor de σ2 é desconhecido ⇒ substituir por uma estimativa
∑=
−==n
ii XX
nS
1
2)(1σ⌢ ∑
=
−−
==n
iic XX
nS
1
2)(1
1σ⌢
Estimadores pontuais para o desvio padrão σ :
desvio padrão amostral não-corrigido desvio padrão amostral corrigido
Se σσσσ2 desconhecida podemos distinguir dois casos:
⇒−=⇔ −1~),(~ 2
n
c
tnS
XTNX
µσµ
Caso1. população Normal ⇒⇒⇒⇒ usar distr.t de Student
Caso2. q.q. distribuição aproximada pela Normal, amostras grandes
⇒⇒⇒⇒ usar distribuição Normal padronizada
⇒−=⇔>> )1,0(30 com q.q. ~N
nS
XZnX
ac
µ
+−= −−−−−n
StX
n
StXIC c
nc
n 1211211 ,,,)( ααα µ
+−≈ −−−n
SzX
n
SzXIC cc
21211 ,)( ααα µ
24
-∞ +∞0
24t
t-t
2,5%2,5%
Distribuição t de Student com24 graus de liberdade
95%
IC para µ com variância desconhecidaCaso 1: População Normal
Uma v.a. qualquer tem uma distribuição Normal com média µ e variância σ2desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e
variância amostral . Construa um IC de 95% para µ supondo que e S2 = 16
?t0,9750, 24 = 2,06
+−= −−−−−n
StX
n
StXIC nn 1,21121)1( ,,)( ααα µ
+−=n
StX
n
StXIC 24,9750.024,9750.0%95 ,)(µ
+−=25
406,27,12 ,
25
406,27,12
( )648,17,12 ,648,17,12 +−=
( )648.13 ,052.11)(%95 =µIC
12,7X =
Exemplo:
11
25
Determinando t1-αααα/2, n-1 - quantil de ordem 1-αααα/2 de
uma distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution Por definição de quantil de ordem 1-αααα/2:
z = z 1 - α/2 ⇔ F(z) = P(Z < z) =1 - α/2Para grau de confiança 95% ⇒⇒⇒⇒ nível de significância αααα=0.05
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 ⇒ F(z) = 0.9750 Para n=25 ⇒ 24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:
t0.9750, 24 = 2.06
26
IC para µ com variância desconhecidaCaso 1: População Normal
Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida de 0.04. Pressupondo que as observações têm distribuição Normal, determine um IC para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%
Usando esta amostra determinamos um IC aproximado para µµµµ a 99%:
exercício 5, capítulo 4
+−= −−−−−n
StX
n
StXIC c
nc
n 1,211,21)1( ,)( ααα µ
+−=n
StX
n
StXIC CC
19,995.019,995.0%99 ,)(µ
( )044721,086,22,1 ,044721,086,22,1 ×+×−= ( )3279.1 ,0721.1)(%99 =µIC
Para grau de confiança 99%:
(1-α) x 100% = 99% ⇒ (1-α) =0.99 ⇒ αααα=0.01Por definição de quantil de ordem 1-αααα/2: F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995 ⇒ F(z) = 0.995
Para n=20 ⇒ 19 graus de liberdade
Determinar t0.995, 19 usando Tabela 8
+−=
20
04,086,22,1 ,
20
04,086,22,1)(%99 µIC
t0.995, 19 = 2.86
12
27
IC para µ com variância desconhecidaExemplo: População qualquer, amostra grande
porto-riquenhos
mexicanos
cubanos
Origem
$8 647$12 5875908
$9 414$13 3425729
$3 069$16 3683895
Desvio Padrão
Amostral
Rendimento Médio
Nºpessoasamostra
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980
IC para µ a grau de confiança 95%
+−≈n
SX
n
SXIC 96.1,96.1)(%95 µ
� cubanos:
� mexicanos:
� porto-riq.:
17.493985
3069padrão erro ==
41.1245729
9414padrão erro ==
5.1125908
8647padrão erro ==
17.4996.116368)(%95 ×±≈µIC
IC ≈≈≈≈ ( 16272, 16464 )
41.12496.113342)(%95 ×±≈µIC
IC ≈≈≈≈( 13098, 13586 )
5.11296.112587)(%95 ×±≈µIC
IC ≈≈≈≈ ( 12367, 12807 )
28
IC para µ com variância desconhecidaExemplo: População qualquer, amostra grande
Exemplo adaptado de referência 2
13
29
Inferência entre parâmetrosde duas populações
P1 P2
Mesmo não se conhecendo as médias µ1 e µ2, seria possível verificar se elas são iguais a partir de seus valores amostrais?
Se µ1 e µ2 são iguais, então µ1 - µ2 = 0.
acetato adaptado de referencia 3
n
X
m
Y
XXE µ=)( YYE µ=)(
Podemos a partir da diferença das médias amostrais inferir o valor da diferença das médias de duas populações
YX −
30
Intervalo de Confiança para µ1 - µ2Duas populações Normais. Amostras independentes
Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por observações independentes e provenientes de duas populações Normais
N(µX, σX2) e N(µY, σY
2), respectivamente
Caso 1: variâncias conhecidas
Caso 2: variâncias desconhecidas mas iguais
IC para µ1−µ2 a grau de confiança 1-α
14
31
Intervalo de Confiança para µ1 - µ2Populações Normais. Amostras emparelhadas
Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais
Amostras emparelhadas: se pares de observações (Xi, Yi) sãodependentes sendo todos os restantes pares (Xi, Yj), i≠j independentes
Consideram-se as diferenças:
� µD= µ
X- µ
Y– diferença das médias populacionais
� σD– desvio padrão das diferenças - desconhecido
mas pode ser estimado através das diferenças D1, …, Dn
⇒ D1, D2, ...Dn – a.a. com população Normal e variância desconhecida
12 ~),(~ −
−=⇔ n
c
DD t
nS
DTND
D
D
µσµ
+−= −−−−−
n
StD
n
StDIC DD C
nc
nD 1211211 ,,,)( ααα µ
IC para µµµµD= µµµµX-µµµµY a grau de confiança 1-αααα
ScD– desvio padrão amostral
corrigido das diferenças
),(~)( 2DDiii NYXD σµ−=
32
-∞ +∞0
(0,1)N
2
α2
α
z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2
z-z
1 α−
-∞ +∞0
(0,1)N
-∞ +∞0-∞ +∞0
(0,1)N
2
α2
α
z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2
z-z
1 α−
2
α2
α2
α2
α2
α
z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2
z αααα/2 z1 - αααα/2quantil de ordem 1-α/2quantil de ordem α/2
z-z
1 α−
z-z
1 α−1 α−
Intervalo de Confiança para Proporção
n
Xp =ˆ
(n,p)X Binomial~
npp
pnX
npp
pp
)1()1(
ˆ
−
−=
−−
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
(se n é grande, pelo TLC)
, Yi ~ Bernoulli sendo p = P(Xi = 1), a probabilidade de se seleccionar um bola vermelha
∑=
=n
iiYX
1
)n
pppNp
a
)1(,(ˆ ~
−
Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
centrando e reduzindo:
Z)1 ,0(~N
a
( ) 1P z Z z α− < < = −
I.C. para Z com grau de confiança 1-α
α−=−+−− 1))ˆ1(ˆˆ,)ˆ1(ˆˆ( nppzpnppzpP
15
33
Intervalo de Confiança para Proporção
−+−−≈ −−− n
ppzp
n
ppzppIC
)ˆ1(ˆˆ,
)ˆ1(ˆˆ)( 2121)1( ααα
n
Xp =ˆSeja a proporção de indivíduos com uma certa característica de
interesse numa amostra aleatória de dimensão n, e p a proporção de
indivíduos com essa característica na população.
Um intervalo de confiança aproximado para p, a um grau de confiança 1-αααα, é dado por:
34
z0,9750=1,96
IC para uma proporçãoExemplo: Proporção de acessos a páginas de Internet nacionais
3.0100
30ˆ ===
n
Xp
Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais
( )04582,096,13,0 ,04582,096,13,0)(%)95( ×+×−≈pIC
( )089818,03,0 ,089818,03,0 +−=( ).38980 ,2102.0)(%95 ≈pIC
04582,0100
7,03,0)ˆ1(ˆ=×=−=
n
ppSp
( )pp SzpSzppIC 9750.09750.0%)95( ˆ,ˆ)( +−≈ ( )pp SpSppIC ×+×−≈ 96,1ˆ,96,1ˆ)(%)95(
)100Binomial(~ ,pXX - número de acessos á páginas de internet nacionais
p – proporção de acessos a páginas nacionais (em geral) p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
exercício 16, capítulo 4
( )pp SzpSzppIC 2121)1( ˆ,ˆ)( ααα −−− +−≈n
ppSp
)ˆ1(ˆ −=n
Xp =ˆcom e
1º. Determinar z1-αααα/2 para αααα=0,05
3º. Substituir na fórmula:
2º. Determinar as estimativas p e Sp^
16
35
FormulárioF
O
R
M
U
L
Á
R
I
O
36
ReferênciasLivro: Grande Maratona de Estatística no SPSSAndreia Hall, Cláudia Neves e António PereiraCapítulo 4.1 Intervalos de Confiança
Acetatos disponíveis on-line usados na elaboração destes acetatos:
� Estatística Inferencial e Intervalos de Confiança, AmostragemAndreia HallURL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm
http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm
� Chapter 11: Sampling and Sampling Distribution, Chapter 12: EstimationProf. J. Schwab , University of Texas at Austindisciplina: Data Analysis I (spring 2004)URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes
� EstimaçãoCamilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasildisciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008) URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html
� Estimação por IntervalosAna Pires, IST Lisboadisciplina: Probabilidades e Estatística URL: : http://www.math.ist.utl.pt/~apires/materialpe.html