A Distribuição Normal

24
1 Capítulo 3 A Distribuição Normal 3.1 - Introdução Experimentos compostos pela repetição, sucessiva e independente de um mesmo experimento básico geram sequências de variáveis aleatórias X 1 , X 2 , X 3 , … independentes entre si, mas identicamente distribuídas. Tal é o caso, por exemplo, da repetição de um mesmo experimento binário E p , ou do nosso conhecido D 5 , o arremesso de um dado não viciado de cinco lados. Uma questão que surge naturalmente, nesses casos, se refere à distribuição de probabilidades da soma S n , dos n primeiros valores observados: o número de sucessos em n repetições de E p , ou a pontuação total acumulada em n arremessos sucessivos e independentes de um dado. No primeiro caso, já temos a resposta formal rigorosa. O número de sucessos em n repetições independentes e sucessivas de E p , o experimento composto E p n , tem distribuição binomial com parâmetros n e p, que representamos por S n ~b(n, p), com Como, nesse caso, E(X i )=p e V(X i )=p(1-p), esperança e variância de S n são determinadas diretamente das propriedades básicas: E(S n )=np e V(S n )=np(1-p). A figura ao lado é uma representação gráfica da b(100, 0,2), na faixa de 30 a 70, com probabilidades não extremamente pequenas. Para valores de n muito elevados, os cálculos podem ser complicados, mesmo com o uso de computador. Nos casos como o D 5 , ou mais gerais, como D m , de um dado hipotético de m lados, os cálculos diretos de probabilidade de S n , a soma dos primeiros n resultados individuais em repetições sucessivas do experimento aleatório elementar ainda podem ser feitas com o auxílio de algoritmos como o apresentado no Capítulo 2 para D 5 n , embora, para m e n grandes os valores envolvidos para a cardinalidade de eventos como {S n =s} se agigantem muito rapidamente. A figura abaixo é uma representação gráfica de P{S 20 =s}. Como na figura acima, a representação se restringiu à faixa relevante de valores possíveis. A semelhança de forma geral das duas figuras não é, de forma alguma, acidental, mas se constitui na manifestação de uma das propriedades mais interessantes de toda a Matemática e, certamente, um dos resultados mais importantes da Teoria da Probabilidade: O Teorema Central do Limite. Este teorema, em uma de suas versões mais simples, assegura que se uma variável aleatória, como S n , é a soma de um número n de observações sucessivas e independentes de uma variável aleatória X, com esperança e variância 2 , então, na medida em que n cresce, a sua distribuição se aproxima cada vez mais da distribuição normal (ou gaussiana), de esperança n e variância n 2 . Assim, no primeiro caso, com o número de sucessos em 100 repetições de um mesmo E p com p=0,2, devemos esperar uma distribuição

Transcript of A Distribuição Normal

Page 1: A Distribuição Normal

1

Capítulo 3 – A Distribuição Normal

3.1 - Introdução

Experimentos compostos pela repetição, sucessiva e independente de um mesmo experimento básico

geram sequências de variáveis aleatórias X1, X2, X3, … independentes entre si, mas identicamente

distribuídas. Tal é o caso, por exemplo, da repetição de um mesmo experimento binário Ep, ou do nosso

conhecido D5, o arremesso de um dado não viciado de cinco lados. Uma questão que surge

naturalmente, nesses casos, se refere à distribuição de probabilidades da soma Sn, dos n primeiros

valores observados: o número de sucessos em n repetições de Ep, ou a pontuação total acumulada em n

arremessos sucessivos e independentes de um dado.

No primeiro caso, já temos a resposta formal rigorosa. O número de sucessos em n repetições

independentes e sucessivas de Ep, o experimento composto Epn, tem distribuição binomial com

parâmetros n e p, que representamos por Sn~b(n, p), com

Como, nesse caso, E(Xi)=p e V(Xi)=p(1-p), esperança e variância de Sn são determinadas diretamente das

propriedades básicas: E(Sn)=np e

V(Sn)=np(1-p). A figura ao lado é uma

representação gráfica da b(100, 0,2),

na faixa de 30 a 70, com

probabilidades não extremamente

pequenas. Para valores de n muito

elevados, os cálculos podem ser

complicados, mesmo com o uso de

computador.

Nos casos como o D5, ou mais gerais,

como Dm, de um dado hipotético de m lados, os cálculos diretos de probabilidade de Sn, a soma dos

primeiros n resultados individuais em repetições sucessivas do experimento aleatório elementar ainda

podem ser feitas com o auxílio de

algoritmos como o apresentado no

Capítulo 2 para D5n, embora, para m e

n grandes os valores envolvidos para a

cardinalidade de eventos como {Sn=s}

se agigantem muito rapidamente. A

figura abaixo é uma representação

gráfica de P{S20=s}. Como na figura

acima, a representação se restringiu à

faixa relevante de valores possíveis.

A semelhança de forma geral das duas figuras não é, de forma alguma, acidental, mas se constitui na

manifestação de uma das propriedades mais interessantes de toda a Matemática e, certamente, um dos

resultados mais importantes da Teoria da Probabilidade: O Teorema Central do Limite. Este teorema,

em uma de suas versões mais simples, assegura que se uma variável aleatória, como Sn, é a soma de um

número n de observações sucessivas e independentes de uma variável aleatória X, com esperança e

variância 2, então, na medida em que n cresce, a sua distribuição se aproxima cada vez mais da

distribuição normal (ou gaussiana), de esperança ne variância n2. Assim, no primeiro caso, com o

número de sucessos em 100 repetições de um mesmo Ep com p=0,2, devemos esperar uma distribuição

Page 2: A Distribuição Normal

2

aproximadamente igual a uma normal, de esperança 20 e variância 16. No segundo caso, de 20

repetições de D5, o resultado acumulado deve ter distribuição aproximadamente Normal, com

esperança 60 e variância 40.

3.2 - A Distribuição Normal

Uma variável aleatória contínua X é dita ter distribuição Normal, com esperança e variância 2, que se

representa por X~N(, 2), se sua f.d.p. for

Com esperança 0 e variância 1, tem-se a Normal padrão, geralmente representada por Z, isto é, Z~N(0,

1), é dita ter distribuição normal padrão. Sua função

de densidade de probabilidades, representada por

(z), é

, para z real. A figura ao lado

representa a f.d.p. da normal padrão. Como se vê, a

normal padrão concentra praticamente toda a

probabilidade no intervalo (-3, 3). A tabela abaixo dá

a probabilidade de eventos do tipo {-i<Z<i}, para i=1,

2, 3, 4 e 5.

Ao final deste

capítulo uma tabela mais completa traz a distribuição acumulada da

normal padrão

para z=0 até z=3,99, a passos de 0,01. A figura abaixo representa

(z), a função de distribuição acumulada de uma variável aleatória distribuída segundo uma normal

padrão.

A transformação

reduz uma variável

aleatória X~N(, 2) à sua forma padrão Z~N(0, 1).

Assim, a probabilidade de eventos como {X<a} pode

ser extraída da tabela para a normal padrão, pois

Exemplo 3.2.1 – Uma variável aleatória X tem distribuição Normal, com esperança 100 e variância 100,

portanto desvio padrão 10. Calcule:

a- P{X<100}

Evento probabilidade

{ <Z < } 0,68268949

{< Z < } 0,95449974

{< Z < } 0,99730020

{< Z < 0,99993666

{-5 < Z < 0,99999943

Page 3: A Distribuição Normal

3

Como a normal é simétrica em torno da esperança, então P{X<100}= P{X>100}=0,5.

b- P{X<110} e P{X<90}

Ora, o valor 110 está exatamente a um desvio padrão acima

da esperança, logo

Da tabela tiramos (1)=0,84134, portanto P{X>110)=0,1587, e, por simetria P{X<90)=0,1587.

c- P{90<X<110}

Transformando para a normal padrão, temos:

Como, por simetria, temos:

Aplicação do Teorema Central do Limite, na versão apresentada, para soma de variáveis aleatórias

independentes e identicamente distribuídas, nos permite resolver, de forma muito simples, uma

variedade surpreendente de problemas práticos antes intratáveis. Vejamos alguns exemplos:

Exemplo 3.2.2 – Seja Ep, um experimento aleatório binário, com P{s}=p, o qual é repetido sucessiva e

independentemente, gerando resultados parciais X1, X2, X3, …, variáveis aleatórias independentes e

identicamente distribuídas, com distribuição binária de P{X=1}=p. Vamos definir e

, respectivamente a soma e a média aritmética dos n primeiros valores

observados. Neste caso particular, Sn é o número total de sucessos obtidos e a freqüência de

sucessos, nas n primeiras repetições. Vamos considerar valores grandes de n.

a- Seja p=0,50 (como no arremesso de uma moeda) e n=10000. Calcule P{4.900<Sn<5.100}.

A variável aleatória X, correspondente ao resultado parcial em cada repetição, tem distribuição B(0,5),

portanto E(X)=0,5 e V(X)=0,25. Sendo a soma de 10 mil observações independentes de X, Sn tem

esperança 5000 e variância 2500, logo:

Portanto

Como se pode ver, a faixa de valores realmente possíveis para o número total de Caras em dez mil

arremessos de uma moeda é surpreendentemente estreito e se situa em torno do valor médio

esperado, 5000.

Page 4: A Distribuição Normal

4

A propósito, através de sequência análoga de operações, obtém-se P{4850<Sn<5150} 0,9973.

b- Seja p=0,20 (como na obtenção de um 5 em D5) e n=1000. Calcule .

Neste caso, X tem esperança 0,2 e variância 0,16, logo Sn tem esperança 200 e variância 160. Sendo a

soma de mil resultados parciais, a distribuição de Sn , uma b(1000, 0,2) é bem próxima da normal de

mesma esperança e mesma variância. Ora, se Sn~N(200, 160), então sendo igual a Sn dividido por n,

tem também distribuição aproximadamente normal, com esperança e variância iguais a 0,2 e 0,00016,

respectivamente. Assim,

Portanto,

Exemplo 3.2.3 – Consideremos agora sequências de repetições independentes de D5, com X1, X2, X3, …,

Sn e definidos da forma usual. Agora, E(X)=3 e V(X)=2, portanto E(Sn)=3n e V(Sn)=2n. Lembrando que

, temos e

. Com n não muito pequeno podemos aproximar as

distribuições, tanto de Sn como de , à Normal, com esperanças e variâncias correspondentes. Assim,

com n=100, E(Sn)=300, V(Sn)=200, e . Desta forma, embora o conjunto de

valores possíveis para S100 seja o dos inteiros de 100 a 500, a probabilidade de S100 cair no intervalo

fechado de 270 a 330 é superior a 0,95. O cálculo mental rápido segue o roteiro: (1) O desvio padrão de

Sn é raiz de 200, ou 14,1; (2) portanto o intervalo considerado, [270, 330] se estende, simetricamente

em torno de E(Sn), por mais que dois desvios padrões de Sn de cada lado; (3) sendo a soma de 100

resultados intermediários, igualmente distribuídos e independentes, a distribuição de Sn pode ser

considerada aproximadamente Normal; (4) logo um intervalo de dois desvios padrões em torno de E(Sn)

terá probabilidade um pouco acima de 0,95. Um cálculo mais cuidadoso, extraindo resultados da tabela,

nos leva a P{270Sn 330}=0,965994. Um refinamento ainda usando a aproximação pela normal,

conforme discutiremos adiante, resulta P{270Sn 330} = 0,967847. O valor exato, calculado através do

algoritmo desenvolvido no Capítulo 2, estendido até n=100, é 0,969155739. O melhor resultado obtido

através da aproximação pela distribuição Normal apresentou, portanto, uma subavaliação relativa de

0,019%, desprezível para a maioria dos fins. A propósito, existem exatamente 764.529.073.299.384x1055

maneiras diferentes – cada uma com a mesma probabilidade, 5-100

– de se obter a soma dos 100

resultados parciais no intervalo [270, 330]. Vejamos outras questões.

a- Calcule P{S1000>3100}.

Com n=1000, E(Sn)=3000 e V(Sn)=2000. Assumindo a aproximação Normal para a distribuição de

S1000, temos:

Como se vê, em 1000 arremessos de um dado não viciado de cinco lados, o total esperado é 3000, e

a probabilidade do total superar 3100 é de apenas 1,29%.

b- Se o dado for ligeiramente tendencioso, (ver tabela),

calcule P(S1000)>3100

A distorção nas probabilidades altera a esperança e a variância de X. Agora, E(X)=3,04 e

V(X)=1,9984, portanto,

1 2 3 4 5

0,19 0,20 0,20 0,20 0,21

Page 5: A Distribuição Normal

5

A distorção no dado, favorecendo ligeiramente o resultado 5 em detrimento do 1, aumenta a

esperança de S1000, elevando a probabilidade de um valor superior a 3100 de 1,29% para 9,01%.

c- De volta ao D5 não tendencioso e n=1000, determine um inteiro m, tal que P{3000–

mSn3000+m}=0,99.

O intervalo em questão é, portanto, simétrico em torno de E(Sn), com meia amplitude igual a m.

Numa normal, o intervalo simétrico em torno da esperança de probabilidade 0,99, tem meia largura

igual a 2,58 desvios padrões (da tabela, (2,58)=0,995), logo 2,58 desvios padrões de S1000 é igual a

m, portanto .

d- Dois amigos, A e B disputam uma corrida de dados (para maior agilidade do processo, vamos

supor que o jogo é feito com dados simulados no computador). Em rodadas sucessivas, eles vão

arremessando seus dados e acumulando os resultados:

A X1, X2, X3, … , Sn e

B Y1, Y2, Y3, … , Tn e

Qual a probabilidade de que, após 100 rodadas, B esteja liderando a corrida por mais que 10

pontos?

A solução é simples e começa com a definição de Dn = Tn – Sn, a vantagem de B sobre A após n

rodadas. Como E(Sn)=E(Tn), E(Dn)=0 enquanto que V(Dn)=V(Sn)+V(Tn)=4n. Admitindo-se que Sn e

Tn tem distribuição Normal, conclui-se que Dn~N(0, 4n) e, portanto, D100~N(0, 400); logo:

Por simetria, esta é também a probabilidade de que, após 100 rodadas, A esteja liderando por

mais que 10 pontos.

e- Na corrida acima, vamos agora supor que os dados sejam ligeiramente distorcidos em favor do

jogador B, como mostra a tabela ao lado. Qual a

probabilidade de B ganhar uma corrida de 1000

rodadas?

Agora E(Sn)=2,96 e E(Tn)=3,04, enquanto as duas

variância são iguais a 1,9984, portanto E(Dn)=0,08 e V(Dn)=3,9968n. Com 1000 rodadas,

teremos E(D1000)=80 e V(D1000)=3996,8 e

Como se vê, a ligeira distorção dá a B enorme vantagem em uma corrida prolongada. Nessas

condições vantajosas, sua probabilidade de vencer uma corrida de dez mil rodadas é

(4,00)=0,999968.

1 2 3 4 5

A 0,21 0,20 0,20 0,20 0,19

B 0,19 0,20 0,20 0,20 0,21

Page 6: A Distribuição Normal

6

A qualidade da aproximação da distribuição de probabilidades de Sn associadas a D5n por N(3n, 2n) pode

ser bem apreciada através da figura abaixo. Nela as barras verticais representam os valores exatos de

P{S100=s}, para valores de d na região relevante, de 250 a 350, calculados através do algoritmo

apresentado no Capítulo 2,

são sobrepostos por uma

linha envoltória contínua

corresponde à f.d.p. da

normal com esperança 300 e

variância 200. A quase

perfeita coincidência entre

valores exatos e aproximados

pode ser apreciada. A tabela

abaixo apresenta os dois

grupos de valores da

probabilidade – exato e aproximado – para um conjunto selecionado de valores de d.

P{S100=s} s

250 260 270 280 290 300

Valor exato 5,196E-05 0,0005113 0,0029794 0,0104059 0,0219665 0,0281636

Aproximação Normal 5,446E-05 0,0005167 0,0029733 0,0103777 0,0219696 0,0282095

Erro percentual 4,81 1,06 -0,20 -0,27 0,01 0,16

Exemplo 3.2.4 – As ideias acima são agora aplicadas ao problema geral de amostragem em populações

muito grandes. Quer-se estimar a taxa de ocorrência (p) de determinada característica genética em uma

população de dezenas de milhões de indivíduos. O teste é preciso, mas caro e intrusivo, portanto a

amostra deve ser a menor possível. Sabe-se que p deve estar na faixa de 10 a 25%. Uma amostra de

1200 indivíduos é inicialmente considerada.

Considerando-se o pior caso em termos da variância, qual seria a probabilidade de um erro superior a 2

pontos percentuais na estimativa de p?

Primeiro vamos definir como Xi o resultado relativo ao i-ésimo indivíduo sorteado: Xi=1 se o indivíduo

apresenta a característica genética estudada, e Xi=0, caso contrário. Assim, Xi~B(p), e E(Xi)=p e V(Xi)=p(1-

p), onde p é a fração de indivíduos com a característica genética estudada, na população.

Com uma amostra aleatória de tamanho n, teremos X1, X2, …, Xn, independentes e com a mesma

distribuição B(p), a distribuição binária ou de Bernoulli. A soma Sn tem, então, distribuição binomial com

parâmetros n e p: Sn~b(n, p). A esperança e a variância de Sn são, respectivamente, np e np(1-p).

Pelo teorema central do limite, podemos aproximar S1200~N(1200p, 1200p(1-p)), logo

Portanto,

Page 7: A Distribuição Normal

7

O pior caso (com maior probabilidade de erro superior a 2 pontos percentuais), ocorre quando a

variância é máxima. A variância depende de p e, como se sabe que p está no intervalo (0,10, 0,25), o

pior caso, em termos de variância ocorre em p=0,25, com V(X)=0,1875. Então

Portanto, nas condições e hipóteses do exercício, com uma amostra de tamanho n=1200, e sabendo a

priori que p se situa entre 10 e 25%, a probabilidade de um erro de estimativa superior a 2 pontos

percentuais é, no máximo, 10,96%. Com amostra duas vezes maior este limite superior cai – você pode

fazer as contas – para 2,36%. No outro extremo, a menor variância possível, correspondente a p=0,10, é

V(X)=0,09 e V(S1200)=7510-6. Neste caso, com n=1200, ou 2,09%; com

n=2400 essa probabilidade cai para 0,1%. Fazer todas essas contas é um bom exercício.

Exercício 3.2.5 – Diversos aspectos importantes relativos às condições gerais de uma grande população

podem ser monitoradas com precisão e objetividade através de pesquisas nas quais apenas uma fração

ínfima dos indivíduos da população – selecionados por

sorteio aleatório – precisam ser avaliados. Este

exemplo, com dados simulados, mostra como a

escolaridade média de jovens brasileiros de 15 anos de

idade, pode ser estimada de forma rápida, econômica e

muito precisa. Suponhamos inicialmente a

subpopulação de jovens de 15 anos, distribuída, por

anos de escolaridade formal completados com sucesso,

como na tabela ao lado. Nela, a escolaridade média é:

anos, onde Nx é o número de

indivíduos na subpopulação estudada, com x anos de

escolaridade, e N é o tamanho total da subpopulação.

Nesse exemplo, com dados fictícios (mas não de todo

dessemelhantes da situação real) . O desvio

quadrático médio de X na subpopulação, definido como

, pode ser, neste caso,

reescrito como

, é igual a 2,745, e mede o quão espalhados os indivíduos estão,

em termos de escolaridade, em torno da escolaridade média, 8,30.

Suponha agora um experimento aleatório: sorteio aleatório de um dos indivíduos daquele grupo. Por

sorteio aleatório, aqui, nos referimos ao sorteio no qual cada um dos indivíduos da população

amostrada tem a mesma chance de vir a ser o escolhido. Seja X, agora, a variável aleatória

correspondente ao número de anos de escolaridade do jovem selecionado. A distribuição deS

probabilidades de X pode então ser derivada da tabela à esquerda, com

. A esperança de X pode

então ser calculada:

. A esperança de X é

Anos de escola

População

0 5.147 1 13.511 2 21.875 3 32.812 4 46.644 5 261.208 6 38.280 7 76.560 8 513.233 9 1.924.812

10 256.061 11 26.056 12 643

Total 3.216.842

x P{X=x}

0 0,0016 1 0,0042 2 0,0068 3 0,0102 4 0,0145 5 0,0812 6 0,0119 7 0,0238 8 0,1595 9 0,5984

10 0,0796 11 0,0081 12 0,0002

Page 8: A Distribuição Normal

8

igual à média populacional de x, e isto decorre do sorteio aleatório, que dá a cada indivíduo na

população a mesma chance se ser sorteado. De forma análoga pode-se mostrar que .

Estes dois resultados são importantes e abrem o caminho para a estimativa de , a média populacional

de x. Para isto vamos repetir o experimento acima, n vezes. Os resultados parciais são X1, X2, …, Xn,

independentes e identicamente distribuídos, com esperança e variância .

Fazendo

temos ,

e, se n não for muito pequeno,

terá distribuição aproximadamente normal. Seja, por exemplo, uma amostra de n=275 indivíduos. Nesse

caso,

e N(8,30, 0,01), portanto o desvio padrão de é 0,10 e, ao realizar a

amostra, a média amostral cairá a menos de 0,2 ano de distância do alvo, a média populacional

, com probabilidade 0,95.

Este exemplo ilustra o poder da amostragem aleatória: com uma amostra de apenas 275 indivíduos, a

média de x em uma população de mais de três milhões de jovens pode ser estimada com grande

precisão. Com uma amostra quatro vezes maior, n-1100, o desvio padrão de cairia à metade, e o

intervalo em torno de com probabilidade 0,95 seria teria largura total de apenas 2 décimos de ano, ou

. Não é um mau resultado, considerando que a população estudada tem mais que

três milhões e duzentos mil indivíduos.

Exemplo 3.2.5 – Considere o , experimento composto, formado por 50 arremessos sucessivos e

independentes de um dado comum de 6 lados. Sejam X1, X2, …, X50 os cinquenta resultados parciais

independentes e o resultado acumulado é dado por

Como E(X)=3,5 e V(X)= 2,916667, temos V(T)=175 e V(T)=145,83333. As probabilidades de P{T=t} foram calculadas

usando algoritmo já descrito, para t de 0 a 300. Para P{T=175}, por exemplo primeiro determinamos o número de

maneiras diferentes existem de se obter 175 pontos em 50 arremessos de um dado. Esse número é

26.617.249.029.052.500.000.000.000.000.000.000.000, o qual, dividido por 650 resulta em P{T=175}=0,032930676.

O valor da f.d.p. da normal correspondente, em t=175 é 0,033035559, uma diferença de 0,32%. Este erro relativo

tende a crescer em direção às caudas da distribuição, na medida em que se afasta da esperança.

Essa distribuição de probabilidades está representada na figura abaixo.

Para comparação, o gráfico acima e a curva correspondente à função de densidade de probabilidades da normal

correspondente, N(175, 145,83333), são sobrepostos na mesma figura abaixo. A quase perfeita sobreposição das

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

12

0

12

5

13

0

13

5

14

0

14

5

15

0

15

5

16

0

16

5

17

0

17

5

18

0

18

5

19

0

19

5

20

0

20

5

21

0

21

5

22

0

22

5

23

0

Page 9: A Distribuição Normal

9

duas distribuições de probabilidades atesta a convergência do total de n arremessos de um dado à normal

correspondente (de mesma esperança e mesma variância), quando n é grande.

Cálculos precisos podem ser feitos para probabilidades como P{T<180}, usando-se, em lugar dos cálculos exatos

(mas numericamente laboriosos), a aproximação normal:

P{T<180}P{Y<179,5} com Y~N(175, 145,83333). Para este caso, temos o valor exato P{T<180}=0,644909, que bem

aproximado por P{Y<179,5}=0,64529, com um erro relativo de apenas 0,059%

Exercício 3.2.6 – Na figura abaixo está representada a função de distribuição de probabilidades da

pontuação total em 100 arremessos de um dado comum de 6 lados. Mostre com argumentos numéricos

que essa distribuição pode ser aproximada com grande precisão da normal correspondente.

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

12

0

12

5

13

0

13

5

14

0

14

5

15

0

15

5

16

0

16

5

17

0

17

5

18

0

18

5

19

0

19

5

20

0

20

5

21

0

21

5

22

0

22

5

23

0

0,000

0,005

0,010

0,015

0,020

0,025

29

0

29

5

30

0

30

5

31

0

31

5

32

0

32

5

33

0

33

5

34

0

34

5

35

0

35

5

36

0

36

5

37

0

37

5

38

0

38

5

39

0

39

5

40

0

40

5

41

0

Page 10: A Distribuição Normal

10

3.4 – Construindo intervalos de confiança para a esperança de X

Seja X uma variável aleatória de esperança , desconhecida. Considere o problema de construir um

intervalo de confiança para , com base em n observações independentes de X. Primeiro vamos

considerar a situação mais favorável em que a variância, 2, é conhecida. De X1, X2, X3, …, Xn tiramos

. Vamos admitir que n é grande o suficiente para que a distribuição de possa,

com segurança, ser aproximada pela Normal de esperança m e variância

. Sabemos então que

Portanto

Podemos então concluir que, ao realizar as n observações independentes, a probabilidade do intervalo

incluir o parâmetro é 0,95. Uma vez realizadas as n observações e

calculado poderemos afirmar, com 95% de confiança que,

.

Exemplo 3.3.1 – Uma variável aleatória X tem variância conhecida, 2=12, mas esperança

desconhecida. Com o objetivo de se estimar , 300 observações independentes são feitas da variável X.

A soma dos 300 valores observados resultou em 7725, portanto

A variância de A

variância de é, portanto, igual a 0,04; seu desvio padrão, 0,20. Embora, inicialmente, nada se

soubesse de m, podemos agora afirmar, com 95% de confiança, que é algum valor no intervalo (25,75-

1,960,20 , 25,75+1,960,20) = (25,358 , 26,142).

Diz-se então que (25,358 , 26,142) é um intervalo de 95% de confiança (resumidamente, um i95%c) para

.

3.4 – Construção de intervalos de confiança com a distribuição t de Student

Numa classe mais geral de problemas, quer-se fazer inferências sobre a esperança de uma variável

aleatória, como na seção anterior, mas a variância de X é desconhecida. Assim, intervalos de confiança

do tipo

não poderão ser construídos, simplesmente porque o parâmetro é

desconhecido.

A saída foi encontrada por W. Gosset, que em um artigo de 1.904, sob o pseudônimo Student, deduziu a

expressão algébrica da distribuição da estatística

. Vamos a este resultado.

Page 11: A Distribuição Normal

11

Seja X~N(, 2), e sejam X1, X2, …, Xn, n observações independentes de X, com

. Já

sabemos que

tem distribuição N(0, 1) e utilizamos este fato para construir intervalos de

confiança para em situações em que é conhecido.

Com desconhecido, lançamos mão de

como substituto para2. De fato, da

mesma forma como converge para na medida em que n cresce, s2 converge para

2. A prova deste

resultado não será feita neste capítulo.

A ideia de usar intervalos da forma

, com s no lugar de ocorre naturalmente,

mas depara com uma dificuldade: a distribuição de

não é N(0, 1). Desta forma, não podemos

tirar a constante k da tabela da normal padrão, como fizemos com k=1,96, para i95%c.

Student resolveu o problema deduzindo a

expressão da função de densidade de

probabilidades da variável aleatória

.

Ela depende de n; sua dedução é trabalhosa, mas

elegante e relativamente simples. Ela demanda

alguns conceitos que ainda não foram tratados e

será apresentada em capítulo mais adiante. A

função de densidade de probabilidades de Tn é

, para -<t<

A função gama que aparece na expressão acima é

definida como

. Em justa

homenagem a Gosset, a variável aleatória Tn é

dita ter distribuição t de Student, com (n-1) graus de liberdade.

A figura ao lado, representa f.d.p. da t de Student com 5 graus de liberdade, superposta à f.d.p. da

normal padrão. As semelhanças são óbvias, mas a t tem uma cauda mais pesada. Na medida em que os

graus de liberdade vão aumentando, a t vai se aproximando da normal padrão, de forma que para 100

ou mais graus de liberdade, as diferenças são irrelevantes para a maioria das aplicações práticas. Uma

tabela no final deste capítulo dá valores críticos para a t de Student, para a construção de intervalos de

90, 95 e 99%, para graus de liberdade indo de 1 a 100. Para tamanhos amostrais grandes, usa-se os

valores críticos da N(0,1).

Exemplo 3.4.1 – Numa inspeção regular de rotina, técnicos do IMETRO, percorrendo vários pontos de

venda na cidade, selecionam uma amostra aleatória de 16 pacotes de determinado detergente, com

peso líquido nominal de 1000 g. Levadas ao

laboratório e analisadas, as amostras

apresentaram os pesos líquidos reais na tabela

ao lado. Vamos construir um i95%c para o peso

médio real com que os pacotes estão sendo produzidos pelo fabricante. Temos =15.928 e

=15.858.572, logo

e

=

149,87g2. Da tabela, tiramos F-1(0,975)=2,131, onde F-1 é a inversa da função acumulada de distribuição

1024 988 985 1000 981 1006 999 986

992 975 1001 987 1012 995 998 999

Page 12: A Distribuição Normal

12

de probabilidades de uma t de Student com 15 graus de liberdade. Logo, o i95%c para a média é

, ou (989,8, 1002,0).

Com base na amostra, podemos afirmar, com 95% de confiança, que os pacotes vêm sendo produzidos

com peso líquido médio no intervalo (989,8, 1002,0). Não dá, portanto, para descartar a hipótese de

que a calibração na fábrica esteja correta, ou seja, que os pacotes vem sendo produzidos com peso

médio igual a 1000 g, como declarado no rótulo do pacote.

Exemplo 3.4.1 – O tempo de resposta de um motorista de caminhão a determinado estímulo visual é

medido, em milésimos de segundo, quatorze vezes, independentemente, e em condições bem

controladas. Os resultados são dados na tabela abaixo, e são representados no diagrama de pontos.

Queremos aqui construir um intervalo de confiança para , o tempo médio de resposta para o

motorista, sob as condições gerais do experimento. Sabendo que

tem distribuição t de

Student, com n-1 graus de liberdade, podemos então afirmar que

Logo,

Multiplicando os termos a desigualdade por -1, temos que inverter os sinais de desigualdade. Assim:

E, portanto

Sabemos então que a probabilidade do intervalo aleatório

vir a conter

o parâmetro desconhecido é igual a 0,95.

Dos valores observados, t1, t2, ..., t14, tiramos:

188 187 210 190 177 192 192 180 173 179 191 187 198 170

Page 13: A Distribuição Normal

13

Daí, construímos um intervalo de 95% de confiança para :

, ou (180,7 , 192,8).

Afirmamos, então, com 95% de confiança, que – sob as condições gerais definidas para o experimento –

o tempo médio de respostado motorista, , está contido no intervalo (180,7 , 192,7) milissegundos.

Sobre a questão da divisão por (n-1)

No cálculo de s2, como no exemplo acima, usamos a expressão

. A soma de n

parcelas e a divisão por (n-1), e não por n, sempre causa dúvida e desconforto. Vamos explicar, primeiro

no contexto de uma população finita.

Suponha uma população de N indivíduos, aos quais estão associados valores de uma variável

quantitativa, X. Sejam X1, X2, …, XN os valores de X associados aos indivíduos 1, 2, …, N, respectivamente.

Definimos agora dois parâmetros populacionais, , respectivamente a média e o desvio quadrático

médio, populacionais, de X:

Devemos resistir à tendência de chamar S2 de variância de X, uma vez que esta é um parâmetro

associado a uma variável aleatória e, até o momento não há nada aleatório no esquema montado: Uma

população, uma variável quantitativa e dois parâmetros populacionais dessa variável.

Vamos agora introduzir certo esquema probabilístico: a seleção aleatória de um dos indivíduos da

população e a determinação do valor de X para esse indivíduo; seja x esse valor. Agora, x é uma variável

aleatória. Se o esquema de sorteio aleatório adotado foi tal que qualquer dos N indivíduos da população

teve a mesma chance 1/N de ser sorteado, então

Vemos agora a associação entre V(x) e S2: se um indivíduo for selecionado ao acaso, de forma que cada

indivíduo na população tenha a mesma chance de vir a ser sorteado, e, fazendo x igual ao valor da

Page 14: A Distribuição Normal

14

variável X para aquele indivíduo, então V(x)=S2. Vamos então, respeitando a convenção, representar

por e 2, respectivamente.

Suponha agora um sorteio se n indivíduos da população, sendo n<N. Aos valores observados de X,

denominaremos x1, x2, … , xn, e seja

. Para garantir a independência entre os xi’s, podemos

adotar o sorteio com reposição: cada indivíduo selecionado é reposto na população, podendo inclusive

vir a ser selecionado novamente. Desta forma, após cada sorteio a população é restaurada à sua

integridade, e o novo indivíduo sorteado o será em condições exatamente idêntica às do anterior,

garantindo a independência entre os resultados. Sabemos, então, que

Agora, vejamos o que acontece com o desvio quadrático médio amostral,

. Como

veremos, sua esperança não é 2, logo, se o utilizarmos como o estimador da variância, teremos um

estimador viciado. Vejamos:

Separando os termos em colchete:

Precisamos agora determinar . Ora,

Como os xi’s são independentes entre si, então E(xixj) é igual a 2 para ij, e 2+2 para i=j. Logo,

Podemos então concluir que

Portanto,

Page 15: A Distribuição Normal

15

Ou seja,

Diferente de 2, portanto. Por outro lado,

Usamos, então,

como o estimador mais apropriado (não tendencioso) de 2.

Note que E(xi - )2=

2. Portanto, se não fosse desconhecido, poderíamos estimar

2 pelo desvio

quadrático amostral médio,

, cuja esperança é exatamente 2, um estimador não

tendencioso, portanto. Por não conhecer , calculamos os desvios quadráticos das observações, não em

torno de , mas de seu estimador,

. Isto reduz um pouco a soma de quadrados pois, como é

simples provar, dado um conjunto de valores reais, x1, x2, … , xn, a soma de desvios quadráticos destes

valores em torno de um número arbitrário c, é mínima quando

.

Portanto,

, com a igualdade valendo apenas quando coincidir .

Como a esperança da somatória ao lado direito da desigualdade é 2, a da esquerda tem que ser menor

que 2. E é, como vimos:

. Multiplicando ambos os lados por

,

restauramos o “equilíbrio”, com

.

Pronto, está explicado.

Testando hipóteses simples sobre a esperança de uma variável aleatória X

Um dos recursos básicos mais poderosos da Estatística com peça central do Método Científico, é a

possibilidade que ele oferece para se testar (cientificamente) hipóteses sobre a esperança desconhecida

de uma variável aleatória. Seja a variável aleatória

X ~ N(, 2)

e n observações independentes de X:

X1, X2, … , Xn

Sejam as estatísticas Z e T definidas como:

Page 16: A Distribuição Normal

16

onde

A estatística Z tem distribuição N(0, 1) enquanto T tem distribuição t de Student, com n-1 graus de

liberdade.

Considere agora que a esperança seja desconhecida, e que se queira testar, contra a hipótese nula

H0: =0

a hipótese alternativa

H1: >0

Consideremos primeiro o caso em que o desvio padrão é conhecido. É claro que um valor de grande

demais é evidência contra H0, e em favor de H1. O questão aqui é, o que é “grande demais”?

Para um tratamento objetivo deste caso, devemos definir um valor crítico c tal que, se for maior que c,

consideraremos que é grande demais, e rejeitaremos H0 em favor de H1. Por outro lado, se não for

maior que c, consideraremos que os dados experimentais não trouxeram evidência suficiente contra H0,

e não rejeitaremos, então a hipótese nula.

Como escolher o valor crítico c? Se escolhermos c grande demais, será quase impossível rejeitar

indevidamente a hipótese nula quando ela for verdadeira, mas a probabilidade de não rejeitá-la quando

ela for falsa poderá ser muito elevada. Dizemos que o critério de decisão fica conservador demais. Por

outro lado, se escolhermos um valor crítico c pequeno, teremos o problema oposto, com elevada

probabilidade de rejeitar H0 sendo esta hipótese verdadeira. A solução é adotar uma solução de

compromisso, balanceando as probabilidades dos dois erros opostos possíveis: rejeitar uma hipótese

nula verdadeira, ou não rejeitar uma hipótese nula falsa.

Para isto, vamos fixar um valor suficientemente baixo para a probabilidade de rejeitarmos H0 quando

esta hipótese for verdadeira, isto é, a esperança de X for, de fato, igual ao valor fixado 0. Seja este

valor “suficientemente baixo”. A constante c é então escolhida para garantir que, se H0 for verdadeira,

então

Ora, se H0 for verdadeira, a estatística Z terá distribuição N(0, 1), então

Page 17: A Distribuição Normal

17

Portanto,

Podemos então extrair o valor crítico c, em função de 0, , n e :

.

Fica então completamente definida uma abordagem para o problema de testar a hipótese H0: =0 ,

contra a hipótese alternativa H1: >0 :

1. Escolhe-se , um valor suficientemente pequeno para a probabilidade de se rejeitar

indevidamente a hipótese nula H0;

2. Define-se n, o número de observações a serem feitas da variável aleatória X;

3. Faz-se as n observações independentes de X;

4. Calcula-se a estatística T;

5. Rejeita-se H0 se T for maior do que c.

Vejamos um exemplo:

Seja X uma variável aleatória com distribuição Normal, com média e desvio padrão . A esperança de é

desconhecida, mas acredita-se que seja igual a 100. Contudo, existe uma corrente de opinião que afirma que

afirma que é, na verdade, maior que 100. O desvio padrão de X, é =4, conhecido. Para se testar a hipótese

conservadora H0: =100, contra a hipótese alternativa, H0: >100, decide-se pela abordagem experimental:

serão feitas n observações independentes de X, rejeitando-se H0 se for muito grande. Como proteção contra

a rejeição de H0 quando esta hipótese for verdadeira, arbitrou-se um valor =0,05.

Neste caso,

Através de experimentos cuidadosamente

controlados, realiza-se n=30 observações independentes de X, portanto o valor crítico c é igual a 101,2. Os 30

valores observados estão listados na tabela abaixo. obtendo-se os valores dados na tabela ao abaixo, cuja

média é , que, sendo maior

que o valor crítico c=101,2, leva à

rejeição de H0.

Testando hipótese simples sobre uma média

101,7 98,3 94,8 102,1 103,7 99,4 104,0 98,7 101,3 99,9

106,2 101,5 104,2 107,0 106,0 102,1 102,1 110,2 94,5 102,6

104,5 103,0 99,5 104,3 91,5 100,3 99,4 103,6 106,7 100,2

Page 18: A Distribuição Normal

18

1. O teste de tempo de resposta a objeto em queda, realizado em sala, as distâncias percorridas pela régua desde o repouso até a reação, em 16 medições sucessivas com o mesmo estudante, são dadas abaixo, em cm.

observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Distância (cm) 13 17 15 13 15 15 10 13 15 11 16 13 13 11 14 13

Seja o tempo médio de resposta do aluno, em milissegundos (ms). Teste

H0: =150 ms versus H1: >150 ms ao nível de significância =0,05

2.

Page 19: A Distribuição Normal

19

Exercícios

1. Em duas regiões R1 e R2 distintas estão cinco cidades, sendo duas em R1 e três em R2. Em cada cidade existe

certo número de estudantes concluindo o

ensino fundamental. Uma prova de três

questões será aplicada a esses estudantes. Seja

N o número de questões que um estudante

sabe resolver; N pode, então, valer 0, 1, 2 ou 3.

A distribuição dos estudantes, por

cidade/região e nota é como mostra a Tabela 1.

Um experimento aleatório consiste em sortear

um aluno ao acaso, e aplicar-lhe a prova e

registrando em X o número de questões que

soube responder corretamente, isto é, fazer

X=N. Este experimento é repetido sucessiva e

independentemente, n vezes, gerando X1, X2, X3, … , Xn e, daí, e Sn e conforme definidos.

a. Considerando todos os alunos como um único grupo, sem distinção de região e cidade, calcule e

S2, respectivamente a média e o desvio quadrático médio de N.

b. Calcule E(X) e V(X).

c. Calcule P{X=0}\C1, isto é, a probabilidade condicional de o aluno tirar 0 dado que é da cidade 1.

d. Calcule E(X) dado C1.

e. Calcule E(X) dado R2.

f. Calcule V(X) dado R1.

g. Calcule a probabilidade que dos primeiros 20 alunos selecionados, exatamente seis respondam

corretamente as três questões.

h. Qual a probabilidade que o trigésimo aluno sorteado seja de C2, dado que ele acertou as três

questões?

i. Qual a probabilidade do oitavo aluno sorteado não ser de C5, dado que ele não acertou as três

questões.

j. Para n=400, calcule a probabilidade de que, usando como estimador de , se cometa um erro

absoluto superior a 1% de ; isto é, que caia fora do intervalo

k. Nesta amostra de 400 alunos, seja n3 o número de alunos com nota perfeita. Calcule P{n3=150}

l. Ainda com n=400, construa um intervalo de probabilidade 0,95 para n0.

m. Qual deveria ser o tamanho amostral n para que =0,05?

2. A tabela contém dados simulados, porém com características semelhantes à situação real. Imagine que para

uma prova do ENEM, com 180 questões, hajam 4.817.768 alunos inscritos, e que esses alunos, distribuídos por

número de questões que conseguem resolver corretamente na prova, formam a tabela apresentada abaixo

(ela pode ser copiada e colada numa planilha Excel; ou pode ser copiada diretamente de EnemSimula no

Teleduc). Numa prova frequentemente o aluno não tira a nota que merece por errar – por algum descuido –

alguma questão que sabe resolver bem, ou, principalmente em provas com questões de múltipla escolha,

acertar, por sorte no ‘chute’ questões que não sabe resolver. Vamos admitir que com as questões sendo

corrigidas individualmente, com avaliação completa de todo o desenvolvimento apresentado, esses problemas

podem ser completamente eliminados. Use computador para os cálculos.

3. Em média, quantas questões os alunos resolverão na prova? Denomine-a M.

4. Numa escala de 0 a 100, qual será a nota média geral? Denomine-a .

5. Se um aluno for sorteado ao acaso e submetido à prova, seja X o número de questões que saberá responder

corretamente. Calcule E(X) e V(X).

6. Se uma amostra aleatória de n estudantes for sorteada do universo e submetida à prova, gerando X1, X2, X3, … ,

Xn e, daí, e Sn e conforme definidos, determine e .

Tabela 1 – Número de alunos por cidade e número de questões que

consegue resolver corretamente

Região e Cidade

Número de questões da plrova que o aluno sabe responder corretamente

Total por cidade e

por região 0 1 2 3

R1 C1 1.200 1.950 2.870 2.220 8.240 R1 C2 4.200 8.330 2.140 830 15.500

Total R1 5.400 10.280 5.010 3.050 23.740

R2 C3 1.260 4.320 6.950 5.370 17.900 R2 C4 827 2.895 12.840 6.870 23.432 R2 C5 120 840 5.540 12.640 19.140

Total R2 2.207 8.055 25.330 24.880 60.472

Total 7.607 18.335 30.340 27.930 84.212

Page 20: A Distribuição Normal

20

7. Para n=1000, calcule , a probabilidade que caia a mais que dois pontos (duas questões

certas) de distância de M.

8. Para n=1000, calcule .

9. Qual deve ser n para que ?

10. E no caso acima, quanto seria

11. Considerando os resultados acima, comente sobre as virtudes de como um estimador barato e preciso de

M.

Tabela: Distribuição geral dos alunos por número de questões da prova que sabe resolver

nota número

de alunos

nota número

de alunos

nota número

de alunos

nota número

de alunos

nota número

de alunos

nota número

de alunos

0 0

30 48693

60 67899

90 36539

120 7832

150 404

1 142

31 51362

61 63942

91 33353

121 7692

151 344

2 522

32 52836

62 67424

92 33603

122 7375

152 306

3 1188

33 52438

63 62679

93 31162

123 6683

153 251

4 1944

34 55470

64 61224

94 30006

124 5950

154 214

5 3010

35 58156

65 60830

95 30163

125 5907

155 168

6 4021

36 56250

66 64751

96 28851

126 5367

156 140

7 5643

37 60134

67 60285

97 27193

127 4918

157 122

8 6799

38 58713

68 59942

98 26928

128 4364

158 97

9 8880

39 62721

69 56661

99 24009

129 4154

159 75

10 10423

40 62675

70 56570

100 24010

130 3879

160 58

11 11765

41 61629

71 56645

101 22722

131 3650

161 46

12 13530

42 62800

72 54812

102 22432

132 3386

162 37

13 15949

43 68441

73 55950

103 21826

133 3066

163 28

14 17305

44 69439

74 52262

104 20278

134 2784

164 21

15 20079

45 65852

75 53477

105 19179

135 2363

165 16

16 21631

46 65925

76 49361

106 17448

136 2312

166 11

17 24971

47 65397

77 52459

107 17540

137 2129

167 7

18 27549

48 69677

78 47002

108 16609

138 1759

168 5

19 27425

49 70524

79 49981

109 16004

139 1729

169 3

20 31799

50 66006

80 45242

110 14834

140 1421

170 2

21 31519

51 69201

81 45360

111 14014

141 1371

171 1

22 36194

52 66818

82 43634

112 13770

142 1169

172 1

23 35284

53 71403

83 45433

113 12435

143 1037

173 0

24 38375

54 70700

84 43774

114 11564

144 892

174 0

25 43203

55 70770

85 40566

115 11048

145 838

175 0

26 42531

56 67419

86 41851

116 11037

146 744

176 0

27 45963

57 68550

87 37850

117 10408

147 651

177 0

28 44525

58 67948

88 38946

118 9081

148 516

178 0

29 49498

59 69660

89 36070

119 8788

149 474

179 0

180 0

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

0

10

20

30

40

50

60

70

80

90

10

0

11

0

12

0

13

0

14

0

15

0

16

0

17

0

18

0

Page 21: A Distribuição Normal

21

Tabelas de probabilidades na Normal Padrão

(z) = P{ Z < z } , para Z~N(0, 1)

z 0,00 0,01 0,02 0,03 0.04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586

0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56750 0,57142 0,57535

0,2 0,57926 0,58317 0,58706 0,59095 0,59484 0,59871 0,60257 0,60642 0,61026 0,61409

0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173

0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67365 0,67724 0,68082 0,68439 0,68793

0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72241

0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490

0,7 0,75804 0,76115 0,76424 0,76731 0,77035 0,77337 0,77637 0,77935 0,78231 0,78524

0,8 0,78815 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327

0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891

1,0 0,84135 0,84375 0,84614 0,84850 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214

1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298

1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90148

1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774

1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92786 0,92922 0,93056 0,93189

1,5 0,93319 0,93448 0,93575 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408

1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449

1,7 0,95544 0,95637 0,95728 0,95819 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327

1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062

1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97671

2,0 0.977250 0,97778 0,97831 0,97882 0,97933 0,97982 0,98030 0,98077 0,98124 0,98169

2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574

2,2 0,98610 0,98645 0,98679 0,98713 0,98746 0,98778 0,98809 0,98840 0,98870 0,98899

2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158

2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361

2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520

2,6 0,99534 0,99547 0,99560 0,99573 0,99586 0,99598 0,99609 0,99621 0,99632 0,99643

2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99737

2,8 0,99745 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807

2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99897 0,99900

3,1 0,99903 0,99907 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929

3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950

3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965

3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976

3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99982 0,99982 0,99983 0,99984

3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989

3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99993

3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995

3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997

Page 22: A Distribuição Normal

22

Tabela Normal Extrema: Valores de P{Z>z}=1-(z) para z de 2,50 a 4,69 em ppm (partes por milhão); de 4,00 a 4,99

em ppb (partes por bilhão) e de 5,00 a 7,09, em ppt (partes por trilhão)

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

2,50 6 210 6 037 5 868 5 703 5 543 5 386 5 234 5 085 4 940 4 799 2,60 4 661 4 527 4 396 4 269 4 145 4 025 3 907 3 793 3 681 3 573 2,70 3 467 3 364 3 264 3 167 3 072 2 980 2 890 2 803 2 718 2 635 2,80 2 555 2 477 2 401 2 327 2 256 2 186 2 118 2 052 1 988 1 926 2,90 1 866 1 807 1 750 1 695 1 641 1 589 1 538 1 489 1 441 1 395 3,00 1 350 1 306 1 264 1 223 1 183 1 144 1 107 1 070 1 035 1 001

3,10 968 935 904 874 845 816 789 762 736 711 3,20 687 664 641 619 598 577 557 538 519 501 3,30 483 466 450 434 419 404 390 376 362 349 3,40 337 325 313 302 291 280 270 260 251 242 3,50 233 224 216 208 200 193 185 178 172 165

3,60 159 153 147 142 136 131 126 121 117 112 3,70 108 104 100 96 92 88 85 82 78 75 3,80 72 69 67 64 62 59 57 54 52 50 3,90 48 46 44 42 41 39 37 36 34 33 4,00 32 30 29 28 27 26 25 24 23 22

4,10 21 20 19 18 17 17 16 15 15 14 4,20 13 13 12 12 11 11 10 10 9 9 4,30 9 8 8 7 7 7 7 6 6 6 4,40 5 5 5 5 4 4 4 4 4 4 4,50 3 3 3 3 3 3 3 2 2 2

4,60 2 2 2 2 2 2 2 2 1 1

4,00 31 671 30 359 29 099 27 888 26 726 25 609 24 536 23 507 22 518 21 569 4,10 20 658 19 783 18 944 18 138 17 365 16 624 15 912 15 230 14 575 13 948 4,20 13 346 12 769 12 215 11 685 11 176 10 689 10 221 9 774 9 345 8 934 4,30 8 540 8 163 7 801 7 455 7 124 6 807 6 503 6 212 5 934 5 668 4,40 5 413 5 169 4 935 4 712 4 498 4 294 4 098 3 911 3 732 3 561 4,50 3 398 3 241 3 092 2 949 2 813 2 682 2 558 2 439 2 325 2 216

4,60 2 112 2 013 1 919 1 828 1 742 1 660 1 581 1 506 1 434 1 366 4,70 1 301 1 239 1 179 1 123 1 069 1 017 968 921 876 834 4,80 793 755 718 683 649 617 587 558 530 504 4,90 479 455 433 411 391 371 352 335 318 302

5,00 286 652 272 150 258 357 245 240 232 766 220 905 209 628 198 908 188 717 179 032 5,10 169 827 161 079 152 768 144 871 137 369 130 243 123 475 117 047 110 943 105 147 5,20 99 644 94 420 89 462 84 755 80 288 76 050 72 028 68 212 64 592 61 158 5,30 57 901 54 813 51 884 49 106 46 473 43 977 41 611 39 368 37 243 35 229 5,40 33 320 31 512 29 800 28 177 26 640 25 185 23 807 22 502 21 266 20 097 5,50 18 990 17 942 16 950 16 012 15 124 14 283 13 489 12 737 12 026 11 353

5,60 10 718 10 116 9 548 9 010 8 503 8 022 7 569 7 140 6 735 6 352 5,70 5 990 5 649 5 326 5 022 4 734 4 462 4 206 3 964 3 735 3 519 5,80 3 316 3 124 2 942 2 771 2 610 2 458 2 314 2 179 2 051 1 931 5,90 1 818 1 711 1 610 1 515 1 425 1 341 1 261 1 186 1 116 1 049 6,00 986,6 927,6 872,1 819,8 770,6 724,2 680,6 639,6 600,9 564,6

6,10 530,3 498,2 467,9 439,4 412,6 387,4 363,7 341,4 320,5 300,8 6,20 282,3 264,9 248,6 233,2 218,8 205,2 192,5 180,5 169,3 158,7 6,30 148,8 139,5 130,8 122,6 114,9 107,7 100,9 94,51 88,54 82,94 6,40 77,69 72,76 68,14 63,80 59,74 55,93 52,35 49,00 45,86 42,92 6,50 40,16 37,58 35,15 32,88 30,76 28,77 26,90 25,16 23,52 21,99

6,60 20,56 19,22 17,96 16,78 15,68 14,65 13,69 12,79 11,95 11,16 6,70 10,42 9,731 9,086 8,483 7,919 7,392 6,900 6,439 6,009 5,607 6,80 5,231 4,880 4,552 4,246 3,960 3,692 3,443 3,210 2,993 2,790 6,90 2,600 2,423 2,258 2,104 1,960 1,826 1,701 1,585 1,476 1,374 7,00 1,280 1,192 1,109 1,033 0,961 0,895 0,833 0,775 0,721 0,671

Page 23: A Distribuição Normal

23

TABELA COMPLEMENTAR Valores Especiais ou Extremos

z (z) 1-(z)

0,00000 0,500000000 50%

0,25335 0,600000000 40%

0,52440 0,700000000 30%

0,67449 0,750000000 25%

0,84162 0,800000000 20%

1,28155 0,900000000 10%

1,64485 0,950000000 5%

1,95996 0,975000000 2.5%

2,32635 0,990000000 1%

2,57583 0,995000000 0,5%

3,09023 0,999000000 0,1%

3,29053 0,999500000 500 ppm*

3,71902 0,999900000 100 ppm

3,89059 0,999950000 50 ppm

4,26489 0,999990000 10 ppm

4,41717 0,999995000 5 ppm

4,75342 0,999999000 1 ppm

4,89164 0,999999500 500 ppb**

5,19934 0,999999900 100 ppb

5,32672 0,999999950 50 ppb

5,61200 0,999999990 10 ppb

5,73073 0,999999995 5 ppb

5,99781 0,999999999 1 ppb

Page 24: A Distribuição Normal

24

Tabela t de Student

Valores de t, para P{T<t} iguais a 0,90, 0,95, 09,75 e 0,995, para t de Student com 1 a 140 graus de

liberdade. Para infinitos graus de liberdade, a t de Student coincide com a N(0, 1).

Exemplo de uso da tabela: Numa t de Stutent com 10 graus de liberdade, P{T<2,228}=0,95.

g.l. P{T<t}

g.l. P{T<t}

0,900 0,950 0,975 0,990 0,995

0,9 0,95 0,975 0,990 0,995

1 3,078 6,314 12,71 31,821 63,66

31 1,309 1,696 2,040 2,453 2,744 2 1,886 2,920 4,303 6,965 9,925

32 1,309 1,694 2,037 2,449 2,738

3 1,638 2,353 3,182 4,541 5,841

33 1,308 1,692 2,035 2,445 2,733 4 1,533 2,132 2,776 3,747 4,604

34 1,307 1,691 2,032 2,441 2,728

5 1,476 2,015 2,571 3,365 4,032

35 1,306 1,690 2,030 2,438 2,724 6 1,440 1,943 2,447 3,143 3,707

36 1,306 1,688 2,028 2,434 2,719

7 1,415 1,895 2,365 2,998 3,499

37 1,305 1,687 2,026 2,431 2,715 8 1,397 1,860 2,306 2,896 3,355

38 1,304 1,686 2,024 2,429 2,712

9 1,383 1,833 2,262 2,821 3,250

39 1,304 1,685 2,023 2,426 2,708 10 1,372 1,812 2,228 2,764 3,169

40 1,303 1,684 2,021 2,423 2,704

11 1,363 1,796 2,201 2,718 3,106

50 1,299 1,676 2,009 2,412 2,678 12 1,356 1,782 2,179 2,681 3,055

55 1,297 1,673 2,004 2,403 2,668

13 1,350 1,771 2,160 2,650 3,012

60 1,296 1,671 2,000 2,396 2,660 14 1,345 1,761 2,145 2,624 2,977

65 1,295 1,669 1,997 2,390 2,654

15 1,341 1,753 2,131 2,602 2,947

70 1,294 1,667 1,994 2,385 2,648 16 1,337 1,746 2,120 2,583 2,921

75 1,293 1,665 1,992 2,381 2,643

17 1,333 1,740 2,110 2,567 2,898

80 1,292 1,664 1,990 2,377 2,639 18 1,330 1,734 2,101 2,552 2,878

85 1,292 1,663 1,988 2,374 2,635

19 1,328 1,729 2,093 2,539 2,861

90 1,291 1,662 1,987 2,371 2,632 20 1,325 1,725 2,086 2,528 2,845

95 1,291 1,661 1,985 2,368 2,629

21 1,323 1,721 2,080 2,518 2,831

100 1,290 1,660 1,984 2,366 2,626 22 1,321 1,717 2,074 2,508 2,819

105 1,290 1,660 1,983 2,364 2,623

23 1,319 1,714 2,069 2,500 2,807

110 1,289 1,659 1,982 2,362 2,621 24 1,318 1,711 2,064 2,492 2,797

115 1,289 1,658 1,981 2,361 2,619

25 1,316 1,708 2,060 2,485 2,787

120 1,289 1,658 1,980 2,359 2,617 26 1,315 1,706 2,056 2,479 2,779

125 1,288 1,657 1,979 2,358 2,616

27 1,314 1,703 2,052 2,473 2,771

130 1,288 1,657 1,978 2,357 2,614 28 1,313 1,701 2,048 2,467 2,763

135 1,288 1,656 1,978 2,355 2,613

29 1,311 1,699 2,045 2,462 2,756

140 1,288 1,656 1,977 2,354 2,611 30 1,310 1,697 2,042 2,457 2,750

∞ 1,282 1,645 1,960 2,353 2,576