Tópico 3 testes de hípoteses - 1 amostra

Estatística II

UNIVERSIDADE FEDERAL DO PARÁINSTITUTO DE CIÊNCIAS SOCIAIS APLICADAS

FACULDADE DE ECONOMIA

Prof. Dr. Ricardo Bruno Nascimento dos Santos”

TESTES DE HIPÓTESES


Todos os conceitos vistos até agora serão abordados nesse tópico da

estatística. Aqui deveremos ter fixada as ideias de probabilidade,

distribuições de funções de densidade probabilidade e (principalmente)

do intervalo de confiança.


TESTE DE HIPÓTESE

NÚMERO DE AMOSTRAS

UMA

TAMANHO DA AMOSTRA

GRANDE PEQUENA

ENTRE AMOSTRAS

TAMANHO DA AMOSTRA

GRANDE PEQUENAINDEPENDENTES

?


Suponhamos que duas espécies botânicas A e B, de um mesmo

gênero, têm folhas muito semelhantes, mas com tamanhos diferentes.

Assim, as folhas da espécie A tem largura média 𝜇𝐴 = 29𝑚𝑚, e as

folhas da espécie B tem largura média 𝜇𝐵 = 35𝑚𝑚. Sabe-se que, nas

duas espécies, a largura das folhas apresenta distribuição

aproximadamente normal com desvio padrão =10mm. Suponhamos que

um pesquisador recebe uma amostra de 25 folhas para decidir, com base

na largura dessas folhas, se elas pertencem à espécie A ou a B.


Vamos supor ainda que o pesquisador tende a acreditar que as

folhas são da espécie A, devido ao local de origem da amostra, onde,

sabe-se, a espécie A é muito mais comum. Então, todo o problema

consiste em decidir, com base nos dados da amostra, se esta provém

de uma população de plantas cujas folhas têm largura média

=29mm ou de uma população de plantas cujas folhas tem largura

média de =35mm. Em outras palavras, é necessário verificar se as

larguras das folhas da amostra levam ou não a rejeitar a hipótese da

nulidade

𝐻0: 𝜇 = 29𝑚𝑚 𝐻𝑎: 𝜇 = 35𝑚𝑚


Seja 𝑋 a média das larguras das folhas da amostra. Se admitirmos que

a população de folhas é infinita e se foi tomada uma amostra aleatória,

então 𝑋 terá distribuição normal com média E( 𝑋)=𝜇𝐴 , se H0 for

verdadeira, ou E( 𝑋)=𝜇𝐵, se H1 for verdadeira, e desvio padrão igual a

𝜎 𝑋 =𝜎

𝑛=

10

25= 2𝑚𝑚

TESTES DE HIPÓTESESCom base no valor de 𝑋 obtido, pretende-se que informemos de qual

espécie é a folha.

A resposta para essa questão exige um TESTE DE HIPÓTESES

Então, com a finalidade de introduzir a terminologia usual em

estatística, vamos estabelecer a “hipótese de nulidade”, indicada por 𝐻0

(H0), que corresponde à afirmativa de que a folha é da espécie A. Como

“hipótese alternativa”, indicada por 𝐻𝐴 ou 𝐻1(H1), de que a folha seja da

espécie B.


Mas antes vejamos um conceito importante sobre as hipóteses, vamos

definir nossa regra de decisão. Aceitaremos 𝐻0 se o número X de

resultados favoráveis for igual a 29mm e rejeitaremos 𝐻0, em favor de

𝐻𝑎, caso contrário.

Então, denominamos o conjunto 𝐴 = {𝑋 = 29𝑚𝑚} de região de

aceitação e o conjunto 𝑅 = {𝑋 ≠ 29𝑚𝑚} de região de rejeição.

Região da Hipótese Nula

𝐻0

Região da Hipótese Alternativa 𝐻𝑎


Para realizarmos o teste de hipóteses para o tipo de espécie é

necessário, antes de calcularmos a média, estabelecer uma regra de

decisão, isto é, fixar um valor crítico C tal que

a) Se 𝑋 ≥ C, rejeita-se H0;

b) Se 𝑋 < C, não se rejeita H0.

Vamos estabelecer, inicialmente, a média aritmética das médias das duas

distribuições como o valor crítico, isto é,

𝐶 =29+35

2= 32𝑚𝑚 conforme observado no gráfico

Então, o nível de significância do teste é

𝛼 = 𝑃 𝑋 ≥ 32 𝜇 = 29 = 𝑃 𝑍 >32−29

2= 𝑃(𝑍 > 1,5)

= 0,0668 𝑜𝑢 6,68%

TESTES DE HIPÓTESESA distribuição normal é simétrica. Então, lembrando que as duas

possíveis distribuições de 𝑋 são aproximadamente normais com a mesmavariância e lembrando que foi fixado como ponto crítico o valor médiode 𝜇𝐴 = 29𝑚𝑚 e 𝜇𝐵 = 35𝑚𝑚, podemos concluir que 𝛽 = 𝛼, isto é,=0,0668 ou 6,68%. O valor de também pode ser obtido na seguinteexpressão:

𝛽 = 𝑃 𝑋 < 32 𝜇 = 35 = 𝑃 𝑍 <32 − 35

2= 𝑃 𝑍 = −1,5

= 𝑃 𝑍 > 1,5 = 0,0668 𝑜𝑢 6,68%

Verificamos que, para a regra de decisão adotada (rejeitar H0 quando𝑋 ≥ 32), a probabilidade de cometer o erro tipo I é igual a probabilidadede cometer o erro tipo II. Entretanto, devemos lembrar que a priori, ouseja, antes de calcular 𝑋, o pesquisador havia considerado que a hipóteseH0 era, mais provavelmente, a verdadeira. Então, parece razoável rejeitaressa hipótese somente se a média 𝑋 for um valor relativamente afastadode 𝜇𝐴 = 29𝑚𝑚 e próximo de 𝜇𝐴 = 35𝑚𝑚 , ou seja, somente se 𝑋 tornarbastante evidente que H0 deve ser rejeitada.


Possíveis resultados de um TESTE DE

HIPÓTESES


25 26 27 28 29 30 31 32 33 34 35 36 37

Espécie A Espécie B

αβ


Porém será que a decisão anterior conduz a decisão correta?

Com uma quantidade maior de folhas teríamos várias

possibilidades e probabilidades associadas a essas amostras, diante

da grandeza de possibilidades teríamos que tomar tais decisões (𝐻0

ou 𝐻𝑎) em condições de incerteza e, portanto, estamos sujeitos a

cometer erros.

Com base nos resultados obtidos a partir de uma amostra, não é

possível tomar decisões que estejam definitivamente corretas.

Entretanto, podemos calcular a probabilidade de a decisão tomada

estar ERRADA.


Então voltando ao gráfico da Espécie A, ao estabelecermos H0 e

rejeitá-lo caso o valor ocorrido seja igual ou maior que 32, podemos estar

cometendo erro, com probabilidade igual à probabilidade de ocorrência

desses valores sob H0, essa área corresponde a área em azul do gráfico.

Denominamos o erro tipo I o erro que acabamos de exemplificar, que

consiste em rejeitar H0, dado que H0 é verdadeiro. Denominamos de

nível de significância do teste, indicado por , como a probabilidade de

cometer o erro tipo I.

Então na soma anterior teríamos: = 0,0668 ou 6,68%

Devemos lembrar, no entanto, que rejeitar H0 é apenas uma de duas

soluções possíveis quando se realiza um teste de hipóteses.


Já em relação ao conjunto de valores menores que 32, seria nosso

resultado para aceitação de H0, porém pode ser que na verdade valores

menores que 32 correspondam a resultados desfavoráveis, que pertencem

na verdade a hipótese H1, ou seja, que a folha seja da espécie B,

conforme área em vermelho.

Denominamos de erro tipo II esse erro exemplificado, que consiste

em aceitar H0, dado que H0 é falsa. A probabilidade de cometer o erro

tipo II é indicada por . O valor 1 - , que é a probabilidade de rejeitar

H0, dado que H0 é falsa, é denominado Poder do Teste.

Para o exemplo, =0,0668 ou 6,68% e o poder do teste é 93,32%

Os testes de hipóteses (em sua grande maioria) procuram verificar se

um determinado valor gira em torno de uma determinada média.


Isto significa que deveremos estabelecer um valor crítico maior que

32mm, diminuindo a probabilidade de cometer o erro tipo I, isto é,

diminuindo o nível de significância do teste. Vamos admitir que o

pesquisador resolveu adotar o nível de significância em 5% ou 1%.

Voltaremos a discutir a questão de como estabelecer o nível de

significância; no momento, como foi fixado =0,05, vamos obter a

abscissa do ponto crítico C, tal que

𝑃 𝑋 > C μ = 29 = 0,05

Ou

𝑃 𝑍 >𝐶−29

2= 0,05

Assim

𝐶−29

2= 1,645 e C=32,29


A probabilidade de ocorrer o erro tipo II é

𝛽 = 𝑃 𝑋 < 32,29 𝜇 = 35 = 𝑃 𝑍 <32,29 − 35

2

= 𝑃 𝑍 < −1,355 = 0,0877

A próxima figura nos mostra as distribuições de 𝑋 sob H0: =29 e sob

H1:=35, bem como as áreas correspondentes a e , para a regra de

decisão estabelecida, que é rejeitar H0, quando 𝑋 ≥32,29.


A medida que aumentamos o valor de C, o valor de diminui, mas o

valor de aumenta. A próxima tabela mostra como os valores de e

variam em função da abscissa do ponto crítico C, no caso do exemplo

numérico que estamos analisando.

25 26 27 28 29 30 31 32 33 34 35 36 37

Espécie A Espécie B

αβ


C α β

- 1 0

29 0,5 0,0013

31 0,1587 0,0228

32 0,0668 0,0668

32,29 0,05 0,0877

33 0,0228 0,1587

35 0,0013 0,5

0 1


Vamos supor que o pesquisador calculou a média das larguras das

folhas da amostra obtendo 𝑋=32,80mm. Como 32,8 > C=32,29, o

pesquisador deve rejeitar, ao nível de significância de 5% a hipótese

H0:=29mm em favor da hipótese H1:35mm.

Vejamos agora, resumidamente, a generalização do problema

proposto e do procedimento adotado.

Seja X uma v.a. com distribuição normal e média e variância 𝜎2.

Para testar a hipótese de que a média da distribuição tem um valor

específico 𝜇0, isto é, 𝐻0: 𝜇 = 𝜇0, contra a hipótese alternativa de que tem

outro valor específico 𝜇1, ou seja, 𝐻1: 𝜇 = 𝜇1, com 𝜇1 > 𝜇0 adotamos o

procedimento que passamos a descrever.

1º - Estabelecemos um nível de significância do teste, que, em

problemas práticos, geralmente é 5%.

2º - Obtemos um amostra de n observações da variável X e

calculamos a sua média 𝑋


3º - Calculamos valor crítico de C pela seguinte expressão:

𝑃(X ̅≥C│μ=𝜇0)= 𝛼

Ou

𝑃 𝑍 >𝐶 − 𝜇0

𝜎 𝑋= 𝛼

Se 𝑍0 é o valor da variável normal reduzida, obtido pela tabela z, tal

que 𝑃 𝑍 > 𝑍0 = 𝛼, podemos escrever:𝐶 − 𝜇0

𝜎 𝑋= 𝑍0

Ou 𝐶 = 𝜇0 + 𝑍0𝜎 𝑋 (fórmula do intervalo de confiança)


4º - Comparamos a média da amostra ( 𝑋) com o valor C obtido e

rejeitamos H0, ao nível de significância , se 𝑋 ≥ 𝐶.

Considerando que 𝐶 = 𝜇0 + 𝑍0𝜎 𝑋 logo verifica-se que

𝑋 > 𝜇0 + 𝑍0𝜎 𝑋

ou 𝑋 − 𝜇0

𝜎 𝑋≥ 𝑍0

Dessa forma, o procedimento usual para testar H0 contra H1 consiste

em, depois de obtido o valor de 𝑋, calcular

𝑍 = 𝑋 − 𝜇0

𝜎 𝑋

Para o exemplo anterior esse valor seria de 𝑍 =32,8−29

2= 1,9


O valor crítico de Z, para o nível de significância de 5%, é 𝑍0 =1,645 , uma vez que P(Z>1,645)=0,05. Como Z=1,9 > 𝑍0 =1,645,

rejeitamos H0:=29mm, em favor de H1: =35mm.

Se tivermos 𝐻0: 𝜇 = 𝜇0 e 𝐻1: 𝜇 = 𝜇1, com 𝜇1 < 𝜇0 ( em vez de 𝜇1 >𝜇0), a região de rejeição é 𝑋 ≤ 𝐶. O procedimento usual é calcular Z por

meio de 𝑍 = 𝑋−𝜇0

𝜎 𝑋e rejeitar H0 se Z≤ −𝑍0 . Sendo o nível de

significância adotado, 𝑍0 é o valor da variável normal reduzida, tal que

𝑃 𝑍 < −𝑍0 = 𝑃 𝑍 > 𝑍0 = 𝛼


Lembrando que

TESTES DE HIPÓTESES para a Média

(Amostras Grandes e conhecido)

Usando o valor da probabilidade para grandes amostras.

Praticamente quando trata-se de grandes amostras, temos que avaliar a

hipótese sobre o valor da probabilidade encontrada, caso a mesma seja

maior que o valor estabelecido em α, não rejeitamos a hipótese nula

(aceita-se 𝐻0), caso o valor de P seja menor, rejeitamos a hipótese nula

(ou seja, falhamos em rejeitar 𝐻0).

A grande questão é: como encontrar o valor de P?

Na verdade isso já foi verificado já que P obtém-se a partir de z

(normal padronizada).

Isso significa que o valor de z será encontrado usando-se as médias

amostrais e média hipotéticas.

𝑧 =𝑀é𝑑𝑖𝑎 𝐴𝑚𝑜𝑠𝑡𝑟𝑎𝑙 − 𝑀é𝑑𝑖𝑎 ℎ𝑖𝑝𝑜𝑡é𝑡𝑖𝑐𝑎

𝐸𝑟𝑟𝑜 𝑃𝑎𝑑𝑟ã𝑜



𝑧 = 𝑥 − 𝜇

𝜎

𝑛E quando a amostra é maior que 30 podemos usar o próprio erro

padrão do conjunto de dados da respectiva amostra.

Exemplo: De acordo com um estudo o custo médio de uma cirurgia

bariátrica é de R$ 21.500. Você desconfia desse valor. Dessa forma você

escolhe 25 pacientes que realizaram a cirurgia e pergunta quanto em

média eles gastaram, na média eles lhe informaram que o custo fora de

R$ 20.695. Estudos anteriores indicaram que o erro padrão amostral é de

R$ 2.250. Considerando que a amostra colhida é normalmente

distribuída, poderíamos afirmar que a 5% de probabilidade de cometer o

erro tipo I, á pesquisa está errada?



Solução:

𝑧 = 𝑥 − 𝜇

𝜎

𝑛

𝑧 =20.695 − 21.500

2.25025

𝑧 ≅ −1,79

Nos interessa apenas a área de 0 a z

Como temos uma distribuição Bi-Caudal temos que multiplicar o valor encontrado por 2,

Dessa forma temos 𝑷 = 𝟐 𝟎, 𝟎𝟑𝟕 = 𝟎, 𝟎𝟕𝟑𝟒



Como 𝑃 > 𝛼, não rejeitamos a hipótese nula. Logo podemos concluir

que não existem evidências (a um nível de significância de 5%) e o custo

médio da cirurgia bariátrica seja de R$ 21.500.

Nesse caso sempre lembre que:



Empregados da Vale reclamam que a média salarial de um

engenheiro é inferior que das demais empresas do ramo no mundo,

atualmente seus salários anuais são de $ 68.000. Uma amostra

aleatória de 20 empresas do ramo indicou que a média salarial das

mesmas é de $ 66.900. Assumindo que o desvio padrão da população

seja de $ 5.500 e que a população é normalmente distribuída, a

α=5% teste se os empregados estão corretos.


(Amostras Pequenas e desconhecido)

Nesse caso como temos n < 30, devemos utilizar a tabela t.

Nesse caso a mesma só será passível de uso caso a amostra tenham o

comportamento de uma normal padrão.

Aqui não avaliaremos a probabilidade, mas sim o próprio valor

calculado, dessa forma faremos a comparação entre o valor calculado de

t e o valor tabelado do mesmo.

Vamos ao exemplo:

Uma concessionária informou que o preço de um sedã de dois anos

(em boas condições) custa R$ 20.500. Você suspeita que tal valor esteja

incorreto e, fazendo uma pesquisa em 14 jornais diferentes para o mesmo

sedã o preço médio encontrado foi de R$ 19.850. O desvio padrão desse

amostra era de R$ 1.084. Existe evidência para rejeitarmos o valor

fornecido pela concessionária a 5% de probabilidade de cometermos o

erro tipo I? (Então o verdadeiro preço é menor que R$ 20.500?)

Solução: 𝐻0: 𝜇 ≥ 𝑅$20.500 𝐻𝑎: 𝜇 < 𝑅$20.500

𝑡 = 𝑥 − 𝜇

𝑠

𝑛

𝑡 =19.850 − 20.500

1.08414

𝑡 ≅ −2,224

Como temo o valor Calculado maior que o valor tabelado então

rejeitamos a hipótese nula. Concluímos portanto que o preço do sedã é

inferior a R$ 20.500 a 5% de probabilidade de cometer o erro tipo I.





O setor de caixas do Lider reclamou que a média de descanso é menor

que 14 minutos. Uma amostra de 10 pessoas tem como média de

descanso de 13 minutos com desvio padrão de 3,5 minutos. A α=10%,

teste a reclamação dos caixas. Assuma que a população é normalmente

distribuída.

TESTES DE HIPÓTESES para Proporções

TESTES DE HIPÓTESES PARA PROPORÇÕES

Uma situação citada por Larson et al é que os testes de hipóteses para

proporções podem ser usados quando os políticos querem saber a

proporção de seus eleitores que são a favor de um determinado projeto

de lei ou quando os engenheiros de qualidade testa a proporção de peças

que estão com defeito.

Nesse caso se 𝑛𝑝 ≥ 5 e 𝑛𝑞 ≥ 5 para uma distribuição binomial, então

uma distribuição amostral para 𝑝 é normal com 𝜇 𝑝 = 𝑝 e 𝜎 𝑝 = 𝑝𝑞𝑛.

O teste z para uma proporção será dado por:

𝑧 = 𝑝 − 𝜇 𝑝

𝜎 𝑝=

𝑝 − 𝑝

𝑝𝑞𝑛


A pesquisadora afirma que menos de 40% dos proprietários de

telefone celular no Brasil usam seu telefone para a navegar na internet.

Em uma amostra aleatória de 100 adultos, 31% dizem que usam seu

telefone para acessar internet. Com α=1%, há evidências suficientes para

apoiar a afirmação da pesquisadora?

Como o produto de 𝑛𝑝 = 100 0,4 = 40 e 100 0,6 = 60 é maior

que 5 então podemos continuar com o teste de hipóteses. Então nossa

hipótese de teste será:


Pelo exemplo anterior no nível de significância de 1%, não existe

evidências que deem suporte a pesquisadora em afirmar que menos de

40% dos brasileiros usam celular para navegar na internet.


A pesquisadora afirma que 86% dos graduados universitários dizem

que seu diploma universitário foi um bom investimento. Em uma

amostra aleatória de 1.000 graduados, 845 dizem que o seu diploma

universitário foi um bom investimento. Com 𝛼 =10%, há evidências

suficientes para rejeitar a afirmação da pesquisa?


Concluímos que não existe evidência a 10% de significância para

rejeitar a hipótese que 86% dos graduados afirmarem que a obtenção do

diploma tenha sido um bom investimento.

TESTES DE HIPÓTESES para 𝝈𝟐 e 𝝈

No mundo real, é importante para a produção de resultados

consistentes e previsíveis. Por exemplo, considere uma empresa que

fabrica bolas de golfe. O fabricante tem de produzir milhões de bolas de

golfe, tendo cada um o mesmo tamanho e o mesmo peso. Há uma

tolerância muito baixa a variação. Para uma população distribuída

normalmente, você pode testar a variância e desvio padrão do processo

usando a distribuição qui-quadrado com 𝑛 − 1 graus de liberdade. Antes

de aprender a fazer o teste, você deve saber como encontrar os valores

críticos, como mostrado até o momento.


Para testar uma variância 𝜎2 ou desvio padrão 𝜎 de uma população

que é normalmente distribuída, podemos usar o teste do qui-quadrado

(𝜒2). O teste do qui-quadrado para a variância ou desvio-padrão não é

tão robusto como os testes para a média da população 𝜇 ou a proporção

populacional 𝑝 . Assim, é essencial na realização de um teste qui-

quadrado para a variância ou desvio padrão que a população seja

normalmente distribuída. Os resultados podem ser equivocados quando a

população não é normal.

𝜒2 =𝑛 − 1 𝑠2

𝜎2


Uma companhia de processamento de produtos lácteos afirma que a

variação da quantidade de gordura em todo o leite processado pela

empresa é não mais do que 0,25. Você suspeita que isso esteja errado e

encontra em uma amostra aleatória de 41 caixas de leite uma variação de

0,27. Com α=5%, há evidências suficientes para rejeitar a alegação da

empresa? Suponha que a população é normalmente distribuída.


Logo, não há provas suficientes ao nível de 5% de significância para

rejeitar a alegação da empresa de que a variância da quantidade de

gordura em todo o leite não seja maior do que 0,25.


Usando o R

Um geólogo afirmou que a resistência média à compressão de um

itabirito silicioso (tipo de rocha) explorado na região da Zona da Mata

mineira é de 285 Mpa. Desconfiado dessa afirmação, um estudante

resolveu fazer um teste de resistência utilizando amostras provenientes

da mesma região e encontrou os seguintes valores (em Mpa):

254.29, 165, 189.02, 277.46, 235.56, 198.32

Se o estudante realizou um teste bilateral, para um nível de

significância de 1%, a qual conclusão ele chegou?

http://youtu.be/RbcJZtajWKs

http://youtu.be/RbcJZtajWKs

PRÓXIMA AULA

TESTE DE HIPÓTESES

COM DUAS AMOSTRAS

Tópico 3 testes de hípoteses - 1 amostra

Education

Transcript of Tópico 3 testes de hípoteses - 1 amostra