Probabilidade e Estatística - SOL - Professor | PUC...
Transcript of Probabilidade e Estatística - SOL - Professor | PUC...
Probabilidade e Estatística
PUC - GOIÁS
O que é Estatística ?
ESTATÍSTICA: conjunto de técnicas que permite,
de forma sistemática, coletar, organizar, descrever,
analisar e interpretar dados oriundos de estudos
ou experimentos, realizados em qualquer área do
conhecimento.
?
Algumas Atividades que Envolvem Estatística.
• Área Social: O censo populacional.
• Área Industrial: Confiabilidade de
Sistemas, Controle Estatístico de
Qualidade, etc.
• Área Agropecuária: Identificação de
melhores formas de manejo, etc.
• Área Bancária: Concessão de Crédito,
Atuária.
• Marketing: Pesquisas de Mercado,
Inferência, etc.
Principais Áreas da Estatística
• Estatística Descritiva: Utilizada na etapa inicial da análise, quando tomamos contato com os dados pela primeira vez. É o conjunto de técnicas destinadas a descrever e resumir os dados a fim de que possamos tirar conclusões a respeito da característica de interesse.
• Probabilidade: Teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório.
• Inferência Estatística: Estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito menor.
Exemplos de Aplicação
• Comparação entre tratamentos ou processos:
Produção Produção
Tratamento Tipo 1
x11 x12 x1n ... x21 x22 x2n ...
Tratamento Tipo 2
Tipo 1
é mais
produtivo
do que o
Tipo 2?
Raciocínio Estatístico
População Dados Amostragem
Estatística
Descritiva
Inferência Estatística
(Probabilidade)
Com Suporte Computacional
Técnicas de Amostragem
AMOSTRAS
Noções Básicas
• Definição de População: Ao grande conjunto de
elementos que contém determinada característica
comum, que temos interesse recebe o nome de
população.
Ex1: Toda a população brasileira.
População 1
Noções Básicas
Quando observamos todos os dados, procedemos ao Censo.
Exemplo: Examinar todos os brasileiros quanto a condição de nutrição.
População
= ?
Qual é a proporção de
brasileiros desnutridos?
• Um parâmetro é uma medida numérica que descreve uma
característica de uma população. Ex: 20% dos brasileiros estão
desnutridos.
Noções Básicas
Quase não se trabalha com população.
• Alto custo da pesquisa/experimento (material, pessoal,
logística, etc);
• Resultados demorados;
• Razões Éticas (experimentos com animais);
• Impossibilidade (Linha de produção, sangue, etc).
Motivos Principais
Noções Básicas: Amostra.
População
• Estatística: é uma medida numérica que descreve uma
característica de uma amostra. Ex: média da altura da pop.
Brasileira, proporção de desnutridos, etc.
Amostra
Definição: subconjunto da população, em geral com
dimensão sensivelmente menor.
x : Estatística.
Noções Básicas: Amostra.
Vantagens da Amostragem.
•Baixo custo operacional.
• Maior rapidez na execução da pesquisa ou estudo.
• Maior segurança nos resultados
Tipos de Amostragem
Amostra casual simples: Existência de um “frame”. Todos os elementos da população
devem ter chance igual de escolha. Procedimento baseado no sorteio aleatório.de
escolha.
Figura 1: Sorteio Aleatório
Tipos de Amostragem
Amostra Estratificada: Na amostra estratificada os elementos são
provenientes de todos os estratos da população.
Ex: Pesquisas em um cidade; pesquisas em florestas; etc.
Em cada estrato é feito o sorteio aleatório.
Tipos de Amostragem
Amostra Sistemática: Na amostra sistemática os elementos são
escolhidos não por acaso, mas por um sistema.
No primeiro período o sorteio é aleatório.
Exemplo: Linha de Produção; Pesquisas em formulários;
etc.
Tipos de Amostragem
Amostra por conglomerado: Amostra feita em vários estágios.
Maior economia.
Ex: Em uma pesquisa feita no pais, primeiro sorteamos os estados,
depois as cidades, depois os bairros, os setores censitários, os
domicílios e os indivíduos.
Tipos de Amostragem: Exercícios
1. Obtém-se uma amostra de um produto extraindo-se cada 100º unidade da linha
de produção;
2. Um fabricante de automóveis faz um estudo de mercado compreendendo
testes de direção feitos por uma amostra de 10 homens e 10 muheres em cada
uma das quatro diferentes faixas etárias;
3. Geram-se números aleatórios em um computador para selecionar números de
séries de carros a serem escolhidos para uma amostra teste.
A- Identifique o tipo de amostra:
4. Em uma linha de produção são produzidos 1000 comprimidos por hora,
sabendo que a linha funciona por 8 horas seguidas por dia e que deve ser
extraída uma amostra de 400 comprimidos por dia, qual seria o processo de
amostragem mais indicado e como seria a seleção dessa amostra?
Análise Exploratória de Dados
Estatística Descritiva 1
Organização dos dados em
Tabelas?
O que é uma variável ?
• Variável é uma característica, propriedade ou atributo de uma unidade da população, cujo valor pode variar entre as unidades da população.
• Variáveis Qualitativas ou Categóricas: Quando os possíveis valores assumem
atributos ou qualidades. Ex: sexo, cor, escolaridade, doença, condição do ar, condição
da água, etc.
Tipos de Variáveis
• Variáveis Quantitativas ou de Medidas: Quando seus valores são expressos em
números. Ex: altura, peso, número de filhos, pH, concentração do reagente, etc .
Especificando os tipos de variáveis
As variáveis qualitativas podem ser classificadas ainda como:
• Ordinais: quando o atributo tem uma ordenação natural, indicando intensidade crescente de realização. Ex: grau de escolaridade, classe social, condição do ar, condição da água,estado clínico, etc.
• Nominais: quando o atributo não se estabelece ordem. Ex: sexo, cor, raça, doença, etc.
Já as variáveis quantitativas podem ser:
• Discretas: resultantes de contagens, assumindo assim, em geral valores inteiros. Ex:
número de filhos, número de peças defeituosas, nº de pessoas doentes na região, etc.
• Contínuas: assumem valores em intervalos de números reais e geralmente, são
provenientes de uma mensuração. Ex: peso, altura, pH,concentração do reagente, etc..
Resumo geral: tipo de variável
Variável
Qualitativa
Quantitativa
ordinal
nominal
contínua
discreta
Exercícios
Apresentação dos dados em tabela
Tabela 1.1: Número de Nascimentos segundo o sexo
Fonte: E.W.
Sexo Freqüência
Masculino 10
Feminino 8
Total 18
Para efeito de comparação: Tabela de
freqüência relativa
Tabela 1.2: Número de Nascimentos segundo sexo.
Fonte: E.W.
Sexo Freqüência Freqüência relativa(%)
Masculino 10 55,56%
Feminino 8 44,44%
Total 18 100,00%
Tabelas de distribuição de freqüência.
Quando os dados são quantitativos contínuos, não conseguimos resumir a
informação da mesma forma anterior. Neste caso precisamos organizar os dados
em uma tabela de distribuição de freqüências. Veja os dados abaixo,
2,522 3,200 1,900 4,100 4,600 3,400
2,720 3,720 3,600 2,400 1,720 3,400
3,125 2,800 3,200 2,700 2,750 1,570
2,250 2,900 3,300 2,450 4,200 3,800
3,220 2,950 2,900 3,400 2,100 2,700
3,000 2,480 2,500 2,400 4,450 2,900
3,725 3,800 3,600 3,120 2,900 3,700
2,890 2,500 2,500 3,400 2,920 2,120
3,110 3,550 2,300 3,200 2,720 3,150
3,520 3,000 2,950 2,700 2,900 2,400
3,100 4,100 3,000 3,150 2,000 3,450
3,200 3,200 3,750 2,800 2,720 3,120
2,780 3,450 3,150 2,700 2,480 2,120
3,155 3,100 3,200 3,300 3,900 2,450
2,150 3,150 2,500 3,200 2,500 2,700
3,300 2,800 2,900 3,200 2,480
3,250 2,900 3,200 2,800 2,450
Tabela 1.7: Peso ao nascer de nascidos vivos, em quilogramas
Fonte: IBGE
Exemplo de tabela de distribuição de
freqüência.
Classe Ponto médio Freqüência
1,5 |--- 2,0 1,750 3
2,0 |--- 2,5 2,250 16
2,5 |--- 3,0 2,750 31
3,0 |--- 3,5 3,250 34
3,5 |--- 4,0 3,750 11
4,0 |--- 4,5 4,250 4
4,5 |--- 5,0 4,75 1
Tabela 1.9: Peso de recém nascidos.
Numa tabela de distribuição de freqüência também podem ser apresentados os
pontos médios de classe. O ponto médio é dado pela soma dos extremos de uma classe,
dividida por 2. Para a classe 1,5 |--- 2,0, o ponto médio é: (1,5+2)/2=1,75.
Cálculo da amplitude de classes
• Ordenar os dados
•Intervalo da amostra= Maior valor – menor valor
• Número de classes = raiz de n =
• Amplitude =
• Construir os intervalos = limite inferior + amplitude
Análise Exploratória de Dados
Estatística Descritiva 2
Representação Gráfica de Dados
Gráfico de Setores ou Pizza. Usado para representar variáveis qualitativas, quando os
dados apresentam poucas características.
Figura1.1: Fonte de Emissão de CO na RMSP-2003.
54%
15%
31%
Gasolina Alcool Diesel
Gráfico de Barras.
Gráfico de barras bastante usado com variáveis qualitativas e quantitativas
discretas. Ideal para quando temos várias classes de categorias.
Figura 1.2: Distribuição das reclamações via 0800.
13
8
7
25
0
5
10
15
20
25
Fre
qü
ên
cia
Mau atendimento Troca de mercadoria Mercadoria com defeito Falta de variedade
Reclamações
Histograma O histograma é a representação gráfica para variáveis quantitativas
contínuas. Este tipo de representação mostra a forma da distribuição
da variável. É de fundamental importância na aplicação dos conceitos
de inferência estatística
Figura 1.3: Histograma do Peso Recém Nascido.
Ponto médio
Espalhamento
dos dados
Diagramas de Dispersão
Quando temos dados emparelhados e desejamos verificar de existe uma
associação entre esses dados, usamos como análise preliminar o diagrama
de dispersão.
Figura 1.5- Diagrama de dispersão: Temperatura X Rendimento de PQ.
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100 120
Temperatura
Ren
dim
en
to
Análise Exploratória de Dados
Estatística Descritiva 3
Medidas de Centralidade.
Medidas de Posição.
Cálculo de Médias
Brutos. Dados 1
1
n
i
ixn
x
Tabelas. .1
1
i
k
i
i nxn
x
Tabelas. .1
1
i
k
i
i fxn
x
classes. de número =k
amostra. da tamanho=n
.frequência da elemento ésimo-i = n
relativa. frequência da elemento ésimo-i = f
contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x
:Onde
i
i
i
Medidas de Centralidade
• Média Aritmética de um conjunto de valores é o
valor obtido somando-se todos eles e dividindo-se o
total pelo número de valores.
n
x
x
n
i
i 1
Exemplo 1: Os valores em gramas referentes aos pesos de
recém nascidos de uma pequena cidade em um dia específico
foram: 2500, 2350, 3400, 3280, 2650, 4010 e 2910.
Assim o peso médio é calculado como:
28,30147
21100
7
2910...23502500
x
Medidas de Centralidade Se os dados apresentam observações extremas, a média pode
não ser a medida mais indicada para centralidade, pois sobre influência direta de observações extremas. Por exemplo:
Em uma pesquisa sobre salário de um Tecnólogo em Química Fármaco Industrial observamos os seguintes valores: $1000,00; $1200,00; $1800,00; $2500,00; $2700,00 ; $3200,00 e $15000,00
A média é: 3914,28. Essa medida é representativa para este
conjunto de dados.
Solução: O uso da mediana.
Mediana (Me) é o valor que divide a amostra ou população em
duas partes iguais.
Para o exemplo, Me = $2500,00
Medidas de Centralidade
0
2000
4000
6000
8000
10000
12000
14000
16000
1 2 3 4 5 6 7
Dados Média Mediana
Figura 2.1 : Salários dos Tecnólogos
Medidas de Centralidade
Como calcular a mediana?
Se o número de observações na amostra ou
população for impar, então a mediana será o elemento de
ordem , ou seja :
n
2
1nxMe2
1n
Se o número for de ordem par, então a mediana será a média
entre os elementos centrais ou seja:
2
122
nnxx
Me
Exemplos para o cálculo da Mediana:
Serie 1: 12, 124, 32, 10, 18, 29 e 100 n= 7; impar
Ordenar : 10, 12, 18, 29, 32, 100 e 124.
29)4(
2
1
xxMe n
Serie 2: 12, 124, 32, 10, 18 e 29 n= 6; par.
Ordenar : 10, 12, 18, 29, 32, 124.
5.232
2918
22
)4()3(1
22
xx
xx
Me
nn
Medidas Separatrizes
As medidas de posição possibilitam um melhor entendimento dos dados, focalizando sua posição relativa em relação ao conjunto como um todo.
Mediana: divide os dados ordenados em duas partes iguais.
Quartis: Dividem os dados ordenados em 4 partes iguais.
Decis: Dividem os dados ordenados em 10 partes iguais.
Percentis: Dividem os dados ordenados em 100 partes
iguas.
Medidas Separatrizes
Calculando o percentil (medida geral)
Ordenar a série de n observações em ordem crescente de valores, definimos
como 0% à posição de ordem 1 e 100% a observação de ordem n. Portanto
uma observação com ordem x terá uma posição p.
Ordem
Posição
n
0%
1 x
100%
P
Medidas Separatrizes • Usando a semelhança de triângulos, vamos ter:
0
1
0100
1
P
xn
.observação dessa percentil o é :
.observação adeterminad uma de ordem a é:
série. na sobservaçõe de totalnúmero :
P
x
n
%100*1
1
n
xP
1100
*)1( P
nx
Medidas Separatrizes: Exemplo1.
Série de 27 32 64 65 58 62 59 54 29 30 26 48 47
Dados 46 43 38 29 32 35 37 31 43 45 42 37 36
Calcular o valor da observação para o percentil P = 32%.
Série 26 27 29 29 30 31 32 32 35 36 37 37 38
Ordem 1 2 3 4 5 6 7 8 9 10 11 12 13
Série 42 43 43 45 46 47 48 54 58 59 62 64 65
Ordem 14 15 16 17 18 19 20 21 22 23 24 25 26
Primeiro Passo: Ordenar os dados.
Medidas Separatrizes: Exemplo.
Agora vamos encontrar a ordem x correspondente:
91100
32*)126(1
100*)1(
Pnx
Portanto o valor na série de ordem x=9 é 35. Ou seja,
o valor que separa a série de dados entre os 32%
menores valores é 35.
Descritiva 4
Medidas de dispersão.
Medidas de dispersão Problema:
Uma empresa farmacêutica realiza um teste com dois
medicamentos para a mesma finalidade em um grupo de 14 pessoas,
sendo que 7 tomaram o medicamento A e as outras 7 o B.O tempo de
reação foi anotado para cada individuo:
Tabela 1: Tempo de reação dos medicamentos.
Fonte: E.W.
As médias para os dois grupos são iguais. Qual é o melhor medicamento?
Média
Med.A 15 61 48 16 72 17 16 35
Med.B 35 35 36 34 33 35 37 35
Tempo de Reação
Medida de Dispersão Só utilizando a média como medida resumo para um conjunto de
dados, não vamos ter uma boa representação. Necessitamos de outras
medidas para avaliar o grau de variabilidade, ou dispersão dos valores em
torno da média. As medidas de dispersão medem a representatividade da
média. Tempo de Reação dos Medicamentos
0
10
20
30
40
50
60
70
80
1 2 3 4 5 6 7
Pacientes
Te
mp
o d
e R
ea
çã
o
Med.A
Med.B
Média
Medidas de Dispersão
• Amplitude Total: Diferença entre o maior e menor valor da série de dados. No exemplo temos.
43337 :MedB
571572 :MedA
Temos uma idéia da dispersão.
Problema: Depende dos valores extremos.
Não é avaliada a dispersão dos valores internos.
Medidas de Dispersão
Os desvios de uma série de dados com relação a média são dados
por :
.,...,2,1 onde , nixxi
Portanto o desvio médio seria uma boa taxa de dispersão
entre os dados. No entanto:
n
i
i xx1
0)(
Medidas de Dispersão.
Confirmando o resultado.
Med.A Med.B
ix )( xxi ix )( xxi
15 -20 35 0
61 26 35 0
48 13 36 1
16 -19 34 -1
72 37 33 -2
17 -18 35 0
16 -19 37 2
Soma 0 Soma 0
Tabelas. 1
1
Brutos. Dados 1
1
2
1
2
2
1
2
n
i
ii
n
i
i
xxnn
S
xxn
S
Medidas de Dispersão
Variância Amostral: É dada quando trabalhamos com
amostras.
classes. de número =k
amostra. da tamanho=n
.frequência da elemento ésimo-i = n
relativa. frequência da elemento ésimo-i = f
contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x
:Onde
i
i
i
Medidas de Dispersão.
Calculando a variância amostral para o MedA, temos:
6106
3660
17
)3516(...)3561()3515( 2222
S
Calcular a variância para o MedB.
666.16
10
17
)3537(...)3535()3535( 2222
S
Medidas de Dispersão.
O valor da variância é sempre positivo.
Algumas conclusões relacionadas com a variância.
Quando todos os elementos da série são iguais, a variância
é igual a zero.
O valor da variância é uma medida em escala diferente dos
dados.
Medidas de Dispersão.
Para resolver o problema da diferença de escala entre variância
e os dados, utilizamos o desvio padrão. O desvio padrão é a
raiz quadrada da variância.
2SS
Grupo A: S = 24,698. Grupo B : S = 1,29.
Para o exemplo anterior.
Variância Populacional
Tabelas. )(
Tabelas 1
)(
Brutos. Dados 1
)(
2
1
2
1
2
1
n
i
ii
n
i
ii
n
i
i
xxfXVar
xxnn
XVar
xxn
XVar
classes. de número =k
amostra. da tamanho=n
.frequência da elemento ésimo-i = n
relativa. frequência da elemento ésimo-i = f
contínua. variávelda médio ponto oou amostra da elemento ésimo-i = x
:Onde
i
i
i
Medidas de Dispersão.
Coeficiente de variação: Mede a variabilidade em termos relativos, dividindo o desvio padrão pela média.
%100x
SCVa
Baixa: menor que 10%
Médio: de 10% a 20%
Alto: de 20% a 30%
Muito Alto: acima de 30%
Índices para avaliar a variação dos dados.
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Exercícios
Introdução à Teoria das Probabilidades
JOELMIR FELICIANO
Conceitos Básicos
Experimento Aleatório ou Fenômeno Aleatório
Situações ou acontecimentos cujos resultados não podem ser previstos com
certeza.
Exemplos:
• Condições climáticas do próximo domingo;
• Taxa de inflação do próximo mês;
• Resultado ao lançar um dado ou moeda;
• Tempo de duração de uma lâmpada.
Espaço Amostral ()
Conjunto de todos os possíveis resultado de um experimento aleatório ou
fenômeno aleatório.
Exemplos:
1. Lançamento de um dado. ={1,2,3,4,5,6}
2. Tipo sanguíneo de um individuo. ={A, B, AB,0}
3. Opinião de um eleitor sobre um projeto. ={Favorável,Contrário}
4. Tempo de duração de uma lâmpada ={t; t>0)
Evento subconjunto do espaço amostral
Notação: A, B, C,...
Exemplos: No exemplo 1, alguns eventos:
A: sair face par: A={2,4,6}
B: Sair face maior que 3 B={4,5,6}
C: sair face 1 C={1}
D: sair face 7 D={ } (evento impossível)= (conjunto vazio)
Operação com eventos
Sejam os eventos A e B definidos no mesmo espaço amostral
•AB: União dos eventos A e B.
Representa a ocorrência de pelo menos um dos eventos A ou B
•AB: Intersecção dos eventos A e B.
Representa a ocorrência simultânea dos eventos A e B.
• A e B são disjuntos ou mutuamente exclusivos quando não têm elementos em
comum, isto é, AB=
• A e B são complementares se sua intersecção é vazia e sua união o espaço
amostral, isto é. AB= e AB= .
• O complementar de um evento A é representado por AouAC
• A C = {2, 4, 6} {1} = {1, 2, 4, 6}
• A C = {2, 4, 6} {1} =
• A B: = {2, 4, 6} {4, 5, 6} = {4, 6}
• A B = {2, 4, 6} {4, 5, 6} = {2, 4, 5, 6}
= {1, 2, 3, 4, 5, 6}
Eventos: A = {2, 4, 6}, B = {4, 5, 6} e C = {1}
Exemplo: Lançamento de um dado
• AC = {1, 3, 5}
Probabilidade
Pergunta: Como atribuir probabilidade aos
elementos do espaço amostral?
Definições de probabilidades
Definição Clássica ou a priori
Se um experimento aleatório tiver n() resultados mutuamente exclusivos e
igualmente prováveis e se um evento A tiver n(A) desses resultados. A
probabilidade do evento A representado por P(A), é dado por:
)(
)()(
n
AnAP
Exemplo: Considere o lançamento de 2 dados balanceados. Calcular a
probabilidade de:
a) Obter soma 7;
b) Obter soma maior que 10;
c) Que o resultado do primeiro dado seja superior ao resultado do segundo.
6,65,64,6
6,55,54,5
6,45,44,4
3,62,61,6
3,52,51,5
3,42,41,4
6,35,34,3
6,25,24,2
6,15,14,1
3,32,31,3
3,22,21,2
3,12,11,1
a) A={(1,6),(5,2),(4,3),(3,4),(2,5),(6,1)} P(A)=n(A)/n()=6/36=1/6
b) B={(5,6),(6,5),(6,6)} => P(B) = 3/36.
c) P(C)= 15/36.
Suponhamos que realizamos um experimento n vezes (n grande) e destas o
evento A ocorre exatamente r<n vezes, então a frequência relativa de vezes
que ocorreu o evento A, “r/n”, é a estimação da probabilidade que ocorra o
evento A, ou seja,
n
rAP )(
Essa estimação da probabilidade por frequência relativa de um evento A, é
próxima da verdadeira probabilidade do evento A, quando n tende ao infinito.
Definição frequentista ou a posteriori
Exemplo: Considere o lançamento de uma moeda. Calcular a probabilidade de
A={ resultado obtido é cara}.
fr1 fr2 fr3 fr4 frA
Cara 2/5 6/10 22/50 47/100 0,5
Coroa 3/5 4/10 28/50 53/100 0,5
n 5 10 50 100
Definição axiomática
A probabilidade de um evento A define-se com o número P(A), tal que satisfaz os
seguintes axiomas:
n
i
i
n
AP
AASeiii
Pii
AAPi
1
n
1i
i
1
)(AP
então ,exclusivos mutuamente eventos são ,,)(
1)()(
,1)(0)(
Propriedades
)(
)()()()()()()(
,,,.5
)()()()(,,.4
)()(,.3
)(1)(,.2
0)(.1
CBAP
CAPCBPBAPCPBPAPCBAP
entãoCBASe
BAPBPAPBAPentãoBASe
BPAPentãoBASe
APAPentãoASe
P
c
Regra da adição de probabilidades
Exemplo 1. Na tabela 1, apresenta-se a composição por raça e sexo de uma
população de um país.
Tabela 1: Distribuição da população por raça e sexo.
Sexo
Raça Masculino Feminino
Total
Branca 1726384 2110253 3836637
Outra 628309 753125 1381434
Total 2354693 2863378 5218071
Suponha que selecionamos um habitante desse país e consideremos os
eventos:
H: "o habitante selecionado é do sexo masculino"
Hc:"o habitante selecionado é do sexo feminino"
B: "o habitante selecionado é da raça branca"
Bc: "o habitante selecionado é de outra raça"
H B : "o habitante selecionado é de sexo masculino e da raça branca"
H B : "o habitante selecionado é de sexo masculino ou da raça branca"
Hc B : "o habitante selecionado é de sexo feminino e da raça branca"
Hc B : "o habitante selecionado é de sexo feminino ou da raça branca"
Hc Bc :"o habitante selecionado é de sexo feminino e de outra raça "
Hc Bc "o habitante selecionado é de sexo feminino ou de outra raça"
As probabilidades de cada um destes eventos são:
.880,0404,0739,0549,0
)()()()(
;404,05218071
2110253)(
;855,0331,0735,0451,0
)()()()(
331,05218071
1726384)(
;265,0735,01)(1)(
735,05218071
3836637)(
;549,0451,01)(1)(
;451,05218071
2354693)(
BHPBPHPBHP
BHP
BHPBPHPBHP
BHP
BPBP
BP
HPHP
HP
ccc
c
c
c
Probabilidade Condicional e Independência
Definição:[Probabilidade condicional] Sejam A e B dois eventos em um mesmo
espaço amostral, , a probabilidade condicional de A dado que ocorreu o
evento B, é representado por P(A|B) é dado por:
Exemplo 2. Selecionamos uma semente, ao acaso, uma a uma e sem
reposição de uma sacola que contem 10 sementes de flores vermelhas e 5
de flores brancas. Qual é a probabilidade de que :
(a) a primeira semente seja vermelha. ?
(b) a segunda seja branca se a primeira foi vermelha.?
(1) .0)(,)(
)()|(
BP
BP
BAPBAP
Sejam os eventos:
branca" é semente 2 :"V
; vermelha"é semente 2A " :
branca" é semente 1A :"V
; vermelha"é semente 1A " :
ac2
a2
ac
a1
1
A
V
V
(a)
3
2
15
10)( 1 VP
(b) 14
5)|( 12 VVP c
Essas probabilidades podem ser representados em um diagrama da árvore
de probabilidades, a qual é mostrado na figura 1
Figura 1: Diagrama de árvore de probabilidade
Da expressão (1), pode-se deduzir uma relação bastante útil,
),|()()( BAPBPBAP
Que é conhecida como regra do produto de probabilidades ou probabilidade da
interseção
• 1 • Total
• V1c V2
c
V1c V2
• V1V2c
• V1V2
• Probabilidade • Resultados
7
3
14
9
15
10
21
5
14
5
15
10
21
5
14
10
15
5
21
2
14
4
15
5
Exemplo 3: No exemplo 2, suponha que temos interesse em determinar a
probabilidade que as duas sementes selecionadas sejam brancas.
21
2
14
4
15
5)|()()P(
brancas" são semente2 e 1 a " : é evento O
12121
aa
21
ccccc
cc
VVPVPVV
VV
Teorema 1: Se B é um evento em , tal que P(B)>0, então:
).|()|()|()|(
:,,,.3
)|P(A1)|()|(1)|P(A:então ,BA, Se .2
0)|(.1
cc
BCAPBCPBAPBCAP
entãoCBASe
BBAPouBAPB
BP
Exemplo 3: Na Cidade de São Paulo, a probabilidade de chuva no primeiro dia de
setembro é 0,50 e a probabilidade de chuva nos dois primeiros dias de setembro
é 0,40. Se no primeiro de setembro choveu, qual é a probabilidade que no dia
seguinte não chova ?
Solução: Sejam os eventos: A:” chove no primeiro de setembro”, B:”chove no
segundo dia de setembro”.
Do enunciado do problema temos : P(A)=0,50 e P(AB)=0,40. A probabilidade
pedida é:
20,050,0
40,01
)(
)(1)|(1)|(
*
AP
BAPABPABP c
* Pelo teorema 1.2.
Definição[Independência de eventos] Dois eventos A e B são independentes se a
informação da ocorrência ou não de B não altera a probabilidade da ocorrência
de A. Isto é,
P(A|B)=P(A), P(B)>0
Conseqüentemente, temos que dois eventos A e B são independentes se
somente se,
P(AB)=P(A)P(B).
Exemplo 4: Em uma escola 20% dos alunos tem problemas visuais, 8%
problemas auditivos e 4% tem problemas visuais e auditivos. Selecionamos um
aluno desta escola ao acaso:
(a) os eventos de ter problemas visuais e auditivos são eventos independentes?
(b) se aluno selecionado tem problemas visuais, qual é a probabilidade de que
tenha problemas auditivos?
(c)qual é a probabilidade de não ter problemas visuais ou ter problemas auditivos
?
V:” o aluno tem problemas visuais”
A:” o aluno tem problemas auditivos”.
Do enunciado temos: P(V)=0,20, P(A)=0,08 e P(AV)=0,04.
84,008,0
04,0108,008,02,01
)(
)(1)()()(1
)|(1)()()(1)|()()()(1
)()()()()(
.20,020,0
04,0
)(
)()|()(
.),()()( Como
.04,0)(
016,008,02,0)()()(
AP
AVPAPAPVP
AVPAPAPVPAVPAPAPVP
AVPAPVPAVPc
VP
AVPVAPb
tesindependensãonãoVeAAPVPAVP
AVP
APVPa
c
ccc
Solução: sejam os eventos:
Teorema 2: Se A , B eventos em são eventos independentes, então:
tesindependen são (iii)
tesindependen são )(
tes.independen são )(
cc
c
c
BeA
BeAii
BeAi
Exemplo 5: Um atirador acerta 80% de seus disparos e outro (na mesmas
condições de tiro), 70%. Qual é a probabilidade de acertar se ambos atiradores
disparam simultaneamente no alvo.? Considere que o alvo foi acertado quando
pelo menos, uma das duas balas tenha feito impacto no alvo.
.94,0]7,01][8,01[1)P(B1)P(B11
)()(1)(1)(
:forma segunda uma de resolvidoser pode exemplo, este amenteAlternativ
94,07,08,07,08,0
)(B)P(B)P(B)P(B
)()P(B)P(B)(
,.7,0)(
8,0)P(B 1,2.i ,alvo" o acerta atirador o:"B :eventos os Sejam
21
212121
2121
212121
2
1
cccc
i
BPBPBBPBBP
P
BBPBBP
LogoBP
ei
Teorema de Bayes
Definição [Partição do espaço amostral]. Uma coleção de eventos
kBB ,,1 formam uma partição do espaço amostral se eles não têm
intersecção entre si e sua união é igual ao espaço amostral.
k
1i
e ji para
iji BBB
Teorema da probabilidade total. Se kBB ,,1 , formam uma partição
do espaço amostral , então qualquer evento A em , satifaz:
k
i
iikk BAPBPBAPBPBAPBPAP1
11 )|()()|()()|()()(
Teorema Bayes. Se kBB ,,1 , formam uma partição do espaço amostral , e A é qualquer evento
em , então:
k
i
ii
iii
BAPBP
BAPBPABP
1
)|()(
)|()()|(
Exemplo 6: Uma montadora trabalha com 2 fornecedores (A e B) de uma
determinada peça. As chances de que uma peça proveniente dos
fornecedores A e B esteja fora das especificações são 10% e 5%
respectivamente. A montadora recebe 30% das peças do fornecedor A e
70% de B. Se uma peça do estoque inteiro é escolhido ao acaso:
(a) Calcule a probabilidade de que ela esteja fora das especificações.
(b) Se uma peça escolhida ao acaso está fora das especificações, qual é a
probabilidade que venha do fornecedor fornecedor A ?
Solução:
Sejam os eventos:
A: “ peça selecionada seja do fornecedor A”
B:” peça selecionada seja do fornecedor B”
E:” peça selecionada esteja fora das especificações”
Do enunciado do problemas temos:P(A)=0,30; P(B)=0,70; P(E|A)=0,10 e
P(E|B)=0,05.
(a) P(E)=P(A)P(E|A)+P(B)P(E|B)=(0,30)(0,10)+(0,70)(0,05)=0,065
(b) P(A|E)=?
Pelo teorema de Bayes temos:
0,46065,0
03,0
05,070,010,030,0
10,030,0
)|()()|()(
)|()()|(
BEPBPAEPAP
AEPAPEAP
A solução do exemplo anterior é facilitada pelo diagrama de árvore de
probabilidades.
Pelo teorema da probabilidade total temos:
Variáveis
Aleatórias
Discretas.
Variáveis
Aleatórias
Contínuas.
Distribuições
Amostrais.
Capítulo 8
Estimativa do Intervalo
de Confiança
Objetivos:
Neste capítulo, você aprenderá:
• Construir e interpretar estimativas de intervalos de confiança para a média aritmética e para a proporção
• Determinar o tamanho da amostra necessário para desenvolver um intervalo de confiança para a média aritmética ou para a proporção
• Utilizar estimativas de intervalos de confiança na análise de dados.
Tópicos
1. Intervalos de confiança para a média populacional, μ
– Quando o desvio-padrão da população σ é conhecido
– Quando o desvio-padrão da população σ é desconhecido
2. Intervalos de confiança para a proporção populacional, π
3. Determinação do tamanho da amostra necessário
Estimativa Pontual
• Uma estimativa pontual é um número único. Para a média populacional (e desvio-padrão populacional), a estimativa pontual é a média amostral (e o desvio-padrão amostral).
• O intervalo de confiança traz informações adicionais sobre a variabilidade da estimativa.
Estimativa Pontual
Limite Inferior do
Intervalo
Limite Superior do
Intervalo
Largura (amplitude) do
Intervalo de Confiança
Estimativas do Intervalo de
Confiança
• Um intervalo de confiança dá um intervalo de
valores possíveis:
– Leva em consideração a variação na estatística
amostral que ocorre de amostra para amostra
– Baseada em todas as observações de 1 amostra
– Dá informações sobre a proximidade do
parâmetro populacional desconhecido
– Estabelecido em termos do nível de confiança
• Ex. 95% de confiança, 99% de confiança
• Não pode ser nunca 100% de confiança
Estimativas do Intervalo de
Confiança
• A fórmula geral de todos os
intervalos de confiança é:
Estimativa Pontual ± (Valor Crítico) (Desvio Padrão)
Nível de Confiança
• Nível de Confiança
– Confiança de que o intervalo conterá o
parâmetro populacional desconhecido
• Um percentual (menor que 100%)
Nível de Confiança • Suponha nível de confiança = 95%
• Também escrito (1 - ) = .95
• Uma interpretação da frequência
relativa:
– No longo prazo, 95% de todos os
intervalos de confiança que poderão
ser construídos conterão o parâmetro
desconhecido
• Um intervalo específico pode conter ou
não o parâmetro verdadeiro
Intervalo de Confiança para μ
(σ conhecido) Premissas
– Desvio-Padrão da população σ é conhecido
– População é normalmente distribuída
– Se a população não é normal, use amostras
grandes
Estimativa do Intervalo de Confiança:
(onde Z é o valor crítico em uma distribuição normal
padronizada para uma probabilidade α/2 em cada
cauda)
n
σZX
Encontrando o Valor Crítico,
Z
Considere um intervalo de confiança de
95%:
Z= -1.96 Z= 1.96
.951
.0252
α .025
2
α
Limite Inferior do Intervalo
Limite Superior do Intervalo
Z unidades:
X unidades: Estimativa
Pontual
0
Encontrando o Valor Crítico, Z
Intervalos de Confiança mais comuns: 90%, 95%, e 99%
Nível de
Confiança
Coeficiente
de Confiança
Valor Z
1.28
1.645
1.96
2.33
2.58
3.08
3.27
.80
.90
.95
.98
.99
.998
.999
80%
90%
95%
98%
99%
99.8%
99.9%
Intervalos e Nível de
Confiança
μμx
Intervalos de Confiança
Intervalos se extendem de:
a
(1-)x100%
dos intervalos
construídos
contém μ;
()x100% não.
Distribuição Amostral
da Média
n
σZX
n
σZX
x
x1
x2
/2 /21
Intervalo de Confiança para μ
(σ conhecido) Exemplo • Uma amostra de 11 circuitos
extraída de uma população normal
tem resistência média de 2.20
ohms. Sabemos de testes
anteriores que a população tem
desvio-padrão igual a .35 ohms.
• Determine o intervalo de confiança
a 95% para a verdadeira
resistência média da população.
Intervalo de Confiança para μ
(σ conhecido) Exemplo
2.4068) , (1.9932
.2068 2.20
)11(.35/ 1.96 2.20
n
σ
ZX
Nós estamos 95% confiantes de que o intervalo entre 1.9932 e
2.4068 ohms contém a verdadeira média da população.
Apesar da verdadeira média poder ou não estar no intervalo,
95% dos intervalos formados desta maneira conterão a
verdadeira média da população
Intervalo de Confiança para μ
(σ desconhecido)
• Se o desvio-padrão da população σ é
desconhecido, nós podemos adotar
como aproximação o desvio-padrão
da amostra, S
• Isso introduz uma incerteza adicional,
já que S varia de amostra para
amostra
• Então, se n < 30 usamos a
distribuição t de Student ao invés da
distribuição normal
Intervalo de Confiança para μ
(σ desconhecido) Premissas:
– Desvio-padrão da população é desconhecido
– População é normalmente distribuída
– Se a população não for normal, use amostras
grandes
Se n < 30 Use Distribuição t de Student
Estime o intervalo de confiança:
(onde t é o valor crítico da distribuição t com n-1 g.l.
e uma área de α/2 em cada cauda)
n
StX 1-n
Distribuição t de Student
• O valor t depende dos graus de liberdade
(g.l.)
– Número de observações que estão livres
para variar após a média da amostra ter sido
calculada
g.l. = n - 1
Graus de Liberdade
Se a média dos valores é 8.0,
então X3 deve ser 9
(i.e., X3 não é livre para variar)
Aqui, n = 3, então os graus de liberdade são = n – 1 = 3 – 1 = 2
(2 valores podem ser qualquer número, mas o terceiro não é livre para
variar uma vez que a média está dada)
Ideia: Número de observações que estão
livres para variar após a média da amostra
ter sido calculada
Exemplo: Suponha que a média de 3 números
seja 8.0
• Seja X1 = 7
• Seja X2 = 8
• Qual o valor de X3?
Distribuição t de Student
t 0
t (gl = 5)
t (gl = 13) Distribuições t são em forma de sino e simétricas, mas têm caudas mais “gordas” que a normal
Normal Padrão (t com gl = ∞)
Observe: t Z à medida que n aumenta
Tabela da t de Student
Áreas da Cauda Superior
gl
.25 .10 .05
1 1.000 3.078 6.314
2 0.817 1.886 2.920
3 0.765 1.638 2.353
t 0 2.920
O corpo da tabela contém os
valores t, não as probabilidades
Seja: n = 3
gl = n - 1 = 2
= .10
/2 =.05
/2 = .05
Tabela da t de Student
Intervalo de Confiança para μ
(σ desconhecido) Exemplo
Uma amostra aleatória com n = 25 tem X = 50 e S = 8.
Construa um intervalo de confiança a 95% para μ
– g.l. = n – 1 = 24, então
– O intervalo de confiança é:
25
8(2,064)50
n
S1-n /2, tX
(46,698 ; 53,302)
Intervalos de Confiança para
a Proporção Populacional, π
• Uma estimativa intervalar para a
proporção populacional ( π ) pode
ser calculada acrescentando uma
incerteza à proporção amostral ( p )
Intervalos de Confiança para
a Proporção Populacional, π
Lembre-se que a distribuição da proporção amostral é
aproximadamente normal se o tamanho da amostra é
grande, com desvio-padrão
Nós estimaremos este valor a partir dos dados
amostrais:
n
p)p(1
n
)(1σp
Intervalos de Confiança para
a Proporção Populacional, π Os limites inferior e superior do intervalo de confiança da
proporção populacional são calculados com a fórmula:
Onde:
– Z é o valor crítico na distribuição normal padronizada para o nível de confiança desejado
– p é proporção na amostra
– n é o tamanho da amostra
n
p)p(1Zp
Intervalos de Confiança para a
Proporção Populacional, Exemplo
Em uma amostra aleatória de 100 pessoas, 25 são
canhotas. Construa um intervalo de confiança para a
verdadeira proporção de canhotos na população com
95% de confiança.
00.25(.75)/196,125/100
p)/np(1p
Z
0,3349) ; (0,1651
(.0433) 1,96 .25
Intervalos de Confiança para a Proporção
Populacional, Exemplo
• Nós estamos 95% confiantes de que a
proporção de canhotos da população
esteja entre 16,51% e 33,49%. Apesar
de o intervalo de .1651 a .3349 poder
ou não conter a proporção populacional
verdadeira, 95% dos intervalos
construídos a partir de amostras de
tamanho 100 conterão a verdadeira
proporção de canhotos na população.
Determinando o tamanho da
amostra • O tamanho de amostra desejado pode ser
definido de forma a obter uma determinada margem de erro (e) com um nível de confiança especificado (1 - )
• A margem de erro é também chamada de erro amostral
– O quão imprecisa é a estimativa do parâmetro populacional
– O montante somado e subtraído da estimativa pontual para formar o intervalo de confiança
Determinando o tamanho da
amostra σ conhecido • Para definir o tamanho da amostra
para a estimativa da média, você
precisa conhecer:
– O nível de confiança desejado (1 - ),
que determina o valor crítico Z
– O erro amostral desejado (margem de
erro), e
– O desvio-padrão, σ
n
σZe
2
22
e
σZn Agora,
resolva para
n
Determinando o tamanho da
amostra σ conhecido
Se = 45, que tamanho de amostra é necessário para estimar a média com uma margem de erro de ± 5 com 90% de confiança?
219,195
(45)(1,645)σ2
22
2
22
e
Zn
Então, o tamanho de amostra necessário é
n = 220
Determinando o tamanho da
amostra para σ desconhecido
• Se σ desconhecido, n< 30 e a
distribuição é normal então usa-se
a distribuição t-student.
• Selecione uma amostra piloto e estime σ
a partir do desvio-padrão da amostra, S.
• Se σ desconhecido e n> 30, usa-se
a distribuição Normal
Determinando o tamanho da
amostra σ desconhecido • Para definir o tamanho da amostra para a
estimativa da média com σ desconhecido, você
precisa conhecer:
– O nível de confiança desejado (1 - ), que
determina o valor crítico t.
– O erro amostral desejado (margem de erro), e
– O desvio-padrão amostral, s.
n
ste 2
22 s
e
tn Agora,
resolva para
n
Determinando o tamanho da
amostra para Proporção Para determinar o tamanho da amostra necessário
para a proporção, você precisa saber:
– O nível desejado de confiança (1 - ), que
determina o valor crítico Z
– O erro amostral aceitável (margem de erro), e
– A verdadeira proporção de “sucessos”, p
• π pode ser estimado a partir de uma amostra
piloto, se necessário (ou conservadoramente
use π = .50)
2
2 )1(
e
ppZn
Resolvendo
para n n
ppZe
)1(
Determinando o tamanho da
amostra
•Qual o tamanho da amostra
necessário à estimativa da proporção
de defeituosos em uma grande
população, com uma margem de erro
de ±3%, e 95% de confiança?
• (Assuma que em uma amostra
piloto foi obtida a proporção p = .12
de defeituosos)
Determinando o tamanho da
amostra
Solução:
Para 95% confiança, use Z = 1.96
e = .03
p = .12, então use este para estimar π
Então use n = 451
450,74(.03)
.12)(.12)(1(1,96))1(2
2
2
2
e
Zn
Determinando o IC e o
tamanho da amostra usando
o Fator de Correção Até o presente momento vimos a construção do intervalo de Confiança para a média considerando a obtenção de amostra com reposição.
Contudo existem várias situações onde isso não é possível, logo estamos tratando de amostras sem reposição ou amostras destrutivas.
Desta forma utilizaremos um fator de correção para que a probabilidade de amostra para amostra não se altere.
Fator de Correção • Se o tamanho da amostra for menor que 5% do
tamanho da população, a não reposição é
desprezada.
• Se o tamanho da amostra for maior que 5%
devemos então corrigir o intervalo, para
compensar os efeitos da não reposição.
1
N
nN
N é o tamanho da população
n é o tamanho da amostra
Intervalo de Confiança para μ
(σ conhecido)
• Determinando o tamanho da
amostra σ conhecido
1n
σZX
N
nN
222
22
σ)1(
σ
ZNe
NZn
Intervalo de Confiança para a
Proporção, π
• Determinando o tamanho da
amostra a proporção π
1n
p)p(1Zp
N
nN
)1()1(
)1(22
2
ppZNe
NppZn
Intervalo de Confiança para μ
(σ desconhecido)
• Determinando o tamanho da amostra σ
desconhecido
11-n
N
nN
n
StX
222
22
S)1(
S
tNe
Ntn
Aplicações
• Seis vantagens da amostragem
estatística
– Resultados amostrais são objetivos e
defensáveis
• Desde que baseados em princípios
estatísticos demonstráveis
– Permite a estimativa do tamanho da
amostra previamente e com bases
objetivas
– Permite uma estimativa do erro
amostral
Aplicações – Permite conclusões mais precisas sobre a
população
• A análise de toda a população pode demandar muito tempo e estar sujeitas a outros erros que não o da amostragem
– Amostras podem ser combinadas e avaliadas por diferentes pesquisadores
• Amostras são baseadas em abordagem científica
• Amostras podem ser tratadas como se tivessem sido feitas por um único pesquisador
– Uma avaliação objetiva dos resultados é possível
• Baseado no conhecimento do erro amostral
TESTE DE HIPÓTESES
Testes de Hipóteses: Realizamos um teste de hipóteses somente
quando estamos tomando uma decisão em relação a um parâmetro
da população com base no valor de uma estatística da amostra.
H0 - Hipótese Nula: Corresponde a uma afirmação (ou declaração)
em relação a um determinado parâmetro da população, que é
presumida como verdadeira, até que seja declarada falsa.
H1 - Hipótese Alternativa: é uma afirmação em relação a um
determinado parâmetro da população, que será verdadeira se a
hipótese nula for falsa.
Caudas de um teste
Um teste bicaudal possui regiões de rejeição em ambas
as caudas.
Um teste com cauda à esquerda possui região de rejeição na
cauda da esquerda.
Um teste com cauda à direita possui região de rejeição na
cauda da direita.
Cauda à Direita:
Ho: = 50
H1:: > 50
Cauda à Esquerda:
Ho: : = 50
H1: : <50
Bicaudal:
Ho: : = 50
H1:: 50
Tabela de sinais em H0 e H1 e suas respectivas caudas
Teste
Bicaudal
Teste com cauda à
Esquerda
Teste com cauda
à Direita
Sinal na hipótese
nula H0 ou ≤ ou ≥
Sinal na hipótese
alternativa H1 ≠
Região de rejeição Em ambas as
caudas
Na cauda
Esquerda Na cauda Direita
Testes de hipóteses em relação a µ para amostras grandes
utilizando a abordagem do valor-p ou p-valor
Valor –p: é o menor nível de significância no qual a hipótese
nula é rejeitada.
Utilizando a abordagem do valor–p, rejeitamos a hipótese nula se:
Valor –p < ou > valor -p
E não rejeitamos a hipótese nula se:
Valor –p ≥ ou ≤ valor -p
Tabela de Erro
H0 verdadeira H0 Falsa
Aceita H0 Decisão Correta Erro do tipo II
Rejeita H0 Erro do Tipo I Decisão Correta
Erro do tipo I: Ocorre quando uma hipótese nula
verdadeira é rejeitada.
𝛂 = P(erro tipo I) = P(rejeitar ∣ verdadeira )
Erro do tipo II: Ocorre quando uma hipótese nula falsa é
aceita.
𝛃 = P(erro tipo II) = P(não rejeitar ∣ é falso )
Teste de Hipóteses Para μ (σ conhecido)
Premissas:
Desvio-Padrão da população σ é conhecido
População é normalmente distribuída
Se a população não é normal, use amostras grandes
Estimativa do Intervalo de Confiança:
(onde Z é o valor crítico em uma distribuição normal
padronizada para uma probabilidade α/2 em cada cauda)
n
σZX
Teste de hipóteses em relação a média da população:
Amostra Grande
x
xZ
xS
xZ
nx
n
SS
x
Para um desvio padrão populacional conhecido.
Para um desvio padrão amostral. n>30.
Etapas para realizar um teste de hipóteses utilizando a
abordagem do valor -p
1 – Declare as hipóteses nulas e alternativas;
2 – Fixar o nível de significância (𝛂);
3 – Calcular o valor da estatística do teste, que depende do
parâmetro que se deseja testar;
4 – Calcule o p-valor. Se p > 𝛂 aceita-se , caso contrário
o rejeita;
5 – Tome uma decisão.
Exemplo: Suspeita-se de que um medicamento
vasodilatador (Nifedipina) para Hipertensão Arterial,
amplamente receitado, esteja aumentando a freqüência
cardíaca dos pacientes. Para verificar essa suspeita,
colheu-se uma amostra aleatória de 50 pacientes que
recebem Nifedipina, e mediu-se a freqüência cardíaca de
cada um. É sabido que a freqüência cardíaca na
população normal tem Distribuição Normal, com média
69,8 bat/min e desvio-padrão de 1,86 bat/min.
A amostra com 50 pacientes forneceu uma média de 70,5
bat/min. Será que essa média amostral é diferente da
esperada para a população normal, assumindo um nível
de significância de 5%?
XHXH : e : 10
Como são conhecidos os parâmetros da população, é
possível aplicar uma estatística z. Deseja-se, apenas, testar
a diferença. Logo, o teste deve ser bicaudal. Para o nível
de significância de 5%, consideramos o valor crítico 0,025
1,96cz
X
z p
n
Regra de Decisão
01,96 1,96 Aceitar 2
z H p
-1,96 0
Não-Rejeitar
H0
Rejeitar H0
/2 Rejeitar H0
/2
+1,96
01,96 Rejeitar 2
z H p
01,96 Rejeitar 2
z H p 0
0
Rejeitar
Aceitar
p H
p H
Retomando o exemplo temos:
Parâmetros da população com frequência cardíaca normal:
69,8 e 1,86
Resultados da amostra com n = 50 pacientes que tomam o
remédio:
01,96 Rejeitar z H 0036,0
69,2
50
86,1
8,695,70
P
Z
n
XZ
Logo, há evidências de que a freqüência cardíaca média no grupo
de pacientes que tomam o remédio seja diferente da esperada para
uma população normal, com um nível de significância de 5%.
Conclusão
Teste de Hipóteses Para μ (σ desconhecido):
Amostra Pequena
xS
xt
n
SS
x
Condições nas quais a distribuição t é utilizada para
realizar testes de hipóteses em relação a média µ
1 – Se o tamanho da amostra for pequeno (n<30);
2 – A população a partir da qual a amostra foi extraída for
distribuída de maneira (aproximadamente) normal;
3 – O desvio padrão da população é desconhecido.
Etapas para desenvolver o teste de hipóteses
1 – Declare as hipóteses nulas e alternativas;
2 – Selecione a distribuição a utilizar;
3 – Determine a região de rejeição e a região de aceitação;
4 – Calcule o valor da estatística do teste;
5 – Tome uma decisão.
Teste de hipóteses em relação a proporção de uma
população
p
ppZ
n
pqp
Exemplo: A ANVISA realiza inspeção em 142 lotes de
medicamento de uma grande remessa, encontrando-se 8% dos
medicamentos com a embalagem violada. O fornecedor garante
que não haverá mais de 6% de medicamentos violados em
cada remessa.
O que devemos responder com o auxílio do teste de hipóteses é
se a afirmação do fornecedor é verdadeira!
0,102,0
06,008,0
p
ppZ
02,0142
94,0.06,0
n
pqp
H0: p ≤ 6%
H1: p > 6%
Supondo α= 1%, 3% e 5% construa o teste de hipóteses para
saber se aceitamos ou rejeitamos a hipótese nula.
Tópicos importantes
• Para o teste de hipótese da média, o tamanho da amostra n sempre deve ser > que
30;
• Para o teste de hipótese da média de pequenas amostras, a distribuição t de
student deve ser usada;
• No teste bicaudal, o nível de significância (α) é dividido igualmente entre as duas
caudas que constituem regiões críticas;
• A interpretação do teste é muito importante na realização dos experimentos de teste
de hipótese. Se mencionar igual trata-se de uma afirmação nula, se não mencionar,
a afirmação será a hipótese alternativa;
• Quando a hipótese alternativa (H1) é ≠ de algum valor, temos um teste bicaudal.
Quando H1 tem sinal > temos um teste com cauda à direita e quando H1 recebe sinal
< temos um teste com cauda à esquerda.
Regressão
Linear
Prof. Joelmir Feliciano
Objetivo
Explicar uma variável quantitativa segundo uma outra
variável quantitativa.
Exemplos
• Preço de um imóvel segundo a área construída
• Consumo de combustível segundo o preço do
combustível e a região
• Valorização de uma ação segundo a valorização da
bolsa
• Taxa de criminalidade segundo a taxa de desemprego
• Tempo de reação em um processo químico segundo a
taxa de concentração do reagente.
Algumas definições
a) diagrama de dispersão: representação gráfica
entre duas variáveis quantitativas
b) correlação: quantifica a força da relação linear entre
duas variáveis quantitativas
c) regressão linear: explicita a forma da relação linear
Exemplo 1: nota da prova e
tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova
Pares de observações (Xi , Yi)
Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Diagrama de Dispersão
Coeficiente de correlação linear
O coeficiente de correlação linear é
definido como
n
yy
n
xx
n
yxxy
SS
Sr
yyxx
xy
2
2
2
2
Propriedades do coeficiente
de correlação linear
Propriedade
-1 r 1
Classificação da correlação
r = 1, correlação linear positiva e perfeita
r = -1, correlação linear negativa e perfeita
r = 0, inexistência de correlação linear
Exemplo do cálculo da correlação
Tempo ( X ) Nota ( Y ) X2
Y2
XY
3,0 4,5 9 20,25 13,5
7,0 6,5 49 42,25 45,5
2,0 3,7 4 13,69 7,4
1,5 4,0 2,25 16 6
12,0 9,3 144 86,49 111,6
25,5 28 208,25 178,68 184
9960,0
5
2868,178
5
5,2525,208
5
28*5,25184
222
2
2
2
n
y
yn
x
x
n
yxxy
r
Gráficos - exemplos da
classificação da correlação
Exemplo para r = 1
Gráficos - exemplos da
classificação da correlação
Exemplo para r = -1
Gráficos - exemplos da
classificação da correlação
Exemplo para 0 < r < 1
Gráficos - exemplos da
classificação da correlação
Exemplo para -1 < r < 0
Gráficos - exemplos da
classificação da correlação
Exemplo para r = 0
Gráficos - exemplos da
classificação da correlação
Outro exemplo para r = 0
Diagrama de dispersão
Coeficiente de correlação:
r = 0.9591233
Reta ajustada
Y: Variável Resposta ou Dependente.
X: Variável Explicativa ou Independente.
a : intercepto ou coeficiente linear
b : inclinação ou coeficiente angular
Interpretação
Para cada aumento de uma unidade em X,
temos um aumento de b unidades em Y.
Cálculo dos Coeficientes de Regressão.
n
xx
n
yxxy
S
Sb
xx
xy
2
2
n
xx
n
yyxbya
e onde ,
Cálculo dos coeficientes de
Regressão. Tempo ( X ) Nota ( Y ) X
2 Y
2 XY
3,0 4,5 9 20,25 13,5
7,0 6,5 49 42,25 45,5
2,0 3,7 4 13,69 7,4
1,5 4,0 2,25 16 6
12,0 9,3 144 86,49 111,6
25,5 28 208,25 178,68 184
5268,02,78
2,41
5
5,2525,208
5
28*5,25184
22
2
n
x
x
n
yxxy
b
9133,21,5*5268,06,5 xbya
Equação da reta: Exemplo Notas
Interpretação
Para cada hora de estudos o aluno aumentar sua nota em 0,5268
pontos.
Exercício.
Considere a relação entre temperatura e rendimento em um
processo químico . Os dados estão ilustrados abaixo:
Temperatura ( ºC ) Rendimento (%)
30 35
35 40
40 42
60 70
70 85
90 87
100 91
Encontre a reta ajustada e desenhe o diagrama de dispersão
juntamente com a reta ajustada..
Exercício.
xy 87.007.12ˆ
07.12a
86.0b
Reta ajustada
Interpretação: A cada unidade aumentada da temperada, o rendimento
aumenta em média em 0.87%.
9591.0R
Coeficiente de Determinação: