Utilizando o R
description
Transcript of Utilizando o R
Utilizando o R
Técnicas para Predição de Dados 2 17/8/2008
Amostragem aleatória Amostragem aleatória
sample (1:40,5) Jogando moedas com reposição
sample (c(“H”,”T”),10,replace=T) Calculando a probabilidade de uma dada
apostra sem reposição =1/(40*39*38*37*36)
1/prod(40:36)
Técnicas para Predição de Dados 3 17/8/2008
Densidades Densidade da distribuição normal
x = seq(-4,4,0.1)plot (x,dnorm(x), type=“l”)
Ou aindacurve (dnomr(x), from=-4, to 4)
Gráfico com a distribuição binomial (pin diagram)X=0:50plot (x,dbinom(x,size=50,prob=.33),type="h")
Técnicas para Predição de Dados 4 17/8/2008
Estatísticas descritivas x=rnomr(50) mean(x) # média sd(x) # desvio padrão var(x) # variância median(x) # mediana quantile(x)
Técnicas para Predição de Dados 5 17/8/2008
Estatísticas descritivas library (ISwr) # carrega pacote data (juul) # carrega dados hospitalares attach(jull) # disponibiliza os dados mean(igf1) # gera um erro mean(igf1, na.rm=T) length(ifg1) # conta todos os valores opção
sum(!is.na(igf1)) # TRUE = 1 e FALSE = 0
Técnicas para Predição de Dados 6 17/8/2008
Estatísticas descritivas summary (igf1) n=length (x) plot(sort(x),(1:n)/n,type="s",ylim=c(0,1)) Onde:
“s” = step function(1:n)/n divide o intervalo 1:n em n valores
Técnicas para Predição de Dados 7 17/8/2008
Testes para uma amostra t-teste – uma amostra
(n<30 e σ desconhecido) suposições
dados vem de uma distribuição normal X~N(µ,σ2)
Deseja-se testar a hipótese nula h0: µ = µ0
Pode-se estimar os parâmetros µ e σ pela média empirica e pelo desvio padrão amostral s.
x
Técnicas para Predição de Dados 8 17/8/2008
Testes para uma amostra t-teste – uma amostra
onde SEM = standard error of the mean Se o experimento for repetido (x) vezes e
forem tiradas (x) médias, então essas médias seguirão a distribuição que gerou a amostra
nSEM
n
samostralSEM
Técnicas para Predição de Dados 9 17/8/2008
Testes para uma amostra
Para dados normalmente distribuídos há 95% de chance de µ ± 2σ
Espera-se que se µ0
for a verdadeira média, então deveria estar a 2 SEM dela.
x
Range Proporção
µ ± 1σ 68,3%
µ ± 2σ 95,5%
µ ± 2σ 99,7%
Técnicas para Predição de Dados 10 17/8/2008
Testes para uma amostra formalmente
ou
para ver se t está no limite da região de aceitação, cujo nível de significância é 5%
Se t está fora da região de aceitação, então devemos rejeitar a hipótese nula para aquele nível de significância.
A região de aceitação está próximo de -2 e 2
SEM
xt 0
nsx
t 0
Técnicas para Predição de Dados 11 17/8/2008
Testes para uma amostra A região de aceitação está próximo de -2
e 2
Técnicas para Predição de Dados 12 17/8/2008
Testes para uma amostra Pode-se também calcular o p-value que é
a probabilidade de se obter um valor tão grande ou maior que o valor t observado.
Não se deve rejeitar h0 se o p-value está próximo do nível de significância α
Rejeita-se h0 se o p-value é muito pequeno em relação ao nível de significância α
Técnicas para Predição de Dados 13 17/8/2008
Testes para uma amostra daily.intake =
c(5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770)
# energia ingerida em kJ por 11 mulheres mean(daily.intake) sd(daily.intake) quantile(daily.intake) Os dados amostrais (com média = 6753,639 kJ)
constituem evidência suficiente para rejeitar a afirmação de que as mulheres ingerem 7725kJ em média?
Técnicas para Predição de Dados 14 17/8/2008
Testes para uma amostra Supondo que os dados vieram de uma
distribuição normal, o objetivo é testar se essa distribuição pode ter média
µ = 7725
t.test (daily.intake, mu=7725)
Técnicas para Predição de Dados 15 17/8/2008
Testes para uma amostra t.test (daily.intake, mu=7725)
One Sample t-test
data: daily.intake t = -2.8208, df = 10, p-value = 0.01814alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 # sample estimates:mean of x 6753.636
Técnicas para Predição de Dados 16 17/8/2008
Testes t para dados emparelhados Usado para duas medidas no mesmo
experimento Trata as diferenças entre as medidas,
reduzindo o problema para teste t – uma amostra
Deseja-se investigar o grau de ingestão de calorias por mulheres antes e depois da menstruação
Técnicas para Predição de Dados 17 17/8/2008
Testes t para dados emparelhados data(intake) attach(intake) intake post – pre # diferença antes e depois
h0: (post - pre) = 0h1: (post - pre) ≠ 0
Todos os valores na amostra foram negativos, dando indícios que as mulheres têm baixa ingestão de calorias depois da menstruação.
Técnicas para Predição de Dados 18 17/8/2008
Testes t para dados emparelhados t.test(pre,post, paired=T)
Paired t-test
data: pre and post t = 11.9414, df = 10, p-value = 3.059e-07alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 1074.072 1566.838 sample estimates:mean of the differences 1320.455
Utilizando o R