Utilizando o R

Técnicas para Predição de Dados 2 17/8/2008

Amostragem aleatória Amostragem aleatória

sample (1:40,5) Jogando moedas com reposição

sample (c(“H”,”T”),10,replace=T) Calculando a probabilidade de uma dada

apostra sem reposição =1/(40*39*38*37*36)

1/prod(40:36)


Densidades Densidade da distribuição normal

x = seq(-4,4,0.1)plot (x,dnorm(x), type=“l”)

Ou aindacurve (dnomr(x), from=-4, to 4)

Gráfico com a distribuição binomial (pin diagram)X=0:50plot (x,dbinom(x,size=50,prob=.33),type="h")


Estatísticas descritivas x=rnomr(50) mean(x) # média sd(x) # desvio padrão var(x) # variância median(x) # mediana quantile(x)


Estatísticas descritivas library (ISwr) # carrega pacote data (juul) # carrega dados hospitalares attach(jull) # disponibiliza os dados mean(igf1) # gera um erro mean(igf1, na.rm=T) length(ifg1) # conta todos os valores opção

sum(!is.na(igf1)) # TRUE = 1 e FALSE = 0


Estatísticas descritivas summary (igf1) n=length (x) plot(sort(x),(1:n)/n,type="s",ylim=c(0,1)) Onde:

“s” = step function(1:n)/n divide o intervalo 1:n em n valores


Testes para uma amostra t-teste – uma amostra

(n<30 e σ desconhecido) suposições

dados vem de uma distribuição normal X~N(µ,σ2)

Deseja-se testar a hipótese nula h0: µ = µ0

Pode-se estimar os parâmetros µ e σ pela média empirica e pelo desvio padrão amostral s.

x


Testes para uma amostra t-teste – uma amostra

onde SEM = standard error of the mean Se o experimento for repetido (x) vezes e

forem tiradas (x) médias, então essas médias seguirão a distribuição que gerou a amostra

nSEM

n

samostralSEM


Testes para uma amostra

Para dados normalmente distribuídos há 95% de chance de µ ± 2σ

Espera-se que se µ0

for a verdadeira média, então deveria estar a 2 SEM dela.

x

Range Proporção

µ ± 1σ 68,3%

µ ± 2σ 95,5%

µ ± 2σ 99,7%


Testes para uma amostra formalmente

ou

para ver se t está no limite da região de aceitação, cujo nível de significância é 5%

Se t está fora da região de aceitação, então devemos rejeitar a hipótese nula para aquele nível de significância.

A região de aceitação está próximo de -2 e 2

SEM

xt 0

nsx

t 0


Testes para uma amostra A região de aceitação está próximo de -2

e 2


Testes para uma amostra Pode-se também calcular o p-value que é

a probabilidade de se obter um valor tão grande ou maior que o valor t observado.

Não se deve rejeitar h0 se o p-value está próximo do nível de significância α

Rejeita-se h0 se o p-value é muito pequeno em relação ao nível de significância α


Testes para uma amostra daily.intake =

c(5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770)

# energia ingerida em kJ por 11 mulheres mean(daily.intake) sd(daily.intake) quantile(daily.intake) Os dados amostrais (com média = 6753,639 kJ)

constituem evidência suficiente para rejeitar a afirmação de que as mulheres ingerem 7725kJ em média?


Testes para uma amostra Supondo que os dados vieram de uma

distribuição normal, o objetivo é testar se essa distribuição pode ter média

µ = 7725

t.test (daily.intake, mu=7725)


Testes para uma amostra t.test (daily.intake, mu=7725)

One Sample t-test

data: daily.intake t = -2.8208, df = 10, p-value = 0.01814alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 # sample estimates:mean of x 6753.636


Testes t para dados emparelhados Usado para duas medidas no mesmo

experimento Trata as diferenças entre as medidas,

reduzindo o problema para teste t – uma amostra

Deseja-se investigar o grau de ingestão de calorias por mulheres antes e depois da menstruação


Testes t para dados emparelhados data(intake) attach(intake) intake post – pre # diferença antes e depois

h0: (post - pre) = 0h1: (post - pre) ≠ 0

Todos os valores na amostra foram negativos, dando indícios que as mulheres têm baixa ingestão de calorias depois da menstruação.


Testes t para dados emparelhados t.test(pre,post, paired=T)

Paired t-test

data: pre and post t = 11.9414, df = 10, p-value = 3.059e-07alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: 1074.072 1566.838 sample estimates:mean of the differences 1320.455

Utilizando o R

Utilizando o R

Documents

Transcript of Utilizando o R