Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informações sobre o sistema e alguns...
Transcript of Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informações sobre o sistema e alguns...
Projeto de Pesquisa e Ensino
Estatística e Probabilidade utilizando o software R
Docentes Participantes: Coordenadora: Profa. Dra. Ana Verginia Libos Messetti
Colaboradora: Profa. Dra. Vanderli Marino Melem
Discentes Participantes: Cinara Brenda Zerbini
Roberto Malcher de Barros
Arthur Dandrea Alemar
Londrina - PR
2013 – 2016
SUMÁRIO
1. INTRODUÇÃO AO SOFTWARE R. .......................................... 1
2. CONSTRUÇÃO DE TABELAS E GRÁFICOS ........................................... 4
3. MEDIDAS DE POSIÇÃO ( MÉDIA, MEDIANA, MODA ........................................... 15
4. MEDIDAS DE DISPERSÃO (AMPLITUDE TOTAL, VARIÂNCIA, DESVIO PADRÃO, COEFICIENTE DE VARIAÇÃO .......................................
17
5. SEPARATRIZES ....................................... 19
6. MODELOS PROBABILÍSTICOS DISCRETOS: (BINOMIAL, POISSON) .................................... 25
7. MODELOS PROBABILÍSTICOS CONTÍNUOS: (UNIFORME, EXPONENCIAL E NORMAL) ....................................
29
8. INTRODUÇÃO A CADEIA DE MARKOV ................................... 36
9. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E DA PROPORÇÃO. INTERVALO DE CONFIANÇA PARA A MÉDIA E PROPORÇÃO ...................................
41
10. TESTE T PARA UMA AMOSTRA (PARA PROPORÇÃO; MÉDIA E VARIÂNCIA) .....................................
46
11. TESTE T PARA DUAS AMOSTRAS (INDEPENDENTES; PAREADAS E VARIÂNCIAS) ...................................
58
12. ANÁLISE DE CORRELAÇÃO E REGRESSÃO. ....................................
70
REFERÊNCIAS BIBLIOGRÁFICAS .................................
91
Lista de Tabelas
Tabela 1- Principais consoles do mercado com seus respectivos preços .........
5
Tabela 2- Consoles do mercado com seus preços e quantidades vendidas ......... 6
Tabela 3 - Identificação dos indivíduos e seus respectivos provedores .........
7
Tabela 4 - Frequência de indivíduos por provedor .........
7
Tabela 5 - Consoles e seus respectivos preços de mercado .........
8
Tabela 6 - Principais consoles e a quantidade de aparelhos vendidos .........
10
Tabela 7- Número de defeitos em placas de circuito .........
15
Tabela 8 - Tempo (segundos) para carga de um aplicativo .........
24
Tabela 9 – Probabilidade de transição dos hábitos de estudo ......... 37
Tabela 10 - Tempo de resposta (segundos) de dois algoritmos de otimização ..........
59
Tabela 11 - Tempo de resposta (segundos) de dois algoritmos de otimização ..........
64
Tabela 12 - Tempo de transmissão de pacotes de dados adotado duas topologias ....
64
Tabela 13 - Notas de 15 alunos na prova do vestibular – matemática e
Cálculo .........
72
Tabela 14 - Tempo de transmissão de pacotes de dados adotado duas topologias ....
79
Tabela 15 - Notas de 15 alunos na prova do vestibular – matemática e cálculo .... 86
Tabela 16 - Resíduos Ordinários ........ 86
Tabela 17 – Resíduos Padronizados ........ 86
1
1. INTRODUCAO ao SOFTWARE R
A instalação do R pode ser realizada pelo download (http://r_project.org)
Guia de instalação - https://cran.r-project.org/doc/contrib/Itano-installation.pdf .
Iniciando o R
Ao iniciar o programa R será apresentado na tela uma janela que começa com
algumas informações sobre o sistema e alguns comandos básicos. Abaixo dessas
informações se encontra o prompt que é indicado por um símbolo “>” em vermelho.
Símbolos e comandos importantes
Nome Ação Comando/Símbolo
Comentário
Indica que o quer que siga o símbolo é
considerado comentário e não será
interpretado pelo programa R
#
Sair Sai do programa q()
Salvar Salva o trabalho realizado save.image()
Listar Lista todos os objetos da área de
trabalho atual ls()
Remover Remove o objeto indicado
rm(x)
# remove o objeto x
rm(x)
# remove os objetos x e y
Dado não
existe Representa um dado ausente NA
Testar se o
dado existe
Testa se o dado passado como
parâmetro existe
is.na(x)
# retorna verdadeiro se x não
existe
Mostrar os
pacotes
instalados
Mostra os pacotes do R que estão
instalados e não foram carregados library()
Carregar
pacote
Carrega o pacote passado como
parâmetro
library(nlme)
# carrega o pacote nlme
Criando objetos
Um objeto no R poder ser criado usando a operação de atribuição, que se
denota por uma flecha “<-” ou “->”, dependendo da direção em que se atribui o
objeto. Também é possível fazer a atribuição usando o sinal de igualdade “=”, que
não é muito utilizado no programa R mas é semelhante a outras linguagens de
programação. Exemplo
> x <- 1 # o objeto x receberá o valor 1
> 10 -> y # o objeto y receberá o valor 10
> 11 -> X # o objeto X receberá o valor 11
> Y = 13 # o objeto Y receberá o valor 13
2
Para mostrar o valor de um objeto é simples, digite apenas o nome do objeto no
prompt.
Exemplo > x
[1] 1
> X
[1] 11
> y
[1] 10
> Y
[1] 13
Observe que os nomes de objetos no R são diferentes se são maiúsculas ou
minúsculas.
Operações aritméticas
Para realizar as operações aritméticas básicas é necessário apenas o uso do símbolo da
operação. > 2 + 3
[1] 5
> sete <- 5 + 2
> sete
[1] 7
> sete * 10
[1] 70
> 5 + 2 * 10
[1] 25
> 10**2 # ** indica potencia
[1] 100
> 10^2 # ^ também indica potencia
[1] 100
> 100/2
[1] 50
Observe que quando são realizadas diversas operações aritméticas na mesma linha
usa-se a prioridade comum na matemática. Primeiro potências, depois multiplicações
e divisões e por fim então as somas e subtrações.
Outras operações aritméticas são denotadas como funções.
> sqtr(9) # raiz quadrada
3
> sin(0) # seno
0
> factorial(4) # fatorial 4! = 4*3*2*1
24
3
Algumas outras operações são demonstradas na tabela a seguir
Descrição Funcão
Valor absoluto abs(x) # retorna o valor absoluto de x
Logaritmo
log(x) # logaritmo de x na base e
log10(x) # logaritmo de x na base 10
log(x, n) # logaritmo de x na base n
Exponencial exp(x)
Raiz quadrada sqrt(x)
Funções trigonométricas
(parâmetro em radianos)
sin(x) # seno de x
cos(x) # cosseno de x
tg(x) # tangente de x
Funções trigonométricas
inversas
(resultado em radianos)
asin(x) # seno inverso de x
acos(x) # cosseno inverso de x
atg(x) # tangente inversa de x
Combinação binomial choose(n, x) #n!(x!(n-x)!)
Com o R iniciado, o usuário verá uma tela nomeada de “R console” que no qual é
possível ler sobre algumas informações sobre o software e também verá que há um
simbolo “>”, que indica que o usuário já pode dar comandos ao software.
Todas as funções do R estão concentradas nas biblioteca localizada no diretório do
seu computador em R_HOME/library.
Símbolos básicos
❖ # : tudo oque estiver na linha depois desse simbolo será ignorado pelo
programa (útil para comentários)
❖ ls(); lista todos os objetos da área de trabalho atual.
❖ rm(x,y): remove o objeto x e y.
❖ library(): mostra todos os pacotes instalados (não somente os carregados).
❖ library(nlme): carrega o pacote (nesse caso é o nlme).
para saber mais informações sobre uma certa função usando o próprio R você pode
usar a função help() ou digitar “?” antes da função Ex.: help(rm) ou ?rm.
Manipular Objetos
Um objeto pode ser criado atribuindo algo ao objeto usando “<-” ou “->”. O objeto
deve iniciar como uma letra (Ex.: X). é importante dizer que letras maiúsculas e
minúsculas são diferentes nesse programa.(Ex.: x<-6 e X<-8 # “x” vale 6 e “X” vale
8).
É necessário ter cuidado quando atribuir valores aos objetos, pois o usuário pode
atribuir um valor a um objeto já existente e causando a perda de informações
potencialmente importantes para casos no futuro.
4
Removendo objetos
Basta usar a função rm() ou remove() fornecendo o objeto a ser removido dentro dos
parenteses. (ex.:rm(A))
Atributos dos objetos
O usuário pode usar a função mode() para obter informações sobre tipo de objeto.
Ex.: x<- TRUE
mode(x)
R irá responder que o tipo de x é logico.
Operações aritméticas
Aqui estão algumas operações que podem ser utilizadas no R:
❖ “+” : operação de soma (Ex.: 2+2).
❖ “*” : operação de multiplicação (Ex.: 3*2).
❖ “**” ou “^”: potencia (Ex.: 2**4 ou 2^4)
❖ log(x,n): log de base n de x
❖ abs(x): valor absoluto de x.
Aproximações
funções para arredondamentos e aproximações:
❖ round (x,n) : arredonda o valor de x (nesse caso) em até n casas
decimais (Ex: round(x,3))
❖ trunc(x): descarta todos os decimais de um numero considerando
apenas a sua parte inteira, sem arrendodamento. ( trunc(10,932) = 10)
2. CONSTRUÇÃO DE TABELAS E GRÁFICOS
A representação gráfica dos dados estatísticos tem por objetivo apresentar de
forma rápida e concisa os resultados obtidos, permitindo-se chegar a conclusões sobre
a evolução do fenômeno ou sobre como se relacionam os valores da série Existem
várias maneiras de se representar graficamente os dados estatísticos de acordo com os
tipos de séries.
Tabelas
A assimilação das inf geradas pelos dados de um determinado experimento se
torna mais simples e fácil quando as mesmas estão dispostas em tabelas. Uma tabela é
um arranjo sistemático de dados numéricos dispostos de forma, colunas e linhas, para
fins de comparação. As tabelas podem aparecer em ordem crescente ou decrescente,
no caso de números, ou em ordem alfabética, quando são compostos de nomes.
5
Tabela simples:
Usada para apresentar a relação entre uma informação e outra (como produto e
preço). É formada por duas colunas e deve ser lida horizontalmente.
Aqui temos uma tabela 1 que relaciona os principais consoles do mercado com
seus respectivos preços:
Tabela 1- Principais consoles do mercado
com seus respectivos preços
Consoles Preços
Playstation 2 R$ 350
PSP R$ 450
Nintendo Wii R$ 650
Xbox 360 R$ 1.199
Playstation 3 R$ 1.099
Nintendo DS R$ 800
Nintendo 3DS R$ 1.149
PSVita R$ 750
Nintendo WiiU R$ 1.899
Playstation 4 R$ 2.999
Xbox One R$ 2.199
#------------------------------------------------------------------------------------------------------
No R:
preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)
t(preços)
#Porém a tabela gerada apenas exibe os preços, para que os nomes dos consoles
#sejam atribuídos aos seus respectivos preços utilizamos a função:
consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation3",
"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4",
"XboxOne")
names(preços)=consoles
#A função names atribui os nomes contidos na variável consoles aos preços da
#variável preço. Também é possível criar uma tabela através da função matrix que
#gera uma matriz.
preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)
M1=matrix(preços, nrow=11) #nrow é o número de linhas da matriz
#Então nomeamos as linhas e colunas da matriz
consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",
"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4", "Xbox
One")
rownames(M1)<-consoles
colnames(M1)<-c('preços')
#-----------------------------------------------------------------------------------------------------
6
Tabela de dupla entrada
São úteis para mostrar dois ou mais tipos de dados, como altura e peso, sobre
um item ou pessoa.
A seguir temos a tabela simples acima, porém com uma informação a mais, o
número de aparelhos vendidos para cada console:
Tabela 2- Consoles do mercado com seus preços e quantidades vendidas
Consoles Preços Aparelhos vendidos (milhões)
Playstation 2 R$ 350 157,68
PSP R$ 450 80,14
Nintendo Wii R$ 650 100,41
Xbox 360 R$ 1.199 79,00
Playstation 3 R$ 1.099 80,50
Nintendo DS R$ 800 154,80
Nintendo 3DS R$ 1.149 36,56
PSVita R$ 750 6,15
Nintendo WiiU R$ 1.899 3,90
Playstation 4 R$ 2.999 7,00
Xbox One R$ 2.199 5,00
#------------------------------------------------------------------------------------------------------
No R:
consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",
"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox
One")
preços =c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)
vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15,
90, 7.00, 5.00)
M2=matrix(c(preços,vendas), nrow=11, ncol=2)
rownames(M2)<-consoles
colnames(M2)<-c('preços','vendas')
M2
#-------------------------------------------------------------------------------------------------
Distribuição de frequências
Um dos primeiros passos para analisar um arquivo de dados, especialmente
quando o número de observações for grande, é a distribuição de frequências de cada
variável, que nada mais é que a organização dos dados de acordo com as ocorrências
dos diferentes resultados observados. Esta distribuição é disposta em uma tabela de
frequências.
7
A tabela a seguir apresenta a relação indivíduo/provedor de visitantes de um
determinado site:
Tabela 3 – Identificação dos indivíduos e seus respectivos provedores
Indivíduo Provedor Ind. Prov. Ind. Prov. Ind. Prov.
1 C 11 C 21 B 31 A
2 A 12 A 22 A 32 A
3 B 13 B 23 A 33 B
4 B 14 D 24 B 34 C
5 C 15 A 25 A 35 B
6 B 16 B 26 A 36 D
7 D 17 B 27 B 37 B
8 B 18 C 28 D 38 B
9 B 19 D 29 D 39 B
10 A 20 B 30 C 40 C
Então geramos uma tabela de frequências para facilitar a análise dos dados:
Tabela 4 – Frequência de indivíduos por provedor
Provedores Frequência
simples
Porcentagem
A 10 25,0
B 17 42,5
C 7 17,5
D 6 15,0
Total 40 100,0
#------------------------------------------------------------------------------------------------------
No R:
provedores=c("C","A","B","B","C","B","D","B","B","A","C","A","B","D","A","B","
B","C","D","B","B","A","A","B","A","A","B","D","D","C","A","A","B","C","B","D"
,"B","B","B","C")
table(provedores)
#---------------------------------------------------------------------------------------------------
Gráficos
Um gráfico é uma representação de dados obtidos nos experimentos na forma
de figuras geométricas (diagramas, desenhos, figuras ou imagens) de modo a fornecer
ao leitor uma interpretação de forma mais rápida e objetiva. Existem gráficos
adequados para representação de variáveis qualitativas, para variáveis quantitativas
discretas e para variáveis quantitativas contínuas.
8
Variáveis qualitativas
São aquelas cujos possíveis resultados são observados na forma de categorias.
Para este tipo de dados podemos obter os seguintes gráficos:
Gráficos de Colunas
Gráficos de Barras, e
Gráficos de Setores
Gráficos de Colunas
O gráfico de colunas é composto por dois eixos, um vertical e outro
horizontal. No eixo horizontal são construídas as colunas que representam a variação
de um fenômeno ou de um processo de acordo com sua intensidade. Essa intensidade
é indicada pelo eixo vertical. As colunas devem sempre possuir a mesma largura e a
distância entre elas deve ser constante.
Para geração dos gráficos desta seção podemos utilizar o gráfico do exemplo
acima
Tabela 5 – Consoles e seus respectivos
preços de mercado
Consoles Preços
Playstation 2 R$ 350
PSP R$ 450
Nintendo Wii R$ 650
Xbox 360 R$ 1.199
Playstation 3 R$ 1.099
Nintendo DS R$ 800
Nintendo 3DS R$ 1.149
PSVita R$ 750
Nintendo WiiU R$ 1.899
Playstation 4 R$ 2.999
Xbox One R$ 2.199
O gráfico de colunas para estes dados será:
9
#------------------------------------------------------------------------------------------------------ No R:
consoles = c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360",
"Playstation 3", "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU",
“Playstation 4", "Xbox One")
preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)
barplot(preços, xlab="Consoles", ylab="Preços", main="Preços dos consoles mais
vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",
“green4", "blue", "orange", "pink"), ylim=c(0,3000))
Onde:
Xlab define o rótulo do eixo x
Ylab define o rótulo do eixo y
Main define o título do gráfico
Ylim define o valor inicial e final do eixo y
Col define as cores que serão utilizadas nas colunas do gráfico
legend("topleft", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",
"red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",
"pink"))
#Esta função gera uma legenda para o gráfico, porém também é possível utilizar a
#função legend.text dentro da função barplot.
#----------------------------------------------------------------------------------------------------
Gráficos de Barras
O gráfico de barras é composto por dois eixos, um vertical e outro horizontal.
No eixo vertical são construídas as barras que representam a variação de um
fenômeno ou de um processo de acordo com sua intensidade.
Utilizando o mesmo exemplo temos o seguinte gráfico de barras:
10
#------------------------------------------------------------------------------------------------------
No R:
#mesma função do gráfico de colunas, porém acrescenta-se o argumento horiz=TRUE
#e modifica-se os nomes e limites (se houverem) dos eixos.
consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",
"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox
One")
preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)
barplot(preços, xlab="Preços", ylab="Consoles", main="Preços dos consoles mais
vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",
"green4", "blue", "orange", "pink"),xlim=c(0,3000), horiz=TRUE)
legend("right", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",
"red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",
"pink"))
#------------------------------------------------------------------------------------------------------
Gráficos de Setores
Os gráficos de setor (ou pizza) são representados por círculos divididos
proporcionalmente de acordo com os dados do fenômeno ou do processo a ser
representado. Os valores são expressos em números ou em porcentagens
Utilizando a tabela de consoles e vendas abaixo, podemos gerar
um gráfico de setores
Tabela 6 – Principais consoles e a quantidade de aparelhos vendidos
Consoles Aparelhos vendidos (milhões)
Playstation 2 157,68
PSP 80,14
Nintendo Wii 100,41
Xbox 360 79,00
Playstation 3 80,50
Nintendo DS 154,80
Nintendo 3DS 36,56
PSVita 6,15
Nintendo WiiU 3,90
Playstation 4 7,00
Xbox One 5,00
O gráfico gerado será:
11
#----------------------------------------------------------------------------------------------------
No R:
consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",
"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox
One")
vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15, 3.90,7.00, 5.00)
names(vendas)=consoles
porc<-round(vendas*100/sum(vendas),2) Gera os percentuais de vendas em relação ao total para cada um dos consoles
rotulos<-paste("(",porc,"%)",sep="") Gera os rótulos do gráficos a partir dos percentuais
pie(vendas, main="Consoles e suas respectivas
vendas",labels=rotulos,col=rainbow(11))
legend("bottomleft",1,names(vendas),col = rainbow(11),pch=rep(20,6))
#------------------------------------------------------------------------------------------------
Variáveis Quantitativas
Uma variável é dita quantitativa quando os possíveis resultados são números
em certa escala. As variáveis quantitativas podem ser discretas ou contínuas.
Variáveis Discretas
Descrevem características mensuráveis que podem assumir apenas um número
finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros.
Geralmente são o resultado de contagens. Exemplos: número de filhos, número de
defeitos em uma peça, número de cigarros fumados por dia.
12
A distribuição de frequências e gráficos de variáveis discretas podem ser feitos
de maneira análoga às variáveis qualitativas.
Variáveis Contínuas
Descrevem características mensuráveis que assumem valores em uma escala
contínua (na reta real), para as quais valores fracionais fazem sentido. Podemos
Histograma
O histograma é a forma mais usual de apresentação de distribuições de
freqüências de variáveis contínuas.
Os dados a seguir representam o tempo (em segundos) para carga de um
aplicativo, num sistema compartilhado:
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3
5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1
4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1
5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
O histograma será:
#-----------------------------------------------------------------------------------------------------
No R:
tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,
7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,
6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)
hist(tempo, ylim=c(0,20))
#------------------------------------------------------------------------------------------------------
13
Diagrama de Pontos
Uma forma simples de visualizar como poucas observações se distribuem,
onde cada valor é representado como um ponto na reta de números reais.
Para os dados utilizados no histograma, temos o seguinte diagrama de pontos
#------------------------------------------------------------------------------------------------------
No R:
tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,
7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,
6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)
plot(tempo, xlab="", main="Tempos para carga de um aplicativo, num sistema
compartilhado")
#------------------------------------------------------------------------------------------------------
Diagrama ramo-e-folhas
Consiste em apresentar os dados separando os primeiros dígitos, os quais
formarão os ramos, e os demais dígitos, que formarão as folhas.
Para os mesmos dados utilizados no exemplo acima temos o seguinte gráfico
ramos-e-folhas:
14
#------------------------------------------------------------------------------------------------------ No R:
tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,
7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,
6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)
stem(tempo)
#-----------------------------------------------------------------------------------------------------
Diagrama em caixa (Boxplot)
O diagrama de caixas, ou boxplot, é uma representação gráfica para os
conceitos de separatrizes. Trata-se de um retângulo que representa o desvio
interquartílico. Esse retângulo representa, portanto, a faixa dos 50% dos valores mais
típicos da distribuição. O retângulo é dividido no valor correspondente a mediana;
assim, ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os
extremos, são traçadas linhas. Caso existam valores discrepantes, a linha é traçada até
o ultimo valor não discrepante, e os valores discrepantes são indicados por pontos.
Para o exemplo dos tempos de carga de um aplicativo, temos o seguinte
boxplot:
#----------------------------------------------------------------------------------------------------
No R:
tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,
7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,
6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)
boxplot(tempo,main="Tempos para carga de um aplicativo, num sistema
compartilhado")
#------------------------------------------------------------------------------------------------------
68
10
12
14
Tempos para carga de um aplicativo,
num sistema compartilhado
15
3. MEDIDAS DE POSIÇÃO
Média Aritmética
Média Populacional - A média aritmética populacional é dada pela soma de
todos os elementos da população, dividida pelo numero de elementos da população.
Para elementos x1, x2, ..., xn, e número de elementos na população igual à N, temos:
∑
Média Amostral - A média aritmética amostral é dada pela soma de todos os
elementos da amostragem, dividida pelo numero de elementos da amostra. Para
elementos x1, x2, ... , xn, e número de elementos da amostra igual à n, temos:
∑
As propriedades da média temos:
1.A soma algébrica dos desvios em relação à média é nula;
2.Se todos os valores de uma variável forem subtraídos ou adicionados à uma
constante k, a média do conjunto fica adicionada (ou subtraída) dessa constante;
3.Se todos os valores de uma variável forem multiplicados ou divididos por uma
constante k, a média fica multiplicada ou dividida por essa constante.
Foram coletadas o número de defeitos encontrados em placas de circuito
integrado, como se verifica na tabela de frequências abaixo:
Tabela 7– Número de defeitos em placas de circuito Número de defeitos Frequência simples
0 30
1 25
2 10
3 5
4 2
A média amostral de defeitos será:
∑
( ) ( ) ( ) ( ) ( )
#-----------------------------------------------------------------------------------------------------
No R:
Defeitos=c(0,0,0,...,1,1,...,2,2,...,3,3,...,4,4)
mean(Defeitos)
#---------------------------------------------------------------------------------------------------
16
Mediana
É uma medida de tendência central, que indica o elemento central de um
conjunto de dados. Para se encontrar a mediana, primeiramente é necessário ordenar
os elementos em ordem crescente. Depois de feito isto, a mediana será calculada da
seguinte forma:
Utilizando os dados da tabela 7 temos: Número de defeitos encontrados
em placas de circuito integrado,
Então, como n é par (n=72) temos como mediana o seguinte:
e
O 36º e 37º elemento são iguais à 1, logo:
#-----------------------------------------------------------------------------------------------------
No R:
median (Defeitos)
#-----------------------------------------------------------------------------------------------------
MODA
A moda de um conjunto é o elemento que ocorre com maior frequência.
Para o exemplo 1 temos as seguintes frequências:
0 – aparece 30 vezes
1 – aparece 25 vezes
2 – aparece 10 vezes
3 – aparece 5 vezes
4 – aparece 2 vez
A moda será o elemento 0, que ocorreu 30 vezes.
Se n for par:
A mediana será a média
aritmética dos elementos nas
posições: 𝑛
e
𝑛
Se n for ímpar:
A mediana será o
elemento na posição: (𝑛+ )
17
#------------------------------------------------------------------------------------------------
No R:
table(Defeitos)
which(table(Defeitos)==max(table(Defeitos)))
#-----------------------------------------------------------------------------------------------
Esta função imprime a frequência com que ocorre cada elemento do conjunto. E com
isso é possível verificar qual ocorreu mais vezes. Nesta é impresso diretamente o
elemento que ocorreu com maior frequência
4. MEDIDAS DE DISPERSÃO
São medidas que tem como função avaliar o grau de variabilidade de um
conjunto de dados, o quanto estes distam do valor central. As principais medidas de
dispersão são: amplitude, variância e desvio padrão.
Amplitude
É a diferença entre o maior e o menor valor de um conjunto de dados.
Matematicamente:
( ) ( )
Para os dados da tabela 7, que analisa o número de defeitos em placas de
circuito integrado temos:
A amplitude para este conjunto de dados será:
( )
( )
#-----------------------------------------------------------------------------------------------
No R:
min(Defeitos) # encontra o valor mínimo do conjunto de dados “Defeitos”.
max(Defeitos) # encontra o valor máximo do conjunto de dados “Defeitos”.
( ) ( ) #----------------------------------------------------------------------------------------------------
A função “range (Defeitos)” exibe os valores máximo e mínimo do conjunto
de dados Defeitos, porém não calcula a amplitude.
Variância
É definida como a média aritmética dos desvios quadráticos. Esta medida
fornece informações complementares à informação contida na média aritmética. Ela
avalia a dispersão do conjunto de valores em análise.
18
Matematicamente:
Variância amostral: Variância Populacional:
∑ ( )
∑ ( )
A variância dos defeitos encontrados nas peças de circuito integrado será:
∑ ( )
*, ( ) - , ( ) -
, ( ) - , ( ) - , ( ) -+
#------------------------------------------------------------------------------------------------------
No R
var(Defeitos)
#-----------------------------------------------------------------------------------------------------
Desvio padrão
Assim como a variância, essa medida também serve de auxílio para análise da
média aritmética. Como a variância de um conjunto de dados é calculada em função
dos desvios quadráticos, sua unidade de medida equivale à unidade de medida dos
dados ao quadrado. Nesse contexto, é mais comum trabalhar com a raiz quadrada
positiva da variância, que nada mais é que o desvio padrão.
Matematicamente:
Desvio padrão Amostral: Desvio padrão Populacional:
√
∑ ( )
√
∑ ( )
As propriedades abaixo cabem tanto para o desvio padrão quanto para a variância:
1.Somando-se ou subtraindo-se uma constante k do conjunto de dados, o desvio
padrão não se altera;
2.Dividindo-se ou multiplicando-se o conjunto de dados por uma constante k, o
desvio padrão fica dividido ou multiplicado por k;
O desvio padrão para o conjunto de dados número de defeitos será:
√
∑( )
√
{, ( ) - , ( ) - , ( ) -
, ( ) - , ( ) -}
√
19
#------------------------------------------------------------------------------------------------------
No R:
sd(Defeitos)
#------------------------------------------------------------------------------------------------------
Coeficiente de Variação
Esta medida é empregada para estimar a precisão de experimentos e representa
o desvio-padrão expresso como porcentagem da média. Sua principal qualidade é a
capacidade de comparação de distribuições diferentes. É obtida pela razão entre o
desvio padrão e a média, esta medida ainda pode ser multiplicada, e neste caso o
coeficiente de variação está expresso em percentagem.
O coeficiente de variação do número de defeitos será:
#------------------------------------------------------------------------------------------------------
No R:
Cv=[sd(Defeitos)/mean(Defeitos)]*100 #------------------------------------------------------------------------------------------------------
5. SEPARATRIZES
As separatrizes não são medidas de tendência central, mas estão ligadas à
mediana relativamente à sua característica de separar a série em duas partes que
apresentam o mesmo número de valores. Essas medidas são: os quartis, os decis e os
percentis.
Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes
iguais. Precisamos, portanto de 3 quartis (Q1, Q2 e Q3) para dividir a série em quatro
partes iguais, de forma que: o primeiro quartil, ou quartil inferior (Q1) será o valor que
delimita os 25% menores valores; o quartil superior, ou terceiro quartil (Q3) será o
valor que separa os 25% maiores valores; e o segundo quartil, ou quartil do meio (Q2)
sempre será a própria mediana, isto é, o valor que separa os 50% menores dos 50%
maiores valores, como pode ser verificado na imagem abaixo:
20
Para calcularmos os 3 quartis utilizamos as seguintes fórmulas:
Dados não-agrupados:
1ºQuartil 2ºQuartil (mediana) 3ºQuartil
+
+
( + )
Dados agrupados:
( )
Onde: Qi: Quartil i (1,2,3);
Ii: limite inferior da classe que contém o quartil;
n: número de elementos da série (Σfi);
F(ant): freqüência acumulada da classe anterior à classe que
contém o quartil;
fi: freqüência simples da classe que contém o quartil;
h: amplitude do intervalo da classe mediana.
Decis
Obedecem ao mesmo princípio dos quartis, com a diferença de que os decis
dividem a série em dez partes iguais de 10%. Lembrando que o quinto decil é sempre
igual a mediana.
Para calcularmos os decis utilizamos as seguintes fórmulas:
Dados não agrupados: ( + )
Onde:
i: é o decil que se deseja calcular ( * +); n: é o número de elementos da amostra.
21
Dados-agrupados:
( )
Onde: Di: Decil i (1,2,3,...,10);
Ii: limite inferior da classe que contém o decil;
n: número de elementos da série (Σfi);
F(ant): frequência acumulada da classe anterior à classe que
contém o decil;
fi: frequência simples da classe que contém o decil;
h: amplitude do intervalo da classe mediana.
5.3 PERCENTIS
Dividem um conjunto de dados em 100 partes iguais de 1%. O 50º percentil
(P50) é sempre igual à mediana. Para calcularmos os percentis, utilizamos as
seguintes fórmulas:
Dados não agrupados: ( + )
Onde:
i: é o percentil que se deseja calcular ( * +); n: é o número de elementos da amostra.
Dados agrupados:
( )
Onde:
Pi: Percentil i (1,2,3,...,99);
Ii: limite inferior da classe que contém o percentil;
n: número de elementos da série (Σfi);
F(ant): frequência acumulada da classe anterior à classe que
contém o percentil;
fi: frequência simples da classe que contém o percentil;
h: amplitude do intervalo da classe mediana. OBS: Quando os resultados das operações acima são fracionários, fazemos
uma interpolação linear com os valores de posições vizinhas ao resultado da fração.
( + )
Onde:
X: é o valor que representa o quartil;
Xi: é o valor que está na posição i;
i: é a parte inteira do resultado da fração;
f: é a parte fracionária do resultado da fração, e;
Xi+1: é o valor que está na posição i+1.
Os dados a seguir representam o tempo (em segundos) para carga de um
aplicativo, num sistema compartilhado:
22
Dados não agrupados:
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3
5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1
4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1
5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
solução:
Rol: Primeiramente ordenamos os dados:
4.7 4.8 4.8 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.1 5.1 5.2
5.3 5.4 5.4 5.4 5.5 5.6 5.6 5.7 5.7 5.7 5.7 5.9 6.0
6.0 6.2 6.2 6.2 6.3 6.3 6.4 6.5 6.7 6.8 6.8 6.9 7.0
7.1 7.3 7.3 8.2 8.2 8.3 8.4 8.9 9.1 9.9 14.1
Então calculamos os quartis:
( + ) ( ) ( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
Decis:
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
23
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
Percentis:
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
( )
( )
( + ) ( ) ( )
Dados Agrupados:
A seguir a tabela 8 dos dados agrupados com intervalos de classes:
24
Tabela 8 - Tempo (segundos) para carga de um aplicativo Classes Frequência Fac (Freq. Acumulada)
4 |-- 5 7 7 5 |-- 6 18 25 6 |-- 7 13 38 7 |-- 8 4 42 8 |-- 9 5 47
9 |-- 10 2 49 10 |-- 11 0 49 11 |-- 12 0 49 12 |-- 13 0 49 13 |-- 14 0 49 14 |-- 15 1 50
Solução:
Quartis:
Decis:
Percentis:
25
Observe que alguns valores são iguais, como por exemplo, Q2, D5 e P50, isto
porque os três valores representam a mediana, a seguir temos algumas igualdades
interessantes:
#------------------------------------------------------------------------------------------------------
No R:
quantile (dados, x, type=6)
#------------------------------------------------------------------------------------------------------
Onde: x: o percentual que se deseja encontrar, por exemplo, para o primeiro
quartil, x será 0.25; segundo quartil, x será 0.50; dados: é um determinado conjunto
de dados.
6. MODELOS PROBABILÍSTICOS DISCRETOS
Antes de introduzirmos as principais distribuições discretas, é necessário
ressaltar um importante conceito da estatística indutiva, as variáveis aleatórias. Uma
variável aleatória pode ser uma variável quantitativa cujo resultado depende de fatores
aleatórios, como por exemplo, o lançamento de um dado, ou então o número de
coroas obtido no lançamento de duas moedas. Essas variáveis aleatórias podem ser
discretas ou contínuas, as que serão abordadas neste tópico serão as variáveis
aleatórias discretas, que são as variáveis em que seus possíveis resultados estão
contidos em um conjunto finito ou enumerável.
26
Distribuição de probabilidade
A distribuição de probabilidades de uma variável aleatória é a descrição do
conjunto de probabilidades associadas aos possíveis valores de , como por exemplo:
a distribuição de probabilidades para o lançamento de um dado será:
Valores Possíveis X Probabilidades
P(X)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
Total 1
Distribuição Binomial
A distribuição binomial nada mais é que a realização de n ensaios de
Bernoulli. Um ensaio de Bernoulli visa observar a presença ou não de uma
determinada característica em uma tentativa, ou seja, se houve sucesso ou fracasso.
Ensaio de Bernoulli caracteriza-se por uma variável aleatória , definida por ,
se sucesso, e , se fracasso. Com isso, temos a distribuição de probabilidades de
:
X P(X)
0 1-p
1 P
Total 1
Portanto a distribuição binomial trata de eventos independentes entre si, em
que a cada evento (tentativa), nada mais é que um ensaio de Bernoulli.
Para se realizar o cálculo da probabilidade do evento , onde é um
valor possível da variável aleatória , é necessário conhecer o número de maneiras
em que podemos combinar os sucessos entre ensaios. Este valor é o coeficiente
binomial, e entra no cálculo da probabilidade como um coeficiente das potências de
e . Este coeficiente é dado pela seguinte fórmula:
.
/
( )
E a expressão geral para o cálculo da probabilidade do evento é dada pela
fórmula:
( ) .
/ ( )
Valor Esperado e Variância:
( )
( ) ( )
27
Dados históricos mostram que 5% dos itens provindos de um fornecedor
apresentam um tipo de defeito (p). Considerando um lote com 20 itens,
calcular a probabilidade de:
a) haver exatamente três defeitos:
( )
( ) ( ) ( )
( ) ( )
b) haver mais de dois itens defeituosos:
( )
( ) ( ) ( )
( ) ( ) ( ) ( ) ( ( ) ( ) ( ))
[(
( ) ( ) )
(
( ) ( ) )
(
( ) ( ) )]
, -
c) Haver menos de 4 itens com defeito:
( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
[(
( ) ( ) )
(
( ) ( ) )
(
( ) ( ) )
(
( ) ( ) )]
, -
#-----------------------------------------------------------------------------------------------------
No R:
( ) # para calcular a probabilidade para um único
( ) #calcula a probabilidade por exemplo,
#se , irá calcular ( ) ( ) ( )
28
Onde:
é um valor possível da variável aleatória ,
é o número de elementos
é a probabilidade de sucesso
#Para o exemplo acima, a resolução no R seria:
( )
( )
( ) #ou
( ) ( )
#-------------------------------------------------------------------------------------------------
Distribuição de Poisson
A distribuição de Poisson expressa a probabilidade de um tipo de evento por
unidade de tempo, de comprimento, de área, ou de volume, sendo que os eventos em
questão devem ser independentes de quando ocorreu o último evento
O cálculo da probabilidade se dá pela seguinte fórmula:
( )
Onde é a taxa média de consultas por unidade de tempo.
E o valor esperado:
( ) ( )
Também é possível utilizarmos a distribuição de Poisson nos casos em que os
experimentos binomiais possuem um n muito grande e p for pequeno, é possível
utilizar a distribuição de Poisson com:
Supondo que as consultas num banco de dados ocorrem de forma
independente e aleatória, com taxa média de 4 consultas por minuto.
a) Calcule que no próximo minuto ocorram menos do que 3 consultas.
( )
( ) ( ) ( ) ( )
b) Calcule que no próximo dois minutos ocorram mais de 5 consultas.
( )
( ) ( ) ( ) ( ) ( )
, ( ) ( ) ( ) ( ) ( ) ( )- 0
1 ,
-
29
c) Calcule que no próximo dois minutos ocorram exatamente 3 consultas.
( )
( )
#-----------------------------------------------------------------------------------------------------
No R:
( ) # para calcular a probabilidade para um único x
( ) #calcula a probabilidade de forma acumulativa, por exemplo,
# se , irá calcular ( ) ( ) ( )
#Logo, a resolução no R para o exemplo acima será:
( )
( )
( ) #------------------------------------------------------------------------------------------------------
7. MODELOS PROBABILÍSTICOS CONTÍNUOS
Os modelos probabilísticos têm como função descrever fenômenos físicos, no
caso dos modelos contínuos, descreverem fenômenos que são representados por
variáveis contínuas, ou em outros casos, também são utilizados para variáveis
discretas, quando a amostra é muito grande. Antes de apresentarmos os modelos
contínuos, trataremos um pouco das variáveis aleatórias contínuas.
Variáveis Aleatórias Contínuas
As variáveis aleatórias contínuas são variáveis definidas sobre um intervalo
infinito e não enumerável, ou seja, são variáveis que possuem valores definidos em
intervalos reais. Alguns exemplos: tempo de resposta de um sistema operacional,
rendimento de um processo químico, tempo de vida de um componente eletrônico,
entre outros.
Distribuição Uniforme
É a distribuição contínua mais simples, e é definida como: “Uma variável
aleatória tem como distribuição uniforme de parâmetros e , sendo , se
sua densidade é especificada por:
( ) {
, -
, -
E sua distribuição acumulada é dada por:
30
( ) {
O valor esperado e a variância de uma distribuição uniforme são:
( )
( ) ( )
A ocorrência de panes em uma rede telefônica de 6 km é modelada por uma
distribuição Uniforme. Com Base nisto, calcule:
Intervalo: [0, 6]
a) E(x)=?
( )
b) V(x)=?
( ) ( )
( )
( )
c) Probabilidade de ocorrer panes no primeiro quilômetro:
( ) ∫ ( )
( ) ( )
d)Probabilidade de ocorrer pane entre os quilômetros 3 e 5:
( ) ∫ ( )
( ) ( )
e)Probabilidade de ocorrer pane acima do quilômetro 4:
( ) ∫ ( )
( ) ( )
#-----------------------------------------------------------------------------------------------------
No R:
( )
( )
( ) ( )
( ) #------------------------------------------------------------------------------------------------------
31
Distribuição Exponencial
Esta distribuição possui relação com o modelo discreto de Poisson. A
distribuição de Poisson modela o número de ocorrências em um período contínuo de
tempo ou de comprimento, já a distribuição exponencial modela a variável aleatória
que representa esses períodos contínuos.
Uma variável aleatória contínua tem distribuição exponencial com
parâmetro , se sua função de densidade de probabilidade é representada por:
( )
Desta forma função de distribuição é:
( )
Valor Esperado e a Variância são:
( )
( )
Para uma variável T, que é o tempo de resposta em um banco de dados, com
função densidade de probabilidade:
( ) ( )
Calcule a probabilidade, em vista que , do tempo de resposta ser:
a)Menor que 2 minutos:
( ) ( )
b)Entre 1 e 2 minutos:
( ) ( ) ( ) , - , - , - , - , - , -
c)Maior que 3 minutos:
( ) ( ) [ ] , - , -
, -
#------------------------------------------------------------------------------------------------------
No R:
( )
#Onde:
é o valor da variável aleatória
# é o parâmetro da distribuição
32
#Para o exemplo acima, as funções utilizadas foram:
( )
( ) ( )
( )
#------------------------------------------------------------------------------------------------------
Distribuição Normal
Também conhecida como distribuição de Gauss, a distribuição normal é uma
das mais importantes na estatística, pois permite modelar uma finalidade de
fenômenos naturais, e possui uma vasta aplicação, seja na realização de aproximações
para calcular probabilidades de variáveis aleatórias com outras distribuições e número
de observações grande ou então na inferência estatística. A função de probabilidade
de uma distribuição normal é caracterizada graficamente por uma curva com forma de
sino, como pode ser verificado na figura abaixo:
Fonte: Portal Action (www.portalaction.com.br)
A função densidade de probabilidade da distribuição normal, para uma
variável aleatória contínua de parâmetros é:
( )
√
.
/
O valor esperado e a variância serão:
( )
( )
Para uma variável aleatória de distribuição normal denotamos ( ).
Para simplificar cálculos, esta variável é transformada em uma forma
padronizada com distribuição ( ). Essa padronização é a distribuição normal
padrão, a qual é tabelada, e é definida por:
Qualquer área (probabilidade) sob a densidade de pode ser representada sob
a densidade de , como visto no gráfico abaixo:
33
Fonte: BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e
Informática. Atlas, 2004.
Tabela de distribuição normal padrão
As probabilidades de uma variável com distribuição normal podem ser
representadas por áreas sob a curva da distribuição normal padrão. Desta forma, ao
utilizarmos a fórmula #, obtém-se um valor , que será encontrado na tabela abaixo,
para obter-se a área (probabilidade) sob a cauda superior à curva.
Na tabela, os valores são representados por duas decimais. A primeira
decimal fica na coluna da esquerda e a segunda decimal na linha do topo da tabela.
O tempo para um sistema computacional execute determinada tarefa é uma
variável aleatória com distribuição normal, com média de 220 segundos e desvio
padrão de 10 segundos.
a)Qual a probabilidade da tarefa ser executada entre 210 e 230 segundos?
Encontramos os valores de Z para x=210 e x=230
Então, calculados os valores de Z, procuramos os mesmos na tabela, olhando
na coluna esquerda, a na linha do topo, desta forma encontramos:
Então, por fim, calculamos a probabilidade da seguinte forma:
( )
( ) , ( ) ( )- , -
34
b)Qual a probabilidade da tarefa ser executada em menos 240 segundos?
( ) ( ) , ( )-
c) Qual a probabilidade da tarefa ser executada com mais de 200 segundos?
( ) ( ) , ( )-
35
Aproximação normal à binomial e normal à Poisson
Com base no Teorema Do Limite Central, que diz que, "toda soma de
variáveis aleatórias independentes de média finita e variância limitada é
aproximadamente Normal, desde que o número de termos da soma seja
suficientemente grande", é possível utilizar a distribuição normal para calcular
probabilidades das distribuições Binomial e Poisson.
Distribuição Binomial
Quando n for muito grande e p não tão próximo de 0 e 1, podemos utilizar a
distribuição normal, de forma que e são definidas por:
√ ( )
De um lote de produtos manufaturados, extrai-se 100 itens ao acaso. Se 10 %
dos itens do lote são defeituosos, calcular a probabilidade de:
a) menos de 12 itens serem defeituosos?
√ ( ) √ ( ) √ √
( ) ( ) , ( )-
b) mais que 6 itens serem defeituosos?
√ ( ) √ ( ) √ √
( ) ( ) , ( )-
Distribuição Poisson
Quando for muito grande, a distribuição normal pode ser aplicada em
variáveis com distribuição de Poisson. Os parâmetros e são definidos por:
√
36
Uma empresa de auxílio à lista telefônica recebe, em média, sete solicitações
por minuto, segundo a distribuição de Poisson. Qual a probabilidade de ocorrer:
a)no mínimo 10 e no máximo 13 solicitações em 10 minutos?
√ √
( ) ?
( ) ( ) ( )
b) menos de 5 solicitações em 10 minutos?
√ √
( ) ( )
#------------------------------------------------------------------------------------------------------
No R:
( )
# Se for unilateral à esquerda ( ), lower.tail=TRUE
# Se for unilateral à direita ( ), lower.tail=FALSE
#Para os casos bilaterais utiliza-se:
( ) ( ) #-----------------------------------------------------------------------------------------------------
8. INTRODUÇÃO A CADEIA DE MARKOV
Processos estocásticos são processos que apresentam resultados aleatórios,
imprevisíveis, e fazem parte da análise de probabilidades. Um dos modelos que
melhor explica estes processos são as cadeias de Markov.
Cadeias de Markov
Uma cadeia de Markov pode ser definida como uma seqüência de estados
denotados por . O processo se inicia em um desses estados denominado
, e move-se para outro estado , com probabilidade , sendo que esta
37
probabilidade não depende das situações (estados) anteriores, e sim do estado atual. A
probabilidade é denominada probabilidade de transição.
Essas probabilidades de transição são agrupadas em uma matriz, denominada
matriz de transições.
Para que o conceito se torne mais claro, a seguir temos um exemplo:
Os hábitos de estudo de um estudante são os seguintes: se estuda uma noite,
tem de certeza que não estudará na noite seguinte. Em contrapartida, se não
estuda uma noite, tem de certeza de que não estudará também na noite seguinte.
Tabela 9 - Probabilidades de transição dos hábitos de estudo de um estudante
Probabilidades de transição
Estudar (S) Não estudar (T)
Estudar (S)
Não estudar (T)
Considerando as informações dadas e considerando que a probabilidade total,
ou seja, a soma da probabilidade de estudar ou não estudar é , preenchemos a
tabela com as seguintes probabilidades.
A partir desta tabela obtemos a matriz de transições descrita abaixo:
A partir desta matriz, é possível realizarmos análises diversas, essas análises
de forma geral são baseadas em um período de tempo discreto, por exemplo:
Qual a probabilidade de que o estudante estude nas próximas três noites? Ou,
qual a probabilidade de o aluno não estudar nos próximos cinco dias? Ou ainda: Com
que frequência o aluno estuda numa sequência suficientemente grande de dias?
Antes de resolvermos as questões acima introduziremos mais alguns conceitos
e propriedades.
Vetor fixo:
Uma cadeia de Markov possui um vetor fixo se esta for uma cadeia de Markov
regular. Isto quer dizer que, se uma cadeia de Markov é regular, esta possui um vetor
que é ponto fixo o qual para qualquer escolha o vetor ( ) converge a
conforme aumenta.
Vetor de probabilidade inicial : é um vetor que contém as probabilidades
iniciais de uma determinada situação, seguindo o exemplo do estudante tratado acima
podemos considerar como uma distribuição de probabilidade inicial o fato do
estudante ter de chance de estudar no primeiro dia e de chance de não
estudar no primeiro dia. Logo, a distribuição será: ( ).
38
Vetor de probabilidades dos dias subsequentes: é dada pela multiplicação do
vetor de probabilidade inicial pela matriz de transição no dia , isto é, .
Matriz de Transição de passo n: É representada por , em que se nada
mais é que a matriz de transições. E se obtém-se a matriz através da
multiplicação das matrizes de transições, por exemplo, para encontrarmos a matriz de
transições de passo 4, multiplicamos .
Para entendermos melhor a aplicação de cadeias de Markov consideramos a
seguinte situação: ao jogarmos um dado pela primeira vez, a probabilidade para cada
face é de ⁄ , ao jogarmos este dado pela décima vez, a probabilidade continua a
mesma. Agora se considerarmos um jogador de futebol em uma partida, ao cobrar um
pênalti ele tem determinada probabilidade de acerto e de erro na primeira cobrança,
dependendo do resultado, acerto ou erro, a probabilidade para a segunda cobrança
será diferente, pois ao errar o jogador perde confiança e ao acertar, ganha.
Verifique se o vetor (
) é um vetor de probabilidade?
Um vetor de probabilidade não pode conter elementos negativos, logo o vetor
dado não é um vetor de probabilidades.
Considere a matriz 0
1. Então o vetor ( ) é um ponto fixo de
.
O vetor é ponto fixo de , pois , como verificado abaixo:
( ) 0
1 ( )
#------------------------------------------------------------------------------------------------------
No R:
mtrans=c(2, 2, 1, 3)
P1=matrix(mtrans, ncol=2)
P1
dprob=c(2, -1)
p0=matrix(dprob, nrow=1)
p0
# u*A = u
M=p0%*%P1
M
#------------------------------------------------------------------------------------------------------
Pelo teorema, qualquer escalar
, temos ( ) ( ) . Demonstre numericamente que o vetor
39
2 , são pontos fixo de . Determine um vetor fixo de probabilidade, da
matriz estocástica regular
[
⁄
⁄]
Para determinarmos um vetor fixo de probabilidades , temos que ter em
mente que por se tratar de um vetor de probabilidades, a soma de seus componentes
deve ser . Desta forma, temos que ( ) e que ( ) .
Então realizamos a multiplicação dada pela fórmula:
( ) [
⁄
⁄] ( )
Multiplicando:
⁄
⁄ ⁄ ⁄
⁄ ⁄
⁄
⁄
⁄
⁄
⁄ ⁄
⁄
⁄
⁄ ⁄
⁄ ⁄
Vetor de probabilidades ( ⁄ ⁄ )
Para comprovarmos o teorema descrito no enunciado basta multiplicarmos
pela matriz A.
( ⁄ ⁄ ) [
⁄
⁄] ( ⁄ ⁄ ) [
⁄
⁄] ( ⁄ ⁄ )
( ⁄ ⁄ ) [
⁄
⁄] ( ) [
⁄
⁄] ( )
( ⁄ ⁄ ) [
⁄
⁄] . ⁄
⁄ / [
⁄
⁄] . ⁄
⁄ /
#------------------------------------------------------------------------------------------------------
No R:
mtrans=c(0, 1/2, 1, 1/2)
P1=matrix(mtrans, ncol=2)
P1
dprob=c(1/3, 2/3)
40
p0=matrix(dprob, nrow=1)
p0
# 2u*A = u
M1=(2*p0)%*%P1
M1
# 3u*A = u
M2=(3*p0)%*%P1
M2
# 5u*A = u
M3=(5*p0)%*%P1
M3
#------------------------------------------------------------------------------------------------------
Os hábitos de estudo de um estudante são os seguintes: se estuda uma noite, tem
de certeza que não estudará na noite seguinte. Em contrapartida, se não estuda uma
noite, tem de certeza de que não estudará também na noite seguinte.
a) Encontre a matriz de transição:
b) Com que frequência o aluno estuda numa sequência suficientemente
grande de dias?
Obtemos esta informação através do vetor fixo de probabilidades, para tenato
encontramos este através da fórmula
( ) [
⁄
⁄] ( )
Multiplicando:
⁄
⁄
Vetor de probabilidades . ⁄ ⁄ /
O aluno estuda ⁄ vezes
Dada a matriz de transição [
⁄
⁄
⁄
⁄
], e a distribuição de
probabilidade inicial (
). Determine:
( ),
( ) ,
( ).
41
[
⁄
⁄
⁄
⁄
] [
⁄
⁄
⁄
⁄
]
[
⁄
⁄
⁄
⁄
⁄
⁄
⁄ ]
( )
⁄
( )
[
⁄
⁄
⁄
⁄
⁄
⁄
⁄ ]
[
⁄
⁄
⁄
⁄
⁄
⁄
⁄ ]
[
⁄ ⁄
⁄
⁄
⁄ ⁄
⁄
⁄ ⁄ ]
(
)
[
⁄ ⁄
⁄
⁄
⁄ ⁄
⁄
⁄ ⁄ ]
(
)
( )
#------------------------------------------------------------------------------------------------------
No R:
mtrans=c(0, 0.5, 0, 0.5, 0.5, 1, 0.5, 0, 0)
M1=matrix(mtrans, nrow=3, ncol=3)
M1
dprobp0=c((2/3), 0, (1/3))
M2=matrix(dprobp0, nrow=1, ncol=3)
M2
# p(2) 3,2
p2=M1%*%M1; p2;
p232=p2[3,2]; p232
# p(2) 1,3
p2=M1%*%M1; p2;
p213=p2[1,3]; p213
#P4
P4=p2%*%p2
P4
#p4 p0*P4
p4=M2%*%P4
p43=p4[1,3]; p43
#----------------------------------------------------------------------------------------------------
42
9. INFERÊNCIA ESTATÍSTICA:
Distribuição Amostral e Intervalo de Confiança
A inferência estatística é o ramo da estatística que visa apresentar resultados
sobre uma população baseando-se em amostras. Dentre os vários mecanismos para
apresentar tais resultados, temos os Intervalos de Confiança.
Distribuições Amostrais
Quando falamos em variáveis aleatórias, temos as chamadas distribuições de
probabilidades que é a descrição do conjunto de probabilidades associadas aos
possíveis valores de X, sendo X uma variável aleatória. A distribuição amostral, nada
mais é que uma distribuição de probabilidades de uma medida estatística baseada em
uma amostra aleatória. Essas distribuições são de grande uso na inferência estatística.
Quando a amostragem é aleatória simples, existem distribuições amostrais que
se aproximam de distribuições contínuas conhecidas. É o caso da média e da
proporção.
Distribuição Amostral da média
Para inferirmos a média de uma população a partir de uma amostra, é
necessário analisarmos a distribuição amostral dessa média, ou seja, é necessário
conhecer como as médias amostrais estão distribuídas.
O valor esperado da média amostral é igual à média populacional:
( ) A variância da média amostral é inferior à variância populacional:
( )
Distribuição Amostral da Proporção
Da mesma forma que a média, para inferirmos a proporção populacional,
devemos conhecer a distribuição amostral da proporção.
O valor esperado da proporção amostral é igual à proporção populacional:
( ) A variância da proporção amostral é menor que a variância populacional:
( ) ( )
ou ( )
( )
Intervalos de Confiança
São utilizados para indicar a confiabilidade de uma estimativa, isto é, mostram
se os resultados de uma estimativa são ou não confiáveis.
Intervalo de Confiança Para Proporção
Muitas vezes, é necessário estimar uma determinada proporção. Para testar a
confiabilidade desta estimativa utilizamos o desvio padrão da distribuição amostral ,
ou erro padrão, e consideramos o fato de que quando n é grande, a distribuição
amostral de é aproximadamente normal. Logo o intervalo de confiança para a
proporção é definido por:
43
( )
√ ( )
Onde: p é a proporção populacional
é o nível de confiança
é o nível de significância
é a proporção amostral
é o tamanho da amostra
é o valor da tabela normal, com base no nível de significância
Uma empresa fabricante de pastilhas para freios efetua um teste para controle
de qualidade de seus produtos. Selecionou-se 400 pastilhas, das quais 15
apresentaram níveis de desgaste acima do tolerado. Construir o Intervalo de
Confiança para proporção de pastilhas com desgaste acima do tolerado, do atual
processo industrial. Use nível de significância de 5%.
( )
√ ( )
√
( )
( ) √ , - , -
foi obtido a partir da tabela normal padrão
#---------------------------------------------------------------------------------------------------
No R:
p= 15/400; p
n=400; n
z=qnorm(c(0.025,0.975), mean=0, sd=1, lower.tail=TRUE);z #bilateral
erroamostral = (z*sqrt((p*(1-p))/n)); erroamostral
IC = (p + erroamostral); IC
#qnorm: fórmula para calcular o valor de z
#p: proporção amostral
#n: tamanho da amostra
#função direta no R:
prop.test (15,400, conf.level=0.95)
#------------------------------------------------------------------------------------------------------
Intervalo de Confiança para média com desvio padrão conhecido
Considerando uma amostra aleatória simples, com distribuição
aproximadamente normal, e considerando que a média amostral tem distribuição
aproximadamente normal, com média e variância
, o desvio padrão, também
chamado de erro amostral, será:
44
√
E o intervalo de confiança pode ser encontrado por:
( )
√
Uma fundição produz blocos para motor de caminhões. Os blocos têm furos
para as camisas e deseja-se verificar qual é o diâmetro médio no processo do furo. A
empresa retirou uma amostra de 40 blocos e mediu os diâmetros de 1 furo de cada
bloco (40 furos). O desvio padrão populacional é de 4,0mm. A amostra recolhida foi,
em milímetros:
105 100 96 98 104 99 92 96 97 97
100 98 102 95 95 94 103 102 100 98
96 96 100 101 101 94 98 97 97 96
100 102 94 95 94 101 103 103 101 95
A partir dos valores das amostras, calcule a média amostral e encontre o
intervalo de confiança para a média com nível de significância de 10%.
∑
( )
( )
√
√
, -
#------------------------------------------------------------------------------------------------------
No R:
furos=c(105, 100, 96, 98, 104, 99, 92, 96, 97, 97, 100, 98, 102, 95, 95, 94,
103, 102, 100, 98, 96, 96, 100, 101, 101, 94, 98, 97, 97, 96, 100, 102, 94, 95,
94, 101, 103, 103, 101, 95)
n = 40; n
M = mean(furos); M
dp = 4.0; dp
z=qnorm(c(0.05,0.95), mean=0, sd=1, lower.tail=TRUE); z #bilateral
erroamostral = (z*(dp/sqrt(n))); erroamostral
IC = (M + erroamostral) ; IC
#ou função direta no R:
require (asbio)
ci.mu.z( furos, con=0.95, sigma=0.2)
#---------------------------------------------------------------------------------------------------
45
Intervalo de Confiança para média com desvio padrão desconhecido
Na prática, geralmente o desvio padrão populacional não é conhecido, neste
caso, o erro amostral será dado, não mais em função do desvio populacional, mas sim
pelo desvio amostral:
√
E o intervalo de confiança será dado por:
( )
√
Deseja-se avaliar a dureza esperada μ do aço produzido sob um novo processo
de têmpera. Uma amostra de dez corpos de prova de aço produziu os seguintes
resultados, em HRc: [36.4 35.7 37.2 36.5 34.9 35.2 36.3 35.8 36.6 36.9]
Construir o Intervalo de confiança para a verdadeira média com nível de significância
de 5%.
Neste caso, calcula-se a média amostral, e o desvio padrão amostral, pois não
possuímos o desvio populacional.
∑
( )
√
∑( )
√,( ) ( ) ( ) ( ) -
√
√
√
( )
√
√
, -
46
#------------------------------------------------------------------------------------------------------
No R:
#1ª) Utilizando a função t.test
d_aço=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)
t.test(d_aço, conf.level=0.95)
#2ª) programando
d_aço=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)
n = 10 ;n
M = mean(d_aço); M
dp = sd(d_aço); dp
t = qt (c(0.025, 0.975), df = n-1, lower.tail=TRUE);
erroamostral = (t*dp/sqrt(n)); erroamostral
IC = (M + erroamostral) ; IC
#df= grau de liberdade
#qt = fórmula utilizada para calcular t qt(vetor com as probabilidades, grau de
liberdade, lower.tail=TRUE (bilateral))
#------------------------------------------------------------------------------------------------------
10. TESTES DE HIPÓTESE PARA UMA AMOSTRA
Um teste de hipótese consiste em um teste estatístico para rejeitar ou não uma
hipótese pautada em uma amostra.
Um teste estatístico é composto pela hipótese nula e pela hipótese alternativa.
Hipótese nula ( ): é a hipótese que será testada, sendo definida como a igualdade
sobre o parâmetro em estudo.
Hipótese alternativa ( ): a hipótese alternativa, como o nome sugere, é a hipótese
contrária a hipótese nula, ou seja, trata da desigualdade no parâmetro de interesse, que
pode ser unilateral a esquerda (menor), unilateral a direita (maior) ou bilateral
(diferente)
Tipos de erro
Quando é realizado um teste de hipótese, a decisão pode resultar em um erro,
como pode ser visualizado na tabela abaixo:
Aceitar Rejeitar
verdadeira Decisão correta
( )
Erro tipo I
( )
H0 falsa Erro tipo II
( )
Decisão correta
(( )
O erro do tipo I consiste em rejeitar , quando na verdade deveria ser
aceita, já no erro do tipo II, aceita-se quando esta é na verdade falsa.
47
Etapas do teste
Um teste de hipótese é composto por quatro etapas:
i) Construção das hipóteses
ii) Valor tabelado (região crítica) - (baseado na tabela – teste
para a proporção e teste para média com variância conhecida, baseado na
tabela de Student – teste para média com variância desconhecida,
baseado na tabela qui-quadrado – teste para variância)
iii) Estatística teste: valor calculado obtido através de uma fórmula
iv) Conclusão: não rejeita ou rejeita-se
Teste de hipótese para proporção
Este teste tem objetivo de verificar se a proporção de um atributo da população
é ou não igual a um valor .
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Região Crítica
A região crítica é dada a partir da tabela normal padrão ( ), onde, através de
um nível de significância fixado e considerando se o teste é ou não bilateral,
conseguimos encontrar na tabela o valor que define a região crítica.
Por exemplo:
Se tivermos ,
teste unilateral à esquerda, = ( ),
teste bilateral z = ( )
teste unilateral à direita z = ( ).
Como pode ser entendido melhor nos gráficos abaixo.
48
Estatística teste
√ ( )
Onde:
tamanho da amostra
proporção segundo
número de elementos com o atributo de interesse
Conclusão
Se o valor da estatística teste se encontrar na região crítica, rejeita-se , caso
contrário não rejeita-se .
Há também a abordagem p-valor, que funciona da seguinte forma:
Para conclusão do teste utilizando-se a abordagem p-valor utilizamos a tabela
normal padrão para encontrar o valor de com base na estatística teste. Por exemplo,
se o valor de ( calculado) for igual a , p será . Seguindo o exemplo a
conclusão será a seguinte:
O controle estatístico de certo processo estabeleceu que dos produtos
tem que estar sem defeitos. Para verificar a validade desta afirmação, foi coletada uma
49
amostra de produtos, obtendo uma proporção sem defeitos de . Com 5% de
significância, há evidência de que o processo está diferente do esperado?
Abordagem clássica
i) Hipóteses
(teste bilateral)
ii) Região Crítica - Tabela Normal Padrão temos que para um teste
bilateral com o valor de e as regiões críticas serão:
iii) Estatística teste
√ ( )
√ ( )
iv) Conclusão:
Considerando que o valor da estatística teste igual , está fora
da região crítica, não rejeita para nível de significância de . Não há evidência
de que o processo está diferente do esperado.
Abordagem p-valor
Na abordagem p-valor, os valores de tabelado (região crítica) e calculado
(estatística)
#------------------------------------------------------------------------------------------------------
No R:
( ) #------------------------------------------------------------------------------------------------------
50
Teste de hipótese para média com variância conhecida
Este teste tem objetivo de verificar se a média de uma população é igual a
certo valor.
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Região Crítica
A região crítica é definida da mesma forma que no teste para proporção,
através da tabela normal padrão.
Estatística teste ( ) √
Onde tamanho da amostra
média segundo H0
média amostral
desvio padrão populacional
Conclusão
Tanto na abordagem clássica quanto p-valor, a conclusão se dá da mesma
forma.
Certo tipo de pneu, dura em média, e tem desvio padrão igual à
. O fabricante investiu em uma nova composição de borracha para pneus.
Numa amostra de vinte pneus com a nova composição, duraram em média
. Supondo que a durabilidade segue a distribuição normal, verificar se os
dados provam que os pneus novos são mais duráveis. Use nível de confiança de .
i) Hipóteses
(teste unilateral à direita)
ii) Região Crítica
Pela Tabela Normal Padrão sabemos que para um teste unilateral a
direita com = o valor de z e as regiões críticas serão:
51
iii) Estatística teste
( ) √
( ) √
iv) Conclusão:
Considerando o valor da estatística teste igual a , e está na região
crítica, rejeita-se para nível de significância de 0.01. Não é possível afirmar que os
pneus da amostra são mais duráveis.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e o valor da estatística teste são os
mesmos da abordagem clássica, a conclusão se dará da seguinte forma: buscamos
na tabela normal padrão pela primeira linha e coluna, o valor encontrado é
.Como , e rejeita-se pelo método p-
valor.
#------------------------------------------------------------------------------------------------------
No R:
# valor crítico: tabelado
( ( ) ) #estatística teste
#desvio padrão
(( ) ( )) #-----------------------------------------------------------------------------------------------------
52
Teste de hipótese para média com variância desconhecida
Na prática, é mais comum não termos informação sobre a variância
populacional, neste caso, utilizamos uma estatística teste diferente, e construímos a
região crítica com base na tabela t de Student.
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Região Crítica
A região crítica é dada pela tabela t de Student onde consideramos para teste
unilateral e
para bilateral e com grau de liberdade (gl) igual a . Por exemplo,
suponhamos que o tamanho da amostra analisada seja 15, então o grau de liberdade
será . Considerando um teste com temos que t
será:
53
iii) Estatística teste
( ) √
Onde:
tamanho da amostra
média segundo
média amostral
desvio padrão amostral
Conclusão
Tanto na abordagem clássica quanto p-valor, a conclusão se dá de forma
análoga ao teste para média com variância conhecida, se o valor da estatística teste
estiver fora da região crítica, não rejeita , caso contrário rejeita-se .
Padrões técnicos exigem que o nível de ruído em CPDs seja de, no máximo,
. Foram analisados CPDs de várias organizações, obtendo-se os seguintes
valores máximos de ruído:
a) calcule a intensidade de ruído médio e desvio padrão para os CPDs.
b) A intensidade de ruído médio dos CPDs nos horários críticos é
superior ao especificado? Use o nível de confiança de .
a) Média:
∑
( )
Desvio Padrão:
54
√
∑ ( )
=
√
∑ ,( ) ( ) ( )
√
√
b)
i) Hipóteses
(teste unilateral à direita)
ii) Região Crítica
Pela Tabela t de Student temos que para um teste unilateral à direita
com = o valor de t e as regiões críticas serão:
iii) Estatística teste
( ) √
( ) √
iv) Conclusão: Considerando que a estatística teste, , está na região
crítica, rejeita-se para nível de significância de . Há evidência de que a
intensidade de ruído médio dos CPDs nos horários críticos é superior ao especificado.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e a estatística teste são os mesmos
da abordagem clássica, a conclusão se dará da seguinte forma:
A estatística teste (t) é igual a , então buscamos na tabela t de
Student com , o valor encontrado de p valor é . Como o
, rejeita-se pelo método p-valor.
55
#------------------------------------------------------------------------------------------------------
No R:
( ) ( ) ( ) #greater: unilateral superior #less: unilateral inferior #two.sided: bilateral
#----------------------------------------------------------------------------------------------------
Teste de hipótese para variância
Este teste é utilizado quando se deseja verificar alterações na variabilidade.
Hipóteses
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Região Crítica
A região crítica é dada pela tabela qui-quadrado considerando
( ) para teste unilateral à esquerda,
(
) em cauda superior e (
) em cauda inferior para bilateral
(n-1, ) para teste unilateral à direita.
Como pode ser verificado abaixo, tendo como exemplo hipotético e
em um teste unilateral à esquerda, bilateral e unilateral à direita.
56
Estatística teste
( )
Onde:
tamanho da amostra
variância segundo
variância amostral
Conclusão
Tanto na abordagem clássica quanto p-valor, a conclusão se dá de forma
análoga ao teste para média com variância conhecida, se calculado estiver fora da
região crítica não rejeita , caso contrário rejeita-se .
Usuários de uma rede de transmissão de energia elétrica têm reclamado da alta
variação na tensão (desvio padrão de ). A empresa encarregada da transmissão de
energia elétrica na região instalou novos transformadores. O desvio padrão calculado
sob observações independentes foi de e a distribuição de frequências dos
valores da amostra sugere uma distribuição normal. Há evidência da redução na
variação da tensão? Use alfa .
57
i) Hipóteses
(teste unilateral à esquerda) – (há evidência da redução)
ii) Região Crítica
Pela Tabela Qui-Quadrado temos que para um teste bilateral com
= os valores de tabelado e as regiões críticas serão:
iii) Estatística teste
( )
( )
iv) Conclusão:
Considerando que a estatística teste igual , está na região crítica,
rejeita-se para nível de significância de . É possível afirmar que houve
redução na variação da tensão.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e a estatística teste são os mesmos
da abordagem clássica, a conclusão se dará da seguinte forma:
calculado é igual a , então buscamos na tabela qui-quadrado
com , o valor q encontrado é , ou seja, . Como
, e com rejeita-se pelo método p-valor.
#-----------------------------------------------------------------------------------------------------
No R:
( ( ) ) (( ) ) #------------------------------------------------------------------------------------------------------
58
11. TESTE DE HIPÓTESES PARA DUAS AMOSTRAS
Às vezes há interesse em comparar duas amostras como, por exemplo, dois
sistemas computacionais para a informatização de um processo.
Para tanto, são utilizados testes paramétricos para análise estatística sobre os
dois conjuntos de dados.
As amostras analisadas podem ser independentes ou não entre si. Para cada
caso, um teste de hipótese diferente é adotado.
Amostras Pareadas (Dependentes)
Dizem-se amostras pareadas de dois conjuntos de dados onde cada elemento
de uma amostra corresponde a apenas um elemento da outra amostra, pela existência
de algum tipo de associação de dependência entre eles. Devido a dependência entre
esses dados, faz sentido o cálculo da diferença entre os pares de dados que podem, por
exemplo, ser a respeito de um grupo de indivíduos antes e depois da aplicação de
algum medicamento.
O teste de hipótese utilizado, teste t, é adequado nesta análise, de forma que as
hipóteses são:
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
A diferença entre os pares de dados das amostras será:
Onde:
: dados antes do tratamento
: dados depois do tratamento
Com base na diferença entre os tratamentos (amostras), geramos as hipóteses:
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Onde é o valor esperado das . De forma análoga ao teste
para média de uma amostra com variância desconhecida, as regiões críticas e à
estatística teste serão:
Região Crítica:
Dá-se pela tabela t de Student, de forma que
( ) para teste unilateral e (n-1,
) para bilateral.
Estatística teste:
√
59
Onde:
tamanho da amostra
média das diferenças
desvio padrão das diferenças
O desvio padrão das diferenças é dado por:
√
(∑
)
Conclusão:
Abordagem Clássica:
Se o valor da estatística teste se encontrar na região crítica, rejeita-se , caso
contrário não rejeita .
Abordagem p-valor:
Na abordagem p-valor, p é encontrado considerando na tabela de
Student e .
Para comparar dois algoritmos de otimização foi realizado um
experimento com seis ensaios. Em cada ensaio, foram usados separadamente os
dois algoritmos em estudo, mas sob as mesmas condições (dados pareados). Os
tempos de resposta ao usuário foram:
Tabela 10 – Tempo de resposta (segundos) dois algoritmos de otimização
Ensaio Algoritmo I Algoritmo II Diferença= X1-X2
1 8,1 9,2 -1,1
2 8,9 9,8 -0,9
3 9,3 9,9 -0,6
4 9,6 10,3 -0,7
5 8,1 8,9 -0,8
6 11,2 13,1 -1,9
Há evidências de que os tempos de resposta do Algoritmo I são menores que
os do Algoritmo II, para .
i) Hipóteses:
(teste unilateral à esquerda)
60
ii) Pela Tabela t de Student temos que para um teste unilateral à esquerda
com = 0.0 o valor de t e a região crítica será:
Para:
iii) Estatística teste
√
(∑
) √
(∑
)
√
(( ) ( )) √
( )
√
√
√
iv) Conclusão:
Considerando que o valor da estatística teste é , e se encontra na
região crítica, rejeita-se para nível de significância de . Há evidência
estatística que o algoritmo I é mais rápido que o Algoritmo II.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e o valor da estatística teste são os
mesmos da abordagem clássica, a conclusão se dará da seguinte forma:
A estatística teste (t= ), então buscamos na t de Student com
, o valor encontrado de p é . Como ,
rejeita-se pelo método p-valor.
61
#------------------------------------------------------------------------------------------------------
No R:
( )
( ) ( )
( ) ( ) ( )
#Onde: paired: TRUE para teste pareado
#FALSE para teste independente
#------------------------------------------------------------------------------------------------
Amostras Independentes
Para amostras independentes também é utilizado o teste t, mas para tanto, é
necessário que três requisitos sejam atendidos:
1.As observações devem ser independentes;
2.As variâncias populacionais devem ser iguais nos dois grupos (teste F de Snedecor
para duas variâncias);
3.Os dois conjuntos de dados devem provir de distribuições normais
(teste de Shapiro-Wilk)
Para os requisitos 2 e 3 são realizados testes para verificá-los, estes testes
serão abordados ao final.
Hipóteses:
Hipótese Nula :
Hipótese alternativa : (teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Região Crítica:
Dá-se pela tabela t de Student, de forma que para ( , ) para teste
unilateral e (
) para teste bilateral.
Estatística teste:
Se as amostras tiverem tamanhos iguais o cálculo da estatística teste será:
Onde:
variância agregada das duas amostras
variância da amostra 1
variância da amostra 2
62
( )√
Onde:
tamanho da amostra em cada grupo
variância agregada das duas amostras
: média da amostra 1
: média da amostra 2
Se as amostras tiverem tamanhos diferentes o cálculo da estatística teste será:
( ) ( )
Onde:
variância agregada das duas amostras
variância da amostra 1
variância da amostra 2
tamanho da amostra 1
tamanho da amostra 2
√
Onde:
tamanho da amostra 1
tamanho da amostra 2
variância agregada das duas amostras
: média da amostra 1
: média da amostra 2
Conclusão:
Abordagem Clássica:
Se o valor da estatística teste se encontra na região crítica, rejeita-se , caso
contrário não rejeita .
Abordagem p-valor:
Na abordagem p-valor, p é encontrado considerando na tabela de
Student e .
Para
Testar a hipótese se nos dez ensaios com cada catalisador verificou que os
catalisadores A e B têm efeitos diferentes no rendimento de certa reação química.
Confirme com alfa 5%, faça a abordagem do p-valor.
63
Tabela 11- Rendimento (%) de uma reação química em função do catalisador utilizado
Cat A 45 51 50 62 43 42 53 50 48 55
Cat B 45 35 43 59 48 45 41 43 49 39
i) Hipóteses
(teste bilateral)
ii) Região Crítica
Pela Tabela t de Student temos que para um teste unilateral à esquerda com
= o valor de t e a região crítica será:
iii) Estatística teste
∑
(∑ )
( )√
( )√
√
64
iv) Conclusão: Considerando a estatística teste ( ), e não está na
região crítica, não rejeita para nível de significância de . Não há evidência
estatística da diferença entre os Catalisadores A e B.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e a estatística teste são os mesmos
da abordagem clássica, a conclusão se dará da seguinte forma:
calculado é igual a , então buscamos na tabela t de Student com
, o valor encontrado de
é
então p é . Como
, e portanto não rejeita-se pelo método p-valor.
#------------------------------------------------------------------------------------------------------
No R:
( ) ( ) ( ) #------------------------------------------------------------------------------------------------------
Para
Na comparação de duas topologias de rede de computadores, C1 e C2,
avaliou-se o tempo de transmissão de pacotes de dados entre duas máquinas. Foram
realizados 32 ensaios em C1 e 24 ensaios em C2, como mostra os dados abaixo:
Tabela 12 - Tempo de transmissão de pacotes de dados adotado duas topologias
Topologia Tempo (em décimos de segundo) Média Variância
C1 9, 12, 10, 12, 11, 9, 8, 12, 13, 9, 13, 8, 17, 9, 9, 8, 9, 8,
14, 8, 8, 8, 8, 13, 10, 10, 15, 13, 13, 12, 14, 8
10,625 6,371
C2 14, 15, 8, 13, 16, 12, 14, 17, 14, 10, 13, 12, 13, 14, 10,
15, 12, 17, 16, 12, 15, 13, 14, 14
13,458 4,781
Existe diferença significativa entre o tempo médio de transmissão nas 2 topologias?
i) Hipóteses:
(teste bilateral)
ii) Região Crítica
65
Pela Tabela t de Student temos que para um teste unilateral à esquerda com
= o valor crítico de t será:
iii) Estatística teste
∑
(∑ )
( ) ( )
( ) ( )
√ √
√
√
iv) Conclusão:
Considerando que a estatística teste igual está na região crítica, rejeita-
se para nível de significância de . Há evidência estatística da diferença entre
as topologias C1 e C2.
Abordagem p-valor
Na abordagem p-valor, os valores críticos e o valor da estatística teste são os
mesmos da abordagem clássica, a conclusão se dará da seguinte forma:
calculado é igual a , então buscamos na t de Student com
, o valor encontrado de
é
então . Como
, e portanto p rejeita-se pelo método p-valor.
66
#----------------------------------------------------------------------------------------------------
NoR:
( ) ( )
( ) ( ) ( ) ( ) ( )
#------------------------------------------------------------------------------------------------------
Antes de aplicar o teste t para duas amostras independentes devemos verificar
dois pressupostos:
Teste de Shapiro-Wilk
O teste de Shapiro-Wilk testa a normalidade de um conjunto de dados, ou seja,
se os dados provém de distribuições normais. Foi proposto em 1965 por Samuel
Sanford Shapiro e Martin Wilk.
#-----------------------------------------------------------------------------------------------------
No R:
( ) #o nome amostra que se deseja verificar a normalidade
#------------------------------------------------------------------------------------------------------
Teste F de Snedecor para duas variâncias
Este teste visa comparar duas variâncias a fim de investigar se duas amostras
com distribuições normais possuem a mesma variância. As hipóteses serão:
Hipóteses Nula :
Hipótese alternativa :
(teste bilateral)
(teste unilateral à esquerda)
(teste unilateral à direita)
Onde:
: variância da população 1, e
: variância da população 2.
Região Crítica:
A região crítica para este teste é provida pela tabela F de Snedecor, com
no numerador e no denominador. Para teste unilateral à
esquerda temos que f será:
( )
67
Supondo um e , e , temos que e , será:
( )
( )
#------------------------------------------------------------------------------------------------------
No R:
( ) #Onde:
( )
#------------------------------------------------------------------------------------------------------
Para o teste unilateral à direita seria ( )
Para os valores acima, seria: ( ) ( )
68
#------------------------------------------------------------------------------------------------------
No R:
( ) #Onde:
( ) #------------------------------------------------------------------------------------------------------
Para o teste bilateral, têm-se dois valores de o superior e o inferior, que são:
(
)
e (
)
Para os valores dados acima, o teste bilateral será:
( )
( )
( )
#------------------------------------------------------------------------------------------------------
No R:
( ( ) )
#Onde:
( (
) )
#----------------------------------------------------------------------------------------------
Importante lembrar que para cada nível de significância diferente há uma
tabela F de Snedecor.
69
Estatística teste:
Onde:
: variância da amostra 1, e
: variância da amostra 2.
Conclusão:
Na abordagem clássica:
teste bilateral se ou rejeita-se
teste unilateral à esquerda se rejeita .
teste unilateral à direita se rejeita
Considerando o exemplo sobre os catalisadores, vamos verificar se eles
produzem efeitos diferentes nas variâncias, para nível de significância igual à
0.10.
i) Hipóteses :
(teste bilateral)
ii) Região Crítica
Pela Tabela F de Snedecor temos que para um teste bilateral com
= os valores de e serão:
iii) Estatística teste
70
iv) Conclusão:
Considerando que a estatística teste igual a , não está na região crítica,
não rejeita para nível de significância de . Não há evidência estatística da
diferença entre as variâncias dos catalisadores A e B, logo há homogeneidade de
variâncias.
#------------------------------------------------------------------------------------------------------
No R:
A função do R usada para o teste F para duas variâncias
( ) ( )
( )
#Teste bilateral, o parâmetro deve ser (
), se for unilateral ( ).
#------------------------------------------------------------------------------------------------------
12. ANÁLISE DE CORRELAÇÃO E REGRESSÃO
Em muitos conjuntos de dados, é de fundamental importância que saibamos os
efeitos das mudanças dos dados em outro dado, que possamos estimar e controlar uma
variável pela manipulação de outra. Posto isso, utilizamos a correlação e a regressão
linear para analisar essa relação entre variáveis.
Correlação Linear Simples
A correlação linear simples nada mais é que um estimador simples que
representa a intensidade de relação entre duas variáveis. A ausência de correlação não
quer dizer que as variáveis em questão não se relacionam, apenas caracteriza a
ausência de relação linear. Um exemplo interessante é o percentual de aproveitamento
de um time e o número de vitórias deste time, estão correlacionados positivamente,
pois quanto mais o número de vitórias, maior será o percentual de aproveitamento, ou
em um sistema computacional em que quanto maior a capacidade de processamento
de um CPU, menor será o tempo de processamento, que caracteriza duas variáveis
correlacionadas negativamente.
A imagem abaixo ilustra a dispersão dos dados de duas variáveis em diferentes
casos:
71
Disponível em: http://pt.slideshare.net/vermaumeshverma/linear-regression-38653351
Coeficiente de Correlação Linear simples de Pearson
O coeficiente de correlação linear de Pearson trata de descrever a correlação
entre duas variáveis aleatórias. Este coeficiente tem esse nome devido ao estatístico
Karl Pearson, que em 1894 apresentou a expressão para o coeficiente de correlação.
Para se encontrar o coeficiente de correlação, deve-se padronizar os dados, ou seja,
dados que possuem diferentes unidades de medida, como peso e altura, ou velocidade
e tempo de processamento devem ser analisadas de maneira que a diferença na
unidade de medida não interfira. Para tanto, os dados são interpretados em termos da
quantidade de desvio padrão que se afastam da média. A fórmula que descreve esta
padronização é a seguinte:
Onde:
: valor da variável padronizado
: valor da variável padronizado
: valor da variável onde
: valor da variável onde
: média de
: desvio padrão de
: média
: desvio padrão de
Porém, devido a dificuldade de se calcular o coeficiente de correlação através
dos valores padronizados, sem contar a incorporação de erros de arredondamento
provinda da padronização, o cálculo do coeficiente é realizado pela fórmula
matemática que será descrita mais a frente.
O coeficiente de correlação linear de Pearson, representado pela letra , é um
valor entre , em que quanto mais próximo de ou , mais
correlacionada as variáveis estão, e será positivo se houver correlação linear positiva e
negativa se houver correlação linear negativa. Para o cálculo desse coeficiente
utilizamos a seguinte fórmula matemática:
72
∑( ) (∑ ) (∑ )
√ ∑ (∑ ) √ ∑
(∑ )
Para se obter uma melhor resposta quanto a correlação entre grupos de dados,
é interessante realizar o teste t para verdadeira correlação ( ), em que é possível
verificar se os dados estão correlacionados ou não. As hipóteses para o teste são:
Hipótese Nula :
(as variáveis X e Y são não correlacionadas)
Hipótese alternativa :
(as variáveis X e Y são correlacionadas)
(as variáveis X e Y são correlacionadas negativamente)
(as variáveis X e Y são correlacionadas positivamente)
Região Crítica:
Dá-se pela tabela t de Student, de forma que ( , ) para teste
unilateral e (
) para bilateral.
Estatística teste:
√
√
Onde:
tamanho da amostra
coeficiente de correlação de Pearson
Conclusão:
Se a estatística teste se encontrar na região crítica, rejeita-se , caso contrário
não rejeita .
Sejam nota na prova do vestibular de matemática e nota final na
disciplina de cálculo. Foram observados 15 alunos, ao final do primeiro período letivo
de um curso de Ciência da Computação. Os dados estão a seguir:
Tabela 13 – Notas de 15 alunos na prova do vestibular –matemática e cálculo
Aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 39 54 65 43 52 47 64 65 28 70 70 80 58 50 44
Y 67 87 94 78 89 75 82 86 51 49 95 98 82 92 78
a) Calcule o coeficiente de correlação. Interprete.
∑( ) (∑ ) (∑ )
√ ∑ (∑ ) √ ∑
(∑ )
73
,( ) ( ) ( )- ( ) ( )
√ ( ) ( ) √ ∑( ) ( )
( )
√ ( ) √ ( )
√ ( ) √ ( )
Este nível de correlação indica que há uma correlação de 0.49 entre as notas
no vestibular e as notas na disciplina de cálculo
b) Construa o diagrama de dispersão. Verifique se há algum aluno outlier.
Figura 1- Diagrama de dispersão
Sim, o aluno 10 possui padrão diferenciado dos demais e, portanto é um
outlier.
c) Retire este aluno e refaça a correlação. Interprete.
∑( ) (∑ ) (∑ )
√ ∑ (∑ ) √ ∑
(∑ )
,( ) ( ) ( )- ( ) ( )
√ ( ) ( ) √ ∑( ) ( )
( )
√ ( ) √ ( )
74
√ ( ) √ ( )
O nível de correlação aumentou, pois agora todos os dados possuem o mesmo
padrão, a mesma linha de comportamento, tendem a crescer do vestibular para a
disciplina de cálculo de maneira proporcional a notas do vestibular.
d) Faça o teste para a verdadeira correlação ( )
i) Hipóteses
(nota de matemática do vestibular e a nota de cálculo são não
correlacionadas)
( nota de matemática do vestibular e a nota de cálculo são
correlacionadas)
ii) Região Crítica:
e
Pela Tabela t de Student temos que para um teste bilateral e =0.05 o valor
crítico esta indicado abaixo e a região crítica será:
iii) Estatística teste
√
√
√
√ ( )
√
75
iv) Conclusão:
Considerando que o valor da estatística teste, que é , está na região
crítica, rejeita-se para nível de significância de . As variáveis X (nota de
matemática) e Y (nota de cálculo) estão correlacionadas.
#------------------------------------------------------------------------------------------------------
No R:
( ) ( )- -
( ) ( ) #----------------------------------------------------------------------------------------------------
Análise de Regressão
A regressão tem origem com estudos do matemático e estatístico inglês
Francis Galton, que buscava explicar a relação entre a altura dos pais e a altura dos
filhos, a correlação entre esses dados. A regressão é utilizada em diversas áreas e trata
de, através de uma equação matemática, descrever o comportamento de um grupo de
dados, que pode ser linear, quadrático, entre outros. Aqui trataremos da Análise de
regressão linear.
A regressão linear refere-se a uma equação de primeiro grau que tem objetivo
de modelar o comportamento de um grupo de dados, dados pela equação:
( )
Onde e são parâmetros do modelo.
Para encontrar a equação que descreve com maior precisão os dados, é
necessário estimar os valores de e a partir dos conjuntos de dados em questão.
Para tanto, o método mais utilizado é o método dos mínimos quadrados, que consiste
em fazer com que a soma dos erros quadráticos seja a menor possível.
As estimativas para e , representados por e , respectivamente, será:
∑( ) (∑ ) (∑ )
∑ (∑ )
∑ ∑
Outro método que também pode ser utilizado para encontrar o modelo de
regressão é o método matricial, que consiste na equação: ( )
Onde:
76
: é uma matriz de dimensão x da seguinte forma:
[
]
matriz transposta de
: matriz coluna com os valores de ( )
: matriz 0 1
Com este método chegamos a um sistema linear com duas equações onde
devemos encontrar o valor de e . Basta isolarmos um dos termos em uma das
equações e substituirmos na outra equação e teremos o valor de um dos dois
parâmetros, depois é só substituir este valor na equação em que o parâmetro a ser
encontrado foi isolado.
A equação de regressão é dada por:
A diferença entre os valores observados e os preditos é chamada resíduo:
Coeficiente de determinação
O coeficiente de determinação descreve a proporção da variação de que
pode ser explicada pelas variações em . Essa proporção nada mais é que o
percentual de influência que possui sobre , por exemplo: se tivermos um
coeficiente de determinação de 95%, quer dizer que a variável é explicada através
(com influência) do valor de com taxa de 95%, e os outros 5%, se devem a fatores
externos que influenciam no processo.
No caso da regressão linear, este valor é o mesmo encontrado pelo coeficiente
linear de Pearson.
Teste de significância do modelo
O teste de significância do modelo trata de verificar a “adequabilidade” do
modelo, ou seja, o quanto a equação de regressão encontrada é adequada, ideal aos
conjuntos de dados em questão. Para tanto, utilizamos ANOVA, que é a análise de
variância.
O teste é concebido da seguinte forma:
Hipótese Nula : (o modelo de regressão não é adequado)
Hipótese alternativa : (o modelo de regressão é adequado)
Região Crítica:
Dá-se pela tabela F de Snedecor, de forma que , - e
consideramos para escolha da tabela F adequada.
Estatística teste:
F calculado é encontrado através das seguintes equações:
77
Fonte de
Variação
Regressão ∑( )
⁄
⁄
Erro ∑( )
⁄
Total ∑( )
⁄
Onde: tamanho da amostra
grau de liberdade
soma dos quadrados da regressão
: soma dos quadrados do erro
: soma dos quadrados do total
valor de um determinado da amostra
valor de uma determinado da regressão
média aritmética dos valores de
: quadrado médio da regressão
: quadrado médio do erro
quadrado médio do total
Conclusão:
Se obtido na estatística teste se encontrar na região crítica, rejeita-se ,
caso contrário não rejeita-se .
Variância residual - A variância residual nada mais é que o Quadrado Médio
do Erro ( ).
Teste e Intervalo de Confiança dos Parâmetros
Os testes dos parâmetros são realizados para verificar se a reta passa pela
origem (teste t para o parâmetro ) e se existe ou não regressão linear (teste t para o
parâmetro ).
Teste e Intervalo de Confiança para o parâmetro
O teste t para o parâmetro possui a seguinte configuração:
Hipótese Nula : (a reta passa pela origem)
Hipótese alternativa : (a reta não passa pela origem)
Região Crítica:
Dá-se pela tabela t de Student, de forma que ( ;
).
Estatística teste:
Erro residual:
√
78
√
(∑ )
∑
(∑ )
Onde:
tamanho da amostra
estimativa do parâmetro
: erro residual
: estimativa do erro padrão do parâmetro
Conclusão:
Se a estatística teste se encontrar na região crítica, rejeita-se , caso contrário
não rejeita-se .
Intervalo de Confiança para
O intervalo de confiança para o parâmetro pode ser dado por:
( )
Onde: : o valor obtido na tabela t de Student com e nível de confiança
: estimativa do erro padrão do parâmetro
Teste e Intervalo de Confiança para o parâmetro
O teste t para o parâmetro tem o mesmo intuito que o teste realizado para
verificar a significância do modelo de regressão. O teste t é o seguinte:
Hipótese Nula : (não há regressão linear)
Hipótese alternativa : (há regressão linear)
Região Crítica:
Dá-se pela tabela t de Student, de forma que ( ;
).
Estatística teste:
Erro residual:
√
√
∑ (∑ )
79
Onde:
tamanho da amostra
estimativa do parâmetro
: erro residual
: estimativa do erro padrão do parâmetro
Conclusão:
Se a estatística teste se encontrar na região crítica, rejeita-se , caso contrário
não rejeita-se .
Intervalo de Confiança para
( )
Onde:
: o valor obtido na tabela t de Student com e nível de confiança
: estimativa do erro padrão do parâmetro
Análise de Resíduos
A análise de resíduos trata de verificar se os erros possuem distribuição
normal, com média nula e variância constante, e se as observações de Y são
independentes. Esses requisitos são fundamentais para que os testes estatísticos e os
intervalos de confiança tenham validade. Para tanto uma análise gráfica é realizada,
análise esta que será mais bem compreendida através da resolução do exercício deste
tópico.
Um estudo foi desenvolvido para verificar o quanto o comprimento de um
cabo serial de microcomputadores influencia na qualidade de transmissão de dados,
medida através do número de falhas em 10.000 lotes de dados transmitidos (taxa
falha). Os resultados foram:
Tabela 14- Comprimento do cabo serial de microcomputadores e a taxa de falhas
na transmissão de dados Comp. Cabo
(m)
8 8 9 9 10 10 11 11 12 12 13 13 14 14 15
Taxa de falha 2,2 2,1 3,0 2,9 4,1 4,5 6,2 5,9 9,8 8,7 12,5 13,1 19,3 17,4 28,2
a) Determine o coeficiente de correlação linear de Pearson.
∑( ) (∑ ) (∑ )
√ ∑ (∑ ) √ ∑
(∑ )
80
,( ) ( )- ( ) ( )
√ ( ) ( ) √ ( ) ( )
√ √
√ √
b) Testar a correlação com nível de significância de 0.05
i) Hipóteses
(o comprimento do cabo e a taxa de falha são não correlacionadas)
(o comprimento do cabo e a taxa de falha são correlacionadas)
ii) Região Crítica n
Pela Tabela t de Student temos que para um teste bilateral com
= 0.05 o valor crítico será:
iii) Estatística teste
√
√
√
√ ( )
√
iv) Conclusão:
Considerando o valor da estatística teste igual a , está na região
crítica, rejeita-se para nível de significância de 0.05. As variáveis X (comprimento
do cabo) e Y (taxa de falha) estão correlacionadas.
c) Estabeleça o modelo de regressão.
Método dos mínimos quadrados
81
∑( ) (∑ ) (∑ )
∑ (∑ )
∑ ∑
é o Modelo de regressão linear
Método matricial ( )
[
]
0
1 0 1
[
]
0
1
[
]
0
1
0
1
[
]
0
1
0
1 0 1 0
1
{
(
)
Modelo de regressão linear
d) Determine o coeficiente de determinação.
É o valor da correlação linear de Pearson, pois se trata de uma regressão
linear. Logo, o valor do coeficiente de determinação será:
82
e) Diagrama de dispersão
f) Ajustar a reta no diagrama de dispersão
g) Testar a significância do modelo de regressão
Hipótese Nula :
Hipótese alternativa :
ii) Região Crítica:
83
iii) Estatística teste:
Tabela 15 – Análise de variância
Fonte de
Variação
Regressão ∑( )
⁄
⁄
Erro ∑( )
⁄
Total ∑( )
⁄
iv) Conclusão:
Como obtido como estatística teste foi e se encontra na região crítica,
logo rejeita-se , existe a regressão linear.
h) Testar a hipótese e construir os intervalos de confiança dos parâmetros
Teste t para o parâmetro
Hipótese Nula : (a reta passa pela origem)
Hipótese alternativa : (a reta não passa pela origem)
ii) Região Crítica:
84
iii) Estatística teste:
√ √
√
(∑ )
∑
(∑ )
√
( )
( ) ( )
√
√
√
iv) Conclusão:
Como a estatística teste é e se encontra na região crítica, rejeita-se
para nível de significância de logo a reta não passa pela origem.
Teste t para o parâmetro
i) Hipótese Nula : (não há regressão linear)
Hipótese alternativa : (há regressão linear)
ii) Região Crítica:
85
iii) Estatística teste:
√ √
√
∑ (∑ )
√
( ) ( )
√
√
√
iv) Conclusão:
Como a estatística teste é e se encontra na região crítica, rejeita-se
para nível de significância de , logo não podemos afirmar que não há regressão
linear entre as variáveis.
Intervalos de Confiança para os parâmetros:
( )
( ) ( )
( ) ( )
( )
( ) ( )
( ) ( )
86
i) Estimar a taxa de falha quando o comprimento do cabo for 20.
j) Estimar o comprimento do cabo, quando a taxa de falha for de 10,0.
k) Variância residual do modelo
√ √
l) Análise de resíduos
Tabela 16 : Resíduos Ordinários
Resíduos Resíduos
1 8
2 9
3 10
4 11
5 12
6 13
7 14
15
Através dos valores dos resíduos brutos, obtemos os resíduos padronizados,
calculados através da equação:
√
Tabela 17- Resíduos Padronizados
Resíduos Padronizados
(ResPad)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
87
Com base nesses valores, podemos obter um gráfico de Resíduos
Padronizados versus Valores Estimados, que trata de verificar se existe algum outlier
dentre as observações.
Figura 1 – Gráfico do Valores estimados versus
Resíduos padronizados
Figura 2 - Boxplot dos Resíduos Padronizados:
88
Figura 3: Gráfico dos Resíduos Esperados com os Resíduos Ordenados
Resumo de todos os gráficos:
89
#-----------------------------------------------------------------------------------------------------
No R:
-
( ) ( )
cor.test(x,y)
#Método dos mínimos quadrados
( )
# Método matricial
- ( )
- ( ( )) - ( ( )) - ( ) ( ) - ( ) - ( ) ( ) ( ) -
( ) -
( ) # Testes t
( ) # Intervalos de confiança
# Análise de Resíduos
# Residuos padronizados
( ) # Gráfico de análise dos resíduos padronizados X valores observados
- ( ( )) ( ) ( )
# Box plot dos resíduos padronizados
( ( )) ( )
# Gráficos dos Resíduos Esperados com os Resíduos Ordenados
( )
( )
( )
90
# Resumo de todos os gráficos
( ( )) p ( ( ) )
#------------------------------------------------------------------------------------------------------
91
REFERÊNCIAS BIBLIOGRÁFICAS
BARBETTA, P. A.; REIS, M. M. Estatística para cursos de Engenharia e Informática. São Paulo: Atlas, 2008.
BUSSAB, W. O., MORETTIN, P.A. Estatística básica. São Paulo: Saraiva, 2003.
526p.
DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. Tradução de Joaquim Pinheiro Nunes da Silva. São Paulo: Thomson, 2006. GONÇALVES, C. F. F. Estatística. Londrina: Eduel, 2002 MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. Rio de Janeiro: LTC, 2003. MORETTIN, L. G. Estatística Básica: probabilidade e inferência. Volume Único. São Paulo: Pearson Prentice Hall, 2010.