Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informações sobre o sistema e alguns...

Projeto de Pesquisa e Ensino

Estatística e Probabilidade utilizando o software R

Docentes Participantes: Coordenadora: Profa. Dra. Ana Verginia Libos Messetti

Colaboradora: Profa. Dra. Vanderli Marino Melem

Discentes Participantes: Cinara Brenda Zerbini

Roberto Malcher de Barros

Arthur Dandrea Alemar

Londrina - PR

2013 – 2016

SUMÁRIO

1. INTRODUÇÃO AO SOFTWARE R. .......................................... 1

2. CONSTRUÇÃO DE TABELAS E GRÁFICOS ........................................... 4

3. MEDIDAS DE POSIÇÃO ( MÉDIA, MEDIANA, MODA ........................................... 15

4. MEDIDAS DE DISPERSÃO (AMPLITUDE TOTAL, VARIÂNCIA, DESVIO PADRÃO, COEFICIENTE DE VARIAÇÃO .......................................

17

5. SEPARATRIZES ....................................... 19

6. MODELOS PROBABILÍSTICOS DISCRETOS: (BINOMIAL, POISSON) .................................... 25

7. MODELOS PROBABILÍSTICOS CONTÍNUOS: (UNIFORME, EXPONENCIAL E NORMAL) ....................................

29

8. INTRODUÇÃO A CADEIA DE MARKOV ................................... 36

9. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E DA PROPORÇÃO. INTERVALO DE CONFIANÇA PARA A MÉDIA E PROPORÇÃO ...................................

41

10. TESTE T PARA UMA AMOSTRA (PARA PROPORÇÃO; MÉDIA E VARIÂNCIA) .....................................

46

11. TESTE T PARA DUAS AMOSTRAS (INDEPENDENTES; PAREADAS E VARIÂNCIAS) ...................................

58

12. ANÁLISE DE CORRELAÇÃO E REGRESSÃO. ....................................

70

REFERÊNCIAS BIBLIOGRÁFICAS .................................

91

Lista de Tabelas

Tabela 1- Principais consoles do mercado com seus respectivos preços .........

5

Tabela 2- Consoles do mercado com seus preços e quantidades vendidas ......... 6

Tabela 3 - Identificação dos indivíduos e seus respectivos provedores .........

7

Tabela 4 - Frequência de indivíduos por provedor .........

7

Tabela 5 - Consoles e seus respectivos preços de mercado .........

8

Tabela 6 - Principais consoles e a quantidade de aparelhos vendidos .........

10

Tabela 7- Número de defeitos em placas de circuito .........

15

Tabela 8 - Tempo (segundos) para carga de um aplicativo .........

24

Tabela 9 – Probabilidade de transição dos hábitos de estudo ......... 37

Tabela 10 - Tempo de resposta (segundos) de dois algoritmos de otimização ..........

59

Tabela 11 - Tempo de resposta (segundos) de dois algoritmos de otimização ..........

64

Tabela 12 - Tempo de transmissão de pacotes de dados adotado duas topologias ....

64

Tabela 13 - Notas de 15 alunos na prova do vestibular – matemática e

Cálculo .........

72

Tabela 14 - Tempo de transmissão de pacotes de dados adotado duas topologias ....

79

Tabela 15 - Notas de 15 alunos na prova do vestibular – matemática e cálculo .... 86

Tabela 16 - Resíduos Ordinários ........ 86

Tabela 17 – Resíduos Padronizados ........ 86

1

1. INTRODUCAO ao SOFTWARE R

A instalação do R pode ser realizada pelo download (http://r_project.org)

Guia de instalação - https://cran.r-project.org/doc/contrib/Itano-installation.pdf .

Iniciando o R

Ao iniciar o programa R será apresentado na tela uma janela que começa com

algumas informações sobre o sistema e alguns comandos básicos. Abaixo dessas

informações se encontra o prompt que é indicado por um símbolo “>” em vermelho.

Símbolos e comandos importantes

Nome Ação Comando/Símbolo

Comentário

Indica que o quer que siga o símbolo é

considerado comentário e não será

interpretado pelo programa R

#

Sair Sai do programa q()

Salvar Salva o trabalho realizado save.image()

Listar Lista todos os objetos da área de

trabalho atual ls()

Remover Remove o objeto indicado

rm(x)

# remove o objeto x

rm(x)

# remove os objetos x e y

Dado não

existe Representa um dado ausente NA

Testar se o

dado existe

Testa se o dado passado como

parâmetro existe

is.na(x)

# retorna verdadeiro se x não

existe

Mostrar os

pacotes

instalados

Mostra os pacotes do R que estão

instalados e não foram carregados library()

Carregar

pacote

Carrega o pacote passado como

parâmetro

library(nlme)

# carrega o pacote nlme

Criando objetos

Um objeto no R poder ser criado usando a operação de atribuição, que se

denota por uma flecha “<-” ou “->”, dependendo da direção em que se atribui o

objeto. Também é possível fazer a atribuição usando o sinal de igualdade “=”, que

não é muito utilizado no programa R mas é semelhante a outras linguagens de

programação. Exemplo

> x <- 1 # o objeto x receberá o valor 1

> 10 -> y # o objeto y receberá o valor 10

> 11 -> X # o objeto X receberá o valor 11

> Y = 13 # o objeto Y receberá o valor 13

http://r_project.org/

https://cran.r-project.org/doc/contrib/Itano-installation.pdf

https://cran.r-project.org/doc/contrib/Itano-installation.pdf

2

Para mostrar o valor de um objeto é simples, digite apenas o nome do objeto no

prompt.

Exemplo > x

[1] 1

> X

[1] 11

> y

[1] 10

> Y

[1] 13

Observe que os nomes de objetos no R são diferentes se são maiúsculas ou

minúsculas.

Operações aritméticas

Para realizar as operações aritméticas básicas é necessário apenas o uso do símbolo da

operação. > 2 + 3

[1] 5

> sete <- 5 + 2

> sete

[1] 7

> sete * 10

[1] 70

> 5 + 2 * 10

[1] 25

> 10**2 # ** indica potencia

[1] 100

> 10^2 # ^ também indica potencia

[1] 100

> 100/2

[1] 50

Observe que quando são realizadas diversas operações aritméticas na mesma linha

usa-se a prioridade comum na matemática. Primeiro potências, depois multiplicações

e divisões e por fim então as somas e subtrações.

Outras operações aritméticas são denotadas como funções.

> sqtr(9) # raiz quadrada

3

> sin(0) # seno

0

> factorial(4) # fatorial 4! = 4*3*2*1

24

3

Algumas outras operações são demonstradas na tabela a seguir

Descrição Funcão

Valor absoluto abs(x) # retorna o valor absoluto de x

Logaritmo

log(x) # logaritmo de x na base e

log10(x) # logaritmo de x na base 10

log(x, n) # logaritmo de x na base n

Exponencial exp(x)

Raiz quadrada sqrt(x)

Funções trigonométricas

(parâmetro em radianos)

sin(x) # seno de x

cos(x) # cosseno de x

tg(x) # tangente de x

Funções trigonométricas

inversas

(resultado em radianos)

asin(x) # seno inverso de x

acos(x) # cosseno inverso de x

atg(x) # tangente inversa de x

Combinação binomial choose(n, x) #n!(x!(n-x)!)

Com o R iniciado, o usuário verá uma tela nomeada de “R console” que no qual é

possível ler sobre algumas informações sobre o software e também verá que há um

simbolo “>”, que indica que o usuário já pode dar comandos ao software.

Todas as funções do R estão concentradas nas biblioteca localizada no diretório do

seu computador em R_HOME/library.

Símbolos básicos

❖ # : tudo oque estiver na linha depois desse simbolo será ignorado pelo

programa (útil para comentários)

❖ ls(); lista todos os objetos da área de trabalho atual.

❖ rm(x,y): remove o objeto x e y.

❖ library(): mostra todos os pacotes instalados (não somente os carregados).

❖ library(nlme): carrega o pacote (nesse caso é o nlme).

para saber mais informações sobre uma certa função usando o próprio R você pode

usar a função help() ou digitar “?” antes da função Ex.: help(rm) ou ?rm.

Manipular Objetos

Um objeto pode ser criado atribuindo algo ao objeto usando “<-” ou “->”. O objeto

deve iniciar como uma letra (Ex.: X). é importante dizer que letras maiúsculas e

minúsculas são diferentes nesse programa.(Ex.: x<-6 e X<-8 # “x” vale 6 e “X” vale

8).

É necessário ter cuidado quando atribuir valores aos objetos, pois o usuário pode

atribuir um valor a um objeto já existente e causando a perda de informações

potencialmente importantes para casos no futuro.

4

Removendo objetos

Basta usar a função rm() ou remove() fornecendo o objeto a ser removido dentro dos

parenteses. (ex.:rm(A))

Atributos dos objetos

O usuário pode usar a função mode() para obter informações sobre tipo de objeto.

Ex.: x<- TRUE

mode(x)

R irá responder que o tipo de x é logico.

Operações aritméticas

Aqui estão algumas operações que podem ser utilizadas no R:

❖ “+” : operação de soma (Ex.: 2+2).

❖ “*” : operação de multiplicação (Ex.: 3*2).

❖ “**” ou “^”: potencia (Ex.: 2**4 ou 2^4)

❖ log(x,n): log de base n de x

❖ abs(x): valor absoluto de x.

Aproximações

funções para arredondamentos e aproximações:

❖ round (x,n) : arredonda o valor de x (nesse caso) em até n casas

decimais (Ex: round(x,3))

❖ trunc(x): descarta todos os decimais de um numero considerando

apenas a sua parte inteira, sem arrendodamento. ( trunc(10,932) = 10)

2. CONSTRUÇÃO DE TABELAS E GRÁFICOS

A representação gráfica dos dados estatísticos tem por objetivo apresentar de

forma rápida e concisa os resultados obtidos, permitindo-se chegar a conclusões sobre

a evolução do fenômeno ou sobre como se relacionam os valores da série Existem

várias maneiras de se representar graficamente os dados estatísticos de acordo com os

tipos de séries.

Tabelas

A assimilação das inf geradas pelos dados de um determinado experimento se

torna mais simples e fácil quando as mesmas estão dispostas em tabelas. Uma tabela é

um arranjo sistemático de dados numéricos dispostos de forma, colunas e linhas, para

fins de comparação. As tabelas podem aparecer em ordem crescente ou decrescente,

no caso de números, ou em ordem alfabética, quando são compostos de nomes.

5

Tabela simples:

Usada para apresentar a relação entre uma informação e outra (como produto e

preço). É formada por duas colunas e deve ser lida horizontalmente.

Aqui temos uma tabela 1 que relaciona os principais consoles do mercado com

seus respectivos preços:

Tabela 1- Principais consoles do mercado

com seus respectivos preços

Consoles Preços

Playstation 2 R$ 350

PSP R$ 450

Nintendo Wii R$ 650

Xbox 360 R$ 1.199

Playstation 3 R$ 1.099

Nintendo DS R$ 800

Nintendo 3DS R$ 1.149

PSVita R$ 750

Nintendo WiiU R$ 1.899


Xbox One R$ 2.199

#------------------------------------------------------------------------------------------------------

No R:

preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

t(preços)

#Porém a tabela gerada apenas exibe os preços, para que os nomes dos consoles

#sejam atribuídos aos seus respectivos preços utilizamos a função:

consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation3",

"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4",

"XboxOne")

names(preços)=consoles

#A função names atribui os nomes contidos na variável consoles aos preços da

#variável preço. Também é possível criar uma tabela através da função matrix que

#gera uma matriz.

preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

M1=matrix(preços, nrow=11) #nrow é o número de linhas da matriz

#Então nomeamos as linhas e colunas da matriz

consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",

"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4", "Xbox

One")

rownames(M1)<-consoles

colnames(M1)<-c('preços')

#-----------------------------------------------------------------------------------------------------

6

Tabela de dupla entrada

São úteis para mostrar dois ou mais tipos de dados, como altura e peso, sobre

um item ou pessoa.

A seguir temos a tabela simples acima, porém com uma informação a mais, o

número de aparelhos vendidos para cada console:

Tabela 2- Consoles do mercado com seus preços e quantidades vendidas

Consoles Preços Aparelhos vendidos (milhões)

Playstation 2 R$ 350 157,68

PSP R$ 450 80,14

Nintendo Wii R$ 650 100,41

Xbox 360 R$ 1.199 79,00

Playstation 3 R$ 1.099 80,50

Nintendo DS R$ 800 154,80

Nintendo 3DS R$ 1.149 36,56

PSVita R$ 750 6,15

Nintendo WiiU R$ 1.899 3,90

Playstation 4 R$ 2.999 7,00

Xbox One R$ 2.199 5,00

#------------------------------------------------------------------------------------------------------

No R:


"Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox

One")

preços =c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15,

90, 7.00, 5.00)

M2=matrix(c(preços,vendas), nrow=11, ncol=2)

rownames(M2)<-consoles

colnames(M2)<-c('preços','vendas')

M2

#-------------------------------------------------------------------------------------------------

Distribuição de frequências

Um dos primeiros passos para analisar um arquivo de dados, especialmente

quando o número de observações for grande, é a distribuição de frequências de cada

variável, que nada mais é que a organização dos dados de acordo com as ocorrências

dos diferentes resultados observados. Esta distribuição é disposta em uma tabela de

frequências.

7

A tabela a seguir apresenta a relação indivíduo/provedor de visitantes de um

determinado site:

Tabela 3 – Identificação dos indivíduos e seus respectivos provedores

Indivíduo Provedor Ind. Prov. Ind. Prov. Ind. Prov.

1 C 11 C 21 B 31 A

2 A 12 A 22 A 32 A

3 B 13 B 23 A 33 B

4 B 14 D 24 B 34 C

5 C 15 A 25 A 35 B

6 B 16 B 26 A 36 D

7 D 17 B 27 B 37 B

8 B 18 C 28 D 38 B

9 B 19 D 29 D 39 B

10 A 20 B 30 C 40 C

Então geramos uma tabela de frequências para facilitar a análise dos dados:

Tabela 4 – Frequência de indivíduos por provedor

Provedores Frequência

simples

Porcentagem

A 10 25,0

B 17 42,5

C 7 17,5

D 6 15,0

Total 40 100,0

#------------------------------------------------------------------------------------------------------

No R:

provedores=c("C","A","B","B","C","B","D","B","B","A","C","A","B","D","A","B","

B","C","D","B","B","A","A","B","A","A","B","D","D","C","A","A","B","C","B","D"

,"B","B","B","C")

table(provedores)

#---------------------------------------------------------------------------------------------------

Gráficos

Um gráfico é uma representação de dados obtidos nos experimentos na forma

de figuras geométricas (diagramas, desenhos, figuras ou imagens) de modo a fornecer

ao leitor uma interpretação de forma mais rápida e objetiva. Existem gráficos

adequados para representação de variáveis qualitativas, para variáveis quantitativas

discretas e para variáveis quantitativas contínuas.

8

Variáveis qualitativas

São aquelas cujos possíveis resultados são observados na forma de categorias.

Para este tipo de dados podemos obter os seguintes gráficos:

Gráficos de Colunas

Gráficos de Barras, e

Gráficos de Setores

Gráficos de Colunas

O gráfico de colunas é composto por dois eixos, um vertical e outro

horizontal. No eixo horizontal são construídas as colunas que representam a variação

de um fenômeno ou de um processo de acordo com sua intensidade. Essa intensidade

é indicada pelo eixo vertical. As colunas devem sempre possuir a mesma largura e a

distância entre elas deve ser constante.

Para geração dos gráficos desta seção podemos utilizar o gráfico do exemplo

acima

Tabela 5 – Consoles e seus respectivos

preços de mercado

Consoles Preços

Playstation 2 R$ 350

PSP R$ 450

Nintendo Wii R$ 650

Xbox 360 R$ 1.199


Nintendo DS R$ 800

Nintendo 3DS R$ 1.149

PSVita R$ 750

Nintendo WiiU R$ 1.899


Xbox One R$ 2.199

O gráfico de colunas para estes dados será:

9

#------------------------------------------------------------------------------------------------------ No R:

consoles = c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360",

"Playstation 3", "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU",

“Playstation 4", "Xbox One")

preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

barplot(preços, xlab="Consoles", ylab="Preços", main="Preços dos consoles mais

vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",

“green4", "blue", "orange", "pink"), ylim=c(0,3000))

Onde:

Xlab define o rótulo do eixo x

Ylab define o rótulo do eixo y

Main define o título do gráfico

Ylim define o valor inicial e final do eixo y

Col define as cores que serão utilizadas nas colunas do gráfico

legend("topleft", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",

"red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",

"pink"))

#Esta função gera uma legenda para o gráfico, porém também é possível utilizar a

#função legend.text dentro da função barplot.

#----------------------------------------------------------------------------------------------------

Gráficos de Barras

O gráfico de barras é composto por dois eixos, um vertical e outro horizontal.

No eixo vertical são construídas as barras que representam a variação de um

fenômeno ou de um processo de acordo com sua intensidade.

Utilizando o mesmo exemplo temos o seguinte gráfico de barras:

10

#------------------------------------------------------------------------------------------------------

No R:

#mesma função do gráfico de colunas, porém acrescenta-se o argumento horiz=TRUE

#e modifica-se os nomes e limites (se houverem) dos eixos.



One")

preços=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

barplot(preços, xlab="Preços", ylab="Consoles", main="Preços dos consoles mais

vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",

"green4", "blue", "orange", "pink"),xlim=c(0,3000), horiz=TRUE)

legend("right", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",

"red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",

"pink"))

#------------------------------------------------------------------------------------------------------

Gráficos de Setores

Os gráficos de setor (ou pizza) são representados por círculos divididos

proporcionalmente de acordo com os dados do fenômeno ou do processo a ser

representado. Os valores são expressos em números ou em porcentagens

Utilizando a tabela de consoles e vendas abaixo, podemos gerar

um gráfico de setores

Tabela 6 – Principais consoles e a quantidade de aparelhos vendidos

Consoles Aparelhos vendidos (milhões)

Playstation 2 157,68

PSP 80,14

Nintendo Wii 100,41

Xbox 360 79,00

Playstation 3 80,50

Nintendo DS 154,80

Nintendo 3DS 36,56

PSVita 6,15

Nintendo WiiU 3,90

Playstation 4 7,00

Xbox One 5,00

O gráfico gerado será:

11

#----------------------------------------------------------------------------------------------------

No R:



One")

vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15, 3.90,7.00, 5.00)

names(vendas)=consoles

porc<-round(vendas*100/sum(vendas),2) Gera os percentuais de vendas em relação ao total para cada um dos consoles

rotulos<-paste("(",porc,"%)",sep="") Gera os rótulos do gráficos a partir dos percentuais

pie(vendas, main="Consoles e suas respectivas

vendas",labels=rotulos,col=rainbow(11))

legend("bottomleft",1,names(vendas),col = rainbow(11),pch=rep(20,6))

#------------------------------------------------------------------------------------------------

Variáveis Quantitativas

Uma variável é dita quantitativa quando os possíveis resultados são números

em certa escala. As variáveis quantitativas podem ser discretas ou contínuas.

Variáveis Discretas

Descrevem características mensuráveis que podem assumir apenas um número

finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros.

Geralmente são o resultado de contagens. Exemplos: número de filhos, número de

defeitos em uma peça, número de cigarros fumados por dia.

12

A distribuição de frequências e gráficos de variáveis discretas podem ser feitos

de maneira análoga às variáveis qualitativas.

Variáveis Contínuas

Descrevem características mensuráveis que assumem valores em uma escala

contínua (na reta real), para as quais valores fracionais fazem sentido. Podemos

Histograma

O histograma é a forma mais usual de apresentação de distribuições de

freqüências de variáveis contínuas.

Os dados a seguir representam o tempo (em segundos) para carga de um

aplicativo, num sistema compartilhado:

5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1

5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

O histograma será:

#-----------------------------------------------------------------------------------------------------

No R:

tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

hist(tempo, ylim=c(0,20))

#------------------------------------------------------------------------------------------------------

13

Diagrama de Pontos

Uma forma simples de visualizar como poucas observações se distribuem,

onde cada valor é representado como um ponto na reta de números reais.

Para os dados utilizados no histograma, temos o seguinte diagrama de pontos

#------------------------------------------------------------------------------------------------------

No R:

tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

plot(tempo, xlab="", main="Tempos para carga de um aplicativo, num sistema

compartilhado")

#------------------------------------------------------------------------------------------------------

Diagrama ramo-e-folhas

Consiste em apresentar os dados separando os primeiros dígitos, os quais

formarão os ramos, e os demais dígitos, que formarão as folhas.

Para os mesmos dados utilizados no exemplo acima temos o seguinte gráfico

ramos-e-folhas:

14

#------------------------------------------------------------------------------------------------------ No R:

tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

stem(tempo)

#-----------------------------------------------------------------------------------------------------

Diagrama em caixa (Boxplot)

O diagrama de caixas, ou boxplot, é uma representação gráfica para os

conceitos de separatrizes. Trata-se de um retângulo que representa o desvio

interquartílico. Esse retângulo representa, portanto, a faixa dos 50% dos valores mais

típicos da distribuição. O retângulo é dividido no valor correspondente a mediana;

assim, ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os

extremos, são traçadas linhas. Caso existam valores discrepantes, a linha é traçada até

o ultimo valor não discrepante, e os valores discrepantes são indicados por pontos.

Para o exemplo dos tempos de carga de um aplicativo, temos o seguinte

boxplot:

#----------------------------------------------------------------------------------------------------

No R:

tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

boxplot(tempo,main="Tempos para carga de um aplicativo, num sistema

compartilhado")

#------------------------------------------------------------------------------------------------------

68

10

12

14

Tempos para carga de um aplicativo,

num sistema compartilhado

15

3. MEDIDAS DE POSIÇÃO

Média Aritmética

Média Populacional - A média aritmética populacional é dada pela soma de

todos os elementos da população, dividida pelo numero de elementos da população.

Para elementos x1, x2, ..., xn, e número de elementos na população igual à N, temos:

∑

Média Amostral - A média aritmética amostral é dada pela soma de todos os

elementos da amostragem, dividida pelo numero de elementos da amostra. Para

elementos x1, x2, ... , xn, e número de elementos da amostra igual à n, temos:

∑

As propriedades da média temos:

1.A soma algébrica dos desvios em relação à média é nula;

2.Se todos os valores de uma variável forem subtraídos ou adicionados à uma

constante k, a média do conjunto fica adicionada (ou subtraída) dessa constante;

3.Se todos os valores de uma variável forem multiplicados ou divididos por uma

constante k, a média fica multiplicada ou dividida por essa constante.

Foram coletadas o número de defeitos encontrados em placas de circuito

integrado, como se verifica na tabela de frequências abaixo:

Tabela 7– Número de defeitos em placas de circuito Número de defeitos Frequência simples

0 30

1 25

2 10

3 5

4 2

A média amostral de defeitos será:

∑

( ) ( ) ( ) ( ) ( )

#-----------------------------------------------------------------------------------------------------

No R:

Defeitos=c(0,0,0,...,1,1,...,2,2,...,3,3,...,4,4)

mean(Defeitos)

#---------------------------------------------------------------------------------------------------

16

Mediana

É uma medida de tendência central, que indica o elemento central de um

conjunto de dados. Para se encontrar a mediana, primeiramente é necessário ordenar

os elementos em ordem crescente. Depois de feito isto, a mediana será calculada da

seguinte forma:

Utilizando os dados da tabela 7 temos: Número de defeitos encontrados

em placas de circuito integrado,

Então, como n é par (n=72) temos como mediana o seguinte:

e

O 36º e 37º elemento são iguais à 1, logo:

#-----------------------------------------------------------------------------------------------------

No R:

median (Defeitos)

#-----------------------------------------------------------------------------------------------------

MODA

A moda de um conjunto é o elemento que ocorre com maior frequência.

Para o exemplo 1 temos as seguintes frequências:

0 – aparece 30 vezes




4 – aparece 2 vez

A moda será o elemento 0, que ocorreu 30 vezes.

Se n for par:

A mediana será a média

aritmética dos elementos nas

posições: 𝑛

e

𝑛

Se n for ímpar:

A mediana será o

elemento na posição: (𝑛+ )

17

#------------------------------------------------------------------------------------------------

No R:

table(Defeitos)

which(table(Defeitos)==max(table(Defeitos)))

#-----------------------------------------------------------------------------------------------

Esta função imprime a frequência com que ocorre cada elemento do conjunto. E com

isso é possível verificar qual ocorreu mais vezes. Nesta é impresso diretamente o

elemento que ocorreu com maior frequência

4. MEDIDAS DE DISPERSÃO

São medidas que tem como função avaliar o grau de variabilidade de um

conjunto de dados, o quanto estes distam do valor central. As principais medidas de

dispersão são: amplitude, variância e desvio padrão.

Amplitude

É a diferença entre o maior e o menor valor de um conjunto de dados.

Matematicamente:

( ) ( )

Para os dados da tabela 7, que analisa o número de defeitos em placas de

circuito integrado temos:

A amplitude para este conjunto de dados será:

( )

( )

#-----------------------------------------------------------------------------------------------

No R:

min(Defeitos) # encontra o valor mínimo do conjunto de dados “Defeitos”.

max(Defeitos) # encontra o valor máximo do conjunto de dados “Defeitos”.

( ) ( ) #----------------------------------------------------------------------------------------------------

A função “range (Defeitos)” exibe os valores máximo e mínimo do conjunto

de dados Defeitos, porém não calcula a amplitude.

Variância

É definida como a média aritmética dos desvios quadráticos. Esta medida

fornece informações complementares à informação contida na média aritmética. Ela

avalia a dispersão do conjunto de valores em análise.

18

Matematicamente:

Variância amostral: Variância Populacional:

∑ ( )

∑ ( )

A variância dos defeitos encontrados nas peças de circuito integrado será:

∑ ( )

*, ( ) - , ( ) -

, ( ) - , ( ) - , ( ) -+

#------------------------------------------------------------------------------------------------------

No R

var(Defeitos)

#-----------------------------------------------------------------------------------------------------

Desvio padrão

Assim como a variância, essa medida também serve de auxílio para análise da

média aritmética. Como a variância de um conjunto de dados é calculada em função

dos desvios quadráticos, sua unidade de medida equivale à unidade de medida dos

dados ao quadrado. Nesse contexto, é mais comum trabalhar com a raiz quadrada

positiva da variância, que nada mais é que o desvio padrão.

Matematicamente:

Desvio padrão Amostral: Desvio padrão Populacional:

√

∑ ( )

√

∑ ( )

As propriedades abaixo cabem tanto para o desvio padrão quanto para a variância:

1.Somando-se ou subtraindo-se uma constante k do conjunto de dados, o desvio

padrão não se altera;

2.Dividindo-se ou multiplicando-se o conjunto de dados por uma constante k, o

desvio padrão fica dividido ou multiplicado por k;

O desvio padrão para o conjunto de dados número de defeitos será:

√

∑( )

√

{, ( ) - , ( ) - , ( ) -

, ( ) - , ( ) -}

√

19

#------------------------------------------------------------------------------------------------------

No R:

sd(Defeitos)

#------------------------------------------------------------------------------------------------------

Coeficiente de Variação

Esta medida é empregada para estimar a precisão de experimentos e representa

o desvio-padrão expresso como porcentagem da média. Sua principal qualidade é a

capacidade de comparação de distribuições diferentes. É obtida pela razão entre o

desvio padrão e a média, esta medida ainda pode ser multiplicada, e neste caso o

coeficiente de variação está expresso em percentagem.

O coeficiente de variação do número de defeitos será:

#------------------------------------------------------------------------------------------------------

No R:

Cv=[sd(Defeitos)/mean(Defeitos)]*100 #------------------------------------------------------------------------------------------------------

5. SEPARATRIZES

As separatrizes não são medidas de tendência central, mas estão ligadas à

mediana relativamente à sua característica de separar a série em duas partes que

apresentam o mesmo número de valores. Essas medidas são: os quartis, os decis e os

percentis.

Quartis

Denominamos quartis os valores de uma série que a dividem em quatro partes

iguais. Precisamos, portanto de 3 quartis (Q1, Q2 e Q3) para dividir a série em quatro

partes iguais, de forma que: o primeiro quartil, ou quartil inferior (Q1) será o valor que

delimita os 25% menores valores; o quartil superior, ou terceiro quartil (Q3) será o

valor que separa os 25% maiores valores; e o segundo quartil, ou quartil do meio (Q2)

sempre será a própria mediana, isto é, o valor que separa os 50% menores dos 50%

maiores valores, como pode ser verificado na imagem abaixo:

20

Para calcularmos os 3 quartis utilizamos as seguintes fórmulas:

Dados não-agrupados:

1ºQuartil 2ºQuartil (mediana) 3ºQuartil

+

+

( + )

Dados agrupados:

( )

Onde: Qi: Quartil i (1,2,3);

Ii: limite inferior da classe que contém o quartil;

n: número de elementos da série (Σfi);

F(ant): freqüência acumulada da classe anterior à classe que

contém o quartil;

fi: freqüência simples da classe que contém o quartil;

h: amplitude do intervalo da classe mediana.

Decis

Obedecem ao mesmo princípio dos quartis, com a diferença de que os decis

dividem a série em dez partes iguais de 10%. Lembrando que o quinto decil é sempre

igual a mediana.

Para calcularmos os decis utilizamos as seguintes fórmulas:

Dados não agrupados: ( + )

Onde:

i: é o decil que se deseja calcular ( * +); n: é o número de elementos da amostra.

21

Dados-agrupados:

( )

Onde: Di: Decil i (1,2,3,...,10);

Ii: limite inferior da classe que contém o decil;


F(ant): frequência acumulada da classe anterior à classe que

contém o decil;

fi: frequência simples da classe que contém o decil;

h: amplitude do intervalo da classe mediana.

5.3 PERCENTIS

Dividem um conjunto de dados em 100 partes iguais de 1%. O 50º percentil

(P50) é sempre igual à mediana. Para calcularmos os percentis, utilizamos as

seguintes fórmulas:

Dados não agrupados: ( + )

Onde:

i: é o percentil que se deseja calcular ( * +); n: é o número de elementos da amostra.

Dados agrupados:

( )

Onde:

Pi: Percentil i (1,2,3,...,99);

Ii: limite inferior da classe que contém o percentil;


F(ant): frequência acumulada da classe anterior à classe que

contém o percentil;

fi: frequência simples da classe que contém o percentil;

h: amplitude do intervalo da classe mediana. OBS: Quando os resultados das operações acima são fracionários, fazemos

uma interpolação linear com os valores de posições vizinhas ao resultado da fração.

( + )

Onde:

X: é o valor que representa o quartil;

Xi: é o valor que está na posição i;

i: é a parte inteira do resultado da fração;

f: é a parte fracionária do resultado da fração, e;

Xi+1: é o valor que está na posição i+1.

Os dados a seguir representam o tempo (em segundos) para carga de um

aplicativo, num sistema compartilhado:

22

Dados não agrupados:

5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1

5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

solução:

Rol: Primeiramente ordenamos os dados:

4.7 4.8 4.8 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.1 5.1 5.2

5.3 5.4 5.4 5.4 5.5 5.6 5.6 5.7 5.7 5.7 5.7 5.9 6.0

6.0 6.2 6.2 6.2 6.3 6.3 6.4 6.5 6.7 6.8 6.8 6.9 7.0

7.1 7.3 7.3 8.2 8.2 8.3 8.4 8.9 9.1 9.9 14.1

Então calculamos os quartis:

( + ) ( ) ( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

Decis:

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

23

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

Percentis:

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

( )

( )

( + ) ( ) ( )

Dados Agrupados:

A seguir a tabela 8 dos dados agrupados com intervalos de classes:

24

Tabela 8 - Tempo (segundos) para carga de um aplicativo Classes Frequência Fac (Freq. Acumulada)

4 |-- 5 7 7 5 |-- 6 18 25 6 |-- 7 13 38 7 |-- 8 4 42 8 |-- 9 5 47

9 |-- 10 2 49 10 |-- 11 0 49 11 |-- 12 0 49 12 |-- 13 0 49 13 |-- 14 0 49 14 |-- 15 1 50

Solução:

Quartis:

Decis:

Percentis:

25

Observe que alguns valores são iguais, como por exemplo, Q2, D5 e P50, isto

porque os três valores representam a mediana, a seguir temos algumas igualdades

interessantes:

#------------------------------------------------------------------------------------------------------

No R:

quantile (dados, x, type=6)

#------------------------------------------------------------------------------------------------------

Onde: x: o percentual que se deseja encontrar, por exemplo, para o primeiro

quartil, x será 0.25; segundo quartil, x será 0.50; dados: é um determinado conjunto

de dados.

6. MODELOS PROBABILÍSTICOS DISCRETOS

Antes de introduzirmos as principais distribuições discretas, é necessário

ressaltar um importante conceito da estatística indutiva, as variáveis aleatórias. Uma

variável aleatória pode ser uma variável quantitativa cujo resultado depende de fatores

aleatórios, como por exemplo, o lançamento de um dado, ou então o número de

coroas obtido no lançamento de duas moedas. Essas variáveis aleatórias podem ser

discretas ou contínuas, as que serão abordadas neste tópico serão as variáveis

aleatórias discretas, que são as variáveis em que seus possíveis resultados estão

contidos em um conjunto finito ou enumerável.

26

Distribuição de probabilidade

A distribuição de probabilidades de uma variável aleatória é a descrição do

conjunto de probabilidades associadas aos possíveis valores de , como por exemplo:

a distribuição de probabilidades para o lançamento de um dado será:

Valores Possíveis X Probabilidades

P(X)

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

Total 1

Distribuição Binomial

A distribuição binomial nada mais é que a realização de n ensaios de

Bernoulli. Um ensaio de Bernoulli visa observar a presença ou não de uma

determinada característica em uma tentativa, ou seja, se houve sucesso ou fracasso.

Ensaio de Bernoulli caracteriza-se por uma variável aleatória , definida por ,

se sucesso, e , se fracasso. Com isso, temos a distribuição de probabilidades de

:

X P(X)

0 1-p

1 P

Total 1

Portanto a distribuição binomial trata de eventos independentes entre si, em

que a cada evento (tentativa), nada mais é que um ensaio de Bernoulli.

Para se realizar o cálculo da probabilidade do evento , onde é um

valor possível da variável aleatória , é necessário conhecer o número de maneiras

em que podemos combinar os sucessos entre ensaios. Este valor é o coeficiente

binomial, e entra no cálculo da probabilidade como um coeficiente das potências de

e . Este coeficiente é dado pela seguinte fórmula:

.

/

( )

E a expressão geral para o cálculo da probabilidade do evento é dada pela

fórmula:

( ) .

/ ( )

Valor Esperado e Variância:

( )

( ) ( )

27

Dados históricos mostram que 5% dos itens provindos de um fornecedor

apresentam um tipo de defeito (p). Considerando um lote com 20 itens,

calcular a probabilidade de:

a) haver exatamente três defeitos:

( )

( ) ( ) ( )

( ) ( )

b) haver mais de dois itens defeituosos:

( )

( ) ( ) ( )

( ) ( ) ( ) ( ) ( ( ) ( ) ( ))

[(

( ) ( ) )

(

( ) ( ) )

(

( ) ( ) )]

, -

c) Haver menos de 4 itens com defeito:

( )

( ) ( ) ( ) ( ) ( ) ( ) ( )

[(

( ) ( ) )

(

( ) ( ) )

(

( ) ( ) )

(

( ) ( ) )]

, -

#-----------------------------------------------------------------------------------------------------

No R:

( ) # para calcular a probabilidade para um único

( ) #calcula a probabilidade por exemplo,

#se , irá calcular ( ) ( ) ( )

28

Onde:

é um valor possível da variável aleatória ,

é o número de elementos

é a probabilidade de sucesso

#Para o exemplo acima, a resolução no R seria:

( )

( )

( ) #ou

( ) ( )

#-------------------------------------------------------------------------------------------------

Distribuição de Poisson

A distribuição de Poisson expressa a probabilidade de um tipo de evento por

unidade de tempo, de comprimento, de área, ou de volume, sendo que os eventos em

questão devem ser independentes de quando ocorreu o último evento

O cálculo da probabilidade se dá pela seguinte fórmula:

( )

Onde é a taxa média de consultas por unidade de tempo.

E o valor esperado:

( ) ( )

Também é possível utilizarmos a distribuição de Poisson nos casos em que os

experimentos binomiais possuem um n muito grande e p for pequeno, é possível

utilizar a distribuição de Poisson com:

Supondo que as consultas num banco de dados ocorrem de forma

independente e aleatória, com taxa média de 4 consultas por minuto.

a) Calcule que no próximo minuto ocorram menos do que 3 consultas.

( )

( ) ( ) ( ) ( )

b) Calcule que no próximo dois minutos ocorram mais de 5 consultas.

( )

( ) ( ) ( ) ( ) ( )

, ( ) ( ) ( ) ( ) ( ) ( )- 0

1 ,

-

29

c) Calcule que no próximo dois minutos ocorram exatamente 3 consultas.

( )

( )

#-----------------------------------------------------------------------------------------------------

No R:

( ) # para calcular a probabilidade para um único x

( ) #calcula a probabilidade de forma acumulativa, por exemplo,

# se , irá calcular ( ) ( ) ( )

#Logo, a resolução no R para o exemplo acima será:

( )

( )

( ) #------------------------------------------------------------------------------------------------------

7. MODELOS PROBABILÍSTICOS CONTÍNUOS

Os modelos probabilísticos têm como função descrever fenômenos físicos, no

caso dos modelos contínuos, descreverem fenômenos que são representados por

variáveis contínuas, ou em outros casos, também são utilizados para variáveis

discretas, quando a amostra é muito grande. Antes de apresentarmos os modelos

contínuos, trataremos um pouco das variáveis aleatórias contínuas.

Variáveis Aleatórias Contínuas

As variáveis aleatórias contínuas são variáveis definidas sobre um intervalo

infinito e não enumerável, ou seja, são variáveis que possuem valores definidos em

intervalos reais. Alguns exemplos: tempo de resposta de um sistema operacional,

rendimento de um processo químico, tempo de vida de um componente eletrônico,

entre outros.

Distribuição Uniforme

É a distribuição contínua mais simples, e é definida como: “Uma variável

aleatória tem como distribuição uniforme de parâmetros e , sendo , se

sua densidade é especificada por:

( ) {

, -

, -

E sua distribuição acumulada é dada por:

30

( ) {

O valor esperado e a variância de uma distribuição uniforme são:

( )

( ) ( )

A ocorrência de panes em uma rede telefônica de 6 km é modelada por uma

distribuição Uniforme. Com Base nisto, calcule:

Intervalo: [0, 6]

a) E(x)=?

( )

b) V(x)=?

( ) ( )

( )

( )

c) Probabilidade de ocorrer panes no primeiro quilômetro:

( ) ∫ ( )

( ) ( )

d)Probabilidade de ocorrer pane entre os quilômetros 3 e 5:

( ) ∫ ( )

( ) ( )

e)Probabilidade de ocorrer pane acima do quilômetro 4:

( ) ∫ ( )

( ) ( )

#-----------------------------------------------------------------------------------------------------

No R:

( )

( )

( ) ( )

( ) #------------------------------------------------------------------------------------------------------

31

Distribuição Exponencial

Esta distribuição possui relação com o modelo discreto de Poisson. A

distribuição de Poisson modela o número de ocorrências em um período contínuo de

tempo ou de comprimento, já a distribuição exponencial modela a variável aleatória

que representa esses períodos contínuos.

Uma variável aleatória contínua tem distribuição exponencial com

parâmetro , se sua função de densidade de probabilidade é representada por:

( )

Desta forma função de distribuição é:

( )

Valor Esperado e a Variância são:

( )

( )

Para uma variável T, que é o tempo de resposta em um banco de dados, com

função densidade de probabilidade:

( ) ( )

Calcule a probabilidade, em vista que , do tempo de resposta ser:

a)Menor que 2 minutos:

( ) ( )

b)Entre 1 e 2 minutos:

( ) ( ) ( ) , - , - , - , - , - , -

c)Maior que 3 minutos:

( ) ( ) [ ] , - , -

, -

#------------------------------------------------------------------------------------------------------

No R:

( )

#Onde:

é o valor da variável aleatória

# é o parâmetro da distribuição

32

#Para o exemplo acima, as funções utilizadas foram:

( )

( ) ( )

( )

#------------------------------------------------------------------------------------------------------

Distribuição Normal

Também conhecida como distribuição de Gauss, a distribuição normal é uma

das mais importantes na estatística, pois permite modelar uma finalidade de

fenômenos naturais, e possui uma vasta aplicação, seja na realização de aproximações

para calcular probabilidades de variáveis aleatórias com outras distribuições e número

de observações grande ou então na inferência estatística. A função de probabilidade

de uma distribuição normal é caracterizada graficamente por uma curva com forma de

sino, como pode ser verificado na figura abaixo:

Fonte: Portal Action (www.portalaction.com.br)

A função densidade de probabilidade da distribuição normal, para uma

variável aleatória contínua de parâmetros é:

( )

√

.

/

O valor esperado e a variância serão:

( )

( )

Para uma variável aleatória de distribuição normal denotamos ( ).

Para simplificar cálculos, esta variável é transformada em uma forma

padronizada com distribuição ( ). Essa padronização é a distribuição normal

padrão, a qual é tabelada, e é definida por:

Qualquer área (probabilidade) sob a densidade de pode ser representada sob

a densidade de , como visto no gráfico abaixo:

http://www.portalaction.com.br/

33

Fonte: BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e

Informática. Atlas, 2004.

Tabela de distribuição normal padrão

As probabilidades de uma variável com distribuição normal podem ser

representadas por áreas sob a curva da distribuição normal padrão. Desta forma, ao

utilizarmos a fórmula #, obtém-se um valor , que será encontrado na tabela abaixo,

para obter-se a área (probabilidade) sob a cauda superior à curva.

Na tabela, os valores são representados por duas decimais. A primeira

decimal fica na coluna da esquerda e a segunda decimal na linha do topo da tabela.

O tempo para um sistema computacional execute determinada tarefa é uma

variável aleatória com distribuição normal, com média de 220 segundos e desvio

padrão de 10 segundos.

a)Qual a probabilidade da tarefa ser executada entre 210 e 230 segundos?

Encontramos os valores de Z para x=210 e x=230

Então, calculados os valores de Z, procuramos os mesmos na tabela, olhando

na coluna esquerda, a na linha do topo, desta forma encontramos:

Então, por fim, calculamos a probabilidade da seguinte forma:

( )

( ) , ( ) ( )- , -

34

b)Qual a probabilidade da tarefa ser executada em menos 240 segundos?

( ) ( ) , ( )-

c) Qual a probabilidade da tarefa ser executada com mais de 200 segundos?

( ) ( ) , ( )-

35

Aproximação normal à binomial e normal à Poisson

Com base no Teorema Do Limite Central, que diz que, "toda soma de

variáveis aleatórias independentes de média finita e variância limitada é

aproximadamente Normal, desde que o número de termos da soma seja

suficientemente grande", é possível utilizar a distribuição normal para calcular

probabilidades das distribuições Binomial e Poisson.

Distribuição Binomial

Quando n for muito grande e p não tão próximo de 0 e 1, podemos utilizar a

distribuição normal, de forma que e são definidas por:

√ ( )

De um lote de produtos manufaturados, extrai-se 100 itens ao acaso. Se 10 %

dos itens do lote são defeituosos, calcular a probabilidade de:

a) menos de 12 itens serem defeituosos?

√ ( ) √ ( ) √ √

( ) ( ) , ( )-

b) mais que 6 itens serem defeituosos?

√ ( ) √ ( ) √ √

( ) ( ) , ( )-

Distribuição Poisson

Quando for muito grande, a distribuição normal pode ser aplicada em

variáveis com distribuição de Poisson. Os parâmetros e são definidos por:

√

36

Uma empresa de auxílio à lista telefônica recebe, em média, sete solicitações

por minuto, segundo a distribuição de Poisson. Qual a probabilidade de ocorrer:

a)no mínimo 10 e no máximo 13 solicitações em 10 minutos?

√ √

( ) ?

( ) ( ) ( )

b) menos de 5 solicitações em 10 minutos?

√ √

( ) ( )

#------------------------------------------------------------------------------------------------------

No R:

( )

# Se for unilateral à esquerda ( ), lower.tail=TRUE

# Se for unilateral à direita ( ), lower.tail=FALSE

#Para os casos bilaterais utiliza-se:

( ) ( ) #-----------------------------------------------------------------------------------------------------

8. INTRODUÇÃO A CADEIA DE MARKOV

Processos estocásticos são processos que apresentam resultados aleatórios,

imprevisíveis, e fazem parte da análise de probabilidades. Um dos modelos que

melhor explica estes processos são as cadeias de Markov.

Cadeias de Markov

Uma cadeia de Markov pode ser definida como uma seqüência de estados

denotados por . O processo se inicia em um desses estados denominado

, e move-se para outro estado , com probabilidade , sendo que esta

37

probabilidade não depende das situações (estados) anteriores, e sim do estado atual. A

probabilidade é denominada probabilidade de transição.

Essas probabilidades de transição são agrupadas em uma matriz, denominada

matriz de transições.

Para que o conceito se torne mais claro, a seguir temos um exemplo:

Os hábitos de estudo de um estudante são os seguintes: se estuda uma noite,

tem de certeza que não estudará na noite seguinte. Em contrapartida, se não

estuda uma noite, tem de certeza de que não estudará também na noite seguinte.

Tabela 9 - Probabilidades de transição dos hábitos de estudo de um estudante

Probabilidades de transição

Estudar (S) Não estudar (T)

Estudar (S)

Não estudar (T)

Considerando as informações dadas e considerando que a probabilidade total,

ou seja, a soma da probabilidade de estudar ou não estudar é , preenchemos a

tabela com as seguintes probabilidades.

A partir desta tabela obtemos a matriz de transições descrita abaixo:

A partir desta matriz, é possível realizarmos análises diversas, essas análises

de forma geral são baseadas em um período de tempo discreto, por exemplo:

Qual a probabilidade de que o estudante estude nas próximas três noites? Ou,

qual a probabilidade de o aluno não estudar nos próximos cinco dias? Ou ainda: Com

que frequência o aluno estuda numa sequência suficientemente grande de dias?

Antes de resolvermos as questões acima introduziremos mais alguns conceitos

e propriedades.

Vetor fixo:

Uma cadeia de Markov possui um vetor fixo se esta for uma cadeia de Markov

regular. Isto quer dizer que, se uma cadeia de Markov é regular, esta possui um vetor

que é ponto fixo o qual para qualquer escolha o vetor ( ) converge a

conforme aumenta.

Vetor de probabilidade inicial : é um vetor que contém as probabilidades

iniciais de uma determinada situação, seguindo o exemplo do estudante tratado acima

podemos considerar como uma distribuição de probabilidade inicial o fato do

estudante ter de chance de estudar no primeiro dia e de chance de não

estudar no primeiro dia. Logo, a distribuição será: ( ).

38

Vetor de probabilidades dos dias subsequentes: é dada pela multiplicação do

vetor de probabilidade inicial pela matriz de transição no dia , isto é, .

Matriz de Transição de passo n: É representada por , em que se nada

mais é que a matriz de transições. E se obtém-se a matriz através da

multiplicação das matrizes de transições, por exemplo, para encontrarmos a matriz de

transições de passo 4, multiplicamos .

Para entendermos melhor a aplicação de cadeias de Markov consideramos a

seguinte situação: ao jogarmos um dado pela primeira vez, a probabilidade para cada

face é de ⁄ , ao jogarmos este dado pela décima vez, a probabilidade continua a

mesma. Agora se considerarmos um jogador de futebol em uma partida, ao cobrar um

pênalti ele tem determinada probabilidade de acerto e de erro na primeira cobrança,

dependendo do resultado, acerto ou erro, a probabilidade para a segunda cobrança

será diferente, pois ao errar o jogador perde confiança e ao acertar, ganha.

Verifique se o vetor (

) é um vetor de probabilidade?

Um vetor de probabilidade não pode conter elementos negativos, logo o vetor

dado não é um vetor de probabilidades.

Considere a matriz 0

1. Então o vetor ( ) é um ponto fixo de

.

O vetor é ponto fixo de , pois , como verificado abaixo:

( ) 0

1 ( )

#------------------------------------------------------------------------------------------------------

No R:

mtrans=c(2, 2, 1, 3)

P1=matrix(mtrans, ncol=2)

P1

dprob=c(2, -1)

p0=matrix(dprob, nrow=1)

p0

# u*A = u

M=p0%*%P1

M

#------------------------------------------------------------------------------------------------------

Pelo teorema, qualquer escalar

, temos ( ) ( ) . Demonstre numericamente que o vetor

39

2 , são pontos fixo de . Determine um vetor fixo de probabilidade, da

matriz estocástica regular

[

⁄

⁄]

Para determinarmos um vetor fixo de probabilidades , temos que ter em

mente que por se tratar de um vetor de probabilidades, a soma de seus componentes

deve ser . Desta forma, temos que ( ) e que ( ) .

Então realizamos a multiplicação dada pela fórmula:

( ) [

⁄

⁄] ( )

Multiplicando:

⁄

⁄ ⁄ ⁄

⁄ ⁄

⁄

⁄

⁄

⁄

⁄ ⁄

⁄

⁄

⁄ ⁄

⁄ ⁄

Vetor de probabilidades ( ⁄ ⁄ )

Para comprovarmos o teorema descrito no enunciado basta multiplicarmos

pela matriz A.

( ⁄ ⁄ ) [

⁄

⁄] ( ⁄ ⁄ ) [

⁄

⁄] ( ⁄ ⁄ )

( ⁄ ⁄ ) [

⁄

⁄] ( ) [

⁄

⁄] ( )

( ⁄ ⁄ ) [

⁄

⁄] . ⁄

⁄ / [

⁄

⁄] . ⁄

⁄ /

#------------------------------------------------------------------------------------------------------

No R:

mtrans=c(0, 1/2, 1, 1/2)

P1=matrix(mtrans, ncol=2)

P1

dprob=c(1/3, 2/3)

40

p0=matrix(dprob, nrow=1)

p0

# 2u*A = u

M1=(2*p0)%*%P1

M1

# 3u*A = u

M2=(3*p0)%*%P1

M2

# 5u*A = u

M3=(5*p0)%*%P1

M3

#------------------------------------------------------------------------------------------------------

Os hábitos de estudo de um estudante são os seguintes: se estuda uma noite, tem

de certeza que não estudará na noite seguinte. Em contrapartida, se não estuda uma

noite, tem de certeza de que não estudará também na noite seguinte.

a) Encontre a matriz de transição:

b) Com que frequência o aluno estuda numa sequência suficientemente

grande de dias?

Obtemos esta informação através do vetor fixo de probabilidades, para tenato

encontramos este através da fórmula

( ) [

⁄

⁄] ( )

Multiplicando:

⁄

⁄

Vetor de probabilidades . ⁄ ⁄ /

O aluno estuda ⁄ vezes

Dada a matriz de transição [

⁄

⁄

⁄

⁄

], e a distribuição de

probabilidade inicial (

). Determine:

( ),

( ) ,

( ).

41

[

⁄

⁄

⁄

⁄

] [

⁄

⁄

⁄

⁄

]

[

⁄

⁄

⁄

⁄

⁄

⁄

⁄ ]

( )

⁄

( )

[

⁄

⁄

⁄

⁄

⁄

⁄

⁄ ]

[

⁄

⁄

⁄

⁄

⁄

⁄

⁄ ]

[

⁄ ⁄

⁄

⁄

⁄ ⁄

⁄

⁄ ⁄ ]

(

)

[

⁄ ⁄

⁄

⁄

⁄ ⁄

⁄

⁄ ⁄ ]

(

)

( )

#------------------------------------------------------------------------------------------------------

No R:

mtrans=c(0, 0.5, 0, 0.5, 0.5, 1, 0.5, 0, 0)

M1=matrix(mtrans, nrow=3, ncol=3)

M1

dprobp0=c((2/3), 0, (1/3))

M2=matrix(dprobp0, nrow=1, ncol=3)

M2

# p(2) 3,2

p2=M1%*%M1; p2;

p232=p2[3,2]; p232

# p(2) 1,3

p2=M1%*%M1; p2;

p213=p2[1,3]; p213

#P4

P4=p2%*%p2

P4

#p4 p0*P4

p4=M2%*%P4

p43=p4[1,3]; p43

#----------------------------------------------------------------------------------------------------

42

9. INFERÊNCIA ESTATÍSTICA:

Distribuição Amostral e Intervalo de Confiança

A inferência estatística é o ramo da estatística que visa apresentar resultados

sobre uma população baseando-se em amostras. Dentre os vários mecanismos para

apresentar tais resultados, temos os Intervalos de Confiança.

Distribuições Amostrais

Quando falamos em variáveis aleatórias, temos as chamadas distribuições de

probabilidades que é a descrição do conjunto de probabilidades associadas aos

possíveis valores de X, sendo X uma variável aleatória. A distribuição amostral, nada

mais é que uma distribuição de probabilidades de uma medida estatística baseada em

uma amostra aleatória. Essas distribuições são de grande uso na inferência estatística.

Quando a amostragem é aleatória simples, existem distribuições amostrais que

se aproximam de distribuições contínuas conhecidas. É o caso da média e da

proporção.

Distribuição Amostral da média

Para inferirmos a média de uma população a partir de uma amostra, é

necessário analisarmos a distribuição amostral dessa média, ou seja, é necessário

conhecer como as médias amostrais estão distribuídas.

O valor esperado da média amostral é igual à média populacional:

( ) A variância da média amostral é inferior à variância populacional:

( )

Distribuição Amostral da Proporção

Da mesma forma que a média, para inferirmos a proporção populacional,

devemos conhecer a distribuição amostral da proporção.

O valor esperado da proporção amostral é igual à proporção populacional:

( ) A variância da proporção amostral é menor que a variância populacional:

( ) ( )

ou ( )

( )

Intervalos de Confiança

São utilizados para indicar a confiabilidade de uma estimativa, isto é, mostram

se os resultados de uma estimativa são ou não confiáveis.

Intervalo de Confiança Para Proporção

Muitas vezes, é necessário estimar uma determinada proporção. Para testar a

confiabilidade desta estimativa utilizamos o desvio padrão da distribuição amostral ,

ou erro padrão, e consideramos o fato de que quando n é grande, a distribuição

amostral de é aproximadamente normal. Logo o intervalo de confiança para a

proporção é definido por:

43

( )

√ ( )

Onde: p é a proporção populacional

é o nível de confiança

é o nível de significância

é a proporção amostral

é o tamanho da amostra

é o valor da tabela normal, com base no nível de significância

Uma empresa fabricante de pastilhas para freios efetua um teste para controle

de qualidade de seus produtos. Selecionou-se 400 pastilhas, das quais 15

apresentaram níveis de desgaste acima do tolerado. Construir o Intervalo de

Confiança para proporção de pastilhas com desgaste acima do tolerado, do atual

processo industrial. Use nível de significância de 5%.

( )

√ ( )

√

( )

( ) √ , - , -

foi obtido a partir da tabela normal padrão

#---------------------------------------------------------------------------------------------------

No R:

p= 15/400; p

n=400; n

z=qnorm(c(0.025,0.975), mean=0, sd=1, lower.tail=TRUE);z #bilateral

erroamostral = (z*sqrt((p*(1-p))/n)); erroamostral

IC = (p + erroamostral); IC

#qnorm: fórmula para calcular o valor de z

#p: proporção amostral

#n: tamanho da amostra

#função direta no R:

prop.test (15,400, conf.level=0.95)

#------------------------------------------------------------------------------------------------------

Intervalo de Confiança para média com desvio padrão conhecido

Considerando uma amostra aleatória simples, com distribuição

aproximadamente normal, e considerando que a média amostral tem distribuição

aproximadamente normal, com média e variância

, o desvio padrão, também

chamado de erro amostral, será:

44

√

E o intervalo de confiança pode ser encontrado por:

( )

√

Uma fundição produz blocos para motor de caminhões. Os blocos têm furos

para as camisas e deseja-se verificar qual é o diâmetro médio no processo do furo. A

empresa retirou uma amostra de 40 blocos e mediu os diâmetros de 1 furo de cada

bloco (40 furos). O desvio padrão populacional é de 4,0mm. A amostra recolhida foi,

em milímetros:

105 100 96 98 104 99 92 96 97 97

100 98 102 95 95 94 103 102 100 98

96 96 100 101 101 94 98 97 97 96

100 102 94 95 94 101 103 103 101 95

A partir dos valores das amostras, calcule a média amostral e encontre o

intervalo de confiança para a média com nível de significância de 10%.

∑

( )

( )

√

√

, -

#------------------------------------------------------------------------------------------------------

No R:

furos=c(105, 100, 96, 98, 104, 99, 92, 96, 97, 97, 100, 98, 102, 95, 95, 94,

103, 102, 100, 98, 96, 96, 100, 101, 101, 94, 98, 97, 97, 96, 100, 102, 94, 95,

94, 101, 103, 103, 101, 95)

n = 40; n

M = mean(furos); M

dp = 4.0; dp

z=qnorm(c(0.05,0.95), mean=0, sd=1, lower.tail=TRUE); z #bilateral

erroamostral = (z*(dp/sqrt(n))); erroamostral

IC = (M + erroamostral) ; IC

#ou função direta no R:

require (asbio)

ci.mu.z( furos, con=0.95, sigma=0.2)

#---------------------------------------------------------------------------------------------------

45

Intervalo de Confiança para média com desvio padrão desconhecido

Na prática, geralmente o desvio padrão populacional não é conhecido, neste

caso, o erro amostral será dado, não mais em função do desvio populacional, mas sim

pelo desvio amostral:

√

E o intervalo de confiança será dado por:

( )

√

Deseja-se avaliar a dureza esperada μ do aço produzido sob um novo processo

de têmpera. Uma amostra de dez corpos de prova de aço produziu os seguintes

resultados, em HRc: [36.4 35.7 37.2 36.5 34.9 35.2 36.3 35.8 36.6 36.9]

Construir o Intervalo de confiança para a verdadeira média com nível de significância

de 5%.

Neste caso, calcula-se a média amostral, e o desvio padrão amostral, pois não

possuímos o desvio populacional.

∑

( )

√

∑( )

√,( ) ( ) ( ) ( ) -

√

√

√

( )

√

√

, -

46

#------------------------------------------------------------------------------------------------------

No R:

#1ª) Utilizando a função t.test

d_aço=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)

t.test(d_aço, conf.level=0.95)

#2ª) programando

d_aço=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)

n = 10 ;n

M = mean(d_aço); M

dp = sd(d_aço); dp

t = qt (c(0.025, 0.975), df = n-1, lower.tail=TRUE);

erroamostral = (t*dp/sqrt(n)); erroamostral

IC = (M + erroamostral) ; IC

#df= grau de liberdade

#qt = fórmula utilizada para calcular t qt(vetor com as probabilidades, grau de

liberdade, lower.tail=TRUE (bilateral))

#------------------------------------------------------------------------------------------------------

10. TESTES DE HIPÓTESE PARA UMA AMOSTRA

Um teste de hipótese consiste em um teste estatístico para rejeitar ou não uma

hipótese pautada em uma amostra.

Um teste estatístico é composto pela hipótese nula e pela hipótese alternativa.

Hipótese nula ( ): é a hipótese que será testada, sendo definida como a igualdade

sobre o parâmetro em estudo.

Hipótese alternativa ( ): a hipótese alternativa, como o nome sugere, é a hipótese

contrária a hipótese nula, ou seja, trata da desigualdade no parâmetro de interesse, que

pode ser unilateral a esquerda (menor), unilateral a direita (maior) ou bilateral

(diferente)

Tipos de erro

Quando é realizado um teste de hipótese, a decisão pode resultar em um erro,

como pode ser visualizado na tabela abaixo:

Aceitar Rejeitar

verdadeira Decisão correta

( )

Erro tipo I

( )

H0 falsa Erro tipo II

( )

Decisão correta

(( )

O erro do tipo I consiste em rejeitar , quando na verdade deveria ser

aceita, já no erro do tipo II, aceita-se quando esta é na verdade falsa.

47

Etapas do teste

Um teste de hipótese é composto por quatro etapas:

i) Construção das hipóteses

ii) Valor tabelado (região crítica) - (baseado na tabela – teste

para a proporção e teste para média com variância conhecida, baseado na

tabela de Student – teste para média com variância desconhecida,

baseado na tabela qui-quadrado – teste para variância)

iii) Estatística teste: valor calculado obtido através de uma fórmula

iv) Conclusão: não rejeita ou rejeita-se

Teste de hipótese para proporção

Este teste tem objetivo de verificar se a proporção de um atributo da população

é ou não igual a um valor .

Hipótese Nula :

Hipótese alternativa : (teste bilateral)

(teste unilateral à esquerda)

(teste unilateral à direita)

Região Crítica

A região crítica é dada a partir da tabela normal padrão ( ), onde, através de

um nível de significância fixado e considerando se o teste é ou não bilateral,

conseguimos encontrar na tabela o valor que define a região crítica.

Por exemplo:

Se tivermos ,

teste unilateral à esquerda, = ( ),

teste bilateral z = ( )

teste unilateral à direita z = ( ).

Como pode ser entendido melhor nos gráficos abaixo.

48

Estatística teste

√ ( )

Onde:

tamanho da amostra

proporção segundo

número de elementos com o atributo de interesse

Conclusão

Se o valor da estatística teste se encontrar na região crítica, rejeita-se , caso

contrário não rejeita-se .

Há também a abordagem p-valor, que funciona da seguinte forma:

Para conclusão do teste utilizando-se a abordagem p-valor utilizamos a tabela

normal padrão para encontrar o valor de com base na estatística teste. Por exemplo,

se o valor de ( calculado) for igual a , p será . Seguindo o exemplo a

conclusão será a seguinte:

O controle estatístico de certo processo estabeleceu que dos produtos

tem que estar sem defeitos. Para verificar a validade desta afirmação, foi coletada uma

49

amostra de produtos, obtendo uma proporção sem defeitos de . Com 5% de

significância, há evidência de que o processo está diferente do esperado?

Abordagem clássica

i) Hipóteses

(teste bilateral)

ii) Região Crítica - Tabela Normal Padrão temos que para um teste

bilateral com o valor de e as regiões críticas serão:

iii) Estatística teste

√ ( )

√ ( )

iv) Conclusão:

Considerando que o valor da estatística teste igual , está fora

da região crítica, não rejeita para nível de significância de . Não há evidência

de que o processo está diferente do esperado.

Abordagem p-valor

Na abordagem p-valor, os valores de tabelado (região crítica) e calculado

(estatística)

#------------------------------------------------------------------------------------------------------

No R:

( ) #------------------------------------------------------------------------------------------------------

50

Teste de hipótese para média com variância conhecida

Este teste tem objetivo de verificar se a média de uma população é igual a

certo valor.

Hipótese Nula :




Região Crítica

A região crítica é definida da mesma forma que no teste para proporção,

através da tabela normal padrão.

Estatística teste ( ) √

Onde tamanho da amostra

média segundo H0

média amostral

desvio padrão populacional

Conclusão

Tanto na abordagem clássica quanto p-valor, a conclusão se dá da mesma

forma.

Certo tipo de pneu, dura em média, e tem desvio padrão igual à

. O fabricante investiu em uma nova composição de borracha para pneus.

Numa amostra de vinte pneus com a nova composição, duraram em média

. Supondo que a durabilidade segue a distribuição normal, verificar se os

dados provam que os pneus novos são mais duráveis. Use nível de confiança de .

i) Hipóteses


ii) Região Crítica

Pela Tabela Normal Padrão sabemos que para um teste unilateral a

direita com = o valor de z e as regiões críticas serão:

51


( ) √

( ) √

iv) Conclusão:

Considerando o valor da estatística teste igual a , e está na região

crítica, rejeita-se para nível de significância de 0.01. Não é possível afirmar que os

pneus da amostra são mais duráveis.

Abordagem p-valor

Na abordagem p-valor, os valores críticos e o valor da estatística teste são os

mesmos da abordagem clássica, a conclusão se dará da seguinte forma: buscamos

na tabela normal padrão pela primeira linha e coluna, o valor encontrado é

.Como , e rejeita-se pelo método p-

valor.

#------------------------------------------------------------------------------------------------------

No R:

# valor crítico: tabelado

( ( ) ) #estatística teste

#desvio padrão

(( ) ( )) #-----------------------------------------------------------------------------------------------------

52

Teste de hipótese para média com variância desconhecida

Na prática, é mais comum não termos informação sobre a variância

populacional, neste caso, utilizamos uma estatística teste diferente, e construímos a

região crítica com base na tabela t de Student.

Hipótese Nula :




Região Crítica

A região crítica é dada pela tabela t de Student onde consideramos para teste

unilateral e

para bilateral e com grau de liberdade (gl) igual a . Por exemplo,

suponhamos que o tamanho da amostra analisada seja 15, então o grau de liberdade

será . Considerando um teste com temos que t

será:

53


( ) √

Onde:

tamanho da amostra

média segundo

média amostral

desvio padrão amostral

Conclusão

Tanto na abordagem clássica quanto p-valor, a conclusão se dá de forma

análoga ao teste para média com variância conhecida, se o valor da estatística teste

estiver fora da região crítica, não rejeita , caso contrário rejeita-se .

Padrões técnicos exigem que o nível de ruído em CPDs seja de, no máximo,

. Foram analisados CPDs de várias organizações, obtendo-se os seguintes

valores máximos de ruído:

a) calcule a intensidade de ruído médio e desvio padrão para os CPDs.

b) A intensidade de ruído médio dos CPDs nos horários críticos é

superior ao especificado? Use o nível de confiança de .

a) Média:

∑

( )

Desvio Padrão:

54

√

∑ ( )

=

√

∑ ,( ) ( ) ( )

√

√

b)

i) Hipóteses



Pela Tabela t de Student temos que para um teste unilateral à direita

com = o valor de t e as regiões críticas serão:


( ) √

( ) √

iv) Conclusão: Considerando que a estatística teste, , está na região

crítica, rejeita-se para nível de significância de . Há evidência de que a

intensidade de ruído médio dos CPDs nos horários críticos é superior ao especificado.

Abordagem p-valor

Na abordagem p-valor, os valores críticos e a estatística teste são os mesmos

da abordagem clássica, a conclusão se dará da seguinte forma:

A estatística teste (t) é igual a , então buscamos na tabela t de

Student com , o valor encontrado de p valor é . Como o

, rejeita-se pelo método p-valor.

55

#------------------------------------------------------------------------------------------------------

No R:

( ) ( ) ( ) #greater: unilateral superior #less: unilateral inferior #two.sided: bilateral

#----------------------------------------------------------------------------------------------------

Teste de hipótese para variância

Este teste é utilizado quando se deseja verificar alterações na variabilidade.

Hipóteses

Hipótese Nula :




Região Crítica

A região crítica é dada pela tabela qui-quadrado considerando

( ) para teste unilateral à esquerda,

(

) em cauda superior e (

) em cauda inferior para bilateral

(n-1, ) para teste unilateral à direita.

Como pode ser verificado abaixo, tendo como exemplo hipotético e

em um teste unilateral à esquerda, bilateral e unilateral à direita.

56

Estatística teste

( )

Onde:

tamanho da amostra

variância segundo

variância amostral

Conclusão

Tanto na abordagem clássica quanto p-valor, a conclusão se dá de forma

análoga ao teste para média com variância conhecida, se calculado estiver fora da

região crítica não rejeita , caso contrário rejeita-se .

Usuários de uma rede de transmissão de energia elétrica têm reclamado da alta

variação na tensão (desvio padrão de ). A empresa encarregada da transmissão de

energia elétrica na região instalou novos transformadores. O desvio padrão calculado

sob observações independentes foi de e a distribuição de frequências dos

valores da amostra sugere uma distribuição normal. Há evidência da redução na

variação da tensão? Use alfa .

57

i) Hipóteses

(teste unilateral à esquerda) – (há evidência da redução)


Pela Tabela Qui-Quadrado temos que para um teste bilateral com

= os valores de tabelado e as regiões críticas serão:


( )

( )

iv) Conclusão:

Considerando que a estatística teste igual , está na região crítica,

rejeita-se para nível de significância de . É possível afirmar que houve

redução na variação da tensão.

Abordagem p-valor



calculado é igual a , então buscamos na tabela qui-quadrado

com , o valor q encontrado é , ou seja, . Como

, e com rejeita-se pelo método p-valor.

#-----------------------------------------------------------------------------------------------------

No R:

( ( ) ) (( ) ) #------------------------------------------------------------------------------------------------------

58

11. TESTE DE HIPÓTESES PARA DUAS AMOSTRAS

Às vezes há interesse em comparar duas amostras como, por exemplo, dois

sistemas computacionais para a informatização de um processo.

Para tanto, são utilizados testes paramétricos para análise estatística sobre os

dois conjuntos de dados.

As amostras analisadas podem ser independentes ou não entre si. Para cada

caso, um teste de hipótese diferente é adotado.

Amostras Pareadas (Dependentes)

Dizem-se amostras pareadas de dois conjuntos de dados onde cada elemento

de uma amostra corresponde a apenas um elemento da outra amostra, pela existência

de algum tipo de associação de dependência entre eles. Devido a dependência entre

esses dados, faz sentido o cálculo da diferença entre os pares de dados que podem, por

exemplo, ser a respeito de um grupo de indivíduos antes e depois da aplicação de

algum medicamento.

O teste de hipótese utilizado, teste t, é adequado nesta análise, de forma que as

hipóteses são:

Hipótese Nula :




A diferença entre os pares de dados das amostras será:

Onde:

: dados antes do tratamento

: dados depois do tratamento

Com base na diferença entre os tratamentos (amostras), geramos as hipóteses:

Hipótese Nula :




Onde é o valor esperado das . De forma análoga ao teste

para média de uma amostra com variância desconhecida, as regiões críticas e à

estatística teste serão:

Região Crítica:

Dá-se pela tabela t de Student, de forma que

( ) para teste unilateral e (n-1,

) para bilateral.

Estatística teste:

√

59

Onde:

tamanho da amostra

média das diferenças

desvio padrão das diferenças

O desvio padrão das diferenças é dado por:

√

(∑

)

Conclusão:

Abordagem Clássica:

Se o valor da estatística teste se encontrar na região crítica, rejeita-se , caso

contrário não rejeita .

Abordagem p-valor:

Na abordagem p-valor, p é encontrado considerando na tabela de

Student e .

Para comparar dois algoritmos de otimização foi realizado um

experimento com seis ensaios. Em cada ensaio, foram usados separadamente os

dois algoritmos em estudo, mas sob as mesmas condições (dados pareados). Os

tempos de resposta ao usuário foram:

Tabela 10 – Tempo de resposta (segundos) dois algoritmos de otimização

Ensaio Algoritmo I Algoritmo II Diferença= X1-X2

1 8,1 9,2 -1,1

2 8,9 9,8 -0,9

3 9,3 9,9 -0,6

4 9,6 10,3 -0,7

5 8,1 8,9 -0,8

6 11,2 13,1 -1,9

Há evidências de que os tempos de resposta do Algoritmo I são menores que

os do Algoritmo II, para .

i) Hipóteses:


60

ii) Pela Tabela t de Student temos que para um teste unilateral à esquerda

com = 0.0 o valor de t e a região crítica será:

Para:


√

(∑

) √

(∑

)

√

(( ) ( )) √

( )

√

√

√

iv) Conclusão:

Considerando que o valor da estatística teste é , e se encontra na

região crítica, rejeita-se para nível de significância de . Há evidência

estatística que o algoritmo I é mais rápido que o Algoritmo II.

Abordagem p-valor


mesmos da abordagem clássica, a conclusão se dará da seguinte forma:

A estatística teste (t= ), então buscamos na t de Student com

, o valor encontrado de p é . Como ,

rejeita-se pelo método p-valor.

61

#------------------------------------------------------------------------------------------------------

No R:

( )

( ) ( )

( ) ( ) ( )

#Onde: paired: TRUE para teste pareado

#FALSE para teste independente

#------------------------------------------------------------------------------------------------

Amostras Independentes

Para amostras independentes também é utilizado o teste t, mas para tanto, é

necessário que três requisitos sejam atendidos:

1.As observações devem ser independentes;

2.As variâncias populacionais devem ser iguais nos dois grupos (teste F de Snedecor

para duas variâncias);

3.Os dois conjuntos de dados devem provir de distribuições normais

(teste de Shapiro-Wilk)

Para os requisitos 2 e 3 são realizados testes para verificá-los, estes testes

serão abordados ao final.

Hipóteses:

Hipótese Nula :




Região Crítica:

Dá-se pela tabela t de Student, de forma que para ( , ) para teste

unilateral e (

) para teste bilateral.

Estatística teste:

Se as amostras tiverem tamanhos iguais o cálculo da estatística teste será:

Onde:

variância agregada das duas amostras

variância da amostra 1


62

( )√

Onde:

tamanho da amostra em cada grupo


: média da amostra 1


Se as amostras tiverem tamanhos diferentes o cálculo da estatística teste será:

( ) ( )

Onde:




tamanho da amostra 1


√

Onde:






Conclusão:

Abordagem Clássica:

Se o valor da estatística teste se encontra na região crítica, rejeita-se , caso

contrário não rejeita .

Abordagem p-valor:

Na abordagem p-valor, p é encontrado considerando na tabela de

Student e .

Para

Testar a hipótese se nos dez ensaios com cada catalisador verificou que os

catalisadores A e B têm efeitos diferentes no rendimento de certa reação química.

Confirme com alfa 5%, faça a abordagem do p-valor.

63

Tabela 11- Rendimento (%) de uma reação química em função do catalisador utilizado

Cat A 45 51 50 62 43 42 53 50 48 55

Cat B 45 35 43 59 48 45 41 43 49 39

i) Hipóteses

(teste bilateral)


Pela Tabela t de Student temos que para um teste unilateral à esquerda com

= o valor de t e a região crítica será:


∑

(∑ )

( )√

( )√

√

64

iv) Conclusão: Considerando a estatística teste ( ), e não está na

região crítica, não rejeita para nível de significância de . Não há evidência

estatística da diferença entre os Catalisadores A e B.

Abordagem p-valor



calculado é igual a , então buscamos na tabela t de Student com

, o valor encontrado de

é

então p é . Como

, e portanto não rejeita-se pelo método p-valor.

#------------------------------------------------------------------------------------------------------

No R:

( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

Para

Na comparação de duas topologias de rede de computadores, C1 e C2,

avaliou-se o tempo de transmissão de pacotes de dados entre duas máquinas. Foram

realizados 32 ensaios em C1 e 24 ensaios em C2, como mostra os dados abaixo:

Tabela 12 - Tempo de transmissão de pacotes de dados adotado duas topologias

Topologia Tempo (em décimos de segundo) Média Variância

C1 9, 12, 10, 12, 11, 9, 8, 12, 13, 9, 13, 8, 17, 9, 9, 8, 9, 8,

14, 8, 8, 8, 8, 13, 10, 10, 15, 13, 13, 12, 14, 8

10,625 6,371

C2 14, 15, 8, 13, 16, 12, 14, 17, 14, 10, 13, 12, 13, 14, 10,

15, 12, 17, 16, 12, 15, 13, 14, 14

13,458 4,781

Existe diferença significativa entre o tempo médio de transmissão nas 2 topologias?

i) Hipóteses:

(teste bilateral)


65

Pela Tabela t de Student temos que para um teste unilateral à esquerda com

= o valor crítico de t será:


∑

(∑ )

( ) ( )

( ) ( )

√ √

√

√

iv) Conclusão:

Considerando que a estatística teste igual está na região crítica, rejeita-

se para nível de significância de . Há evidência estatística da diferença entre

as topologias C1 e C2.

Abordagem p-valor


mesmos da abordagem clássica, a conclusão se dará da seguinte forma:

calculado é igual a , então buscamos na t de Student com

, o valor encontrado de

é

então . Como

, e portanto p rejeita-se pelo método p-valor.

66

#----------------------------------------------------------------------------------------------------

NoR:

( ) ( )

( ) ( ) ( ) ( ) ( )

#------------------------------------------------------------------------------------------------------

Antes de aplicar o teste t para duas amostras independentes devemos verificar

dois pressupostos:

Teste de Shapiro-Wilk

O teste de Shapiro-Wilk testa a normalidade de um conjunto de dados, ou seja,

se os dados provém de distribuições normais. Foi proposto em 1965 por Samuel

Sanford Shapiro e Martin Wilk.

#-----------------------------------------------------------------------------------------------------

No R:

( ) #o nome amostra que se deseja verificar a normalidade

#------------------------------------------------------------------------------------------------------

Teste F de Snedecor para duas variâncias

Este teste visa comparar duas variâncias a fim de investigar se duas amostras

com distribuições normais possuem a mesma variância. As hipóteses serão:

Hipóteses Nula :

Hipótese alternativa :

(teste bilateral)



Onde:

: variância da população 1, e

: variância da população 2.

Região Crítica:

A região crítica para este teste é provida pela tabela F de Snedecor, com

no numerador e no denominador. Para teste unilateral à

esquerda temos que f será:

( )

67

Supondo um e , e , temos que e , será:

( )

( )

#------------------------------------------------------------------------------------------------------

No R:

( ) #Onde:

( )

#------------------------------------------------------------------------------------------------------

Para o teste unilateral à direita seria ( )

Para os valores acima, seria: ( ) ( )

68

#------------------------------------------------------------------------------------------------------

No R:

( ) #Onde:

( ) #------------------------------------------------------------------------------------------------------

Para o teste bilateral, têm-se dois valores de o superior e o inferior, que são:

(

)

e (

)

Para os valores dados acima, o teste bilateral será:

( )

( )

( )

#------------------------------------------------------------------------------------------------------

No R:

( ( ) )

#Onde:

( (

) )

#----------------------------------------------------------------------------------------------

Importante lembrar que para cada nível de significância diferente há uma

tabela F de Snedecor.

69

Estatística teste:

Onde:

: variância da amostra 1, e

: variância da amostra 2.

Conclusão:

Na abordagem clássica:

teste bilateral se ou rejeita-se

teste unilateral à esquerda se rejeita .

teste unilateral à direita se rejeita

Considerando o exemplo sobre os catalisadores, vamos verificar se eles

produzem efeitos diferentes nas variâncias, para nível de significância igual à

0.10.

i) Hipóteses :

(teste bilateral)


Pela Tabela F de Snedecor temos que para um teste bilateral com

= os valores de e serão:


70

iv) Conclusão:

Considerando que a estatística teste igual a , não está na região crítica,

não rejeita para nível de significância de . Não há evidência estatística da

diferença entre as variâncias dos catalisadores A e B, logo há homogeneidade de

variâncias.

#------------------------------------------------------------------------------------------------------

No R:

A função do R usada para o teste F para duas variâncias

( ) ( )

( )

#Teste bilateral, o parâmetro deve ser (

), se for unilateral ( ).

#------------------------------------------------------------------------------------------------------

12. ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Em muitos conjuntos de dados, é de fundamental importância que saibamos os

efeitos das mudanças dos dados em outro dado, que possamos estimar e controlar uma

variável pela manipulação de outra. Posto isso, utilizamos a correlação e a regressão

linear para analisar essa relação entre variáveis.

Correlação Linear Simples

A correlação linear simples nada mais é que um estimador simples que

representa a intensidade de relação entre duas variáveis. A ausência de correlação não

quer dizer que as variáveis em questão não se relacionam, apenas caracteriza a

ausência de relação linear. Um exemplo interessante é o percentual de aproveitamento

de um time e o número de vitórias deste time, estão correlacionados positivamente,

pois quanto mais o número de vitórias, maior será o percentual de aproveitamento, ou

em um sistema computacional em que quanto maior a capacidade de processamento

de um CPU, menor será o tempo de processamento, que caracteriza duas variáveis

correlacionadas negativamente.

A imagem abaixo ilustra a dispersão dos dados de duas variáveis em diferentes

casos:

71

Disponível em: http://pt.slideshare.net/vermaumeshverma/linear-regression-38653351

Coeficiente de Correlação Linear simples de Pearson

O coeficiente de correlação linear de Pearson trata de descrever a correlação

entre duas variáveis aleatórias. Este coeficiente tem esse nome devido ao estatístico

Karl Pearson, que em 1894 apresentou a expressão para o coeficiente de correlação.

Para se encontrar o coeficiente de correlação, deve-se padronizar os dados, ou seja,

dados que possuem diferentes unidades de medida, como peso e altura, ou velocidade

e tempo de processamento devem ser analisadas de maneira que a diferença na

unidade de medida não interfira. Para tanto, os dados são interpretados em termos da

quantidade de desvio padrão que se afastam da média. A fórmula que descreve esta

padronização é a seguinte:

Onde:

: valor da variável padronizado

: valor da variável padronizado

: valor da variável onde

: valor da variável onde

: média de

: desvio padrão de

: média

: desvio padrão de

Porém, devido a dificuldade de se calcular o coeficiente de correlação através

dos valores padronizados, sem contar a incorporação de erros de arredondamento

provinda da padronização, o cálculo do coeficiente é realizado pela fórmula

matemática que será descrita mais a frente.

O coeficiente de correlação linear de Pearson, representado pela letra , é um

valor entre , em que quanto mais próximo de ou , mais

correlacionada as variáveis estão, e será positivo se houver correlação linear positiva e

negativa se houver correlação linear negativa. Para o cálculo desse coeficiente

utilizamos a seguinte fórmula matemática:

72

∑( ) (∑ ) (∑ )

√ ∑ (∑ ) √ ∑

(∑ )

Para se obter uma melhor resposta quanto a correlação entre grupos de dados,

é interessante realizar o teste t para verdadeira correlação ( ), em que é possível

verificar se os dados estão correlacionados ou não. As hipóteses para o teste são:

Hipótese Nula :

(as variáveis X e Y são não correlacionadas)


(as variáveis X e Y são correlacionadas)

(as variáveis X e Y são correlacionadas negativamente)

(as variáveis X e Y são correlacionadas positivamente)

Região Crítica:

Dá-se pela tabela t de Student, de forma que ( , ) para teste

unilateral e (

) para bilateral.

Estatística teste:

√

√

Onde:

tamanho da amostra

coeficiente de correlação de Pearson

Conclusão:

Se a estatística teste se encontrar na região crítica, rejeita-se , caso contrário

não rejeita .

Sejam nota na prova do vestibular de matemática e nota final na

disciplina de cálculo. Foram observados 15 alunos, ao final do primeiro período letivo

de um curso de Ciência da Computação. Os dados estão a seguir:

Tabela 13 – Notas de 15 alunos na prova do vestibular –matemática e cálculo

Aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

X 39 54 65 43 52 47 64 65 28 70 70 80 58 50 44

Y 67 87 94 78 89 75 82 86 51 49 95 98 82 92 78

a) Calcule o coeficiente de correlação. Interprete.

∑( ) (∑ ) (∑ )

√ ∑ (∑ ) √ ∑

(∑ )

73

,( ) ( ) ( )- ( ) ( )

√ ( ) ( ) √ ∑( ) ( )

( )

√ ( ) √ ( )

√ ( ) √ ( )

Este nível de correlação indica que há uma correlação de 0.49 entre as notas

no vestibular e as notas na disciplina de cálculo

b) Construa o diagrama de dispersão. Verifique se há algum aluno outlier.

Figura 1- Diagrama de dispersão

Sim, o aluno 10 possui padrão diferenciado dos demais e, portanto é um

outlier.

c) Retire este aluno e refaça a correlação. Interprete.

∑( ) (∑ ) (∑ )

√ ∑ (∑ ) √ ∑

(∑ )

,( ) ( ) ( )- ( ) ( )

√ ( ) ( ) √ ∑( ) ( )

( )

√ ( ) √ ( )

74

√ ( ) √ ( )

O nível de correlação aumentou, pois agora todos os dados possuem o mesmo

padrão, a mesma linha de comportamento, tendem a crescer do vestibular para a

disciplina de cálculo de maneira proporcional a notas do vestibular.

d) Faça o teste para a verdadeira correlação ( )

i) Hipóteses

(nota de matemática do vestibular e a nota de cálculo são não

correlacionadas)

( nota de matemática do vestibular e a nota de cálculo são

correlacionadas)

ii) Região Crítica:

e

Pela Tabela t de Student temos que para um teste bilateral e =0.05 o valor

crítico esta indicado abaixo e a região crítica será:


√

√

√

√ ( )

√

75

iv) Conclusão:

Considerando que o valor da estatística teste, que é , está na região

crítica, rejeita-se para nível de significância de . As variáveis X (nota de

matemática) e Y (nota de cálculo) estão correlacionadas.

#------------------------------------------------------------------------------------------------------

No R:

( ) ( )- -

( ) ( ) #----------------------------------------------------------------------------------------------------

Análise de Regressão

A regressão tem origem com estudos do matemático e estatístico inglês

Francis Galton, que buscava explicar a relação entre a altura dos pais e a altura dos

filhos, a correlação entre esses dados. A regressão é utilizada em diversas áreas e trata

de, através de uma equação matemática, descrever o comportamento de um grupo de

dados, que pode ser linear, quadrático, entre outros. Aqui trataremos da Análise de

regressão linear.

A regressão linear refere-se a uma equação de primeiro grau que tem objetivo

de modelar o comportamento de um grupo de dados, dados pela equação:

( )

Onde e são parâmetros do modelo.

Para encontrar a equação que descreve com maior precisão os dados, é

necessário estimar os valores de e a partir dos conjuntos de dados em questão.

Para tanto, o método mais utilizado é o método dos mínimos quadrados, que consiste

em fazer com que a soma dos erros quadráticos seja a menor possível.

As estimativas para e , representados por e , respectivamente, será:

∑( ) (∑ ) (∑ )

∑ (∑ )

∑ ∑

Outro método que também pode ser utilizado para encontrar o modelo de

regressão é o método matricial, que consiste na equação: ( )

Onde:

76

: é uma matriz de dimensão x da seguinte forma:

[

]

matriz transposta de

: matriz coluna com os valores de ( )

: matriz 0 1

Com este método chegamos a um sistema linear com duas equações onde

devemos encontrar o valor de e . Basta isolarmos um dos termos em uma das

equações e substituirmos na outra equação e teremos o valor de um dos dois

parâmetros, depois é só substituir este valor na equação em que o parâmetro a ser

encontrado foi isolado.

A equação de regressão é dada por:

A diferença entre os valores observados e os preditos é chamada resíduo:

Coeficiente de determinação

O coeficiente de determinação descreve a proporção da variação de que

pode ser explicada pelas variações em . Essa proporção nada mais é que o

percentual de influência que possui sobre , por exemplo: se tivermos um

coeficiente de determinação de 95%, quer dizer que a variável é explicada através

(com influência) do valor de com taxa de 95%, e os outros 5%, se devem a fatores

externos que influenciam no processo.

No caso da regressão linear, este valor é o mesmo encontrado pelo coeficiente

linear de Pearson.

Teste de significância do modelo

O teste de significância do modelo trata de verificar a “adequabilidade” do

modelo, ou seja, o quanto a equação de regressão encontrada é adequada, ideal aos

conjuntos de dados em questão. Para tanto, utilizamos ANOVA, que é a análise de

variância.

O teste é concebido da seguinte forma:

Hipótese Nula : (o modelo de regressão não é adequado)

Hipótese alternativa : (o modelo de regressão é adequado)

Região Crítica:

Dá-se pela tabela F de Snedecor, de forma que , - e

consideramos para escolha da tabela F adequada.

Estatística teste:

F calculado é encontrado através das seguintes equações:

77

Fonte de

Variação

Regressão ∑( )

⁄

⁄

Erro ∑( )

⁄

Total ∑( )

⁄

Onde: tamanho da amostra

grau de liberdade

soma dos quadrados da regressão

: soma dos quadrados do erro

: soma dos quadrados do total

valor de um determinado da amostra

valor de uma determinado da regressão

média aritmética dos valores de

: quadrado médio da regressão

: quadrado médio do erro

quadrado médio do total

Conclusão:

Se obtido na estatística teste se encontrar na região crítica, rejeita-se ,

caso contrário não rejeita-se .

Variância residual - A variância residual nada mais é que o Quadrado Médio

do Erro ( ).

Teste e Intervalo de Confiança dos Parâmetros

Os testes dos parâmetros são realizados para verificar se a reta passa pela

origem (teste t para o parâmetro ) e se existe ou não regressão linear (teste t para o

parâmetro ).

Teste e Intervalo de Confiança para o parâmetro

O teste t para o parâmetro possui a seguinte configuração:

Hipótese Nula : (a reta passa pela origem)

Hipótese alternativa : (a reta não passa pela origem)

Região Crítica:

Dá-se pela tabela t de Student, de forma que ( ;

).

Estatística teste:

Erro residual:

√

78

√

(∑ )

∑

(∑ )

Onde:

tamanho da amostra

estimativa do parâmetro

: erro residual

: estimativa do erro padrão do parâmetro

Conclusão:


não rejeita-se .

Intervalo de Confiança para

O intervalo de confiança para o parâmetro pode ser dado por:

( )

Onde: : o valor obtido na tabela t de Student com e nível de confiança


Teste e Intervalo de Confiança para o parâmetro

O teste t para o parâmetro tem o mesmo intuito que o teste realizado para

verificar a significância do modelo de regressão. O teste t é o seguinte:

Hipótese Nula : (não há regressão linear)

Hipótese alternativa : (há regressão linear)

Região Crítica:

Dá-se pela tabela t de Student, de forma que ( ;

).

Estatística teste:

Erro residual:

√

√

∑ (∑ )

79

Onde:

tamanho da amostra

estimativa do parâmetro

: erro residual


Conclusão:


não rejeita-se .

Intervalo de Confiança para

( )

Onde:

: o valor obtido na tabela t de Student com e nível de confiança


Análise de Resíduos

A análise de resíduos trata de verificar se os erros possuem distribuição

normal, com média nula e variância constante, e se as observações de Y são

independentes. Esses requisitos são fundamentais para que os testes estatísticos e os

intervalos de confiança tenham validade. Para tanto uma análise gráfica é realizada,

análise esta que será mais bem compreendida através da resolução do exercício deste

tópico.

Um estudo foi desenvolvido para verificar o quanto o comprimento de um

cabo serial de microcomputadores influencia na qualidade de transmissão de dados,

medida através do número de falhas em 10.000 lotes de dados transmitidos (taxa

falha). Os resultados foram:

Tabela 14- Comprimento do cabo serial de microcomputadores e a taxa de falhas

na transmissão de dados Comp. Cabo

(m)

8 8 9 9 10 10 11 11 12 12 13 13 14 14 15

Taxa de falha 2,2 2,1 3,0 2,9 4,1 4,5 6,2 5,9 9,8 8,7 12,5 13,1 19,3 17,4 28,2

a) Determine o coeficiente de correlação linear de Pearson.

∑( ) (∑ ) (∑ )

√ ∑ (∑ ) √ ∑

(∑ )

80

,( ) ( )- ( ) ( )

√ ( ) ( ) √ ( ) ( )

√ √

√ √

b) Testar a correlação com nível de significância de 0.05

i) Hipóteses

(o comprimento do cabo e a taxa de falha são não correlacionadas)

(o comprimento do cabo e a taxa de falha são correlacionadas)

ii) Região Crítica n

Pela Tabela t de Student temos que para um teste bilateral com

= 0.05 o valor crítico será:


√

√

√

√ ( )

√

iv) Conclusão:

Considerando o valor da estatística teste igual a , está na região

crítica, rejeita-se para nível de significância de 0.05. As variáveis X (comprimento

do cabo) e Y (taxa de falha) estão correlacionadas.

c) Estabeleça o modelo de regressão.

Método dos mínimos quadrados

81

∑( ) (∑ ) (∑ )

∑ (∑ )

∑ ∑

é o Modelo de regressão linear

Método matricial ( )

[

]

0

1 0 1

[

]

0

1

[

]

0

1

0

1

[

]

0

1

0

1 0 1 0

1

{

(

)

Modelo de regressão linear

d) Determine o coeficiente de determinação.

É o valor da correlação linear de Pearson, pois se trata de uma regressão

linear. Logo, o valor do coeficiente de determinação será:

82

e) Diagrama de dispersão

f) Ajustar a reta no diagrama de dispersão

g) Testar a significância do modelo de regressão

Hipótese Nula :



83

iii) Estatística teste:

Tabela 15 – Análise de variância

Fonte de

Variação

Regressão ∑( )

⁄

⁄

Erro ∑( )

⁄

Total ∑( )

⁄

iv) Conclusão:

Como obtido como estatística teste foi e se encontra na região crítica,

logo rejeita-se , existe a regressão linear.

h) Testar a hipótese e construir os intervalos de confiança dos parâmetros

Teste t para o parâmetro

Hipótese Nula : (a reta passa pela origem)

Hipótese alternativa : (a reta não passa pela origem)


84


√ √

√

(∑ )

∑

(∑ )

√

( )

( ) ( )

√

√

√

iv) Conclusão:

Como a estatística teste é e se encontra na região crítica, rejeita-se

para nível de significância de logo a reta não passa pela origem.

Teste t para o parâmetro

i) Hipótese Nula : (não há regressão linear)

Hipótese alternativa : (há regressão linear)


85


√ √

√

∑ (∑ )

√

( ) ( )

√

√

√

iv) Conclusão:

Como a estatística teste é e se encontra na região crítica, rejeita-se

para nível de significância de , logo não podemos afirmar que não há regressão

linear entre as variáveis.

Intervalos de Confiança para os parâmetros:

( )

( ) ( )

( ) ( )

( )

( ) ( )

( ) ( )

86

i) Estimar a taxa de falha quando o comprimento do cabo for 20.

j) Estimar o comprimento do cabo, quando a taxa de falha for de 10,0.

k) Variância residual do modelo

√ √

l) Análise de resíduos

Tabela 16 : Resíduos Ordinários

Resíduos Resíduos

1 8

2 9

3 10

4 11

5 12

6 13

7 14

15

Através dos valores dos resíduos brutos, obtemos os resíduos padronizados,

calculados através da equação:

√

Tabela 17- Resíduos Padronizados

Resíduos Padronizados

(ResPad)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

87

Com base nesses valores, podemos obter um gráfico de Resíduos

Padronizados versus Valores Estimados, que trata de verificar se existe algum outlier

dentre as observações.

Figura 1 – Gráfico do Valores estimados versus

Resíduos padronizados

Figura 2 - Boxplot dos Resíduos Padronizados:

88

Figura 3: Gráfico dos Resíduos Esperados com os Resíduos Ordenados

Resumo de todos os gráficos:

89

#-----------------------------------------------------------------------------------------------------

No R:

-

( ) ( )

cor.test(x,y)

#Método dos mínimos quadrados

( )

# Método matricial

- ( )

- ( ( )) - ( ( )) - ( ) ( ) - ( ) - ( ) ( ) ( ) -

( ) -

( ) # Testes t

( ) # Intervalos de confiança

# Análise de Resíduos

# Residuos padronizados

( ) # Gráfico de análise dos resíduos padronizados X valores observados

- ( ( )) ( ) ( )

# Box plot dos resíduos padronizados

( ( )) ( )

# Gráficos dos Resíduos Esperados com os Resíduos Ordenados

( )

( )

( )

90

# Resumo de todos os gráficos

( ( )) p ( ( ) )

#------------------------------------------------------------------------------------------------------

91

REFERÊNCIAS BIBLIOGRÁFICAS

BARBETTA, P. A.; REIS, M. M. Estatística para cursos de Engenharia e Informática. São Paulo: Atlas, 2008.

BUSSAB, W. O., MORETTIN, P.A. Estatística básica. São Paulo: Saraiva, 2003.

526p.

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. Tradução de Joaquim Pinheiro Nunes da Silva. São Paulo: Thomson, 2006. GONÇALVES, C. F. F. Estatística. Londrina: Eduel, 2002 MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade para Engenheiros. Rio de Janeiro: LTC, 2003. MORETTIN, L. G. Estatística Básica: probabilidade e inferência. Volume Único. São Paulo: Pearson Prentice Hall, 2010.

Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informações sobre o sistema e alguns...

Documents

Transcript of Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informações sobre o sistema e alguns...