Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís...

32
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Samantha Faasen Vagner Júnio Ferreira Prof.: Glaura Franco Belo Horizonte, 11 de junho de 2012.

Transcript of Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís...

Page 1: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Universidade Federal de Minas GeraisInstituto de Ciências Exatas

Curso de Estatística

Laís Araújo Lopes de Souza Samantha Faasen Vagner Júnio Ferreira Prof.: Glaura Franco

Belo Horizonte, 11 de junho de 2012.

Page 2: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Roteiro

o Regressão Múltipla

o Resíduos

o Resíduos Estudentizados

o Ajuste do Modelo

o Exemplo

o Bootstrap nos resíduos

o Algoritmo Bootstrap resíduos

o ANOVA

o Gráficos

o Coeficientes

o Exercício

o Bibliografia

Page 3: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Regressão Múltipla

o  Técnicas estatísticas para construir modelos que descrevem de

maneira razoável relações entre várias variáveis explicativas de um

determinado processo.

o Alguns objetivos:

Descrever a relação entre variáveis para entender um processo ou

fenômeno

Prever o valor de uma variável a partir do conhecimento de outras

variáveis

Substituir a medição de uma variável pelo conhecimento de outras

variáveis

Controlar os valores de uma variável em uma faixa de interesse

Page 4: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Regressão Múltipla

o Modelo

o valores das variáveis explicativas, isto é, constantes desconhecidas

o são parâmetros ou coeficientes da regressão

o erro aleatório do modelo, com média zero e variância

 

Page 5: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Suposições do Modelo

Suposições:

i) O erro tem média zero e variância desconhecida

ii) Os erros são não correlacionados

iii) Os erros têm distribuição normal

iv) As variáveis regressoras  assumem valores fixos

Page 6: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Significado dos coeficientes de regressão

o O parâmetro 0 é o intercepto do plano de regressão

o O parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante e assim sucessivamente

Page 7: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

7

Modelo de regressão linear múltipla em termos matriciais

... 1,122110 ipipiii XXXY

A expressão do modelo linear geral de regressão é dada por:

Em termos matriciais, precisamos definir:

n

ppnn

p

p

n XX

XX

XX

Y

Y

Y

.

.

.

.

.

..1

.....

.....

.....

..1

..1

.

.

2

1

1

1

0

1 x p

1,1

1,221

1,111

pn x

2

1

1n x 1n x

εβXY

Page 8: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

8

Em termos matriciais, o modelo de regressão linear geral é dado

por: εXβY e é um vetor de variáveis aleatórias independentes e normalmente

distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por:

2

2

2

2

.00

....

0.0

0.0

)(

εσ

Assim, o vetor das observações Y tem esperança e variância dadas por:

IYσXβYE 22 )()( n x n1 x n

=2I

Page 9: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Resíduos

o Diagnóstico para a variável resposta é realizado através

de uma análise de resíduos. Os resíduos são definidos

como:

o Os resíduos podem ser considerados como erros

observados, para distingui-los do erro verdadeiro

desconhecido i no modelo de regressão:

Page 10: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Resíduos

o Para o modelo de regressão, temos a seguinte

pressuposição:

o Se o modelo é adequado, os resíduos devem refletir

essas propriedades

),0( 2~ Niid

i

Page 11: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Propriedades dos resíduos

o Média

o Variância

o Se o modelo está adequado, o QME é um estimador

não tendencioso da variância do erro

Page 12: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Propriedades dos resíduos

o Os resíduos não são variáveis aleatórias

independentes pois eles envolvem os valores os

quais são baseados na mesma equação de regressão

o Quando o tamanho da amostra é grande, o efeito de

dependência entre os resíduos é relativamente sem

importância e pode ser ignorado.

Page 13: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Resíduos Estudentizados

Vantagens

o Os resíduos estudentizados tem variâncias constantes e iguais a 1, o que consequentemente torna muito prática a procura por outliers

o Apropriado para verificar normalidade dos erros e homogeneidade

Desvantagem

o Dificuldade de detectar violações do modelo, uma vez que esses resíduos são menores

Page 14: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Ajuste do Modelo

o Análise Gráfica dos Resíduos

o 1. Gráfico dos resíduos versus variáveis preditoras

o 2. Gráfico dos resíduos absolutos ou quadráticos versus

variáveis preditoras

o 3. Gráficos dos resíduos versus valores ajustados (estimados)

o 4. Gráfico normal de probabilidades dos resíduos.

o Testes Estatísticos

Page 15: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Exemplo

o Dados referentes à doença de Chagas

o Variável resposta - Prazo para chegar ao hospital

o Variáveis explicativas – Tempo e Distância

Modelo:

Page 16: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Bootstrap nos resíduos

o 1- Ajustar o modelo e reter os valores ajustados  e os resíduos

, i=1,...,n.

o 2- Para cada par na qual x é a variável explicativa

(possivelmente multivariada)adicionar um resíduo reamostrado

residual, para a variável resposta aleatoriamente .Em outras

palavras, criar variáveis respostas sintéticas , para a variável

resposta, , onde j é selecionado aleatoriamente a partir

da lista para cada i.

o 3- Volte a colocar o modelo usando as variáveis de resposta fictícios

e manter as quantidades de interesse (muitas vezes os

parâmetros estimada a partir dos sintéticos ).

o 4- Repetir os passos 2 e 3 um número estatisticamente significativo

de vezes.

Page 17: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Algoritmo Bootstrap resíduos

Page 18: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

ANOVA

Page 19: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Diagrama de Dispersão

Page 20: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos versus valores ajustados

o Homocedasticidade isto é, constante

Page 21: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos Estudentizados versus valores ajustados

o Homocedasticidade

Page 22: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos versus Casos

o Independência

Page 23: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos Estudentizados versus Casos

o Independência

Page 24: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos versus Distância

o Independência

Page 25: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico resíduos Estudentizados versus Distância

o Independência

Page 26: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico de Probabilidade Normal dos resíduos

o Resíduos Normais

Page 27: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Gráfico de Probabilidade Normal dos resíduos Estudentizados

o Resíduos não Normais

Page 28: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Teste de Normalidade Resíduos

Page 29: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Teste de Normalidade resíduos Estudentizados

Page 30: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Coeficientes

Page 31: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Exercício

o Realize o Bootstrap conforme o procedimento descrito anteriormente e calcule o vício dos parâmetros.

Page 32: Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís Araújo Lopes de Souza Laís Araújo Lopes de Souza Samantha Faasen.

Bibliografia

o Chernick, M. R., Labudde, R. A., 2011. An Introduction to Bootstrap Methods with Applications to R. John Willey and Sons

o Efron B, Tibshirani R. 1993. An Introduction to the bootstrap. New York: Chapman and Hall