Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís...

Post on 18-Apr-2015

105 views 0 download

Transcript of Universidade Federal de Minas Gerais Instituto de Ciências Exatas Curso de Estatística Laís...

Universidade Federal de Minas GeraisInstituto de Ciências Exatas

Curso de Estatística

Laís Araújo Lopes de Souza Samantha Faasen Vagner Júnio Ferreira Prof.: Glaura Franco

Belo Horizonte, 11 de junho de 2012.

Roteiro

o Regressão Múltipla

o Resíduos

o Resíduos Estudentizados

o Ajuste do Modelo

o Exemplo

o Bootstrap nos resíduos

o Algoritmo Bootstrap resíduos

o ANOVA

o Gráficos

o Coeficientes

o Exercício

o Bibliografia

Regressão Múltipla

o  Técnicas estatísticas para construir modelos que descrevem de

maneira razoável relações entre várias variáveis explicativas de um

determinado processo.

o Alguns objetivos:

Descrever a relação entre variáveis para entender um processo ou

fenômeno

Prever o valor de uma variável a partir do conhecimento de outras

variáveis

Substituir a medição de uma variável pelo conhecimento de outras

variáveis

Controlar os valores de uma variável em uma faixa de interesse

Regressão Múltipla

o Modelo

o valores das variáveis explicativas, isto é, constantes desconhecidas

o são parâmetros ou coeficientes da regressão

o erro aleatório do modelo, com média zero e variância

 

Suposições do Modelo

Suposições:

i) O erro tem média zero e variância desconhecida

ii) Os erros são não correlacionados

iii) Os erros têm distribuição normal

iv) As variáveis regressoras  assumem valores fixos

Significado dos coeficientes de regressão

o O parâmetro 0 é o intercepto do plano de regressão

o O parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante e assim sucessivamente

7

Modelo de regressão linear múltipla em termos matriciais

... 1,122110 ipipiii XXXY

A expressão do modelo linear geral de regressão é dada por:

Em termos matriciais, precisamos definir:

n

ppnn

p

p

n XX

XX

XX

Y

Y

Y

.

.

.

.

.

..1

.....

.....

.....

..1

..1

.

.

2

1

1

1

0

1 x p

1,1

1,221

1,111

pn x

2

1

1n x 1n x

εβXY

8

Em termos matriciais, o modelo de regressão linear geral é dado

por: εXβY e é um vetor de variáveis aleatórias independentes e normalmente

distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por:

2

2

2

2

.00

....

0.0

0.0

)(

εσ

Assim, o vetor das observações Y tem esperança e variância dadas por:

IYσXβYE 22 )()( n x n1 x n

=2I

Resíduos

o Diagnóstico para a variável resposta é realizado através

de uma análise de resíduos. Os resíduos são definidos

como:

o Os resíduos podem ser considerados como erros

observados, para distingui-los do erro verdadeiro

desconhecido i no modelo de regressão:

Resíduos

o Para o modelo de regressão, temos a seguinte

pressuposição:

o Se o modelo é adequado, os resíduos devem refletir

essas propriedades

),0( 2~ Niid

i

Propriedades dos resíduos

o Média

o Variância

o Se o modelo está adequado, o QME é um estimador

não tendencioso da variância do erro

Propriedades dos resíduos

o Os resíduos não são variáveis aleatórias

independentes pois eles envolvem os valores os

quais são baseados na mesma equação de regressão

o Quando o tamanho da amostra é grande, o efeito de

dependência entre os resíduos é relativamente sem

importância e pode ser ignorado.

Resíduos Estudentizados

Vantagens

o Os resíduos estudentizados tem variâncias constantes e iguais a 1, o que consequentemente torna muito prática a procura por outliers

o Apropriado para verificar normalidade dos erros e homogeneidade

Desvantagem

o Dificuldade de detectar violações do modelo, uma vez que esses resíduos são menores

Ajuste do Modelo

o Análise Gráfica dos Resíduos

o 1. Gráfico dos resíduos versus variáveis preditoras

o 2. Gráfico dos resíduos absolutos ou quadráticos versus

variáveis preditoras

o 3. Gráficos dos resíduos versus valores ajustados (estimados)

o 4. Gráfico normal de probabilidades dos resíduos.

o Testes Estatísticos

Exemplo

o Dados referentes à doença de Chagas

o Variável resposta - Prazo para chegar ao hospital

o Variáveis explicativas – Tempo e Distância

Modelo:

Bootstrap nos resíduos

o 1- Ajustar o modelo e reter os valores ajustados  e os resíduos

, i=1,...,n.

o 2- Para cada par na qual x é a variável explicativa

(possivelmente multivariada)adicionar um resíduo reamostrado

residual, para a variável resposta aleatoriamente .Em outras

palavras, criar variáveis respostas sintéticas , para a variável

resposta, , onde j é selecionado aleatoriamente a partir

da lista para cada i.

o 3- Volte a colocar o modelo usando as variáveis de resposta fictícios

e manter as quantidades de interesse (muitas vezes os

parâmetros estimada a partir dos sintéticos ).

o 4- Repetir os passos 2 e 3 um número estatisticamente significativo

de vezes.

Algoritmo Bootstrap resíduos

ANOVA

Diagrama de Dispersão

Gráfico resíduos versus valores ajustados

o Homocedasticidade isto é, constante

Gráfico resíduos Estudentizados versus valores ajustados

o Homocedasticidade

Gráfico resíduos versus Casos

o Independência

Gráfico resíduos Estudentizados versus Casos

o Independência

Gráfico resíduos versus Distância

o Independência

Gráfico resíduos Estudentizados versus Distância

o Independência

Gráfico de Probabilidade Normal dos resíduos

o Resíduos Normais

Gráfico de Probabilidade Normal dos resíduos Estudentizados

o Resíduos não Normais

Teste de Normalidade Resíduos

Teste de Normalidade resíduos Estudentizados

Coeficientes

Exercício

o Realize o Bootstrap conforme o procedimento descrito anteriormente e calcule o vício dos parâmetros.

Bibliografia

o Chernick, M. R., Labudde, R. A., 2011. An Introduction to Bootstrap Methods with Applications to R. John Willey and Sons

o Efron B, Tibshirani R. 1993. An Introduction to the bootstrap. New York: Chapman and Hall