3
Análise de Resíduos A análise dos resíduos revela:
se a presunção de normalidade da distribuição dos resíduos se confirma;
pode revelar se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme;
se há ou não uma variável não identificada que deve ser incluída no modelo;
se a ordem em que os dados foram coletados ( p. ex., tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo.
se a presunção de que os resíduos não são correlacionados está satisfeita.
4
Premissas dos Testes Estatísticos
Premissas em relação aos resíduos: São aleatórios com distribuição normal ? São independentes entre si ? Têm Valor Esperado = 0 ? Possuem Variância Constante ?
Premissas em relação aos dados: Modelo linear nos parâmetros
5
Premissas dos Testes Estatísticos
Os intervalos de confiança e os testes estatísticos só serão válidos se essas premissas forem verdadeiras para os dados que estão sendo analisados
Portanto, é necessário verificar se essas premissas estão presentes antes de analisar a regressão
6
Checando as premissas pelas ferramentas do Excel
Usar os gráficos:Plotagem dos Resíduos
• Se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa
Plotagem de Probabilidade Normal• Se o gráfico é aproximadamente linear, podemos
assumir que os resíduos têm distribuição normal
7
Testando a adequação do modeloResíduos
X
0
Se o gráfico dos resíduos mostra uma tendência sistemática positiva ou negativa significa que uma outra função (não linear) deve ser escolhida.
8
Testando a Existência de Variáveis Esquecidas
Resíduos
X
0
Se o gráfico dos resíduos demonstra um padrão quando plotado contra determinada variável, esta variável deve ser incluída no modelo ao lado do X
Os resíduos não estão aleatoriamente distribuídos em torno de zero
9
Checando Igualdade da Variância dos Resíduos
A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta
Se essa largura aumenta ou diminui quando o valor de x aumenta, a variância não é constante
Este problema é denominado heterocedasticidade Quando existe heterocedasticidade o método dos mínimos
quadrados não pode ser usado para estimar a regressão, devendo ser usado um método mais complexo chamado mínimos quadrados geral.
10
Checando HeterocedasticidadeResíduos
X
0
Resíduos
X
0
A variância residual está crescendoResíduos parecem aleatórios, sem padrão
14
Checando as premissas por Testes dos Pressupostos
Testes básicos para validação do modelo de regressão simples
Normalidade dos resíduos Homocedasticidade Ausência de autocorrelação dos resíduos Linearidade dos parâmetros
15
Normalidade dos resíduos
Os resíduos devem apresentar distribuição normal
Identificação da Normalidade: Compara-se a distribuição dos resíduos
com a curva normal Testes:
Kolmogorov-Smirnov (não paramétrico) Jarque-Bera (paramétrico assintótico)
16
Normalidade dos resíduos
Teste Kolmogorov-SmirnovH0: distribuição normalH1: distribuição não é normal
Testa a proximidade ou a diferença entre freqüência observada e esperada.Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada.Estatística K-S usa a distribuição D. D ≤ Dcrítico aceita a Hipótese Nula
max. iiD zn
17
Normalidade dos resíduos
Teste de Jarque-BeraH0: distribuição normalH1: distribuição não é normal
JB ≤ JBcrítico aceita a Hipótese Nula
Estatística JB qui-quadrado ( 2א ) (com 2 gl)
JB = n . [ A2/6 + (C-3)2/24]onde:A = assimetriaC = curtose
18
Normalidade dos resíduos
Se a distribuição não for normal?Estimativas não serão eficientes; maior erro padrão
Possíveis causas:•Omissão de variáveis explicativas importantes•Formulação matemática incorreta (forma funcional)
Solução:•Incluir novas variáveis •Formular corretamente a relação funcional
20
HomocedasticidadeOs resíduos devem apresentar a mesma
variância para cada observação de XAvalia-se o conteúdo informacional dos resíduos
Identificação da homocedasticidade Analisa-se a evolução da dispersão dos
resíduos em torno da sua média, à medida que X aumenta
Examina-se a distribuição dos resíduos para cada observação de X
Testes: Pesarán-Pesarán; BPG; RESET de Ramsey; White; etc.
21
Homocedasticidade
Teste de Pesarán-Pesarán:2 = f (Yc
2)
Regride-se o quadrado dos resíduos (2) como função do quadrado dos valores estimados (Yc
2) Avalia-se o coeficiente de Yc
2 H0: resíduos homocedásticos H1: resíduos heterocedásticos
22
Homocedasticidade
Se a distribuição não for homocedástica? Estimativas não serão eficientes; maior erro padrão
Possíveis causas:• Diferenças entre os dados da amostra
a. modelo da aprendizagemb. discricionariedade no uso da rendac. diferenças em dados em corte (cross-
section)d. erro de especificação
23
Homocedasticidade
Solução: Mudar a forma funcional através de
transformações das variáveis Estimar a regressão via mínimos quadrados
ponderados
24
Ausência de autocorrelação
O modelo pressupõe que: correlação entre os resíduos é zero o efeito de uma observação é nulo sobre a
outra não há causalidade entre os resíduos e a
variável X, e, por conseqüência, a variável Y
Identificação da autocorrelaçãoAnalisa-se a dispersão dos resíduos em torno
da sua média Teste de Durbin-Watson
25
Ausência de autocorrelação
•Teste de Durbin-Watson
•H0: Não existe correlação serial dos resíduos•H1: Existe correlação serial dos resíduos
•Estatística DW = (x - x-1)2 / x2
26
Ausência de autocorrelação
•Análise da Estatística DW
0 dL dU 4-dU 4-dL 4
Autocorrelaçãopositiva
Autocorrelaçãonegativa
Ausência de Autocorrelação
Região não conclusiva
Região não conclusiva
27
Ausência de autocorrelação
Se os resíduos forem correlacionados?•Estimativas não eficientes; maior erro padrão
Possíveis causas:•Em séries temporais
•inércia•viés de especificação
•falta de variáveis•forma funcional incorreta
•defasagem nos efeitos das váriáveis•manuseio dos dados (interpolação / extrapolação)
28
Ausência de autocorrelação
Solução: Formular corretamente a relação
funcional Tornar a série estacionária
29
Regressão Linear Múltipla Extensão do modelo de regressão linear
Valem as hipóteses deDistribuição Normal dos
ResíduosHomocedasticidadeAusência de autocorrelaçãoLinearidade nos parâmetros
AdicionalmenteAusência de multicolinearidade
30
Multicolinearidade
Ocorre com duas ou mais variáveis independentes do modelo explicando o mesmo fenômeno
Variáveis contêm informações similares• Exemplo
Explicar preço de uma casa com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos
31
Multicolinearidade
o Duas ou mais variáveis independentes altamente correlacionadas
o Dificuldade na separação dos efeitos de cada uma das variáveis
o A multicolinearidade tende a distorcer os coeficientes (b) estimados
32
Multicolinearidade
ConseqüênciasErros padrão maiores
Menor eficiênciaEstimativas mais imprecisas
Estimadores sensíveis a pequenas variações dos dados
Dificuldade na separação dos efeitos de cada uma das variáveis
33
Multicolinearidade
Identificação através dos Testes seguintesFARRAR & GLAUBERVIF (VARIANCE INFLATION FACTOR) TOLERANCE
34
Multicolinearidade
Identificação Teste de Farrar & Glauber
2 crítico com g.l. = k . (k-1) / 2
1 r12 ........r1k
2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det r21 1 ........r2k )
rk1 rk2 ........ 1onde: n = número de observações k = número de variáveis Ln = logaritmo neperiano det = determinante rij = coeficiente de correlação parcial
35
Multicolinearidade
Teste de aceitação Teste de Farrar & Glauber
H0: Ausência de MulticolinearidadeH1: Existe Multicolinearidade
2 teste > 2 crítico → Rejeita a hipótese nula de ausência de multicolinearidade (Há correlação entre as variáveis)
36
Multicolinearidade
Identificação VIF
VIFk = 1 / ( 1 - rk2)
Regra de bolso para o VIFaté 1 - sem multicolinearidadede 1 até 10 - multicolinearidade aceitávelacima de 10 - multicolinearidade problemática
onde: rk = coeficiente de correlação da variável K com as demais variáveis