RegressãoRegressãoee
Previsão NuméricaPrevisão Numérica
Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições
Objetivos
Planejamento
A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções
Amostra
Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados
PrevisãoPrevisão
Previsão é similar à Classificação Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido
O método mais importante de previsão é a regressão
Regressão linear e múltipla Regressão não linear
Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categórica Na previsão, a variável a “explicar” é contínua
Relação entre VariáveisRelação entre Variáveis
Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis.Exemplo: Peso x AlturaCircunferência x RaioQuantidade de vapor x Temperatura
Ajustamento de curvaAjustamento de curva
Para ajustar uma equação que relacione as variáveis, é necessário: Colecionar dados que indiquem valores Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) Visualizar a curva de dispersão (curva regular que aproxima os dados)
Correlação LinearCorrelação LinearÉ quando os dados parecem estar bem
próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação:
Y = 0 + 1 X
Correlação Não-LinearCorrelação Não-Linear
Quando os dados não estão próximos a uma linha reta. Existem várias equações:
Y = 0 + 1 X + 2 X2
Y = 0 + 1 X + 2 X2 + 3 X3
Y = 0 + 1 X + 2 X2 + 3 X3+ ... + nXn
Sejam os valores de uma variável dependente (resposta) Yrelacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico
Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n
k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y
Regressão Linear Múltipla
Suposições para a análise do modelo de Regressão Linear
Resíduos com variância constante, não correlacionados e média zero
Normalidade nos resíduos (não necessariamente)
Número de parâmetros menor que o número deobservações (problema de overfitting)
Métodos de Estimação dos Parâmetros
Mínimos Quadrados
Y = X +
Y – vetor de respostas (n 1)X - matriz de observações independentes (n p) - vetor de parâmetros - vetor de erros (n 1)
Modelo
Método dos mínimos quadradosMétodo dos mínimos quadrados
Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc.
Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por 1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.
Método dos mínimos quadradosMétodo dos mínimos quadrados
De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de
12+ 2
2 + 32 + ...+ n
2 é denominada a melhor curva de ajustamento.
Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.
Métodos de Mínimos Quadrados com suposição de normalidade
A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’
Como E()=0 então o modelo é expresso por E(Y) = X
’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X
A soma de quadrados de resíduos
A solução do sistema é
Vetor de valores ajustados
XbY ˆ
0
βεε'
Condição de mínimo
Ytt Xβ)XX(
Yb t1t X)XX(β
O erro nas observações é:
)(ˆ 10 iiiii xbbyyye
Para n observações, a média do erro é:
xbbye
xbbyn
en
e ii
ii
i
10
10 )}({11
Supondo que a média do erro é zero
xbyb 10
Substituindo b0 na equação de erro vamos obter:
221 xnxyxnxy
b
25 pares de observações onde Y =quantidade de vapor usado por mêse X = temperatura em graus Farenheit
Experimento 1
1 10.98 35.3 13 11.88 28.12 11.13 29.7 14 9.57 39.13 12.51 30.8 15 10.94 46.84 8.40 58.8 16 9.58 48.55 9.27 61.4 17 10.09 59.36 8.73 71.3 18 8.11 70.07 6.36 74.4 19 6.83 70.08 8.50 76.7 20 8.88 74.59 7.82 70.7 21 7.68 72.110 9.14 57.5 22 8.47 58.111 8.24 46.4 23 8.86 44.612 12.19 28.9
No obs. Y YNo obs.X X
24 10.36 33.425 11.08 28.6
432118211315 .YX X iii
Para n = 25 e
424.9Y60.52X42.76323 X 2i
080.042.7154128.571
1
b
iii XXbbY 080.0623.13ˆ10
Portanto
623,1360.52*080.0424.90 b
30 40 50 60 70 80
6
7
8
9
10
11
12
13
X
Y
807060504030
11,5
10,5
9,5
8,5
7,5
ajustadosValores
X
Gráfico 2: Temperaturaversus valores ajustados
Gráfico 1: Temperatura versus Qtd de vapor
O gráfico 1 mostra que existe uma relação linear entre a qtdde vapor e a temperatura. O gráfico 2 ilustra a regressão linear.
Avaliação de desempenho do modelo de Regressão
R2 – mede a variabilidade de explicada pelo modelo de regressão
2
2
2
)(
)ˆ(
YY
YYR
ii
ii
Y
Exemplo: Para os dados do experimento 1
71.081.63
5924.45R 2
Estatística
Teste de aceitação do modelo H0: = 0H1: 0
Tabela 1 : Análise de Variância
RegressãoResíduo
Variação Graus de Liberdade
p-1n-p
n-1Total corretopor Y
Soma de Quadrados ( SS)
Soma de Quadrados média (MS)
2n
1ti )YY(
2
1
)ˆ( i
n
ti YY
2n
1ti YY )(
SSReg/(p-1)
s2 = SSRes/(n-p)
Estatística do teste (F)
)pn/(SS)1p/(SS
sRe
gRe
F tem distribuição com p-1,n-p graus de liberdadee nível de significância 1-
Teste de aceitação do modelo
Região de aceitação da hipótese H0
)1()/()1/(
1,1Re
Re
pnps
g FpnSS
pSSF
H0: Rejeita-se o modeloH1: Aceita-se o modelo
RegressãoResíduo
Variação Graus de Liberdade
123
24Total corretopor Y
Soma de Quadrados ( SS)
Soma de Quadrados média MS
45.590.79
Valor daEstatística do teste (F)
Tabela 1 : Análise de Variância
Exemplo: Considere o modelo do exemplo anterior
45.5918.22
57.54
63.81
Valor de F1,22(0,95) = 4.28
Como a estatística F=57.54 > 4.28 rejeitamos H0
Teste de significância do vetor de parâmetros ()
Estatística do teste
)( i
i
bVarbT
H0: i = 0 (i = 1,...,p)H1: i 0
Região de aceitação da hipótese H0
)2/1( pntT
T tem distribuição t-student com n-p graus de liberdade
Regression Analysis: C1 versus C2
The regression equation isC1 = 13,6 - 0,0798 C2
Predictor Coef SE Coef T PConstant 13,6230 0,5815 23,43 0,000C2 -0,07983 0,01052 -7,59 0,000
S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%
Analysis of Variance
Source DF SS MS F PRegression 1 45,592 45,592 57,54 0,000Residual Error 23 18,223 0,792Total 24 63,816
Intervalo de confiança para o vetor b
)b(Var)2/(tb ipni
b tem distribuição t-student(n-p)
i = 1,...p
Exemplo: Continuando com o exemplo anterior
H0: 1 = 0 (i = 1,...,p)H1: 1 0
|T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069Rejeita H0
Intervalo de confiança : -0.1016 < 1< -0.0581
Diagnóstico da RegressãoAnálise do modelo Exemplo 1
Os resultados do ajustamento revelam que :
a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%
Diagnóstico da RegressãoAnálise gráfica dos resíduos
1 – Normalidade da variável resposta
2 – Independência das observações
3 – Se uma variável explicativa não incluída no modelo é relevante
252015105
1
0
-1
-2
Observation Order
Res
idua
l
Residuals Versus the Order of the Data(response is C1)
7,5 8,5 9,5 10,5 11,5
-2
-1
0
1
Fitted Value
Res
idua
l
Residuals Versus the Fitted Values(response is C1)
Diagnóstico da Regressão
Os resíduos são aleatórios. Os valores ajustados não apresentam tendência
1,51,00,5-0,0-0,5-1,0-1,5
7
6
5
4
3
2
1
0
Residual
Freq
uenc
y
Histogram of the Residuals(response is C1)
-2 -1 0 1
-2
-1
0
1
2
Nor
mal
Sco
re
Residual
Normal Probability Plot of the Residuals(response is C1)
Diagnóstico da Regressão
Os resíduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as hipótesesbásicas da regressão clássica são satisfeitas.
Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão
Yt = 0+ 1X1+ X2 + t t = 1,...,n
Um método de estimação: Mínimos Quadrados não Lineares
Top Related