Download - Regressão e Previsão Numérica

Transcript

RegressãoRegressãoee

Previsão NuméricaPrevisão Numérica

Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições

Objetivos

Planejamento

A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções

Amostra

Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

PrevisãoPrevisão

Previsão é similar à Classificação Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido

O método mais importante de previsão é a regressão

Regressão linear e múltipla Regressão não linear

Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categórica Na previsão, a variável a “explicar” é contínua

Relação entre VariáveisRelação entre Variáveis

Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis.Exemplo: Peso x AlturaCircunferência x RaioQuantidade de vapor x Temperatura

Ajustamento de curvaAjustamento de curva

Para ajustar uma equação que relacione as variáveis, é necessário: Colecionar dados que indiquem valores Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) Visualizar a curva de dispersão (curva regular que aproxima os dados)

Correlação LinearCorrelação LinearÉ quando os dados parecem estar bem

próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação:

Y = 0 + 1 X

Correlação Não-LinearCorrelação Não-Linear

Quando os dados não estão próximos a uma linha reta. Existem várias equações:

Y = 0 + 1 X + 2 X2

Y = 0 + 1 X + 2 X2 + 3 X3

Y = 0 + 1 X + 2 X2 + 3 X3+ ... + nXn

Sejam os valores de uma variável dependente (resposta) Yrelacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico

Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n

k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

Regressão Linear Múltipla

Suposições para a análise do modelo de Regressão Linear

Resíduos com variância constante, não correlacionados e média zero

Normalidade nos resíduos (não necessariamente)

Número de parâmetros menor que o número deobservações (problema de overfitting)

Métodos de Estimação dos Parâmetros

Mínimos Quadrados

Y = X +

Y – vetor de respostas (n 1)X - matriz de observações independentes (n p) - vetor de parâmetros - vetor de erros (n 1)

Modelo

Método dos mínimos quadradosMétodo dos mínimos quadrados

Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc.

Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por 1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.

Método dos mínimos quadradosMétodo dos mínimos quadrados

De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de

12+ 2

2 + 32 + ...+ n

2 é denominada a melhor curva de ajustamento.

Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.

Métodos de Mínimos Quadrados com suposição de normalidade

A idéia é obter uma estimativa b para o vetor de parâmetros que minimize a soma de quadrados dos erros ’

Como E()=0 então o modelo é expresso por E(Y) = X

’ = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

A soma de quadrados de resíduos

A solução do sistema é

Vetor de valores ajustados

XbY ˆ

βεε'

Condição de mínimo

Ytt Xβ)XX(

Yb t1t X)XX(β

O erro nas observações é:

)(ˆ 10 iiiii xbbyyye

Para n observações, a média do erro é:

xbbye

xbbyn

e ii

10 )}({11

Supondo que a média do erro é zero

xbyb 10

Substituindo b0 na equação de erro vamos obter:

221 xnxyxnxy

25 pares de observações onde Y =quantidade de vapor usado por mêse X = temperatura em graus Farenheit

Experimento 1

1 10.98 35.3 13 11.88 28.12 11.13 29.7 14 9.57 39.13 12.51 30.8 15 10.94 46.84 8.40 58.8 16 9.58 48.55 9.27 61.4 17 10.09 59.36 8.73 71.3 18 8.11 70.07 6.36 74.4 19 6.83 70.08 8.50 76.7 20 8.88 74.59 7.82 70.7 21 7.68 72.110 9.14 57.5 22 8.47 58.111 8.24 46.4 23 8.86 44.612 12.19 28.9

No obs. Y YNo obs.X X

24 10.36 33.425 11.08 28.6

432118211315 .YX X iii

Para n = 25 e

424.9Y60.52X42.76323 X 2i

080.042.7154128.571

iii XXbbY 080.0623.13ˆ10

Portanto

623,1360.52*080.0424.90 b

30 40 50 60 70 80

807060504030

11,5

10,5

9,5

8,5

7,5

ajustadosValores

Gráfico 2: Temperaturaversus valores ajustados

Gráfico 1: Temperatura versus Qtd de vapor

O gráfico 1 mostra que existe uma relação linear entre a qtdde vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

Avaliação de desempenho do modelo de Regressão

R2 – mede a variabilidade de explicada pelo modelo de regressão

)(

)ˆ(

YYR

Exemplo: Para os dados do experimento 1

71.081.63

5924.45R 2

Estatística

Teste de aceitação do modelo H0: = 0H1: 0

Tabela 1 : Análise de Variância

RegressãoResíduo

Variação Graus de Liberdade

p-1n-p

n-1Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média (MS)

1ti )YY(

)ˆ( i

ti YY

1ti YY )(

SSReg/(p-1)

s2 = SSRes/(n-p)

Estatística do teste (F)

)pn/(SS)1p/(SS

sRe

gRe

F tem distribuição com p-1,n-p graus de liberdadee nível de significância 1-

Teste de aceitação do modelo

Região de aceitação da hipótese H0

)1()/()1/(

1,1Re

pnps

g FpnSS

pSSF

H0: Rejeita-se o modeloH1: Aceita-se o modelo

RegressãoResíduo

Variação Graus de Liberdade

123

24Total corretopor Y

Soma de Quadrados ( SS)

Soma de Quadrados média MS

45.590.79

Valor daEstatística do teste (F)

Tabela 1 : Análise de Variância

Exemplo: Considere o modelo do exemplo anterior

45.5918.22

57.54

63.81

Valor de F1,22(0,95) = 4.28

Como a estatística F=57.54 > 4.28 rejeitamos H0

Teste de significância do vetor de parâmetros ()

Estatística do teste

)( i

bVarbT

H0: i = 0 (i = 1,...,p)H1: i 0

Região de aceitação da hipótese H0

)2/1( pntT

T tem distribuição t-student com n-p graus de liberdade

Regression Analysis: C1 versus C2

The regression equation isC1 = 13,6 - 0,0798 C2

Predictor Coef SE Coef T PConstant 13,6230 0,5815 23,43 0,000C2 -0,07983 0,01052 -7,59 0,000

S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2%

Analysis of Variance

Source DF SS MS F PRegression 1 45,592 45,592 57,54 0,000Residual Error 23 18,223 0,792Total 24 63,816

Intervalo de confiança para o vetor b

)b(Var)2/(tb ipni

b tem distribuição t-student(n-p)

i = 1,...p

Exemplo: Continuando com o exemplo anterior

H0: 1 = 0 (i = 1,...,p)H1: 1 0

|T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069Rejeita H0

Intervalo de confiança : -0.1016 < 1< -0.0581

Diagnóstico da RegressãoAnálise do modelo Exemplo 1

Os resultados do ajustamento revelam que :

a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%