Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de...

31
Estatística Regressão Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para o valor previsto -coeficiente de correlação amostral -analise dos erros -transformação para um modelo linear -regressão polinomial -regressão linear múltipla Pontos mais importantes:

Transcript of Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de...

Page 1: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

Regressão

1

-objectivo

-regressão linear

-distribuição dos estimadores, limites de confiança para os coeficientes

-limite de confiança para o valor previsto

-coeficiente de correlação amostral

-analise dos erros

-transformação para um modelo linear

-regressão polinomial

-regressão linear múltipla

Pontos mais importantes:

Page 2: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

2

Uma tarefa frequente é determinar a relação matemática entre as variáveis de interesse:

Objectivo da regressão

{x} {y}{y}=f{x}

f{x}=?

sistema

e.g.

2

v

D

Lfp

2

-escoamento horizontal numa conduta:

-desactivação dos microorganismos: N t N e kt( ) 0

-temperatura num cilindro (condução): -log(TR-T(t))= -(1/fh)t-log(jh(TR-T0))

Page 3: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

3

Modelos matemáticos

Determinação dos parâmetros (e.g. propriedades físicas)

previsão

experiência

Objectivo da regressão: 1) estimação dos parâmetros dos modelos matemáticos

2) verificar se o modelo é adequado

Condição: os dados são sujeitos a erros (aleatórios).

Page 4: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

4

regressão

f(x)

x

f(x)=ax+b a=?

b=?

Page 5: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

5

Regressão linear

Seja Y uma função de x1, x2,..., xr variáveis independentes. A relação entre eles segue um modelo linear (múltiplo) quando a variável dependente (Y) pode ser escrita:

ex...xxY rr22110

Onde: -i (i=0, 1,..., r) são os coeficientes de regressão

-”e” representa o erro aleatório com N(0,2)

O caso mais simples é quando temos só uma variável independente:

exY

Page 6: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

6

Suponha, que temos n conjuntos de pontos (xi,yi), i=1,2,...,n.

X

20018016014012010080

Y 160

140

120

100

80

60

Agora sejam: -A estimador de

-B estimador de

Assim:

BxAY estimador de Y

Escolhemos A e B tal que a soma dos quadrados dos resíduos,

n

iii

n

iiiR BxAYYYSS

1

2

1

seja mínimo.

Page 7: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

7

Para encontrar o mínimo da SSR, temos,

0BxAY2A

SS n

1iii

R

0BxAYx2B

SS n

1iiii

R

ou

n

1ii

n

1ii xBnAY

n

1i

2i

n

1ii

n

1iii xBxAYx

Aplicando,

n

YY

n

1ii

n

xx

n

1ii

temos da primeira equação, xBYA

1)

2)

Page 8: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

y = 0.8893x - 26.65

.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

90 110 130 150 170 190 210

x

y

8

Substituindo o resultado na segunda equação:

2

n

1i

2i

n

1iiin

1i

2i

n

1iii

xnx

YxnYxBxBxnxBYYx

X Y

1 0 0 6 3 . 6 4

1 1 0 6 8 . 8 6

1 2 0 8 7 . 7 1

1 3 0 8 7 . 0 1

1 4 0 9 7 . 2 1

1 5 0 1 0 0 . 3 6

1 6 0 1 0 9 . 9 0

1 7 0 1 2 8 . 5 5

1 8 0 1 3 5 . 9 4

1 9 0 1 4 3 . 8 4

Page 9: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

9

Distribuição dos estimadores, limites de confiança para os coeficientes de regressão

Para determinar a distribuição A e B, vamos supor que,

),x(N~Y 2ii

B pode ser escrito,

n

1iii

2n

1i

2i

n

1iii

2n

1i

2i

n

1ii

n

1iii

nYY

2n

1i

2i

n

1iii Y

xnx

Yxx

xnx

YxYx

xnx

YxnYxB i

onde e são constantes.

Page 10: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

10

Porque Y tem uma distribuição normal, B também tem com N(B2B

2n

1i

2i

2n

1i

2i

2n

1i

2i

n

1iii

2n

1i

2i

n

1ii

2n

1i

2i

n

1iii

2n

1i

2i

n

1iii

B

xnx

xnx

0xnx

xxx

xnx

xx

xnx

xxx

xnx

YExxBE

A variância de B sem prova,

2n

1i

2i

22B

xnx

n

1ii xnx

Page 11: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

11

Da mesma forma podemos ver que A também segue uma distribuição normal com os seguintes parâmetros:

xn

xx

n

YExBEYEAE

n

1i

in

1i

i

A variância de A sem prova,

2n

1i

2i

n

1i

2i

2

2A

xnxn

x

Page 12: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

12

Assim, A e B são v.a. normais:

2n

1i

2i

2

xnx,N~B

2n

1i

2i

n

1i

2i

2

xnxn

x,N~A ,

Antes de determinar os intervalos de confiança para os parâmetros de regressão, vamos definir:

YxnYxSn

1iiixY

2n

1i

2ixx xnxS

2n

1i

i2

YY YnYS

xx

xY

2n

1i

2i

n

1iii

S

S

xnx

YxnYxB

xBYA

xx

2xYYYxx

R S

SSSSS

Page 13: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

13

Para determinar os intervalos de confiança para , temos que ter uma estimativa da 2 (desconhecida). Mas como,

2RE22n2

R

2n

SSE~

SS 2

assim a distribuição

2n

xx

R

t~

)2n(SSS

B

xx

2

S,N~B

O intervalo de confiança (com nível de conf. 1-) é dada pela:

2n,2xx

R2n,2

xx

R tS)2n(

SSBt

S)2n(

SSB

Page 14: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

14

Pela a mesma razão, a distribuição,

2n

xx

R

n

1i

2i

t~

)2n(nS

SSx

A

xx

n

1i

2i

2

nS

x,N~A

Assim o intervalo de confiança (com nível de conf. 1-) é dada pela:

2n,2xx

R

n

1i

2i

2n,2xx

R

n

1i

2i

tS)2n(n

SSxAt

S)2n(n

SSxA

Page 15: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

15

y = 0.8893x - 26.65

.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

90 110 130 150 170 190 210

x

y

Coefficientsa

-26.650 7.464 -3.570 .007 -43.863 -9.438

.889 .050 .987 17.612 .000 .773 1.006

A

B

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig. Lower Bound Upper Bound

95% Confidence Interval for

Dependent Variable: Ya.

Page 16: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

16

Limites de confiança para o valor previsto

Para fazer uma previsão de Y para um dado valor de x0, talvez a melhor opção seja:

0BxAY

Geralmente, temos mais interesse em definir um intervalo onde Y ocorre com um dado grau de confiança. Sem prova,

2n

R

xx

20

0 t~

)2n(SS

Sxx

n1n

BxAY

Page 17: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

17

O intervalo de confiança para Y é dado por,

2n,2

R

xx

20

02n,2R

xx

20

0 t )2n(

SS

S

xx

n

1nBxAYt

)2n(

SS

S

xx

n

1nBxA

20018016014012010080

160

140

120

100

80

60

Observed

Linear

95% intervalode confiança

Y

x

Page 18: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

18

Coeficiente de correlação amostral, R

No caso de duas v.a.s X e Y, a dependência linear entre eles é dada pela:

1)Y,X(Corr1Y

2X

2

XYy,x

A estimativa de

2n

1i

i2

n

1i

2

iYYY2

2n

1i

2i

n

1i

2ixxX

2

n

1i

n

1iiiiixYXY

YnYYYS

xnxxxS

YxnYxxxYYS

Assim 1SS

SR1

YYxx

xY

Page 19: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

19

|R| alto (1) significa uma forte dependência linear entre Y e x

y = 0.8893x - 26.65

R2 = 0.9749

.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

90 110 130 150 170 190 210

x

y

Page 20: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

20

Analise dos erros

O modelo linear de forma, exY

é um modelo adequado para descrever a relação entre Y~x se,

1) 0 (R é alto)

2) e tem IIDN(0,2)

A avaliação do segundo termo é através de visualização dos resíduos com alguns gráficos diagnósticos e o cálculo de coeficientes de auto-correlação

Page 21: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

Scatterplot

Dependent Variable: Y

Y

1601401201008060

Re

gre

ssio

n S

tan

da

rdiz

ed

Re

sid

ua

l2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

- resíduos vs. Y:

21

Page 22: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Y

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

-resíduos sobre uma curva de distribuição normal:

22

Page 23: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

-resíduos vs. x

X

20018016014012010080

Sta

nd

ard

ize

d R

esi

du

al

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

23

Page 24: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

2

12n

kt

ktkt

2

12n

1t

tt

n

kt

ktkttt

k

)ee()ee(

)ee)(ee(r

Coeficiente de auto-correlação de “lag” k.

Unstandardized Residual

Lag Number

87654321

AC

F

1.0

.5

0.0

-.5

-1.0

Confidence Limits

Coefficient

24

Page 25: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

Transformação para um modelo linear

Muitas as vezes a relação entre duas variáveis, não pode ser escrita com uma função linear. E.g. cinética de degradação:

kte)t(

Tirando o logaritmo ktln)t(ln

Assim escolhendo:

k

ln

)t(lnY

temos um problema de regressão linear exY 25

Page 26: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

-exemplo

X

1000080006000400020000-2000

Y

6

5

4

3

2

1

0

X

1000080006000400020000-2000L

NY

2

1

0

-1

-2

-3

26

Page 27: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

y = -0.0005x + 1.6323

R2 = 0.9967

-4.00

-3.00

-2.00

-1.00

.00

1.00

2.00

3.00

0 2000 4000 6000 8000

LNY

"-95% conf int"

"95% conf int"

Linear (LNY)

ln Y x

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

ln

X

1000080006000400020000-2000

Un

sta

nd

ard

ize

d R

esi

du

al

.4

.3

.2

.1

-.0

-.1

-.2

-.3

27

Page 28: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

Regressão polinomial

ex...xxY nn

2210 Modelo

Para estimar os coeficientes desta equação, temos que minimizar,

2nin

2i2i10i xB...xBxBBY

igualando as respectivas derivadas de esta função a zero. O resultado é um sistema de equações lineares. A maior parte dos softwares oferecem a opção regressão polinomial.

[A]{B}={f}- [A] é uma função de xi

- {f} é uma função de xi e Yi. 28

Page 29: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

-exemplo

y = 1E-07x2 - 0.0014x + 4.6125

R2 = 0.9756

.00

1.00

2.00

3.00

4.00

5.00

6.00

0 2000 4000 6000 8000 10000

Y

Poly. (Y)

X

1000080006000400020000-2000

Y

6

5

4

3

2

1

0

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

X

1000080006000400020000-2000

resí

du

o

.6

.4

.2

-.0

-.2

-.4

-.6 29

Page 30: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

30

Regressão linear múltipla

ex...xxY rr22110 Modelo:

Para estimar os coeficientes da equação, temos que minimizar,

2irr2i21i10i xB...xBxBBY

O resultado é um sistema de equações com r+1 incógnitas de forma:

YXBXX TT

nr

r2

r1

2n1n

2221

1211

x

x

x

xx1

xx1

xx1

x

r

1

0

B

B

B

B

n

2

1

Y

Y

Y

Y

Page 31: Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para.

EstatísticaRegressão

31

10000

8000

6000

V4

4000

2000

200180

X

160

-30

0140

120

-20

100

Y

-10

0

10

20

30

21 x00902.0x202.0168.0Y

R=1

Observed Cum Prob

1.00.75.50.250.00

Exp

ect

ed

Cu

m P

rob

1.00

.75

.50

.25

0.00

X

20018016014012010080

Un

sta

nd

ard

ize

d R

esi

du

al

.2

.1

0.0

-.1

-.2