Engenharia de Processos e Sistemas III. Construção de...

25
Marco Reis:2010 © Modelação matemática de base estatística/empírica: I. Características dos dados industriais II. Análise dos componentes principais (PCA) III. Controlo estatístico multivariado de processos IV. Construção de modelos empíricos usando metodologias de regressão II Engenharia de Processos e Sistemas III. Construção de modelos empíricos usando metodologias de regressão MSR 2010 © Engenharia de Processos e Sistemas 3 GEPSI/CIEPQPF DEQ-FCTUC Objectivos: Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL; Compreender o que é um modelo de RL e o seu âmbito de aplicação; Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado; Interpretar os IC para os coeficientes do modelo (parte estrutural); Interpretar os IC para a resposta média e de previsão; Saber como validar um modelo de RL; Compreender a origem do problema da colinearidade e como o diagnosticar; Saber os passos a seguir na construção de uma modelo de RL Distinguir os vários métodos de selecção de variáveis Compreender os vários métodos de selecção de dimensões (PCR e PLS): saber como os estimar, validar e interpretar os seus resultados. MSR 2010 © Engenharia de Processos e Sistemas 4 GEPSI/CIEPQPF DEQ-FCTUC Metodologias de Modelação Processo Genérico Variáveis associadas ao que entra no processo (x’s) Variáveis associadas ao que sai do processo (y’s) Variáveis ligadas a parâmetros do processo (x’s) Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s). X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes Y’s “Outputs” Respostas Variáveis de saída Variáveis dependentes

Transcript of Engenharia de Processos e Sistemas III. Construção de...

Marco Reis:2010 ©

Modelação matemática de base estatística/empírica:

I. Características dos dados industriaisII. Análise dos componentes principais (PCA)III. Controlo estatístico multivariado de processosIV. Construção de modelos empíricos usando metodologias de

regressão

II

Engenharia de Processos e Sistemas

III. Construção de modelos empíricos usando metodologias de regressão

MSR 2010 © Engenharia de Processos e Sistemas 3GEPSI/CIEPQPF

DEQ-FCTUC

Objectivos:

• Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL;

• Compreender o que é um modelo de RL e o seu âmbito de aplicação;

• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado;

• Interpretar os IC para os coeficientes do modelo (parte estrutural);

• Interpretar os IC para a resposta média e de previsão;

• Saber como validar um modelo de RL;

• Compreender a origem do problema da colinearidade e como o diagnosticar;

• Saber os passos a seguir na construção de uma modelo de RL

• Distinguir os vários métodos de selecção de variáveis

• Compreender os vários métodos de selecção de dimensões (PCR e PLS): saber como os estimar, validar e interpretar os seus resultados.

MSR 2010 © Engenharia de Processos e Sistemas 4GEPSI/CIEPQPF

DEQ-FCTUC

Metodologias de Modelação

Processo Genérico

Variáveis

associadas ao

que entra no

processo (x’s)

Variáveis

associadas ao

que sai do

processo (y’s)

Variáveis ligadas a

parâmetros do processo (x’s)

Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).

X’s“Inputs”PredictoresRegressoresVariáveis de entradaVariáveis independentes

Y’s“Outputs”Respostas

Variáveis de saídaVariáveis dependentes

MSR 2010 © Engenharia de Processos e Sistemas 5GEPSI/CIEPQPF

DEQ-FCTUC

Metodologias de Modelação

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

0

dVF F

dt= −

/

0 0 0

E RTAA A A

dVCF C FC k e C V

dt

−= − −

/

0 0 0 ( )E RT

A cj

p p

dVT H UAFT FT k e C V T T

dt C Cρ ρ−∆

= − − − −

,0

,

( ) ( )cj cj

cj cj cj cj

j p cj

dV T UAF T T T T

dt Cρ= − + −

( )2set c setF F K V V= − −

( ), 1cj cj set c setF F K T T= − − X

Y

x

E(Y|x)

X

Y

x

E(Y|x)

Modelos baseados em primeiros princípios → Estrutura completamente definida

“Knowledge intensive” “Data intensive”

Modelos empíricos→ Algumas restrições quanto à estrutura do modelo

Modelos baseados em dados

→ muito poucas hipóteses são colocadas

quanto à estrutura do modelo

MSR 2010 © Engenharia de Processos e Sistemas 6GEPSI/CIEPQPF

DEQ-FCTUC

“The curse of dimensionality”

� 1D: Com N pontos, consegue-se a seguinte taxa de

amostragem, numa linha de comprimento L:

1 2 3 … … N

0 L

NTA

L=

MSR 2010 © Engenharia de Processos e Sistemas 7GEPSI/CIEPQPF

DEQ-FCTUC

“The curse of dimensionality”

� 2D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num quadrado de lado L:

2

NTA

L=

Para garantir igual cobertura, ter-se-ia de usar N2 pontos

MSR 2010 © Engenharia de Processos e Sistemas 8GEPSI/CIEPQPF

DEQ-FCTUC

“The curse of dimensionality”

� 3D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num cubo de lado L:

3

NTA

L=

Para garantir igual cobertura, ter-se-ia de usar N3 pontos

MSR 2010 © Engenharia de Processos e Sistemas 9GEPSI/CIEPQPF

DEQ-FCTUC

“The curse of dimensionality”

� m-D: Com N pontos, consegue-se a seguinte taxa de

amostragem, num hipercubo de lado L:

m

NTA

L=

Para garantir igual cobertura, ter-se-ia de usar Nm pontos

MSR 2010 © Engenharia de Processos e Sistemas 10GEPSI/CIEPQPF

DEQ-FCTUC

Metodologias de Modelação

� Utilidade dos modelos:� Previsão de valores futuros de uma variável de

saída;� Medição do efeito associado a mudanças

processuais;� Controlo e/ou monitorização do processo;� Gestão e melhoria do processo;� Aumentar o conhecimento sobre o processo.

MSR 2010 © Engenharia de Processos e Sistemas 11GEPSI/CIEPQPF

DEQ-FCTUC

� Regressão (Previsão):� As saídas do modelo são variáveis quantitativas;

� Classificação:� As saídas do modelo são variáveis qualitativas

(classes ou categorias)� Qualidade do produto (Mau, Intermédio, Bom);� Reconhecimento de caracteres (padrões);� …

Regressão (Previsão) vs Classificação

MSR 2010 © Engenharia de Processos e Sistemas 12GEPSI/CIEPQPF

DEQ-FCTUC

Observ. X1 X2 X3 X4

1 0,165 0,11 0,075 0,053

2 0,178 0,14 0,105 0,077

3 0,102 0,089 0,068 0,048

4 0,191 0,107 0,06 0,046

5 0,239 0,146 0,094 0,067

6 0,178 0,115 0,078 0,056

7 0,193 0,089 0,041 0,03

8 0,164 0,113 0,078 0,056

9 0,129 0,098 0,074 0,057

10 0,193 0,134 0,093 0,066

11 0,154 0,071 0,03 0,016

12 0,065 0,053 0,036 0,025

13 0,144 0,078 0,043 0,028

14 0,138 0,118 0,093 0,063

15 0,219 0,145 0,101 0,07

Observ. Y

1 0,456

2 0,456

3 0,152

4 0,76

5 0,76

6 0,608

7 0,76

8 0,456

9 0,304

10 0,608

11 0,608

12 0,152

13 0,608

14 0,304

15 0,76

Regressão (Previsão)Treino do modelo vs Teste do modelo

Modelo

(β0, β1,…, βm,σ2)X Y

Observ. X1 X2 X3 X4

16 0,146 0,17 0,134 0,103

17 0,128 0,144 0,125 0,101

18 0,107 0,105 0,102 0,081

19 0,146 0,174 0,136 0,099

20 0,105 0,126 0,094 0,068

21 0,152 0,205 0,128 0,081

23 0,139 0,207 0,109 0,057

24 0,108 0,162 0,082 0,04

25 0,12 0,187 0,083 0,038

^ ^ ^ ^

I. Treino/Estimação

XnewModelo

(β0, β1,…, βm,σ2)?

^ ^ ^ ^

II. Teste/Previsão

MSR 2010 © Engenharia de Processos e Sistemas 13GEPSI/CIEPQPF

DEQ-FCTUC

Observ. C

1 A

2 A

3 B

4 A

5 B

6 B

7 A

8 A

9 B

10 B

11 B

12 A

13 B

14 A

15 A

Observ. X1 X2 X3 X4

1 0,165 0,11 0,075 0,053

2 0,178 0,14 0,105 0,077

3 0,102 0,089 0,068 0,048

4 0,191 0,107 0,06 0,046

5 0,239 0,146 0,094 0,067

6 0,178 0,115 0,078 0,056

7 0,193 0,089 0,041 0,03

8 0,164 0,113 0,078 0,056

9 0,129 0,098 0,074 0,057

10 0,193 0,134 0,093 0,066

11 0,154 0,071 0,03 0,016

12 0,065 0,053 0,036 0,025

13 0,144 0,078 0,043 0,028

14 0,138 0,118 0,093 0,063

15 0,219 0,145 0,101 0,07

ModeloX C

Observ. X1 X2 X3 X4

16 0,146 0,17 0,134 0,103

17 0,128 0,144 0,125 0,101

18 0,107 0,105 0,102 0,081

19 0,146 0,174 0,136 0,099

20 0,105 0,126 0,094 0,068

21 0,152 0,205 0,128 0,081

23 0,139 0,207 0,109 0,057

24 0,108 0,162 0,082 0,04

25 0,12 0,187 0,083 0,038

I. Treino/Estimação

XnewModelo ?

II. Teste/Previsão

ClassificaçãoTreino do modelo vs Teste do modelo

MSR 2010 © Engenharia de Processos e Sistemas 14GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� O modelo de regressão linear múltipla

� Propriedades do termo εi (pressupostos):� variância dos resíduos é constante;� todos os resíduos são independentes;� seguem uma lei normal com média nula.

� Pressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros).

0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯

Componente estrutural Componente estocástica

MSR 2010 © Engenharia de Processos e Sistemas 15GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� β0 - Intercepção na origem (“intercept”, “constant”);

� βi – Coeficientes de regressão parciais (“partialregression coefficients”).

0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯

MSR 2010 © Engenharia de Processos e Sistemas 16GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Pode ser usado para descrever relações não-lineares, e.g:

� Assume que os X’s

estão isentos

de qualquer erro.

2 2

0 1 1 2 2 11 1 22 2 12 1 2y x x x x x xβ β β β β β ε= + + + + + +

MSR 2010 © Engenharia de Processos e Sistemas 17GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Notação matricial

1 11 1 0 1

1

1

1

m

n n nm m n

Y x x

Y x x

Y XB E

β ε

β ε

= +

= +

⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮

MSR 2010 © Engenharia de Processos e Sistemas 18GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Estimação do modelo de regressão linear múltipla:� Mínimos quadrados

( )

( ) ( )

2

0 1 1 2 2

1

ˆ

ˆ. .,

n

i i i m miB

i

T

B

B Min Y x x x

i e B Min Y XB Y XB

β β β β=

= − − − − −

= − −

∑ ⋯

MSR 2010 © Engenharia de Processos e Sistemas 19GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Estimação de parâmetros em RLM� Minimizar a soma dos desvios quadráticos (verticais …)

3D Surface Plot

Y=105,1527+0,2131*X1+0,4855*X2

195 190 185 180 175 170 165 160 155

MSR 2010 © Engenharia de Processos e Sistemas 20GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Métodos dos mínimos quadrados:� Solução: CN de optimalidade

Equações normaisdo método dos

mínimos quadrados

MSR 2010 © Engenharia de Processos e Sistemas 21GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Solução (notação matricial):

( )1

ˆ T T−

=B X X X Y

MSR 2010 © Engenharia de Processos e Sistemas 22GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

� Estimativa da variância do termo estocástico do modelo de regressão linear múltipla:

� N – número de observações� m – número de variáveis

2

2 1

ˆ

ˆ1 1

N

i

i SSr

N m N m

ε

σ == =− − − −

MSR 2010 © Engenharia de Processos e Sistemas 23GEPSI/CIEPQPF

DEQ-FCTUC

Inferência em Regressão Linear Múltipla

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression

Analysis. Wiley. 4th ed.

•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,

2nd ed., Wiley, NY

•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY

MSR 2010 © Engenharia de Processos e Sistemas 24GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� Propriedades das estimativas dos parâmetros

� Seguem uma distribuição normal multivariada:

( )( )12ˆ ~ , TB N B X X σ

MSR 2010 © Engenharia de Processos e Sistemas 25GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� Propriedades das estimativas dos parâmetros:� Matriz das variâncias-covariâncias das estimativas dos

parâmetros:

� Dada por:

( )1

2ˆ( ) TVar B X X σ−

=

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

0 0 1 0

1 0 1 1

0 1

ˆ ˆ ˆ ˆ ˆ, ,

ˆ ˆ ˆ ˆ ˆ, ,ˆ( )

ˆ ˆ ˆ ˆ ˆ, ,

m

m

m m m

Var Cov Cov

Cov Var CovVar B

Cov Cov Var

β β β β β

β β β β β

β β β β β

=

⋮ ⋮ ⋱ ⋮

MSR 2010 © Engenharia de Processos e Sistemas 26GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� A variância associada a cada parâmetro individual édada pelos elementos na diagonal principal da matriz de variâncias-covariâncias.

� A covariância entre parâmetros, é dada pelos elementos não diagonais.

MSR 2010 © Engenharia de Processos e Sistemas 27GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� TH aos coeficientes individuais� Para analisar a significância de alguns parâmetros

em particular.� Nas condições do modelo de regressão ser válido:

� Os parâmetros seguem distribuições normais;� A sua média é centrada nos valores exactos e a sua

variância é dada pelos elementos diagonais da matriz de variâncias-covariâncias.

MSR 2010 © Engenharia de Processos e Sistemas 28GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� TH (parâmetros individuais):

Rejeitar H0 se |t0| > tα/2,n-p-1.

Estatística de teste

Elemento jj da matriz de variâncias-covarâncias

Alternativamente, usar abordagem baseada em IC …

MSR 2010 © Engenharia de Processos e Sistemas 29GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� IC para os parâmetros do modelo de regressão múltipla

� IC(βj ,(1-α)x100%):

2 2

2, 1 2, 1ˆ ˆˆ ˆj N p jj j j N p jjt C t Cα αβ σ β β σ− − − −− ≤ ≤ +

Elemento jj da matriz de variâncias-covarâncias

MSR 2010 © Engenharia de Processos e Sistemas 30GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� IC para a resposta média

� Intervalo de previsão

( ) ( )0 0 0

1 12 2

| 2, 1 0 0 | | 2, 1 0 0ˆ ˆ ˆ ˆT T T T

Y x N p Y x Y x N pt x X X x t x X X xα αµ σ µ µ σ− −

− − − −− ≤ ≤ +

( )( ) ( )( )1 12 2

0 2, 1 0 0 0 0 2, 1 0 0ˆ ˆ ˆ ˆ1 1T T T T

N p N py t x X X x y y t x X X xα ασ σ− −

− − − −− + ≤ ≤ + +

00 0 |ˆˆ ˆ

Y xy x β µ= =

MSR 2010 © Engenharia de Processos e Sistemas 31GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear UnivariadaInferência em regressão linear

� IC para a média e intervalo de previsão

Intervalo de previsão

Intervalo de confiança para a média

MSR 2010 © Engenharia de Processos e Sistemas 32GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Métricas de Qualidade do Modelo

� Coeficiente de determinação (R2)� Uma medida da qualidade do modelo (0≤ R2≤1)� Definição geral (modelos univariados/multivariados)

(Fracção da variabilidade total que é explicada pelo modelo)

2 1SSreg SSr

RSSt SSt

= = −

MSR 2010 © Engenharia de Processos e Sistemas 33GEPSI/CIEPQPF

DEQ-FCTUC

� O coeficiente R2 permite aferir sobre a qualidade do ajuste, aumentando sempre que se adiciona mais uma variável � Mesmo que uma variável não esteja relacionada com a

resposta, há sempre uma pequena parte da sua variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.

� Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.

� Para aferir sobre a qualidade do modelo é pois importante penalizar a métrica de qualidade com o número de variáveis utilizado.

Regressão Linear Múltipla Métricas de Qualidade do Modelo

MSR 2010 © Engenharia de Processos e Sistemas 34GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Métricas de Qualidade do Modelo

� R2 ajustado (R2adj)� Penaliza a introdução de termos adicionais no modelo� Previne “overfitting” e a utilização de regressores com

pouco potencial explicativo da variabilidade da resposta

( )( )

( )( )

( )2 21 1

1 1 11 1

adj

SSr N p NR R

SSt N N p

− − −= − = − −

− − −

MSR 2010 © Engenharia de Processos e Sistemas 35GEPSI/CIEPQPF

DEQ-FCTUC

O Problema da Colinearidade

MSR 2010 © Engenharia de Processos e Sistemas 36GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� O problema da colinearidade dos regressores� Um exemplo ainda mais simples:

� Construir um modelo para Y vs X1,X2

x1 x2 y 1 2 4 2 4 10 3 6 15 4 8 20 5 11 23

MSR 2010 © Engenharia de Processos e Sistemas 37GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

1 21 10.3 2.5y x x= − + −Modelo ajustado:

Como interpretar o sinal e a magnitude dos coeficientes?

1 2 3 4 52

3

4

5

6

7

8

9

10

11

x1

x 2

1 2 3 4 54

6

8

10

12

14

16

18

20

22

24

x1

y

0 5 10 154

6

8

10

12

14

16

18

20

22

24

x2

y

x1 x1 x2

x2 y y

MSR 2010 © Engenharia de Processos e Sistemas 38GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Outro exemplo� Construir um modelo para Y vs X1,X2

Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995).

-345

-327

-121

-103

10-3

1-2-1

3-2-7

3-4-5

X2X1Y

MSR 2010 © Engenharia de Processos e Sistemas 39GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

5

0

-5

20-2

50-5

5

0

-5

50-5

2

0

-2

Y

X1

X2

Matrix Plot of Y; X1; X2

MSR 2010 © Engenharia de Processos e Sistemas 40GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

MSR 2010 © Engenharia de Processos e Sistemas 41GEPSI/CIEPQPF

DEQ-FCTUC

43210-1-2-3-4-5

8

6

4

2

0

-2

-4

-6

-8

X1

Y

Scatterplot of Y vs X1

43210-1-2-3-4-5

8

6

4

2

0

-2

-4

-6

-8

X1Y

-3

-1

1

3

X2

Scatterplot of Y vs X1

Regressão Linear Múltipla Colinearidade

MSR 2010 © Engenharia de Processos e Sistemas 42GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Nota:� Os coeficientes de regressão parciais

representam a contribuição de um predictor na variável de saída, quando os outros se mantêm constantes;

� A magnitude e sinal dos coeficientes de regressão parciais, depende dos predictoresincorporados no modelo (sempre que estes apresentam correlação entre si).

MSR 2010 © Engenharia de Processos e Sistemas 43GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Por outro lado,…� Analisando a variância das estimativas

� Simulação: Gerar aleatoriamente amostras com 10 observações� Dois níveis de correlação entre X1 e X2� Resultados para 1000 simulações

1 2-10

-5

0

5

10

15

20High correlation (ρ =0.95)

Est

imat

es

Variable1 2

-10

-5

0

5

10

15

20Low correlation (ρ =0)

Est

imat

es

Variable

Valores exactos dos parâmetros

MSR 2010 © Engenharia de Processos e Sistemas 44GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Ou seja:

� Quando a correlação entre X1 e X2 é de 0.95 a variância na estimativa dos coeficientes que afectam as variáveis X1 e X2 é cerca de 10 vezes superior àquela obtida quando não há correlação entre X1 e X2.

( )1

2ˆ( ) TVar B X X σ−

=

MSR 2010 © Engenharia de Processos e Sistemas 45GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Efeitos da colinearidade na estimação de parâmetros

Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.

a)b)

MSR 2010 © Engenharia de Processos e Sistemas 46GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Conclusões:� Quando há colinearidade nos regressores:

� É difícil interpretar o modelo (face aos gráficos disponíveis)

� As estimativas dos parâmetros são mais instáveis (maior variância)

MSR 2010 © Engenharia de Processos e Sistemas 47GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Nota:� A correlação entre variáveis é muito comum em

aplicações industriais:� Restrições processuais (balanços mássicos e de

energia);� Anéis de controlo, metodologias e protocolos de

actuação;� Instrumentação (instrumentação redundante,

espectrofotómetros, etc.).

MSR 2010 © Engenharia de Processos e Sistemas 48GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Como detectar a presença de colinearidade?

� Como lidar com a sua presença?

MSR 2010 © Engenharia de Processos e Sistemas 49GEPSI/CIEPQPF

DEQ-FCTUC

Correlations (AS.vs.Bendtsen)Marked correlations are signif icant at p < ,05000N=36 (Casew ise deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MDRa_CDRz_CDRq_CDRp_CDRt_CDR Sm_CDR S_CDR Sk_CDR Ku_CDRv_CDRdq_CDRa_MDRz_MDRq_MDRp_MDRt_MDR Sm_MDR S_MDR Sk_MDR Ku_MDRv_MDRdq_MD

1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,680,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,731,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,680,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,690,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,680,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,360,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,370,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37

-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,350,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,690,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,930,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,710,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,790,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,720,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,730,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,800,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,240,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,370,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21

-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,270,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,750,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00

Regressão Linear Múltipla Colinearidade

� Detecção da presença de colinearidade� Matrizes de correlação e de gráficos de dispersão

Matrix of scatter plotsRa_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

MSR 2010 © Engenharia de Processos e Sistemas 50GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Detecção da presença de colinearidade� Conhecimento sobre o processo:

� Verificar se alguns coeficientes têm sinal contrário ao esperado;

� Verificar se variáveis que se esperavam importantes, não têm uma magnitude correspondente;

� Verificar se a eliminação de uma linha ou coluna, produz alterações muito significativas;

� O teste F baseado em ANOVA é significante, mas os coeficientes individuais não o são.

MSR 2010 © Engenharia de Processos e Sistemas 51GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Detecção da presença de colinearidade� Estatísticas de colinearidade:

� onde Rj2 é o R2 para a regressão de Xj contra todos

os outros p – 1 regressores.

� “Variance Inflation Factor” (VIF)

( )1

2ˆ( ) TVar B X X σ−

= ( )2

1

1jj

j

CR

=−

Elemento j da diagonal de (XTX)-1

( )( )2

1ˆ1

j

j

VIFR

β =−

MSR 2010 © Engenharia de Processos e Sistemas 52GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Análise do VIF:� Valores de referência:

� VIF>10 → colinearidade é um problema;� VIF<5 → colinearidade não é um problema;� 5<VIF<10 → “zona cinzenta” (colinearidade

pode ser um problema).

MSR 2010 © Engenharia de Processos e Sistemas 53GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Número de Condição

T

T

maximum eigenvalue of X X

minimum eigenvalue of of X XC =

Referência:C <100 → não há problemas sérios de colinearidade;100 < C < 1000 → colinearidade moderada a forte;C >1000 → colinearidade constitui um problema.

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis.

Wiley. 4th ed..

•Chaterjee, S.; B. Price; 1998, Regression analysis by example, 2nd. ed., Wiley, NY

Outros: Critérios de Belsley (Draper & Smith, 1998)

MSR 2010 © Engenharia de Processos e Sistemas 54GEPSI/CIEPQPF

DEQ-FCTUC

Metodologia Geral de RLM

MSR 2010 © Engenharia de Processos e Sistemas 55GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear MúltiplaPasso 1

Estudar estatísticas

e gráficos

Passo 2Formular o modelo

Passo 3Estimar o modelo

Passo 4Validar o

modelo

Passo 5Apresentar resultados.

Usar modelo.

Bom ajuste

OK!

Ajuste não satisfatório

� Metodologia em RL

MSR 2010 © Engenharia de Processos e Sistemas 56GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

1. Familiarização com os dados� Fazer uso extensivo de todas as ferramentas de estatística

descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:

� Examinar médias, desvios padrão, alguns percentis, mínimos, máximos, para todas as variáveis de entrada e de saída;

� Examinar a matriz de correlação (existe colinearidade entre os x’s? qual/quais os x’s mais correlacionados linearmente com o y?);

� Construir gráficos de dispersão para todas as combinações de x’s e entre cada x e o y;

� Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;

� Detectar e examinar outliers.

MSR 2010 © Engenharia de Processos e Sistemas 57GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

2. Formulação do modelo

� Com base no conhecimento existente a priori e/ou com base nos gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída;

MSR 2010 © Engenharia de Processos e Sistemas 58GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

3. Estimar os parâmetros do modelo� Proceder ao ajuste do modelo aos dados recolhidos. Como

resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:

� Analisar os resultados em busca de variáveis eventualmente mais importantes na explicação da variabilidade de y;

� Avaliar a qualidade do ajuste;� Verificar se existe colinearidade entre as variáveis (calcular VIF para

cada variável existente no modelo), e se esta pode constituir um problema.

MSR 2010 © Engenharia de Processos e Sistemas 59GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

4. Validação do modelo estimado

� Construir os seguintes gráficos envolvendo os resíduos, para verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s:� Resíduos vs. valores previstos (para verificar, por exemplo, se a

variância dos resíduos não depende do nível de y);� Resíduos vs. cada uma das variáveis de entrada (verificar que

não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada);

� Resíduos vs. tempo, ou sequência de observações (verificar a independência dos resíduos ao longo das observações);

� Gráficos de probabilidade normal para resíduos (verificar o pressuposto de normalidade dos resíduos).

� (Padrões não aleatórios são indicativo de um modelo não adequado)

MSR 2010 © Engenharia de Processos e Sistemas 60GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla

5. Apresentar os resultados e usar o modelo

� Nesta fase sintetizam-se os resultados para o modelo desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente.

MSR 2010 © Engenharia de Processos e Sistemas 61GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Regressando ao problema da colinearidade … como lidar com a sua presença?

� Métodos de selecção de variáveis� Métodos de projecção (selecção de dimensões)� Métodos de encolhimento

MSR 2010 © Engenharia de Processos e Sistemas 62GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Selecção de variáveis

� Princípio:

� Se há redundância entre os X’s, seleccionar aqueles que mais explicam a variabilidade apresentada pela resposta (Y), e retirar todas aquelas variáveis que não acrescentem capacidade explicativa.

MSR 2010 © Engenharia de Processos e Sistemas 63GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Colinearidade

� Metodologias mais comuns de selecção de variáveis:� Forward addition� Backward elimination� Forward stepwise selection� “Best subset” regression

MSR 2010 © Engenharia de Processos e Sistemas 64GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

Nos métodos de selecção de variáveis analisa-se a significância estatística associada à introdução de grupos de variáveis adicionais:

� “Partial F-test” (ou “Extra Sum of Squares method”)

� Até agora só a analisámos a situação estática.� Temos um conjunto de variáveis de entrada com as quais

queremos construir um modelo para explicar a resposta.

� E se quisermos incluir mais variáveis? – Situação dinâmica!� Pretendemos agora saber se, introduzindo um conjunto extra de

variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.

MSR 2010 © Engenharia de Processos e Sistemas 65GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� “Partial F-test”

� Vamos considerar que dispomos um modelo com p variáveis e pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.

� Ou seja, se particionarmos todos os coeficientes do modelo num conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:

� H0: β1 = 0

� H1: β1 ≠ 0

MSR 2010 © Engenharia de Processos e Sistemas 66GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� Metodologia:

� Calcular SSreg para o modelo completo:� (com β1 e β2) → SSreg(β)

� Para avaliar a contribuição de β1 para a regressão, estimar um modelo assumindo válida H0: β1 = 0 (modelo reduzido):

� Y=X2 β2 +ε → SSreg(β2)

� Então, SSreg devido a β1, assumindo que β2 já está no modelo é: � SSreg(β1 |β2) = SSreg(β) - SSreg(β2)

MSR 2010 © Engenharia de Processos e Sistemas 67GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Inferência

� ET:

� Rejeitar se:

(teste unilateral à direita)

( )1 2

0 2

| /

ˆ

SSreg rF

σ=

β β

Estimado com o modelo completo.

( )0 , 1,F F r N p α> − −

Variabilidade adicional explicada pelo conjunto de variáveis em estudo

Variabilidade residual

MSR 2010 © Engenharia de Processos e Sistemas 68GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Forward addition

Select the predictor having the highest correlation with y

Is variable significant?

Are other predictors

available?

No prediction

possible with MLRValidate model

No

Yes

Yes

Select additional

predictor

No

Examine final

model

Is selected predictor

significant?Yes

(Enter variable)

No

(Fail to enter)

j inf f> j inf f<

MSR 2010 © Engenharia de Processos e Sistemas 69GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� NOTA:� As variáveis são testadas sequencialmente, de

acordo com a magnitude da estatística do teste F-parcial (partial F-test);� Se esta estatística for superior a “F to enter” (fin), a

variável passa a integrar o modelo;� Caso contrário, o processo pára.

� Variáveis seleccionadas não podem ser depois removidas.� Não explora o efeito que a adição de uma variável

pode ter naquelas já adicionadas.

MSR 2010 © Engenharia de Processos e Sistemas 70GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Backwardelimination

Select all variables and include them in the model

Is its contribution

significant ?

Validate model

No(Remove variable)

Nota:Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.

Select the variable that contributes the

least to explaining the Y variability

(when all others are in the model)

Yes(Do not remove variable )

j outf f>j outf f<

MSR 2010 © Engenharia de Processos e Sistemas 71GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Forward stepwise selection

j inf f>

Select the predictor having the highest correlation with y

Is variable significant?

Are other predictors

available?

No prediction

possible with MLR

Is variance explained

by each variable in the

model significant?

Validate model

No

Yes

Yes

Yes

Select additional

predictor

No

Examine final

model

No (Remove variables)

Is selected predictor

significant?

(Enter variable) Yes No (Fail to enter)

Nota:

Variáveis selecionadas podem vir a ser removidas posteriormente, caso se tornemredundantes quando outras forem adicionadas.

( )normalmente in out in outf f f f≥ =

j inf f<

j outf f<

MSR 2010 © Engenharia de Processos e Sistemas 72GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� “Best subset” regression:� Para cada combinação distinta de k variáveis (k=kmin : kmax):

� Estimar o correspondente modelo MLR;� Calcular o valor do critério de “qualidade de ajuste”

seleccionado;� Ordenar as combinações de variáveis de acordo com o valor

do critério a que elas conduziram;� Guardar os resultados para as melhores N combinações;

� Apresentar os resultados para as melhores N combinações obtidas em cada subconjunto de dimensão k considerado (k=kmin : kmax).

MSR 2010 © Engenharia de Processos e Sistemas 73GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Critérios de qualidade de ajuste:� R2

� R2adj

� Mallows-Cp

� Uma medida do erro quadrático total do modelo de regressão

� Se o modelo postulado for correcto, Cp dever ser próximo de k+1 (número de parâmetros)

� Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.

( )( )2

2 1ˆ

p

SSr kC n k

σ= − − +

Estimado com o modelo completo.

Estimado com o modelo em estudo (k variáveis).

Gráfico Cp vs p

Também penaliza a adição de variáveis sem poder explicativo

MSR 2010 © Engenharia de Processos e Sistemas 74GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Critérios de qualidade de ajuste (cont.):� Mallows-Cp

� É conveniente traçar um gráfico Cp vs. (k+1):� procurar qual o modelo com Cp mais baixo que está mais

próximo da recta Cp=k+1.

� PRESS

“Leverage” da observação i

MSR 2010 © Engenharia de Processos e Sistemas 75GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Múltipla Selecção de Variáveis

� Statistica

MSR 2010 © Engenharia de Processos e Sistemas 76GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear Multivariada

Tópicos sobre métodos de projecção(selecção de dimensões ou de direcções)

MSR 2010 © Engenharia de Processos e Sistemas 77GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear MultivariadaMetodologias de Projecção

� Na abordagem ao problema da colinearidade vimos que as técnicas de selecção de variáveis contornavam o problema deixando de lado variáveis “redundantes”.

� As metodologias de projecção, pelo contrário, não excluem qualquer variável:� O facto de haver redundância, significa que a verdadeira

dimensão dos dados (X’s) é inferior ao número de variáveis presentes;

� Importa pois estimar este subespaço (de dimensão mais reduzida) e usar as variáveis X’s nele projectadas, para prever Y.

MSR 2010 © Engenharia de Processos e Sistemas 78GEPSI/CIEPQPF

DEQ-FCTUC

PCRPrincipal Components Regression

� PCR (Principal Component Regression)

� O subespaço de X a usar é o gerado pelos componentes principais� Proporcionam uma boa descrição da variabilidade

encontrada em X;� As variáveis (PC1, PC2, …) não são correlacionadas;� Deixando de lado as dimensões menos relevantes, …

… contorna-se o problema da colinearidade!

MSR 2010 © Engenharia de Processos e Sistemas 79GEPSI/CIEPQPF

DEQ-FCTUC

PCRPrincipal Components Regression

� Usar como regressores os scores dos PCs selecionados� Vector com os coeficientes do modelo:

( )

( )

1

11 12 1 11 12 1

1 2 1 2

ˆ

onde (PCA)

,

T T

PCR

p p

n n np m m mp

b T T T y

T XP

t t t p p p

T P

t t t p p p

p m

=

=

= =

⋯ ⋯

⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮

⋯ ⋯

Nota:

Fórmula válida para o caso de X e Y serem centrados (e eventualmente escalonados). Se não estiverem centrados, deve-se adicionar uma coluna de 1’s para contemplar a estimação da ordenada na origem.

MSR 2010 © Engenharia de Processos e Sistemas 80GEPSI/CIEPQPF

DEQ-FCTUC

PCRPrincipal Components Regression

� NOTA:� PCR pode ser usado quando existem mais

variáveis que observações;� Existem técnicas para acomodar dados em falha

nos X’s;� O método é sensível à escala das variáveis;� Quando o número de dimensões seleccionadas é

igual ao número de variáveis, PCR=RLM.

MSR 2010 © Engenharia de Processos e Sistemas 81GEPSI/CIEPQPF

DEQ-FCTUC

PLSPartial Least Squares

� Em PCR o subespaço utilizado é o que mais explica a variabilidade presente nos X’s;

� No entanto, este não é necessariamente o mais relevante do ponto de vista de explicar a variabilidade em Y;

� Em PLS procura-se estimar o subespaço que melhor explica a variabilidade em Y, descrevendo também a variabilidade em X …

MSR 2010 © Engenharia de Processos e Sistemas 82GEPSI/CIEPQPF

DEQ-FCTUC

PLSPartial Least Squares

� PLS (Partial Least Squares):

� O subespaço é aquele que apresenta “maior covariância”com Y:� Procedimento:

� Procurar direcções no espaço dos X’s que apresentem maior covariância com os Y’s.

� No caso de um Y:

� Qual é a combinação linear de X’s com maior covariância com Y? Resposta: T1;

� Qual é a combinação linear de X’s, ortogonal à anterior, com maior covariância com Y? Resposta:T2;

� …

•Wold, S.; Sjöström, M.; Eriksson, L. (2001), PLS-regression: a basic tool of chemometrics.

Chemometrics and Intelligent Laboratory Systems, p. 109-130.

MSR 2010 © Engenharia de Processos e Sistemas 83GEPSI/CIEPQPF

DEQ-FCTUC

PLSPartial Least Squares

� PLS� Motivação geométrica

X2

X3

X1

t1

y

t1T=XW*

X=TPT+E

MSR 2010 © Engenharia de Processos e Sistemas 84GEPSI/CIEPQPF

DEQ-FCTUC

PLSPartial Least Squares

X Y

1 2 3 … m … M

12...i...N

1 … K

Variáveis

Observaçõe

s

T U

t1 t2 t3 u1 u2 u3

WT

PT CTNomenclatura:T – scores de XU – scores de YP – loadings de XW - weights de X (baseados nos resíduos)W* - weights de X (baseados nas variáveis originais)C - weights de Y

MSR 2010 © Engenharia de Processos e Sistemas 85GEPSI/CIEPQPF

DEQ-FCTUC

PLSPartial Least Squares

� PLS� Scores de X (NxM): T (NxA)

� T=X•W* (As colunas de W* (MxA) contêm informação sobre as variáveis X que têm mais peso na previsão de Y);

� X=T•PT+E (T•PT é uma boa aproximação de X; P é a matriz de Loadings, P (MxA) e E é a matriz de resíduos (NxM));

� Se houver vários Y’s: Y=U•CT+G (U•CT é uma boa aproximação de Y; C é a matriz de weights de Y,

e G é uma matriz de resíduos de Y (NxK));

Nota:N – Número de observações;M – Número de variáveisK -A – Número de dimensões (variáveis latentes)

MSR 2010 © Engenharia de Processos e Sistemas 86GEPSI/CIEPQPF

DEQ-FCTUC

� PLS� Os scores de X são utilizados para prever Y:

� Y=TCT+F (F é a matriz de resíduos de previsão de Y)

� Y=X•W*•CT+F=X•B+F

� Ou seja, o vector de coeficientes de regressão segundo PLS é dado por:

� B=W*•CT= W• (PT•W)-1•CT

PLSPartial Least Squares

MSR 2010 © Engenharia de Processos e Sistemas 87GEPSI/CIEPQPF

DEQ-FCTUC

� Interpretação do modelo PLS� Analisar importância relativa das variáveis X na

previsão de Y:� Por dimensão: analisar colunas de W* (ou W, ~=)

� Variáveis importantes têm pesos de magnitude elevada;� Variáveis com coeficientes semelhantes têm importância

aproximadamente igual;

� Global: � Analisar magnitude dos coeficientes B (importância na

previsão de Y);� VIP’s (Variable Importance in Projection)

� Leva em conta a importância da variável na reconstrução de X e previsão Y.

PLSPartial Least Squares

MSR 2010 © Engenharia de Processos e Sistemas 88GEPSI/CIEPQPF

DEQ-FCTUC

� Interpretação do modelo PLS� Analisar o que não é explicado pelo modelo

(resíduos)� Resíduos em Y

� Analisar magnitudes (resíduos normalizados);� Gráficos de probabilidade: outliers?

� Resíduos em X (parte de X não usada para estimar Y)� Permite ver se uma observação é adequadamente descrita

pelo modelo PLS, antes de se efectuar a estimativa de Y (se os resíduos de X para a observação forem elevados, então ela está afastada das condições em que o modelo PLS for construído, e não há garantias que as previsões sejam boas).

PLSPartial Least Squares

MSR 2010 © Engenharia de Processos e Sistemas 89GEPSI/CIEPQPF

DEQ-FCTUC

� NOTA:

� PLS pode ser usado quando existem mais variáveis que observações;

� Acomoda dados em falha;� Pode ser usado com vários Y’s

� Adequado se estes apresentarem correlação entre si� Caso contrário construir modelos independentes para cada Y

� O método é sensível à escala das variáveis.� Quando o número de dimensões seleccionadas é igual ao

número de variáveis, PLS=PCR=RLM

PLS

MSR 2010 © Engenharia de Processos e Sistemas 90GEPSI/CIEPQPF

DEQ-FCTUC

� PLS dispõe de várias ferramentas de diagnóstico:� “Variable importance in projection” (VIP) – sumário da

importância das variáveis X’s, do ponto de vista da explicação da variabilidade em X e Y (VIP > 1 => variáveis influentes);

� Diagnóstico de observações: distância das observações (X’s e Y) aos modelos dos espaços X’s e Y:� Detecção de outliers;� Verificar se uma dada previsão é fiável, com base na distância de

Xnew ao modelo para os X’s e no conjunto de dados usado para desenvolver o modelo.

� Diagnóstico de variáveis:� Variabilidade explicada para cada variável (X’s);� Selecção de componentes usando critérios de variabilidade

explicada (R2(Y)=1-SSR/SST) e variabilidade prevista (Q2(Y)=1-PRESS/SST).

Notas

MSR 2010 © Engenharia de Processos e Sistemas 91GEPSI/CIEPQPF

DEQ-FCTUC

� Validação Cruzada� Particionar os dados de treino em K grupos

� Deixar um grupo de lado, e estimar o modelo com os restantes (K-1) grupos

� Prever as respostas do grupo eliminado, e calcular os respectivos erros de previsão

� Repetir o processo para todos os grupos (todas as amostras ficamde fora uma vez).

� Calcular o erro quadrático médio de previsão, usando todos os erros de previsão obtidos para os diferentes grupos (RMSECV)

PCR, PLS Selecção do número de dimensões (variáveis latentes)

Exemplo para 5 grupos (K=5)

TestTrain Train Train Train

MSR 2010 © Engenharia de Processos e Sistemas 92GEPSI/CIEPQPF

DEQ-FCTUC

� Antes de usar o modelo, este deve ser validado.

� Conjunto de teste� Usar um novo conjunto de dados para verificar se as previsões

efectuadas pelo modelo são adequadas ao fim a que este se destina, e se estão dentro do que é esperado no seu desenvolvimento.

� Validação Cruzada� Nem sempre temos a possibilidade de ter um novo conjunto de

dados:� Usar validação cruzada (5-10 grupos);� Usar técnicas de re-amostragem (resampling, por exemplo: bootstrap).

PCR, PLS Validação do Modelo

MSR 2010 © Engenharia de Processos e Sistemas 93GEPSI/CIEPQPF

DEQ-FCTUC

� NOTA:

� Tanto PLS como PCR estimam um modelo linear multivariável do tipo:

� No entanto, estes métodos estimam os parâmetros do modelo de forma distinta ao métodos dos mínimos quadrados, tirando partido daquilo que para este método éuma fraqueza: a presença de variáveis X colineares. Eles incorporam a correlação existente entre estas variáveis na estimação dos subespaços, com base nos quais estimam os parâmetros do modelo.

� A sua utilização prática, após estimados os parâmetros, éno entanto idêntica.

PLS

0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯

MSR 2010 © Engenharia de Processos e Sistemas 94GEPSI/CIEPQPF

DEQ-FCTUC

� Exemplo: SFCM process (Wise at al., 2003*)

� O “Slurry-Fed Ceramic Melter” é um sistema contínuo onde se processam resíduos nucleares, combinando-os com materiais vítreos, num forno a altas temperaturas, o SFCM.

� O resultado é um produto vitrificado, estável, para deposição a longo prazo, num local apropriado.

� Os dados recolhidos consistem das temperaturas no forno em 20 localizações diferentes, dispostos segundo duas linhas verticais com 10 sensores cada,…

� X1-base →X10-topo; X11-base →X20-topo

� … e o nível da massa fundida no forno, (y).

� Pretende-se construir um modelo que relacione as temperaturas medidas, com o nível de vidro fundido no SFCM.

* in PLS_Toolbox for use in MATLABTM, Eigenvector Research Inc., 2003.

y

X10X9X8X7X6X5X4X3X2X1

X20X19X18X17X16X15X14X13X12X11

Exemplo

MSR 2010 © Engenharia de Processos e Sistemas 95GEPSI/CIEPQPF

DEQ-FCTUC

Exemplo

0 50 100 150 200 250 300200

300

400

500

600

700

800

900

1000

1100

1200

Sample number

Tem

pera

ture

X variables

0 50 100 150 200 250 30019.8

20

20.2

20.4

20.6

20.8

21

21.2

Sample number

Leve

l

y variable

MSR 2010 © Engenharia de Processos e Sistemas 96GEPSI/CIEPQPF

DEQ-FCTUC

� PCR: Selecção do número de componentes usando validação cruzada.

Detalhes:

•Validação cruzada: 10

blocos contíguos;

•Variáveis centradas.2 4 6 8 10 12 14 16 18 20

0.109

0.11

0.111

0.112

0.113

0.114

0.115

0.116

0.117

Principal Component Number

RM

SE

CV

Lev

el

Exemplo

MSR 2010 © Engenharia de Processos e Sistemas 97GEPSI/CIEPQPF

DEQ-FCTUC

2 4 6 8 10 12 14 16 18 200.109

0.11

0.111

0.112

0.113

0.114

0.115

0.116

0.117

Latent Variable Number

RM

SE

CV

Lev

el

Exemplo

PLS: Selecção do número de componentes usando validação cruzada.

Detalhes:

•Validação cruzada: 10

blocos contíguos;

•Variáveis centradas.

MSR 2010 © Engenharia de Processos e Sistemas 98GEPSI/CIEPQPF

DEQ-FCTUC

� Coeficientes de regressão obtidos por RLM, PCR e PLS

0 2 4 6 8 10 12 14 16 18 20-0.01

-0.005

0

0.005

0.01

0.015

Variable Number

Reg

ress

ion

Coe

ffic

ient

MLRPCRPLS

Exemplo

MSR 2010 © Engenharia de Processos e Sistemas 99GEPSI/CIEPQPF

DEQ-FCTUC

Regressão Linear MultivariadaComparação de Metodologias

Exemplo: SFCM (Wise at al., 2003)

cc

PRESSRMSECV

n=

( )2

1

ˆ

*

n

i i

i

y y

RMSECn

=

=∑ ( )

2

1

ˆtestn

i i

i

test

y y

RMSEPn

=

=∑

RMSE of Calibration* RMSE of Cross-Validation RMSE of Prediction in a new test set

(200 new observations)

0.14710.13960.13660.1496RMSEP

0.11220.10980.11080.1122RMSECV

0.09960.10340.10590.0991RMSEC

RRPLSPCRMLR