Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF...
Transcript of Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF...
Marco Reis:2012 ©
Modelação matemática de base estatística/empírica:
I. Características dos dados industriaisII. Análise dos componentes principais (PCA)III. Construção de modelos empíricos usando metodologias de
regressão
I
Engenharia de Processos e Sistemas
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 2
Marco [email protected]
(DEQ, Gab. D11)
Telef.: 239798727
Contactos
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 3
•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression
Analysis. Wiley. 4th ed. (Regressão Linear Múltipla)
•Chaterjee, S. & Price, B. (1998). Regression Analysis by Example (2nd ed.). New York: Wiley.
•Reis, E. (2001) Estatística Multivariada Aplicada. Sílabo. 2ª ed. (Regressão Linear Múltipla)
•Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). New York: Springer. (PCA)
•Kourti, T. & MacGregor, J.F. (1995). Process Analysis, Monitoring, and Diagnosis, using Multivariate
Projection Methods, Chemometrics and Intelligent Laboratory Systems, 28, 3-21. (PCA+PLS)
•Geladi, P. & Kowalski, B. R. (1986). Partial Least-Squares Regression: a Tutorial. Analytica Chimica
Acta, 185, 1-17. (PLS)
•Wise, B.M. & Gallagher, N.B. (1996). The Process Chemometrics Approach to Process Monitoring and Fault
Diagnosis, Journal of Process Control, 6 (6), 329-348. (PCA + Monitoring)
•FDA (2004). Guidance for Industry. PAT – A Framework for Innovative Pharmaceutical Development,
Manufacturing, and Quality Assurance. U.S. Department of Health and Human Sercices, Food and
Drug Administration (FDA), CDER, CVM, ORA. (www.fda.gov/cder/guidance/6419fnl.pdf)
___________
•Draper, N. R. & Smith, H. (1998). Applied Regression Analysis (3rd ed.). NY: Wiley.
•Hastie, T., Tibshirani, R. & Friedman, J. (2001). The Elements of Statistical Learning. NY: Springer.
•Jackson, J. E. (1991). A User's Guide to Principal Components. New York: Wiley.
•Martens, H. & Naes, T. (1989). Multivariate Calibration. Chichester: Wiley.
•Quadros, P. A., Reis, M. S. & Baptista, C. M. S. G. (2005). Different Modelling Approaches for a
Heterogeneous Liquid-Liquid Reaction Process. Industrial & Engineering Chemistry Research, 44, 9414-
9421.
Bibliografia
I. Características dos Dados Industrias
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 5
Motivação: Porquê analisar dados industriais?
� Para conhecer melhor os processos …� Para identificar e analisar problemas …� Para construir modelos de previsão …� Para monitorar/supervisionar processos …
� Para melhorar processos!
“The operation of any system generates information
on how it can be improved.”George Box
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 6
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
0
dVF F
dt= −
/0 0 0
E RTAA A A
dVCF C FC k e C V
dt−= − −
/0 0 0 ( )E RT
A cjp p
dVT H UAF T FT k e C V T T
dt C Cρ ρ−∆= − − − −
,0,
( ) ( )cj cjcj cj cj cj
j p cj
dV T UAF T T T T
dt Cρ= − + −
( )2set c setF F K V V= − −
( ), 1cj cj set c setF F K T T= − −
Y
� Abordagens baseadas nos primeiros princípios: raciocínio dedutivo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 7
Abordagens baseadas em dados…
Dados
Informação
Conhecimento
CompreensãoPrimeiros princípios
… exploram o raciocínio indutivo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 8
� Importante adquirir conhecimentos e competências em métodos indutivos de extracção de conhecimento de dados para completar adequadamente os ciclos de melhoria de processos / produtos.
Motivação
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 9
� Estrutura multivariada;� Presença de correlações cruzadas entre variáveis;� Variáveis autocorrelacionadas (com dinâmica);� Presença de ruído (variabilidade não estruturada);� Existência de dados em falha;� Existência de várias taxas de aquisição (“multirate data”)� Informação qualitativa e quantitativa;� Presenças de médias em conjunto com valores recolhidos para
um dado instante (“multiresolution data”);� …
Características dos dados industriais
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 10
Características dos dados industriais:Estrutura multivariada
Amostras Univariadas: Amostras Multivariadas:
Cada linha representa um item, observação, amostra, instante,
etc.
Valor de X1, X2, …, para um dado item (observação, amostra, instante de tempo, etc.)
(caso contrário seriam várias amostra univariadas colocadas lado a lado, …)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 11
� Causas:� Natureza dos fenómenos relativamente aos quais
se recolhe os valores das variáveis
Características dos dados industriais:Variáveis correlacionadas
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
0
dVF F
dt= −
/0 0 0
E RTAA A A
dVCF C FC k e C V
dt−= − −
/0 0 0 ( )E RT
A cjp p
dVT H UAF T FT k e C V T T
dt C Cρ ρ−∆= − − − −
,0,
( ) ( )cj cjcj cj cj cj
j p cj
dV T UAF T T T T
dt Cρ= − + −
( )2set c setF F K V V= − −
( ), 1cj cj set c setF F K T T= − −
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 12
� Causas:� Presenças de anéis de controlo e protocolos de
actuação no processo
Características dos dados industriais:Variáveis correlacionadas
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
0
dVF F
dt= −
/0 0 0
E RTAA A A
dVCF C FC k e C V
dt−= − −
/0 0 0 ( )E RT
A cjp p
dVT H UAF T FT k e C V T T
dt C Cρ ρ−∆= − − − −
,0,
( ) ( )cj cjcj cj cj cj
j p cj
dV T UAF T T T T
dt Cρ= − + −
( )2set c setF F K V V= − −
( ), 1cj cj set c setF F K T T= − −
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 13
0 50 100 150 200 250 30019.8
20
20.2
20.4
20.6
20.8
21
21.2
Sample number
Leve
l
y variable
� Causas:� Instrumentação redundante ou
parcialmente redundante;
� Natureza dos instrumentos de medição, e.g., espectros
Características dos dados industriais:Variáveis correlacionadas
y
X10
X9
X8
X7
X6
X5
X4
X3
X2
X1
X20
X19
X18
X17
X16
X15
X14
X13
X12
X11
“Slurry-Fed Ceramic Melter”
Wavelength
1/T
Espectro NIR
0 50 100 150 200 250 300200
300
400
500
600
700
800
900
1000
1100
1200
Sample number
Tem
pera
ture
X variables
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 14
Como extrair e explorar a
informação contida nos dados
industriais?
� Análise Exploratória de dados:
� Gráficos (matrizes de gráficos de dispersão, matrizes de correlações, etc.)
� Análise dos Componentes Principais (“PCA”)
� Construção de modelos empíricos:
� Regressão Linear Múltipla (RLM)� Regressão dos Componentes Principais (PCR)� Mínimos Quadrados Parciais (PLS)
EPS
X
X Y
X C (Classificação)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 15
II. Análise dos Componentes Principais
(Principal Components Analysis, PCA)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 16
Objectivos
� Compreender os objectivos subjacentes a uma análise PCA;� Perceber a necessidade de proceder ao pré-processamento dos
dados (escalonamento das variáveis);� Saber como avaliar a fracção de variabilidade explicada pelo
modelo PCA (através da análise dos valores próprios);� Saber como analisar a estrutura de relações entre as variáveis,
usando os loadings;� Saber como analisar as características da distribuição de
observações usando os scores;� Compreender como conduzir uma análise de resíduos do
modelo PCA e como identificar outliers nos dados.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 17
Análise Multivariada
X
O1O2O3
On
X1 X2 X3 … Xm Variáveis:•Temperaturas;•Caudais;•Pressões;•Diferentes comprimentos de onda de um espectro (NIR, NMR, IR, UV, Raios X);•Pontos de um cromatograma (HPLC, GC, TLC);•Pontos de uma curva granolométrica;• etc.
Observações:•Amostra de um lote;•Valores recolhidos num dado instante num processo contínuo ou descontínuo;•Resultados de uma corrida (“batch”);•Espécime biológico;•Ensaio num planeamento de experiências;•etc.
x x x … x
x x x … x
x x x … x
x x x … x
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 18
� PCA - Análise dos Componentes Principais
X(nxm)
Frequentemente, o número de variáveis a analisar é muito elevado, sendo bastante superior ao número de fontes de variabilidade que afectam o processo (matérias primas, factores ambientais, operação das máquinas).
A existência de correlações / associação entre as variáveis é um sintoma disto mesmo, e traduz a redundância inerente a um tal conjunto de dados.
Fontes de correlação:•Restrições processuais (balanços mássicos e de energia);•Anéis de controlo, metodologias e protocolos de actuação;•Instrumentação (instrumentação redundante, espectrofotómetros, etc.).
Em lugar de analisar todas as variáveis, analisar os PCs, que
explicam praticamente a mesma variabilidade, mas são
em número bastante mais reduzido
PCA
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 19
PCA
� Aplicações:
� Análise exploratória de dados (EDA)� Visualização de grupos de observações (e.g., identificação de diferentes
regimes de operação)� Análise de relações entre variáveis (correlações, interacções, etc.)� Análise de tendências, evolução de processos� Detecção e diagnóstico de falhas e “outliers”,…
� Regressão linear (PCR)
� Controlo estatístico de processos (PCA-MSPC)
� Reconhecimento de padrões e classificação
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 20
Correlations (AS.vs.Bendtsen)Marked correlations are signif icant at p < ,05000N=36 (Casew ise deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MDRa_CDRz_CDRq_CDRp_CDRt_CDR Sm_CDR S_CDR Sk_CDR Ku_CDRv_CDRdq_CDRa_MDRz_MDRq_MDRp_MDRt_MDR Sm_MDR S_MDR Sk_MDR Ku_MDRv_MDRdq_MD
1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,680,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,731,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,680,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,690,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,680,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,360,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,370,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37
-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,350,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,690,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,930,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,710,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,790,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,720,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,730,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,800,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,240,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,370,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21
-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,270,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,750,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00
Matrix of scatter plotsRa_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
PCA
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
21
PCAConceitos Centrais
Scores (T)Informação sobre as observações (agrupamentos, tendências, etc.)
Loadings (L)Informação sobre as variáveis (correlacionadas
positiva ou negativamente, não correlacionadas, etc.)
Valores-próprios (λ)Informação sobre a variabilidade
explicada pelo modelo PCA
Engenharia de Processos e Sistemas
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 22
PCA
X1,X2,X3 – Dados originais.
� Redução da dimensão
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 23
PCA
PC1
PC1 – Eixo ao longo do qual a variabilidade das projecções dos dados originais é maximizada.
� Redução da dimensão
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 24
PCA
PC1
PC2
PC2 – Eixo, que sendo ortogonal a PC1, maximiza variabilidade das projecções dos resíduos de PC1 (dados originais menos as suas projecções ao longo de PC1).
� Redução da dimensão
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 25
PCA
PC1
PC2
PC1,PC2 concentram a maioria da variabilidade exibida por X1,X2 e X3 (redução da dimensão).
� Redução da dimensão
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 26
PCA
PC1
PC2
T1(i) T2(i)
Score do PC1 associado à observação i
Score do PC2 associado à observação i
r(i)
X1
X2
X3
� Redução da dimensão
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
27
PCA
� NOTA: � Os scores dos PC não apresentam correlação
entre si (não há redundância entre as novas variáveis);
� Os valores dos scores, contêm informação sobre as observações;
� Os loadings estão relacionados com a orientação dos eixos dos componentes principais, e traduzem as correlações lineares dominantes nos dados.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
28
PCA
� Componentes principais: formulação
do problema
1. PC1: Determinar a direcção para a qual as projecções ortogonais dos pontos possuem maior variância (“direcção de maior variabilidade”).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Análise Estatística Multivariada 29
PCA
Continuando:2. PC2: Determinar a direcção para a qual as projecções
ortogonais dos pontos possuem maior variância, sujeita à condição desta ser ortogonal (perpendicular) à primeira (PC1).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Análise Estatística Multivariada 30
PCA
� Qual o plano onde os dados projectados apresentam a maior variabilidade?� R: O plano gerado por PC1 e PC2
Fonte: UMETRICS
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
31
PCA
Continuando para o PC3:3. PC2: Determinar a direcção para a qual as projecções
ortogonais dos pontos possuem maior variância, sujeita à condição desta ser ortogonal (perpendicular) à primeira e à segunda (PC1 e PC2).
4. … até o número de componentes ser igual ao número de variáveis.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 32
PCA
� Nota:� As direcções ao longo das quais os dados apresentam
maior variabilidade, também são aquelas …… em redor das quais os resíduos
(ortogonais) têm menor variância!� Outra forma de encarar o problema subjacente a PCA:� Qual a direcção em torno da qual os resíduos (ortogonais)
apresentam menor dispersão, i.e., qual a direcção que mais explica a variabilidade dos dados? → PC1
� Qual a direcção, que sendo ortogonal à primeira, os resíduos apresentam menor dispersão, i.e., qual a direcção que mais explica a variabilidade remanescente nos dados? → PC2
� …
X1
X2
PC1
Max
Min
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 33
PCA
� Nota:� Uma vez que a análise PCA determina as
direcções que maximizam a variabilidade dos dados, esta é sensível à escala na qual os dados são apresentados:
Altura (m)
Peso
(kg)
0 10 20 30 40 50
100
90
80
70
60
50
40
PC1 O peso domina a variabilidade, pelo simples facto de, nas unidades em que ambas as variáveis estão expressas, os valores numéricos relativos ao peso terem maior variância.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 34
PCA
� Uma solução comum para contornar o problema da escala, de uma forma prática e automática, consiste em dividir as variáveis (previamente centradas por subtracção pela sua média) pelo seu desvio padrão: “AUTOSCALING”:
� Todas as variáveis têm desta forma igual importância à partida, uma vez que todas apresentam variância unitária (=1).
:,
, :,,
j
i j jasi j
x
x xx
s
−=
Média da variável j
Desvio padrão da variável j
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 35
PCA
� Pré-processamento dos dados: “autoscaling”Variáveis
Val
ore
s m
edid
os
Centrar variáveis
Escalonarpara variância
unitária
0
“Mean centering”(adequado quando as variáveis têm
as mesmas unidades)
“Autoscaling”
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 36
PCA
� Outras metodologias de pré-processamento:� “Block-scaling” (ou “battery-scaling”);
� Algumas variáveis recebem mais ponderação para evitar que o seu efeito seja mascarado por outras, de outro tipo e em maior número.
� “No-scaling”;� “Pareto scaling”;� “Scaling without mean centering”;� …
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 37
PCA
� Outras metodologias de pré-processamento: Transformações de variáveis
� Modelar processos não lineares� Aumentar dados com variáveis artificiais
correspondentes a termos não lineares� Xj=x1
2, Xj+1=x22,Xj+2=X1•X2
� Linearizar relações, estabilizar a variância dos resíduos, tornar os dados mais “normais”, …� E.g., transformações logarítmicas, raiz quadrada,
potência, etc.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
38
PCAPCA
1. Centrar as variáveis: subtrair cada coluna de dados (variável) pela sua média (X→XC);
2. Se necessário, escalonar as variáveis: por exemplo “autoscaling” – centrar & dividir pelo seu desvio padrão (XC→Z);
3. Calcular a matriz de variâncias-covariâncias de Z, Cov(Z) (caso se tenha utilizado autoscaling, então Cov(Z) ≡ matriz de correlação de X, Corr(X) );
4. Calcular os loadings dos componentes principais (Li, i=1:m), respectivos valores próprios (λi, i=1:m) e scores (Ti, i=1:m);
� Metodologia:
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
39
( ) ( )( ) ( )
( )( )
( ) ( )
N
k,i :,i k, j :
i j22N N
i jk,i :,i k, j :, jk 1 k
k 1i j
1
, j
X ,X1 1Va
1x x x xCov X ,X N 1
r X Var X x x x xN 1 N 1=
=
=
− −−ρ = =
− −− −
∑
∑ ∑
PCA
� Cov(X) – Matriz das variâncias-covariâncias� Na posição (i,j) da matriz está a covariância entre
a variável Xi e Xj
� Corr(X) – Matriz de correlações� Na posição (i,j) da matriz está a correlação linear
entre a variável Xi e Xj
k,i
:,i
x - elemento da linha (observação) k, coluna (variável) i;
x - média da coluna (variável) i.
Nota:
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
40
PCA
� NOTA:
� Se Z resultar do “autoscaling” das variáveis da matriz de dados X:
Cov(Z)=Corr(X)
Nota:No Minitab só há duas opções para PCA:usando matriz de covariâncias → sem escalonamento (como se os dados estivessem centrados);usando matriz de correlações → equivalente a “autoscaling”;
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
41
PCA
6. Escolher o número de PC a considerar (p≤m)
7. Analisar os resultados:
• Valores próprios : quantos componentes analisar?
• Loadings : relação entre variáveis
• Scores : relação entre observações
• Resíduos : analisar informação não explicada pelo modelo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
42
PCA� Notas:
� Os loadings são ortonormais e contêm informação sobre a relação entre as variáveis;
� Os scores são ortogonais e contêm informação sobre a relação entre as amostras ou observações;
� A soma das variâncias da variáveis = soma das variâncias dos scores (PCs) (quando m=p);� A variância explicada por cada de cada PC (variância dos
seus scores) reflecte a importância deste PC na explicação da variabilidade total dos dados. Esta variância é dada pelo valor próprio que lhe está associado, λi*;
� A fracção da variabilidade total exibida em Z que é explicada pelo PCi, é λi* / (λ1*+λ2*+…+λm*).
� No caso de “autoscaling”, λ1*+λ2*+…+λm* = m, logo, neste caso, λi* dá uma indicação de “quantas variáveis originais vale um dado Ti”.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 43
PCA
X ZPré-processamento
Z T
PT
E= +
n
m
n
m
n
m
n
m
n
p
p
m
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 44
PCA
Z T1
P1T
E
=
m
n
m
n
1
+
1
n
m
T2
P2Tm
n
1
+…+
1
Tp
PpTm
n
1
+
1
+
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 45
PCA
� NOTA:� Se # PCs = # variáveis (p=m)
� => Z=TPT
� => E = 0
Z E=+
n
m
n
m
n
T PT
m m
m
= 0
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 46
PCA
� Análise de Resíduos: � Que variáveis não são bem explicadas pelo modelo
PCA?
En
m
Analisar resíduos por coluna
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 47
PCA
� Análise de Resíduos: � Que observações não são bem explicadas pelo
modelo PCA?
En
m
Analisar resíduos por linhas
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 48
PCA
� Resumo dos passos fundamentais:� Centrar variáveis e escolher o escalonamento� Escolher o número de PC (normalmente usando somente
a informação contida nos valores próprios)
% Variance this PC % Variance Cumulative36.37 36.3730.25 66.6210.13 76.758.72 85.473.9 89.372.93 92.3
2 94.31.46 95.761.1 96.860.88 97.740.62 98.360.45 98.81
0 5 10 15 20 250
1
2
3
4
5
6
7
8
Principal Component
Eig
enva
lue
Eigenvalue vs. Principal Component
Critério de Kaiser
“Scree test”
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 49
PCA
� Resumo dos passos fundamentais:� Analisar loadings (L) para aceder às relações
entre variáveis� Analisar scores (T) para aceder às relações entre
amostras� Analisar resíduos (E) para: identificar amostras
que não são bem caracterizados pelo modelo PCA e quais as variáveis responsáveis por tal comportamento.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 50
PCA� Exemplo 1: Conjunto de dados sobre consumo de
bebidas alcoólicas (Wise e Gallagher, 2000)� O seguinte conjunto dados contém informação recolhida
sobre o consumo de cerveja, vinho, licores (l/ano), a esperança média de vida (anos) e a taxa de incidência de doenças do coração (n.º de casos por 100 000 habitantes por ano) para 10 países. Que informação podemos extrair dele?
País Licor Vinho Cerveja EspVida TaxaDoeCorl/ano l/ano l/ano anos casos/10^5/ano
França 2,5 63,5 40,1 78 61,1Itália 0,9 58 25,1 78 94,1Suiça 1,7 46 65 78 106,4Australia 1,2 15,7 102,1 78 173Grã-Bretanha 1,5 12,2 100 77 199,7USA 2 8,9 87,8 76 176Russia 3,8 2,7 17,1 69 373,6República Checa 1 1,7 140 73 283,7Japão 2,1 1 55 79 34,7México 0,8 0,2 50,4 73 36,4
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 51
PCA� Centrar variáveis;� Variáveis com diferentes unidades → “autoscaling”� Calcular o modelo PCA� Escolher o número de PC
1 1.5 2 2.5 3 3.5 4 4.5 50
0.5
1
1.5
2
2.5
Principal Component
Eig
enva
lue
Eigenvalue vs. Principal Component
variance PC (%)46,032,111,78,41,7
Cum variance PC (%)46,078,189,898,3100,0
2 PC
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 52
PCA
� MINITAB: Stat > Multivariate > Principal Components
Como as variáveis estão normalizadas, um valor próprio superior a 1, significa que o correspondente PC está a explicar mais variabilidade que a originalmente contida numa só variável.
Os dois primeiros PC’s explicam 78.1% da variabilidade original dos dados.
Ou seja, um modelo PCA com 2 componentes explica aproximadamente 80% da variabilidades dos dados.Loadings
Para o PC1Loadings
Para o PC2
(Representados nos gráficos de loadings)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 53
PCA
%Pre-processing%--------------%AutoscalingZ=(X-ones(n,1)*mean(X))*inv(diag(std(X)));
%PCA%---%(ou usar função da toolbox de estatística do matla b, ...)covZ=cov(Z);[V,D]=eig(covZ);lambda_aux=diag(D);
%Ordenar os pares valor próprio vector próprio por ordem crescente do%valor próprio[lambda,ind_ord]=sort(lambda_aux,'descend');
%Loads PCAL=V(:,ind_ord);%Scores PCAT=Z*L;
� Matlab
[L,T,Lambda, tsquare] = princomp(Z);� Matlab > Statistics toolbox:
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 54
PCA
%Analizar valores próprios (variabilidade explicada pelos PCs)figure(1)plot(lambda,'k*-');xlabel('PC');ylabel('Valores próprios');set(gca,'XTick',[1:m],'YGrid','on'); title('Scree plot')
%Analizar loadsfigure(2)plot(L(:,1),L(:,2),'r*');xlabel('Loadings PC1');yla bel('Loadings PC2'); for i=1:m,text(L(i,1),L(i,2),variable(i,:));endtitle('Loadings plot for PC1 and PC2')
%Analizar scoresfigure(3)plot(T(:,1),T(:,2),'g*');xlabel('Scores PC1');ylabe l('Scores PC2'); for i=1:n,text(T(i,1),T(i,2),country(i,:));endtitle('Scores plot for PC1 and PC2')
� Matlab (cont.)
Help window: principal component analysis
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 55
PCA
� Variabilidade explicada pelo modelo PCA com dois componentes:
� (λ1*+λ2*) / (λ1*+λ2*+…+λ5*) = 0.781
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 56
PCA
� Análise da relação entre variáveis: loadings
1 2 3 4 5-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Liquor
Wine
Beer
LifeEx HeartD
Variable Number
PC
2 (
32.1
1%)
Loads Plot
1 2 3 4 5-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Liquor
Wine
Beer
LifeEx
HeartD
Variable Number
PC
1 (
46.0
3%)
Loads Plot
NOTA:• Correlação positiva entre “Wine” e “LifeEx” e entre “Liquor” e “Heart”• Correlação negativa ente “LifeEx” e “Heart”
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 57
PCA� Nota:
� Os loadings para um dado PC, correspondem ao co-seno do ângulo que o eixo correspondente a cada variável faz com este mesmo PC;
� Variáveis importantes para um dado PC fazem um pequeno ângulo com o seu eixo, e têm um grande impacto nos seus valores;
� Variáveis que fazem ângulos de aproximadamente 90º com um PC, não são importantes para este PC.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 58
PCA
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Liquor
Wine
Beer
LifeEx HeartD
PC 1 (46.03%)
PC
2 (
32.1
1%)
Loads Plot
� Análise da relação entre variáveis: loadings
Variáveis distantes da origem são importantes no modelo PCA.
Variáveis com abcissas elevadas (em valor absoluto), são importantes para o PC representado no eixo dos XXs (PC1). E.g.; LifeExp, HeratD
Variáveis com ordenadas elevadas (em valor absoluto), são importantes para o PC representado no eixo dos YYs (PC2).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 59
� Análise da fracção da variabilidade apresentada por cada variável que é explicada pelo modelo
Variance captured by 1 PC model
0
20
40
60
80
100
1 2 3 4 5Licor Vinho Cerveja EspVida TaxaDoeCor
Variance captured by 2 PC model
0
20
40
60
80
100
1 2 3 4 5Licor Vinho Cerveja EspVida TaxaDoeCor
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 60
PCA
� Que variáveis não são bem explicadas pelo modelo PCA?
En
m
Analisar resíduos por coluna
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 61
PCA
� Análise das observações: scores
0 2 4 6 8 10-3
-2
-1
0
1
2
3
France
Italy Switz
Austra Brit
U.S.A.
Russia
Czech
Japan
Mexico
Sample NumberP
C 2
(32
.11%
)
Scores Plot
0 2 4 6 8 10-4
-3
-2
-1
0
1
2
France Italy
Switz
Austra
Brit U.S.A.
Russia
Czech
Japan
Mexico
Sample Number
PC
1 (
46.0
3%)
Scores Plot
Análise individual dos scores para cada PC
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 62
� Análise das observações: scores
-4 -3 -2 -1 0 1 2-3
-2
-1
0
1
2
3
France
Italy Switz
Austra Brit
U.S.A.
Russia
Czech
Japan
Mexico
PC 1 (46.03%)
PC
2 (
32.1
1%)
Scores Plot
PCA
Análise combinada dos scores para o PC1 e PC2
Cluster
Outlier “forte”
Pois influencia o estabelecimento do plano.
“Outliers” moderados – não influenciam de uma forma tão vincada o establecimento do plano PCA, aparecendo como observações algo distantes do modelo PCA ajustado.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 63
PCA
� Que variáveis são responsáveis pelas diferenças registadas entre países (observações): biplot
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
France
Italy
Switz
Austra Brit
U.S.A.
Russia
Czech
Japan
Mexico
Liquor
Wine
Beer
LifeEx HeartD
PC 1 (46.03%)
PC
2 (
32.1
1%)
Biplot: (o) normalized scores, (+) loads
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 64
PCA
� Análise das observações: outliers
� Outliers fortes� Influenciam fortemente o modelo PCA, “puxando-
o” de forma a aproximar-se deles.� Diagnosticados através de:� Observações de magnitudes elevadas nos gráficos de
scores individuais;� Observações distantes do centro dos dados (face às
distâncias das restantes observações), no gráfico de scorescombinados;
� Valores elevados da estatística Hotelling’s T2
� Versão multivariada da estatística t de student;� Relacionada com a distância estatística entre cada
observação e o vector das médias de cada variável.Hotelling’s T2
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 65
PCA
1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
Sample
Hot
ellin
g T2 (
78.1
4%)
France
Italy
Switz Austra
Brit U.S.A.
Russia
Czech
Japan Mexico
Samples/Scores Plot of Wine
� Hotelling’s T2
� Análise da variabilidade no espaço PCA
“Outlier” forte: Rússia
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 66
PCA
� Análise das observações: outliers
� Outliers moderados
� Não influenciam fortemente o modelo PCA, pelo que permanecem distantes do (hiper-) plano ajustado
� Diagnosticados através de:� Distância elevadas entre a observação original e a sua
projecção no plano.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 67
PCA
� Que observações não são bem explicadas pelo modelo PCA?
En
m
Analisar resíduos por linhas
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 68
PCA� Q – quadrado da distância ao subespaço PCA.
� Análise da variabilidade em redor do modelo PCA (não captada pelo modelo PCA)
0 2 4 6 8 100
0.5
1
1.5
2
2.5
3
3.5
4
France
Italy
Switz Austra Brit U.S.A. Russia
Czech
Japan
Mexico
Sample Number
Q R
esid
ual
Scores Plot
“Outliers” moderados: Japão, México
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 69
PCA
� E por que não são estas observações bem explicadas pelo modelo PCA?� Japão, México
1 2 3 4 5-1.4
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
Variable Number
Q R
esid
ual C
ontr
ibut
ion
Sample 10 Q Residual = 3.7172
Liqu
or
Win
e
Bee
r
Life
Ex
Hea
rtD
1 2 3 4 5-1.5
-1
-0.5
0
0.5
1
Variable Number
Q R
esid
ual C
ontr
ibut
ion
Sample 9 Q Residual = 2.4573
Liqu
or
Win
e
Bee
r
Life
Ex
Hea
rtD
Japão México
Valores dos resíduos para cada variável, relativamente a estas duas observações.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 70
PCA� Exemplo: Análise de dados processuais (P&P)
� Análise de um processo com 9 variáveis, recolhidas ao longo de vários meses de laboração.
� O que se pode dizer relativamente à sua variabilidade?
� Como se relacionam as variáveis entre si?
� …
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 71
PCA
Matrix Plot (Dados_lab 88v*569c)TSO pt01
TSO pt02
TSO pt03
TSO pt04
TSO pt05
TSO pt06
TSO pt07
TSO pt08
TSO pt09
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 72
PCA
Component Number
Eigenvalue
987654321
5
4
3
2
1
0
Scree Plot of TSO pt01; ...; TSO pt09Scree Plot
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 73
PCA
Index
PC1
513456399342285228171114571
5,0
2,5
0,0
-2,5
-5,0
Time Series Plot of PC1
Index
PC2
513456399342285228171114571
5,0
2,5
0,0
-2,5
-5,0
-7,5
Time Series Plot of PC2
PC_1
PC_2
5,02,50,0-2,5-5,0
5,0
2,5
0,0
-2,5
-5,0
-7,5
1
2
11
12
mês
Scatterplot of PC_2 vs PC_1
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 74
PCA
� NOTAS:
� PCA não analisa a causalidade entre variáveis mas a estrutura de correlações existente entre elas.
� Ferramenta útil para análise exploratória de dados quando se analisam muitas variáveis simultaneamente, eventualmente possuindo algum nível de associação:� Detecção de grupos e tendências;� Análise de outliers.
� Útil também em:� Regressão linear quando os regressores estão correlacionados;� Controlo estatístico de processos multivariados com muitas
variáveis correlacionadas (dezenas - milhares).