Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não...
Transcript of Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não...
![Page 1: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/1.jpg)
Reconhecimento de PadrõesReconhecimento de Padrões
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Escola Superior de Tecnologia – Engenharia InformáticaReconhecimento de Padrões
Prof. João Ascenso
![Page 2: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/2.jpg)
Sumário: Métodos não paramétricosSumário: Métodos não paramétricos
Introdução aos métodos não paramétricos
Janelas de Parzen
Método dos k vizinhos mais próximos
Classificação com o método dos k vizinhos mais
próximos
Distâncias (métricas)
Redução da dimensionalidade (PCA)
26-11-2003 2
![Page 3: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/3.jpg)
Métodos não paramétricosMétodos não paramétricos
Na estimação de Bayes e de máxima verosimilhança a forma das probabilidades é conhecida:
Na prática, as formas paramétricas mais conhecidas não são adequadas a muitos problemas do mundo real.Em particular, a maior parte das formas paramétricas são unimodais enquanto muitos problemas práticos envolvem densidades multimodaisUma forma de ultrapassar este obstáculo é utilizar uma mistura de densidades.A outra forma é utilizar a estimação de parâmetros não paramétrica
26-11-2003 3
![Page 4: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/4.jpg)
Técnicas de estimação de parâmetros não paramétricaTécnicas de estimação de parâmetros não paramétrica
Na estimação não paramétrica:Não se assume que se conhece a forma de distribuição.No entanto, calcula-se uma estimativa da função densidade de probabilidade a partir dos dados de treino.
Existem dois tipos principais de estimação não paramétrica de parâmetros no reconhecimento de padrões:
Estimação das funções de verosimilhança a partir das amostras detreino.Estimação directa das probabilidades à priori.
O método mais simples de estimação de parâmetros é o método do histograma.
26-11-2003 4
![Page 5: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/5.jpg)
Distribuição para características bináriasDistribuição para características binárias
As características só podem assumir os valores 0,1.Uma característica binária têm a probabilidade:
P(x = 1) = pP(x = 0) = 1-p
E escreve-se da forma:
Para um vector de d características i.i.d.
(1 )( ) (1 )x xP x p p −= −
(1 )
1
( ) (1 )i i
dx x
i
P x p p −
=
= −∏
26-11-2003 5
![Page 6: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/6.jpg)
Método do histogramaMétodo do histograma
Divide-se o espaço de amostras em intervalos ou células e aproxima-se a densidade no centro de cada célula por uma fracção de pontos dos dados de treino:
Intervalos de largura h e origem em x0,as células são definidas por:
O histograma é definido como:
( )0 0; 1x mh x m h+ + −⎡ ⎤⎣ ⎦
26-11-2003 6
![Page 7: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/7.jpg)
Método do histogramaMétodo do histograma
26-11-2003 7
![Page 8: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/8.jpg)
Método do histogramaMétodo do histograma
h controla a granularidade da estimativa:
26-11-2003 8
![Page 9: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/9.jpg)
Método do histogramaMétodo do histograma
Se h é largo:A probabilidade no intervalo é estimada com mais fiabilidade, uma vez que é baseada num maior número de amostras.Por outro lado, a densidade estimada é plana numa região muito larga e a estrutura fina da distribuição é perdida.
Se h é estreito:Preserva-se a estrutura fina da densidade, mas o grau de confiança diminui (no limite, pode haver intervalos sem amostras).
Regra empírica:Sendo d o número de dimensões, o número de intervalos ou células deve ser: 1
1( )dn +
26-11-2003 9
![Page 10: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/10.jpg)
Método do histograma: problemasMétodo do histograma: problemas
Então, para ter nI intervalos por dimensão:
Exemplo: d=5;10 intervalos ⇒ n ≈ 106
Problemas:O histograma é descontínuo, é um artefacto da escolha dos intervalos.A escolha da origem pode ter um efeito significativo na estimativa da densidade.O número de intervalos cresce exponencialmente com o número de dimensões.Necessário um n.º elevado de amostras de treino.
Não é muito usado, apenas para visualização dos dados.
111( ) ( )dd
I In n n n ++≈ ≈ sao necessarias amostras de treino
26-11-2003 10
![Page 11: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/11.jpg)
Conceitos fundamentaisConceitos fundamentais
A maior parte das técnicas não paramétricas de estimação de parâmetros assentam nos seguintes teoremas:
A probabilidade P que um vector x esteja contido na região R é dado por:
Se tivermos n amostras, a probabilidade de k das n amostras fazerem parte de R é:
( )R
P p x d x= ∫
knkk PP
kn
P −−⎟⎟⎠
⎞⎜⎜⎝
⎛= )1( [ ]E k nP=
26-11-2003 11
![Page 12: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/12.jpg)
Conceitos fundamentaisConceitos fundamentais
A distribuição binomial possui um pico muito acentuado em torno do valor esperado. O número de amostras observadas em R (kobs) deve ser aproximadamente igual a kobs≈ E[k] = nPO que leva a P = kobs/n
26-11-2003 12
![Page 13: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/13.jpg)
Conceitos fundamentaisConceitos fundamentais
26-11-2003 13
![Page 14: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/14.jpg)
Conceitos fundamentaisConceitos fundamentais
Se assumirmos p(x) como uma função contínua e a região R tão pequena que p(x) não varia, vamos ter:
em que x’ é um ponto na região R e V é o volume no espaço R
Combinando as equações temos:
( ) ( ')R
P p x d x p x V= ≈∫
/( ') o b sk np xV
≅
26-11-2003 14
![Page 15: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/15.jpg)
Conceitos fundamentaisConceitos fundamentais
Existem duas aproximações nas relações anteriores:Se k (ou n) tender para infinitoou V convergir para zero.Então estas aproximações vão convergir para valores exactos.
26-11-2003 15
![Page 16: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/16.jpg)
Conceitos fundamentaisConceitos fundamentais
De forma a estimar a densidade em x defini-se as seguintes regiões que contêm o ponto x:
R1, R2, ...., Rn com 1, 2, ..., n amostras
De forma a pn(x) convergir para p(x):
Exemplos que cumprem estas condições:Parzen: O volume inicial Vo diminui:
K-nn: Rn cresce até conter kn amostras:
n
nn V
nkxp
/)( ≅
lim 0nnV
→∞= lim nn
k→∞
= ∞ lim 0n
n
kn→∞=
nVoV
n=
nk n=
26-11-2003 16
![Page 17: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/17.jpg)
Conceitos fundamentaisConceitos fundamentais
26-11-2003 17
![Page 18: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/18.jpg)
Janelas de Janelas de ParzenParzen
Assume-se que região Rn é um cubo com d dimensões e com o comprimento de cada contorno hn
O número de amostras que se encontram na região Rn pode ser obtida analiticamente através da função de janela:
O número de amostras e a estimativa para a densidade de probabilidade é dada por:
11 2( )0 caso contrario
juuϕ
⎧ ≤⎪= ⎨⎪⎩
⎟⎟⎠
⎞⎜⎜⎝
⎛ −= ∑
= n
in
i nn h
xxVn
xp ϕ1
11)(1
ni
ni n
x xkh
ϕ=
⎛ ⎞−= ⎜ ⎟
⎝ ⎠∑
26-11-2003 18
![Page 19: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/19.jpg)
Janelas de Janelas de ParzenParzen
A função da janela φ é utilizada para interpolação:Cada amostra contribui para a estimativa de acordo com a sua distância a x.
Se hn é muito grande então pn(x) é uma superposição de funções que variam pouco, sendo uma estimativa pouco fiável de p(x).Se hn é muito pequena então pn(x) é uma função de dirac e a sua estimativa é apenas a soma de pulsos pequenos.Com um número ilimitado de amostras pn(x) converge para p(x) para qualquer valor de hn.Com um número limitado de amostras, o melhor a fazer é procurar um compromisso.
26-11-2003 19
![Page 20: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/20.jpg)
Janelas de Janelas de ParzenParzen
Escolha das janelas de parzen
26-11-2003 20
![Page 21: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/21.jpg)
Janelas de Janelas de ParzenParzen
26-11-2003 21
![Page 22: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/22.jpg)
Janelas de Janelas de ParzenParzen
26-11-2003 22
![Page 23: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/23.jpg)
Condições de convergênciaCondições de convergência
Se pn(x) é uma variável aleatória que depende dos valores de {x1,x2, ... , xn} com média e variância dadas por:
A estimativa pn(x) converge para p(x) se:
e as seguintes condições garantem convergência:
26-11-2003 23
![Page 24: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/24.jpg)
Janelas de Janelas de ParzenParzen
Convergência da média
26-11-2003 24
![Page 25: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/25.jpg)
Janelas de Janelas de ParzenParzen
Convergência da variância
26-11-2003 25
![Page 26: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/26.jpg)
Janelas de Janelas de ParzenParzen
p(x) é uma normal: média zerovariância unitáriaUnivariada
A função de janela é:
pn(x) é uma média das densidades normais:
2
21( )2
uu eϕ
π−
=
1
1 1( )n
in
i n n
x xp xn h h
ϕ=
⎛ ⎞−= ⎜ ⎟
⎝ ⎠∑
26-11-2003 26
![Page 27: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/27.jpg)
Janelas de Janelas de ParzenParzen
Com duas densidades normais.
26-11-2003 27
![Page 28: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/28.jpg)
26-11-2003 28
Janelas de Janelas de ParzenParzen
![Page 29: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/29.jpg)
Classificação utilizando Janelas de Classificação utilizando Janelas de ParzenParzen
26-11-2003 29
![Page 30: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/30.jpg)
Redes PNN Redes PNN ((probabilisticprobabilistic neuralneural networksnetworks))
As janelas de Parzen podem ser implementadas como uma rede neuronal estatística.Considere n padrões com d dimensões, escolhidos aleatoriamente de c classes.A rede PNN consiste em:
d unidades de entrada (input layer)n unidades intermédias (pattern layer) ligadas a apenas uma e só uma unidade de classe (output layer)
Os pesos entre as unidades entrada e as unidades intermédias vão ser calculados através de uma fase de treino.
26-11-2003 30
![Page 31: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/31.jpg)
Redes PNN Redes PNN ((probabilisticprobabilistic neuralneural networksnetworks))
26-11-2003 31
![Page 32: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/32.jpg)
Redes PNN Redes PNN -- TreinoTreino
26-11-2003 32
![Page 33: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/33.jpg)
Redes PNN Redes PNN -- ClassificaçãoClassificação
26-11-2003 33
![Page 34: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/34.jpg)
Redes PNN Redes PNN -- vantagensvantagens
Velocidade da aprendizagem.Memória reduzida.A classificação é realizada em paralelo.Novos padrões de treino podem ser incorporados facilmente.
26-11-2003 34
![Page 35: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/35.jpg)
Estimação dos Estimação dos KKnn vizinhos mais próximosvizinhos mais próximos
Um dos problemas com as janelas de Parzen é como determinar uma função de janela óptima.Outro problema é que as janelas de parzen dependem da selecção inicial do volume da célula V
Uma solução é escolher o volume da célula de acordo com a distribuição dos dados.
A estimação dos k vizinhos mais próximos permite resolver este problema:
A região é agora em função dos dados de treinoPara estimar p(x) em x, a região deve crescer até capturar knamostras, onde kn é uma função especificada por n
n
nn V
nkxp
/)( ≅
26-11-2003 35
![Page 36: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/36.jpg)
ExemplosExemplos
26-11-2003 36
![Page 37: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/37.jpg)
ExemplosExemplos
26-11-2003 37
![Page 38: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/38.jpg)
26-11-2003 38
ExemplosExemplos
![Page 39: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/39.jpg)
Estimação das probabilidades Estimação das probabilidades a Posterioria Posteriori
Todos os métodos estudados podem ser utilizados para obter as probabilidades a posteriori dos dados P(ωi|x).
Para uma célula de volume V em redor de x captura-se k amostras, das quais ki amostras pertencem a ωi
Para obter o mínimo erro, escolhe-se a classe mais frequentemente representada na célula.
Para um número suficientemente grande de células, as probabilidades a posteriori estimadas são fiáveis.
1
( , )( | )( , )
n i in i c
n jj
p x kP xkp x
ωωω
=
= =
∑/( , ) i
n ik np xV
ω =
26-11-2003 39
![Page 40: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/40.jpg)
Regra do vizinho mais próximo (NN)Regra do vizinho mais próximo (NN)
Ambos os métodos, janelas de parzen e Kn vizinhos mais próximos, podem ser utilizados para calcular as probabilidades a posteriori utilizando n-amostras de dados de treino.
Esta probabilidade pode ser utilizada pela regra de Bayes.Uma abordagem radical é utilizar o método dos vizinhos mais próximos para classificar directamente os dados de treino desconhecidos ⇒ regra do vizinho mais próximo.Enquanto a regra de Bayes (classificação MAP) é óptima para escolher entre as diferentes classes, a regra do vizinho mais próximo é sub-óptima.
26-11-2003 40
![Page 41: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/41.jpg)
Regra do vizinho mais próximoRegra do vizinho mais próximo
Suponha que temos Dn={x1, ......, xn} amostras de treino classificadas (rotuladas).Seja x’ em Dn o ponto mais próximo de x, que necessita de ser classificado.A regra do vizinho mais próximo consiste em atribuir ao elemento x a mesma classificação que o x’.A regra do vizinho mais próximo cria partições no espaço de características em células de Voronoi.
26-11-2003 41
![Page 42: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/42.jpg)
Regra do vizinho mais próximoRegra do vizinho mais próximo
26-11-2003 42
![Page 43: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/43.jpg)
Limite para o erroLimite para o erro
Seja P* o mínimo erro possível (classificador MAP)Seja P o erro dado pela regra do vizinho mais próximo.Dado um número ilimitado de dados de treino podemos mostrar que:
)1
2( *** Pc
cPPP−
−≤≤
26-11-2003 43
![Page 44: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/44.jpg)
Regra dos Regra dos kk--vizinhosvizinhos mais próximo (KNN)mais próximo (KNN)
As técnicas NN ou k-NN constróem directamente a regra de decisão sem estimar as densidades condicionadas às classes.Motivação: Padrões próximos no espaço de características possivelmente pertencem à mesma classe.Extensão do NN: a regra dos k-vizinhos mais próximos classifica x atribuindo-lhe a classe mais representada nos k vizinhos mais próximos do conjunto de treino.
Por outras palavras, dado x procuramos as k amostras mais próximas.A classe mais frequente é atribuída a x.k é usualmente ímpar para evitar empates.
26-11-2003 44
![Page 45: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/45.jpg)
ExemploExemplo
26-11-2003 45
![Page 46: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/46.jpg)
Regra dos Regra dos kk--vizinhosvizinhos mais próximosmais próximos
A selecção de k é um compromisso:Se k é muito alto ⇒ alguns destes vizinhos k podem ter probabilidades diferentes.Se k é muito baixo ⇒ A estimação pode não ser fiável.
O comportamento óptimo é obtido à medida que k e n se aproxima de infinito.
26-11-2003 46
![Page 47: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/47.jpg)
Regra do Regra do kk--vizinhosvizinhos mais próximo: métricasmais próximo: métricas
26-11-2003 47
![Page 48: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/48.jpg)
MétricasMétricas
O classificador dos vizinhos mais próximos baseia-se numa métrica ou função de distância entre dois padrões.
26-11-2003 48
![Page 49: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/49.jpg)
Propriedades das métricasPropriedades das métricas
Não negativa: d(a,b) ≥ 0Reflexiva: d(a,b) = 0 se e só se a = bSimétrica: d(a,b) = d(b,a)Inequação do triângulo: d(a,b) + d(b,c) ≥ d(a,c)
26-11-2003 49
![Page 50: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/50.jpg)
MétricasMétricas
Distância de Minskowski, classe genérica de métricas para padrões com d dimensões:
1/
1( , )
kdk
k i ii
L a b a b=
⎛ ⎞= −⎜ ⎟⎝ ⎠∑
Esta distância é parametrizável através do parâmetro kA distância euclidiana ou a norma L2 é dada por:
( )2
2
1( , )
d
euclidiana i ii
L d a b a b=
= = −∑Dá mais ênfase às características com elevada dissimilaridade.
26-11-2003 50
![Page 51: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/51.jpg)
MétricasMétricas
A distância de manhattam, city-block ou diferença absoluta é calculada a partir da norma L1 :
11
( , )d
manhattam i ii
L d a b a b=
= = −∑Reduz tempo de cálculo em relação à distância euclidiana.Não é possível encurtar esquinas.
26-11-2003 51
![Page 52: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/52.jpg)
Mais métricasMais métricas
Distância de máxima distância:
Apenas considera o par de características mais distantes.
Distância de Mahalanobis:
max 1( , ) max
d
dist i iid a b b a
== −
( ) ( )1( , ) Tmahalanobisd a b x y x y−= − Σ −
26-11-2003 52
![Page 53: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/53.jpg)
Variantes na decisão KVariantes na decisão K--NNNN
Escolha da medida de distância no cálculo dos vizinhosNo caso do conjunto de treino ser infinito, o desempenho é independente da métrica !
Regra de k-NN com distâncias pesadas:Sejam x1,x2, ... , xk os k vizinhos mais próximos da amostra a classificar x’Seja dj = d(x’,xj)Atribui-se um peso a cada vizinho xj de acordo com:
Somam-se os pesos para os vizinhos pertencentes à mesma classe, atribuindo x’ à classe com maior peso.
1
k jj
k
d dd d
ω−
=−
0 1jω≤ ≤
26-11-2003 53
![Page 54: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/54.jpg)
26-11-2003 54
Exemplos de Exemplos de kNNkNN
![Page 55: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/55.jpg)
Exemplos de Exemplos de kNNkNN (k=5)(k=5)
26-11-2003 55
![Page 56: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/56.jpg)
Desvantagens e vantagensDesvantagens e vantagens
Propriedades ideais:Menos que 20 atributos por instânciaMuitos dados de treino
Vantagens:O treino é rápido.Aprende funções complexas
Desvantagens:As estimativas são sensíveis ao ruído.O método KNN produz estimativas com declives acentuados (heavy tails).A estimativa pode ter descontinuidades e o integral sobre todo o espaço de amostras diverge.A classificação é lenta.As estimativas podem se afastar muito se houver atributos irrelevantes.
26-11-2003 56
![Page 57: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/57.jpg)
A maldição da dimensionalidadeA maldição da dimensionalidade
Uma história de horror:Suponha que os dados são descritos por n atributos, e.g. n=20Apenas n’ são relevantes e.g. n’ = 2Mau desempenho ! Os problemas são usualmente tão maus como este ou mesmo piores (e.g. atributos correlacionados) !Maldição da dimensionalidade: O algoritmo dos k vizinhos mais próximos é usualmente enganado quando n é grande, i.e. dimensão de x é alta.
Como solucionar este problema:Seleccionar características mais relevantes !Atribuir pesos às característicasTransformações que reduzem a dimensionalidade: PCA, SOM, etc...
26-11-2003 57
![Page 58: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/58.jpg)
Redução da dimensionalidadeRedução da dimensionalidade
Redução da dimensionalidade
TriangulosDelaunay
Voronoi (vizinhosmais próximos)
26-11-2003 58
![Page 59: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/59.jpg)
Redução da dimensionalidade (PCA)Redução da dimensionalidade (PCA)
Noção Intuitiva: Porque motivo devemos usar transformadas que reduzem a dimensionalidade na aprendizagem supervisionada ?
Pode haver muitos atributos (ou características) com propriedades indesejadas.Irrelevância: xi têm pouco utilidade se as regiões de decisão g(x) = yiDispersão da informação: a “característica de interesse” está espalhado por muitos xi’s.Queremos aumentar a “densidade de informação” através da “compressão” de X
Principal Components Analysis (PCA)Combina-se variáveis redundantes numa única variável, referida como componente, ou factor
Factor Analysis (FA)Termo genérico para uma classe de algoritmos que incluem o PCATutorial: http://www.statsoft.com/textbook/stfacan.html
26-11-2003 59
![Page 60: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/60.jpg)
Redução da dimensionalidade (PCA)Redução da dimensionalidade (PCA)
Formulação do problema:Para o conjunto de dados {x1,x2,...,xn} temos: xi= {x1
i,x2i,...,xd
i}Assume-se que a dimensão d dos dados é alta.Pretende-se classificar x
Problemas com dimensões elevadas:Se os conjunto de dados for pequeno:
Confiança reduzida na estimativa de parâmetros.Overfit
Atributos irrelevantes Muitas dimensões,
poucos pontos
26-11-2003 60
![Page 61: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/61.jpg)
Principal Principal ComponentComponent AnalysisAnalysis (PCA)(PCA)
Objectivo: Pretende-se substituir os dados de entrada com uma dimensão elevada por um conjunto mais reduzido de característicasPCA:
Transformação linear da entrada x de d dimensões para m dimensões de forma a que m < d e preservar o máximo de variância para os dados.Equivalentemente, é uma projecção linear para a qual o erro quadrático médio é minimizado.
26-11-2003 61
![Page 62: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/62.jpg)
PCAPCA
26-11-2003 62
![Page 63: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/63.jpg)
PCAPCA
26-11-2003 63
![Page 64: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/64.jpg)
PCAPCA
26-11-2003 64
![Page 65: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/65.jpg)
PCAPCA
26-11-2003 65
![Page 66: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/66.jpg)
Método PCAMétodo PCA
O PCA é uma técnica de projecção linear:
onde u são os dados com m dimensões, x são os dados originais com d dimensões e W é uma transformação linear.O W guarda os vectores de projecção que devem:
Maximizar a variância dos dados transformados.ou fornecer distribuições não correlacionadas.ou minimizar os erro de reconstrução quadrático
O W é constituído por funções (ou vectores) de base.
( )u W x µ= −
26-11-2003 66
![Page 67: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/67.jpg)
Obter as funções de baseObter as funções de base
Pretende-se encontrar as funções de base que permitem a melhor aproximação dos dados, preservando o máximo de informação possível !Formalização: substituir d dimensões por M de zicoordenadas que representam x. Pretende-se obter o subconjunto M das funções de base.
O erro para cada xn é:
26-11-2003 67
![Page 68: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/68.jpg)
Obter as funções de baseObter as funções de base
Diferencia-se a função de erro em relação a todo o bi e iguala-se a zero:
Rescrevendo:
O erro é mínimo quando os vectores de base satisfazem:
26-11-2003 68
![Page 69: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/69.jpg)
Funções de baseFunções de base
As melhores funções de base : eliminar d-M vectores com os valores próprios mais pequenos (ou manter os M vectores com os maiores vectores próprios)Os vectores próprios ui são referidos como componentes principais.Depois dos vectores próprios ui serem calculados, podemos transformar os dados de d dimensões em m dimensões.Para encontrar a verdadeira dimensionalidade dos dados basta encontrar os valores próprios que contribuem mais (os pequenos valores próprios são eliminados).
26-11-2003 69
![Page 70: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/70.jpg)
Algoritmo PCA completoAlgoritmo PCA completo
Suponha que têm x1, x2, ... , xM vectores de n × 1Passo 1: Cálculo da média µi
Passo 2: Subtrair a média aos dados vi = xi – µi
Passo 3: Formar a matriz A = [v1 v2 ... vm] (NxM) e calcular a matriz de covariância C = AAT
Passo 4: Calcular os valores próprios e vectores próprios de C.Passo 5 (Redução da dimensionalidade): manter apenas os termos correspondentes aos K valores próprios maiores
26-11-2003 70
![Page 71: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/71.jpg)
Exemplo com duas dimensõesExemplo com duas dimensões
GO
26-11-2003 71
![Page 72: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/72.jpg)
Exemplos do PCAExemplos do PCA
1 2
2
1
3
4
-1-2x1
x2
-2
-
1
2
1 2-1-2y1
y2
-2
-1
1
2
1
2
-1
-2
z2
z1
26-11-2003 72
![Page 73: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/73.jpg)
Como escolher a dimensionalidade (m)Como escolher a dimensionalidade (m)
Como definir a dimensionalidade dos dados transformados ?Proporção da variância retida:
m é tipicamente 90% ou 95%. O resto é ruído !
26-11-2003 73
![Page 74: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/74.jpg)
26-11-2003 74
Exemplos de PCA: FacesExemplos de PCA: Faces
![Page 75: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/75.jpg)
26-11-2003 75
Exemplos de PCA: FacesExemplos de PCA: Faces
![Page 76: Reconhecimento de Padrõesltodi.est.ips.pt/jascenso/padroes/teoricas/Aula 6 - Metodos Não Parametricos.pdfTécnicas de estimação de parâmetros não paramétrica Na estimação](https://reader031.fdocumentos.tips/reader031/viewer/2022011907/5f4e7ef9b6f9633f2c3be703/html5/thumbnails/76.jpg)
Problemas do PCAProblemas do PCA
26-11-2003 76
Problemas: O PCA é um método linear. A verdadeira dimensionalidade pode ser sobre estimada.Os dados podem ser correlacionados de uma forma não linear.
Existem muitas técnicas nesta área:NPCA (Nonlinear PCA): As projecções são não lineares.ICA (Independent Component Analysis): descorrelaciona totalmente as componentes.