Seminário de Astrofísica 13/05/15

53
Análise de Agrupamentos de Parâmetros Morfométricos para Classificação de Galáxias Vanessa de Oliveira Gil Orientador: Prof. Dr. Fabricio Ferrari Universidade Federal de Santa Maria [email protected] 13 de maio de 2015 Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 1 / 52

Transcript of Seminário de Astrofísica 13/05/15

Análise de Agrupamentos de Parâmetros Morfométricospara Classificação de Galáxias

Vanessa de Oliveira Gil

Orientador: Prof. Dr. Fabricio Ferrari

Universidade Federal de Santa Maria

[email protected]

13 de maio de 2015

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 1 / 52

Sumário

1 Motivação

2 Justificativa

3 Objetivos

4 Morfologia de GaláxiasSistema CASGM

5 Análise de Agrupamentos

6 ResultadosAgrupamentos do Catálogo EFIGIAgrupamentos do Catálogo EFIGI: 2a ParteComparação entre os Agrupamentos e a Classificação Visual

7 Considerações Finais e Perspectivas Futuras

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 2 / 52

Motivação

Motivação

A classificação de galáxias é uma importante etapa para compreender suascaracterísticas e seus processos de formação e evolução, contudo a inspeçãoainda é realizada visualmente e individualmente para cada imagem.Com o surgimento de grandes catálogos astronômicos com milhões deobjetos essa abordagem torna-se impraticável. Por isso, é imprescindível aquantificação morfológica para possibilitar a automatização dessaclassificação.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 3 / 52

Justificativa

Justificativa

Ineficiência para classificar galáxias presentes em grandes catálogosastronômicos.A classificação humana realizada por um especialista é subjetivadevido à multiplicidade de critérios.A automatização possibilita entender como as galáxias evoluemmorfologicamente, quando surgem suas diferentes estruturas e o quepodemos inferir do seu estado dinâmico a partir disso.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 4 / 52

Objetivos

Objetivos

Explorar bases de dados astronômicos com parâmetros morfométricosde galáxias por meio de algoritmos de agrupamento para identificarpadrões naturais de agrupamento como etapa anterior à classificaçãode galáxias.Comparar a classificação realizada por um especialista com osagrupamentos provenientes do K-médias e do EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 5 / 52

Morfologia de Galáxias

Morfologia de Galáxias

Figura : Morfologia de galáxias. Fonte: Ferreira(2015)

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 6 / 52

Morfologia de Galáxias

Classificação Morfológica de Galáxias

Figura : Diagrama de Hubble. Fonte: Hubble, 1936.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 7 / 52

Morfologia de Galáxias

Morfometria de Galáxias

Medidas quantitativas de estruturas morfológicas das galáxias.Sistema CASGM + Espiralidade, entropia, índice de sérsic e razãoentre eixos.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 8 / 52

Morfologia de Galáxias

Índice de Sérsic (n)

O perfil de Sérsic (Sérsic, 1963) é uma função que descreve como aintensidade luminosa (I ) da galáxia varia de acordo com a distâcia do seucentro (R). Esse perfil é uma generalização da Lei de de Vaucouleurs.

ln(I (R)) = ln Io − kR1n (1)

em que I0 é a intensidade luminosa em R = 0. O parâmetro n é o índice deSérsic que controla o grau de curvatura do perfil.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 9 / 52

Morfologia de Galáxias Sistema CASGM

Sistema CASGM

Medidas não paramétricas da morfologia das galáxias não assumemuma função analítica particular para a distribuição de luminosidade dasgaláxias, sendo assim são aplicáveis à todos os tipos de galáxias.Abraham (1996), Concelice (2000) e Concelice (2003).

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 10 / 52

Morfologia de Galáxias Sistema CASGM

Concentração, Assimetria e Suavidade

Figura : Fonte: Conselice, 2003.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 11 / 52

Morfologia de Galáxias Sistema CASGM

Coeficiente de Gini (G)

Refere-se a luz distribuída uniformemente no interior da galáxia que nãodepende de qualquer centro particular.

G =1

|Xn|n(n − 1)

N∑i=1

(2i − n − 1)|Xi | (2)

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 12 / 52

Morfologia de Galáxias Sistema CASGM

Coeficiente de Gini (G)

Figura : Curva de Lorenz: o coeficiente de Gini é a área entre a curva de Lorenzdos pixels da galáxias e de distribuição equitativa (região sombreada). Essa curvapertence à galáxia NGC 4526 com G = 0.59. Fonte: Lotz, 2004.Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 13 / 52

Morfologia de Galáxias Sistema CASGM

Índice σΨ

Mede a quantidade de estruturas não radiais nas galáxias, em especialbraços espirais e barras (Ferrari et al. 2015).

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 14 / 52

Morfologia de Galáxias Sistema CASGM

Entropia (H) e Razão entre Eixos

A entropia (H) mede a incerteza de uma variável aleatória. A entropiade uma variável aleatória discreta X é definida por

H(X ) = −n∑

i=1

pi log pi (3)

em que pi indica a probabilidade de evento da distribuição deprobabilidade de uma variável aleatória discreta.A razão entre eixos (q) contempla a razão entre os semi-eixos maior emenor das galáxias.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 15 / 52

Morfologia de Galáxias Sistema CASGM

Morfometryka

Figura : Medições dos parâmetros morfométricos das galáxias PGC212, PGC213e PGC243. Fonte: Ferrari et al., 2015Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 16 / 52

Morfologia de Galáxias Sistema CASGM

Escolha dos Parâmetros Morfométricos

1 0 1 2 3 4 50.00.20.40.60.81.0

log In1D norm

0.0 0.5 1.0 1.5 2.0 2.50.00.51.01.52.02.5

log Rn1D norm

0.40.20.00.20.40.60.81.01.21.40.0

0.5

1.0

1.5

2.0log n norm

2 1 0 1 2 3 4 50.00.20.40.60.81.0

log In2D norm

0.50.0 0.5 1.0 1.52.0 2.53.00.00.51.01.52.02.53.0

log Rn2D lognorm

0.40.20.00.20.40.60.81.01.21.40.0

0.5

1.0

1.5

2.0log n2D lognorm

4.54.03.53.02.52.01.51.00.50.00.00.20.40.60.81.0

log(A1) genlogistic

0.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.02.53.03.5

A3 gengamma

0 204060801001201401601800.0000.0050.0100.0150.0200.0250.030

Rp genlogistic

0 1 2 3 4 5 60.00.10.20.30.40.50.60.70.80.9

C1 genlogistic

0.0 0.5 1.0 1.52.0 2.53.0 3.50.00.20.40.60.81.01.21.41.6

C2 genlogistic

0.600.650.700.750.800.850.9002468

1012141618

G genlogistic

2.0 1.5 1.0 0.50.0 0.5 1.00.00.51.01.52.02.5

log S1 lognorm

0.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.02.53.03.5

S3 gengamma

0.00.10.20.30.40.50.60.70.80.90123456

H lognorm

0.00.10.20.30.40.50.60.70.802468

1012

sigma_psi genlogistic

0.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.02.53.0

q genlogistic

Figura : Histogramas dos parâmetros presentes no EFIGI de acordo com aclassificação morfológica. Fonte: Ferrari et al., 2015Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 17 / 52

Morfologia de Galáxias Sistema CASGM

EFIGI

Rootname n q C1 A1 S1 G σΨ

PGC000212 1.2 0.33 3.07 0.27 0.2 0.77 0.19PGC000218 2.03 0.76 3.92 0.13 0.14 0.76 0.27PGC000243 5.36 0.95 4.32 0.49 0.32 0.76 0.15

Tabela : Amostra dos parâmetros presentes no catálogo EFIGI. (Baillard et al.2011)

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 18 / 52

Morfologia de Galáxias Sistema CASGM

Análise de Agrupamentos

Extração de conhecimento sem utilizar informações das classes dos objetos.Busca organizar um conjunto de objetos em grupos de acordo com medidasde similaridade e dissimilaridade.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 19 / 52

Morfologia de Galáxias Sistema CASGM

Análise de Agrupamentos

Figura : Processo de Agrupamento. Fonte: Naldi, M. 2011.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 20 / 52

Morfologia de Galáxias Sistema CASGM

O que é um bom agrupamento?

Um bom método de agrupamento fornece grupos de alta qualidadecom:Alta similaridade intra-grupo;Baixa similaridade inter-grupo.A qualidade do resultado de um agrupamento depende tanto damedida de similaridade usada pelo método como da suaimplementação.A qualidade de um método de agrupamento é também medida pelasua habilidade para descobrir os padrões escondidos.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 21 / 52

Morfologia de Galáxias Sistema CASGM

Funcionamento do Algoritmo K-médias

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 22 / 52

Morfologia de Galáxias Sistema CASGM

Algoritmo de Maximização de Expectativa

O algoritmo é aplicado em situações onde se deseja estimar umconjunto de parâmetros que descreve uma distribuição deprobabilidade, ou seja, estima a média amostral e sua variância.Aplicado em aprendizado não-supervisionado - agrupamento e misturade densidades.Tem como objetivo estimar o número de populações na amostra ondecada população representa uma distância de probabilidade.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 23 / 52

Morfologia de Galáxias Sistema CASGM

Funcionamento do Algoritmo EM

Figura : Expectation Maximization, MURPHY, K., 2002.Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 24 / 52

Morfologia de Galáxias Sistema CASGM

Método de Validação: Silhouette

A largura da silhueta avalia a qualidade de uma solução do agrupamento,considerando tanto a compacidade e a separação.

s(i) =bi − wi

max (bi ,wi )(4)

combi = min

k(Bi ,k) (5)

em que wi é a distância média do i-ésimo ponto até os outros pontos deum mesmo cluster e B(i ,k) é a distância média do i-ésimo ponto até ospontos de outro cluster k.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 25 / 52

Morfologia de Galáxias Sistema CASGM

Matriz de confusão

Figura : Matriz de confusão. Fonte: Souza, 2009.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 26 / 52

Resultados

Acurácia: total de predições corretas.

Sensibilidade: valores positivos que foram classificados corretamente.

Especificidade: valores negativos que foram classificados corretamente

Precisão: total de resultados positivos.

Predição de valores negativos: total de resultados negativos.

Taxa de falsos positivos: valores negativos que foram classificadoscomo positivos.

Taxa de falsas descobertas: falsos positivos entre todas as descobertas.

Taxa de falsos negativos: casos positivos que foram classificados comonegativos.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 27 / 52

Resultados

Resultados dos Dados Sintéticos

Os primeiros testes foram realizados com dados sintéticos privilegiandoduas dimensões após foi incrementado para cinco dimensões. Essaabordagem foi aplicada devido a necessidade de inferir a qualidade dosalgoritmos de agrupamento e métodos de validação.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 27 / 52

Resultados

Base de Dados

Figura : Dados sintéticos: melhor caso.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 28 / 52

Resultados

Base de Dados

Figura : Dados sintéticos: pior caso.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 29 / 52

Resultados

Resultados Preliminares

Figura : Silhouette EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 30 / 52

Resultados

Resultados Preliminares

Figura : Silhouette K-médias.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 31 / 52

Resultados

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a

Parte

−1 0 1 2 3 4

−3

−2

−1

0

1

2

A1

C1

Amostra do EFIGI: K−medias

−1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

A1

C1

Amostra do EFIGI: EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são C1 x A1 com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 32 / 52

Resultados

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a

Parte

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−1

0

1

2

3

4

log(n)

q

Amostra do EFIGI: K−medias

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1

0

1

2

3

log(n)q

Amostra do EFIGI: EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são log(n) x q com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 33 / 52

Resultados

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a

Parte

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−2

−1

0

1

2

3

log(n)

σΨ

Amostra do EFIGI: K−medias

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

log(n)σ

Ψ

Amostra do EFIGI: EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são log(n) x σΨ com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 34 / 52

Resultados

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a

Parte

−1 0 1 2 3 4

−1

0

1

2

3

4

5

A1

S1

Amostra do EFIGI: K−medias

−1 0 1 2 3 4

−1

0

1

2

3

4

5

A1

S1

Amostra do EFIGI: EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são A1 x S1 com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 35 / 52

Resultados

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 1a

Parte

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

1

2

Silhouette Value

Clu

ste

r

Silhouette da Amostra EFIGI: K−medias

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

1

2

Silhouette ValueC

luste

r

Silhouette da Amostra EFIGI: EM

Figura : Comparação entre os resultados de Silhouette obtidos pelos algoritmosK-médias e EM, respectivamente, com dados provenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 36 / 52

Resultados

Matrizes de Confusão dos Agrupamentos

CMk−medias =

[805 901097 2224

](6)

CMEM =

[855 402222 1099

](7)

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 37 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a

Parte

−4 −3 −2 −1 0 1 2 3 4 5−4

−3

−2

−1

0

1

2

3

A3

C1

Amostra do EFIGI: K−medias

−4 −3 −2 −1 0 1 2 3 4 5−4

−3

−2

−1

0

1

2

3Amostra do EFIGI : EM

A3

C1)

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são A3 x C1 com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 38 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a

Parte

−3 −2 −1 0 1 2

−2

−1

0

1

2

3

S3

σΨ

Amostra do EFIGI: K−means

−4 −3 −2 −1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

S3

σΨ

Amostra do EFIGI : EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são S3 x σΨ com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 39 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a

Parte

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5−3

−2

−1

0

1

2

3

4

H

σΨ

Amostra do EFIGI: K−medias

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Ψ

Amostra do EFIGI : EM

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são H x σΨ com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 40 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a

Parte

−4 −3 −2 −1 0 1 2 3 4−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

S3

H

Amostra do EFIGI: K−medias

−4 −3 −2 −1 0 1 2 3 4−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

Amostra do EFIGI : EM

S3

H

Figura : Comparação entre os resultados obtidos pelos algoritmos K-médias eEM, respectivamente, quando os atributos utilizados são S3 x H com dadosprovenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 41 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Agrupamentos do Catálogo EFIGI para o K-médias e EM: 2a

Parte

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

1

2

Silhouette Value

Clu

ste

r

Silhouette da Amostra EFIGI: K−medias

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

1

2

Silhouette ValueC

luste

r

Silhouette da Amostra EFIGIv47: EM

Figura : Comparação entre os resultados de Silhouette obtidos pelos algoritmosK-médias e EM, respectivamente, com dados provenientes do catálogo EFIGI.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 42 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Matrizes de Confusão dos Agrupamentos

CMk−medias =

[818 901169 2148

](8)

CMEM =

[808 1001147 2170

](9)

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 43 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Comparação entre os Agrupamentos e a Classificação Visual

−4 −3 −2 −1 0 1 2 3−2

0

2

4

6

8

10Amostra do EFIGI

log(n)

A1

−4 −3 −2 −1 0 1 2 3−2

0

2

4

6

8

10K−medias: Verdadeiros Positivos e Verdadeiros Negativos

log(n)

A1

−4 −3 −2 −1 0 1 2 3−2

0

2

4

6

8

10EM: Verdadeiros Positivos e Verdadeiros Negativos

log(n)

A1

Figura : A primeira imagem mostra a disposição original dos dados para osparâmetros log(n) x A1. A segunda e terceira imagem representa as classificaçõescorretas resultantes dos algoritmos K-médias e EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 44 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Comparação entre os Agrupamentos e a Classificação Visual

−3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

σΨ

log(n

)

−3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3K−medias: Verdadeiros Positivos e Verdadeiros Negativos

(σΨ

)

log(n

)

−3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3EM: Verdadeiros Positivos e Verdadeiros Negativos

(σΨ

)

log(n

)

Figura : A primeira imagem mostra a disposição original dos dados para osparâmetros σΨ x log(n). A segunda e terceira imagem representa as classificaçõescorretas resultantes dos algoritmos K-médias e EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 45 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Comparação entre os Agrupamentos e a Classificação Visual

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

1

2

3

4

5

6

H

C1

Amostra do EFIGI

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5−4

−3

−2

−1

0

1

2

3

H

C1

Verdadeiros Positivos e Verdadeiros Negativos

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5−4

−3

−2

−1

0

1

2

3

H

C1

Verdadeiros Positivos e Verdadeiros Negativos

Figura : A primeira imagem mostra a disposição original dos dados do catálogoEFIGI referente aos parâmetros H x C1. Já a segunda e terceira imagem contémapenas as classificações com instâncias corretas resultantes dos algoritmosK-médias e EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 46 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Comparação entre os Agrupamentos e a Classificação Visual

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

H

σΨ

Amostra do EFIGI

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

H

σΨ

Verdadeiros Positivos e Verdadeiros Negativos

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

H

σΨ

Verdadeiros Positivos e Verdadeiros Negativos

Figura : A primeira imagem mostra a disposição original dos dados para osparâmetros H x σΨ. A segunda e terceira imagem representa as classificaçõescorretas resultantes dos algoritmos K-médias e EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 47 / 52

Resultados Agrupamentos do Catálogo EFIGI: 2a Parte

Comparação entre os Agrupamentos e a Classificação Visual

0 1 2 3 4 5 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Amostra EFIGI

C1

σΨ

−4 −3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7Verdadeiros Positivos e Verdadeiros Negativos

C1

σΨ

−4 −3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7Verdadeiros Positivos e Verdadeiros Negativos

C1

σΨ

Figura : A primeira imagem mostra a disposição original dos dados para osparâmetros C1 x σΨ. A segunda e terceira imagem representa as classificaçõescorretas resultantes dos algoritmos K-médias e EM.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 48 / 52

Considerações Finais e Perspectivas Futuras

Considerações Finais

Esse resultado reforça a existência de uma continuidade morfométricasnas populações de galáxias elípticas e espirais.Com esses resultados pode-se perceber que as galáxias espirais eelípticas possuem características semelhantes não sendo mais possívelcaracterizá-las por uma visão bimodal.Foram obtidas informações relevantes que descrevem onde há a maiorprobabilidade de localizar galáxias elípticas e espirais nesse espaço deparâmetros.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 49 / 52

Considerações Finais e Perspectivas Futuras

Considerações Finais

Os resultados obtidos pela classificação visual realizada por umespecialista da área é equivalente aos resultados provenientes daclassificação não-supervisionada como revelam as matrizes deconfusão.As estruturas das galáxias presentes nas imagens são bemrepresentadas pelos parâmetros morfométricos.A proposta metodológica de utilizar técnicas de agrupamentos paradescobrir padrões entre as classes de galáxias se mostrou muitopromissora, pois consegue avaliar uma boa porcentagem de galáxias,do banco de dados, corretamente.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 50 / 52

Considerações Finais e Perspectivas Futuras

Aplicações Futuras

Novas análises serão realizadas com catálogos de 14.000 objetos (Nair& Abraham, 2010), em grupos Berlind (Ferrari, 2015) e dados doLegacy Survey SDSS.Usar técnicas de análise estatística de dados, mineração de dados e deaprendizado de máquina para caracterizar as estruturas no espaço deparâmetros morfométricos para amostras significativas de galáxias detodos os tipos morfológicos.Identificar grupos de objetos no espaço de parâmetros morfométricos eassociar tais grupos de acordo com suas características físicas quantoà massa, população estelar, taxa de formação estelar, entre outros.

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 51 / 52

Considerações Finais e Perspectivas Futuras

Obrigada!

Vanessa de Oliveira Gil (UFSM) Clustering para Classificação de Galáxias 13 de maio de 2015 52 / 52