AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf ·...
Transcript of AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf ·...
1. Introdução
AGA 0505 - Análise de Dados em Astronomia I
1. Introdução
Laerte Sodré Jr.
1o. semestre, 2019
1 / 22
introdução
aula de hoje:
Introdução1 objetivo2 o que é ciência3 dados4 o que é estatística?5 probabilidades6 análise de dados exploratória
There are three kinds of lies: lies, damned lies, and statistics.
Mark Twain, citando Disraeli
2 / 22
introdução
objetivo
vivemos na época do Big DataBig Data: volume, informação, sujeiradados contêm informaçãodesafio: extrair a informação degrandes bases de dadospara isso: descrição dos dados,modelagem dos dados,...mas porquê se preocupar com dados?
3 / 22
introdução
o que é ciência?
???????
interpretação da natureza através daanálise de observações/experimentos
na Física/Astronomia: usando alinguagem da matemática
interpretação da natureza: via testesde modelos e hipóteses, através daanálise de observações/experimentos
observações/experimentos: os dados
4 / 22
introdução
o que é ciência?
observações/experimentos: os dados
os dados são centrais em ciência:as conclusões devem ser baseadasem fatos e/ou evidências
os dados têm uma naturezaestatística, devido a incertezas devárias naturezas:nas medidas, nos modelos, nasamostras...
a análise de dados deve serestatística!
o teorema de Bayes oferece umprocedimento lógico para a condução da
análise estatística
5 / 22
dados
tipos de dados
dados: representação (quantitativa?)da natureza
os dados podem ser de tiposdiferentes:
números inteiros (1,3, 7, -10)números reais ou decimais (pi, e, 4.1)números complexos (1+2i)lógicos (TRUE, FALSE)texto ou character (’CEP1273’,
’NGC 4151’, ’3’)
os dados podem ser de naturezadiferente:
escalares, vetores, matrizes, listasimagens, espectros, cubos de dados,séries temporais, ...
6 / 22
dados
dados em astronomia
astronomia:ciência observacional e nãoexperimental: em várias circunstânciaso número de objetos de uma dadaamostra é limitado:temos um céu! um universo!
eventos raros/únicos: não repetitíveisnem sempre é possível repetir umaobservação, “rolar um dado” maisvezes
7 / 22
dados
o que é estatística?
dois significados bem diferentes:estatística como inferência: conjuntode métodos para análise de dados-procura-se tirar alguma conclusão apartir dos dados
estatística descritiva: descrição deum conjunto de dados usandoestatísticas- um ou alguns númerosque resumem certas propriedades dosdadosexemplos: a média de um conjunto demedidas, a FWHM da imagem de umobjeto, a razão sinal-ruído de um sinal
(ciência de dados- mais queestatísticas: visualização,compressão...)
8 / 22
dados
estatísticas
estatísticas: números que resumem certaspropriedades dos dados
exemplos: média, variância, ...
é uma propriedade apenas dos dados!
quando calculamos a média ou outraestatística de um conjunto de dadosesperamos que isso tenha algumarelação com a média ou outraestatística da distribuição subjacente apartir da qual os dados foram tomados
em geral, quanto mais dados,melhores as estimativasuma boa estatística deve ser robusta,isto é, resistente à presença de dadosespúrios (intrusos ou outliers) nascaudas das distribuiçõesestatísticas podem ser justas(unbiased) ou viesadas (biased):
exemplo: comparação do valor médiodos dados, x̄ com o valor médio µ deuma distribuição ajustada aos dados:a diferença x̄− µ é denominada viés
9 / 22
probabilidades
probabilidades e estatística
inferência estatística:há uma disputa dentro da Estatística,tendo como base a natureza dasprobabilidades:bayesianos x frequentistasos métodos bayesianos propõem umenfoque lógico para a análise dedados baseado no teorema de Bayesos métodos frequentistas foramlargamente dominantes durante todo oséculo XX
muitos procedimentos frequentistassão muito usados (ex.: estimativa deparâmetros via máximaverossimilhança)
natureza das probabilidades:frequentista: medida da frequência deeventos (em vários experimentos ouensemble de sistemasestatisticamente equivalentes)bayesiana: medida da plausibilidadede uma proposição
10 / 22
probabilidades
função de distribuição de probabilidades
P(x) pode ser uma função discreta oucontínua
se x é uma variável contínua P(x) éuma função de densidade deprobabilidades:P(x)dx: número entre 0 e 1 que medeo grau de plausibilidade ou frequênciade que x esteja entre x e x + dx
se x é uma variável discreta, P(x) éuma função de massa deprobabilidades:
função de distribuição cumulativa:
F(x) =
∫ x
−∞P(x′)dx′
11 / 22
probabilidades
dados e probabilidades
algumas definições:população: qualquer coleção deobjetos ou indivíduos que se queranalisaramostra: um grupo extraído dapopulaçãoparâmetro: um número que descrevealguma propriedade da população(ex.: periodicidade do ciclo solar)
dados em estatística:
vamos considerar N medidas de umavariável x: D = {xi}, i = 1...N
D é considerada umarealização/amostragem de umavariável aleatória x, descrita por umafunção de distribuição/massa deprobabilidades P(x)
P(xi): função de distribuição/massa deprobabilidades dos dados, da amostra
12 / 22
estatística descritiva
estatística descritiva
objetivo: determinar propriedades dafunção de distribuição/massa deprobabilidades da população ou daamostrase P(x) se refere a uma distribuição:estatísticas da populaçãose P(x) se refere a dados: estatísticasda amostra
em geral se considera estatísticas de
posição: média, mediana, moda,percentis
largura: variância, desvio padrão,desvio absoluto
forma: skewness (distorção), kurtosis
13 / 22
estatística descritiva
valores esperados
conexão entre estatísticas e P(x)
o valor esperado de uma certa função Q(x) com respeito a uma distribuição deprobabilidades P(x) é
E[Q] =
∫ ∞−∞
Q(x)P(x)dx E[Q] =1N
N∑i
Qi
o valor esperado permite determinar propriedades de Q e estatísticas para adistribuição de probabilidades P(x):
média: µ =∫∞−∞ xP(x)dx
mediana:∫ xmed
−∞ P(x)dx = 1/2 =∫∞
xmedP(x)dx
desvio quadrático médio (= variância): σ2 =∫∞−∞(x− µ)2P(x)dx
14 / 22
estatística descritiva
quantis, quartis e percentis
quantil qp correspondente ao percentilp (em percentagem):
p100
=
∫ qp
−∞P(x)dx
qp pode ser determinado da funçãoinversa da distribuição cumulativa
os quantis são normalmente usadospara dividir uma distribuição emintervalos de mesma probabilidade
mediana: q50
exemplo: quartis- dividem adistribuição em 4 intervalos quecontêm de 0 a 25% da probabilidade,de 25% a 50%, de 50% a 75% e de75% a 100%para distribuições contínuasdeterminam-se os quantiscorrespondentes a 0.25, 0.50(mediana) e 0.75para distribuições discretasordenam-se os dados e identificam-seos pontos que contêm 25% dos dados,50% dos dados (mediana) e 75% dosdados
15 / 22
estatística descritiva
estatísticas que medem posição
a média de uma população
µ = E(x) =
∫ ∞−∞
xP(x)dx
ou de um conjunto de medidas
x̄ =1N
N∑i=1
xi
a mediana de uma população∫ xmed
−∞P(x)dx = 1/2 =
∫ ∞xmed
P(x)dx
ou de um conjunto de medidas:ordene xi do valor menor para o maiore os renumere; então
x̄med =
{xj j = N/2 + 0.5, para N ímpar(xj + xj+1)/2 j = N/2, para N par
a mediana é considerada umaestatística mais robusta que a média
16 / 22
estatística descritiva
estatísticas que medem posição
a modaxmoda é o valor mais provável de P(x)
dP(x)
dx
∣∣∣∣∣xmoda
= 0
ou, no caso de um conjunto demedidas, é o valor de xi que ocorremais frequentemente;é a posição do pico do histograma dexi
17 / 22
estatística descritiva
estatísticas que medem espalhamento
a variância (desvio quadrático médio)de uma população
V =
∫(x− µ)2P(x)dx
ou de um conjunto de medidas (s desample, amostra):
V2s =
1N − 1
N∑i=1
(xi − x̄)2
(N − 1) e não N porque x̄ também é determinado dos dados
o desvio padrão (root mean squaredeviation):
σ =√
V
ou
σs =√
Vs
o desvio absoluto médio em relaçãoa d (d: média ou mediana,(d̄: idempara os dados)
δ =
∫|x− d|P(x)dx
ou
δs =1N
N∑i=1
|xi − d̄|
18 / 22
estatística descritiva
estatísticas que medem forma
a skewness (assimetria) de umapopulação
Σ =
∫ (x− µσ
)3
P(x)dx
ou de um conjunto de medidas:
Σs =1N
N∑i=1
(xi − x̄σs
)3
a kurtosis (curtose):
K =
∫ (x− µσ
)4
P(x)dx− 3
ou
Ks =1N
N∑i=1
(xi − x̄σs
)4
− 3
o fator -3 faz a curtose igual a zeropara uma distribuição normal
19 / 22
estatística descritiva
estatísticas que medem forma
20 / 22
estatística descritiva
incertezas nas estimativas
µ e σ são estimados como x̄ e σs
para N grande a incerteza em x̄ é odesvio padrão da média:
σx̄ =σs√N
e a incerteza em σs é:
σσs =σs√
2(N − 1)=
1√2
√N
N − 1σx̄
a incerteza de σσs é ∼ 40% (√
2)maiorque a de σx̄
algumas vezes se obtém estimativasda largura da distribuição com adistância intraquartil (normalizada parauma gaussiana):
σG = 0.7413(q75 − q25)
21 / 22
estatística descritiva
Exercício
Exercício 1: estatística descritiva e análise de variância do arquivo LMC_distance.datFaça uma análise separada e conjuntamente dos indicadores de distância usando Pop. Ie Pop. II. Inicialmente coloque os dados na forma de tabela para análise.
1 calcule estatísticas descritivas em cada caso;2 faça uma análise de variância dos dados;3 compare os desvios padrão com a dispersão σG obtida da distância intraquartil;4 ilustre as análises com figuras relevantes.
22 / 22