Aula7

77
Fontes de Informação em Ciência e Tecnologia Prof. Dr. Marcelo Knobel IFGW – UNICAMP Curso de Especialização em Jornalismo Científico – Labjor/NUDECRI/UNICAMP

description

Aula 7 do curso "Fontes de Informação em Ciência e Tecnologia", Labjor/Unicamp. Divulgação Científica, Marcelo Knobel.

Transcript of Aula7

Page 1: Aula7

Fontes de Informação em Ciência e Tecnologia

Prof. Dr. Marcelo KnobelIFGW – UNICAMP

Curso de Especialização em Jornalismo Científico – Labjor/NUDECRI/UNICAMP

Page 2: Aula7

Aula parcialmente baseada em:Introdução à Análise Estatística de Dados Biomédicos

Dr. Mário B. Wagner, PhD

Dra. Sidia M. Callegari-Jacques, PhD

Introdução à Análise Estatística

Page 3: Aula7

Bioestatística

Estatística: Ramo do conhecimento que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados, visando a realização de inferências indutivas a partir dos dados.

Bioestatística: Aplicação da Estatística nas ciências biológicas e da saúde.

Page 4: Aula7

Estatística

Lema

“In God we trust.

All others must bring data.”

Page 5: Aula7

Desafios

Idéias estatísticas podem ser difíceis e intimidantes.

Portanto: Resultados estatísticos são geralmente

“pulados” ao ler a literatura científica. Dados em geral são mal interpretados.

Page 6: Aula7

Interpretação errônea de dados

“Celebrar aniversários é saudável. A estatística mostra que aqueles que celebram mais ainversários vivem

mais.”

“Na média, minha turma está indo bem. Metade dos estudantes acham que 2+2=3, e a outra metade pensa que

2+2=5.”

Page 7: Aula7

Artigos científicos: muitos termos específicos do domínio da Epidemiologia e da Bioestatística.

Compreensão adequada: familiaridade com os princípios e técnicas da Epidemiologia e da Bioestatística.

O papel da Bioestatística

Page 8: Aula7

Bioestatística: princípios fundamentais

Resumir a informação (ex. média, %)

Resumir as relações (ex. Tamanho do Efeito Padronizado, RR)

Estimar a magnitude das relações

Page 9: Aula7

Entidades (Objetos de Estudo)

O paciente O dia A palestra

Pode-se chamar de “entidades” os objetos do estudo, isto é, todas as coisas que nos cercam, incluindo as animadas (indivíduos) ou inanimadas (coisas).

São também conhecidas como unidades de observação ou de experimentação.

Exemplos:

Page 10: Aula7

Propriedades (Variáveis)

São as características apresentadas pelas entidades (coisas, indivíduos, fatos). As características podem variar entre as entidades e dentro de uma mesma entidade (ex. de um momento para o outro). Por isso, são também conhecidas como variáveis.

O resultado da mensuração de uma variável é conhecido como dado.

Page 11: Aula7

Relações

Epidemiologia e Bioestatística: estudam relações entre as variáveis.

Por ex. relação entre fumo e câncer, entre idade e pressão arterial.

Neste tipo de estudo, se busca: 1. Verificar se há ou não relação 2. Se houver, medir o grau de associação entre as variáveis (ou o tamanho do efeito)

Page 12: Aula7

Conceitos básicos

Variáveis e seus níveis de

medida

População e Amostra

Parâmetros e Estimativas

Page 13: Aula7

Variáveis e seus níveis de medida

Qualitativas ou categóricas

- Nominal (grupo sangüíneo, gênero)

- Ordinal (grau de dor, escores) Quantitativas

- De intervalo (zero arbitrário: temperatura)

- De razão (zero absoluto: comprimento)

Page 14: Aula7

Variáveis: outras classificações

Qualitativas ou categóricas

- Dicotômicas ou binárias (sim/não)

- Politômicas (leve, moderado, severo) Quantitativas

- Discretas (número de filhos)

- Contínuas (colesterol total)

Page 15: Aula7

Vantagens da variável quantitativa

Nível de informação é superior

Pode ser transformada em qualquer outro tipo de variável, inclusive categórica

Aceita transformações matemáticas (log, raiz quadrada, inversão, etc.)

Em geral, tamanhos amostrais menores

Page 16: Aula7

População e Amostra

População Conceito estatístico diferente do geográfico Todos os indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura inferência.

- O número de características define a população. Ex. estudantes de Bioestatística.

Amostra Toda fração (independente de tamanho) obtida de uma população - Ideal: amostra aleatória

Page 17: Aula7

n2

n3

n1

n4

N

População e Amostra

Page 18: Aula7

Parâmetro e EstatísticaParâmetro: valor que resume, em uma população, a informação relativa a uma variável. Ex: média, porcentagem

Estatística: quantidade que descreve a informação estatística obtida em um conjunto de dados amostrais. Ex: média, porcentagem calculadas em uma amostra

As estatísticas estimam os parâmetros.

Page 19: Aula7

População e Amostra

Média () = ?

XInferência

Page 20: Aula7

Amostras

Amostras são aleatórias Se tivessemos escolhido uma amostra

diferente, obteríamos uma estatística diferente. Apesar de que tentamos estimar os mesmos (imutáveis) parâmetros populacionais.

Page 21: Aula7

Duas variáveis importantes em relações de causa e efeito

Desfecho: Característica que se supõe ser o resultado do efeito de um fator.

Sinônimo: variável dependente. Ex: câncer de pulmão

Exposição: O fator que precede o desfecho. Suposta causa do desfecho.

Sinônimos: fator em estudo, variável independente, variável preditora.

Ex: fumo

Page 22: Aula7

Descrição das variáveis

Distribuição de freqüências - Tabelas - Gráficos

Medidas-resumo ou medidas descritivas - de tendência central:

média, mediana e moda - de dispersão ou variabilidade: amplitude, variância/desvio padrão,

distância entre quartis - de freqüência: prevalência, incidência

Page 23: Aula7

Distribuição de freqüências

Distribuição de freqüências: conjunto formado pelos vários valores e pelas respectivas freqüências (no. de vezes que cada um ocorre).

São de dois tipos:

- Tabelas: descrevem os dados com detalhe

- Gráficos: úteis para identificar valores

extremos e a forma da distribuição

Page 24: Aula7

Níveis de albumina sérica (g/100ml) em 25 pacientes

Albumina

(x) Contagem f fr F Fr

4,5 / 1 0,04 1 0,04

4,6 0 0,00 1 0,04

4,7 // 2 0,08 3 0,12

4,8 / 1 0,04 4 0,16

4,9 /// 3 0,12 7 0,28

5,0 //// 5 0,20 12 0,48

5,1 //// 5 0,20 17 0,68

5,2 // 2 0,08 19 0,76

5,3 /// 3 0,12 22 0,88

5,4 // 2 0,08 24 0,96

5,5 / 1 0,04 25 1,00

ou soma 25 1,00 - -

Page 25: Aula7

Quando os dados variam muito:Pressão arterial sistólica em 96 recém-nascidos ( primeiras 24 horas de vida)

PAS (mm Hg) f Fr

55 59 3 0,03 59 63 5 0,08 63 67 40 0,50 67 71 24 0,75 71 75 15 0,91 75 79 8 0,99 79 83 1 1,00

Total 96 -

Page 26: Aula7

Distribuição de freqüências: histograma

Peso em 2470 mulheres adultas

Peso (kg)

115105

9585756555453525

me

ro d

e m

ulh

ere

s

500

400

300

200

100

0

Page 27: Aula7

Características da distribuição de freqüências

Uma distribuição de freqüências é muitas vezes descrita apenas por: tendência central dispersão (variação)

A forma da distribuição determina

- o tipo de medida descritiva mais adequada

- a técnica estatística correta para as inferências

Page 28: Aula7

Medidas de tendência central

Média: Centro de gravidade da distribuição. - Mais utilizada; possui maior poder estatístico - Indicada em distribuições simétricas. - Afetada por valores extremos; dá visão distorcida em

distribuições assimétricas.

altura

n

º de

in

div

íduo

s

dispersão de pontoscom n=200

média

DP

Distribuição de freqüências com nuvem de dispersão de pontos.

n

xx

Page 29: Aula7

Mediana (md): Valor que ocupa a posição central de uma série ordenada.

- 50% dos valores estão abaixo e 50% acima da mediana - Não é afetada por valores extremos - Preferida em distribuições assimétricas.

n

º de

in

div

íduo

s

prega tricipital

quartil inferior (Percentil 25)

mediana(Percentil 50)

quartil superior(Percentil 75)Distribuição de freqüências

com assimetria positiva

Medidas de tendência central

Page 30: Aula7

Moda (mo): Valor de X mais freqüente.

- Facilmente identificada em um gráfico de freqüências

- Pode haver mais de uma moda (mais de uma população?)

Peso em 256 universitárias Estatura em 213 estudantes (ambos os sexos) da UFRGS

Medidas de tendência central

Page 31: Aula7

Medidas de tendência central e distribuições de freqüências

Distribuição Simétrica

Média, mediana e moda

Distribuição comAssimetria Negativa

moda

mediana

média

Distribuição comAssimetria à Direita

média

mediana

moda

Page 32: Aula7

O conceito de incerteza

Afeta todas as medidas Quando os cientistas mencionam

“erros” associados com uma medida, eles estão querendo dizer incertezas.

Por exemplo: Que horas são?

Page 33: Aula7

Incerteza sistemática vs. aleatória

Por que não há uma única resposta às horas? Nem todos os relógios estão igualmente

ajustados Calibração (tanto no ajuste inicial, quanto no

funcionamento) Pessoas diferentes podem dizer tempos

diferentes no mesmo relógio Erros de medição

E se alguém esqueceu de ajustar o horário de verão? Erro sistemático

Page 34: Aula7

Incerteza sistemática vs. aleatória

Pode-se estimar a incerteza aleatória com múltiplas medidas, e olhando a distribuição dos resultados

Erros sistemáticos (viés) são mais difíceis de identificar – necessidade de ser estimados baseados em outras informações.

Por exemplo, exagerando a fonte do efeito, se possível

Você acha que é um efeito de temperatura? Aumente-a muito!

Page 35: Aula7

Medidas de Dispersão

Amplitude (a) Variância (s2) Desvio padrão (s; DP) Amplitude ou Desvio entre quartis

Amplitude: Valor máximo - valor mínimo Simples mas pouco informativa (apenas dois

valores). É muito sensível a valores extremos. Ex: 1; 1; 2; 3; 6 a = 6 - 1 = 5.

Page 36: Aula7

Medidas de Dispersão

Variância: Média dos desvios quadrados em relação à média (todos os valores).

A unidade é expressa ao quadrado

É comum utilizar-se o desvio padrão (DP), que é a raiz quadrada positiva da variância (volta à unidade original).

Page 37: Aula7

Desvio padrão (DP ou s): Representa o padrão de oscilações dos valores da série em relação à média.

- Fundamental na inferência estatística - Freqüentemente usado em conjunto com a

média, na forma média DP (atenção: explicitar!)

1

)( 22

nn

xx

DP1

)( 2

n

xxsDP

Page 38: Aula7

altura

de

indi

vídu

os

dispersão de pontos

com n=200

média

DP

Representação gráfica do desvio padrão: 1. na nuvem de dispersão de valores de x; 2. em uma distribuição de freqüências gaussiana (média DP reúne ~2/3 dos valores centrais)

Desvio Padrão

Page 39: Aula7

Erro aleatório em pesquisas Assumindo que uma amostra representativa foi

escolhida: pesquise N pessoas, obtenha uma incerteza de N. Exemplo:

Número Erro Erro Percent.

10 3 30%

100 10 10%

1,000 31 3.1%

10,000 100 1%

100,000 316 0.316% A incerteza depende apenas do tamanho da amostra e

NÃO no tamanho da população.

Page 40: Aula7

Média e desvio padrão em uma amostra

pequena

22

2 consultas7,13

5

1n

)xx(s

consultas3,17,1s

7,13

5

14414

54

1nn)x(

xs

222

2

Page 41: Aula7

Exercício: média e DP em amostras pequenasDados de ácido úrico (mg/ml)

Homens Mulheres

x x

3 2 4 4 8 5

Page 42: Aula7

Nível de ácido úrico: homens

Page 43: Aula7

Nível de ácido úrico: mulheres

V a l o r e s d e á c i d o ú r i c o ( m g / m l ) e m t r ê s m u l h e r e s

x x 2

2 4

4 1 6

5 2 5 1 1 4 5

x = 1 1 / 3 = 3 , 6 6 . . . m g / m l

ml/mg53,12

3,4045

23

1145

1nn

)x(x

s

222

Page 44: Aula7

Distribuição Normal

“Desvio Padrão” caracteriza o espalhamento nos valores.

~2/3 (68.3%) dos valores estão nesse intervalo (1)

95.4% dos valores estão em 2 desvios padrão (2)

99.7% dos valores estão em 3 desvios padrão (3)

68.3 % of area

95.4 % of area

99.7 % of area

Page 45: Aula7

Quartis

- Quartis: valores de X que dividem uma série ordenada em 4 grupos de igual tamanho. Ex. Q1 separa 25% valores menores

- Percentis: dividem a série em 100 partes iguais. Q1 = P25

Amplitude entre quartis:

Q3 – Q1= P75 – P25 (reúne 50% da amostra)

Usada com a mediana em séries assimétricas.

n

º de

in

div

íduo

s

prega tricipital

quartil inferior (Percentil 25)

mediana(Percentil 50)

quartil superior(Percentil 75)

Page 46: Aula7

Escolhendo a medida descritiva

Nominal: usar freqüências e proporções.

Ordinal: freqüências e proporções ou mediana e amplitude interquartil.

Intervalar/razão: depende da distribuição de freqüências D. simétrica: média e desvio padrão D. assimétrica: mediana e amplitude interquartil (às vezes, intervalo de variação dos valores).

Tipo de variável

Page 47: Aula7

Apresentação de resultados

Tabela descritiva Gráficos para var. quantitativas: - Histograma - Gráfico de média e barra de erro - Box plot - Gráficos de linha - Gráfico dispersão de pontos Gráficos para var. categóricas : - Gráfico de setores - Gráfico de colunas

Page 48: Aula7

Var. Quantitativas: gráfico de média e barra de erro

Variável quantitativa em dois ou mais grupos. Usar, sempre que possível, média DP. Dar preferência à apresentação da direita.

HDL HDL

Grupo 1 Grupo 2 Grupo 1 Grupo 2

Page 49: Aula7

Var. quantitativas: Box plot

Variável quantitativa em dois ou mais grupos, principalmente para variáveis assimétricas.

Representa mediana, amplitude interquartil, mínimo e máximo.

1 2 3

0

50

100

150

200

Gr1 Gr2 Gr3

Variável

Page 50: Aula7

Var. quantitativas: gráfico de linha

Variável quantitativa ao longo do tempo. Usar, sempre que possível, média DP. Só a média: não representa variações

grandes entre indivíduos.

tempo tempo

Page 51: Aula7

Var. quantitativas: gráfico de dispersão de pontos

Duas variáveis quantitativas Objetivo: observar que tipo de relação

possuem entre si

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0

0.2

0.4

0.6

0.8

1.0

1.2

Variável X

Variável Y

Page 52: Aula7

Variáveis qualitativas

Usados para dados categóricos. Evitar uso em variáveis dicotômicas. Gráfico de pizza: raro em publicações científicas. Gráfico de colunas: não é histograma.

A B C

%

Gráfico de setores (pizza ou torta)

Gráfico de colunas

Page 53: Aula7

Resumo Epidemiologia e Bioestatística auxiliam a

compreender a literatura científica nas áreas das ciências biológicas e da saúde.

Estudando entidades (indivíduos) e suas respectivas propriedades (variáveis), o objetivo é inicialmente a descrição dos dados para chegar às relações entre as variáveis e à estimativa da magnitude destas relações.

Page 54: Aula7

Variável é uma característica mensurável que pode apresentar valores diferentes nos sujeitos do estudo.

As variáveis são classificada de acordo com seu nível de mensuração em qualitativas (nominal e ordinal) e quantitativas (intervalar/razão).

Em Epidemiologia, é importante distinguir entre variável preditora (exposição) e desfecho.

Page 55: Aula7

As medidas descritivas clássicas usadas em Bioestatística são: média e desvio padrão mediana e amplitude interquartil

Apresentações gráficas são importantes, mas devem ser usadas com moderação e seguindo suas indicações específicas.

Em artigos científicos, a preferência deve ser dada às medidas descritivas.

Page 56: Aula7
Page 57: Aula7

Desafios

Much of life is composed of a systematic component (i.e., signal) and a random component (i.e., error or noise).

Example: Smoking is associated with lung cancer. Yet not everyone that smokes, gets lung cancer, and not

everyone that gets lung cancer smokes. Yet we know that there is an association (a systematic

component) Our challenge is to identify the systematic

component (separate it from the random component), estimate it, and perhaps make inferences with it.

Page 58: Aula7

Populações e Parâmetros

Population – a group of individuals that we would like to know something about

Parameter - a characteristic of the population in which we have a particular interest Often denoted with Greek letters (, , ) Examples:

The proportion of the population that would respond to a certain drug

The association between a risk factor and a disease in this population

Page 59: Aula7

Amostras e Estatísticas

Sample – a subset of a population (hopefully representative)

Statistic – a characteristic of the sample Example:

The observed proportion of the sample that responds to treatment

The observed association between a risk factor and a disease in this sample

Page 60: Aula7

Populações e Amostras

Studying populations is too expensive and time-consuming, and thus impractical

If a sample is representative of the population, then by observing the sample we can learn something about the population And thus by looking at the characteristics of the

sample (statistics), we may learn something about the characteristics of the population (parameters).

Page 61: Aula7

Dados Nominais

Mutually exclusive unordered categories Examples

Sex (male, female) Race (white, black, latino, asian, native

american) Can summarize in:

Tables – using counts and percentages Bar Chart

Page 62: Aula7

Dados Ordinais

Ordered Categories Examples

Injury – mild, moderate, severe Income – low, medium, high

Page 63: Aula7

Dados Discretos

If many different discrete values, then discrete data is often treated as continuous.

If very few discrete values, then discrete data is often treated as ordinal

Page 64: Aula7

Dados Contínuos

Any value on the continuum is possible (even fractions or decimals)

Examples: Height Weight

Many “discrete” variables are often treated as continuous

Page 65: Aula7

Dados de sobrevivência

Time to an event (continuous variable) The event does not have to be survival

Concept of “Censoring” If we follow a person until the event, then the

survival time is clear. If we follow someone for a length of time but the

event does not occur, the the time is censored (but we still have partial information; namely that the event did not occur during the follow up period).

Page 66: Aula7

Quantitative Measurements Science proceeds by making quantitative measurements

(i.e. ones whose results are expressed in numerical terms).

Examples we’ve discussed include Deflection of starlight by the sun (General Relativity) Tests of the Universality of Free Fall at the University of

Washing Lunar Laser Ranging: measuring lunar orbit (my deal)

At the discovery phase, a single observation or measurement can show us something new about the world. just seeing unexpected event can reveal new science

Otherwise, progress is made by comparisons between data sets, and between data and theories.

Page 67: Aula7

How Do We Actually Make Comparisons?

Comparisons between data sets: Are two measurements consistent with each other?

Comparisons between data and theories/models: Do the data agree with the theoretical structure?

Even comparisons between theoretical predictions: Are these two ideas in conflict with each other?

How do we compare?With statistics!

Page 68: Aula7

Basic Statistics We use statistics to summarize multiple data

points into a handful of numbers that are simpler to digest Average (mean) Median Mode Standard Deviation Etc.

The task is to compare quantities and ascertain whether they have a significant difference or not.

“Significant” relative to what?

Page 69: Aula7

Multiple Measurements “Beat Down” Error

We’ll measure the acceleration due to gravity I’ll toss a ball in the air, you’ll use your

stopwatches to time the fall START your watch at apex of flight STOP on impact with the ground Spotters will mark highest position against

wall x = ½gt2 g = 2x/t2

Page 70: Aula7

Samples vs Entire Population Political polls try to gauge the nature of the

entire population by extracting a subset (sample) and conducting an experiment on that.

If the subset is a representative sample, then the characteristics of the sample should reflect the characteristics of the full population.

This method is applied all the time: product quality control rate of adverse reactions to a medication political polls

Page 71: Aula7

The Florida Election Fiasco

Alarmingly relevant example of measurement error (systematic and random)!

If voting machines have 0.1% counting error (and they’re often not that good), what might you expect error to be in a state with 6 million votes? 1% of 6 million is 60,000 0.1% is 6000

Vote count was closer than this (100-200) Margin was different with every re-count Systematic errors: butterfly ballots, K. Harris Too close to call, people

Page 72: Aula7

Gaussian (Normal, Or Bell-shaped) Distribution

Gaussian distribution is produced in general when measurements aggregate many random (stochastic) events, in a process that is not changing over time (stationary).

Examples are everywhere Distribution of heights of the people in the room Answers to our question about time IQs, test grades (not always), masses of pennies,

etc. BUT not all things are simple Gaussians

Distribution of incomes in US Time people take to commute to school each day

Page 73: Aula7

Example: Typical American Heights Men: 69 ± 3 inches (standard deviation is 3 inches)

68% between 5’6” and 6’0” 95% between 5’3” and 6’3” 99.7% between 5’0” and 6’6”

only 1 in 700 men taller than 6’6”

Women: 65.5 ± 2.5 inches 68% between 5’2” and 5’7” 95% between 4’11.5” and 5’9.5” 99.7% between 4’9” and 6’0”

Page 74: Aula7

Limitations of Statistics

Nothing is certain Most statistical models have “tails,” a finite (but very

tiny) probability that almost anything can happen E.g., the Gaussian distribution has tails to infinity Ergo, predicting events on the tails (whose

probability is small) is often not accurate It’s easy to misuse statistics

The government will issue 2.3 car seats to every family, because the average family has 2.3 children

It’s not always obvious when statistics have been misused (or deliberately abused)

Page 75: Aula7

Statistical Comparisons Which of these are significant statements?

7 of the 10 doctors asked recommend an apple a day

Choosy mothers choose JIF With a margin of polling error of 5%, a poll

conducted of all citizens shows that 60% would vote in favor of the initiative.

The data, with an average value of =124 and a standard deviation of 10, agree with the theoretical prediction of =100.

The two experiments produced consistent results. The first showed an electron mass of 511 keV while the second had 508 keV. Both experiments estimated their 1 uncertainties as 2 keV.

Page 76: Aula7

Some Criteria To Evaluate Claims

Is the sample representative? Are the uncertainties given, as well as the

data? What possible bias could exist in the result? Is the claim consistent with other data?

Extraordinary claims require extraordinary proof

Hard-nosed scientists say you don’t understand your dataif you don’t understand your uncertainties.

Page 77: Aula7

Comparing data with models/predictions

Uncertainties in data points show up as error bars in plots

Angular scale of cosmic microwave background fluctuations.Is the theoretical model (solid line) consistent with the data?