Aula7

Fontes de Informação em Ciência e Tecnologia

Prof. Dr. Marcelo KnobelIFGW – UNICAMP

Curso de Especialização em Jornalismo Científico – Labjor/NUDECRI/UNICAMP

Aula parcialmente baseada em:Introdução à Análise Estatística de Dados Biomédicos

Dr. Mário B. Wagner, PhD

Dra. Sidia M. Callegari-Jacques, PhD

Introdução à Análise Estatística

Bioestatística

Estatística: Ramo do conhecimento que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados, visando a realização de inferências indutivas a partir dos dados.

Bioestatística: Aplicação da Estatística nas ciências biológicas e da saúde.

Estatística

Lema

“In God we trust.

All others must bring data.”

Desafios

Idéias estatísticas podem ser difíceis e intimidantes.

Portanto: Resultados estatísticos são geralmente

“pulados” ao ler a literatura científica. Dados em geral são mal interpretados.

Interpretação errônea de dados

“Celebrar aniversários é saudável. A estatística mostra que aqueles que celebram mais ainversários vivem

mais.”

“Na média, minha turma está indo bem. Metade dos estudantes acham que 2+2=3, e a outra metade pensa que

2+2=5.”

Artigos científicos: muitos termos específicos do domínio da Epidemiologia e da Bioestatística.

Compreensão adequada: familiaridade com os princípios e técnicas da Epidemiologia e da Bioestatística.

O papel da Bioestatística

Bioestatística: princípios fundamentais

Resumir a informação (ex. média, %)

Resumir as relações (ex. Tamanho do Efeito Padronizado, RR)

Estimar a magnitude das relações

Entidades (Objetos de Estudo)

O paciente O dia A palestra

Pode-se chamar de “entidades” os objetos do estudo, isto é, todas as coisas que nos cercam, incluindo as animadas (indivíduos) ou inanimadas (coisas).

São também conhecidas como unidades de observação ou de experimentação.

Exemplos:

Propriedades (Variáveis)

São as características apresentadas pelas entidades (coisas, indivíduos, fatos). As características podem variar entre as entidades e dentro de uma mesma entidade (ex. de um momento para o outro). Por isso, são também conhecidas como variáveis.

O resultado da mensuração de uma variável é conhecido como dado.

Relações

Epidemiologia e Bioestatística: estudam relações entre as variáveis.

Por ex. relação entre fumo e câncer, entre idade e pressão arterial.

Neste tipo de estudo, se busca: 1. Verificar se há ou não relação 2. Se houver, medir o grau de associação entre as variáveis (ou o tamanho do efeito)

Conceitos básicos

Variáveis e seus níveis de

medida

População e Amostra

Parâmetros e Estimativas

Variáveis e seus níveis de medida

Qualitativas ou categóricas

- Nominal (grupo sangüíneo, gênero)

- Ordinal (grau de dor, escores) Quantitativas

- De intervalo (zero arbitrário: temperatura)

- De razão (zero absoluto: comprimento)

Variáveis: outras classificações

Qualitativas ou categóricas

- Dicotômicas ou binárias (sim/não)

- Politômicas (leve, moderado, severo) Quantitativas

- Discretas (número de filhos)

- Contínuas (colesterol total)

Vantagens da variável quantitativa

Nível de informação é superior

Pode ser transformada em qualquer outro tipo de variável, inclusive categórica

Aceita transformações matemáticas (log, raiz quadrada, inversão, etc.)

Em geral, tamanhos amostrais menores


População Conceito estatístico diferente do geográfico Todos os indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura inferência.

- O número de características define a população. Ex. estudantes de Bioestatística.

Amostra Toda fração (independente de tamanho) obtida de uma população - Ideal: amostra aleatória

n2

n3

n1

n4

N


Parâmetro e EstatísticaParâmetro: valor que resume, em uma população, a informação relativa a uma variável. Ex: média, porcentagem

Estatística: quantidade que descreve a informação estatística obtida em um conjunto de dados amostrais. Ex: média, porcentagem calculadas em uma amostra

As estatísticas estimam os parâmetros.


Média () = ?

XInferência

Amostras

Amostras são aleatórias Se tivessemos escolhido uma amostra

diferente, obteríamos uma estatística diferente. Apesar de que tentamos estimar os mesmos (imutáveis) parâmetros populacionais.

Duas variáveis importantes em relações de causa e efeito

Desfecho: Característica que se supõe ser o resultado do efeito de um fator.

Sinônimo: variável dependente. Ex: câncer de pulmão

Exposição: O fator que precede o desfecho. Suposta causa do desfecho.

Sinônimos: fator em estudo, variável independente, variável preditora.

Ex: fumo

Descrição das variáveis

Distribuição de freqüências - Tabelas - Gráficos

Medidas-resumo ou medidas descritivas - de tendência central:

média, mediana e moda - de dispersão ou variabilidade: amplitude, variância/desvio padrão,

distância entre quartis - de freqüência: prevalência, incidência

Distribuição de freqüências

Distribuição de freqüências: conjunto formado pelos vários valores e pelas respectivas freqüências (no. de vezes que cada um ocorre).

São de dois tipos:

- Tabelas: descrevem os dados com detalhe

- Gráficos: úteis para identificar valores

extremos e a forma da distribuição

Níveis de albumina sérica (g/100ml) em 25 pacientes

Albumina

(x) Contagem f fr F Fr

4,5 / 1 0,04 1 0,04

4,6 0 0,00 1 0,04

4,7 // 2 0,08 3 0,12

4,8 / 1 0,04 4 0,16

4,9 /// 3 0,12 7 0,28

5,0 //// 5 0,20 12 0,48

5,1 //// 5 0,20 17 0,68

5,2 // 2 0,08 19 0,76

5,3 /// 3 0,12 22 0,88

5,4 // 2 0,08 24 0,96

5,5 / 1 0,04 25 1,00

ou soma 25 1,00 - -

Quando os dados variam muito:Pressão arterial sistólica em 96 recém-nascidos ( primeiras 24 horas de vida)

PAS (mm Hg) f Fr

55 59 3 0,03 59 63 5 0,08 63 67 40 0,50 67 71 24 0,75 71 75 15 0,91 75 79 8 0,99 79 83 1 1,00

Total 96 -

Distribuição de freqüências: histograma

Peso em 2470 mulheres adultas

Peso (kg)

115105

9585756555453525

Nú

me

ro d

e m

ulh

ere

s

500

400

300

200

100

0

Características da distribuição de freqüências

Uma distribuição de freqüências é muitas vezes descrita apenas por: tendência central dispersão (variação)

A forma da distribuição determina

- o tipo de medida descritiva mais adequada

- a técnica estatística correta para as inferências

Medidas de tendência central

Média: Centro de gravidade da distribuição. - Mais utilizada; possui maior poder estatístico - Indicada em distribuições simétricas. - Afetada por valores extremos; dá visão distorcida em

distribuições assimétricas.

altura

n

º de

in

div

íduo

s

dispersão de pontoscom n=200

média

DP

Distribuição de freqüências com nuvem de dispersão de pontos.

n

xx

Mediana (md): Valor que ocupa a posição central de uma série ordenada.

- 50% dos valores estão abaixo e 50% acima da mediana - Não é afetada por valores extremos - Preferida em distribuições assimétricas.

n

º de

in

div

íduo

s

prega tricipital

quartil inferior (Percentil 25)

mediana(Percentil 50)

quartil superior(Percentil 75)Distribuição de freqüências

com assimetria positiva


Moda (mo): Valor de X mais freqüente.

- Facilmente identificada em um gráfico de freqüências

- Pode haver mais de uma moda (mais de uma população?)

Peso em 256 universitárias Estatura em 213 estudantes (ambos os sexos) da UFRGS


Medidas de tendência central e distribuições de freqüências

Distribuição Simétrica

Média, mediana e moda

Distribuição comAssimetria Negativa

moda

mediana

média

Distribuição comAssimetria à Direita

média

mediana

moda

O conceito de incerteza

Afeta todas as medidas Quando os cientistas mencionam

“erros” associados com uma medida, eles estão querendo dizer incertezas.

Por exemplo: Que horas são?

Incerteza sistemática vs. aleatória

Por que não há uma única resposta às horas? Nem todos os relógios estão igualmente

ajustados Calibração (tanto no ajuste inicial, quanto no

funcionamento) Pessoas diferentes podem dizer tempos

diferentes no mesmo relógio Erros de medição

E se alguém esqueceu de ajustar o horário de verão? Erro sistemático

Incerteza sistemática vs. aleatória

Pode-se estimar a incerteza aleatória com múltiplas medidas, e olhando a distribuição dos resultados

Erros sistemáticos (viés) são mais difíceis de identificar – necessidade de ser estimados baseados em outras informações.

Por exemplo, exagerando a fonte do efeito, se possível

Você acha que é um efeito de temperatura? Aumente-a muito!

Medidas de Dispersão

Amplitude (a) Variância (s2) Desvio padrão (s; DP) Amplitude ou Desvio entre quartis

Amplitude: Valor máximo - valor mínimo Simples mas pouco informativa (apenas dois

valores). É muito sensível a valores extremos. Ex: 1; 1; 2; 3; 6 a = 6 - 1 = 5.

Medidas de Dispersão

Variância: Média dos desvios quadrados em relação à média (todos os valores).

A unidade é expressa ao quadrado

É comum utilizar-se o desvio padrão (DP), que é a raiz quadrada positiva da variância (volta à unidade original).

Desvio padrão (DP ou s): Representa o padrão de oscilações dos valores da série em relação à média.

- Fundamental na inferência estatística - Freqüentemente usado em conjunto com a

média, na forma média DP (atenção: explicitar!)

1

)( 22

nn

xx

DP1

)( 2

n

xxsDP

altura

nº

de

indi

vídu

os

dispersão de pontos

com n=200

média

DP

Representação gráfica do desvio padrão: 1. na nuvem de dispersão de valores de x; 2. em uma distribuição de freqüências gaussiana (média DP reúne ~2/3 dos valores centrais)

Desvio Padrão

Erro aleatório em pesquisas Assumindo que uma amostra representativa foi

escolhida: pesquise N pessoas, obtenha uma incerteza de N. Exemplo:

Número Erro Erro Percent.

10 3 30%

100 10 10%

1,000 31 3.1%

10,000 100 1%

100,000 316 0.316% A incerteza depende apenas do tamanho da amostra e

NÃO no tamanho da população.

Média e desvio padrão em uma amostra

pequena

22

2 consultas7,13

5

1n

)xx(s

consultas3,17,1s

7,13

5

14414

54

1nn)x(

xs

222

2

Exercício: média e DP em amostras pequenasDados de ácido úrico (mg/ml)

Homens Mulheres

x x

3 2 4 4 8 5

Nível de ácido úrico: homens

Nível de ácido úrico: mulheres

V a l o r e s d e á c i d o ú r i c o ( m g / m l ) e m t r ê s m u l h e r e s

x x 2

2 4

4 1 6

5 2 5 1 1 4 5

x = 1 1 / 3 = 3 , 6 6 . . . m g / m l

ml/mg53,12

3,4045

23

1145

1nn

)x(x

s

222

Distribuição Normal

“Desvio Padrão” caracteriza o espalhamento nos valores.

~2/3 (68.3%) dos valores estão nesse intervalo (1)

95.4% dos valores estão em 2 desvios padrão (2)

99.7% dos valores estão em 3 desvios padrão (3)

68.3 % of area

95.4 % of area

99.7 % of area

Quartis

- Quartis: valores de X que dividem uma série ordenada em 4 grupos de igual tamanho. Ex. Q1 separa 25% valores menores

- Percentis: dividem a série em 100 partes iguais. Q1 = P25

Amplitude entre quartis:

Q3 – Q1= P75 – P25 (reúne 50% da amostra)

Usada com a mediana em séries assimétricas.

n

º de

in

div

íduo

s

prega tricipital

quartil inferior (Percentil 25)

mediana(Percentil 50)

quartil superior(Percentil 75)

Escolhendo a medida descritiva

Nominal: usar freqüências e proporções.

Ordinal: freqüências e proporções ou mediana e amplitude interquartil.

Intervalar/razão: depende da distribuição de freqüências D. simétrica: média e desvio padrão D. assimétrica: mediana e amplitude interquartil (às vezes, intervalo de variação dos valores).

Tipo de variável

Apresentação de resultados

Tabela descritiva Gráficos para var. quantitativas: - Histograma - Gráfico de média e barra de erro - Box plot - Gráficos de linha - Gráfico dispersão de pontos Gráficos para var. categóricas : - Gráfico de setores - Gráfico de colunas

Var. Quantitativas: gráfico de média e barra de erro

Variável quantitativa em dois ou mais grupos. Usar, sempre que possível, média DP. Dar preferência à apresentação da direita.

HDL HDL

Grupo 1 Grupo 2 Grupo 1 Grupo 2

Var. quantitativas: Box plot

Variável quantitativa em dois ou mais grupos, principalmente para variáveis assimétricas.

Representa mediana, amplitude interquartil, mínimo e máximo.

1 2 3

0

50

100

150

200

Gr1 Gr2 Gr3

Variável

Var. quantitativas: gráfico de linha

Variável quantitativa ao longo do tempo. Usar, sempre que possível, média DP. Só a média: não representa variações

grandes entre indivíduos.

tempo tempo

Var. quantitativas: gráfico de dispersão de pontos

Duas variáveis quantitativas Objetivo: observar que tipo de relação

possuem entre si

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0

0.2

0.4

0.6

0.8

1.0

1.2

Variável X

Variável Y

Variáveis qualitativas

Usados para dados categóricos. Evitar uso em variáveis dicotômicas. Gráfico de pizza: raro em publicações científicas. Gráfico de colunas: não é histograma.

A B C

%

Gráfico de setores (pizza ou torta)

Gráfico de colunas

Resumo Epidemiologia e Bioestatística auxiliam a

compreender a literatura científica nas áreas das ciências biológicas e da saúde.

Estudando entidades (indivíduos) e suas respectivas propriedades (variáveis), o objetivo é inicialmente a descrição dos dados para chegar às relações entre as variáveis e à estimativa da magnitude destas relações.

Variável é uma característica mensurável que pode apresentar valores diferentes nos sujeitos do estudo.

As variáveis são classificada de acordo com seu nível de mensuração em qualitativas (nominal e ordinal) e quantitativas (intervalar/razão).

Em Epidemiologia, é importante distinguir entre variável preditora (exposição) e desfecho.

As medidas descritivas clássicas usadas em Bioestatística são: média e desvio padrão mediana e amplitude interquartil

Apresentações gráficas são importantes, mas devem ser usadas com moderação e seguindo suas indicações específicas.

Em artigos científicos, a preferência deve ser dada às medidas descritivas.

Desafios

Much of life is composed of a systematic component (i.e., signal) and a random component (i.e., error or noise).

Example: Smoking is associated with lung cancer. Yet not everyone that smokes, gets lung cancer, and not

everyone that gets lung cancer smokes. Yet we know that there is an association (a systematic

component) Our challenge is to identify the systematic

component (separate it from the random component), estimate it, and perhaps make inferences with it.

Populações e Parâmetros

Population – a group of individuals that we would like to know something about

Parameter - a characteristic of the population in which we have a particular interest Often denoted with Greek letters (, , ) Examples:

The proportion of the population that would respond to a certain drug

The association between a risk factor and a disease in this population

Amostras e Estatísticas

Sample – a subset of a population (hopefully representative)

Statistic – a characteristic of the sample Example:

The observed proportion of the sample that responds to treatment

The observed association between a risk factor and a disease in this sample

Populações e Amostras

Studying populations is too expensive and time-consuming, and thus impractical

If a sample is representative of the population, then by observing the sample we can learn something about the population And thus by looking at the characteristics of the

sample (statistics), we may learn something about the characteristics of the population (parameters).

Dados Nominais

Mutually exclusive unordered categories Examples

Sex (male, female) Race (white, black, latino, asian, native

american) Can summarize in:

Tables – using counts and percentages Bar Chart

Dados Ordinais

Ordered Categories Examples

Injury – mild, moderate, severe Income – low, medium, high

Dados Discretos

If many different discrete values, then discrete data is often treated as continuous.

If very few discrete values, then discrete data is often treated as ordinal

Dados Contínuos

Any value on the continuum is possible (even fractions or decimals)

Examples: Height Weight

Many “discrete” variables are often treated as continuous

Dados de sobrevivência

Time to an event (continuous variable) The event does not have to be survival

Concept of “Censoring” If we follow a person until the event, then the

survival time is clear. If we follow someone for a length of time but the

event does not occur, the the time is censored (but we still have partial information; namely that the event did not occur during the follow up period).

Quantitative Measurements Science proceeds by making quantitative measurements

(i.e. ones whose results are expressed in numerical terms).

Examples we’ve discussed include Deflection of starlight by the sun (General Relativity) Tests of the Universality of Free Fall at the University of

Washing Lunar Laser Ranging: measuring lunar orbit (my deal)

At the discovery phase, a single observation or measurement can show us something new about the world. just seeing unexpected event can reveal new science

Otherwise, progress is made by comparisons between data sets, and between data and theories.

How Do We Actually Make Comparisons?

Comparisons between data sets: Are two measurements consistent with each other?

Comparisons between data and theories/models: Do the data agree with the theoretical structure?

Even comparisons between theoretical predictions: Are these two ideas in conflict with each other?

How do we compare?With statistics!

Basic Statistics We use statistics to summarize multiple data

points into a handful of numbers that are simpler to digest Average (mean) Median Mode Standard Deviation Etc.

The task is to compare quantities and ascertain whether they have a significant difference or not.

“Significant” relative to what?

Multiple Measurements “Beat Down” Error

We’ll measure the acceleration due to gravity I’ll toss a ball in the air, you’ll use your

stopwatches to time the fall START your watch at apex of flight STOP on impact with the ground Spotters will mark highest position against

wall x = ½gt2 g = 2x/t2

Samples vs Entire Population Political polls try to gauge the nature of the

entire population by extracting a subset (sample) and conducting an experiment on that.

If the subset is a representative sample, then the characteristics of the sample should reflect the characteristics of the full population.

This method is applied all the time: product quality control rate of adverse reactions to a medication political polls

The Florida Election Fiasco

Alarmingly relevant example of measurement error (systematic and random)!

If voting machines have 0.1% counting error (and they’re often not that good), what might you expect error to be in a state with 6 million votes? 1% of 6 million is 60,000 0.1% is 6000

Vote count was closer than this (100-200) Margin was different with every re-count Systematic errors: butterfly ballots, K. Harris Too close to call, people

Gaussian (Normal, Or Bell-shaped) Distribution

Gaussian distribution is produced in general when measurements aggregate many random (stochastic) events, in a process that is not changing over time (stationary).

Examples are everywhere Distribution of heights of the people in the room Answers to our question about time IQs, test grades (not always), masses of pennies,

etc. BUT not all things are simple Gaussians

Distribution of incomes in US Time people take to commute to school each day

Example: Typical American Heights Men: 69 ± 3 inches (standard deviation is 3 inches)

68% between 5’6” and 6’0” 95% between 5’3” and 6’3” 99.7% between 5’0” and 6’6”

only 1 in 700 men taller than 6’6”

Women: 65.5 ± 2.5 inches 68% between 5’2” and 5’7” 95% between 4’11.5” and 5’9.5” 99.7% between 4’9” and 6’0”

Limitations of Statistics

Nothing is certain Most statistical models have “tails,” a finite (but very

tiny) probability that almost anything can happen E.g., the Gaussian distribution has tails to infinity Ergo, predicting events on the tails (whose

probability is small) is often not accurate It’s easy to misuse statistics

The government will issue 2.3 car seats to every family, because the average family has 2.3 children

It’s not always obvious when statistics have been misused (or deliberately abused)

Statistical Comparisons Which of these are significant statements?

7 of the 10 doctors asked recommend an apple a day

Choosy mothers choose JIF With a margin of polling error of 5%, a poll

conducted of all citizens shows that 60% would vote in favor of the initiative.

The data, with an average value of =124 and a standard deviation of 10, agree with the theoretical prediction of =100.

The two experiments produced consistent results. The first showed an electron mass of 511 keV while the second had 508 keV. Both experiments estimated their 1 uncertainties as 2 keV.

Some Criteria To Evaluate Claims

Is the sample representative? Are the uncertainties given, as well as the

data? What possible bias could exist in the result? Is the claim consistent with other data?

Extraordinary claims require extraordinary proof

Hard-nosed scientists say you don’t understand your dataif you don’t understand your uncertainties.

Comparing data with models/predictions

Uncertainties in data points show up as error bars in plots

Angular scale of cosmic microwave background fluctuations.Is the theoretical model (solid line) consistent with the data?

Aula7

Education

Transcript of Aula7