Aula7
-
Upload
marcelo-knobel -
Category
Education
-
view
10.126 -
download
1
description
Transcript of Aula7
Fontes de Informação em Ciência e Tecnologia
Prof. Dr. Marcelo KnobelIFGW – UNICAMP
Curso de Especialização em Jornalismo Científico – Labjor/NUDECRI/UNICAMP
Aula parcialmente baseada em:Introdução à Análise Estatística de Dados Biomédicos
Dr. Mário B. Wagner, PhD
Dra. Sidia M. Callegari-Jacques, PhD
Introdução à Análise Estatística
Bioestatística
Estatística: Ramo do conhecimento que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados, visando a realização de inferências indutivas a partir dos dados.
Bioestatística: Aplicação da Estatística nas ciências biológicas e da saúde.
Estatística
Lema
“In God we trust.
All others must bring data.”
Desafios
Idéias estatísticas podem ser difíceis e intimidantes.
Portanto: Resultados estatísticos são geralmente
“pulados” ao ler a literatura científica. Dados em geral são mal interpretados.
Interpretação errônea de dados
“Celebrar aniversários é saudável. A estatística mostra que aqueles que celebram mais ainversários vivem
mais.”
“Na média, minha turma está indo bem. Metade dos estudantes acham que 2+2=3, e a outra metade pensa que
2+2=5.”
Artigos científicos: muitos termos específicos do domínio da Epidemiologia e da Bioestatística.
Compreensão adequada: familiaridade com os princípios e técnicas da Epidemiologia e da Bioestatística.
O papel da Bioestatística
Bioestatística: princípios fundamentais
Resumir a informação (ex. média, %)
Resumir as relações (ex. Tamanho do Efeito Padronizado, RR)
Estimar a magnitude das relações
Entidades (Objetos de Estudo)
O paciente O dia A palestra
Pode-se chamar de “entidades” os objetos do estudo, isto é, todas as coisas que nos cercam, incluindo as animadas (indivíduos) ou inanimadas (coisas).
São também conhecidas como unidades de observação ou de experimentação.
Exemplos:
Propriedades (Variáveis)
São as características apresentadas pelas entidades (coisas, indivíduos, fatos). As características podem variar entre as entidades e dentro de uma mesma entidade (ex. de um momento para o outro). Por isso, são também conhecidas como variáveis.
O resultado da mensuração de uma variável é conhecido como dado.
Relações
Epidemiologia e Bioestatística: estudam relações entre as variáveis.
Por ex. relação entre fumo e câncer, entre idade e pressão arterial.
Neste tipo de estudo, se busca: 1. Verificar se há ou não relação 2. Se houver, medir o grau de associação entre as variáveis (ou o tamanho do efeito)
Conceitos básicos
Variáveis e seus níveis de
medida
População e Amostra
Parâmetros e Estimativas
Variáveis e seus níveis de medida
Qualitativas ou categóricas
- Nominal (grupo sangüíneo, gênero)
- Ordinal (grau de dor, escores) Quantitativas
- De intervalo (zero arbitrário: temperatura)
- De razão (zero absoluto: comprimento)
Variáveis: outras classificações
Qualitativas ou categóricas
- Dicotômicas ou binárias (sim/não)
- Politômicas (leve, moderado, severo) Quantitativas
- Discretas (número de filhos)
- Contínuas (colesterol total)
Vantagens da variável quantitativa
Nível de informação é superior
Pode ser transformada em qualquer outro tipo de variável, inclusive categórica
Aceita transformações matemáticas (log, raiz quadrada, inversão, etc.)
Em geral, tamanhos amostrais menores
População e Amostra
População Conceito estatístico diferente do geográfico Todos os indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura inferência.
- O número de características define a população. Ex. estudantes de Bioestatística.
Amostra Toda fração (independente de tamanho) obtida de uma população - Ideal: amostra aleatória
n2
n3
n1
n4
N
População e Amostra
Parâmetro e EstatísticaParâmetro: valor que resume, em uma população, a informação relativa a uma variável. Ex: média, porcentagem
Estatística: quantidade que descreve a informação estatística obtida em um conjunto de dados amostrais. Ex: média, porcentagem calculadas em uma amostra
As estatísticas estimam os parâmetros.
População e Amostra
Média () = ?
XInferência
Amostras
Amostras são aleatórias Se tivessemos escolhido uma amostra
diferente, obteríamos uma estatística diferente. Apesar de que tentamos estimar os mesmos (imutáveis) parâmetros populacionais.
Duas variáveis importantes em relações de causa e efeito
Desfecho: Característica que se supõe ser o resultado do efeito de um fator.
Sinônimo: variável dependente. Ex: câncer de pulmão
Exposição: O fator que precede o desfecho. Suposta causa do desfecho.
Sinônimos: fator em estudo, variável independente, variável preditora.
Ex: fumo
Descrição das variáveis
Distribuição de freqüências - Tabelas - Gráficos
Medidas-resumo ou medidas descritivas - de tendência central:
média, mediana e moda - de dispersão ou variabilidade: amplitude, variância/desvio padrão,
distância entre quartis - de freqüência: prevalência, incidência
Distribuição de freqüências
Distribuição de freqüências: conjunto formado pelos vários valores e pelas respectivas freqüências (no. de vezes que cada um ocorre).
São de dois tipos:
- Tabelas: descrevem os dados com detalhe
- Gráficos: úteis para identificar valores
extremos e a forma da distribuição
Níveis de albumina sérica (g/100ml) em 25 pacientes
Albumina
(x) Contagem f fr F Fr
4,5 / 1 0,04 1 0,04
4,6 0 0,00 1 0,04
4,7 // 2 0,08 3 0,12
4,8 / 1 0,04 4 0,16
4,9 /// 3 0,12 7 0,28
5,0 //// 5 0,20 12 0,48
5,1 //// 5 0,20 17 0,68
5,2 // 2 0,08 19 0,76
5,3 /// 3 0,12 22 0,88
5,4 // 2 0,08 24 0,96
5,5 / 1 0,04 25 1,00
ou soma 25 1,00 - -
Quando os dados variam muito:Pressão arterial sistólica em 96 recém-nascidos ( primeiras 24 horas de vida)
PAS (mm Hg) f Fr
55 59 3 0,03 59 63 5 0,08 63 67 40 0,50 67 71 24 0,75 71 75 15 0,91 75 79 8 0,99 79 83 1 1,00
Total 96 -
Distribuição de freqüências: histograma
Peso em 2470 mulheres adultas
Peso (kg)
115105
9585756555453525
Nú
me
ro d
e m
ulh
ere
s
500
400
300
200
100
0
Características da distribuição de freqüências
Uma distribuição de freqüências é muitas vezes descrita apenas por: tendência central dispersão (variação)
A forma da distribuição determina
- o tipo de medida descritiva mais adequada
- a técnica estatística correta para as inferências
Medidas de tendência central
Média: Centro de gravidade da distribuição. - Mais utilizada; possui maior poder estatístico - Indicada em distribuições simétricas. - Afetada por valores extremos; dá visão distorcida em
distribuições assimétricas.
altura
n
º de
in
div
íduo
s
dispersão de pontoscom n=200
média
DP
Distribuição de freqüências com nuvem de dispersão de pontos.
n
xx
Mediana (md): Valor que ocupa a posição central de uma série ordenada.
- 50% dos valores estão abaixo e 50% acima da mediana - Não é afetada por valores extremos - Preferida em distribuições assimétricas.
n
º de
in
div
íduo
s
prega tricipital
quartil inferior (Percentil 25)
mediana(Percentil 50)
quartil superior(Percentil 75)Distribuição de freqüências
com assimetria positiva
Medidas de tendência central
Moda (mo): Valor de X mais freqüente.
- Facilmente identificada em um gráfico de freqüências
- Pode haver mais de uma moda (mais de uma população?)
Peso em 256 universitárias Estatura em 213 estudantes (ambos os sexos) da UFRGS
Medidas de tendência central
Medidas de tendência central e distribuições de freqüências
Distribuição Simétrica
Média, mediana e moda
Distribuição comAssimetria Negativa
moda
mediana
média
Distribuição comAssimetria à Direita
média
mediana
moda
O conceito de incerteza
Afeta todas as medidas Quando os cientistas mencionam
“erros” associados com uma medida, eles estão querendo dizer incertezas.
Por exemplo: Que horas são?
Incerteza sistemática vs. aleatória
Por que não há uma única resposta às horas? Nem todos os relógios estão igualmente
ajustados Calibração (tanto no ajuste inicial, quanto no
funcionamento) Pessoas diferentes podem dizer tempos
diferentes no mesmo relógio Erros de medição
E se alguém esqueceu de ajustar o horário de verão? Erro sistemático
Incerteza sistemática vs. aleatória
Pode-se estimar a incerteza aleatória com múltiplas medidas, e olhando a distribuição dos resultados
Erros sistemáticos (viés) são mais difíceis de identificar – necessidade de ser estimados baseados em outras informações.
Por exemplo, exagerando a fonte do efeito, se possível
Você acha que é um efeito de temperatura? Aumente-a muito!
Medidas de Dispersão
Amplitude (a) Variância (s2) Desvio padrão (s; DP) Amplitude ou Desvio entre quartis
Amplitude: Valor máximo - valor mínimo Simples mas pouco informativa (apenas dois
valores). É muito sensível a valores extremos. Ex: 1; 1; 2; 3; 6 a = 6 - 1 = 5.
Medidas de Dispersão
Variância: Média dos desvios quadrados em relação à média (todos os valores).
A unidade é expressa ao quadrado
É comum utilizar-se o desvio padrão (DP), que é a raiz quadrada positiva da variância (volta à unidade original).
Desvio padrão (DP ou s): Representa o padrão de oscilações dos valores da série em relação à média.
- Fundamental na inferência estatística - Freqüentemente usado em conjunto com a
média, na forma média DP (atenção: explicitar!)
1
)( 22
nn
xx
DP1
)( 2
n
xxsDP
altura
nº
de
indi
vídu
os
dispersão de pontos
com n=200
média
DP
Representação gráfica do desvio padrão: 1. na nuvem de dispersão de valores de x; 2. em uma distribuição de freqüências gaussiana (média DP reúne ~2/3 dos valores centrais)
Desvio Padrão
Erro aleatório em pesquisas Assumindo que uma amostra representativa foi
escolhida: pesquise N pessoas, obtenha uma incerteza de N. Exemplo:
Número Erro Erro Percent.
10 3 30%
100 10 10%
1,000 31 3.1%
10,000 100 1%
100,000 316 0.316% A incerteza depende apenas do tamanho da amostra e
NÃO no tamanho da população.
Média e desvio padrão em uma amostra
pequena
22
2 consultas7,13
5
1n
)xx(s
consultas3,17,1s
7,13
5
14414
54
1nn)x(
xs
222
2
Exercício: média e DP em amostras pequenasDados de ácido úrico (mg/ml)
Homens Mulheres
x x
3 2 4 4 8 5
Nível de ácido úrico: homens
Nível de ácido úrico: mulheres
V a l o r e s d e á c i d o ú r i c o ( m g / m l ) e m t r ê s m u l h e r e s
x x 2
2 4
4 1 6
5 2 5 1 1 4 5
x = 1 1 / 3 = 3 , 6 6 . . . m g / m l
ml/mg53,12
3,4045
23
1145
1nn
)x(x
s
222
Distribuição Normal
“Desvio Padrão” caracteriza o espalhamento nos valores.
~2/3 (68.3%) dos valores estão nesse intervalo (1)
95.4% dos valores estão em 2 desvios padrão (2)
99.7% dos valores estão em 3 desvios padrão (3)
68.3 % of area
95.4 % of area
99.7 % of area
Quartis
- Quartis: valores de X que dividem uma série ordenada em 4 grupos de igual tamanho. Ex. Q1 separa 25% valores menores
- Percentis: dividem a série em 100 partes iguais. Q1 = P25
Amplitude entre quartis:
Q3 – Q1= P75 – P25 (reúne 50% da amostra)
Usada com a mediana em séries assimétricas.
n
º de
in
div
íduo
s
prega tricipital
quartil inferior (Percentil 25)
mediana(Percentil 50)
quartil superior(Percentil 75)
Escolhendo a medida descritiva
Nominal: usar freqüências e proporções.
Ordinal: freqüências e proporções ou mediana e amplitude interquartil.
Intervalar/razão: depende da distribuição de freqüências D. simétrica: média e desvio padrão D. assimétrica: mediana e amplitude interquartil (às vezes, intervalo de variação dos valores).
Tipo de variável
Apresentação de resultados
Tabela descritiva Gráficos para var. quantitativas: - Histograma - Gráfico de média e barra de erro - Box plot - Gráficos de linha - Gráfico dispersão de pontos Gráficos para var. categóricas : - Gráfico de setores - Gráfico de colunas
Var. Quantitativas: gráfico de média e barra de erro
Variável quantitativa em dois ou mais grupos. Usar, sempre que possível, média DP. Dar preferência à apresentação da direita.
HDL HDL
Grupo 1 Grupo 2 Grupo 1 Grupo 2
Var. quantitativas: Box plot
Variável quantitativa em dois ou mais grupos, principalmente para variáveis assimétricas.
Representa mediana, amplitude interquartil, mínimo e máximo.
1 2 3
0
50
100
150
200
Gr1 Gr2 Gr3
Variável
Var. quantitativas: gráfico de linha
Variável quantitativa ao longo do tempo. Usar, sempre que possível, média DP. Só a média: não representa variações
grandes entre indivíduos.
tempo tempo
Var. quantitativas: gráfico de dispersão de pontos
Duas variáveis quantitativas Objetivo: observar que tipo de relação
possuem entre si
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0
0.2
0.4
0.6
0.8
1.0
1.2
Variável X
Variável Y
Variáveis qualitativas
Usados para dados categóricos. Evitar uso em variáveis dicotômicas. Gráfico de pizza: raro em publicações científicas. Gráfico de colunas: não é histograma.
A B C
%
Gráfico de setores (pizza ou torta)
Gráfico de colunas
Resumo Epidemiologia e Bioestatística auxiliam a
compreender a literatura científica nas áreas das ciências biológicas e da saúde.
Estudando entidades (indivíduos) e suas respectivas propriedades (variáveis), o objetivo é inicialmente a descrição dos dados para chegar às relações entre as variáveis e à estimativa da magnitude destas relações.
Variável é uma característica mensurável que pode apresentar valores diferentes nos sujeitos do estudo.
As variáveis são classificada de acordo com seu nível de mensuração em qualitativas (nominal e ordinal) e quantitativas (intervalar/razão).
Em Epidemiologia, é importante distinguir entre variável preditora (exposição) e desfecho.
As medidas descritivas clássicas usadas em Bioestatística são: média e desvio padrão mediana e amplitude interquartil
Apresentações gráficas são importantes, mas devem ser usadas com moderação e seguindo suas indicações específicas.
Em artigos científicos, a preferência deve ser dada às medidas descritivas.
Desafios
Much of life is composed of a systematic component (i.e., signal) and a random component (i.e., error or noise).
Example: Smoking is associated with lung cancer. Yet not everyone that smokes, gets lung cancer, and not
everyone that gets lung cancer smokes. Yet we know that there is an association (a systematic
component) Our challenge is to identify the systematic
component (separate it from the random component), estimate it, and perhaps make inferences with it.
Populações e Parâmetros
Population – a group of individuals that we would like to know something about
Parameter - a characteristic of the population in which we have a particular interest Often denoted with Greek letters (, , ) Examples:
The proportion of the population that would respond to a certain drug
The association between a risk factor and a disease in this population
Amostras e Estatísticas
Sample – a subset of a population (hopefully representative)
Statistic – a characteristic of the sample Example:
The observed proportion of the sample that responds to treatment
The observed association between a risk factor and a disease in this sample
Populações e Amostras
Studying populations is too expensive and time-consuming, and thus impractical
If a sample is representative of the population, then by observing the sample we can learn something about the population And thus by looking at the characteristics of the
sample (statistics), we may learn something about the characteristics of the population (parameters).
Dados Nominais
Mutually exclusive unordered categories Examples
Sex (male, female) Race (white, black, latino, asian, native
american) Can summarize in:
Tables – using counts and percentages Bar Chart
Dados Ordinais
Ordered Categories Examples
Injury – mild, moderate, severe Income – low, medium, high
Dados Discretos
If many different discrete values, then discrete data is often treated as continuous.
If very few discrete values, then discrete data is often treated as ordinal
Dados Contínuos
Any value on the continuum is possible (even fractions or decimals)
Examples: Height Weight
Many “discrete” variables are often treated as continuous
Dados de sobrevivência
Time to an event (continuous variable) The event does not have to be survival
Concept of “Censoring” If we follow a person until the event, then the
survival time is clear. If we follow someone for a length of time but the
event does not occur, the the time is censored (but we still have partial information; namely that the event did not occur during the follow up period).
Quantitative Measurements Science proceeds by making quantitative measurements
(i.e. ones whose results are expressed in numerical terms).
Examples we’ve discussed include Deflection of starlight by the sun (General Relativity) Tests of the Universality of Free Fall at the University of
Washing Lunar Laser Ranging: measuring lunar orbit (my deal)
At the discovery phase, a single observation or measurement can show us something new about the world. just seeing unexpected event can reveal new science
Otherwise, progress is made by comparisons between data sets, and between data and theories.
How Do We Actually Make Comparisons?
Comparisons between data sets: Are two measurements consistent with each other?
Comparisons between data and theories/models: Do the data agree with the theoretical structure?
Even comparisons between theoretical predictions: Are these two ideas in conflict with each other?
How do we compare?With statistics!
Basic Statistics We use statistics to summarize multiple data
points into a handful of numbers that are simpler to digest Average (mean) Median Mode Standard Deviation Etc.
The task is to compare quantities and ascertain whether they have a significant difference or not.
“Significant” relative to what?
Multiple Measurements “Beat Down” Error
We’ll measure the acceleration due to gravity I’ll toss a ball in the air, you’ll use your
stopwatches to time the fall START your watch at apex of flight STOP on impact with the ground Spotters will mark highest position against
wall x = ½gt2 g = 2x/t2
Samples vs Entire Population Political polls try to gauge the nature of the
entire population by extracting a subset (sample) and conducting an experiment on that.
If the subset is a representative sample, then the characteristics of the sample should reflect the characteristics of the full population.
This method is applied all the time: product quality control rate of adverse reactions to a medication political polls
The Florida Election Fiasco
Alarmingly relevant example of measurement error (systematic and random)!
If voting machines have 0.1% counting error (and they’re often not that good), what might you expect error to be in a state with 6 million votes? 1% of 6 million is 60,000 0.1% is 6000
Vote count was closer than this (100-200) Margin was different with every re-count Systematic errors: butterfly ballots, K. Harris Too close to call, people
Gaussian (Normal, Or Bell-shaped) Distribution
Gaussian distribution is produced in general when measurements aggregate many random (stochastic) events, in a process that is not changing over time (stationary).
Examples are everywhere Distribution of heights of the people in the room Answers to our question about time IQs, test grades (not always), masses of pennies,
etc. BUT not all things are simple Gaussians
Distribution of incomes in US Time people take to commute to school each day
Example: Typical American Heights Men: 69 ± 3 inches (standard deviation is 3 inches)
68% between 5’6” and 6’0” 95% between 5’3” and 6’3” 99.7% between 5’0” and 6’6”
only 1 in 700 men taller than 6’6”
Women: 65.5 ± 2.5 inches 68% between 5’2” and 5’7” 95% between 4’11.5” and 5’9.5” 99.7% between 4’9” and 6’0”
Limitations of Statistics
Nothing is certain Most statistical models have “tails,” a finite (but very
tiny) probability that almost anything can happen E.g., the Gaussian distribution has tails to infinity Ergo, predicting events on the tails (whose
probability is small) is often not accurate It’s easy to misuse statistics
The government will issue 2.3 car seats to every family, because the average family has 2.3 children
It’s not always obvious when statistics have been misused (or deliberately abused)
Statistical Comparisons Which of these are significant statements?
7 of the 10 doctors asked recommend an apple a day
Choosy mothers choose JIF With a margin of polling error of 5%, a poll
conducted of all citizens shows that 60% would vote in favor of the initiative.
The data, with an average value of =124 and a standard deviation of 10, agree with the theoretical prediction of =100.
The two experiments produced consistent results. The first showed an electron mass of 511 keV while the second had 508 keV. Both experiments estimated their 1 uncertainties as 2 keV.
Some Criteria To Evaluate Claims
Is the sample representative? Are the uncertainties given, as well as the
data? What possible bias could exist in the result? Is the claim consistent with other data?
Extraordinary claims require extraordinary proof
Hard-nosed scientists say you don’t understand your dataif you don’t understand your uncertainties.
Comparing data with models/predictions
Uncertainties in data points show up as error bars in plots
Angular scale of cosmic microwave background fluctuations.Is the theoretical model (solid line) consistent with the data?