Investigação Clínica e Bioestatísticapn-aulas.wdfiles.com/local--files/start... · i.e. 2x mais...

Bioestatística

Paulo Nogueira

quarta-feira, 11 de Janeiro de 2012

Bioestatística?

Bioestatística

• Biologia + Estatística (Portmanteau)

– Biometria

• Estatística aplicada às ciências da saúde

Para que serve a

estatística?

Para que serve a estatística?

Qual o seu principal objectivo?

obter conclusões sobre a população

usando uma amostra?

Algumas Noções

PopulaçãoAmostragem

Uma ou mais variáveis

(X) são observadas

Amostra



(X) são observadas

Amostra

Verdadeiro valor

medição

média

Precisão

Exatidão

****

****

****

****

+ -

+

-

*

* *

*

*

* ** *

* *

*

*

* **

ESTATÍSTICA

1. Estatística Descritiva

Explorar, apresentar e resumir os dados da amostra. (tabelas, Gráficos, medidas de localização, medidas de

dispersão, etc.)

2. Inferência Estatística

Afirmações sobre parâmetros da população. (Estimativas pontuais, intervalos de confiança, Testes

de hipóteses)

Algumas Noções

O que é um Intervalo de

Confiança? Para que serve e

como se interpreta.



(X) são observadas

Amostra

Verdadeiro valor

medição

média

Quão (im)precisas são as estimativas? A precisão de uma estimativa amostral de um parâmetro amostral é caracterizada pelo Erro padrão. Se repetíssemos a experiência um número infinito de vezes e em cada vez calculássemos a estimativa; Obteríamos a distribuição (virtual) dos parâmetros. (distribuição amostral).

Tamanho de

amostra

grande

Tamanho de

amostra

pequeno

Quão precisa é esta estimativa? A resposta é dada (medida) pelo seu erro padrão:

s e xs

n. . (Desvio padrão da média (DPM))

s - é o desvio padrão amostral

Desvio Padrão da Média

DPM s

n

1. A precisão é proporcional ao desvio padrão

2. A precisão é proporcional à raiz quadrada do tamanho daamostra.

i.e. 2x mais Precisão 4x o Tamanho da Amostra

3. O que é que se usa nas publicações?O desvio padrão ou o erro padrão?

Depende do objectivo

- O desvio padrão descreve a variabilidade de X naPopulação.

- O erro padrão descreve quão precisa é aestimativa da média populacional

Quão precisas são as estimativas?

A resposta é dada (medida) pelo seu erro padrão

Intervalos de confiança

Estimação em forma de intervalo de

parâmetro populacional,com base na informação amostral disponível

e no conhecimento da distribuição amostral do estimador do

parâmetro

X para

2S para s2

Intervalos de confiança mais usuais

Parâmetro

MédiaProporções

Variância

Uma proporção é a média de uma amostra proveniente de uma população de Bernoulli

Intervalos de confiançaExemplo

# glucose

(mg/dL)

76.0,77.4, 77.0, 76.9, 74.3, 74.5, 77.0, 80.3, 77.2, 77.0, 76.9, 75.5, 79.9,

76.0, 76.7, 74.5, 74.9, 79.2, 78.7, 78.5, 77.1

2s 9.76x

s

s

; 2

12

1 nnzxzx

IC 90% 645.16.97 ; 645.19.7621

2

21

2

IC 95% 96.16.97 ; 96.19.7621

2

21

2

IC 99% 457.26.97 ; 457.29.7621

2

21

2

6.77 ; 2.76

8.77 ; 0.76

8.07 ; 8.75

Intervalos de confiança

Média

s desconhecido

Intervalo (1-)*100% de confiança para a média

;

12

112

1 n

s

nn

s

ntxtx

Interpretação:Se a experiência for repetida muitas vezes, 95%

dos IC conterão o verdadeiro .A

mo

str

a e

sub-a

mo

str

as

Original

5% 1

5% 2

5% 3

10% 1

10% 2

30% 1

30% 2

95% CI TRIG

220200180160140

Testes de Hipóteses

Hipótese

Estatística de teste

Distribuição da estatística de teste

Decisão

H0: Não existe efeito vs. H1: Existe efeito Hipótese nula Hipótese alternativa

Varia conforme a natureza do problema

Ou rejeito a hipótese nula o que significa que existe um efeito de tratamento

Ou não rejeito a hipótese nula o que significa que não existem evidências

de um efeito de tratamento

Aceitar ou Não rejeitar?

Do ponto de vista estatístico puro não se diz “Aceito H0”,

porque existem sempre erros.

O facto de não se rejeitar H0 pode ter duas causas:

•Ou o efeito não existe

•Ou não existe potência para mostrar o efeito.

Interpretação dos p-values

O p-value é a probabilidade de observar os dados quando a

hipótese nula é verdadeira.

Por exemplo num ensaio clínico

Estamos interessados na diferença observada entre dois

grupos de tratamentos.

Relacionamos então os dados com a provável variação numa

amostra devida ao acaso quando a hipótese nula é verdadeira

na população.

Regra geral,

Se o p-value > 0,05 o resultado do teste não

é significativo

Se o p-value < 0,05 o resultado do teste é significativo(rejeita-se a hipótese nula)

Se o p-value < 0,01 Pode-se dizer que o resultado é

muito significativo

Erros de Tipo I e Tipo II

Existem sempre erros ao fazer um teste de hipóteses.

Decisão: H0

Realidade: H0

Verdadeira

Verdadeira

Falsa

Falsa Erro I

Erro II

bconfiança

1

Potência

1 b

a verdadeiré H|HRejeitar I tipode erro 00PP

falsa é H|HRejeitar NãoII tipode erro 00PP b

Falsa é H|HRejeitar 1 00PPotência b

Esquema Clássico

Académico Académico Académico

Médias

Uma amostra Duas amostras Várias amostras

Teste t Teste t Teste t(teste de welsh)

Igualdade de

variâncias

desigualdade

de variâncias

Igualdade de

variâncias

ANOVA

desigualdade

de variânciasNormalidade

da distribuição

de cada grupo

Não Normalidade

da distribuição de

pelo menos um

grupo / uma das

amostra com

tamanho muito

pequeno

(teste não

paramétrico)

Teste de

Mann-Whitney

Teste de

Kruskal-Wallis

Testes de Hipóteses mais usuais

Uma amostra ou Duas amostras

MédiaProporções

Variância

Teste do qui-quadrado

• Pode ser usado como teste de ajustamento

– Ver se duas (ou mais) distribuições são iguais

• E pode ser usado como teste de

independência/associação entre duas variáveis

categoriais

– Verifica se existe independência entre as variáveis a

A e B

– Hipótese P(A e B) = P(A)*P(B)

Crosstab

14 5 19

73,7% 26,3% 100,0%

7,3% 6,8% 7,2%

177 69 246

72,0% 28,0% 100,0%

92,7% 93,2% 92,8%

191 74 265

72,1% 27,9% 100,0%

100,0% 100,0% 100,0%

Count

% within ANTPRO

% within SEXO

Count

% within ANTPRO

% within SEXO

Count

% within ANTPRO

% within SEXO

Sim

Não

ANTPRO

Total

Masculino Feminino

SEXO

Total

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Problemas anteriores idênticos * Sexo

Crosstab

14 5 19

73,7% 26,3% 100,0%

7,3% 6,8% 7,2%

177 69 246

72,0% 28,0% 100,0%

92,7% 93,2% 92,8%

191 74 265

72,1% 27,9% 100,0%

100,0% 100,0% 100,0%

Count

% within ANTPRO

% within SEXO

Count

% within ANTPRO

% within SEXO

Count

% within ANTPRO

% within SEXO

Sim

Não

ANTPRO

Total

Masculino Feminino

SEXO

Total



Chi-Square Tests

,026b 1 ,871

,000 1 1,000

,027 1 ,870

1,000 ,554

,026 1 ,871

265

Pearson Chi-Square

Continuity Correctiona

Likelihood Ratio

Fisher's Exact Test

Linear-by-Linear

Assoc iation

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)

Computed only f or a 2x2 tablea.

0 cells (,0%) hav e expected count less than 5. The minimum expected count is

5,31.

b.



Chi-Square Tests

,026b 1 ,871

,000 1 1,000

,027 1 ,870

1,000 ,554

,026 1 ,871

265

Pearson Chi-Square


Likelihood Ratio

Fisher's Exact Test

Linear-by-Linear

Assoc iation

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)



5,31.

b.

Conclusão:

A proporção de problemas idênticos anteriores não diferiu por sexo (p=1,000);

Ou

Não há evidências de que a distribuição de problemas anteriores idênticos difira

por sexo (p=1,000);

Crosstab

62 59 121

51,2% 48,8% 100,0%

32,8% 78,7% 45,8%

127 16 143

88,8% 11,2% 100,0%

67,2% 21,3% 54,2%

189 75 264

71,6% 28,4% 100,0%

100,0% 100,0% 100,0%

Count

% within POUCO

% within SEXO

Count

% within POUCO

% within SEXO

Count

% within POUCO

% within SEXO

Sim

Não

POUCO

Total

Masculino Feminino

SEXO

Total

Chi-Square Tests

45,490b 1 ,000

43,662 1 ,000

47,203 1 ,000

,000 ,000

45,318 1 ,000

264

Pearson Chi-Square


Likelihood Ratio

Fisher's Exact Test

Linear-by-Linear

Assoc iation

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)



34,38.

b.


Pouco interesse sexual * Sexo

Chi-Square Tests

45,490b 1 ,000

43,662 1 ,000

47,203 1 ,000

,000 ,000

45,318 1 ,000

264

Pearson Chi-Square


Likelihood Ratio

Fisher's Exact Test

Linear-by-Linear

Assoc iation

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)



34,38.

b.



Conclusão:

A proporção de falta de interesse sexual difere nos dois sexo (p<0,001);

Ou

A falta de interesse sexual está associado ao género dos indivíduos (p<0,001);



OR = 0.145 (0.077; 0.275)

Os homens apresentam uma reduzida probabilidade de se queixarem de

falta de interesse Sexual quando comparados com as mulheres.

Invertendo os valores:

OR = 6.875 (3.64; 12.99)

As mulheres apresentaram um probabilidade de se queixarem de falta de

interesse sexual aproximadamente 7 vezes maior que a dos homens.

Comparação de médias

• Teste t e ANOVA

– Estes testes dizem-se paramétricos –

Assumem que as distribuições subjacentes

aos dados são normais

• Quantas populações queremos comparar?

– Duas teste t

– Mais de duas ANOVA

Group Statistics

190 51,91 13,749 ,997

73 35,15 11,273 1,319

sexoMasculino

Feminino

idadeN Mean Std. Dev iation

Std. Error

Mean


Idade dos indivíduos * Sexo

?

Independent Samples Test

6,025 ,015 9,279 261 ,000 16,755 1,806 13,199 20,310

10,130 158,145 ,000 16,755 1,654 13,488 20,021

Equal variances

assumed

Equal variances

not assumed

idadeF Sig.

Lev ene's Test for

Equality of Variances

t df Sig. (2-tailed)

Mean

Dif f erence

Std. Error

Dif f erence Lower Upper

95% Conf idence

Interv al of the

Dif f erence

t-test f or Equality of Means


Idade dos indivíduos * Sexo

Conclusão:

(Não existe homogeneidade das variâncias (p=0.015), temos de usar o teste t

para amostras independentes assumindo variâncias diferentes)

Rejeita-se a hipótese de igualdade das médias (populacionais) de idade nos

dois grupos (p<0,001).

Ou

A idade dos indivíduos do sexo masculino que se queixam de problemas de

disfunção sexual ao médico de família difere estatisticamente da idade das

mulheres que apresentam o mesmo tipo de queixas.


Há quanto tempo apresenta estas queixas * Sexo

?

Group Statistics

171 9,41 19,135 1,463

61 14,64 28,457 3,644

sexoMasculino

Feminino

tempoN Mean Std. Dev iation

Std. Error

Mean



Group Statistics

171 9,41 19,135 1,463

61 14,64 28,457 3,644

sexoMasculino

Feminino

tempoN Mean Std. Dev iation

Std. Error

Mean


5,224 ,023 -1,598 230 ,112 -5,230 3,274 -11,680 1,220

-1,332 80,179 ,187 -5,230 3,926 -13,043 2,584

Equal variances

assumed

Equal variances

not assumed

tempoF Sig.

Lev ene's Test for



Mean

Dif f erence

Std. Error


95% Conf idence

Interv al of the

Dif f erence




Conclusão:

(Não existe homogeneidade das variâncias (p=0.023), temos de usar o teste t

para amostras independentes assumindo variâncias diferentes)

Não se rejeita a hipótese de igualdade das médias (populacionais) de tempo de

queixas de disfunção sexual idade nos dois grupos (p=0.187). Não foram

encontradas evidências de que a duração das queixas de disfunção difiram por

sexos.


5,224 ,023 -1,598 230 ,112 -5,230 3,274 -11,680 1,220

-1,332 80,179 ,187 -5,230 3,926 -13,043 2,584

Equal variances

assumed

Equal variances

not assumed

tempoF Sig.

Lev ene's Test for



Mean

Dif f erence

Std. Error


95% Conf idence

Interv al of the

Dif f erence


Será que o número de QDS é

influenciado pela idade?

• Número de queixas (1, 2, 3 ou mais)


Rejeita-se a hipótese de igualdade das variâncias populacionais dos 3 grupos

(p=0,016).

Está violado um dos prossupostos da ANOVA não tenho garantias de que

o resultado da ANOVA seja correcto

O teste de Shapiro-Wilk é o mais apropriado quando o tamanho da amostra é

menor que 50.

A idade no grupo com apenas uma queixa não segue uma distribuição

normal.

Não podemos aplicar a ANOVA!

Rejeita-se a hipótese de igualdade da idade pelo número de queixas (p<0,001).

Ou

Existem evidências de que uma associação entre idade e número de queixas

QDS (p<0,001).

Os resultados obtidos pela ANOVA são confirmados pelo teste não

paramétrico de Kruskal-Wallis.

Não existe evidencia de relação entre numero de queixas e idade na mulher.

Nos homens o resultado é borderline.

Será que o número de QDS é

influenciado pela idade?

• Número de queixas (variável numérica)


Correlação negativa.

A idade tende a ser mais baixa

quando as queixas aumentam.

Ou

Quando o número de queixas

é menor a idade tende a ser

mais elevada.

Quantas variáveis?

• 1– Análise descritiva

• Variável numérica– Medidas de localização, medidas de disperssão– Gráficos

» Variável discreta com poucos valores � Barras, linhas, sectogramas

» Variável contínua � Histograma, caixa de bigodes, etc.

• Variável qualitativa– Frequências, moda– Gráficos (barras, linhas, sectogramas, etc)

Quantas variáveis?

• 1– Inferência estatística

• Variável numérica– Teste z– Teste t– Teste para uma variância

» A comparação é feita com um valor para o parâmetro populacional “externo”

• Variável qualitativa– Teste do Qui-quadrado

» Teste que avalia a homogeneidade das observações pelas diferentes categorias

– Teste para uma proporção» Teste que avalia se a proporção observada está de acordo

com uma hipótese populacional

Quantas variáveis?

• 2 � v. categorial vs v. categorial– Análise descritiva bivariada

• Crosstabs• Frequências cruzadas• Proporções (por linha, por coluna, totais)

Quantas variáveis?

• 2 � v. categorial vs v. categorial– Inferência estatística

• Qui-quadrado– Teste de independência (não associação)

» Pressupostos: o número esperado em cada célula da tabela é maior que 5

• Qui-quadrado com correcção para a continuidade (correcção de Yates)

– Quando se trata de uma tabela 2x2

• Teste exacto de Fisher– Quando se trata de uma tabela 2x2, sempre aplicável mesmo

quando falha o pressuposto de aplicação do quiquadrado

Quantas variáveis?

• 2 � v. numérica vs v. categorial– A v. numérica toma o lugar de v. dependente

ou v. de teste– Análise descritiva bivariada

• Medidas de localização e de dispersão por cada nível da v. categorial

• Histogramas por painel• Caixas de bigodes paralelas

Quantas variáveis?

• 2 � v. numérica vs v. Categorial � a v. categorial tem 2 níveis

– Inferência estatística• Teste t

– Comparação das duas média populacionais– Existem dois teste t

» 1 teste que assume a igualdade das variâncias populacionais

» 1 teste que assume a desigualdades das variâncias populacionais

• Teste F ou teste de Levene– Comparação de duas variâncias populacionais

• Teste de Mann-Whitney– Teste não paramétrico

» Compara as duas distribuições

Quantas variáveis?• 2 � v. numérica vs v. Categorial

� a v. categorial tem mais de 2 níveis– Inferência estatística

• ANOVA– Testa a igualdade de todas as médias populacionais– Pressupostos:

» Todas as amostras são normais» Homocedaticidade: as variâncias de todos os grupos são iguais

• teste de Levene– Testa a igualdade das variâncias

» Este teste deve ser sempre feito antes de analisar os resultadosda igualdade das médias

• Teste de Kruskal-Wallis– Teste não paramétrico

» Compara as distribuições• Nota: quando existem diferenças estatísticas usam-se teste de

comparações múltiplas para perceber em que níveis ocorrem as diferenças: testes Post-Hoc

Quantas variáveis?

• 2 � v. numérica vs v. numérica

– Coeficiente de correlação de Pearson• O teste associado é um teste t e assume

normalidade das variáveis para efectuar o teste

– Coeficiente de correlação de Spearman• Teste não paramétrico• Usa as ordens dos valores e não os valores

Quantas variáveis?

• Mais de 2 variáveis – Análise multifactorial

• Temos uma variável dependente e queremos explicar a sua variação usando as restantes variáveis

– Análise multivariada• Queremos estudar a variação conjunta de mais do

que uma variável

Quantas variáveis?• Mais de 2 variáveis �

Análise Multifactorial– A variável dependente (explicada) é numérica

(assumida normal)• Regressão linear múltipla

– Só são admitidas variáveis numéricas» Para variáveis categoriais é necessário usar variáveis

mudas/indicadoras» Exemplo: sexo � criar uma v. Com 1- Masculino e 0-

feiminino• ANOVA Multifactorial / MANCOVA

– São admitidas variáveis categoriais � FACTORES– Existem factores fixos � todos os possíveis valores presentes– Existem factores aleatórios � não todos os possiveis valores

representados– São admitidas variáveis numéricas � Covariáveis

(MANCOVA)

Quantas variáveis?

• Mais de 2 variáveis � Análise Multifactorial

– A variável dependente (explicada) é dicotómica

• Regressão logistica (binária)– São admitidas variáveis categoriais � FACTORES– São admitidas variáveis numéricas � Covariáveis

(MANCOVA)

– A variável dependente (explicada) é dicotómica e tem associado um tempo até ao evento

• Análise de Sobrevivência / Regressão de Cox– Muito semelhante à regressão logistica

Quantas variáveis?

• Mais de 2 variáveis � Análise Multifactorial

– Existem outros métodos menos usuais• Modelos linear generalizados

– Regressão de poisson– Logit– Probit

• Modelos lineares aditivos• etc

Quantas variáveis?

• Mais de 2 variáveis � Análise multivariada

– Análise exploratória de dados multivariados• Não são metodos de inferência estatística

• Análise factorial• Componentes principais• Etc.

Investigação Clínica e Bioestatísticapn-aulas.wdfiles.com/local--files/start... · i.e. 2x mais...

Documents

Transcript of Investigação Clínica e Bioestatísticapn-aulas.wdfiles.com/local--files/start... · i.e. 2x mais...