Cálculo do tamanho amostral e da potência...

download Cálculo do tamanho amostral e da potência estatísticapn-aulas.wdfiles.com/local--files/apic2010/Microsoft PowerPoint... · Exemplo 1 • Existe diferença na eficácia do Salbutamol

If you can't read please download the document

Transcript of Cálculo do tamanho amostral e da potência...

  • Clculo do tamanho amostrale da potncia estatstica

    Paulo Nogueira

  • Exemplo 1

    Existe diferena na eficcia do Salbutamol e do ipratropium no tratamento da Asma?

    O investigador delineou um ensaio aleatorizado do efeito destes frmacos na FEV1 (Forced Experatory Volume durante um segundo) aps uma semana do tratamento.

    Um estudo anterior relatou que a mdia do FEV1 em pessoas com asma tratadas 2.0 litros, com desvio padro de 1.0 litros.

    O investigador pretende ser capaz de detectar uma diferena de 10% ou mais na mdia de FEV1 entre os dois grupos de tratamento.

    Quantos pacientes so necessrios em cada grupo (Salbutamol e ipratropium ) para alfa (bi-caudal) de 5% e uma potncia de 80%?

  • Variveis

    Que variveis esto envolvidas neste problema?

    De que tipo so estas variveis? Como usual estudar (estatisticamente)

    este problema, qual o teste usado?

  • Hipteses

    Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?

  • Termos

    Que termos do problema so novos?

  • Exemplo 2

    Fumadores idosos tm maior incidncia de cancro da pele do que os no fumadores?

    Uma reviso da literatura cientfica pr existente sugere que a incidncia 5 anos de cancro da pele cerca de 0,20 nos no fumadores idosos.

    A um nvel de alfa de 5% (bi-caudal) e uma potncia de 80%, quantos fumadores e no fumadores necessrio estudar para determinar se a incidncia 5 anos de cancro da pele pelo menos 0,30 nos fumadores?

  • Variveis

    Que variveis esto envolvidas neste problema?

    de que tipo so estas variveis? Como usual estudar (estatisticamente)

    este problema, qual o teste usado?

  • Hipteses

    Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?

  • Termos

    Que termos do problema so novos?

  • Para que serve a estatstica?

    Qual o seu principal objectivo?

    NoNoes breves de Estates breves de Estatsticastica

  • Para que serve a estatstica?

    Qual o seu principal objectivo?

    obter concluses sobre a populao usando uma

    amostra!

    PopulaoAmostragem

    Uma ou mais variveis(X) so observadas

    Amostra

    NoNoes breves de Estates breves de Estatsticastica

    Recolha, organizao, classificao, anlise e interpretao de dados atravs da criao de instrumentos adequados: quadros, grficos, permitindo de uma maneira geral fazer inferncias a partir de um conjunto de dados.

  • PopulaoAmostragem

    Uma ou mais variveis(X) so observadas

    Amostra

    Verdadeiro valor

    medio

    mdia

    NoNoes de Estates de Estatsticastica

    Populao conjunto de objectos, indivduos ou resultados experimentais acerca do qual se pretende estudar alguma caracterstica comum. Aos elementos da populao chamamos unidades estatsticas.

    Amostra parte ou subconjunto da populao que observada com o objectivo de obter informao para estudar a caracterstica pretendida.

  • 1. Estatstica Descritiva

    Explorar, apresentar e resumir os dados da amostra. (tabelas, Grficos, medidas de localizao, medidas de

    disperso, etc.) 2. Inferncia Estatstica

    Afirmaes sobre parmetros da populao. (Estimativas pontuais, intervalos de confiana, Testes de

    hipteses)

    NoNoes breves de Estates breves de Estatsticastica

  • Tipos de VariveisQualitativasQuantitativas

    Exemplos de variveis

    X - indica o Sexo (Masculino, Feminino).X - representa a Altura (cm).X - representa o Nmero de filhos.X - representa o Grupo Sanguneo.

    X - representa o Colesterol (mg/dL)X - representa o Resultado do Tratamento

    (melhoria, sem alteraes, pioria).

    NoNoes breves de Estates breves de Estatsticastica

  • QualitativasNominais

    No existe uma ordem entre as categoriasExemplos:

    Sexo (dicotmica), Grupo sanguneo (policotmico).

    Ordinais

    Existe uma ordem naturalExemplos:

    Resultado do tratamento ( - ; = ; + )Habilitaes literriasClasse social.

    NoNoes de Estates de Estatsticastica

  • Quantitativas

    Discretas (contagens)

    Exemplos:

    N. de elementos do agregado familiar.Nmero de glbulos brancos numa amostra de sangue.

    Contnuas

    Exemplos:Altura, Idade, Presso arterial.

    NoNoes de Estates de Estatsticastica

  • Testes de Hipteses

    Hiptese

    Estatstica de teste

    Distribuio da estatstica de teste

    Deciso (Regio Crtica)

    H0: No existe efeito vs. H1: Existe efeito Hiptese nula Hiptese alternativa

    Varia conforme a natureza do problema

    Ou rejeito a hiptese nula o que significa que existe um efeito de tratamento

    Ou no rejeito a hiptese nula o que significa que no existem evidncias

    de um efeito de tratamento

    Varia conforme a natureza do problema

  • Aceitar ou No rejeitar?

    Do ponto de vista estatstico puro no se diz Aceito H0,

    porque existem sempre erros.

    O facto de no se rejeitar H0 pode ter duas causas:

    Ou o efeito no existe

    Ou no existe potncia para mostrar o efeito.

  • Interpretao dos p-values

    O p-value a probabilidade de observar os dados quando a

    hiptese nula verdadeira.

    Por exemplo num ensaio clnico

    Estamos interessados na diferena observada entre dois

    grupos de tratamento.

    Relacionamos ento os dados com a provvel variao numa

    amostra devida ao acaso quando a hiptese nula verdadeira

    na populao.

    Regra geral,

    Se o p-value > 0,05 o resultado do teste no

    significativo

    Se o p-value < 0,05 o resultado do teste significativo(rejeita-se a hiptese nula)

    Se o p-value < 0,01 Pode-se dizer que o resultado

    muito significativo

  • Erros de Tipo I e Tipo II

    Existem sempre erros ao fazer um teste de hipteses.

    Deciso: H0

    Realidade: H0

    Verdadeira

    Verdadeira

    Falsa

    Falsa Erro I

    Erro II

    confiana

    1 1 1 1

    Potncia

    1 1 1 1

  • [ ] [ ]a verdadeir H|HRejeitar I tipode erro 00PP ==

    [ ] [ ]falsa H|HRejeitar NoII tipode erro 00PP ==

    [ ]Falsa H|HRejeitar 1 00PPotncia ==

  • POPULAOConjunto de elementos que partilham pelo menos uma caracterstica comum

    Coleco completa de unidades, a partir da qual se podem constituir amostras (universo)

    AMOSTRAUma parte seleccionada de uma populao

    UNIDADE DE OBSERVAOCada um dos elementos da amostra

    Amostragem

  • Passos para a amostragem

    Definio do tamanho da amostra nmero de elementos a seleccionar

    Sobre dimensionamento para precaver as perdas ou no respostas

    Escolha de uma boa lista (pool) da populao

    Mtodo aleatrio para a seleco dos elementos

    Mtodo rigoroso de colheita dos dados

  • Recolha da amostra(como que eu fao a recolha da amostra?)

    No h respostas mgicas!

    Devemos procurar no incorrer em erros sistemticos? Erros que a metodologia estatstica no

    controla

  • Que factores podem afectar o fenmeno que estamos a medir? Tempo? Espao/geografia? Vegetao/gua?

    Evitar erro sistemtico! No fazer amostragem sempre

    no mesmo dia da semana; mesma hora do dia.

    No deixar amostragem depender do critrio pessoal Fazer plano de amostragem Fazer aleatorizao

  • A amostra recolhida numa nica sesso ou em vrias?

    Uma nica sesso pode no cobrir toda a variabilidade existente

    aleatorizar

  • Planear! Conceber uma grelha

    Listar freguesias/localidades/reas Listar, listar, listar

    Seleccionar aleatoriamente Recolher

  • 1 2 3 4

    5 6 7 8

    9 10 11 12

    13 14 15 16

    Lista de nmeros aleatriosExcelSPSSEtc.

  • 716109

    4334

    710119

    117516

    122616

    511116

    1610113

    14155

    6512

    7131316

    10577

    313138

    613613

    47167

    147910

    127116

    Sequncia de nmeros aleatriosObtida com o EXCEL (Folha de dados)

  • Leitura da lista de nmeros aleatrios Escolher ao acaso uma posio (apontar de olhos

    fechados) Numa lista feita expressamente para o efeito no muito

    importante verificar esta regra Escolher uma direco (esq-dta) ou (cima-para-

    baixo) Listar nmero Se o nmero repetido ignorar e passar ao

    seguinte Se o nmero no existe nos nossos itens (ex 18 e s

    temos itens de 1 a 16) ignorar e passar ao seguinte

  • Exemplo

    Vamos ler a esq-dta (em linha) Escolher 3 unidades amostrais Escolhida posio inicial suponhamos

    linha 4, coluna 2 6;13 O nmero seguinte 6 novamente, j faz

    parte da lista, passamos ao seguinte 8 A lista final 6;13;8

  • 1 2 3 4

    5 6 7 8

    9 10 11 12

    13 14 15 16

    resultado

    Amostra probabilstica todos os elementos tiveram a mesma probabilidade de fazer parte da amostra

  • Regra prtica para fazer uma lista no Excel Numa qualquer clula, escrever:

    =int(aleatrio()*k+1) Arrastar frmula ao longo de vrias clulas k o nmero mximo de itens da lista

    A funo aleatrio() voltil, sempre que fizermos alguma operao no excel a lista muda.

  • Tamanho da amostra(qual a dimenso da amostra que preciso?)

    Perguntas comuns que no se devem fazer! Qual o tamanho de amostra significativo? Qual o tamanho de amostra representativo

    para o meu caso?

  • Coisas que se deve evitar dizer: No h dados nenhuns sobre este meu tema;

    No se sabe nada sobre o assunto; Estamos a partir do zero.

    Se for o caso, o que se pode fazer estmais ou menos bem definido

  • Tamanho da amostra(qual a dimenso da amostra que preciso?)

    Situaes usuais Uma populao

    Propores/prevalncias Mdias

    Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo

    Correlao Vrias populaes

    ANOVA Regresso Emparelhamento

    Propores Mdias

  • Tamanho da amostra(qual a dimenso da amostra que preciso?)

    Situaes usuais Uma populao

    Propores/prevalncias Mdias

    Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo

    Vrias populaes ANOVA

    Emparelhamento Propores Mdias

    Situaes mais comuns

  • Tamanho da amostra(qual a dimenso da amostra que preciso?)

    Situaes usuais Uma populao

    Propores/prevalncias Mdias

    Duas populaes Comparao de Propores Comparao de Mdias Correlao Risco relativo

    Vrias populaes ANOVA

    Emparelhamento Propores Mdias

    Situaes mais fceis

  • Para determinar um tamanho de amostra o investigador tem de responder a diversas

    questes

    Qual a variao dos dados? Qual o erro que tolera na concluso de

    que existe um efeito/diferena quando na realidade ele(a) no existe?

    Qual a magnitude do efeito/diferena a detectar?

    Qual a certeza com que queremos detectar o efeito/diferena?

  • Passos para a amostragem

    Definio do tamanho da amostra nmero de elementos a seleccionar

    Sobre dimensionamento para precaver as perdas ou no respostas

    Escolha de uma boa lista (pool) da populao

    Mtodo aleatrio para a seleco dos elementos

    Mtodo rigoroso de colheita dos dados

  • Linguagem estatstica

    Erro tipo I () Probabilidade de rejeitar a hiptese nula quando verdadeira

    Erro tipo II () Probabilidade de no rejeitar a hiptese nula quando esta falsa

    Potncia (1-) Probabilidade de rejeitar a hiptese nula quando falsa

    Confiana (1-) Probabilidade de no rejeitar a hiptese nula quando verdadeira

    Quantis de distribuies Normal T-de-student F

    Diferena (Effect size)

  • A considerar

    Qual a variao dos dados? Quando se trata de uma proporo

    (estimar a prevalncia de asma regio Norte)

    Basta ter a estimativa da proporo (estimar a prevalncia de carraas na regio Norte)

    No um problema muito grave

    Quando se trata de uma mdia (nvel de colesterol numa populao especfica)

    necessrio ter uma noo do valor mdio esperado e da respectiva varincia

    reviso bibliogrfica

    Estudo piloto

  • A considerar

    Qual o erro que toleramos na concluso de que existe um efeito/uma diferenaquando na realidade ele(a) no existe?

    Estamos a falar do alfa, , nvel de significncia

    usual usar-se 5%

  • A considerar

    Qual a magnitude do efeito a detectar? Unidades (pontos) percentuais

    Diferena das mdias

  • A considerar

    Qual a certeza com que queremos detectar o efeito/diferena? Estamos a falar da potncia

    So usuais valores de 90%, No invulgar o uso de 80%

    Maior potncia = maior tamanho da amostra

  • Frmula simples para determinar a dimenso da amostra

    Para uma mdia

    s o desvio padro d a diferena que se pretende ser capaz de

    detectar

    2

    24

    d

    sn =

  • exemplo

    Um investigador procura determinar o QI mdio em indivduos do 3Ciclo de uma determinada rea urbana com um intervalo de confiana de +-6 pontos

    Um estudo anterior determinou que o desvio padro do QI do mesmo tipo de indivduos numa cidade semelhante era 15 pontos.

    Determine o tamanho de amostra necessrio para cumprir os objectivos do investigador com um nvel de confiana de 95%.

  • Exemplo (continuao)

    So necessrios pelo menos 25 indivduos

    256

    1542

    2

    =

    =n

  • Frmula simples para determinar a dimenso da amostra

    Para uma proporo/prevalncia

    Esta frmula idntica da mdia com s^2=p(1-p) d a diferena que se pretende ser capaz de detectar

    2

    )1(4

    d

    ppn

    =

  • exemplo

    Um investigador pretende determinar a sensibilidade de um novo teste de diagnstico para um determinado cancro.

    Com base em informao dum estudo piloto, espera que 80% dos pacientes com esse cancro tenham teste positivo.

    Quantos pacientes so necessrios para estimar um intervalo de confiana de 95% para a sensibilidade do teste na forma 0,80+-0,05?

  • Exemplo (continuao)

    So necessrios pelo menos 256 pacientes

    25605,0

    2,08,042

    =

    =n

  • Exemplo (continuao)

    641,0

    2,08,042

    =

    =n

    640001,0

    2,08,042

    =

    =n

    Nota: preciso 4 x maior = tamanho da amostra 16 x maior

  • Como dimensionar uma amostra?Como dimensionar uma amostra?

    Considere-se d a preciso absoluta: (((( )))) 2

    1Vzd ====

    Para uma Populao Infinita (Amostragem Com Reposio):

    Estimao de : 2

    2

    21

    2

    d

    zn

    =

    Estimao de p :2

    2 )1(2

    1

    d

    ppz

    n

    ====

  • Usando as frmulas rigorosas no exemplo anterior (proporo) fixando o size effectem 0,05

    O Tamanho amostral seria 246 para alfa 5%

    seria 173 para alfa 10% seria 425 para alfa 1%

  • Usando as frmulas rigorosas no exemplo anterior (para a mdia) fixando alfa em 5%

    O Tamanho amostral seria 24 para effectsize 0,05

    seria 61 para effect size 0,1 seria 6146 para effect size 0,01

  • Frmula simples para determinar a dimenso da amostra

    Para comparar duas propores

    ( )( )210

    116

    pp

    ppn

    =

    2

    10 ppp+

    =

  • exemplo

    Em duas regies, A e B, fez-se uma estimativa da percentagem de Rhipicephalus sanguineus e que as estimativas apontaram para uma proporo de 30% no conjunto de todas as carraas encontradas na regio A, na regio B a mesma proporo foi de 25%. Qual devia ser o tamanho amostral para que fosse possvel averiguar se estas duas populaes so distintas?

  • Exemplo (continuao)

    3,00 =p

    25,01 =p

    127605,0

    )275,01(275,0162

    =

    =n

    275,0=p

    necessrio amostrar pelo menos 1276 carraas em cada regio

  • Exemplo (continuao)

    5,00 =p

    45,01 =p

    159605,0

    )475,01(475,0162

    =

    =n

    475,0=p

    necessrio amostrar pelo menos 1596 carraas em cada regio

    Suponhamos que as prevalncia estimadas so 50% e 45% repectivamente

  • Usando as frmulas rigorosas no exemplo anterior os resultados anlogos seriam

    1246 1562

  • Voltando aos exemplos iniciais

  • Exemplo 1

    Existe diferena na eficcia do Salbutamol e do ipratropium no tratamento da Asma?

    O investigador delineou um ensaio aleatorizado do efeito destes frmacos na FEV1 (Forced Experatory Volume durante um segundo) ap uma semana do tratamento.

    Um estudo anterior relatou que a mdia do FEV1 em pessoas com asma tratadas 2.0 litros, com desvio padro de 1.0 litros.

    O investigador pretende ser capaz de detectar uma dierena de 10% ou mais na mdia de FEV1 esntre is dois grupos de tratamento.

    Quantos pacientes so necessrios em cada grupo (Salbutamol e ipratropium ) para alfa (bi-caudal) de 5% e uma potncia de 80%?

  • Variveis

    Que variveis esto envolvidas neste problema?

    de que tipo so estas variveis? Como usual estudar (estatisticamente)

    este problema, qual o teste usado?

  • Hipteses

    Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?

  • Exemplo 2

    Fumadores idosos tm maior incidncia de cancro da pele do que os no fumadores?

    Uma reviso da literatura cientfica pr existente sugere que a incidncia 5 anos de cancro da pele cerca de 0,20 nos no fumadores idosos.

    A um nvel de alfa de 5% (bi-caudal) e uma potncia de 80%, quantos fumadores e no fumadores necessrio estudar para determinar se a incidncia 5 anos de cancro da pele pelo menos 0,30 nos fumadores?

  • Variveis

    Que variveis esto envolvidas neste problema?

    de que tipo so estas variveis? Como usual estudar (estatisticamente)

    este problema, qual o teste usado?

  • Hipteses

    Qual a hiptese em estudo? Qual a hiptese nula? Qual a hiptese alternativa?

  • Fundamentos para a determinao do tamanho

    amostralPaulo Nogueira

  • Medio de variveis primrias

    O investigador tem de decidir que variveis sero includas nos clculos

    E.g. o uso de uma varivel dicotmica, como o gnero/sexo, como primria resultar numa amostra maior do que se for usada uma escala de 7 pontos

  • Medio de variveis primrias

    Um mtodo de determinar o tamanho amostral (TA) especificar as margens de erro para os itens que so tidos como vitais para o inqurito/estudo

    necessria uma estimao do TA para cada um desses itens

  • Medio de variveis primrias

    Uma vez completos esses clculos, teremos N menores para variveis numricas, continuas N maiores para variveis categoriais e dicotmicas

    Se os n so todos muito prximos escolher o maior

    Se os n variam substancialmente pode ser difcil escolher o maior Oramento Excesso de preciso

    Considerar o relaxamento de algum dos objectivos Desistir de alguns itens

  • Estimao do erro

    Cochran (1997) usa dois factores chave:

    1. O risco que o investigador est disposto a aceitar a margem de erro

    2. O nivel, alfa, o nvel de risco que o investigador est disposto a aceitar de que a verdadeira margem de erro exceda a margem de erro aceitvel (erro tipo 1)

    Nas frmulas de cochran o alfa est integrado no t

  • Margem de erro aceitvel

    Dados categoriais 5% Dados contnuos 5%

  • Estimao da varincia

    A estimao da varincia para as variveis primrias um elemento vital para na determinao do clculo do TA

    O investigador no controla e esta tem de ser incorporada nas frmulas

    Solues1. Fazer amostragem em dois passos2. Usar dados de um estudo piloto3. Usar dados de estudos anteriores da mesma populao ou de

    populaes semelhantes4. Estimar ou adivinhar a estrutura da populao usando a ajuda

    lgica de alguns resultados matemticos

  • Estimao da varincia (cont)

    Racionais que podem ser usados: Variveis categoriais usar 50%

    Variveis numricas ou contnuas Limites esperados dividir por 6 (nmero de desvios

    padro onde recaem aproximadamente 99% dos valores)

  • Determinao do tamanho amostral - bsico

    Dados numricos/contuos

    Exemplo Alfa = 0,05 Escala de 7 pontos Erro aceitvel 3% Estimativa do desvio

    padro 7/6 = 1.167

    2

    22

    d

    stno

    =

    118)03.0*7(

    167.196.12

    22

    =

    =on

  • Determinao do tamanho amostral bsico (cont)

    Supondo que o tamanho da populao conhecido N=1679

    O valor obtido n =118 excede 5% da populao

    1679*0,05 = 84 Deve corrigir-se o TA

    final

    N

    n

    nn

    0

    0

    1+

    =

    111

    1679

    1181

    118=

    +

    =n

  • Determinao do tamanho amostral bsico (cont)

    Considerar oversampling Correio acrescentar 40-50%

    Oneroso mas necessrio

    Mtodos que podem ser usados para antecipar a taxa de resposta

    1. Fazer amostragem em dois passos2. Usar resultados de estudos piloto3. Usar taxas de resposta de estudos anteriores semelhantes4. Estimar a taxa de resposta (outros investigadores,

    literatura, etc)

  • Determinao do tamanho amostral bsico (cont)

    Dados categoriais

    Exemplo Alfa = 0,05 Erro aceitvel 5% Estimativa do desvio

    padro da escala 0,5

    2

    2 )1(

    d

    pptno

    =

    38405.0

    5.05.096.12

    2

    =

    =on

  • Determinao do tamanho amostral bsico (cont)

    Supondo que o tamanho da populao conhecido N=1679

    O valor obtido n =118 excede 5% da populao

    1679*0,05 = 84 Deve corrigir-se o TA

    final

    N

    n

    nn

    0

    0

    1+

    =

    313

    1679

    3841

    384=

    +

    =n

  • Outras consideraes sobre o clculo amostral

    Anlise de regresso Para usar a regresso linear mltipla a razo para o

    nmero de variveis independentes no deve ser nunca abaixo de 5.

    Caso contrrio existe elevado risco de overfitting resultado demasiado especficos da amostra e pouco generalizveis para a populao

    Uma razo mais conservativa de 10 observaes para cada varivel apontada como ideal pela literatura

    Estas razes so crticas para regresses que usam variveis contnuas, onde em regra necessrio menor TA

  • Outras consideraes sobre o clculo amostral (cont)

    Exemplo Populao N=1679

    TA dados categoriais n=111 TA dados contnuos n=313

    3162Categorial

    1122Contnuo

    10 para 15 para 1

    Nmero de regressoresTipo varivel

  • Anlise Factorial

    Mesmo racional que para a regresso linear

    No fazer com menos de 100 observaes

    Aumentar a amostra torna loads mais baixos significativos