LEITURA-CRITICa dos dados

download LEITURA-CRITICa dos dados

of 28

description

Estatística descritiva

Transcript of LEITURA-CRITICa dos dados

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 31

    3.1. Introduo

    Neste captulo, sero abordados alguns aspectos que podem ser utilizados para organizar,resumir e descrever um conjunto de dados. Os elementos bsicos necessrios para esta abordagemso: tabelas de freqncia, grcos e medidas descritivas. Vale ressaltar que tais elementos devemconsiderar a natureza dos dados.

    As tcnicas estudadas neste captulo permitem detectar anomalias e inconsistncia nos dados,apresent-los de forma que a tabela e a visualizao proporcionem maior compreenso nainterpretao e caracterizar o perl dos pacientes.

    3.2 Montagem do banco de dados e Classificao das Variveis

    A seguir ser descrito, resumidamente, um exemplo utilizado no restante do captulo parailustrar os mtodos estatsticos. Nota-se que este exemplo foi adaptado, ou seja, as informaescontidas no banco de dados so hipotticas, a m de atingir os objetivos propostos para o capitulo.

    Trata-se de um estudo retrospectivo, caso e controle, com informaes dos pronturios de39 pacientes com cncer de mama. Deniram-se os casos como aquelas pacientes associadas gravidez ou lactao e os controles como aquelas pacientes que no estavam associadas gravidezou lactao. Todas estas pacientes foram acompanhadas no perodo compreendido entre janeirode 1980 e dezembro de 2000. Integram o pronturio as seguintes variveis listadas na tabela 3.1.

    Aps sua coleta nos pronturios, os dados devem ser inseridos em uma planilha eletrnica,em que cada linha indica um paciente e cada uma das colunas denomina uma varivel que, comovimos anteriormente, uma caracterstica de interesse que medida em cada paciente da amostraou populao. A tabela 3.2 representa a planilha das pacientes com cncer de mama contendo 39linhas e 10 colunas. A ltima coluna, denominada sg1 expressa o intervalo de tempo desde a datado diagnstico at a data da ltima consulta, em meses.

    Captulo 3Organizao e sntese de dados

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 31

  • 32 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    De acordo com a tabela 3.2, por exemplo, a varivel idade assume valores numricos em anos.A presena de gravidez nas pacientes foi codicada como 1 se estiver associada gravidez e 0 seno estiver associada. Isto no signica que a varivel caso-controle apresente valores numricoscomo da varivel idade. Portanto essas duas variveis tm naturezas distintas no que tange aosseus valores. Mediante este acontecimento, o primeiro passo para realizar as anlises estatsticasser classicar a natureza das variveis como quantitativa, qualitativa ou datas, como denidas nocaptulo 2.

    Podemos notar, no entanto, que a classicao da natureza das variveis depende de certasparticularidades. Exemplicando, a varivel idade, medida em anos e meses, pode ser consideradacomo qualitativa ordinal, caso seja apurada no banco de dados em faixa etria (0 a 5 anos, 6 a 10anos e acima de 10 anos). Por outro lado, a varivel idade, medida em anos e meses, pode serconsiderada como quantitativa discreta, caso seja apurada no banco de dados em anos completos.

    As demais variveis, da maneira que se encontram no banco de dados, podem ser classicadascomo qualitativas (SCC, FuP, GM e T), datas (DDIAG, DuCONS) e quantitativa (N).

    3.3 Tabelas de Freqncias e Grficos

    Recebe a denominao dados brutos, reunio de toda a informao resultante da coleta dedados, e armazenada em uma planilha eletrnica. Evidentemente, extrair de imediato a informaoa partir dos dados brutos seria uma tarefa rdua caso o nmero de linhas e de colunas da planilhafosse elevado.

    Tabela 3.1 - Variveis medidas no estudo caso-controle: prognstico do cncer de mamaassociado gravidez ou lactao

    NPIdade da Paciente (IDE)Presena da gravidez, Caso eControleData do diagnstico (DDiag)Grau de Malignidade (GM)

    Tamanho do Tumor (T)

    Nmero de Ndulos LinfticosAxilares acometidos (N)Data da ltima consulta (DUCONS)Estado Atual (FUP)

    Nmero de pronturioMedida em anos

    0 - Controle1 - Caso

    dd/mm/aa0-G11-G22-G3

    9-Ignorado0-T01-T12-T23-T34-T45-TX

    9-IgnoradoMedido em valor absoluto

    dd/mm/aa0-Viva

    1-bitoFonte: dados hipotticos.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 32

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 33

    Para melhor anlise dos dados necessrio apresent-los e descrev-los de forma organizadae sucinta. As ferramentas utilizadas para esta tarefa so as tabelas, os grcos e as medidasnumricas. Passaremos a estud-los de acordo com a natureza dos dados.

    Tabela 3.2 - Planilha do Banco de dados no estudo de Prognstico do cncer de mamaassociado gravidez ou lactao

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 33

  • 34 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    3.3.1 Variveis Qualitativas (Ordinais e Nominais)

    Com base no banco de dados da tabela 3.2, a varivel caso-controle, classicada como varivelqualitativa nominal, ser resumida por meio de uma tabela de freqncia. Denomina-se tabela defreqncia uma tabela que contm as categorias da varivel representada em cada linha, Caso eControle, neste exemplo. Para cada categoria da varivel associamos na primeira coluna a contagemde ocorrncias (freqncia absoluta) e para a segunda coluna, relacionamos em cada categoria ospercentuais que essas contagens representam do total (freqncia relativa). Esse tipo de tratamentodos dados representa distribuio de freqncia das pacientes segundo a varivel Caso-Controle,como descrito na tabela 3.3.

    Tabela 3.3 - Distribuio da amostra segundo varivel Caso-Controle

    Status Caso-ControleCasoControleTotal

    Freqncia Absoluta (n)221739

    Freqncia Relativa (%)56%44%

    100.0%

    Fonte: Dados da pesquisa

    Tabela 3.4 - Distribuio da amostra segundo o tamanho do tumor

    Tamanhodo TumorT1T2T3T4TxIgnoradoTotal

    Freqncia Absoluta (n)

    597

    1422

    39

    FreqnciaRelativa (%)

    12,8%23,1%17,9%35,9%5,1%5,1%

    100,0%

    Freqncia AbsolutaAcumulada(n)

    51421353739----

    Freqncia RelativaAcumulada (%)

    12,8%35,9%53,8%89,7%94,9%

    100,0%----

    Fonte: Dados da pesquisa

    Compe o banco de dados da tabela 3.2, uma amostra de 39 pacientes com cncer de mamacomposta por 22 mulheres grvidas (56%) e 17 mulheres sem a presena de gravidez (44%). Atabela 3.3 exibe essa distribuio.

    Observe que, para variveis cujas categorias apresentam ordenao (qualitativas ordinais), aslinhas da tabela de freqncia devem ser dispostas na ordem existente das categorias. Nesse caso,faz sentido adicionar duas colunas contendo as freqncias acumuladas (absoluta e relativa). Afreqncia acumulada at uma determinada categoria calculada pela soma das freqncias detodas as categorias da varivel, menores ou iguais categoria considerada. Ilustrando, at umtamanho de tumor classicado por T4, foram encontrados 35 pacientes, o que corresponde 89,7%do total (tabela 3.4).

    A utilizao de recursos visuais na elaborao de grcos para ilustrar as tabelas de freqnciaspode ser mais facilmente compreendida, permitindo a interpretao rpida das suas principaiscaractersticas. Em funo disto, abordaremos, neste momento, dois tipos de grcos para variveisqualitativas (grco de setor e grco de colunas).

    O grco de setor, popularmente conhecido como grco de pizza ou de torta, representadoem um sistema de coordenadas polares, consiste na diviso de um disco em setores circulares

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 34

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 35

    correspondentes s freqncias de cada categoria da varivel analisada. Como exemplo, mostramosna gura 3.1 o grco de setor para a varivel caso-controle, obtida a partir da tabela 3.3. Repareque as informaes da gura 3.1 so as mesmas da tabela 3.3.

    FIGURA 3.1 - Distribuio da amostra segundo a varivel Caso-Controle

    FIGURA 3.2 - Grfico de Colunas segundo o tamanho do tumor

    O grco de colunas representado por um plano cartesiano onde no eixo das abscissas estorepresentadas as categorias da varivel, enquanto no eixo das ordenadas esto representadas asfreqncias (absoluta ou relativa). Neste grco, cada coluna representa uma categoria com alturaassociada a sua freqncia (absoluta ou relativa). A gura 3.2 apresenta o grco de colunas paraa varivel tamanho do tumor, obtida a partir da tabela 3.4. Note que as informaes da gura 3.2so as mesmas da tabela 3.4.

    um ponto importante a se dizer a respeito de ambos os grcos que as freqncias relativasdas categorias devem somar 100%. Alm disso, a construo do grco de setor se adapta melhorpara variveis qualitativas nominais, enquanto para variveis qualitativas ordinais a sugesto seriao grco de colunas.

    3.3.2 Variveis Quantitativas (Discretas e Contnuas)Particularmente, quando nos deparamos em situaes em que a varivel quantitativa discreta

    apresenta poucos valores, comum adotarmos o mesmo procedimento realizado anteriormente,para as variveis qualitativas ordinais, assumindo que cada valor uma categoria e que exista uma

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 35

  • 36 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    ordem natural entre as categorias. Exemplicando, a tabela 3.5 indica a distribuio do nmero denodos linfticos axilares acometidos, que assumiu onze valores distintos.

    Tabela 3.5 - Nmero de nodos linfticos axilares acometidos nas pacientes com cncer demama

    Nmero deNodosLinfticosAxilaresAcometidos01234567891011Total

    FreqnciaAbsoluta

    (n)

    932222421246

    39

    FreqnciaRelativa

    (%)

    23,1%7,7%5,1%5,1%5,1%5,1%

    10,3%5,1%2,6%5,1%

    10,3%15,4%

    100,0%

    Freqncia Absoluta

    Acumulada(n)

    91214161820242627293339----

    Freqncia Relativa Acumulada

    (%)

    23,1%30,8%35,9%41,0%46,2%51,3%61,5%66,7%69,2%74,4%84,6%

    100,0%----

    Fonte: Dados da pesquisa

    Analisando a tabela 3.5 e a gura 3.3, o maior percentual de nodos linfticos axilaresacometidos nas pacientes, de 23,1% que corresponde a 0 nodos (nenhum nodo). Compem opercentual restante, 15,4% de pacientes com 11 nodos, 10,3% de pacientes com 10 nodos, 10,3%de pacientes com 6 nodos e 7,7% de pacientes com 1 nodo, entre outros descritos naquela gura.

    FIGURA 3.3 - Distribuio do nmero de nodos linfticos axilares nas pacientes com cncerde mama

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 36

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 37

    Por outro lado, se a varivel contnua ou, se discreta, mas assume um grande nmero devalores distintos, considerar cada valor como uma categoria na tabela de freqncia e no grcode colunas caria invivel. Nestes casos, para se ter uma melhor visualizao do seu comporta-mento de modo a facilitar sua compreenso, conveniente agrupar os valores em classes ouintervalos. Normalmente, essas classes contm intervalos iguais.

    uma questo polmica quanto construo da tabela de freqncia para variveisquantitativas seria a determinao do nmero de classes e a amplitude da classe. Repare que adistribuio de freqncia pode ser diferente quando mudamos o nmero e a amplitude de classesda tabela. Amplitudes muito grandes para as classes resumem demais a informao dos dados,pois poucas classes so construdas. Entretanto, amplitudes muito pequenas gerariam muitasclasses, dicultando a interpretao dos dados. uma sugesto para estabelecer o nmero declasses, adequadamente, utilizar a frmula desenvolvida pelo matemtico Sturges; muitosprogramas estatsticos adotam este critrio. Portanto toma-se como nmero de classes o inteiromais prximo encontrado pela seguinte frmula:

    Frmula de Sturges: i =1 + 3,3 log n

    Onde i = nmero de classesn = nmero total de dadoslog= logaritmo na base 10

    Esta frmula utilizada como referencial, mas ajustes no nmero das classes so permitidospara tornar a tabela mais clara.

    A tabela 3.6 ilustra a representao da varivel quantitativa idade da Tabela 3.2 em umavarivel qualitativa faixa etria.

    Tabela 3.6 - Freqncia para Idade

    Faixa Etria

    22 2626 3030 3434 3838 4242 46Total

    Freqncia Absoluta (n)

    139

    1664

    39

    FreqnciaRelativa (%)

    2,56 %7,69 %

    23,08 %41,03 %15,40 %10,24 %

    100,00 %

    Freqncia AbsolutaAcumulada(n)

    14

    13293539----

    Freqncia RelativaAcumulada (%)

    2,56 %10,26 %33,33 %74,36 %89,76 %

    100,00 %----

    Fonte: Dados da pesquisa

    Em relao aos elementos da tabela de freqncia da Tabela 3.6, podemos enumerar as classes,que so os agrupamentos de valores num intervalo de abrangncia. Para o exemplo da Tabela 3.6encontramos seis classes. Cada classe constituda de um limite inferior e um limite superior. Osmbolo estabelece incluso do valor do limite inferior e excluso do valor do limite superiornum intervalo de classe. A amplitude de um intervalo de classe a diferena entre o limite superiore inferior de uma classe, que, nesse exemplo, 4. A freqncia absoluta a quantidade deobservaes de uma classe. Finalizando, a freqncia relativa obtida em termos percentuais dafreqncia absoluta.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 37

  • FIGURA 3.4 - Histograma da idade

    FIGURA 3.5 - Histograma de dados hipotticos da idade de pacientes sendo ajustado pelacurva de distribuio normal

    38 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    A representao visual da distribuio de freqncia de uma varivel quantitativa realizadapor meio de um grco denominado histograma, mostrado na Figura 3.4. Histograma umconjunto de retngulos justapostos com as bases sobre um eixo dividido em classes do mesmotamanho e altura igual freqncia absoluta ou relativa da classe correspondente.

    Note que opcional a determinao da freqncia absoluta ou freqncia relativa naconstruo do histograma, pois a escolha no muda a forma da distribuio. prefervel o uso dafreqncia relativa no histograma, pois ela facilita a comparao com outros histogramas, ainda queapresentem tamanhos de amostras distintos. Outra vantagem do uso da freqncia relativa estabelecer uma relao entre o histograma e a funo de distribuio Normal.

    Os resultados apontaram, conforme mostram a tabela 3.6 e a gura 3.4, que 64,11% daspacientes com cncer de mama, nesta amostragem, possuem idade entre 30 a 38 anos, sendo quedeste percentual, 41,03% apresentam idade entre 34 a 38 anos.

    Ao se construir o histograma da idade na gura 3.4, obtm-se uma poligonal, aproximadamente,simtrica. Em situaes deste tipo, comum adotarmos a funo de distribuio Normal (ougaussiana) para descrever o fenmeno estudado. O objetivo de se aproximar uma funo dedensidade aos dados (neste exemplo utilizou-se a funo normal) devido facilidade do clculode rea e esta rea corresponde probabilidade de interesse. A gura 3.5 ilustra dados hipotticosde idade de pacientes sendo ajustados pela curva da distribuio normal; nela est assinalado quea probabilidade de pacientes com idade igual ou maior do que 35 anos dada pela rea sombreada.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 38

  • FIGURA 3.6 - Curva de distribuio normal

    L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 39

    A distribuio de probabilidade normal desempenha papel preponderante em infernciaestatstica. Nesta rea da estatstica, a mdia amostral a varivel de maior interesse e conhecer asua distribuio de probabilidade de grande relevncia. Supondo uma coleta de amostra superiora 30 pacientes, podemos usar a distribuio normal como modelo adequado para descrever osresultados da mdia amostral, mesmo se a populao de onde a amostra foi retirada no seguir adistribuio normal. Esse o resultado do Teorema Central do Limite (principal teorema naEstatstica) e que mostra a grande importncia da distribuio normal.

    Em se tratando da curva de distribuio normal (gura 3.6), entende-se que dois parmetrosdevem ser pr-especicados para que possa calcular as probabilidades de interesse. O primeiroparmetro a mdia (m), que determina o valor do centro da curva, enquanto que o desvio-padro(s) o segundo e este determina a largura da curva normal. Assim, quanto menor o valor do desvio-padro, menor variabilidade dos dados e, portanto, menor a largura da curva.

    Com relao s caractersticas da distribuio normal, pode-se dizer que: A mdia (m) da distribuio corresponde ao valor da mediana e moda; A curva normal assinttica ao eixo x em ambas as direes, ou seja, suas extremidades

    prolongam para o innito; A curva normal, alm de ter uma rea total igual a 1, simtrica em torno da mdia.

    Muitos mtodos estatsticos baseiam-se na suposio de normalidade dos dados, tais comoteste t, ANOVA (anlise de varincia), coeciente de correlao de Pearson, anlise de regresso, etc.Caso a suposio de normalidade da varivel de estudo seja violada, classicamos a varivel comoassimtrica, ou seja, a varivel no apresenta distribuio normal, e, sendo assim, devemos escolhertestes no-paramtricos para a anlise estatstica, quando no for possvel corrigir esta violao ouquando no for possvel propor outra distribuio de probabilidade. Os testes estatsticos no-paramtricos exigem menos pr-requisitos, mas produzem testes de signicncia com menos poderde deteco, quando comparados com os testes paramtricos.

    A suposio de normalidade dos dados avaliada por meio de testes especcos disponveisem programas estatsticos. Os dois mais comuns so o teste Shapiro-Wilks e o teste de Kolmogorov-Smirnov. Cada um calcula o nvel de signicncia para as diferenas em relao a uma distribuionormal (HAIR et al., 2009). Se este nvel de signicncia, calculado pelo programa estatstico,apresentar valor p>0,05, por exemplo, podem ser empregados testes paramtricos na anlise dosdados.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 39

  • 40 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    3.4 Medidas Descritivas

    A descrio dos dados coletados em uma amostragem ou obtidas de toda a populao-alvo,permite uma idia da sua distribuio, mas no fornece valores numricos necessrios aos clculosestatsticos. Isto feito pelas medidas descritivas.

    3.4.1 Medidas de Tendncia Central uma maneira de descrever os dados de uma forma mais condensada do que usando as

    tabelas de freqncia para variveis quantitativas representar por um valor nico. Este valor nico um nmero que seja o mais semelhante possvel aos demais nmeros do conjunto. Assim, dene-se este nmero como uma medida central ou que tende ao centro.

    Existem trs medidas de tendncia central para representar as variveis quantitativas dobanco de dados: a mdia, a mediana e a moda. Deniremos cada uma dessas medidas de formasucinta e abordaremos seus pontos positivos e negativos.

    I . MdiaA medida de tendncia central mais usual a mdia aritmtica, calculada pela soma de todas

    as observaes de um conjunto de dados dividida pelo tamanho do mesmo.

    II . MedianaA mediana denida como sendo o valor, em um conjunto de dados ordenados de maneira

    crescente, que os separa em dois subgrupos de mesmo tamanho. Entende-se que um valor talque a metade dos valores do banco de dados so maiores ou iguais mediana, enquanto a outrametade menor ou igual a ela.

    III . ModaO valor mais freqente de um conjunto de dados denominado Moda. Quando dois valores

    aparecem com a mesma freqncia mxima, cada um deles uma moda, e o conjunto se dizbimodal. Se mais de dois valores ocorrem com a mesma freqncia mxima, cada um deles umamoda, e o conjunto multimodal. Quando no existe um valor mais freqente que os demais, oconjunto no tem moda (amodal).

    Nos recursos visuais, no caso especco, o histograma, a moda ocorre representada por umpico de freqncia. Em algumas situaes, observam-se histogramas com dois picos, sendoclassicada como distribuio bimodal. Neste caso, h indcios de que a populao estudada , defato, um cruzamento de duas populaes estatsticas. Exemplicando, suponha que a varivelaltura dos pacientes de uma clnica seja coletada, considerando conjuntamente os homens emulheres, e, em seguida, representada visualmente por um histograma. Pela gura 3.7, ohistograma apresentou dois picos de freqncia nas classes, demonstrando a existncia de duaspopulaes, uma vez que, em mbito geral, os homens so mais altos do que as mulheres.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 40

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 41

    IV . Exemplo de medidas de tendncia central imprescindvel apresentar os valores de todas as medidas de tendncia central, simulta-

    neamente, em uma tabela. A ttulo de ilustrao apresentamos, na tabela 3.7, as medidas deresumo para a varivel idade das pacientes com cncer de mama do banco de dados da tabela 3.2.

    FIGURA 3.7 - Histograma das estaturas (metros)

    Tabela 3.7 - Medidas de tendncia central para a varivel idade das pacientes com cncerde mama

    VarivelIdade (anos)

    n39

    Mdia35,58

    Mediana35,2

    Moda35

    Fonte: Dados da pesquisa

    Para representar a idade das pacientes com cncer de mama do banco de dados, usando amdia, pode-se dizer que a idade mdia das pacientes de 35,58 anos. Quanto mediana,interpreta-se que a metade das pacientes tem idade menor ou igual a 35,2 anos e a outra metadetem idade maior ou igual a 35,2 anos. No conjunto de dados existe uma moda, apenas um valor quese repete com maior freqncia, a idade de 35 anos. Assim, conforme cou evidente a partir dosresultados da tabela 3.7, as trs medidas de tendncia central apresentam valores semelhantesentre si. Mas isso s acontece quando a varivel segue uma distribuio de freqncias especca(distribuio gaussiana, tambm denominada de Normal).

    V . Vantagens e Desvantagens de medidas de tendncia centralA mdia uma das medidas mais utilizadas no quesito resumo de medidas, pois apresenta

    propriedades estatsticas mais interessantes, no que diz respeito ao assunto mtodos de estimao.O clculo da mdia leva em considerao todos os valores do banco de dados. Por este motivo amdia sensvel a valores extremos (muito grande ou muito pequeno), ou seja, o valor calculadodesloca a representao do centro. Em situaes desse tipo aconselhvel utilizar-se da mediana,pois no afetada pelos extremos do conjunto.

    Apesar da moda no ser uma medida de tendncia central muito conhecida, ela apresentapontos positivos em relao s demais. Especicamente, em situaes onde a varivel de interessepossui distribuio de freqncias bimodais ou multimodais.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 41

  • 42 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    Observe que as medidas de tendncia central podem ser usadas como uma medida-resumo,tanto para as medidas discretas como para as contnuas.

    3.4.2 Medidas de Disperso ou de VariabilidadeNem sempre uma nica medida capaz de resumir, satisfatoriamente, um conjunto de dados.

    Suponha uma situao em que dois grupos de pacientes, caso e controle, esto sendo avaliados emrelao sua idade. natural utilizarmos como medida de resumo o clculo da mdia pararepresentar cada grupo. Entretanto, percebe-se que ambos os grupos apresentaram a mesma idademdia. Neste caso, torna-se necessrio construir uma medida que permita efetuar uma anlise dograu de disperso dos dados.

    Nesta seo, abordaremos trs medidas de disperso ou de variabilidade (amplitude total,desvio-padro e coeciente de variao), apresentando seus pontos positivos e negativos.

    I . Amplitude TotalAmplitude total a diferena entre o maior e o menor valor observado no conjunto numrico. Apesar de ser uma medida fcil de calcular, a amplitude total possui limitaes, pois considera

    apenas os extremos do conjunto de dados (mximo e mnimo), desprezando todos os outros valores.

    II . Varincia e Desvio-PadroSe por um lado h limites para o uso da amplitude total para a obteno do grau de disperso ,

    ento, razovel propor uma medida que leve em considerao todas as diferenas do conjunto dedados.

    Por conveno, adota-se a mdia como valor referencial para calcular as diferenas dos valoresdo conjunto em relao a ela. Note que teremos um desvio (diferena) para cada elemento dobanco de dados. Se, por ventura, arriscssemos calcular o desvio mdio, o resultado daria semprezero. A explicao a este fato que a soma de desvios negativos com positivos se anulam. Por estemotivo, se fez necessrio, como sugesto, elevar ao quadrado cada desvio.

    Para sintetizar, a Varincia denida como a mdia aritmtica de todos os desvios ao quadrado.A Varincia representa uma medida de variabilidade, porm esta medida expressa em

    unidade diferente da unidade dos dados originais. Por esta razo utilizaremos o Desvio-Padro(D.P) que soluciona tal problema.

    O Desvio-Padro (D.P) exige o calculo prvio da Varincia para que seja extrada desta a raizquadrada. um ponto importante a se dizer sobre o Desvio-Padro que o valor calculado semprepositivo.

    Pode-se dizer que a interpretao do desvio-padro representa a distncia tpica (padro)dos dados em relao mdia. Isto signica que quanto maior o desvio-padro, maior hetero-geneidade existe entre os dados.

    III . Coeficiente de Variao Ao realizar o clculo do desvio-padro, ocasionalmente, nos deparamos com a diculdade

    de classic-lo como uma medida de baixa variao ou de alta variao. Por exemplo, um desvio-padro de 10 unidades pode ser classicado como baixa variao se a mdia de 1000 unidades;entretanto, se a mdia igual 100 unidades, um desvio-padro de 10 unidades signica uma altavariao.

    uma medida de variabilidade que condensa as duas informaes (mdia e desvio padro) o coeciente de variao, que consiste na diviso entre o desvio-padro (D.P) e a mdia aritmtica(c) multiplicado por 100.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 42

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 43

    Assim, entende-se que quanto menor o valor do coeciente de variao, menor a sua disperso,ou seja, os dados so mais homogneos.

    Como o Coeciente de Variao no possui unidade de medida, ou seja, adimensional,permite a comparao das variabilidades de diferentes conjuntos de dados.

    IV . Intervalo de Confiana de 95%Alm dessas medidas de disperso, em estatstica, existe outra medida muito usada em

    oncologia que o Intervalo de Conana de 95%. O fato das estimativas pontuais serem poucoconveis impe ao pesquisador o uso de estimativas intervalares. Restringir-nos-emos em denir,apenas, seu conceito, uma vez que em cada tipo de situao existe uma frmula especca para oclculo do Intervalo de Conana de 95%. Denomina-se Intervalo de Conana de 95% ao intervalode valores entre um parmetro amostral (tipos de parmetros amostrais existentes: mdia, medianaproporo, desvio-padro, coeciente de correlao, risco relativo, odds ratio, hazard ratio, etc) nosquais, com uma probabilidade (ou nvel de conana) de 95%, se situar o parmetro populacional.Para compreender melhor como realizado o clculo, necessrio que o leitor examine osconceitos de distribuio normal, erro-padro do parmetro, nvel de conana, valor crtico e nvel designicncia () em livros estatsticos.

    V . Exemplo de medidas de variabilidadeVamos supor que estejamos interessados em saber qual grupo, entre casos ou controles,

    mais semelhante entre si com relao idade das pacientes. Essa informao obtida por meio demedidas de disperso ou variabilidade. O grupo controle , em mdia, 2 anos mais velho do que ogrupo dos casos. Ao avaliarmos a medida de variabilidade dos dois grupos utilizando o desvio-padro, arriscaramos a dizer que o grupo de casos menos homogneo quanto idade do que ogrupo controle. Ao realizarmos essa suposio, estamos esquecendo que, mesmo que comparandounidades iguais, as medidas de idade dos dois grupos variam em escalas distintas. Para suprir estaquesto, utilizaramos a medida de coeciente de variao. Nesta, percebe-se que o grupo doscasos um pouco mais heterogneo (disperso) quanto idade do que o grupo controle (tabela 3.8).

    Em mbito geral, podemos considerar como um parmetro de homogeneidade dos dados umcoeciente de variao menor do que 25%. Em casos onde se espera uma disperso maior entreos pacientes, essa faixa de homogeneidade dos dados deve ser redenida.

    Tabela 3.8 - Estatstica Descritiva para idade por grupo de caso-controle

    Grupo Caso-ControleCasoControle

    Casos

    2217

    Mdia

    34,8036,60

    Varincia

    27,2813,25

    D.P

    5,223,64

    Coef.Variao

    15%9,95%

    I.C 95%Mdia

    [32,62- 36,98][34,87- 38,33]

    Fonte: Dados da pesquisa

    No grupo caso a idade est situada, em 95% das pacientes entre 32,6 e 37,0 anos e no grupocontrole entre 34,8 e 38,3 anos. Como as mdias esto contidas em ambos os intervalos deconana, h grande probabilidade (95%) de que no exista diferena signicativa entre os grupos,no que diz respeito idade.

    3.4.3 Medidas de PosioVericamos que a mediana separa o conjunto de dados em duas partes de mesmo tamanho,

    em que cada parte contm o mesmo nmero de elementos. Contudo, um mesmo conjunto de

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 43

  • 44 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    dados pode ser dividido em mais partes que contenham a mesma quantidade de elementos.Exemplos de medidas de posio:

    mediana: divide o conjunto de dados em duas partes iguais (Md). quartis: divide o conjunto de dados em quatro partes iguais (Q1, Q2, Q3) . decis: divide o conjunto de dados em dez partes iguais(D1, D2, D3, D4, D5, D6,

    D7, D8, D9). percentis: divide o conjunto de dados em 100 partes iguais (P1, P2, P3, P4, P5, P6,

    P7, P8... P99).Entende-se que os percentis estabelecem uma relao de equivalncia com os decis e quartis,

    veja na tabela 3.9.

    Tabela 3.9 - Relao de equivalncia entre percentis, decis e quartis

    QuartisQ1= P25Q2= P50Q3= P75

    DecisD1= P10D2= P20D3= P30D4= P40D5= P50D6= P60D7= P70D8= P80D9= P90

    A utilidade principal das medidas de posio ajudar a estabelecer pontos de corte com umadeterminada freqncia nos valores da varivel. Vejamos, na tabela 3.10, as interpretaes doprimeiro quartil (Q1) e do percentil noventa e cinco (P95) quanto varivel idade das pacientesde cncer de mama do banco de dados. Observa-se que 25% das pacientes apresentam idadesmenores ou iguais a 33,1 anos, enquanto que 75% das pacientes apresentam idades maiores ouiguais a 33,1 anos, no que se refere ao primeiro quartil (Q1). J para o percentil noventa e cinco(P95), 95% das pacientes apresentam idades menores ou iguais a 43,4 anos, enquanto que 5% daspacientes apresentam idades maiores ou iguais a 43,4 anos.

    Tabela 3.10 - Medidas de posio dos percentis, decis e quartis quanto idade daspacientes com cncer de mama

    VarivelIdade

    P527,4

    D129,6

    Q133,1

    D333,3

    Mediana35,2

    Q338,7

    D943,1

    P9543,4

    Fonte: Dados da pesquisa

    3.4.4 Medidas de RiscoEntendemos como risco, a relao proporcional entre as grandezas que correspondem

    medida de ocorrncia de um evento em relao a outro.Trata-se de medidas que permitem a comparao entre diferentes populaes e,

    eventualmente, a combinao de resultados de diferentes estudos.Apresentaremos nessa seo as duas principais medidas de risco (risco relativo e razo das

    chances) para anlise de Tabelas de Contingncia do tipo 2x2.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 44

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 45

    Tabelas de Contingncia do tipo 2x2 so tabelas em que as contagens correspondem a duasvariveis qualitativas, e cada uma delas possui duas categorias. As categorias de uma varivel estopresentes nas linhas da tabela enquanto as categorias da outra esto presentes nas colunas, comopode ser visto na tabela 3.11.

    Tabela 3.11 - Contingncia 2x2 Genrica

    Grupo

    CasoControleTotal

    Presena da doenaSim

    ac

    a+c

    Nobd

    b+d

    Total

    a+bc+d

    n

    I . Risco RelativoImaginem que os pacientes de uma determinada populao sejam classicados segundo o

    Grupo, Casos e Controle, e a presena ou ausncia de uma determinada doena, denotados porSim e No, respectivamente, conforme a tabela 3.11.

    Logo, para se obter o Risco Relativo, devemos calcular primeiramente:Estimativa do risco da Presena da doena no grupo Caso:

    Estimativa do risco da Presena da doena no grupo Controle :

    A diviso entre o risco da presena da doena no grupo Caso e o risco da presena da doenano grupo Controle denominada Risco Relativo de doena (RR), matematicamente denido por:

    Note que a estimativa do Risco Relativo s pode ser feita para estudos prospectivos, estudosde coorte e experimentos clnicos aleatorizados, pois os grupos formados so previamente denidospelo pesquisador.

    Tomemos como exemplo um estudo coorte que examina os fatores de risco para o cncer demama entre as mulheres que participaram do 1 Levantamento Nacional de Exame de Nutrio ede Sade. Nesse estudo h dois grupos: mulheres que deram luz pela primeira vez com 25 anosou mais e mulheres que deram luz pela primeira vez com menos de 25 anos. Em uma amostra de4.540 mulheres que deram luz seus primeiros lhos antes de 25 anos, 65 desenvolveram o cncerde mama. Das 1.628 mulheres que deram luz seus primeiros lhos com 25 anos ou mais, 31desenvolveram o cncer de mama, tais informaes esto sintetizadas na tabela 3.12.

    Tabela 3.12 - Exemplo de Tabela de Contingncia 2x2

    Faixa Etria para primeiragestao a termoMenos de 25 anos 25 ou mais anosTotal

    Diagnstico de cncer de MamaSim653196

    No447515976072

    Total

    4.54016286168

    Fonte: Pagano e Gauvreau, 2004

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 45

  • 46 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    Empregando a notao sugerida, o risco do grupo de mulheres com mais de 25 anosapresentar cncer de mama de 1.90%, enquanto o risco de cncer de mama no grupo demulheres com idade menor que 25 anos resulta 1.43%. Portanto, o risco relativo de 1,33. Estevalor indica que as mulheres que deram luz pela primeira vez com 25 anos ou mais tm umaprobabilidade de desenvolver cncer de mama 33% maior do que aquelas que deram luz commenos de 25 anos.

    Vale ressaltar que, normalmente, a medida de risco relativo maior que 1,0, pois, hipoteti-amente, a exposio ao fator de risco deve aumentar a prevalncia da condio. No entanto, quandoo risco relativo inferior a 1,0, o fator passa a ser denominado fator de preveno. Esse mesmoargumento vlido para a medida razo das chances, que ser denida na prxima seo.

    Finalizando, se o risco relativo (assim como a razo das chances) prximo de 1,0, a pesquisaapresentar indcios que o fator no se relaciona com a condio estudada.

    II . Razo das Chances (odds ratio)Em estudos retrospectivos, do qual faz parte o estudo de caso e controle, o tamanho dos

    grupos no conseqncia de sua incidncia real na populao, mas uma deciso do pesquisadorbaseado na questo cientca proposta. Sendo assim, no se aplica o clculo do risco relativo e, porisso, utilizaremos a medida razo das chances.

    Chance pode ser denida como o nmero de vezes que um evento ocorreu dividido pelonmero de vezes em que ele no ocorreu. Na tabela 3.11 a chance de doena no grupo caso dadapor a/b e no grupo controle por c/d.

    Razo das chances expressa a relao de ocorrncia da doena nos grupos caso e controle e dada por a/bc/d, ou de forma simplicada:

    Vejamos um exemplo de aplicao da razo das chances para o banco de dados de mulheresgrvidas com cncer de mama. Nesse estudo, as pacientes apresentavam ausncia e presena degravidez, tinha como nalidade observar o estado atual (vivo ou bito) nestes dois grupos. Asinformaes desse estudo esto resumidas a seguir:

    Tabela 3.13 - Exemplo de Tabela de Contingncia 2x2 para pacientes com cncer de mama

    Grupo

    CasoControleTotal

    Estado Atualbito

    161127

    Vivo66

    12

    Total

    221739

    Fonte: dados da pesquisa

    Empregando a notao sugerida de RC, pode-se dizer que a razo das chances do estado atualda tabela 3.13 de 1.45. Este valor indica que a chance de ocorrncia de bito no grupo de mulheresgrvidas (caso) 1.45 vezes a chance no grupo de mulheres no grvidas (controle). Vale ressaltarque este valor bruto, sem nenhuma avaliao da sua variabilidade (como, por exemplo, seu intervalode conana de 95%), no nos permite tirar concluses.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 46

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 47

    3.4.5 Medidas de SobrevidaPara apurar a medida de sobrevida em um banco de dados, so necessrios dois componentes:

    o tempo at a ocorrncia de um evento determinado e o tipo de evento nal.Em relao ao tempo at o evento, os trs elementos bsicos para o seu clculo so o tempo

    inicial, a escala da medida e o tempo em que o evento nal ocorreu. Para o primeiro elemento,tempo inicial, comum utilizarmos a data do incio do tratamento de doenas ou do diagnstico.Quanto ao segundo elemento, normalmente, utilizado o ms como escala de medida. Contudo,em algumas situaes clnicas, usual utilizarmos a escala dias ou anos. Por ltimo, o tempo emque o evento nal ocorreu pode ser a data do bito (curva de sobrevida global), a data de recidivade uma neoplasia (curva de sobrevida livre da doena ou de recidiva) ou a data em que aprogresso de uma doena foi documentada (sobrevida livre de progresso). Assim, a partir dadiferena entre as datas do terceiro e primeiro componente, com base na medida de escala denidapelo pesquisador, obtm-se a varivel tempo at evento.

    Em relao ao evento nal, pode tratar-se do bito do paciente, da recidiva ou progresso deuma doena ou do que denominado de censura.

    comum que os resultados dos estudos clnicos sejam relatados antes que todos os pacientesincludos apresentem qualquer tipo de evento considerado falha. Isto pode ocorrer por perda deacompanhamento do paciente no decorrer do estudo ou por ausncia de falha at o trmino dapesquisa. Estes pacientes so chamados censurados, porque entende-se que o tempo de falhadesses pacientes superior ao tempo registrado at o ltimo acompanhamento. Note que, mesmoque alguns pacientes sejam censurados, todas as informaes provenientes de um estudo desobrevida devem ser apuradas na anlise estatstica. Portanto, para se obter a varivel evento nal,de natureza dicotmica, cada paciente do banco de dados dever ser classicado pela presena dacensura, codicada por 0, ou ocorrncia de falha, codicada por 1.

    Desta forma, a varivel de interesse em anlise de sobrevivncia representada por duascolunas (tempo at evento e tipo de evento nal) na planilha eletrnica que constitui o banco dedados.

    I . Funo Sobrevivncia A importncia de mtodos de anlise de sobrevida est em saber a chance de sofrer o

    desfecho em cada ponto no tempo, j que o prognstico expresso por uma taxa sumria, como porexemplo, sobrevida em 5 anos, no contm essa informao.

    um grande problema quando se usa varivel funo de sobrevivncia que os pacientes entramem momentos diferentes no estudo, frequentemente ao longo de anos. Mas os resultados so anali-sados em um s tempo, e neste momento, os pacientes tm diferentes perodos de seguimento.

    O que se deseja achar uma forma do paciente contribuir para a curva de sobrevida por todoo tempo em que estiver sendo seguido.

    O modelo mais utilizado, em oncologia, o Estimador de Kaplan-Meier para a funo desobrevivncia. Entende-se que a funo de sobrevivncia a probabilidade de um pacientesobreviver a um tempo especicado. Em oncologia, a funo de sobrevivncia pode serdenominada de sobrevida global, sobrevida livre de recidiva, sobrevida livre de progresso, etc.

    A ttulo de ilustrao, a tabela 3.14, exibe, desde o primeiro at o vigsimo oitavo intervalo detempo de falha, os clculos da estimativa de Kaplan-Meier para a sobrevida global das mulherescom cncer de mama. Repare que a ltima coluna dessa tabela apresenta a sobrevida global daspacientes para variados intervalos.

    Todas as pacientes estavam vivas no perodo inicial (t = 0) e se mantm at a primeira morteque ocorre em 1,38 meses. Logo, a estimativa da sobrevida global 1,00 no intervalo entre 0 a 1,38

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:31 Page 47

  • 48 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    meses exclusive. No segundo intervalo, (1,38 - 2,3), existem 39 pacientes que estavam vivas (sobrisco) antes de 1,38 meses e 1 paciente morreu. Dessa forma, a probabilidade de uma pacientesobreviver no segundo intervalo de 97,4%. Assim, analogamente, para qualquer intervaloespecicado, a sobrevida global foi calculada em termos de probabilidade.

    Observe que a sobrevida global tanto no 26 ms quanto no 36 ms so iguais (0,486), poisa sobrevida global uma funo escada com saltos somente nos tempos de falha.

    Tabela 3.14 - Sobrevida global das pacientes com cncer de mama

    Intervalo (meses)

    [0 - 1,38) [1,38 - 2,3)[2,3 - 4,27)[4,27 - 10,84)[10,84 - 11,04)[11,04 - 12,35)[12,35 - 12,65)[12,65 - 12,94)[12,94 - 13,27)[13,27 - 15,05)[15,05 - 15,28)[15,28 - 15,93)[15,93 - 16,3)[16,3 - 17,84)[17,84 - 18,5)[18,5 - 19,81)[19,81 - 19,88)[19,88 - 21,22)[21,22 - 25,49)[25,49 - 36,14)[36,14 - 36,4)[36,4 - 40,28)[40,28 - 44,35)[44,35 - 83,48)[83,48 - 103,7)[103,7 - 144,7)[144,8 - 152,7)[152,7 - 300)

    Nmero de pacientessob risco

    393938363534323130292827262524232221191817161514121153

    Nmero deFalhas

    0111111111111111111111111111

    Nmero deCensuras

    0010010000000000010000010512

    SobrevidaGlobal

    1,000,9740,9490,9220,8960,8700,8420,8150,7880,7610,7340,7070,6790,6520,6250,5980,5710,5440,5150,4860,4580,4290,4010,3720,3410,3100,2480,165

    Fonte: Dados da pesquisa

    Conforme a tabela 3.14, a probabilidade de uma paciente jovem com diagnstico de cncerde mama estar viva aos 20 meses de 0,544 (ou seja, 54,4%).

    Diante dos dados obtidos na tabela 3.14, a construo de um grco pode ser mais facilmentecompreendida. Este grco elaborado mantendo o valor da sobrevida constante entre osintervalos. A gura 3.8A apresenta o grco da sobrevida global das pacientes com cncer de mama.Note que a sobrevida global no atinge o valor zero; isto ocorre em situaes nas quais o maiortempo observado na amostra for uma censura. As censuras so representadas, na gura 3.8A, por

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 48

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 49

    pequenos segmentos verticais ao longo do perodo analisado, [0-300]. Por exemplo, entre o perodo[150-300], encontramos dois pequenos segmentos verticais, ou seja, existem 2 censuras.

    FIGURA 3.8 A - Sobrevida global das pacientes com cncer de mama (Grfico de Kaplan-Meier).

    A partir dos resultados obtidos pelo mtodo de Kaplan-Meier interessante obter estimativasdos percentis. um exemplo de percentil o tempo mediano de vida que bastante usado na prtica.O clculo da mediana realizado por meio de uma interpolao linear. INTERPOLAO LINEAR uma tcnica de clculo que permite apurar, por aproximao, um valor desconhecido que seencontra entre dois valores fornecidos. Freqentemente, as tabelas de sobrevivncia no fornecemo valor exato necessrio para efetuar os clculos solicitados pelo pesquisador da a importnciado mtodo de interpolao linear: atravs deste, contornamos essa diculdade, obtendo, medianteuma proporo simples, o valor desconhecido por meio de outros valores prximos, presentes natabela.

    Frmula da interpolao linear:

    Onde: a e b so pontos conhecidos da tabela, menor valor e maior valor, respectivamente. S(a) e S(b) so as curvas de sobrevivncias nos pontos a e b, respectivamente. x o ponto desconhecido entre a e b e S(x) a curva de sobrevivncia no ponto x.

    Vejamos como se calcula o tempo mediano de vida para a Tabela 3.14. Entende-se que o tempomediano de vida (x, ponto desconhecido) representa o tempo em que 50% dos pacientessobrevivem, logo S(x) = 0,50. Os valores de sobrevida, da tabela 3.14, prximos de 0,50 so: 0,486e 0,515 que correspondem S(b) e S(a), respectivamente. Os pontos a e b associados as suasrespectivas sobrevidas so: 21,22 meses e 36,14 meses. Assim, uma vez denido todos osparmetros, substitumo-nos na frmula da interpolao linear:

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 49

  • 50 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    Portanto, 28,94 meses uma estimativa do tempo em que 50% das pacientes sobrevivem.Esta abordagem de estimar o tempo mediano semelhante a conectar por retas as estimativas deKaplan-Meier, em vez de se utilizar a sobrevida na forma de escada. Esta abordagem, geralmente,produz uma melhor representao da distribuio contnua dos tempos at ocorrncia de umevento, razo pela qual deve ser preferida (COLOSIMO et al., 2002). Note que os programasestatsticos no baseiam o clculo do tempo mediano ou outro tempo neste critrio descrito.

    Repare que a frmula da interpolao aplicada para o tempo mediano de vida tambm podeser apurada para outros percentis. Exemplicando, suponha que desejamos encontrar o tempo devida que 25% dos pacientes permanecem vivos. Assim, substitumos a probabilidade de 50% para25% na frmula de interpolao linear, temos:

    Portanto, 151,1 meses uma estimativa do tempo em que 25% dos pacientes sobrevivem.

    II . Funo taxa de falha Alm da funo de sobrevivncia, existe a funo taxa de falha, tambm denominada de

    funo de risco, e utilizada, geralmente, como uma medida de sntese para a sobrevida.Podemos denir como taxa da ocorrncia de falha em um determinado intervalo de tempo

    probabilidade de que a falha ocorra no intervalo especicado, considerando que estaainda no ocorreu antes do tempo . Logo, a taxa de falha no intervalo t1 calculada emtermos da funo de sobrevivncia e expressa por:

    Onde: t1 e t2 so tempos especicados, menor valor e maior valor, respectivamente. S(t1) e S(t2) so as curvas de sobrevivncias nos tempos t1 e t2, respectivamente.

    a taxa de falha no intervalo .

    Note que se considerarmos um intervalo de tempo muito pequeno para , a taxapassa a ser denominada taxa de falha instantnea no tempo t condicional sobrevivncia at otempo t. A funo taxa de falha instantnea muito utilizada na prtica para descrever ocomportamento do tempo de vida dos pacientes. A gura 3.8B mostra a comparao entre curvasde funo de risco de dois grupos de pacientes (mulheres grvidas e no grvidas) com cncer demama. O comportamento crescente das curvas indica que a taxa de falha dos dois grupos depacientes aumenta com o decorrer do tempo.

    A partir da razo da funo de risco entre dois grupos, mulheres grvidas e no grvidas(Figura 3.8B), calcula-se a razo de risco instantnea no tempo t (hazard ratio). Ela equivale ao riscorelativo aplicado varivel data e muito til em clculos estatsticos.

    Para o exemplo do banco de dados de pacientes com cncer de mama, o valor encontrado damedida de riscos proporcional (hazard ratio) foi de 1,22. Este valor indica que o risco de uma mulhergrvida com cncer de mama falecer 1,22 vezes maior, em comparao com uma mulher nogrvida com cncer de mama. Nesse caso, como o risco proporcional prximo de 1, h indciosque o fator gravidez no se relaciona com risco de bito, mas para se fazer uma armao comgrau conhecido de certeza, seria necessrio o clculo do intervalo de conana de 95% e o valor p.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 50

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 51

    Vale ressaltar que a funo taxa de falha mais informativa do que a funo sobrevivncia.Suponhamos que determinado paciente com cncer de pulmo tenha sobrevivido por 2 anos apso diagnstico. Qual o prognstico deste paciente? A curva de sobrevida no nos dar esta resposta primeira vista, mas ela facilmente visualizada em uma curva de funo de risco. Por outro lado,a diferena entre curvas de sobrevida agrega informao de grande importncia clnica, que amagnitude da diferena.

    Matematicamente, a funo de risco a negativa da inclinao da curva de sobrevida quandoesta construda em escala logartmica, e fornece a variao do risco ao longo do tempo.

    O uso da funo de risco fundamental para o modelo de riscos proporcionais de Cox (modelode Cox), como veremos em captulo posterior.

    Alguns exemplos da funo da taxa de falha so descritos na gura 3.9, onde a curva Arepresenta risco constante ao longo do tempo; na curva B o risco crescente e na C decrescente.A curva D representa o risco da populao geral. (32)

    FIGURA 3.8 B - Comparao da funo taxa de falha das pacientes com cncer de mama em doisgrupos (grvidas e no grvidas).

    FIGURA 3.9 - Curvas da funo da taxa de falha

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 51

  • 52 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    3.5 Grficos para o Cruzamento de Variveis

    No raro em uma pesquisa clnica desejamos estabelecer relaes ou associaes entre duasou mais variveis. Para compreender melhor o tipo de relao entre tais variveis, mencionaremos,nesta seo, ferramentas grcas apropriadas em cada situao, que sero descritas a seguir.

    3.5.1 Grfico de disperso (2 variveis quantitativas)O grco de disperso um grco em que so representados, em um plano cartesiano, os

    diversos pares de valores observados em duas variveis quantitativas. Este grco permite umaavaliao, por meio das nuvens de pontos, de uma provvel relao (do tipo: linear, quadrtica,polinomial, exponencial, etc) entre as variveis ou uma adequao de uma expresso matemtica.Alm disso, til para comparar o efeito de dois tratamentos no mesmo paciente, desde que asduas variveis estudadas sejam quantitativas.

    Vejamos um exemplo da utilizao do grco de disperso baseado no banco de dados daspacientes grvidas. Tendo em vista que este banco apresenta somente 2 variveis quantitativascontnuas, sobrevida global e idade, portanto o eixo horizontal do grco representa a varivelidade e o eixo vertical representa a varivel sobrevida global. Na gura 3.10 mostramos a relaoentre sobrevida e idade, de acordo com todas as pacientes grvidas.

    FIGURA 3.10 - Diagrama de disperso entre idade e sobrevida

    Avaliando o grco de disperso, entendemos que no existe nenhum tipo de relao entreidade e sobrevida das pacientes, logo, seria invivel propor algum tipo de expresso matemticaneste caso. A razo dessa concluso devido ao fato de que os pontos do grco no exibemnenhum padro de valores crescentes, ou decrescentes, de idade que correspondem a valorescrescentes da sobrevida, ou seja, o grco no apresenta qualquer padro denido. Contudo, asconcluses embasadas nesse tipo de grco tendem a ser subjetivas, necessitando, portanto, detcnicas estatsticas (Correlao e Anlise de Regresso).

    Vejamos um exemplo de comparao entre dois tratamentos. Para tal, foram examinados 15pacientes, tendo sido medidos os volumes de reuxos na veia popltea, atravs de ultrassonograa,nas posies de p e deitado (tabela 3.15). Deseja-se vericar se a posio (em p ou deitado) inuina medio do volume de reuxo.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 52

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 53

    As informaes de cada posio (em p ou deitado) so classicadas como dados emparelhados(ou pareados), pois os mesmos pacientes foram utilizados na mesma amostra. Logo, por meio dogrco de disperso (gura 3.11), podemos vericar a diferena entre as duas posies.

    FIGURA 3.11 - Grfico de disperso dos volumes de refluxos (litro por minuto) medida em 15pacientes em p e deitado avaliado pela ultra-sonografia.

    Tabela 3.15 - Volumes de refluxos (litros por minuto medida em 15 pacientes em p edeitado, avaliados pela ultrassonografia.

    Pacientes010203040506070809101112131415

    Volume do Refluxo em p (litr/min)0,7030,3760,2810,4350,2250,2290,0910,4130,1220,2770,1820,5410,6230,3850,285

    Volume do Refluxo deitado (litr/min)0,420,150,240,120,110,160,070,170,070,250,080,330,4

    0,150,18

    Fonte: Dados hipotticos.

    Conforme descrito na gura 3.11, a reta traada no diagrama de disperso corresponde situao em que o volume de reuxo do paciente o mesmo nas duas posies Como os pontosesto abaixo dessa reta, signica que, em todos os indivduos, o volume de reuxo na posio emp maior do que na posio deitado.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 53

  • FIGURA 3.12 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer demama.

    FIGURA 3.13 - Boxplot do cruzamento entre idade e caso-controle das pacientes com cncer demama.

    3.5.3 Grfico de Colunas mltiplas (2 variveis qualitativas) a representao simultnea de dois fenmenos de natureza qualitativa num mesmo grco.

    Essa simultaneidade tem como nalidade permitir a comparao entre os fenmenos estudados.Vejamos a construo do grco de colunas. A gura 3.13 descreve a situao do evento nal (bitoou vivo) nos casos e controles. Entende-se que o grupo de mulheres grvidas (caso) apresenta maiorfreqncia de bitos do que o das mulheres no grvidas (grupo controle).

    54 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    3.5.2 Box-plot (1 varivel quantitativa e 1 varivel qualitativa) O grco de Box plot um grco simbolizado por uma ou mais caixas. O nvel superior da

    caixa representado pelo terceiro quartil (3Q) enquanto para o nvel inferior representado peloprimeiro quartil (1Q). J o trao no interior da caixa denido pela mediana (2Q). Alm disso, constacomo informao o mximo e o mnimo representados por segmentos de reta. Este grco nos dentendimento a respeito das medidas de tendncia central, medidas de variabilidade e detectadiferenas entre os grupos do banco de dados analisado. Exemplicando, o cruzamento da varivelIdade com a varivel Caso-Controle apropriado para construir tal grco. O resultado apresentadona gura 3.12, onde se percebe que as mulheres do grupo controle apresentam idade medianasuperior ao das mulheres do grupo caso; no entanto, as mulheres grvidas (caso) apresentam maiorvariabilidade de idade, pois o comprimento de sua caixa maior.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 54

  • FIGURA 3.14 - Grfico de linha entre a varivel ms da ltima consulta e quantidade depacientes na ltima consulta.

    FIGURA 3.15 - Grfico de linha entre a varivel ms da ultima consulta e quantidade depacientes na ltima consulta.

    L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 55

    3.5.4 Grfico de Linhas (1 varivel quantitativa e 1 varivel data) O grco de linha descreve o comportamento de um conjunto de valores de uma mesma

    varivel quantitativa (discreta ou contnua) no decorrer do tempo. O indicador de tempo representado no eixo horizontal do grco de linha, enquanto a varivel quantitativa denida noeixo vertical. Este grco de grande utilidade quando se deseja analisar a evoluo temporal(aumento, estabilidade e declnio dos valores) da varivel estudada, pois permite visualizardiferenas entre um perodo e os outros perodos subseqentes. Na gura 3.14, nota-se que onmero de mulheres grvidas que realizaram a ltima consulta ao longo dos meses da pesquisa maior nos meses de janeiro e maro.

    um aspecto importante a ser ressaltado na construo deste grco a denio da escala devalores do eixo vertical. Se alterarmos o nal da escala de valores do eixo vertical, tanto parapequenos valores quanto para grandes valores, encontraremos comportamentos distintos na linha.Exemplicando, se denimos o eixo vertical nalizado no ponto quarenta (gura 3.15), a variaoda linha ao longo do tempo poder ser menos abrupta do que a variao da linha ao longo dotempo considerando um eixo vertical nalizado com um valor de seis (gura 3.14).

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 55

  • 56 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    3. 6 Resumo

    3.6.1 Classificao das Variveis Para cada tipo de varivel existem tcnicas mais apropriadas para resumir as informaes, da

    a importncia de classicar corretamente cada varivel. uma classicao muito utilizada :

    3.6.2 Sntese dos dados Alguns procedimentos adequados a cada tipo de varivel:Para as variveis qualitativas nominais: Tabelas (distribuio de freqncia absoluta e

    relativa, tabela de dupla entrada), Grcos (setores e colunas simples ou mltiplas) e Medidas(moda, risco relativo e razo das chances).

    Para as variveis qualitativas ordinais: Tabelas (distribuio de freqncia absoluta e relativa,freqncia absoluta acumulada, freqncia relativa acumulada, tabela de dupla entrada), Grcos(setores e colunas simples ou mltiplas) e Medidas (mediana, moda, risco relativo e odds ratio).

    Para as variveis quantitativas: Tabelas (distribuio de freqncia absoluta e relativa,freqncia absoluta acumulada, freqncia relativa acumulada, tabela de dupla entrada), Grcos(histograma, grco de disperso, box-plot e grco de linhas) e Medidas (mdia aritmtica,mediana, primeiro e terceiro quartil, percentil, varincia, desvio-padro, coeciente de variao).

    Para as variveis que medem o tempo at a ocorrncia de um evento: tabela (tabela desobrevida), grco (grco de Kaplan-Meier) e medida (mediana).

    Referncias

    1. Arango HG. Bioestatstica: terica e computacional. 2 ed. Rio de Janeiro: Guanabara Koogan, 2005.

    2. Colosimo, E. Anlise de Sobrevivncia Aplicada. So Paulo: Blucher,2001.

    3. Colosimo, EA, Ferreira, FF, Oliveira, MD, Souza, CB. Empirical Comparisons between Kaplan-Meierand Nelson-Aalen Survival Functions Estimators. J. Statist. Comput. Simul., 2002; 72(4): 299-308.

    4. Crespo AA. Estatstica Fcil.So Paulo: Saraiva, 2000.

    5. Freund JE, Simon GA. Estatstica Aplicada. 9ed. Porto Alegrel:Bookman, 2000.

    6. Hair JR JF, Anderson RE, Tatham RL, Black WC. Anlise Multivariada de dados. 6ed. Porto Alegre:Bookman, 2009.

    7. Hu D. How To Lie With Statistics. New York:W.W. Norton & Company, 142 p.1982.

    Qualitativa

    Nominal

    OrdinalQuantitativa

    Discreta

    Contnua

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 56

  • L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S | 57

    8. Lopes PA. Probabilidades e Estatstica. Rio de Janeiro :Reichmann e Aonso Editores, 174p.1999.

    9. Magalhes MN, Lima ACP. Noes de Probabilidade e Estatstica. 7ed. So Paulo: uSP, 2010.

    10. Reis EA, Reis IA . Anlise Descritiva de Dados: Sntese Numrica. 2002. Relatrio Tcnico,Departamento de Estatstica-uFMG. Disponvel em:http://lattes.cnpq.br/3773191587995244.

    11. Reis IA, Reis E A. Associao entre Variveis Qualitativas: Teste Qui-quadrado, Risco Relativo eRazo de Chances. 2001. Relatrio Tcnico, Departamento de Estatstica-uFMG. Disponvelem:http://lattes.cnpq.br/3773191587995244.

    12. Reis EA, Reis IA. Anlise Descritiva de Dados- Tabelas e Grcos. 2001. Relatrio Tcnico,Departamento de Estatstica-uFMG. Disponvel em: http://lattes.cnpq.br/3773191587995244.

    13. Simes RJ, Zelen M.Exploratory Data Analysis and the use of Hazard Function for InterpretingSurvival Data: An Investigators Primer. J Clin Oncol, 1985; 3:1418-31.

    14. Soares JF, Comini C. Introduo Estatstica. 2ed. Rio de Janeiro: LTC, 2002, 340 p.

    15. Soares JF, Siqueira AL. Introduo Estatstica Mdica. 2ed. Belo Horizonte: COOPMED, 2002.

    16. Triola MF. Introduo Estatsitica. 7 ed. Rio de Janeiro: LTC,2005.

    17. Vieira S. Introduo bioestatstica. 3ed. rev. Ampl. Rio de Janeiro: Elsevier, 1980.

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 57

  • 58 | L E I T u R A C R T I C A D E A R T I G O S C I E N T F I CO S

    Manual de LEITURA CRTICA_Layout 1 6/10/2011 17:32 Page 58