4 - Distribuição Normal

download 4 - Distribuição Normal

of 9

Transcript of 4 - Distribuição Normal

4Distribuio normal ou de Gauss

distribuies de freqncias podem variadas. A varivel As"nmero tem uma distribuio tambm apresentar formascontnua (Figura 1.1); de irmos" tem uma distribuio descontnua e assimtrica (Figura 1.3); o peso assimtrica, mas j a sensibilidade feniltiocarbamida apresenta distribuio assimtrica e bimodai (Figura 2.2). Muitas variveis biolgicas apresentam uma distribuio equilibrada, em que os valores centrais so mais freqentes e os extremos, mais raros, sendo os valores muito baixos to pouco freqentes quanto os muito altos. Este o caso da taxa de hemoglobina; um exemplo de dados deste tipo (em g/100 mL) est apresentado na Tabela 4.1 e no histograma da Figura 4.1. Quando se elabora um histograma, o tamanho dos "degraus" determinados pelas colunas dado pela amplitude do intervalo de classe (h), a qual influenciada pel tamanho da amostra e pela preciso com que a medida foi feita. Assim, se a tcnica de laboratrio permitir determinar a taxa de hemoglobina com maior preciso (por exemplo, em mg/lOO mL em vez de gllOO mL), pode-se diminuir a amplitude escolhida para os intervalos de classe, com um conseqente aumento no nmero de intervalos. Aumentando-se o nmero de intervalos, os retngulos originais do histograma devero ser divididos em retngulos mais estreitos. A forma geral do histograma, porm, no se altera com tal procedimento, pois os retngulos tendero a ser mais altos medida que se aproximam do centro da distribuio e mais baixos, se prximos dos extremos. Pode-se seguir diminuindo h e obtendo maior nmero de intervalos de classe at se chegar situao em que h um nmero infinitamente grande de intervalos

TABELA 4.1 Taxa de hemo91obina em 560 homens normais Hemo91obina (9/100 mL) 12,51--13.5 13,5 I-- 14,5 14,51-- 15,5 15,51--16,5 16,5 I-- 17,5 17,5 I-- 18,5 18,5 I-- 19,5 fr 0,01 0,06 0,24 0,38 0,23 0,07 0,01

0,4

0,3

fr

0,2

0,1 FIGURA 4.1 Taxa de hemoglobina (g/1 00 mL) em 560 homens normais.

O13 14 15 16 17 18 Hemoglobina (g/100 mL)

infinitamente pequenos. claro que esta condio s pode ser imaginada teoricamente e para um nmero muito grande de indivduos. No histograma, agora, a sucesso ascendente e descendente de pequenos "degraus" transforma-se em uma linha contnua, com a forma aproximada de um sino. O nome desta linha terica curva de distribuio normal ou curva de Gauss1 O termo "normal" foi consagrado pelo uso, embora, muitas vezes, cause alguma confuso ao sugerir que a distribuio normal ocorre apenas em organismos "sadios", o que no verdade. Podem-se observar caractersticas que tm distribuio normal tambm em organismos doentes.

Voltando ao exemplo dos nveis de hemoglobina, para se saber qual a probabilidade de um indivduo do sexo masculino apresentar um valor entre 14,5 e 15,5, basta consultar diretamente a Tabela 4.1 (ou, com menor preciso, a Figura 4.1). O valor obtido 0,24. Entretanto, se o interesse, agora, saber a probabilidade de ocorrer um nvel de hemoglobina entre 14,5 e 15,0, necessrio refazer a tabela a partir dos dados originais. No correto tomar a metade de 0,24 (ou a metade da coluna), pois, pela forma do histograma, nota-se que dividindo esse intervalo ao meio, devem resultar duas colunas de alturas diferentes, sendo a da direita mais alta. A situao complica-se ainda mais quando se deseja determinar a probabilidade de que ocorra uma taxa de hemoglobina menor do que 14,3. Uma tcnica simples para resolver este tipo de problema baseia-se na curva descoberta por De Moivre, Laplace e Gauss. Para aplic-Ia, utiliza-se uma tabela padronizada de reas situadas debaixo dessa curva. Antes, porm, de usar essa tabela necessrio conhecer melhor as principais caractersticas da curva normal.

1 Nome em homenagem a Johan K.f. Gauss (1777-1855), que discutiu esta distribuio em 1809. No entanto, Pierre-Simon de Laplace (1749-1827), que era astrnomo matemtico como Gauss, j a tinha estudado em 1774 e, antes disso, A. de Moivre (1667-1754) apresentou a equao dessa curva em 1773, em um trabalho que ficou por muito tempo desconhecido. Para resolver a questo da prioridade cientfica, Karl Pearson recomendou, que se utilizasse o termo "curva normal", usado pela primeira vez por Sir Francis Galton.

40 Sidia M. Callegari-Jacques

(1) A curva normaI2 tem a forma de um sino, com caudas assintticas ao eixo x. Isto significa que, teoricamente, os valores de x podem variar desde at +00; a curva jamais toca o eixo x e, portanto, determina uma figura aberta nas caudas. Na prtica, no entanto, utiliza-se a curva normal com limites finitos; mais adiante ver-se- como estes limites so estabelecidos. (2) A curva simtrica em relao perpendicular que passa pela mdia (ti). (3) A mdia, a mediana e a moda so coincidentes. (4) A curva tem dois pontos de inflexo, que correspondem a valores de x situados, respectivamente, distncia de um desvio padro (o) acima e abaixo da mdia (Figura 4.2). (5) A rea sob a curva totaliza 1 ou 100%. (6) Aproximadamente 68% (""2/3) dos valores de x situam-se entre os pontos (tio) e (ti + o). A rea correspondente a essa frao est hachurada na Figura 4.2. (7) Aproximadamente 95% dos valores de x esto entre (ti-2a) e (,u+2a). (8) Aproximadamente 99,7% dos valores de x esto entre (,u-3a) e (,u+3a).-00

FIGURA 4.2 Curva normal. A rea hachurada est compreendida entre ~1-(5e 11+(5 e corresponde a aproximadamente 68% da rea total que fica abaixo da curva normal.

Note que uma rea ''N.' qualquer sob essa curva representa uma frao da rea total, correspondente a todos os indivduos estudados. Portanto, ''N.' representa uma porcentagem em relao ao total de indivduos estudados e tambm a probabilidade de ocorrncia dos valores de x a que se refere. O conhecimento das propriedades de curva normal muito til. Assim, se uma varivel tem distribuio normal e se sua mdia e seu desvio padro forem conhecidos, no mais necessrio representar os dados sob a forma de tabelas ou grficos para se conhecer a probabilidade de ocorrncia de valores de interesse. Alm disso, sabe-se imediatamente quais os valores mais freqentes e quais os valores extremos esperados. Admita, por exemplo, que a glicemia (nvel de glicose no plasma, em jejum) tem distribuio gaussiana, com mdia igual a 90 mg e desvio padro 5 mg na populao de pessoas sadias3. Pode-se, ento, concluir que:I ~e (J-...;2Jr -('-~ " '''-

2 3

A curva normal definida matematicamente Dicionrio de Especialidades Farmacuticas,

pela seguinte equao: I(x) = 1997, p.1040.

(1) Aproximadamente 2/3 ("'68%) da populao de indivduos normais possuem valores de glicemia entre (J.1-(J) = 90-5 = 85 mg e c.u+(J) = 90+5 = 95 mg. (2) Grande parte ("'95%) das pessoas sadias tem glicemia entre (J.1-2(J) = 902(5) = 80 e C.u+2(J) = 90+2(5) = 100 mg. (3) Praticamente todos ("'99,7%) os indivduos da populao tm valores entre (J.1-3(J) = 75 e (J.1+3(J) = 105 mg. (4) A probabilidade de que uma pessoa saudvel tenha um valor de glicemia em jejum entre 90 (J.1) e 95 (J.1+ (J) de aproximadamente 0,34. As caractersticas do modelo de distribuio normal fazem com que ele tenha ampla aplicao prtica. necessrio, porm, assegurar-se de que a distribuio emprica (observada) da varivel seja normal ou aproximadamente normal. No se pode obter concluses como as mencionadas acima com dados cujas distribuies sejam diferentes do modelo gaussiano, como o nmero de irmos, que apresenta uma distribuio assimtrica e descontnua.

As propriedades referentes a reas sob a curva de Gauss foram obtidas de uma curva especial, que tem mdia J.1 = e desvio padro (J = 1. Essa curva chama -se curva normal padronizada ou curva normal reduzida. As reas situadas abaixo desta curva esto tabeladas (Apndice, Tabela AI). Para evitar confuso, a varivel tabelada denominada z, reservando-se a letra x para representar as variveis do mundo real. A Tabela A.l informa reas entre a mdia (zero) e um valor de z qualquer. Quando z for 1 (isto , igual a (J), a rea compreendida entre esse valor e a mdia 0,341:? ou 34,13%. A rea entre z = -1 e z = + 1 0,6826, como mencionado na 6 propriedade da curva normal. Para a obteno de reas que no esto entre e z, devem ser realizadas operaes simples de subtrao ou de soma com as reas. Exemplo 1. Qual a rea correspondente a valores de z acima de 2,37 - A curva toda tem rea = 1, portanto a rect direita de zero 0,5. - Na tabela da curva normal, verifica-se que a rea entre z = e z = 2,3 0,4893. - A rea direita de 2,3, portanto, 0,5 - 0,4893 =

0,0107.

Exemplo 2. Qual a rea compreendida entre z = -1,5 e z = 17 - Segundo a tabela da curva normal, a rea entre z = e z = -1,5 0,4332. - A rea entre z = e z = 1 0,3413. - Portanto, a rea desejada 0,4332 + 0,3413

0,7745.

42

Sidia M. Callegari-]acques

Com auxlio da tabela de reas da curva padronizada, pode-se tambm determinar quais valores de z limitam reas (percentagens) de interesse prtico. Exemplo 3. Considere-se uma rea B localizada na extremidade direita de uma curva normal e compreendendo 20% da rea total. Que valores de z limitam essa regio? - A tabela da curva normal padronizada apresenta informaes sobre reas adjacentes a zero (rea A). Ora, B = 0,20, ento, A = 0,50 - 0,20 = 0,30. - A rea tabelada mais semelhante a 0,30 0,2996, correspondendo rea entre O e 0,84. Logo, o valor z = 0,84 limita as reas A e B. - Conclui-se ento que os valores z = 0,84 e z = +00 limitam a rea B.

A mdia (f.l) e o desvio padro (cr) so os parmetros de uma curva normal, uma vez que so suficientes para defini-Ia completamente. A mdia o parmetro de tendncia central ou de posio, indicando em que ponto da reta real a curva est centrada; O; o parmetro de disperso ou variabilidade, informa sobre a forma, se mais larga ou mais estreita, da distribuio. A Figura 4.3 apresenta trs curvas que auxiliam a esclarecer essas denominaes. As curvas A e B diferem apenas pelas posies (definidas pelas mdias) em que se encontram na reta real. J as curvas B e C tm a mesma mdia, diferindo pela disperso dos valores: note que a curva C, com desvio padro menor, mais estreita que a B.

A distribuio normal, como uma linha suave, existe apenas teoricamente. Na prtica, o que se observam so histogramas que se aproximam, em maior ou menor grau, de uma curva normal. Se o histograma lembra uma distribuio normal e se a amostra relativamente grande, as probabilidades fornecidas pela curva e

FIGURA 4.3 Desenhos de trs curvas normais (A, B e C) que diferem quanto mdia ou ao desvio padro. Curvas A: ,u=4, 0=1; B: /.1=8,0=1; C: p=8, 0=0,5 (Fonte Sokal e Rohlf, 1981, p.101).

as freqncias relativas observadas no histograma so bastante prximas. Por isso, para um grande nmero de variveis a curva normal constitui uma ferramenta til, dispensando a elaborao de tabelas de freqncias para a descrio e o clculo da probabilidade de ocorrncia de valores de interesse. No entanto, existem variveis de distribuio descontnua ou assimtrica (nmero de irmos, salrios, sensibilidade feniltiocarbamida) para as quais seria ingenuidade utilizar o modelo de curva normal e esperar concluses confiveis. Para essas variveis, deve-se procurar outro modelo que se adapte melhor aos dados observados ou tentar transformaes que tornem suas distribuies mais prximas de uma normal. Algumas das transformaes mais usadas so:(1) (2) (3) (4)

x' = log x (logaritmo base 10 de x) ou x' x'= j;x'

=

ln x

(logaritmo base e de x)

=

l/x

x' = x2.

As trs primeiras so indica das para distribuies com assimetria direita (isto , com a cauda da direita mais longa); a ltima indicada para corrigir uma assimetria esquerda. A Figura 4.4 ilustra o efeito de uma transformao logartmica em dados assimtricos.

As variveis observadas na prtica (x) apresentam valores cujas reas no esto tabeladas. Por meio de uma operao simples, no entanto, os valores de x podem ser transformalos na varivel z e ento as reas desejadas podem ser obtidas da tabela da curva normal.