Parte 1 - Biometria

download Parte 1 - Biometria

of 106

Transcript of Parte 1 - Biometria

  • 8/15/2019 Parte 1 - Biometria

    1/106

    PARTE 1

  • 8/15/2019 Parte 1 - Biometria

    2/106

    Capítulo 1Introdução - Conceitos gerais

    A estatística é uma ferramenta importante para o manejo florestal, seja pra quem está

    interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar,executar e acompanhar um projeto. Difícil é separar a estatística pra essas duas frentes. Oobjetivo desta Parte da apostila é aprofundar em conceitos dos indicadores estatísticos maisfreqentemente utili!ados pelos florestais e ajudar na interpreta"#o dos resultados.

    $statística é um ramo do conhecimento científico que consta de conjunto de processosque t%m por objeto a observa"#o, a classifica"#o formal e a análise dos fen&menos coletivosou de massa 'finalidade descritiva( e, por fim, investi)ar a possibilidade de fa!er infer%nciasindutivas válidas a partir dos dados observados e buscar métodos capa!es de permitir estainfer%ncia 'finalidade indutiva(. Durante uma defesa de tese no *$+A-P, sur)iu um novoconceito para estatística que, se)undo $d)ard, é /a arte de torturar os n0meros até que eles

    confessem aquilo que voc% quer ouvir./$m inventário florestal, produto sem estatística n#o é produto. $m inventários, o

     principal produto é o intervalo de confian"a para a média estimada. +a pesquisa científica, aestatística pode ser vista como um instrumento de comunica"#o e, embora o seu uso sejaabsolutamente opcional, ela fornece os modelos que s#o necessários para estudar as situa"1esque envolvem incerte!as, mas a palavra final é sua.

    O exercício, a análise e a interpreta"#o do pensamento científico normalmente s#ofeitos por meio da lin)ua)em operacional dos conceitos e hip2teses científicas. 3sso implicana formula"#o de hip2teses estatísticas e estabelecimento dos procedimentos de observa"1esdiretas ou de medi"1es.

    4in)ua)em te2rica5 6quanto mais )rossa é a árvore, mais madeira será oferecida 7ind0stria de transforma"#o.8 +este caso, dois conceitos s#o envolvidos5 espessura e madeira.*om definir esses dois conceitos9 $spessura pode ser o di:metro de uma árvore. ;adeira

     pode ser a quantidade de material lenhoso disponível para a ind0stria.

    $ daí9 .>(.

    O papel da estatística na pesquisa científica é ajudar o pesquisador 6picapau8 aformular as hip2teses e a fixar as re)ras de decis#o.

  • 8/15/2019 Parte 1 - Biometria

    3/106

    Um pouco de filosofia.

    Arist2teles escreveu5 6A verdade é um alvo t#o )rande que dificilmente al)uémdeixará de tocálo, mas, ao mesmo tempo, nin)uém será capa! de acertálo em cheio, num s2tiro.8

    A meta da ci%ncia é a or)ani!a"#o sistemática do conhecimento sobre o universo, baseado nos princípios explanat2rios que s#o )enuinamente testáveis.

    O pesquisador tem os dons da institui"#o e criatividade para saber que o problema éimportante e quais quest1es devem ser levantadas a estatística, por sua ve!, o assistirá por meio da maximi!a"#o de output n#o ambí)uos enquanto minimi!a os inputs.

    O pesquisador tem que ter em mente que a pesquisa freqentemente levanta maisquest1es do que respostas. Os resultados quase sempre s#o meramente uma demonstra"#o denossa i)nor:ncia e uma declara"#o mais clara do que n#o sabemos.

      O pesquisador tem que manter os olhos abertos, sua mente flexível e estar preparado para surpresas.

    A pesquisa está na cabe"a do pesquisador o laborat2rio ou o campo meramenteconfirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais asquest1es certas para fa!er e n#o nas certas respostas.

    A aplica"#o indiscriminada dos métodos quantitativos sobre ines)otáveis quantidadesde dados n#o si)nifica que o entendimento científico vai emer)ir s2 por causa disso.

    1.1. A Natureza da Estatística:

    Basicamente, s#o dois tipos de estatística5 descritiva e de infer%ncia.

    A ci%ncia da estatística inclui ambas, descritiva e de infer%ncia. A estatística descritivaapareceu primeiro, nos censos feitos na época do império romano. A de 3nfer%ncia é maisrecente e é baseada na teoria da probabilidade que, por sua ve!, n#o se estabeleceu antes dametade do século C@33.

    a) Estatística descritiva  E consiste de métodos para or)ani!ar e sumari!ar asinforma"1es.

    O prop2sito da or)ani!a"#o e sumari!a"#o é te ajudar na interpreta"#o de um monte deinforma"1es. Os métodos descritivos incluem a constru"#o de )ráficos, fi)uras e tabelas,como também, o cálculo de vários tipos de médias e índices. $xemplos5 resultado final deuma elei"#o apresentado pelo =ribunal uperior $leitoral '=$( F .>, desmatamento

    na Ama!&nia F Gi)ura >.H., áreas desmatadas com autori!a"#o e sem autori!a"#o F Gi)ura >.?e as ori)ens da madeira ama!&nica F Gi)ura >.I.

     b) Estatística de inferência E consiste de métodos para inferir sobre uma popula"#o baseada na informa"#o de uma amostra da popula"#o.

    A estatística de infer%ncia moderna praticamente sur)iu ap2s as publica"1es científicasde Jarl Pearson e Konald Gisher, no início do século passado 'CC(. Depois disso, houve umaevolu"#o fantástica dessa ci%ncia, tornandose aplicável a várias áreas de conhecimento, taiscomo5 $n). Glorestal, A)ronomia, Biolo)ia, List2ria, Gísica,

  • 8/15/2019 Parte 1 - Biometria

    4/106

    erro i)ual a >,Q(, s#o praticamente i)uais aos oficiais do =$. A informa"#o do =$ é sobrevotos válidos enquanto que os da pesquisa de opini#o s#o de inten"#o de votos. +a pesquisade opini#o do > turno é difícil identificar o voto 6nulo8.

    Ee!plo "# Pesquisas de opini#o sobre o H turno da elei"#o presidencial HNNH,reali!adas pelo Datafolha. +este caso, foi possível estimar os percentuais sobre os votosválidos. +o 0ltimo dia da pesquisa 'HRS>NSNH(, o Datafolha estimou RIQ dos votos válidos

     para o 4ula e ?RQ para o erra. A Gi)ura >.R mostra a din:mica de opini#o de eleitores paraoH turno da elei"#o de HNNH. O resultado do =$ 'oficial( foi de R>,HQ para o 4ula e ?,TQ

     para o erra F .>. *onsiderando a mar)em de erro de HQ 'para mais e para menos(,as estimativas do 0ltimo dia seriam RHQ 'para menos( para o 4ula e ?Q 'para mais( para oerra.

    $sta parte da estatística de infer%ncia evoluiu muito no Brasil. A prova disso s#o osresultados finais do primeiro e do se)undo turno da elei"#o presidencial de HNNH que temmuito a ver com as previs1es feitas pelas pesquisas de opini#o dos vários institutos. O sucessotem que ser creditado principalmente pela escolha correta do tipo de amostra)em, coleta de

    dados e processamento U análise dos resultados A evolu"#o da informática tambémcontribuiu muito para o sucesso das pesquisas o rápido processamento e, conseqente,análise dos resultados, permitiu a repeti"#o em intervalos de tempo menores F isso éfundamental para a valida"#o dos métodos utili!ados que, por sua ve!, dá a robuste!necessária para a pesquisa e a sociedade )anha com a maior precis#o e confiabilidade das

     pesquisas de opini#o.

    Ee!plo $#  Previs#o da área desmatada para HNNR 'a)osto HNNM a julho HNNR( com base no intervalo de confian"a 'VMQ( da série hist2rica de >VT a HNNM F Gi)ura >.T. Apesar da confus#o das estatísticas e de sua interpreta"#o, com boa vontade e profissionalismo, ascausas do desmatamento poderiam ser identificadas. O desafio é entender a dire"#o que o

    desmatamento pode tomar no futuro. em entender as causas, a dire"#o s2 pode ser estocástica. A Gi)ura >.T ilustra o uso do intervalo de confian"a F 3* 'nível de probabilidadede VMQ( para a média do período >VTHNNM. De acordo com din:mica do desmatamento atéHNNM, as chances do desmatamento durante HNNMHNNR 'a)osto HNNM a julho HNNR( s#o5 HVQde ficar acima da estimativa máxima provável 'maior do que HN.V? WmH(, HVQ abaixo daestimativa mínima provável 'menor do que >R.HVR WmH( e IH Q de ficar dentro do intervalo deconfian"a 'entre >R.HVR a HN.V? WmH( F com VMQ de chance de acertar.

    Ee!plo %#  =odos os trabalhos de equa"1es de volume que utili!am os modelosdestrutivos 'na maioria das ve!es( para ajustar os dados de volume real observado emmodelos matemáticos que ser#o utili!ados, posteriormente, para estimar o volume da árvoreem pé.

    Para concluir a discuss#o, em torno da nature!a da estatística, é importante n#o perder de vista que a op"#o por uma das duas estatísticas pode ser pessoal. $ntretanto, se a escolharecair sobre a de infer%ncia, o pesquisador deve se sujeitar as suas re)ras e condicionantes. Aestatística de infer%ncia, por sua ve!, deve ficar sob as condicionantes da teoria da

     probabilidade, da normalidade e da independ%ncia a viola"#o de uma dessas condicionantesimplica em um comprometimento muito sério de todo o seu trabalho.

    1.2. Conceitos Básicos:

    =alve!, os conceitos mais importantes para os florestais s#o erros amostrais e n#oamostrais. e voc% conse)uir distin)uir esses dois conceitos, voc% sempre fará um trabalhoconfiável e, por conse)uinte, a estatística será uma ferramenta 0til na execu"#o de seustrabalhos de pesquisa, encurtando caminhos para a produ"#o de ci%ncia e de resultados deinventário florestal.

  • 8/15/2019 Parte 1 - Biometria

    5/106

    (i) Erro Amostral  E é o erro que voc% comete por n#o medir toda a popula"#o. $ste par:metro é mensurável e, dependendo da escolha dos métodos, voc% tem condi"1es deaumentar ou diminuir este erro. De qualquer modo, tratase de um par:metro que pode ser controlado e avaliado por voc%. X o desvio padr#o da média ou, simplesmente, erro padr#o etem f2rmula para o seu cálculo. X a 0nica medida de precis#o, por mais paradoxal que possa

     parecer, em qualquer trabalho de pesquisa ou de inventário florestal.(ii) Erro no!amostral   E é o erro humano, que pode ser cometido acidental ou

    deliberadamente. X o tipo de erro que voc% comete ao alocar uma amostra no lu)ar errado F ex.5 no escrit2rio voc% fa! a op"#o pela amostra)em inteiramente aleat2ria e sorteia asunidades amostrais e distribui em sua área estudo no campo, entretanto, voc% n#o conse)uealocálas de acordo com as coordenadas préestabelecidas e alocáas em outro lu)ar. @oc%também comete erro n#oamostral quando utili!a um equipamento defeituoso ou, por 

     pre)ui"a, voc% 6chuta8 as medidas de uma determinada variável. O problema desse erro é quevoc% n#o conse)ue dimensionálo e, neste caso, n#o há estatística que d% jeito para consertar omalfeito. A estatística e o computador s2 s#o 0teis na interpreta"#o de fen&menos observados

    quando os dados s#o de absoluta confian"a e sem erros n#oamostrais.&oral# Busque sempre a melhor metodolo)ia para conse)uir a maior precis#o de seu

    trabalho sem, contudo, aumentar a possibilidade de cometer erros n#oamostrais. BO;P$

  • 8/15/2019 Parte 1 - Biometria

    6/106

    =end%ncia devido o método de amostra)em ocorre quando certas unidades )anhammaior ou menor representa"#o na amostra do que na popula"#o. $x.5 se voc% excluir HNmetros de bordadura do lado oeste da Keserva DucWe por causa de um i)arapé. +este caso,voc% está introdu!indo tend%ncia em sua avalia"#o simplesmente porque voc% n#o deu amesma oportunidade, para as árvores que ocorrem naquela faixa, em aparecer no seu trabalho.

    Outro exemplo5 quando a equipe econ&mica fa! uma pesquisa nos supermercados do centrosul e extrapola o custo de vida para todo o Brasil isso é uma medida tendenciosa que n#oreflete o que se passa em ;anaus.

    =end%ncia na forma de estimar determinado par:metro pode ser introdu!ida quandovoc%, por exemplo, toma o volume médio da Keserva DucWe e junta com o volume médio doDistrito A)ropecuário da -GKA;A 'RNN.NNN hectares(, para avaliar o potencial madeireiroda re)i#o de ;anaus. -m volume médio n#o tendencioso seria uma média ponderadaconsiderando os diferentes tamanhos de cada área, em ve! de usar a média aritmética simples'tendenciosa, neste caso(.

    I!portante#  A tend%ncia é a m#e do erro n#oamostral, por esta ra!#o, evitála é sinal

    de prud%ncia e sensate!.PRECI+' E E3ATI0+' F uma estimativa tendenciosa pode ser PK$*3A, mas

    nunca $CA=A. Ainda que o Aurélio 'dicionário( pense diferente, para os estatísticos,$CA=3DYO referese ao sucesso em estimar o valor verdadeiro de uma quantidadePK$*3YO referese 7 distribui"#o dos valores amostrais em torno de sua pr2pria média que,se for tendenciosa, n#o pode ser o valor verdadeiro F @er fi)ura >.. $xatid#o ou estreite!a aovalor verdadeiro pode estar ausente por causa da tend%ncia, falta de precis#o ou por causa deambas.

  • 8/15/2019 Parte 1 - Biometria

    7/106

    Gi)ura >.>5 Pesquisa científica F do pensamento 7 infer%ncia.

  • 8/15/2019 Parte 1 - Biometria

    8/106

    .>5 Kesultados das elei"1es para presidente de HNNH.

    RE(TA0' 0A EEI*4E 0E "55"

    Total de eleitores 6 1178"7%811$

    Resultado do 19 turno# n9 de votantes 6 :%8;5%81"<

    orde! /=!ero Candidato total votos > v?lidos

    1 1, -ula ,./0/.2 /%//

    2 /0 os3 4erra 1.560.61 2,%26

    ? IN Zarotinho >M.>TV.TV >T,T

    I H? *iro Zomes >N.>TN.RRR >>,VT

    M >R [é ;aria INH.H?H N,IT

    R HV Kui Pimenta ?.R>V N,NM

    Resultado do "9 turno# n9 de votantes 6 :18

  • 8/15/2019 Parte 1 - Biometria

    9/106

    Gonte5 ]]].ibama.)ov.br  F sisprof. A área desmatada com autori!a"#o D área desmatadatotal e A5D rela"#o entre autori!ado e n#o autori!ado.

    Gi)ura >.?5 Kela"#o entre áreas 'em WmH( desmatadas com autori!a"#o e sem autori!a"#o naAma!&nia.

    Gonte5 ]]].ibama.)ov.br  F sisprof 

    Gi)ura >.I5 Ori)em da madeira da Ama!&nia F planos de manejo florestal sustentável 'P;G(,desmatamento autori!ado e sem ori)em definida.

    http://www.ibama.gov.br/http://www.ibama.gov.br/http://www.ibama.gov.br/http://www.ibama.gov.br/

  • 8/15/2019 Parte 1 - Biometria

    10/106

    Gi)ura >.M5 Pesquisas de opini#o reali!adas pelo 3BOP$ para o > turno da elei"#o presidencial de HNNH. 

    Gi)ura >.R5 Pesquisas de opini#o reali!adas pelo Datafolha para o H turno da elei"#o

     presidencial de HNNH.

  • 8/15/2019 Parte 1 - Biometria

    11/106

    Gi)ura >.T5 Previs#o da área desmatada para HNNR 'a)osto HNNM a julho HNNR( com base nointervalo de confian"a 'VMQ( da série hist2rica de >VT a HNNM.

    Gi)ura >.5 Diferen"a entre precis#o e exatid#o.

  • 8/15/2019 Parte 1 - Biometria

    12/106

    Capítulo "'rgani@ação dos dados

    2.1. 7ados:

    A informa"#o coletada e analisada pelo estatístico é chamada de DADO. Lá váriostipos de dados e a escolha da metodolo)ia, pelo estatístico é, parcialmente, determinada pelotipo de dados que ele tem em m#os.

    Ee!plo 1# +o exame de sele"#o para turma VNSV> do ;anejo Glorestal, tivemos >Mcandidatos, >? homens e H mulheres. Do total, apenas T fi!eram o exame. Goram aprovados Rcandidatos, M homens e > mulher. \o#o da ilva tirou o primeiro lu)ar com nota R,T e \oaquim;oreira tirou o 0ltimo lu)ar com a nota M,N.

     +o exemplo acima, n2s podemos destacar os se)uintes tipos de dados5

    (AITATI.' F o tipo mais simples de dados, é a informa"#o que coloca cada

    candidato em uma das duas cate)orias 6homem ou mulher8 ou 6tipo florestal 3 ou tipo 338 ou6estocada ou n#o estocada8 etc. $sses dados d#o informa"1es sobre um indivíduo ou um item.

    'R0I/A F A informa"#o sobre classifica"#o, dados que colocam os indivíduos ouobjetos em ordem, 6ranWeados8. +o exemplo, as classifica"1es de \o#o e \oaquim s#o dadosordinais.

    &2TRIC'  F O termo métrico se refere aos dados mensuráveis e n#o deve ser confundido com os dados em unidades métricas. +o exemplo, as notas dos candidatos 'R,T eM,N e outras notas( s#o dados métricos.

    Kesumindo5

    0ados Bualitativos# dados que se referem 7 qualidade n#o numéricas ou atributos, taiscomo5 tipo florestal, )%nero ou espécie florestal, cor de al)uma coisa etc.

    0ados ordinais# dados sobre classifica"#o, ordem ou 6ranW8, tais como5 classifica"#ode toras, ordem de che)ada etc.

    0ados !tricos#  dados obtidos de medi"1es de certas quantidades como5 tempo,altura, DAP, volume, peso etc.

    -m outro importante tipo de dados é o chamado 0A0' C'/TD.EI. A conta)emdo numero de indivíduos ou itens que caem em várias cate)orias, tais como 6homem8 e6mulher8 fornece os dados contáveis. Por exemplo, a informa"#o dada no exemplo anterior que foram aprovados M homens e > mulher, s#o dados contáveis.

    0A0' C'/TD.EI s#o dados sobre o n0mero de indivíduos ou itens que caemem certas cate)orias ou classes, que podem ser obtidos de quaisquer tipos de dados'qualitativo, ordinal ou métrico(.

    Os dados (AITATI.' e 'R0I/A s#o referidos pelos estatísticos como dados0ICRET'  porque eles classificam coisas em classes separadas e discretas. +aclassifica"#o dos candidatos ao mestrado n#o há como colocar nin)uém entre o primeiro lu)ar e o se)undo. =ambém n#o há como classificar nin)uém entre 6homem8 e 6mulher.8 #oexemplos típicos de dados discretos, porque n#o há como di!er que al)uém ficou em6primeiro lu)ar e meio8 ou o que fulano é 6homem e meio8. +o caso de ordem de che)ada ou6ranW8 há possibilidade de empate, mas isso é outra coisa e será discutido na estatística n#o

     paramétrica.

  • 8/15/2019 Parte 1 - Biometria

    13/106

    Por outro lado, a maioria dos dados métricos é considerada 0A0' C'/T/(' porque eles envolvem medi"1es sobre uma escala contínua. A escala fica por conta da precis#o do aparelho de medi"#o5 na suta ou na fita diamétrica, o máximo que podemosche)ar é décimo de centímetros, ou seja, entre os DAP^s HN e H> cm n2s podemos ter DAP^scom HN.>, HN.H, ... , HN.V nos cron&metros da G2rmula >, no entanto, o nível de precis#o é

    impensável para os nossos rel2)ios de pulso.

    2.2. 7ados 8rupados:

    A quantidade de dados que pode ser coletada do 6mundoreal8 é simplesmentefantástica.

    Ee!plo 15 O censo brasileiro. @oc% já ima)inou a trabalheira que dá para cadastrar aproximadamente >N milh1es de pessoas, anotando o nome, sexo, idade, ocupa"#o,escolaridade etc. Apenas para ilustrar, se voc% usar qualquer soft]are '$xcel ou _ord( paralistar toda essa )ente, voc% )astará mais de RNN quil&metros de papel apenas para imprimir asinforma"1es básicas, é ;anaus3tacoatiara;anaus. *om todo esse papel, dificilmente voc%

    teria uma boa foto)rafia da popula"#o brasileira. $nt#o, o que fa!em os especialistas do3BZ$9 $les nos proporcionam variadas informa"1es5 quantidades de homens e de mulheres'C>( C> por classe idade 'CH( CH por estado e por re)i#o C> por nível de escolaridade

     popula"#o ativa etc.

    3sso é um exemplo típico da aplica"#o da estatística D$*K3=3@A, por meio daor)ani!a"#o e simplifica"#o dos dados.

    Ee!plo "5 Dados sobre DAP das árvores da parcelatestemunha do bloco H 'apenasas IN primeiras árvores(.

    Os 6picapaus8 normalmente pensam no DAP em classes de >N, HN, ?N, IN cm etc.

    Para ver quantos DAPs há em cada classe voc% fa! o se)uinte5. Dados de DAPs de IN árvores.

    árv. n DAP `rv. n DAP árv. + DAP árv. n DAP> HM.N >> ??.N H> ?H.N ?> ?T.NH HT.N >H ?.M HH R?.N ?H I>.N? IM.N >? ?>. H? ?I.N ?? IN.NI ?R.N >I MH.N HI ?N.N ?I ?H.NM ?V.N >M ?T.N HM HV.N ?M M.NR ?R.N >R HT.T HR ?H.N ?R H.N

    T ??.N >T ?M.N HT HT.N ?T TT.N IT.N > ??.N H H.N ? M.NV ?I.N >V IT.N HV HT.N ?V I?.N>N M?.N HN ??.N ?N IN.N IN ?N.N

  • 8/15/2019 Parte 1 - Biometria

    14/106

    N.

    Gi)ura H.>5 Listo)rama de freq%ncia para os mesmos dados do quadro H.>.

  • 8/15/2019 Parte 1 - Biometria

    15/106

    A freq%ncia pode ser também apresentada em porcenta)em ou decimal, conhecidacomo GK$

  • 8/15/2019 Parte 1 - Biometria

    16/106

    Capítulo $&edidas descritivas

    Lá muitos critérios, por sinal, bem avan"ados, para a descri"#o sucinta dos fen&menosnaturais. Apesar disso, a maioria das características usadas na estatística, para descrever as

    variáveis aleat2rias, em popula"1es particulares, caem em uma das tr%s cate)orias5 '>(medidas da tend%ncia central 'aloca"#o de um valor ordinário( 'H( medidas de dispers#o'dist:ncia relativa de valores extremos de um valor central( '?( medidas de relacionamentoentre as variáveis ')rau de similaridade ou dissimilaridade em ma)nitude(.

    $m )eral, o volume de dados de uma pesquisa é muito )rande. Os métodos de )ráficose )rupamento de dados s#o 0teis no manuseio de um )rande conjunto de dados. -ma outraforma de sumari!ar os dados é por meio da computa"#o de um n0mero, tal como a média, aqual substitui um )rande volume de dados por um simples n0mero.

    ,.1 edidas de tendncia central:

    As medidas de aloca"#o mais comumente utili!adas s#o média aritmética e a mediana.;enos freqentemente usadas s#o5 moda, percentil, média )eométrica e média harm&nica.

    A média comum ou média aritmética ou simplesmente média, é a mais freqentementeusada de todas as medidas estatísticas.

    &dia F é simplesmente a soma de todas observa"1es 'DAP, altura, idade( dividida pelo n0mero total de observa"1es. X a medida que tem a menor variabilidade de amostra paraamostra, é fácil de ser manuseada matematicamente e tem as propriedades mais desejáveis emconex#o com as distribui"1es de probabilidade.

    &ediana  F é o valor de uma variável aleat2ria que, em ordem crescente ou

    decrescente, está 6ranWeado8 no meio, entre os valores maiores e menores. $m amostras comn0mero par de observa"1es, a mediana é a média aritmética dos H valores que est#o6ranWeados8 no meio. $stimativas da mediana de pequenas amostras n#o s#o muitoconfiáveis.

    &oda  F é o valor mais freqente, ou seja, é a cate)oria ou classe com a maior freq%ncia. X uma medida fácil e rápida de ser obtida, mas, por outro lado, fica sempre sujeitaa varia"#o extrema de uma amostra para outra, ao menos que a amostra seja bem )rande.

    Percentil  F para um melhor entendimento pense na mediana como o MNésimo percentil.

    &dia geo!trica F é a nésima rai! de um produto de n valores, ou antilo) da média

    aritmética dos lo)s de um conjunto de valores e é sempre t#o pequeno ou menor que a médiado mesmo conjunto de dados.

    &dia Lar!Mnica F é a recíproca da média de um conjunto de dados recíprocos e ét#o pequena ou menor que a média )eométrica para um mesmo conjunto de dados.

    Para dados ordinais, é preferível utili!arse da mediana, apesar de que a média é, asve!es, utili!ada.

    Para dados métricos pode ser usada a média ou a mediana. *omo com dados ordinais,a mediana é preferida para prop2sitos descritivos. A maioria das teorias estatísticas para dadosmétricos usa a média.

  • 8/15/2019 Parte 1 - Biometria

    17/106

    Computa#o de 3dia% ediana e oda

    &dia F a estimativa da média, x

     d ou ӯ, do par:metro µ, é obtida da se)uinte maneira5

    Dos dados do quadro H.>, a média será5

     x

     d  6 $;N""7

    &ediana F do quadro H.>, primeiro é preciso ordenar em ordem crescente,

    '>( 'H( '?( 'I( 'M( 'R( 'T( '( 'V( '>N(

    "7 "O "O "O "O8O "; "; ": $5 $5

    '>>( '>H( '>?( '>I( '>M( '>R( '>T( '>( '>V( 'HN(

    $18; $" $" $" $$ $$ $$ $$ $% $%

    'H>( 'HH( 'H?( 'HI( 'HM( 'HR( 'HT( 'H( 'HV( '?N(

     $7 $< $< $O $O $;87 $: %5 %5 %1

      '?>( '?H( '??( '?I( '?M( '?R( '?T( '?( '?V( 'IN(

     %$ %7 %O %O 7" 7$ 7; 7;

  • 8/15/2019 Parte 1 - Biometria

    18/106

    ,.2. edidas de disperso:

    -ma medida de dispers#o é um n0mero usado para mostrar quanto de varia"#o existenum conjunto de dados.

    Até a)ora discutimos somente as medidas de tend%ncia central. $ntretanto, H conjuntos

    de dados podem ter a mesma média ou a mesma mediana e, mesmo assim, ser bastantediferente.

    $xemplo >5 Dois conjuntos de dados 'turmas de ;anejo e $colo)ia(, no quadro ?.>

    . 3dades de alunos dos cursos de manejo e ecolo)ia do 3+PA

    ;anejo '*G=( $colo)iaaluno idade aluno idade

    > HM > HHH H H ?N? ?N ? H

    I HV I H>M H M ?Vmédia H média H

    As médias dos dois )rupos s#o i)uais. +o entanto, é claro que estamos nos referindo adois )rupos diferentes em idade. Dá para perceber que o )rupo do ;anejo é mais uniformeem termos de idade. +este caso, para ver a varia"#o que há dentro de cada conjunto de dados,

     podemos usar a a!plitude total ou o desvio padrão, as duas medidas de dispers#o maiscomuns.

    A&PIT(0E T'TA F é a medida da varia"#o olhando apenas a diferen"a entre omaior e o menor valor. $sta medida é de fácil computa"#o porque depende apenas do maior e

    do menor valor, mas, em compensa"#o ela n#o di! o que acontece entre esses dois valores.Além disso, é considerada muito limita, sendo uma medida que depende apenas dos valoresexternos, é instável, n#o sendo afetada pela dispers#o dos valores internos.

    Do quadro ?.>, as amplitudes s#o5

    - ;anejo5 ?N F HM M

    - $colo)ia5 ?V F H> >

    0E.I' PA0R+' F nos dá a dispers#o dos indivíduos em rela"#o 7 média. $le nosdá uma idéia se os dados est#o pr2ximos da média ou muito lon)e. O desvio padr#o dosindivíduos de uma popula"#o é freqentemente simboli!ado pela letra )re)a min0scula 'σ(.

    Dificilmente a )ente trabalha com o par:metro. $ntretanto, dado uma amostra de valoresindividuais de uma popula"#o, podemos fa!er uma estimativa de σ  que é comumentesimboli!ada por s.

    >n

    (x  'x 

    s 5G2rmula

    n

    >i

    Hi

    ±

     

    >n

    nS((x''  x

     s 5simples mais,>

    n

    >i

    H

    i

    H

    i∑ ∑= =

    ±=

    n

    i

    ou

  • 8/15/2019 Parte 1 - Biometria

    19/106

    Por que o denominador é 'n>( em ve! 'n(9 Porque os n desvios, 'xi  F  x d 

    (, s#o

    necessariamente conectados pela rela"#o linear ∑ ' xi F  x d 

    ( N. e voc% especifica o valor 

    da x

     d  e os ' n> ( valores de xi, ent#o o valor do 0ltimo xi é fixo isto é, é uma informa"#o

    redundante. Por esta ra!#o, ao usar a média amostral x

     d  em ve! da média da popula"#o

    µ

    como um ponto central no cálculo de s, voc% perde um )rau de liberdade ')l( e a estimativa deσ

     é dita ter ' n F > ( )l associados com ela. O uso de 'n F >( em ve! de 'n( no cálculo de stambém fornece uma estimativa n#otendenciosa isto é, em uma série infinita de amostrasaleat2rias, o valor médio do estimador é i)ual a

    σ

    .

    Os desvios padr1es dos dados do quadro ?.> s#o5

    - ;anejo5 s ± >.T

    - $colo)ia5 s ± T.HM

    Kesumindo5 quanto maior a varia"#o dentro de um conjunto de dados, maior será o

    desvio padr#o. Do exemplo > n2s constatamos a)ora, que apesar dos dois terem as mesmasmedidas de tend%ncia central, média e mediana, as medidas de dispers#o s#o totalmentediferentes. 3sto quer di!er que o )rupo de ;anejo é mais homo)%neo em idade, comprovada

     pela menor varia"#o encontrada.

    C?lculo da !dia e desvio dos dados grupados#

    A média é calculada da se)uinte maneira5

     x

     d   ' xi g f i ( S n

    onde5 xi  ponto médio da classe, f i  freq%ncia de cada classe e n n0mero de classes

    $ o desvio padr#o se)ue o mesmo princípio da média em rela"#o 7s classes.Do quadro H.H, essas medidas ser#o5

     x

     d   ?,M e s ± >>,IM

    ,.,. edidas de relacionamento:

    As medidas mais comumente utili!adas para relacionamento s#o correla"#o ere)ress#o. @ários tipos de correla"#o podem ser usados para medir o )rau de associa"#o'similaridade ou dissimilaridade( entre H 'ou mais( variáveis aleat2rias, independente dasunidades de medida e mudan"as lineares em escala. $stas medidas ser#o vistas, em detalhe,

    num capítulo específico.

    ,./ "ercentil:

     +2s já vimos um exemplo de percentil. A mediana divide um conjunto de dados emduas partes, MNQ de um lado e MNQ de outro, depois de colocálos em ordem crescente. Por esta ra!#o ela se refere ao qinqua)ésimo percentil de um conjunto de dados. Além dos

     percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador  pode também querer encontrar o quartil e o decil.

    uartil é a separatri! que divide a área de uma distribui"#o de freq%ncia emdomínios de área i)ual a m0ltiplos inteiros de um quarto da área total.

    0ecil é a separatri! correspondente ao valor do ar)umento que divide a distribui"#onuma ra!#o decimal.

  • 8/15/2019 Parte 1 - Biometria

    20/106

    $xemplo5 dados do quadro H.> em ordem crescente.

    Pri!eiro Buarto

    egundo Buarto

    Terceiro Buarto

    uarto Buarto

    *omputa"1es5

    Primeiro quartil '?N ?>.( S H ?N.V

    e)undo quartil '?I ?M( S H ?I.M

    =erceiro quartil 'I> I?( S H IH.N

    ,.0. Considera#$es finais:

      +este capítulo n#o poderíamos deixar de mencionar tr%s outros conceitos muitoimportantes na nossa área de conhecimento, coeficiente de varia"#o, vari:ncia e covari:ncia.

    C'EKICIE/TE 0E .ARIA*+' F é a ra!#o entre o desvio padr#o e a média. $lenos dá uma idéia de varia"#o relativa de nossa popula"#o, permitindo a compara"#o de H

     popula"1es diferentes independentes das unidades de medida.

    Do quadro ?.>, estimamos as médias 'H para manejo e H para $colo)ia( e os desvios padr1es '>.T e T.HM(. A)ora temos os coeficientes de varia"#o '*@(5

    C. 6 18;O"; 6 585 - floresta K-"

    ;esmo se tratando de popula"1es diferentes podemos concluir com base nos *@s5 A popula"#o ;anejo é mais homo)%nea e a mais hetero)%nea é a floresta da [GH. 3sto é possível porque o *@ é uma medida relativa, que independente da unidade de medidautili!ada.

    .ARI,/CIA @ari:ncia é uma medida da dispers#o dos valores unitários individuaisem torno de sua média. A vari:ncia n#o s2 parece com o desvio padr#o, como é o pr2prio,apenas 6ao quadrado8 . e voc% tirar da f2rmula do desvio, a rai! quadrada, voc% tem af2rmula da vari:ncia. Por que 6ao quadrado89 implesmente porque a soma de todos os

    desvios tem que se anular, tendendo a !ero e, daí, voc% n#o teria condi"1es de ver a amplitudede varia"#o dos seus dados em rela"#o 7 média.

    HM HT HT HT HT.T H H HV ?N ?N

    ?>. ?H ?H ?H ?? ?? ?? ?? ?I ?I

    ?M ?R ?R ?T ?T ?.M ?V IN IN I>

    I? IM IT IT MH M? M M R? TT

  • 8/15/2019 Parte 1 - Biometria

    21/106

    C'.ARI,/CIA é uma medida de como H variáveis variam juntas, emrelacionamento 'covariabilidade(. uponha duas variáveis x e . e os maiores valores de xtende a ser associados com os maiores valores , n2s di!emos que a covari:ncia é positiva.

  • 8/15/2019 Parte 1 - Biometria

    22/106

    KUr!ulas =teis

     ;édia Aritmética @ari:ncia

    n

     x

     x

    n

    i

    i∑== >

      )(

    >

    H

    >H

    −=

    ∑=

    n

     x x

     s

    n

    i

    i

    Desvio padr#o $rro padr#o

    H s s   ±=   n s s x S=

    ∑∑

    =

    =

      

      

     

    −=n

    i

    n

    i

    i

    i xn

     x

     xSQC >

    H

    >H

    n

     y

     ySQC 

    n

    i

    in

    i

    i y

    H

    >

    >

    H

      

      

     

    −=∑

    ∑   ==

    ( (n

     y x y xSPC   ii

    n

    i

    ii xy

    ∑∑∑=

    −=>

    *oeficiente de correla"#o

    Y  X 

     xy

    SQC SQC 

    SPC r 

    ×=

  • 8/15/2019 Parte 1 - Biometria

    23/106

    Capítulo %ProHaHilidade

     +o capítulo > n2s distin)uimos dois tipos de estatísticas5 descritiva e de infer%ncia. Aestatística descritiva envolve a or)ani!a"#o e a sumari!a"#o dos dados. A estatística de

    infer%ncia lida com infer%ncias 'predi"1es educadas( sobre uma popula"#o baseada em umaamostra da popula"#o.

    Desde que a estatística de infer%ncia envolve predi"1es 'educadas(, é sempre possívelfa!er uma infer%ncia incorreta. X preciso saber o quanto a nossa infer%ncia está correta. Paramedir a chance de estar certo na nossa infer%ncia estatística, precisamos entender a teoria de

     probabilidade, que é a fundamenta"#o matemática para a estatística de infer%ncia.

    Para entender os princípios da teoria de probabilidade n#o há como fu)ir dos exemplosclássicos de 6cara U coroa8, dos dados e do jo)o de baralho. A prop2sito, a teoria foidesenvolvida por causa de jo)os de a!ar. O objetivo deste capítulo é dar uma base )eral parafacilitar o entendimento da aplica"#o de testes de hip2teses, paramétrica e n#oparamétrica.

    O processo de computa"#o 'cálculo( de probabilidades depende de sua capacidade decontar, 6>, H, ? e assim por diante.8 A se)uir vamos discutir al)uns métodos de conta)em.

    /.1. Conta8em:

    Primeiro vamos estabelecer as se)uintes defini"1es dentro da teoria de probabilidade.

    Resultado no caso de 6cara ou coroa8, H resultados s#o possíveis e no caso do jo)o dedados, R resultados.

    Teste 'ou tentativa( é a a"#o de jo)ar a moeda e ver se ela cai com a cara oucoroa.

    Eperi!ento  é o conjunto de testes 'tentativas( se a moeda é jo)ada uma ve!, ouduas, ou n ve!es, n#o interessa F o procedimento deve ser considerado um experimento.

    Eventos  s#o os possíveis resultados de um teste, vários testes ou de todo oexperimento. $xemplo de evento5 6uma coroa em I jo)adas8 ou 6pelo menos um é cara8.

    REVRA 15 e um experimento consiste de n testes, onde cada teste pode resultar em um dosW possíveis resultados, afirmamos que há W n possíveis resultados de todo o experimento.

    Ee!plo 1# no jo)o da moeda voc% tem dois resultados, cara '*( ou coroa 'c(, WH.e voc% jo)ar apenas uma ve!, n>, voc% terá H>  H possíveis resultados, C ou c. e voc%

     jo)ar duas ve!es, n H, voc% terá HH  I possíveis resultados, CC  cc Cc cC.

    REVRA "5 Lá n 'fatorial( maneiras de arranjar n objetos distin)uíveis em uma seq%ncia.

    Ee!plo "#  considere o n0mero de maneiras de arranjar as letras A, B e * numaseq%ncia. A primeira letra pode ser qualquer uma das tr%s, a se)unda pode ser escolhida deduas maneiras diferentes uma ve! que a primeira já foi escolhida, e a letra remanescente setorna a 0ltima letra escolhida, para um total '?( 'H( '>( R ou ? Arranjos diferentes. Os R

     possíveis arranjos s#o5 AWC ACW WAC WCA CAW e CWA.

    Ee!plo $#  suponha uma corrida de cavalos com cavalos. Lá maneiras dequalquer um deles che)ar em primeiro lu)ar, tendo nas outras coloca"1es qualquer outro. e

    voc% quiser saber quantos arranjos s#o possíveis tendo, no primeiro e se)undo lu)ar, qualquer um deles e, as demais coloca"1es, de qualquer jeito, voc% fará '( 'T( MR arranjos. e voc%,

  • 8/15/2019 Parte 1 - Biometria

    24/106

    no entanto, quiser saber todos os possíveis arranjos do primeiro ao oitavo lu)ar voc% fará IN?HN arranjos.

    REVRA $# se um )rupo de n objetos é composto de W objetos id%nticos de um tipo e orestante 'nW( s#o objetos id%nticos de um se)undo tipo, o n0mero de arranjos distin)uíveisdos n objetos numa seq%ncia, denotado por meio de

    Ou5 se um )rupo de n objetos é composto de n> objetos id%nticos do tipo >, nH  objetosid%nticos do tipo H, ..., nr  objetos id%nticos do tipo r, o n0mero de arranjos distintos numaseq%ncia será5

    Ee!plo %#  no exemplo H listamos as R maneiras de arranjar as letras A, B e * numaseq%ncia. uponha a)ora que as letras A e B s#o id%nticas e chameas de C. Assim, osarranjos AB* e BA* se tornam indistintos, CC* para os dois. =ambém A*B e B*A setornam C*C. O arranjo ori)inal é redu!ido para arranjos distintos, que s#o CC*, C*C e*CC.

    /.2. 7efini#$es de pro*a*ilidade:Primeiro vamos ver al)umas defini"1es5

    W(i,'nWi

    ni 

    W

    npordadoé 

    W

    n

    =

    nr ... nH n>

    ni

    npordadoé

    ni

    n=

    ? '>((>' (H'

    '>( 'H( '?( 

    >iHi

    ?i 

    H

    ?===

  • 8/15/2019 Parte 1 - Biometria

    25/106

    (i)   Espa#o amostral   é a cole"#o de todos os possíveis resultados de umexperimento.

    (ii)  "onto no espa#o amostral   é um resultado possível de um experimento.

    *ada experimento tem o seu pr2prio espa"o amostral, que consiste essencialmente de

    uma lista de diferentes resultados possíveis de um experimento. O espa"o é subdividido ecada subdivis#o é um ponto. *ada possível resultado é representado por um ponto e somenteum ponto.

    Ee!plo 1#  se um experimento consiste em jo)ar duas ve!es a moeda, o espa"oamostral consiste de I pontos CC cc Cc cC.

    Ee!plo "#  uma prova consistindo de >N quest1es 6falsa8 ou 6verdadeira8 é passadaa um aluno como um experimento. Lá H>N >NHI pontos no espa"o amostral, onde cada pontoconsiste da seq%ncia das possíveis respostas para as >N quest1es sucessivas, tais como5GGGG@@GG@@.

    A)ora, ent#o, é possível definir evento, em termos dos pontos do espa"o amostral.

    (iii) E'ento  um evento é qualquer conjunto de pontos no espa"o amostral.

     +o exemplo > ao falarmos do evento 6duas caras8, estamos nos referindo a umsimples ponto ** o evento 6uma cara8 consiste de dois pontos *c e c* o evento 6pelomenos uma cara8 consiste de tr%s pontos **, *c e c*.

    Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos 6pelo menosuma cara8 e 6pelo menos uma coroa8 tem os pontos *c e c* em comum. e dois eventos n#ot%m pontos em comuns eles s#o chamados de eventos !utua!ente eclusivos  porque aocorr%ncia de um evento automaticamente exclui a possibilidade de ocorrer outro evento aomesmo tempo.

    Para cada ponto no espa"o amostral há um n0mero correspondente chamado de probabilidade do ponto ou probabilidade do resultado. $stas probabilidades podem ser quaisquer n0meros entre 5 a 1. A defini"#o da probabilidade de um evento inclui a defini"#oda probabilidade de um resultado como um caso especial, desde que o evento possa ser considerado como que se consistisse de um resultado simples.

     +a prática, o conjunto de probabilidades associadas com um particular espa"oamostral é raramente conhecido, mas as probabilidades s#o atribuídas de acordo com asno"1es préconcebidas do pesquisador, isto é, o pesquisador formula um modelo como umavers#o ideal do experimento. $nt#o, o espa"o amostral do modelo experimental é examinado eas probabilidades s#o atribuídas aos vários pontos do espa"o amostral de al)uma maneira que

    o pesquisador sinta que pode ser justificada.Ee!plo $#  +um experimento consistindo de uma 0nica jo)ada de uma moeda 6n#o

    viciada8, é ra!oável assumir que o resultado cara '*( tem metade da chance de ocorrer. Assim, podemos atribuir a probabilidade de para o resultado * e o mesmo para c. 3sso pode ser escrito da se)uinte maneira5 P '*( >SH e P 'c( >SH .

    Ee!plo %#  +um experimento consistindo de ? jo)adas 'testes(, é ra!oável assumir que cada um dos H?  resultados *** **c *c* *cc c** cc* c*c ccc tem a mesmachance de ocorrer. Assim, a probabilidade de cada resultado é >S. =ambém P '? caras( >S,P 'pelo menos > cara( TS, P 'pelo menos H caras( IS .

    (i') ;un#o de "ro*a*ilidade# é uma fun"#o que atribui probabilidades aos várioseventos no espa"o amostral.

  • 8/15/2019 Parte 1 - Biometria

    26/106

    @árias propriedades dessas fun"1es s#o aparentes. *onsidere  como espa"o amostrale A, B ou * como qualquer evento em . $nt#o, se P é a fun"#o de probabilidade, P'( >,P'A( E N e P'a( > F P'A(, onde a é o evento 6o evento n#o ocorre8.

    (') "ro*a*ilidade Condicional: é a probabilidade de ocorrer A dado W.

      P 'A k B( P 'AB( S P 'B( onde P 'B( E N, caso contrário, é indefinido.

    Ee!plo 7#  *onsidere o jo)o de dados, tal que cada um dos R possíveis resultadostem a probabilidade de >SR de ocorrer. *omo antes, deixe A ser o evento 6a ocorr%ncia de I, Mou R8 e W o evento 6a ocorr%ncia de um n0mero par8 . $nt#o P 'AB( P 'I ou R( HSR >S?.=ambém, P 'B( ?SR . $nt#o, a probabilidade condicional P 'AkB( é dada por 

    ('i) E'entos independentes:  Dois eventos A e B s#o independentes se

      '>( P 'AB( P 'A( P 'B(

    Ee!plo   cH  *?  si)nifica que o primeiroexperimento resultou em C, o se)undo em c e o terceiro em C. Por causa de nossa hip2tese deindepend%ncia,

    P '*>  cH  *?( P '*>( P 'cH( P '*?( pqp

    ?SH HS>

    ?S> B(k'AP   ==

  • 8/15/2019 Parte 1 - Biometria

    27/106

    e considerarmos o evento 6exatamente H caras8 associado aos experimentoscombinados, o se)uinte pode ocorrer 

    Obviamente o anterior pode ser descrito simplesmente como um experimento com ?tentativas independentes. Por extens#o, podemos considerar um experimento consistindo de n

     jo)adas independentes. A probabilidade de obter 6exatamente W caras8 , ent#o, é i)ual aotermo pY Bn - Y   ve!es o n0mero de ve!es que o termo pode aparecer. Por esta ra!#o, em n

     jo)adas independentes de uma moeda

    onde p 6 PSC) em qualquer jo)ada.

    'utras consideraçZes#  Conceito de proHaHilidade usando distriHuiçZes defreBFências relativas8

    Ee!plo ;#  -m diretor de escola numa pequena cidade de IN famílias classificou

    cada família de acordo com o n0mero de crian"as 'menores que > anos(. As informa"1esobtidas s#o sumari!adas no quadro I.>.

    5 Distribui"#o de n0mero de crian"as por família.

    n9 de crianças n9 de fa!ílias > freB8 relativaN > IM,N N,IMN> HN,N N,HNN

    H T >T,M N,>TM? I >N,N N,>NNI ? T,M N,NTM

    W,nW

    qpW

    n

     caras(We'exatamentP    

      

     =

    q?p caras(Hexatamente'P

    ementeconseqentemaneiras? HR 

    H?

    H=

    ==    

      

  • 8/15/2019 Parte 1 - Biometria

    28/106

    IN >NN,N >,NNN

      O quadro I.> mostra, por ex., que >T,MQ 'N.>TM( das IN famílias possuem H crian"as.

    A)ora, suponha que uma das famílias tenha sido selecionada aleatoriamente, ou seja,

    cada família teve i)ual chance de ser escolhida.

  • 8/15/2019 Parte 1 - Biometria

    29/106

     7efini#o 2:  A probabilidade condicional de 3  dado \, P 'C x k (, é a probabilidade que a variável aleat2ria 3 assume o valor , dado que a variável aleat2ria \ jáassumiu o valor .

    Ee!plo %#  Deixe 3 ser o n0mero de meninas que se comunicam bem com suasm#es, das R meninas entrevistadas, como no exemplo H e deixe \ ser o n0mero total decrian"as que se comunicam bem com suas m#es. Por conveni%ncia, deixe [C, tal que  éi)ual ao de meninos, dos entrevistados, que se comunicam bem com suas m#es. Assuma queas respostas dadas pelas crian"as s#o independentes de cada outra e que cada crian"a tem amesma probabilidade p  'desconhecida( de di!er que se comunica bem com a sua m#e.$ncontre a probabilidade condicional P ' C? k T(.

    Primeiro, pelas suposi"1es anteriores, C? e [I s#o eventos independentes. Desdeque o evento 'C?, T( é o mesmo que o evento 'C?, [I(, temos a probabilidade

    P'C?, T( P'C?, [I(  P'C?( P'[I(

     por causa do exemplo T do item I.H.

    Pelo mesmo exemplo, concluímos que

    tal que a probabilidade condicional

    Nh(P'n se 

    h(P'n

    h(nx,'CP h(nkxP'C '>(   >=

    =

    =====

    II??

    p('>pI

    P

     p('>p?

    R

     'H(

    =

    TT p(,'>pT

    >I T(P' '?(   

     

      

    ==

  • 8/15/2019 Parte 1 - Biometria

    30/106

    *omo os pontos no espa"o amostral s#o mutuamente exclusivos, os valores que umavariável aleat2ria pode assumir s#o também mutuamente exclusivos. Para um simplesresultado de um experimento, a variável aleat2ria é definida por apenas um n0mero. Assim,todo o conjunto de valores que uma variável aleat2ria pode assumir tem as mesmas

     propriedades do espa"o amostral. Os valores individuais assumidos pela variável aleat2riacorrespondem aos pontos no espa"o amostral, um conjunto de valores corresponde a umevento e a probabilidade da variável aleat2ria assumir qualquer valor dentro de um conjuntode valores é i)ual a soma das probabilidades associadas com todos os valores dentro doconjunto. Por exemplo5

    onde o somat2rio se estende a todos os valores de entre, n#o incluindo os n0meros a e H,

    onde o somat2rio se aplica a todos os valores de  que s#o pares. Por causa dessa similaridade

    entre o conjunto de valores possíveis de 3 e um espa"o amostral, a descri"#o do conjunto de probabilidades associadas com os vários valores que 3  pode assumir, é freqentementechamado de fun"#o de probabilidade da variável aleat2ria 3, assim como um espa"o amostral

    N.IN 

    T(,'>IT

    >I

    I(,'I

     

    ?(,'R?

    R

     

    T

    >II

     

    ?

    R

     T(k?P'C (I'

    =

       

     

     

     

       

      

        

      

     

    =

       

      

     

      

     

     

     

       

     

     

     

     

    ===

     x(P'C  b(C'aP

     bxa

  • 8/15/2019 Parte 1 - Biometria

    31/106

    tem uma fun"#o de probabilidade. $ntretanto, a fun"#o de probabilidade de uma variávelaleat2ria n#o é uma atribui"#o arbitrária de probabilidades, como é a fun"#o de probabilidade

     para um espa"o amostral. 3sto porque uma ve! que as probabilidades s#o atribuídas aos pontosnum espa"o amostral e uma ve! que a variável aleat2ria 3 é definida no espa"o amostral, as

     probabilidades associadas com os vários valores de 3  s#o conhecidas e a fun"#o de

     probabilidade de 3 é, dessa maneira, já determinada. 7efini#o ,:  A função de proHaHilidade  da variável aleat2ria 3, usualmente

    representada por fS) ou de outra maneira qualquer, é a fun"#o que dá a probabilidade de 3assumir o valor , para qualquer n0mero real x, ou seja,

    @imos até aqui que a distribui"#o de probabilidades associadas com uma variávelaleat2ria pode ser descrita por uma fun"#o de probabilidade. -ma outra maneira de di!er amesma coisa é através de uma fun"#o de distribui"#o que descreve as probabilidadesacumuladas.

     7efini#o /:  A função de distriHuição  de uma variável aleat2ria, usualmenterepresentada por KS), é a fun"#o que dá a probabilidade de 3 ser menor ou i)ual a qualquer n0mero real , ou seja,

    onde o somat2rio se estende a todos os valores de t que n#o forem superiores a .

     7efini#o 0:  Deixe 3  ser uma variável aleat2ria. A distribui"#o binominal é adistribui"#o de probabilidade representada pela fun"#o de probabilidade

    onde5 n é n0mero inteiro positivo, N ≤ p ≤ > e q > F p. +ote que usaremos a conven"#o usual

    que N >.A fun"#o de distribui"#o será ent#o

    x( P'C f'x( 'M(   ==

    ∑≤

    =≤=xt

    f't( x( 'CP G'x( (R'

    n..,N,>, xpara qpx

    n x(P'C f'x( (T' xnx =  

      ===

    i,ni

    xi

    qp

    i

    n x(P'C G'x( ('

    ∑≤   

     

     

     

     =≤=

  • 8/15/2019 Parte 1 - Biometria

    32/106

    onde o somat2rio se estende a todos os possíveis valores de i menor ou i)ual a x. Lá tabelas prontas para al)uns valores selecionados dos par:metros n e p.

    Ee!plo 7#  -m experimento com n  testes independentes, onde cada teste poderesultar em um dos dois resultados 6sucesso8 ou 6insucesso,8 com probabilidade P  e B,respectivamente. Deixe 3 ser i)ual ao n0mero total de 6sucessos8 nos n testes. $nt#o, comomostrado na equa"#o 'T(,

     para  inteiro de 5 a n. Desta maneira, o experimento tem a distribui"#o binominal.

     7efini#o :  Deixe 3 ser uma variável aleat2ria. A distribui"#o discreta uniforme é adistribui"#o de probabilidade representada pela fun"#o de probabilidade.

    'V( f'x( >S+ para x >,H, ... , +

    Desta maneira, C pode assumir qualquer valor inteiro de 1  a /  com i)ual probabilidade, se C tem a fun"#o de probabilidade discreta uniforme.

    Ee!plo

  • 8/15/2019 Parte 1 - Biometria

    33/106

    Ee!plo O#  *onsidere as variáveis aleat2rias C e como definidas no exemplo H.*onsidere f'x,( e G'x,( como as fun"1es de probabilidade conjunta e de distribui"#o,respectivamente.

    e

    onde

    e onde o somat2rio na equa"#o '>?( se estende a todos os valores de  e  tal que x ≤ ? e ≤T, com a usual restri"#o de que  e X  s#o inteiros n#o ne)ativos. +ote que as equa"1es '>H(e '>?( n#o podem ser avaliadas sem conhecer o valor de p.

     7efini#o :  A fun"#o de probabilidade condicional de C dado , f'x k ( é

    '>I( f'x k ( P'C x k (

    TT p('>p

    I

     

    ?

    R T(n?,'CP T(f'?, (>H'   

      

       

     ====

    ≤≤≤≤

    =≤≤=

    Thx?xN

    h(f'x,T(n?,'CPT(G'?, (>?'

     x('hPxhxRx p('>p xh

    P p('>p

    x

    R h(f'x,

    =

  • 8/15/2019 Parte 1 - Biometria

    34/106

    Da equa"#o > vemos que

    onde f'x, ( é a fun"#o de probabilidade conjunta de C e e f'( é a fun"#o de probabilidadede em si.

    Ee!plo ;#  *omo uma continua"#o do exemplo T, considere f'x k ( como a fun"#ode probabilidade condicional de C dado .

    G'? k T( P'C ? k T( N.IN da equa"#o 'I(

    Para encontrar a f2rmula )eral para f'x k ( 'isto é, para qualquer valor de x e (, primeiro deixe f'x, ( ser a fun"#o de probabilidade conjunta de C e . 3sto é dado noexemplo T como

    que ori)inalmente era uma forma )eral da equa"#o 'H(. =ambém, deixe fS) ser a fun"#o de probabilidade de . Do exemplo I, novamente, podemos )enerali!ar da se)uinte maneira

    f'h(

    h(f'x, 

    h(P'n

    h(nx,P'C h(nkxP'C h(kf'x (>M'

    =

    ===

    ====

     x('hPxhxRx p('>p xhP p('>p

    xR h(f'x, =

    h,>Ih p(,'>p

    h

    >I h(P' f'h(   

      

    ===

  • 8/15/2019 Parte 1 - Biometria

    35/106

    Pela defini"#o V podemos a)ora escrever a fun"#o de probabilidade condicional de C dado

    onde todos os termos que envolvem o par:metro desconhecido p foram convenientemente

    cancelados.

     7efini#o 16:  *onsidere C>, CH, ... , Cn como variáveis aleat2rias com as respectivasfun"1es de probabilidade f > 'x>(, f H 'xH(, ... , f n 'xn( e com a fun"#o de probabilidade conjunta f 'x>, xH, ... , xn (. $nt#o C>, CH, ... , Cn s#o mutuamente independentes

    '>T( se5 f'x>, xH, ... , xn ( f > 'x>( f H 'xH( ... f n 'xn(

     para todas as combina"1es dos valores de x>, xH, ... , xn.

    Ee!plo :# *onsidere o experimento descrito no exemplo . $nt#o, a fun"#o de probabilidade de 3 é dada por

    ∫   ≤≤≤≤

      

     

     

     

     

        

        

      

      

    == PxhNRxN

     para 

    h

    >I

     xh

    x

    R

     f'h(

    h(f'x,

     h(f'x(>R'

  • 8/15/2019 Parte 1 - Biometria

    36/106

    e a fun"#o de probabilidade de é dada por 

    Desde que5

    f'x, ( P'C x, ( P'C x k ( P' (

    O uso das equa"1es '>R( e '>V( resulta na fun"#o de probabilidade conjunta de C e ,sendo dada por 

     x,Rx> (p,'>px

    R

     x('CP 'x(f  '>(    

     

    ===

    h,>Ih

    H p(,'>ph

    >I

     h('P 'h(f  '>V(    

     

    ===

  • 8/15/2019 Parte 1 - Biometria

    37/106

    h>Ih

    h>Ih

    p('>p

     xh

    x

    p('>ph

    >I

     

    h

    >I

     xhP 

    xR

     h(f'x,

    =

    =

  • 8/15/2019 Parte 1 - Biometria

    38/106

    desde que5

    vemos que5

    f'x, ( é diferente de f >'x( f H'(

    e, por esta ra!#o, C e n#o s#o independentes.

    hx,HNhx

    H> p(,'>ph>I 

    xR 'h(f  'x(f    ++=

  • 8/15/2019 Parte 1 - Biometria

    39/106

    CAPT(' 70ITRIW(I*+' /'R&A

    -ma fun"#o de distribui"#o mostra, para uma popula"#o, a freq%ncia relativa'probabilidade( com que diferentes valores 'n0meros reais( de uma variável aleat2ria

    ocorrem. $m )eral, cada popula"#o tende a ter a sua pr2pria distribui"#o. +o entanto, adistribui"#o normal é a mais popular de todas por causa de sua )rande aplicabilidade naaproxima"#o do comportamento de um )rande n0mero de variáveis aleat2rias naturais que s#ocontínuas. $la é conhecida como distribui"#o de Zauss 'difusor( ou distribui"#o com a formade sino F @. Gi)ura M.>. abaixo.

    Gun"#o5

    ( )( )( )

    σ 

     µ 

    π σ σ  µ 

    H

    M.N

    H

    >,A

    −−

    = x

    e xn

    Para5 +∞

  • 8/15/2019 Parte 1 - Biometria

    40/106

    de superar este tipo de obstáculo, como aumentar o n0mero de amostras e fa!er transforma"1es. 2 n#o pode i)norar o detalhe da normalidade.

    0.1. Estimando a m3dia da popula#o:

     +a estatística de infer%ncia tudo )ira em torno da obten"#o da estimativa da médiaverdadeira da popula"#o, µ. Por exemplo, podemos estar interessados em saber5

    o volume médio, µ, de uma determinada área florestal

    a idade média, µ, dos estudantes da turmaHNNR do *G=

    e a popula"#o é pequena, µ  é calculada sem problemas no caso de popula"1esmaiores, a média tem que ser estimada usando amostra)em de parte da popula"#o. +o caso do*G=, > estudantes, obter a idade média é uma tarefa muito fácil. +#o há necessidade de fa!er amostra)em, basta somar a idade de cada um e dividir por >. $ntretanto, em nossa área deconhecimento, a )ente s2 trabalha com popula"1es 6muito )randes8 com tend%ncia aoinfinito. +este caso, fica muito difícil e caro, sen#o impossível, obter a média verdadeira da

     popula"#o, µ. 4evando em conta os princípios e as condicionantes da amostra)em, é possívelobter informa"#o suficientemente precisa 'e confiável( sobre µ  tomando apenas parte da

     popula"#o para estimar a média amostral x

     d .

    Ee!plo 15 queremos saber a idade média dos estudantes da p2s)radua"#o do 3+PA,que tem uma popula"#o i)ual a HNN. Para isso, selecionamos, aleatoriamente, >N estudantes eanotamos a idade de cada um. Portanto, temos uma amostra)em de >N estudantes de uma

     popula"#o de HNN hipoteticamente.

    . idades de >N estudantes de p2s)radua"#o do 3+PA

    estudante > H ? I M R T V >N

    idade H? HM HR H HR HI HM HT ?N HR

     

    A idade média 'amostral( será5

     x

     d  6 S ] i ) n

     para: n @ 16 e i @ 1% 2% ... n

     x

     d 

      6 "< anose voc% utili!ou uma amostra representativa da popula"#o, voc% estará afirmando que

    a média verdadeira da popula"#o dos HNN estudantes,µ

    , deve ser em torno de HR anos.

    Diante disso, sur)em al)umas quest1es5

    'i( , se uma amostra)em com >N estudantes é utili!ada, qual é a probabilidade da

    idade média amostral,  x d 

    , estar dentro de um intervalo 'vamos di!er, > ano( da média da popula"#o,

    µ

     9

  • 8/15/2019 Parte 1 - Biometria

    41/106

    'iii( , respectivamente ... n#o entre em p:nico =udo que temque ser feito é 6padroni!ar8 a sua variável aleat2ria e, em se)uida, usar a *+P para obten"#odas probabilidades 'ou áreas(.

    A curva apresentada na Gi)ura M.>. foi desenhada depois de inte)rar a fun"#o dedistribui"#o, de @ 6 5 a @ 6 $N: para a primeira metade da curva 7 direita de 5. *omo a parte dacurva 7 esquerda de 5  é espelho da parte 7 direita, as probabilidades da esquerda foramcalculadas de @ 6 -$N: a @ 6 5. Portanto, o trabalho bra"al já está feito. A =abela > 'anexo da

    apostila( tem todas as probabilidades 'áreas sob a *+P( calculadas com precis#o de doisdí)itos.

    @amos ver como funciona a =abela > 'anexo da apostila( usando al)uns exemplos. Asfi)uras que ilustram o uso da =abela > est#o no anexo deste capítulo.

    Ee!plo "5 Achar a área sob a curva normal padr#o '*+P( 7 esquerda de ! N,VT.

    A solu"#o )ráfica está na Gi)ura M.Ha.

    @oc% vai direto 7 tabela > e procure ! N,V 'sentido vertical(, depois o centésimo'T( 'sentido hori!ontal( e no encontro dos dois n0meros 'N,VT(, voc% tem a área 'que é a

     probabilidade( sob a *+P.

     +este caso, a área é i)ual a 5N1

  • 8/15/2019 Parte 1 - Biometria

    42/106

     +#o esquecer que a área total sob a *+P é i)ual a >.

    Ee!plo $5 Achar a área sob a *+P 7 direita de ! H,M.

    @eja a solu"#o )ráfica na Gi)ura M.Hb.

    De novo, voc% vai 7 tabela > e procure ! H,M, depois o centésimo N e no encontrodos dois n0meros 'H,MN(, voc% tem a área 'que é a probabilidade( sob a *+P.

     +este caso, voc% está calculando a área sob a *+P de - ∞ até H,M, que dá N,VV? ...7 esquerda de ! H,M.

    *omo voc% quer saber a área 7 direita de ! H,M, voc% tem que subtrair de > 'áreatotal da *+P( e aí sim voc% terá a área 7 direita de ! H,M. Assim, a área 7 direita será > F N,VV? 5N55IVH(, que éi)ual a 5N;$11.

    Portanto, a resposta é5 a área sob a *+P entre ! >,NI e ! H,NR é 5N;$11, ou seja,?,>>Q da área da *+P está entre os dois pontos de 6!8.

    0.,. reas so* outras cur'as normais:

     +a se"#o anterior mostramos como encontrar as áreas sob a curva normal padr#o'*+P(. +o entanto, há várias curvas normais, que variam de acordo as varia"1es da média

    µ

     edo desvio padr#o

    σ

    . Para calcular as probabilidades 'áreas sob a *+P( para a média amostral

     x

     d 'o principal objetivo(, precisamos ser capa!es de encontrar as áreas sob qualquer curva

    normal.

    *ada curva normal pode ser identificada por H n0meros chamados par:metros. $stesdois par:metros s#o usualmente representados por média µ e desvio padr#o σ. O par:metro µnos di! onde a curva está centrada e σ indica a dispers#o da curva normal. *omo vimos naGi)ura M.>, quando µ 6 5 e σ 6 1, temos a curva normal padr#o.

     +o entanto, no mundo real esta condi"#o de µ 6 5 e σ 6 1 é praticamente impossívelde ser verificada. Os par:metros µ  e σ variam entre popula"1es diferentes. 3)ual 7 *+P, acurva normal 'ou curvas normais( é centrada na µ  e quanto maior for σ, mais dispersa'achatada ou esparramada( será a curva. A curva normal tem as mesmas propriedades da *+P.A 0nica diferen"a é que o eixo hori!ontal da *+P é @ e das outras curvas normais, o eixo é .

    As curvas normais podem assumir diferentes formas. As fi)uras M.?a, M.?b e M.?cilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como

     platic0rtica, mesoc0rtica e leptoc0rtica. X 2bvio que existe um limite de achatamento para quea curva seja considerada normal. $ste limite pode ser determinado usando o teste deachatamento ou curtose. Da mesma maneira, a curva normal pode ser simétrica ou

    assimétrica. A assimétrica pode ser ne)ativa 'maior freq%ncia dos dados tendendo 7 direitado eixo hori!ontal( e positiva 'maior freq%ncia tendendo 7 esquerda do eixo( F @. Gi)ura M.I.

  • 8/15/2019 Parte 1 - Biometria

    43/106

    =ambém neste caso, há limite para a assimetria, que pode ser definido usando o teste deassimetria.

    Ee!plo 75 Achar área sob a curva normal 'µ 6 -" e σ 6 1) entre 6 1 e  6 -1.

    @eja a solu"#o )ráfica na Gi)ura M.Ma.

    Primeiro de tudo é preciso padroni!ar a variável aleat2ria 68.

    Os resultados da padroni!a"#o s#o5 ! ?,N 'para x >( e ! > 'para x >(.

    A)ora, voc% vai a =abela > 'anexo da apostila( para5 '>( achar a área 7 direita de ! ?,N, que é i)ual a N,VVT 'H( achar a área 7 direita de ! >, que é i)ual a N,I>? '?( calcular a área entre ! ?,N e ! >,N, que é dada pela diferen"a 'N,VVT F N,I>?(, que é i)ual a5N17O%.

    Portanto, a resposta é5 a área sob a curva normal entre x >,N e x >,N é 5N17O%,ou seja, >M,TIQ da área sob a curva normal está entre os dois pontos de 6x8.

    Ee!plo H é 5N:7%%, ouseja, VM,II Q da área sob a curva normal está entre os dois pontos de 6x8.

    0./. "opula#$es normalmente distri*uídas e 'ariá'eis aleat>rias:

    A)ora che)ou a ve! de ver como se usa as áreas sob as curvas normais para encontrar 

    as probabilidades para  x d 

      'aproximadamente(. Antes, porém, vamos fa!er al)umasconsidera"1es sobre popula"1es e variáveis aleat2rias normalmente distribuídas.

  • 8/15/2019 Parte 1 - Biometria

    44/106

    A )rande maioria 'n#o todas( das popula"1es e variáveis aleat2rias que s#orepresentadas por quantidades como peso, volume, área basal, DAP etc. tem distribui"#o de

     probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvasnormais. $m outras palavras, as probabilidades para tais quantidades podem ser encontradas

     por meio da interpreta"#o das áreas sob as curvas normais. @amos ver isso com exemplos.

    Ee!plo ;5 -ma popula"#o consistindo do peso 'em W)( de um )rupo de >NNestudantes de mestrado. Os dados da popula"#o est#o sumari!ados no quadro abaixo.

    W).

    Peso 'x( RV TN T> TH T? TI TM TR TT T TV

    freq%ncia 'f( > H R >? >T HN > >H T ? >

    f relativa 'prob( ,N> ,NH ,NR ,>? ,>T ,HN ,> ,>H ,NT ,N? ,N>

    O histo)rama e o polí)ono de freq%ncias 'absoluta e relativa( dos dados contidos noquadro M.H s#o apresentados na Gi)ura M.R.

    *omo em qualquer popula"#o, podemos associar a esta popula"#o de pesos, umavariável aleat2ria , como o peso de um estudante selecionado ao acaso. +este caso, as

     probabilidades de  s#o simplesmente as freq%ncias relativas. $xemplo5 qual é probabilidadede pe)ar um estudante com peso i)ual a TH W)9 Kesposta5 >?Q ou N,>? 'freq%ncia relativa doquadro M.H(.

    O ponto importante deste exemplo é que o histo)rama de freq%ncia 'Gi)ura M.R( temuma quase perfeita forma de sino. Por causa disto, seremos capa!es de aproximarmos das

     probabilidades para  usando as áreas sob uma curva normal. *omo voc% pode notar, a curvanormal apropriada é simplesmente aquela com os par:metros

    µ

      eσ

    , ondeµ

      é a média da popula"#o 'ou da variável aleat2ria ( e σ é o seu desvio padr#o.

    Do quadro M.H, a média 'µ

    ( da variável aleat2ria  é i)ual a TN,NR W) e o seu desvio padr#o '

    σ

    ( é i)ual a >,VM. $stes dois par:metros podem ser sobrepostos 7 Gi)ura M.R paratrabalhar com uma curva normal com

    µ

      6 O%N5? ou >?Q. A prop2sito, a classe TH vai de T>,M a TH,M.Desta forma, podemos escrever assim5 P 'T>,M x TH,M( N,>?.

     +o entanto, o mundo real é diferente. +em sempre voc% tem uma popula"#o t#o

     pequena e t#o bem or)ani!ada que permite ter µ  e σ  e as freq%ncias relativas. @amostrabalhar, a)ora, sem as freq%ncias relativas. @oc% tem uma popula"#o com µ 6 O%N5( desenhar a curva normal com µ 6 O%N5,M x TH,M( '?( padroni!ar asvariáveis aleat2rias, x T>,M e x TH,M 'I( achar as áreas para os respectivos 6 @8 sob a *+P'=abela > do anexo da apostila(.

    olu"#o5 a padroni!a"#o das variáveis aleat2rias x T>,M e x TH,M resulta em !

    >,?> e ! N,N, respectivamente. A)ora, voc% vai 7 =abela > para encontrar as áreas sob a*+P para ! >,?> e ! N,N, obtendo as áreas N,NVM> e N,H>>V, respectivamente. Oresultado é ent#o5 N,H>>V N,NVM> 5N11

  • 8/15/2019 Parte 1 - Biometria

    45/106

    aleatoriamente, um estudante com peso i)ual a TH W) 'T>,M a TH,M( é de >>,RQ. umari!ando5a probabilidade exata de selecionar, aleatoriamente, um estudante com peso i)ual a TH W) é de>?Q e a estimada é de >>,RQ.

    -m importante ponto do ee!plo ; é que, para certas popula"1es e certas variáveisaleat2rias, podemos usar as áreas sob a curva normal para determinar as probabilidades. +estecaso, podemos di!er que a popula"#o ou a variável aleat2ria é normalmente distribuída. Di!er que uma popula"#o ou variável aleat2ria é normalmente distribuída 'aproximadamente(si)nifica que as probabilidades para a popula"#o ou variável aleat2ria s#o aproximadamentei)uais 7s áreas sob a curva normal.

    0.0. "adronizando a 'ariá'el aleat>ria:

    \á vimos que para encontrar as áreas sob a curva normal com par:metros diferentes deµ 6 5 e σ 6 1 é preciso usar a padroni!a"#o, ou seja, converter os valores de  para valores de@ por meio da se)uinte f2rmula5 

    σ 

     µ −

    =

      x

     z 

    antes de usar a curva normal padr#o '*+P(. @amos ver o si)nificado de @  e seusdesdobramentos com exemplos.

    Ee!plo :5 *onsidere o DAP de uma árvore selecionada ao acaso. $nt#o, DAP é umavariável aleat2ria  com média µ 6 155 c! e desvio padr#o σ 6 15. Por meio da padroni!a"#oda variável  teremos

     >N

    >NN−=   x z 

    e se pe)armos, aleatoriamente, uma árvore qualquer da [GH, com >HN cm de DAP, por 

    exemplo, o que acontece9@ 6 S1"5 X 155) 15 6 "

    ,M isto é, a variável  está >,M ve!σ

     da média.

  • 8/15/2019 Parte 1 - Biometria

    46/106

    Ee!plo 115 pense na floresta adulta 'DAP HM cm( do Distrito A)ropecuário dauframa, onde todos os DAPs s#o normalmente distribuídos com

    µ

     6 $7 c! eσ

     6 7.

    abemos que a variável  padroni!ada

     M

    ?M−=

    −=  x x

     z σ 

     µ 

    tem a distribui"#o normal padr#o. 3sto quer di!er que, de acordo com as propriedades da *+Ptemos

    ( )

    ( )

    ( ) RPHT,N>>

    VMIM,NHH

    VVT?,N??

    =

  • 8/15/2019 Parte 1 - Biometria

    47/106

    Gi)ura M.Ha5 área 7 esquerda de ! N,VT

    Gi)ura M.Hb5 área 7 direita de ! H,M

      Passo >5 área para ! >,NI Passo H5 área para ! H,NR

    Ginal5 `rea entre ! >,NI e ! H,NR

    Gi)ura M.Hc5 entre ! >,NI e ! H,NR

  • 8/15/2019 Parte 1 - Biometria

    48/106

     

    µ 6 -"σ 6 1

    Gi)ura M.?a5 curva normal com

    µ 6 $σ 6 "

    Gi)ura M.?b5 curva normal com

    µ

     6 <σ

     6 $

    Gi)ura M.?c5 curva normal

  • 8/15/2019 Parte 1 - Biometria

    49/106

     

    Gi)ura M.I5 Assimetria das curvas normais

  • 8/15/2019 Parte 1 - Biometria

    50/106

    Gi)ura M.Ma5 $xemplo M

    Gi)ura M.Mb5 $xemplo R

    Gi)ura M.Mc5 $xemplo T

  • 8/15/2019 Parte 1 - Biometria

    51/106

    Gi)ura M.R5 Listo)rama e polí)ono de freq%ncia 'absoluta e relativa(.

  • 8/15/2019 Parte 1 - Biometria

    52/106

    Capítulo < X 0istriHuição a!ostral da !dia S )=odo en) florestal sabe que o inventário florestal é o primeiro passo para planejar o

    manejo sentido lato de uma floresta, nativa ou artificial. O inventário, por sua ve!, consisteem obter uma média representativa da popula"#o de interesse, seja em termos de volume, área

     basal ou outra variável de interesse.O que é uma média representativa9

    Por analo)ia, média 'volume( de uma floresta é o mesmo que a 6média8 usada paradefinir cafécomleite em muitos bares do sul e sudeste do Brasil. $m um copo de >NN ml,uma média deveria ter MN ml de café e MN de leite. *erto9 $rrado ... porque se fosse assim, o

     balconista n#o teria na ponta da lín)ua aquela per)unta5 6mais café ou mais leite98 ;ais leiteou mais café vai depender do )osto do fre)u%s e da m#o do balconista. @oc% tem que confiar ou parar de tomar aquela 6média8 naquele bar. De qualquer modo, o total do copo n#o passaráde >NN ml, ou seja, o excedente de café '( será anulado pelo que falta de leite '( ou viceversa.

    @amos mostrar neste capítulo que a estimativa de uma média tende sempre a ser  parecida com a média verdadeira da popula"#o. O que muda é o desvio padr#o, que é base decálculo da incerte!a. A tend%ncia é diminuir a incerte!a 'que é bom( com o aumento daintensidade de amostra)em. Portanto, média representativa é aquela que proporcionaconfian"a 'incerte!a sob controle( e conforto '( para quem vai usála.

    .1. Amostras aleat>rias

    Amostra pode ser um 0nico indivíduo ou um conjunto deles. +o caso de pesquisas deopini#o, cada eleitor é uma amostra. +o caso de inventário florestal, um conjunto de árvorescorresponde a uma amostra. +a Ama!&nia, vários estudos apontam que parcela de H.MNN mH é

    suficiente para cobrir as varia"1es 'volume( de uma determinada área florestal com DAP HNcm, ou seja, um conjunto com aproximadamente MN árvores.

    $m )eral, as amostras t%m que ser tomadas de forma aleat2ria, pois foi assim que aestatística de infer%ncia foi concebida. +o entanto, a amostra)em aleat2ria pode ser desdobrada em5 inteiramente aleat2ria e aleat2ria restrita. =anto nos inventários, como em

     pesquisas de opini#o, a aleat2ria restrita é a mais utili!ada por causa dos custos de coletas dedados e tem produ!ido bons resultados. +o caso de elei"1es presidenciais, a popula"#o deeleitores brasileiros é estratificada por sexo, idade e, principalmente, por densidade eleitoral.$m inventários na Ama!&nia, a maioria utili!a a amostra)em em dois está)ios, ou seja,seleciona aleatoriamente a unidade primária e distribui as unidades secundárias de forma

    sistemática.3ntensidade de amostra)em é o n0mero total de amostras ' n ( dividido pelo n0mero

    total de possíveis amostras em uma popula"#o ' / (. Por exemplo5 os institutos de pesquisas'3bope, Datafolha etc.( ao reali!ar uma pesquisa de opini#o sobre elei"1es presidenciais noBrasil, t%m utili!ado em torno de I.NNN eleitores de um total de >>M milh1es neste caso, n I.NNN e + >>M milh1es. +o nosso caso, se voc% tem uma área de >.NNN hectares e quer instalar >NN amostras de H.MNN mH cada ' hectare( para reali!ar o inventário florestal nestecaso n >NN e + I.NNN 'n total de possíveis amostras de, ha, ou seja, HNx>HMm(.

    Do ponto de vista te2rico, vamos mostrar como calcular as probabilidades de  usandoas áreas sob as curvas normais. 3sso quer di!er que temos que determinar a distribui"#o da

     probabilidade da variável aleat2ria  x d 

    . A distribui"#o de probabilidade de  x d 

     é chamada dedistribui"#o amostral da média.

  • 8/15/2019 Parte 1 - Biometria

    53/106

    .2. A m3dia da m3dia (  x d 

     ) e o des'io padro de  ӯ ( σ   )

    O primeiro passo para descrever a distribui"#o amostral da média é saber comoencontrar a média e o desvio padr#o da variável aleat2ria

     x

     d . 3sto é necessário para usar os

    métodos da curva normal para encontrar as probabilidades para  x d 

    .As f2rmulas para calcular essas duas variáveis s#o5

       

      × 

      

      =   −−   ∑  −

    i xi

     x

     p x µ 

    e

    ( )   

      ×

    −=   −−   ∑

    =   i

    i

     xi

     xi

     x

     pn

     x

    >

    H

    >

     µ σ 

    @amos ver isso por meio de um exemplo meio irreal. @amos considerar as idades

    'con)elada em HNN?( de cada membro de minha família 'eu, mulher e ? filhos( como uma popula"#o, ou seja, + M. $sta situa"#o nunca será encontrada na vida real porque para saber a idade média dessa família basta somar as M idades e dividir por M ... nin)uém vai utili!ar osrecursos da amostra)em. +o entanto, se voc% entender o si)nificado da estimativa da médiada popula"#o e o comportamento do erro padr#o da média conforme se aumenta intensidadede amostra)em, para uma pequena popula"#o '+ M(, fica mais fácil entender essas duasvariáveis aleat2rias quando for trabalhar com uma popula"#o )rande ou infinita 'n0mero deeleitores do Brasil, + >>M milh1es, floresta da [GH etc.(.

    =emos ? situa"1es ilustrando a utili!a"#o de ? intensidades diferentes de amostra)em F anexos >, H e ?. A situa"#o > se refere a uma amostra)em considerando n H, ou seja, escolhaaleat2ria de H pessoas para estimar a média da popula"#o. Primeiro voc% tem que saber quantas combina"1es s#o possíveis ao sortear H 'n( de um conjunto de M '+( pessoas. 2 paralembrar5 fatorial de !ero 'N( é i)ual a > e fatorial de n0meros ne)ativos ou n#o inteiros n#oexiste. 3sto é mostrado na pá)ina que ilustra a situa"#o >. Depois disso, voc% tem que estimar 

    a média de cada combina"#o possível. Aplicando a f2rmula de µ  x d 

      voc% vai encontrar amédia da média de todas as possíveis combina"1es. @oc% vai notar que a média da média éexatamente i)ual 7 média verdadeira da popula"#o.

    Kepetindo as mesmas opera"1es para as situa"1es H e ?, respectivamente, amostra)ensde n ? e n I, voc% vai notar que a média da média será sempre i)ual 7 média da

     popula"#o, mudando apenas o desvio padr#o da média. Kesumindo5 a média da amostra será

    sempre muito parecida com a da popula"#o e conforme voc% aumenta o n, o desvio padr#o damédia 'ou erro ou incerte!a( diminui. @oc% se convenceu desta afirmativa9 e n#o, é melhor tentar a vida em outra praia.

    e sim, vamos pensar a)ora em termos de popula"#o de verdade. @amos falar deeleitores brasileiros. $m )eral, os institutos utili!am aproximadamente I.NNN eleitores parainferir sobre a popula"#o de >>M milh1es de eleitores brasileiros.

  • 8/15/2019 Parte 1 - Biometria

    54/106

    X 2bvio que nin)uém vai fa!er todas as possíveis combina"1es. e fi!esse, a média damédia seria exatamente i)ual 7 média da popula"#o. $nt#o, o que é feito9 As empresas tomamapenas uma nica combina"#o de INNN eleitores para inferir sobre a popula"#o de eleitores

     pressupondo que a média estimada na pesquisa será i)ual 7 da popula"#o e que n INNN produ!irá uma incerte!a 'erro( menor que n ?.VVV.

    $m uma floresta de porte médio como a da [GH, por exemplo, com H>.NNN hectares,temos + I.NNN 'H>NNN x I( amostras possíveis de ha cada. e a )ente usar n MN,quantas possíveis combina"1es seriam possíveis9 @árias. ( fixa a

    incerte!a e libera os custos ou 'H( fixa os custos e libera a incerte!a. $m )eral, a se)undaalternativa é a mais freqente. Lá meios para se prevenir de incerte!as indesejadas.

    $m inventários florestais, voc% pode se prevenir utili!ando boas ima)ens, bons mapas, bons equipamentos e métodos adequados de amostra)em, em combina"#o com planejamentode coleta e processamento dos dados. $stamos falando de erros de amostra)em 'o erro quevoc% comete por medir apenas parte da popula"#o(. +#o confundir com erros n#oamostrais'humanos, principalmente(, que n#o s#o tratados aqui. +#o esquecer também que n  édenominador.

    .,. eorema do limite central 

    @imos até aqui que a confian"a na média passa pela confian"a nas probabilidades quea )ente trabalha. +o pr2ximo capítulo vamos ver como calcula a incerte!a de uma estimativa.Aqui, vamos nos concentrar nas probabilidades obtidas usando as áreas sob as curvasnormais.

    =emos a curva normal padr#o comµ

     6 5  eσ

     6 1. *om a inte)ra"#o da fun"#o quedescreve esta curva, a )ente obtém as probabilidades. $stas áreas já foram calculadas por vários autores e est#o disponíveis em ap%ndices de livros de estatística, tabela @. +o mundoreal, a curva normal com estas características n#o existe. Por esta ra!#o, a )ente tem que

     padroni!ar as possíveis curvas normais para utili!ar a tabela@. As curvas normais podem ser,dentro de limites bem definidos, assimétricas ou achatadas, diferentes da forma de sino. Para

    isso, há testes para saber se as suas variáveis de interesse est#o dentro desses limites.Difícil mesmo é fa!er a nossa variável ficar dentro dos limites da distribui"#o normal.

     +#o entre em p:nico ainda O remédio para essa situa"#o é o 6teorema do limite central8. Oque di! este teorema9

    6

  • 8/15/2019 Parte 1 - Biometria

    55/106

    i)nifica também que para as amostras aleat2rias de qualquer distribui"#o com média µ  e

    desvio padr#oσ

     x

     d 

    , a média amostral dessas unidades de tamanho n é aproximadamentenormal e esta aproxima"#o melhora conforme se aumenta o n. Para se che)ar a este 6n0meromá)ico8 i)ual a ?N, foram feitas in0meras simula"1es até constatar que acima deste n0mero

    n#o se percebe diferen"as entre as áreas sob a curva normal e de outras fun"1es.=anto em trabalhos de pesquisas ou de inventários florestais, o ideal é utili!ar uma

    amostra)em com, pelo menos, ?N unidades amostrais. e voc% fi!er assim, a incerte!a quevoc% encontrar, é consistente caso contrário, voc% terá que comprovar a normalidade antes deinferir. A prop2sito, uma amostra)em com n ?N é considerada 6pequena8 e a curvat é a quetem que ser utili!ada para a obten"#o das probabilidades.

  • 8/15/2019 Parte 1 - Biometria

    56/106

    Aneo 1

    itua"#o >

    =omando uma amostra)em com n H de uma popula"#o com + M

    ?,?N N,Tdesvio >T,H> T IR >H HV,N N,> H,VN N,>I

    HH HN H>,N N,> H,>N ,IRV HH >H >T,N N,> >,TN >T,IH

    >N HN >H >R,N N,> >,RN HN,>Rµ 

    $5N" ,R

    σ

     x

     d 

    :N%$

    µ  6 $5N"

    µ

     x d 

     6 $5N"

    *oincid%ncia9 +#o

  • 8/15/2019 Parte 1 - Biometria

    57/106

    Aneo "

    itua"#o H

    Amostra)em de n ? da popula"#o com + M

    HN >H HT,RT H,TT N,RI

    desvio >T,H> T IR HH HN HV,?? H,V? N,N

    IR HH >H HR,RT H,RT >,HM

    V IR HN >H HR,NN H,RN >,TR

    >N HH HN >H >,NN >,N >I,

    µ

     x

     d 

    $5N"5 ?V,IV

    σ

     x

     d 

  • 8/15/2019 Parte 1 - Biometria

    58/106

    Aneo $

    itua"#o ?

    Amostra)em de n I da popula"#o de + M

    ( e voc% usar todas as possíveis combina"1es, a média da média µ  x d 

     será sempre i)ual

    a média da popula"#o µ, independentemente do tamanho da amostra)em.

    H( O que muda é o desvio padr#o da média ou erro padr#o, ou seja, conforme aumenta a

    intensidade de amostra)em, diminui o erro, aumenta a precis#o e diminui a incerte!a

    da sua estimativa.

  • 8/15/2019 Parte 1 - Biometria

    59/106

    CAPT(' OEsti!ando a !dia da população

    5.1.

  • 8/15/2019 Parte 1 - Biometria

    60/106

    *onseqentemente,

     P S µ - 1  x

     d   µ  _ 1 )  6 5N:O

    8 da µ  é de N,VT.

    =amos colocar a e+presso anterior de outra maneira: ue a  x d    de'e estar 1F da µ %

    ue 3   o mesmo ue dizer ue G µ

     está entre 1F de x

     d  .F ria de ,6 adultos masculinos 3 tomada% ento a pro*a*ilidade do inter'alo de

     x

     d  ! 1 a

     x

     d  H 1 conter µ   3 de 6%5.

    uponha a)ora, por exemplo, que quando o pesquisador tomar uma amostra)emaleat2ria, ele conse)ue x

     d   RT8, ent#o

     x

     d   > RR e

     x

     d   > R

    $le sabe que, VTQ destes intervalos conter#o µ e, por esta ra!#o, ele pode estar VTQ certo deque a µ  estará entre RR e R. Desta forma, o intervalo de RR a R é chamado de 3* VTQ paraµ.

    5.2. Especificando o ní'el de confian#a:

     +a se"#o anterior vimos como encontrar o 3* para uma média da popula"#o µ, com

     base na informa"#o obtida de média amostral x

     d . +o exemplo anterior especificamos o

    tamanho da amostra)em e a forma do 3* e, com estas especifica"1es, calculamos a confian"a.$ntretanto, freqentemente é desejável especificar a confian"a a priori.

    Ee!plo "# A companhia de telefone está interessada em obter informa"1es sobre otempo médio,

    µ

     , de cada chamada. -m levantamento preliminar indicou que o desvio padr#odas chamadas é

    σ

      I,I minutos. Ao monitorar 'n#o )rampear( aleatoriamente >NN chamadas,

    n >NN, che)ouse a um tempo médio x

     d   M, minutos.

     4a*endo ue x

     d   @ 0%?% encontrar o , ent#oestamos falando de uma área equivalente a > N,NHM N,VTM e N,NHM. Dessa maneira, pararesolver este problema precisamos encontrar o valor! que tem uma área entre N,VTM e N,NHM 7sua esquerda.

     +a tabela >, o valor! que tem uma área de N,VTM 7 sua esquerda é >,VR no encontroda linJa 1% com a coluna % 'oc tem uma área de 6%506.  +este caso, voc% tem o valor exato de N,VTMN '> N,NHM( na tabela. e o valor exato n#o for encontrado, fa"a interpola"1es.O valor! que tem uma área de N,NHM 7 sua esquerda é >,VR.

  • 8/15/2019 Parte 1 - Biometria

    61/106

    A)ora, voltando 7 companhia telef&nica5 sabemos que n >NN e, em fun"#o podemosrecorrer ao =4* 'teorema de limite central( para assumir que

     x

     d   é aproximadamente

    normalmente distribuída com µ  x d 

      µ 'que n#o conhecemos( e o desvio padr#o5

    II,N>NNI,I   ===−   n x

    σ σ 

    Assim, a variável aleat2ria ! terá a se)uinte f2rmula

    ( ) II,N µ −=   x z 

    e terá aproximadamente uma distribui"#o normal padr#o.

    *omo queremos o 3* VMQ para µ , podemos colocálo da se)uinte maneira5

    P ' >,VR ! >,VR ( N,VM

    P ' >,VR  x

     d   µ  S N,II >,VR ( N,VM

    P '  x d    >,VRgN,II µ   x d    >,VRgN,II ( N,VM

    P ' x

     d   N,R µ 

     x

     d   N,R ( N,VM

    substituindo o valor de x

     d   M,, teremos os se)uintes intervalos5

     x

     d   N,R M, N,R I,VI

    e

     x

     d   N,R M, N,R R,RR

    *oncluindo que o intervalo entre I,VI e R,RR minutos é o 3* VMQ para µ. A companhia podeter VMQ de confian"a que a dura"#o média de uma chamada, µ, da cidade está entre I,VI eR,RR minutos.

    5.,. N e assim por diante.

    Procedimento para encontrar o 3* para µ, baseado em x

     d 5

     Keuisitos: '>( n ≥ ?N e 'H( σ  conhecido

     "asso 1: e o nível de confian"a desejado é > α, use a tabela > para encontrar ! αSH

     "asso 2: O 3* desejado para µ  é5

  • 8/15/2019 Parte 1 - Biometria

    62/106

      x

     d   ! αSH g ' σ S n  (  para  x

     d   ! αSH g ' σ S n  (

    onde @ "  é obtido se)uindo o passo >, n é o tamanho da amostra)em e  x d 

     éobtida dos dados da amostra)em.

    Ee!plo $# -ma empresa florestal está interessada em obter informa"1es sobre odi:metro médio, µ  , de sua floresta. -m estudo preliminar indicou que σ  >N cm. Oempresário decidiu verificar esta informa"#o com base em uma amostra)em de ?N árvores.$le encontrou uma média amostral das ?N árvores,

     x

     d   IN cm. Baseado nestas informa"1es,

    vamos encontrar o 3* VNQ para a µ .

     4olu#o: *hecando primeiro5 n ≥ ?N OJ e σ  é conhecido. Podemos, ent#o,aplicar os passos necessários5

    >. O nível de confian"a é N,VN > N,VN lo)o α  N,>N e da tabela > tiramos

    ! αSH  ! N,NM  >,RI

    H. Desde que ! αSH >,RI, n ?N, σ  >N e  x d 

      IN, o 3* VNQ para µ será5

     x

     d   ! αSHg σS n   a   x

     d   ! αSHg σS n  

    substituindo os valores conhecidos

    IN >,RI g >N S ?N   a  IN >,RI g >N S ?N

    $O a  %$ 

    *oncluindo5 o empresário pode ter VNQ de confian"a que o di:metro médio, µ , de suafloresta está entre ?T a I? cm.

     At3 a8ora assumimos ue oσ

      3 conJecido. Entretanto% na maioria dos casos% istono 3 possí'el. Uma maneira de lidar com isto 3 fazer um le'antamento piloto para estimar oσ

     . uer dizer: podemos usar o des'io padro amostral s no lu8ar doσ

     .

  • 8/15/2019 Parte 1 - Biometria

    63/106

    Haiio 6b 3* 'VMQ(  x

     d  ± H,> HR,M ± H,M HI,I µ  H,R

    O se)undo termo ap2s o sinal '±( pode ser considerado como 6incerte!a8 ou 6mar)emde erro8. Assim, as incerte!as para plat&, encosta e baixio s#o, respectivamente5 N,NTVV,N,NN e N,NTM, ou seja, as incerte!as 'em Q( s#o de T,VVQ, ,NQ e T,MQ.

    5./. A distri*ui#o t (de student):

     +as se"1es anteriores deste capítulo vimos como encontrar o 3* para µ, quandolidamos com )randes amostras ' n ≥ ?N (. $ntretanto, em muitos casos, quando )randesamostras n#o est#o disponíveis, extremamente caras ou, por al)uma ra!#o, simplesmenteindesejável, voc% tem que dar outro jeito porque a curva! n#o se aplica nestas condi"1es.

     +este caso, recorremos 7 cur'a!t   em ve! da cur'a!z .

     7etalJe importante: para o*ter % tem ue ser apro+imadamente normalmentedistri*uída.

    e n ?N, n#o podemos usar a *+P para encontrar as probabilidades para o 3*.$ntretanto, um pesquisador chamado _.. Zosset desenvolveu curvas de probabilidade que

     podem ser usadas, em ve! da *+P. $stas curvas s#o conhecidas como curvas-t de student ousimplesmente curvas-t. A forma de uma curvat depende do tamanho da amostra. e aamostra é de tamanho n, n2s identificamos a curvat em quest#o di!endo que é a curva-t co!Sn-1) graus de liHerdade.

    e tomamos uma amostra aleat2ria de tamanho n  de uma popula"#o que é

    aproximadamente normalmente distribuída com média µ, a variável aleat2ria

    ( )   n s xt    µ −=

    tem a distribui"#ot com 'n >( )raus de liberdade. As probabilidades para esta variávelaleat2ria pode ser encontrada usando as áreas sob a curvat com 'n >( )raus de liberdade tabela H.

    As curvast variam conforme os )raus de liberdade, como ilustrado na fi)ura T.>.

    $ as curvast t%m as se)uintes propriedades5  A área total sob qualquer curvat é i)ual a >. As curvast s#o simétricas em torno de !ero. As curvast se estendem indefinidamente em ambas as dire"1es. *onforme aumenta o n0mero de )raus de liberdade, as curvast ficam

    mais parecidas com a *+P.

     A maneira de encontrar a área so* a cur'a!t 3 a mesma usada na CN".

  • 8/15/2019 Parte 1 - Biometria

    64/106

    5.0. R>( >M )raus de liberdade.

    t αSH  t N,NHM  H,>?

    H. O 3* VMQ é5

     x

     d   H,>?g' s S n   ( para

     x

     d   H,>?g' s S n  (

  • 8/15/2019 Parte 1 - Biometria

    65/106

    Dos dados deste exemplo 'dos pneus( temos5

     x

     d   I>.>I,>?

    e

    s H.?RN, ?H

    *onseqentemente

      x

     d   H,>?g' s S n  ( I>.>I,>? H,>? g 'H.?RN,?HS >R ( ?V.V>,HR

      x

     d   H,>?g' s S n  ( I>.>I,>? H,>? g 'H.?RN,?HS >R ( IH.INM,NN

    3sto quer di!er que o vendedor pode ter VMQ de confian"a que a µ 'durabilidade médiada nova marca(