Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR

Bencio de Barros NetoIeda Spacino Scarminio

Roy Edward Bruns

COMO FAZER EXPERIMENTOSPESQUISA E DESENVOLVIMENTO NA

CINCIA E NA INDSTRIA

FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA CENTRAL DA UNICAMP

Barros Neto, Bencio deB278c Como fazer experimentos: pesquisa e desenvolvimento

na cincia e na indstria I Bencio de Barros Neto, IedaSpacino Scarminio, Roy Edward Bruns. -- Campinas, SP :Editora da Unicamp, 2001.

(Coleo Livro-Texto)1. Qumica - Mtodos estatsticos. 2. Planejamento

experimental. 3. Modelos matemticos. 4. Otimizaomatemtica. I Scarminio, Ieda Spacino. 11. Bruns, RoyEdward. 111. Ttulo.

ISBN: 85-268-0544-4

20. CDD - 540.28- 519.5- 511.8- 519.7

ndices para Catlogo Sistemtico:

1. Qumica - Mtodos estatsticos2. Planejamento experimental3. Modelos matemticos4. Otimizao matemtica.

540.28519.5511.8519.7

Copyright by Editora da Unicalnp, 2001

Coleo Livro-Texto

Nenhuma parte desta publicao pode ser gravada, armazenada em sistema eletrnico, fotocopiada,reproduzida por meios mecnicos ou outros quaisquer sem autorizao prvia do editor.

Secretria executivaElisabeth Regina Marchetti

Assessor de produo editorialVlademir Jos de Camargo

Preparao e revisoBenicio de Barros Neto

Supervisora de editorao eletrnicaSilvia Helena P. C. Gonalves

Editorao eletrnicaRossana Cristina Barbosa

Designer de capaBenicio de Barros Neto

Arte-final de capaAdailton Clayton dos Santos

Acompanhamento grficoEdnilson Tristo

Assessor de informticaCarlos Leonardo Lamari

Associao Brasileira deEditoras Universitrias

2001Editora da UnicampCaixa Postal 6074

Cidade Universitria - Baro GeraldoCEP 13083-970 - Campinas - SP - Brasil

Tel.: (19) 3788-1015 - Tel./Fax: (19) 3788-1100www.editora.unicamp.br

Prefcio

1 Como a Estatstica pode ajudar1.1 Em que a Estatstica pode ajudar1.2 Modelos empricos

1.3 Planejamento e otimizao de experimentos

2 Quando as coisas funcionam normalmente

2.1 Erros

2.1(a) Tipos de erros2. 2 Populaes, amostras e distribuies

2.2(a) Como descrever as caractersticas da amostra2.3 A distribuio normal

2.3(a) Como calcular probabilidades de ocorrncia2.3(b) Como usar as caudas da distribuio normal padro2.3(c) Porque a distribuio normal to importante?2.3(d) Como calcular um intervalo de confiana para a mdia2.3(e) Como interpretar um intervalo de confiana

2.4 Covarincia e correlao

2.5 Combinaes lineares de variveis aleatrias2.6 Amostragem aleatria em populaes normais

2.7 Aplicando a distribuio normal

2.7(a) Como fazer comparaes com um valor de referncia2.7(b) Como determinar o tamanho da amostra2.7(c) Como fazer o controle estatstico de processos2.7(d) Como comparar dois tratamentos

Como comparar duas mdias

Como fazer comparaes emparelhadas

Como comparar duas varincias

Sumrio

1

2

4

5

9

1011

1518

25

27

31

34

36

38

38

43

48

56

56

58

60

64

64

67

69

Sumrio

2A Aplicaes

2A.1 De casa para o trabalho2A.2 Bioequivalncia de medicamentos genricos e de marca2A.3 Mais feijes?2A.4 Produtividade de algas marinhas

3 Como variar tudo ao mesmo tempo

3.1 Um planejamento fatorial 22

3.1(a) Clculo dos efeitos3.1(b) Interpretao geomtrica dos efeitos3.1(c) Estimativa do erro experimental3.1(d) Interpretao dos resultados3.1(e) Um algoritmo para o clculo dos efeitos3.1(f) O modelo estatstico

3.2 Um planejamento fatorial 233.2(a) Clculo dos efeitos3.2(b) Estimativa do erro3.2(c) Interpretao dos resultados3.2(d) O modelo estatstico

3.3 Um planejamento fatorial 243.3(a) Clculo dos efeitos3.3(b) Estimativa do erro

3.4 Anlise por meio de grficos normais

3.5 Operao evolucionria com fatoriais de dois nveis

3.6 Blocagem em planejamentos fatoriais3A Aplicaes

3A.1 Hidrlise de resinas3A.2 Voltametria cclica do azul de metileno3A.3 Tempo de reteno em cromatografia lquida3A.4 Separao de gases por adsoro3A.5 Melhorando funes de onda3A.6 Desempenho de eletrodos de Ti!I'i023A.7 Controlando a espuma3A.8 Desenvolvimento de um detergente

7171778082

83

8587

89919496

100

105106108109112

113

114

115117123

126130

130131

133

135137140

144

146

4 Quando as variveis so muitas

4.1 Fraes meias de planejamentos fatoriais4.1(a) Como construir uma frao meia4.1(b) Relaes geradoras de fatoriais fracionrios

4.2 O conceito de resoluo4.2(a) Fatoriais fracionrio's de resoluo quatro4.2(b) Fatoriais fracionrios de resoluo cinco4.2(c) Variveis inertes e fatoriais embutidos em fraes4.2(d) Fraes meias com resoluo mxima

4.3 Triagem de variveis

4.3(a) Fatoriais fracionrios de resoluo trs4.3(b) Planejamentos saturados4.3(c) Como construir uma frao de resoluo trs4.3(d) Como construir uma frao 2~V4 a partir de uma frao 21iI4

4.3(e) Planejamentos saturados de Plackett e Burman4.3(f) Tcnicas de Taguchi para engenharia de qualidade

4A Aplicaes

4A.l Adsoro em slicas organofuncionalizadas4A.2 Termogravimetria do oxalato de clcio4A.3 Anlise cromatogrfica de gases4A.4 Resposta cataltica da Mn-porfirina4A.5 Escoamento de xidos na indstria siderrgica4A.6 Produo de violacena por bactrias4A.7 Cura de uma resina polister

5 Como constr~ir modelos empricos

5.1 Um modelo para y = f(T)5.2 Anlise da varincia

5.3 Intervalos de confiana5.4 Significncia estatstica da regresso5.5 Um novo modelo para y = f(T)5.6 Falta de ajuste e erro puro5.7 Correlao e regresso5A Aplicaes

Sumrio

149

150

155157159159

161163

166166166169177

177

179180

185185

187190

191

193

195

198

201

201

212

217223

224

227

235238

Sumrio

5A.15A.2

5A.3

5A.45A.5

5A.6

A flexibilidade do arCalibrao em cromatografiaCalibrao multivariadaIntervalo de energias proibidas em semicondutoresDeterminao de um calor de vaporizaoOutra calibrao

238

241

244

245246

248

6 Andando na superfcie de resposta

6.1 Metodologia de superfcies de resposta6.1(a) Modelagem inicial6.1(b) Como determinar o caminho de mxima inclinao6.1(c) Localizao do ponto timo

6.2 A importncia do planejamento inicial6.3 Um experimento com trs fatores e duas respostas6.4 Como tratar problemas com muitas variveis6.5 Planejamentos compostos centrais6A Aplicaes

6A.1 Resposta cataltica do Mo(VI)6A.2 Desidratao osmtica de frutas6A.3 Diminuindo o colesterol6A.4 Produo de lacase6A.5 Aumentando o oxignio do ar

7 Como modelar misturas

7.1 Misturas de dois componentes

7.2 Misturas de trs componentes

7.3 Um exemplo: misturas de trs componentes7.4 Modelos cbicos para misturas de trs componentes

7.5 Avaliao de modelos

7.6 Pseudocomponentes

7.7 Outros planejamentos7.8 Misturas com mais de trs componentes7A Aplicaes

7A.1 Influncia do solvente na complexao do on Fe(III)7A.2 Resistncia trao de misturas polimricas

251

251252

256261264

266

275280

286

286

288

291

294

296

301

304

309

313

317

320

323

325329333

333

335

7A.37A.4

7A.5

Determinao cataltica de Cr(VI)Condutividade de uma blenda polimricaNo precisa comer para conhecer o pudim

Sumrio

339341

344

8 Otimizao simplex

8.1 o simplex bsico8.2 o simplex modificado8.3 O simplex supermodificado

Referncias bibliogrficas

Respostas aos exerccios

Tabelas

ndice Remissivo

349

350355

366

371

375

391

399

Prefcio

A utilidade deve ser a principal inteno de qualquer publicao. Onde quer que essainteno no aparea claramente, nem os livros nem seus autores tm o menor direito aprovao da humanidade. Assim escreveu William Smellie no prefcio primeira edio daEncyclopaedia Britannica, publicada em 1768.

Nosso livro tem a modesta inteno de ser til s pessoas que desejarem - ouprecisarem - fazer experimentos. A edio que voc est lendo uma verso considera-velmente revista, corrigida e ampliada do nosso texto anterior, Planejamento e Otimizaode Experimentos, que esgotou trs tiragens. Como foram muitas as mudanas que fizemos,conclumos que seria apropriado mudar tambm o ttulo, para torn-lo uma descrio maisfiel do contedo e do propsito do livro.

Na preparao desta edio cada sentena foi reconsiderada, com o objetivo de tornaro texto mais claro. Todos os erros que conseguimos descobrir, ou que os leitores tiveram abondade de nos apontar, foram corrigidos. A principal mudana, porm, que vrios novosassuntos foram includos, enquanto outros tantos passaram a ter um tratamento maisaprofundado.

Entre as novidades, gostaramos de chamar a ateno para o captulo dedicado metodologia de superfcies de resposta, e para as sees contendo aplicaes reais das vriastcnicas de planejamento e anlise que discutimos no texto principal. Muitos leitores daprimeira edio comentaram conosco que gostariam de ver menos teoria e mais prtica. Os35 exemplos reais que agora inclumos (quase 80 novas pginas dedicadas a eles, no total)representam um esforo no sentido de, seno diminuir a teoria, pelo menos temper-la combastante prtica. As pessoas que usaram a edio anterior notaro ainda que o projetogrfico tambm foi modificado, na esperana de tornar a leitura mais agradvel.

Nos 15 anos em que nos dedicamos a tentar ensinar quimiometria - isto , oemprego de tcnicas estatsticas, matemticas e grficas para resolver problemas qumicos -tivemos centenas de alunos e alunas, tanto nas nossas prprias universidades quanto emoutras instituies de ensino e pesquisa, bem como em diversas empresas. Esses estudantesvinham principalmente das cincias exatas e das engenharias, mas vrias outras profissesestiveram representadas, da administrao medicina, passando pela biologia, pela far-mcia e pela tecnologia de alimentos, para mencionar as primeiras que nos ocorrem agora.Essa diversidade nos faz acreditar que as tcnicas que apresentamos podem ser aprendidase usadas, com maior ou menor esforo, por qualquer profissional que tenha de realizarexperimentos.

Gostaramos de reiterar que a estatstica no faz milagres, e que no pode substituirde forma alguma o conhecimento tcnico especializado. O que continuamos esperando

xi

Prefcio

demonstrar, com esta nova edio, que um profissional que junte conhecimentos deplanejamento de experimentos e de anlise de dados a uma slida formao tcnica em suarea torna-se um profissional mais competente, e por isso mesmo mais competitivo.

Ns mesmos somos qumicos, no estatsticos, e talvez seja isso que diferencie onosso livro de outros com um contedo semelhante. Embora no acreditemos que algumpossa dominar as tcnicas de planejamento e anlise de experimentos sem um certoconhecimento dos fundamentos da Estatstica, neste livro procuramos reduzir a discussodessa base ao mnimo que consideramos necessrio, e passar logo para o que interessa -problemas de pesquisa e desenvolvimento. Por outro lado, como sabemos que a Estatsticano costuma figurar entre as disciplinas mais populares na formao de diversas categoriasprofissionais, partimos do princpio de que nossos leitores no tm nenhum conhecimentoprvio dessa cincia. Mesmo assim, chegamos mais cedo aos problemas experimentais commuitas variveis do que os textos mais tradicionais.

Um nmero muito grande de pessoas contribuiu para que este livro se tornasserealidade. Se na primeira edio a lista j era extensa demais para que citssemos a todosnominalmente, temos a satisfao de reconhecer que de l para c ela s fez ampliar-se, enossa gratido aumentou na mesma proporo. Queremos, porm, agradecer especialmentequeles cujo trabalho permitiu que inclussemos tantas aplicaes na presente edio. Essesso chamados pelo nome quando discutimos seus respectivos dados.

As universidades em que trabalhamos so muito distantes uma da outra, e a nossacolaborao tem se beneficiado do apoio da Fapesp, da Faep-Unicamp e do CNPq, pelo quetambm somos muito gratos.

Por uma coisa somos os nicos responsveis: os defeitos que no conseguimos reme-diar. Contamos com a ajuda dos leitores para resolver esse problema de otimizao. Nossosendereos eletrnicos esto a embaixo. Se voc sabe como poderamos melhorar o livro,ficaremos muitos satisfeitos em ouvir sua opinio.

Campinas, janeiro de 2001.B. B. Neto ([email protected])Departamento de Qumica FundamentalUniversidade Federal de Pernambuco

l. S. Scarminio ([email protected])Departamento de QumicaUniversidade Estadual de Londrina

R. E. Bruns (brunsigm.unicamp.br)Departamento de Fsico-QumicaInstituto de Qumica - Unicamp

XII

1Como a Estatstica pode ajudar

... Porque ter a mente boa no o bastante; o principal aplic-la bem. Asmaiores almas so capazes tanto das maiores virtudes quanto dos maioresvcios, e aqueles que marcham lentamente podem avanar muito mais, seseguirem o caminho certo, do que os que correm porm dele se afastam.Descartes, Discurso sobre o mtodo, parte I.

Este um livro sobre o bom senso. Mais especificamente, sobre o bom senso na realizao de

experimentos e na anlise de seus resultados. No incio do Discurso sobre o mtodo, umpouco antes da citao acima, Descartes diz que, de todas as coisas no mundo, a mais bem

distribuda o bom senso, porque "todos se acham to abundantemente providos [de bomsenso] que mesmo aqueles mais difceis de se contentar em outros assuntos comumente nodesejam mais bom senso do que j tm" (Descartes, 1637). Se voc acredita nisso (Descartesobviamente no acreditava), este livro no para voc.

Digamos, porm, que voc esteja de acordo com Descartes - afinal, voc continuoulendo - e ache que nem tudo que parece bvio to bvio assim. Nesse caso, se voc estiver

envolvido com experimentao, seja na vida acadmica, seja na indstria, seja numlaboratrio de pesquisa ou desenvolvimento, este livro poder lhe ser bastante til. Com ele

voc poder aprender a realizar seus experimentos e tirar suas concluses de forma maiseconmica e eficaz.

Nos captulos seguintes apresentaremos algumas tcnicas relativamente simples e

fceis de empregar. Como o ovo de Colombo, essas tcnicas podero at parecer bvias depois

que voc refletir um pouco sobre elas, mas isso no lhes tira o mrito nem a eficcia. Paradeixar mais claro o que queremos dizer, vamos considerar um exemplo prtico, muito fcil de

encontrar na vida real, principalmente na indstria, onde a relao custo!benefcio sempreuma questo importante.

Digamos que um qumico deseje obter o rendimento mximo em uma certa reao, eque essa reao seja controlada por apenas duas variveis: a temperatura e a concentraode um determinado reagente. Na nomenclatura que adotaremos neste livro, a propriedade

de interesse, que neste caso o rendimento, chamada de resposta. As variveis que emprincpio influenciam a resposta (isto , a temperatura e a concentrao) so os fatores, e a

1

Como a Estatstica

funo que descreve essa influncia chamada de superficie de resposta. O objetivo dopesquisador descobrir quais os valores - os nveis - dos dois fatores que produzem a maiorresposta possvel. Como voc faria para resolver esse problema?

Eis uma sugesto. Para manter as coisas sob controle, fixamos um dos fatores num

certo nvel e variamos o outro at descobrir qual o nvel desse outro fator que produz o maior

rendimento. Variando s um dos fatores estaremos nos assegurando de que qualquer

mudana na resposta ter sido causada pela modificao do nvel desse fator. Depois,

mantendo esse fator no nvel timo encontrado, variamos o nvel do primeiro fator (o quetinha sido fixado), at descobrir o valor dele que tambm produz um rendimento mximo.Pronto. O experimento acabou, e descobrimos os valores timos que estvamos procurando,

certo?

Errado! Esse pode ser o senso comum, mas certamente no bom senso. Quase todasas pessoas a quem perguntamos concordaram que o procedimento que acabamos de

descrever era "o mais lgico", e no entanto existe uma maneira muito mais eficaz de fazer o

experimento. Alis, com esse "senso comum" o rendimento mximo s seria descoberto em

circunstncias muito especiais. Ao contrrio do que se poderia esperar, muito melhor fazer

variar todos os fatores ao mesmo tempo. A razo para isso que as variveis podem seinfluenciar mutuamente, e o valor ideal para uma delas pode depender do valor da outra.

Esse comportamento, que chamamos de intera~o entre os fatores, um fenmeno queocorre com muita freqncia. Raras so as situaes em que dois fatores atuam de forma

realmente independente.

Este apenas um exemplo de como o senso comum pode ser enganoso. Voltaremos a

ele nos captulos seguintes, para um tratamento detalhado. Neste captulo vamos apenas in-

troduzir algumas noes bsicas de modelagem e apresentar sumariamente as tcnicas que

discutiremos ao longo do livro, tentando mostrar a utilidade de cada uma delas na vida real.

1.1 Em que a Estatstica pode ajudar

comum, especialmente em indstrias qumicas, aparecerem problemas em que precisamosestudar vrias propriedades ao mesmo tempo e estas, por sua vez, so afetadas por um

grande nmero de fatores experimentais. Como investigar os efeitos de todos esses fatores

sobre todas as propriedades, minimizando o trabalho necessrio e o custo dos experimentos?

Como melhorar a qualidade do produto resultante? Que fatores experimentais devemoscontrolar para que a qualidade do produto seja assegurada?

2

As pesquisas realizadas com o objetivo de fornecer respostas a essas perguntasmuitas vezes tomam vrios meses de trabalho de pesquisadores e tcnicos, a um custo

bastante alto em termos de salrios, reagentes, anlises qumicas e testes fsicos. O principal

objetivo deste livro mostrar que o emprego de conhecimentos estatsticos pode ajudar aresponder a essas perguntas de forma racional e econmica. Usando planejamentosexperimentais baseados em princpios estatsticos, os pesquisadores podem extrair do

sistema em estudo o mximo de informao til, fazendo um nmero mnimo de

experimentos.

Os mtodos mais eficazes que podem ser usados por cientistas e engenheiros para

melhorar ou otimizar sistemas, produtos e processos so apresentados nos captulos

seguintes. Esses mtodos so ferramentas poderosas, com as quais vrios objetivosespecficos podem ser alcanados. Podemos fabricar produtos com melhores caractersticas,

diminuir seu tempo de desenvolvimento, aumentar a produtividade de processos, minimizar

a sensibilidade dos produtos s variaes nas condies ambientais, e assim por diante.

Voltando ao nosso exemplo inicial, vejamos algumas questes especficas em que oplanejamento experimental pode ajudar o pesquisador a atingir seus objetivos mais rapida-mente e a um custo menor. Digamos que ele j saiba que a temperatura e a concentrao,bem como o tipo de catalisador, afetam o rendimento. Como seria possvel ajustar os valoresda temperatura e da concentrao para obter uma quantidade maior do produto? Variando

esses fatores, seria possvel maximizar o rendimento? As mudanas nesses valores provo-

cariam mudanas semelhantes nos rendimentos se o catalisador fosse outro? Que expe-rimentos devemos realizar para obter mais informaes sobre o sistema? Como podemos

quantificar a eficincia dos catalisadores para as diferentes combinaes de temperatura e

concentrao? Como os valores dos fatores experimentais podem ser mudados para obtermos

o maior rendimento possvel sem que as propriedades mecnicas do produto final deixem de

satisfazer s suas especificaes? Nos captulos restantes discutiremos tcnicas estatsticas

de planejamento e anlise capazes de nos auxiliar a encontrar respostas confiveis paratodas estas questes.

Os mtodos que veremos independem da natureza do problema a que so aplicados.

Servem para estudar reaes qumicas, sistemas biolgicos, processos mecnicos (entremuitos outros), e tambm podem varrer todas as possveis escalas de interesse, desde umanica reao em bancada at um processo industrial operando em larga escala. O

denominador comum so os princpios estatsticos envolvidos, que so sempre os mesmos. claro que isso no significa menosprezar o conhecimento tcnico que o especialista j detmsobre o sistema em estudo. Como j dissemos no prefcio, ele insubstituvel. As ferra-

3

Come a Estatistica

mentas estatsticas, embora valiosas, so apenas um complemento a esse conhecimento. O

ideal que as duas coisas - conhecimento bsico do problema e estatstica - andem juntas.

1.2 Modelos empricos

Quando se trata de modelar dados resultantes de experimentos ou observaes, importantefazer a distino entre modelos empricos e modelos mecansticos. Tentaremos esclarecer

essa diferena considerando dois exemplos prticos.

Imaginemos que um astrnomo queira calcular a hora em que vai ocorrer o prximo

eclipse da Lua. Como sabemos, os fatos acumulados ao longo de sculos de observao e

especulao levaram, no final do sculo XVII, a uma teoria que explica perfeitamente os

fenmenos astronmicos no-relativsticos: a mecnica newtoniana. A partir das leis de

Newton possvel deduzir o comportamento dos corpos celestes como uma conseqncia

inevitvel das suas interaes gravitacionais. Este um modelo mecanstioo: com elepodemos prever as trajetrias dos astros porque sabemos as causas que as provocam, isto, conhecemos o mecanismo por trs de seu comportamento. O astrnomo s precisa

aplicar a mecnica newtoniana s suas observaes e fazer as dedues necessrias. Ele

no tem, alis, de ficar restrito ao sistema solar: as leis de Newton aplicam-se univer-

salmente. Em outras palavras, a mecnica newtoniana tambm um modelo global.

Agora consideremos uma situao bem diferente e mais prxima de ns. Um qumico

encarregado de projetar uma fbrica piloto baseada numa determinada reao recm-desenvolvida em bancada. Ele sabe que o comportamento dessa reao pode ser

influenciado por muitos fatores: as quantidades iniciais dos reagentes, o pH do meio, o

tempo de reao, a carga de catalisador, a velocidade com que os reagentes so

introduzidos no reator, a presena ou ausncia de luz, e assim por diante. Mesmo que

exista um modelo cintico para a reao em questo, dificilmente ele poder levar em

conta a influncia de todos esses fatores, alm de outros mais que costumam aparecer

quando se muda da escala de laboratrio para a escala piloto. Numa fbrica em larga

escala, ento, que normalmente o objetivo de longo prazo, a situao ainda maiscomplexa. Surgem elementos imponderveis, como o nvel de impurezas da matria-

prima, a flutuao de fatores ambientais (umidade, por exemplo), a estabilidade doprocesso como um todo, e at mesmo o prprio envelhecimento do equipamento. Trata-se

de uma situao muito complicada, para a qual difcil ser otimista quanto possibi-

lidade de se descobrir um modelo mecanstico to abrangente e eficaz como a mecnica

newtoniana. Num caso destes, o pesquisador deve recorrer forosamente a modelos

4

empricos, isto , modelos que procuram apenas descrever, com base na evidnciaexperimental, o comportamento do processo estudado. Isto totalmente diferente de

tentar explicar a partir de umas poucas leis o que est se passando, que o que procurafazer um modelo mecanstico. Mesmo conseguir descrever, dito assim sem nenhuma

adjetivao, pode ser em muitos casos uma tarefa ambiciosa demais. Na modelagememprica j nos damos por satisfeitos se somos capazes de descrever o processo estudadona regio experimental investigada. Isto quer dizer que modelos empricos so tambmmodelos lomis. Sua utilizao para fazer previses para situaes desconhecidas corre por

conta e risco do usurio.

Para resumir o contedo deste livro numa nica frase, podemos dizer que o seu

objetivo ensinar as tcnicas mais empregadas para desenvolver modelos empricos.

1.3 Planejamento e otimizao de experimentosAs pessoas normalmente se lembram da Estatstica quando se vem diante de grandes

quantidades de informao. Na percepo do chamado senso comum, o emprego de mtodos

estatsticos seria algo semelhante prtica da minerao. 1 Um estatstico seria um tipo de

minerador bem-sucedido, capaz de explorar e processar montanhas de nmeros e delas

extrair valiosas concluses. Como tanta coisa associada ao senso comum, esta tambm uma

impresso falsa, ou no mnimo parcial. A atividade estatstica mais importante no a

anlise de dados, e sim o planejamento dos experimentos em que esses dados devem serobtidos. Quando isso no feito da forma apropriada, o resultado muitas vezes umamontanha de nmeros estreis, da qual estatstico algum conseguiria arrancar quaisquer

concluses.

A essncia de um bom planejamento consiste em projetar um experimento de formaque ele seja capaz de fornecer exatamente o tipo de informao que procuramos. Para issoprecisamos saber, em primeiro lugar, o que mesmo que estamos procurando. Mais uma

vez, parece bvio, mas no bem assim. Podemos mesmo dizer que um bom experimentador

, antes de tudo, uma pessoa que sabe o que quer. Dependendo do que ele queira, algumas

tcnicas sero mais vantajosas, enquanto outras sero simplesmente incuas. Se voc quertornar-se um bom planejador, portanto, comece perguntando a si mesmo:

1 Alis, o termo data mining est se tornando cada vez mais comum para descrever investigaesexploratrias em grandes bancos de dados, normalmente de interesse comercial.

5

Como a Estatstica

O que eu gostaria de fimr sabendo quando o experimento tiver terminado?

Yogi Berra, o astro do beisebol americano, tambm era conhecido por suas tiradas

espirituosas, e s vezes paradoxais. Uma delas se aplica perfeitamente neste contexto: Se

voc no sabe para onde est indo, vai terminar batendo em outro lugar.

Imaginemos um eixo que descreva o progresso de uma investigao experimental,

desde uma situao de praticamente nenhuma informao at a construo de um (hipot-tico) modelo mecanstico global. Caminhar ao longo desse eixo corresponderia a ir descendoas linhas da Tabela 1.1, que mostra um sumrio do contedo do livro. Na primeira linha,

numa situao de pouca informao, sequer sabemos quais so as variveis mais impor-

tantes para o sistema que estamos estudando. Nosso conhecimento talvez se limite a uma

pequena experincia prtica ou a alguma informao bibliogrfica. Nessas condies, a pri-meira coisa a fazer realizar uma triagem e descartar as variveis no significativas, para

no perder mais tempo e dinheiro com elas no laboratrio. O uso de planejamentos fatoriaisfracionrios, discutidos no Captulo 4, uma maneira de alcanar esse objetivo. Os planeja-mentos fracionrios so extremamente econmicos e podem ser usados para estudar dezenasde fatores de uma s vez.

Tabela 1.1. A evoluo de um estudo emprico. O conhecimento do sistema estu-dado aumenta medida que percorremos a tabela de cima para baixo.

Objetivo

Triagem de variveis

Avaliao da influncia de variveis

Construo de modelos empricos

Otimizao

Tcnica

Planejamentos fracionrios

Planejamentos fatoriaiscompletos

Modelagem por mnimosquadrados

RSM, simplex

Captulo

4

3

5,7

6,8

Construo de modelos mecansticos Deduo a partir de princpiosgerais

Tendo selecionado os fatores importantes, nosso prximo passo seria avaliar

quantitativamente sua influncia sobre a resposta de interesse, bem como as possveis inte-

raes de uns fatores com os outros. Para fazer isso com o mnimo de experimentos, podemos

empregar planejamentos fatoriais completos, que so tratados no Captulo 3. Ultrapassandoessa etapa e desejando obter uma descrio mais detalhada, isto , obter modelos maissofisticados, podemos passar a empregar a modelagem por mnimos quadrados, que o

6

assunto tratado no Captulo 5. Esse provavelmente o captulo mais importante de todos,porque algumas das tcnicas discutidas em outros captulos nada mais so que casos

particulares da modelagem por mnimos quadrados. Um exemplo o Captulo 7, dedicado

modelagem de misturas. Modelos de misturas tm algumas peculiaridades, mas no fundo

so modelos ajustados pelo mtodo dos mnimos quadrados.

s vezes nosso objetivo principal otimizar nosso sistema, isto , maximizar ouminimizar algum tipo de resposta. Pode ocorrer que ao mesmo tempo ns tambm tenhamos

de satisfazer determinados critrios. Por exemplo: produzir a mxima quantidade de um

determinado produto, ao menor custo possvel, e sem fugir das especificaes. Nessa situao

uma tcnica conveniente a metodologia de superficies de resposta (RSM), apresentada noCaptulo 6 e tambm baseada na modelagem por mnimos quadrados. Mais adiante, no

Captulo 8, apresentamos uma tcnica de otimizao diferente, o simplex seqencial, em que

o objetivo simplesmente chegar ao ponto timo, dispensando-se a construo de um modelo.

Construir modelos empricos no basta. Precisamos tambm avaliar se eles so

realmente adequados ao sistema que estamos querendo descrever. S ento tem cabimento

procurar extrair concluses desses modelos. Um modelo mal ajustado faz parte da ficocientfica, no da cincia.

impossvel fazer uma avaliao da qualidade do ajuste de um modelo sem recorrera alguns conceitos bsicos de estatstica. Isto no significa, porm, que voc tenha de se

tornar um especialista em estatstica para poder se valer das tcnicas que apresentamos

neste livro. Algumas noes baseadas na famosa distribuio normal so suficientes. Essas

noes so apresentadas no Captulo 2, e so muito importantes para a compreenso e a

aplicao dos mtodos de planejamento e anlise apresentados nos demais captulos. Paratentar amenizar a costumeira aridez com que so discutidos tais conceitos, baseamos nosso

tratamento na soluo de um problema prtico, de alguma relevncia para a culinrianacional.

A utilizao de todos os mtodos descritos neste livro praticamente invivel sem aajuda de um microcomputador para fazer clculos e grficos. Quando escrevemos a primeiraedio, distribuamos junto com o livro um disquete com vrios programas escritos com essafinalidade. Hoje a abundncia de programas muito mais sofisticados, vrios dos quais dedomnio pblico, no s para Windows como para Linux, tornou o nosso disquete obsoleto. Se

mesmo assim voc estiver interessado nos tais programas (que so para o sistema DOS),pode obt-los gratuitamente na pgina do Instituto de Qumica da Unicamp(www.igm.unicamp.br). a partir do link chemkeys.

7

jj

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

j

2Quando as coisas funcionam normalmente

o que leva um pesquisador a fazer experimentos o desejo de encontrar a soluo de deter-minados problemas. Escrevemos este livro para mostrar como qualquer pesquisador (ou pes-quisadora, naturalmente), aplicando as tcnicas estatsticas apropriadas, pode resolver seusproblemas experimentais de forma mais eficiente. Queremos ensinar ao leitor o que fazerpara tirar o melhor proveito dessas tcnicas, no s na anlise dos resultados experimentais,

mas principalmente no prprio planejamento dos experimentos, antes de fazer qualquermedio.

Estatstica um termo que, merecidamente ou no, goza de pouca popularidade

entre os qumicos, e entre pesquisadores e engenheiros em geral. Quem ouve falar noassunto pensa logo num grande volume de dados, valores, percentagens ou tabelas, onde

esto escondidas as concluses que buscamos, e que esperamos que os mtodos estatsticos

nos ajudem a descobrir. Na verdade, analisar os dados apenas uma parte da Estatstica. Aoutra parte, to importante quanto - se no mais - planejar os experimentos queproduziro os dados. Muita gente j descobriu, da forma mais dolorosa, que um descuido noplanejamento pode levar um experimento, feito com a melhor das intenes, a terminar emresultados inteis, dos quais nem a anlise mais sofisticada consegue concluir nada. R. A.

Fisher, o criador de muitas das tcnicas que discutiremos, escreveu uma advertncia elo-

qente: "Chamar o especialista em estatstica depois que o experimento foi feito pode ser o

mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi

que o experimento morreu."

Felizmente essa situao desagradvel pode ser evitada. Basta que voc planejecuidadosamente a realizao do seu experimento, em todos os detalhes e usando as ferra-

mentas estatsticas apropriadas. Com essa precauo, alm de minimizar os custos ope-

racionais, voc ter a garantia de que os resultados do experimento iro conter informaes

relevantes para a soluo do problema de partida. Com experimentos bem planejados, ficamuito fcil extrair concluses vlidas. A anlise dos resultados passa a ser trivial.

A recproca verdadeira. Um pesquisador que desconhea a metodologia do planeja-mento experimental corre o risco de chegar a concluses duvidosas. Pior ainda, pode acabar

9

uu:an:on as coisas funcionam normahnente

realizando experimentos que no levem a concluso alguma, duvidosa ou no, e cujo nicoresultado prtico seja o desperdcio de tempo e dinheiro.

Neste livro apresentaremos vrias tcnicas de planejamento e anlise que, com umpouco de esforo, podem ser usadas por qualquer pesquisador no seu dia-a-dia. Para discuti-

las corretamente, precisamos de alguns conceitos de estatstica, todos baseados, em ltima

anlise, na famosa distribuio normal. por isso que resolvemos dar a este captulo o ttuloque ele tem.

Existem vrios excelentes livros de estatstica, em todos os nveis de dificuldade,

desde o muito elementar at o muito avanado. Muitos so voltados para reas especficas -

cincias sociais, cincias humanas, cincias da sade e, claro, tambm cincias fsicas e

engenharia. Em geral eles tratam de muitos assuntos importantes do ponto de vista

puramente estatstico, mas no totalmente relevantes para o nosso estudo do planejamentoe da otimizao de experimentos. Como o nosso objetivo chegar o quanto antes s apli-caes prticas, vamos apresentar neste captulo somente os conceitos estatsticos essenciais

para o trabalho do engenheiro ou do pesquisador, seja no laboratrio ou no campo.

Por aborrecida que s vezes parea, a estatstica fundamental para que ns possa-

mos planejar e realizar experimentos de forma eficiente. Para aproveitar todo o potencialdas tcnicas apresentadas no restante do livro, muito importante que voc tenha uma com-

preenso correta do contedo deste captulo.

2.1 Erros

Para obter dados experimentais confiveis, precisamos executar um procedimento bem defi-

nido, com detalhes operacionais que dependem da finalidade do experimento.

Imaginemos que nosso problema experimental seja determinar a concentrao decido actico numa amostra de vinagre. O procedimento tradicional para resolv-lo fazer

uma titulao cido-base. Seguindo o mtodo usual, precisamos

(a) preparar a soluo do padro primrio;

(b) us-la para padronizar a soluo de hidrxido de sdio de concentraoapropriada;

(c) realizar a titulao propriamente dita.

Cada uma dessas etapas, por sua vez, envolver um certo nmero de operaes bsicas,

como pesagens, diluies e leituras de volume.

10

Determinaes como esta fazem parte da rotina dos laboratrios bromatolgicos, que

as usam para verificar se o vinagre est de acordo com o estabelecido pela legislao (4% decido actico, no mnimo).

Suponhamos que, ao titular duas amostras de procedncias diferentes, um analista

tenha encontrado 3,80% de cido actico para a amostra A e 4,20% para a amostra B. Isso

quer dizer que ele deve aceitar a segunda amostra, por estar acima do limite, e condenar a

primeira, por conter menos cido que o mnimo determinado por lei?

No sabemos, pelo menos por enquanto. No podemos dar uma resposta justa semter uma estimativa da incerteza associada a esses valores, porque cada uma das operaes

de laboratrio envolvidas na titulao est sujeita a erros, e esses erros todos iro se juntarpara influenciar o resultado final - e portanto nossas concluses - numa extenso que ainda

no temos como avaliar. O resultado insatisfatrio pode no ser culpa da amostra, e sim das

variaes inerentes ao procedimento analtico. O mesmo se pode dizer do resultado aparente-

mente bom.

Digamos que neste exemplo os erros sejam de tal monta que no tenhamos condiesde obter um resultado final com preciso superior a 0,30%.1 Sendo assim, o verdadeiro va-

lor da concentrao da primeira amostra pode estar entre 3,50% e 4,10%. O valor observado,3,80%, seria apenas o ponto mdio desse intervalo. O resultado dessa nica titulao no

excluiria a possibilidade de o verdadeiro teor de cido estar acima de 4%, e portanto enqua-

drar-se na lei. Da mesma forma, a verdadeira concentrao da segunda amostra pode estarabaixo de 4%. Sem uma indicao da incerteza experimental, os valores 3,80% e 4,20% po-

dem levar a concluses - e talvez a atitudes, como a rejeio do lote de vinagre - no auto-rizadas pelos fatos.

2.1 (a) Tipos de erro

Todos sabemos que qualquer medida est sempre afetada por erros - so coisas da vida. Se

os erros forem insignificantes, timo. Se no forem, corremos o risco de fazer inferncias

incorretas a partir de nossos resultados experimentais, e possivelmente chegar a uma

resposta falsa para o nosso problema. Para evitar esse final infeliz, precisamos saber como

levar na devida conta os erros experimentais. Isso importante no s na anlise do resulta-

1 Calma, companheiros qumicos. Sabemos muito bem que esta uma preciso absurda para umaanlise volumtrica que se preze. O exagero nos erros est sendo cometido no interesse da didtica.

11

do final, mas tambm - e principalmente - no prprio planejamento do experimento, como jdissemos. No existe anlise que possa salvar um experimento mal planejado.

Suponhamos que na titulao do vinagre nosso qumico se distraia e se esquea de

acrescentar o indicador (fenolftalena, como sabemos, porque o ponto de equivalncia vai cairem pH bsico). A conseqncia que a viragem no vai ocorrer nunca, no importa quantabase seja adicionada. Isso evidentemente um erro dos grandes, que os estatsticos carido-samente chamam de grosseiro. Os responsveis pelo experimento costumam usar outros

adjetivos, que no ficam bem num livro de famlia.

A estatstica no se ocupa desses erros. Alis, ainda no foi inventada a cincia

capaz de trat-los. Num caso desses no h o que fazer, exceto aprender a lio e prestar

mais ateno ao que se faz, para no reincidir. Todos cometemos enganos. O experimentadorconsciencioso deve fazer o possvel para comet-los cada vez menos.

Imaginemos agora que acabou o estoque de fenolftalena e o qumico decide usar

outro indicador que esteja disponvel. O vermelho de metila, por exemplo. Como a faixa deviragem do vermelho de metila fica em pH abaixo de sete, o ponto final da titulao vai

ocorrer antes que todo o cido actico tenha sido neutralizado, e com isso o vinagre parecer

ter uma concentrao inferior verdadeira. Se vrias amostras forem tituladas dessa ma-

neira, em todas elas o valor encontrado para a concentrao de cido actico ser inferior ao

valor real, por causa da viragem prematura. Nosso qumico estar cometendo agora somente

erros sistemticos, isto , erros que afetam o resultado sempre na mesma direo, seja paramais, seja para menos. Usando vermelho de metila ao invs de fenolftalena, sempre obte-remos uma concentrao de cido menor que a verdadeira, nunca maior.

fcil imaginar outras fontes de erros sistemticos: o padro primrio pode estaradulterado, a balana pode estar descalibrada, a pipeta pode ter sido aferida erroneamente,

quem est titulando pode olhar o menisco de um ngulo incorreto, e assim por diante. Cada

um desses fatores exercer individualmente sua influncia sobre o resultado final, fazendo-o

tender para uma certa direo.

Com um pequeno esforo, os erros sistemticos tambm podem ser evitados. Uma

vez que todos os instrumentos estejam funcionando perfeitamente, s seguir risca o pro-cedimento estipulado. Por exemplo, se para voc usar fenolftalena, use fenolftalena mes-

mo, e ponto final.

Depois de certificar-se de que todos os erros sistemticos foram eliminados, e alm

disso prestando muita ateno no procedimento, nosso persistente qumico decide titular

duas amostras retiradas do mesmo lote de vinagre. Como tudo no processo agora est sob

12

controle, natural esperar que as duas titulaes produzam o mesmo resultado, j que setrata do mesmo vinagre. Ao comparar os dois valores encontrados, porm, o qumico verifica

que, apesar de bem parecidos, eles no so idnticos. Isso s pode significar que nem tudoestava realmente controlado. Alguma fonte de erro, ainda que aparentemente pequena,

continua afetando os resultados.

Para investigar esses erros, o qumico resolve ento fazer vrias titulaes em

outras amostras retiradas do mesmo lote. Os resultados obtidos em 20 titulaes so mos-

trados na Tabela 2.1 e tambm na Figura 2.1.

Examinando os resultados das vinte titulaes repetidas, percebemos que:

Os valores obtidos flutuam, mas tendem a concentrar-se em torno de um certo valor in-

termedirio.

A flutuao em torno do valor central ocorre aparentemente ao acaso. Sabendo que de-

terminada titulao resultou num valor abaixo da mdia, por exemplo, no conseguimos

prever em que direo se deslocar o valor da prxima titulao, nem de quanto ser o

seu desvio em relao mdia.

Parece que a amostra est mesmo fora da especificao, j que a maioria dos valoresdeterminados est abaixo de 4%.

Tabela 2.1 Resultados de vinte titulaes feitas no mesmo lote de vinagre.

Titulao nQ Concentrao (%) Titulao nQ Concentrao (%)

1 3,91 11 3,96

2 4,01 12 3,85

3 3,61 13 3,67

4 3,83 14 3,83

5 3,75 15 3,77

6 3,91 16 3,51

7 3,82 17 3,85

8 3,70 18 4,04

9 3,50 19 3,74

10 3,77 20 3,97

13

OUiZU1~dO as coisas funcionam normairnente

Situaes como esta so corriqueiras nas mais variadas determinaes experimen-

tais. Por mais que a gente tente controlar todas as variveis, algumas fontes de erro sempre

terminam permanecendo. Alm disso, esses erros, que em geral so pequenos, se manifes-

tam de forma aparentemente aleatria, como na segunda concluso acima. Ora alteram o re-

sultado para mais, ora para menos, mas o seu efeito parece se dar ao acaso.

Consideremos a titulao. Mesmo que o procedimento experimental seja rigorosa-mente obedecido e todas as operaes sejam feitas com todo o cuidado, sempre existiro flu-tuaes imprevisveis. Uma pequena variao no ngulo de leitura da bureta, uma gotinha

que fica na pipeta, uma tonalidade diferente na viragem, e l vai o resultado se modificar.

Como no conseguimos controlar essas variaes, no podemos saber em que direo o resul-

tado ser alterado. Atuando em conjunto, essas perturbaes provocaro erros que parecemdevidos ao acaso, e por isso so chamados de aleatrios.

4,1

O4,0 r.

O3,9 () o

~ O O O OOo 3,8

lct'S O O~'E 3,7 0Q)u Oco 3,6 ()

3,5 ()

3,4o 5 10 15 20

Titulao n-

Figura 2.1 Resultados de vinte titulaes feitas na mesma amostra devinagre.

Basta refletir um pouco para ver que impossvel controlar rigidamente todos os

fatores envolvidos num experimento, por mais simples que seja. Conseqentemente, qual-quer determinao experimental estar afetada, em maior ou menor grau, por erros aleat-

rios. Se queremos chegar a concluses sensatas, esses erros precisam ser levados em conta.

por isso, entre outros motivos, que precisamos de estatstica.2

2 Erro, neste terceiro sentido, no deve ser entendido como um termo pejorativo, e sim como umacaracterstica com a qual teremos de conviver.

14

Exerccio 2.1Pense num experimento simples e procure identificar alguns dos fatores que impedem o seuresultado de ser obtido rigorosamente sem erro.

2.2 Populaes, amostras e distribuies

o primeiro passo para tratar estatisticamente os erros aleatrios admitir alguma hiptese

sobre sua distribuio. O mais comum, quando se trata de medies, supor que a distri-

buio dos erros gaussiana ou, como tambm chamada, normal. Nesta seo vamosdiscutir em termos prticos essa hiptese e suas importantes conseqncias, partindo do

seguinte problema:

Com quantos gros se faz uma feijoada?

Evidentemente a resposta depende, entre outras coisas, do tamanho da feijoada.Vamos admitir, de sada, que a nossa receita leva um quilo de feijo. Assim o problema setransforma em descobrir quantos caroos existem nessa quantidade da leguminosa.

Uma possvel soluo seria contar todos os caroos, um por um. Ela ser descartada

desde j, porque estamos interessados numa abordagem estatstica da questo. Adotaremosuma soluo alternativa, que descobrir primeiro quanto pesa um caroo, e em seguida

dividir 1.000 g por esse valor. O resultado da diviso dar o nmero de caroos contidos em

um quilo.

Exerccio 2.2Tente adivinhar quantos caroos existem em um quilo de feijo preto. bvio que este no omtodo recomendado para resolver nosso problema (a no ser que voc tenha poderesparapsicolgicos), mas seu palpite servir para um teste estatstico, mais adiante.

Pesando numa balana analtica um caroo retirado ao acaso de um pacote de feijopreto, os autores obtiveram o valor 0,1188 g. Pesando um segundo caroo, tambm escolhido

ao acaso, encontraram 0,2673 g. Se todos os caroos fossem iguais ao primeiro, haveria 1.000

g/0,1188 g, ou cerca de 8.418 caroos no quilo de feijo. Se fossem como o segundo, esse n-mero cairia para 3.741. Qual desses valores a resposta que procuramos?

Em princpio, nenhum dos dois. Como o peso varia de um caroo para outro, no de-

vemos usar pesos individuais nas nossas contas, e sim o peso mdio do conjunto de todos oscaroos. Para obter o peso mdio, s dividir o peso total do pacote de feijo (1 kg) pelo n-mero de caroos que ele contm. Infelizmente isso nos traz de volta estaca zero: para des-

15

UUian:QO as coisas fl.HlCionam normahrH:~nte

cobrir, com esse mtodo, quantos caroos existem em um quilo de feijo, precisamos saberprimeiro... quantos caroos existem em um quilo de feijo.

Se todos os caroos fossem idnticos, o peso mdio seria igual ao peso de um caroo

qualquer. Era s pesar um deles que a questo estaria resolvida. O problema que, como

vimos, o peso varia de caroo para caroo. Mais que isso, varia - vejam s - de modo impre-visvel. Quem poderia adivinhar que, tendo retirado do pacote um caroo com 0,1188 g, agente iria encontrar logo depois um outro pesando exatamente 0,2673 g?

Apesar de no sabermos prever qual ser o peso de um caroo extrado ao acaso,

podemos usar o bom senso para estabelecer alguns limites. Por exemplo: o peso no pode ser

inferior a zero, e evidentemente deve ser muito menor que um quilo. Tambm no deve

flutuar muito. Existem caroos maiores e caroos menores, mas s olhar para um pacote defeijo para ver que a maioria tem mais ou menos o mesmo tamanho. Ou seja, estamos numasituao parecida com a da titulao. Os valores individuais flutuam, mas flutuam em torno de

um certo valor central. Agora, porm, a variao se deve ao elemento de acaso presente na

escolha dos caroos, e no mais a problemas de medio ou instrumentao.

O conjunto de todos os valores possveis numa dada situao o que se chama emestatstica de populao. O alvo de qualquer investigao experimental sempre uma

populao. Nosso objetivo, ao coletar e analisar os dados, chegar a concluses sobre ela.

importante definir claramente, em qualquer caso, qual a populao de queestamos falando. Muitas vezes, por incrvel que parea, nem isto est suficientemente claro

para o pesquisador, que corre ento o risco de estender suas concluses a sistemas mais

amplos do que os realmente estudados pelo experimento. Na nossa abordagem "gravim-

trica" do problema dos feijes, por exemplo, a populao o conjunto dos pesos individuais detodos os caroos do pacote. A resposta que procuramos se refere ao pacote como um todo,

mesmo que os caroos no sejam investigados um por um. E, a menos que a gente introduzaalguma hiptese a mais (como, por exemplo, que o pacote representativo de toda uma co-lheita), se refere a esse pacote em particular, e s a ele.

Pesando individualmente todos os caroos no pacote, teramos a distribuio exata

dos pesos na populao. Poderamos ento calcular a verdadeira mdia populacional, que se-

ria o peso mdio, correto, de um caroo no pacote. No entanto, se j descartamos a idia decontar todos os caroos, porque agora iramos pes-los? Evidentemente a soluo no vir

por a.

Ao invs de nos preocuparmos com a verdadeira mdia, que s poderamos descobrir

examinando todos os caroos, tentaremos nos contentar com uma estimativa, calculada a

16

Catutuh12

partir de apenas alguns deles, isto , a partir de uma amostra da populao. Se a amostra

for suficientemente representativa, a mdia amostraI dever ser uma boa aproximao da

mdia populacional, e poderemos us-la para concluir alguma coisa sobre a populao.

Populao: Qualquer coleo de indivduos ou valores, finita ou infinita.

Amostra: Uma parte da populao, normalmente selecionada com oobjetivo de se fazer inferncias sobre a populao.

Exerccio 2.3No exemplo dos feijes a populao finita: o nmero total de caroos pode ser grande, mas limitado. O conjunto de todas as concentraes que podem em princpio ser obtidas natitulao de uma dada amostra constitui uma populao finita ou infinita? (Note a expresso"em princpio". Imagine que possvel fazer quantas titulaes voc quiser, sem correr o risco

de esgotar os estoques da amostra e dos reagentes.)

Para que a amostra seja uma representao realista, no tendenciosa, da populaocompleta, necessrio que seus elementos sejam escolhidos de forma rigorosamentealeatria. No caso dos feijes, por exemplo, preciso que a chance de um caroo ser pesadoseja exatamente a mesma para todos eles. Depois de escolher um caroo ao acaso e pes-lo,devemos coloc-lo de volta no pacote e mistur-lo aos outros, para que volte a ter uma

chance igual deles de ser escolhido. Se no tomarmos essa precauo, a populao se modi-

fica medida que os caroos so retirados e a amostra no poder mais representar de forma

fidedigna a populao original. Esta condio muito importante na prtica, porque as

inferncias estatsticas sempre supem que as amostras so representativas da populao.

Por isso, ao realizar um experimento, devemos sempre tomar cuidado para coletar os dados

de modo que a hiptese de aleatoriedade seja, se no rigorosamente, pelo menos aproxima-damente obedecida.

,. Amostra representativa: Apresenta as caractersticas relevantes da populaoI na mesma proporo em que elas ocorrem na prpria populao.:. Amostra aleatria: Amostra de N valores ou indivduos obtida de tal forma que

todos os possveis conjuntos de N valores na populao tenhama mesma chance de ser escolhidos.

17

as coisas flH1cionam norma~mente

2.2 (a) Como descrever as caractersticas da amostra

A Tabela 2.2 mostra os pesos individuais de 140 caroos retirados aleatoriamente de um

pacote contendo um quilo de feijo preto. Examinando com ateno esses dados, podemosconfirmar nossa expectativa de uma flutuao mais ou menos restrita. O maior valor obser-

vado 0,3043 g (quinto valor na penltima coluna), o menor 0,1188 g (o primeiro de todos),e a maioria dos caroos parece ter um peso ao redor de 0,20 g.

Tabela 2.2 Pesos de caroos extrados aleatoriamente de um pacote de 1 kg de feijo preto(em gramas).

0,1188 0,2673 0,1795 0,2369 0,1826 0,1860 0,2045

0,1795 0,1910 0,1409 0,1733 0,2146 0,1965 0,2326

0,2382 0,2091 0,2660 0,2126 0,2048 0,2058 0,1666

0,2505 0,1823 0,1590 0,1722 0,1462 0,1985 0,1769

0,1810 0,2126 0,1596 0,2504 0,2285 0,3043 0,1683

0,2833 0,2380 0,1930 0,1980 0,1402 0,2060 0,2097

0,2309 0,2458 0,1496 0,1865 0,2087 0,2335 0,2173

0,1746 0,1677 0,2456 0,1828 0,1663 0,1971 0,2341

0,2327 0,2137 0,1793 0,2423 0,2012 0,1968 0,2433

0,2311 0,1902 0,1970 0,1644 0,1935 0,1421 0,1202

0,2459 0,2098 0,1817 0,1736 0,2296 0,2200 0,2025

0,1996 0,1995 0,1732 0,1987 0,2482 0,1708 0,2465

0,2096 0,2054 0,1561 0,1766 0,2620 0,1642 0,2507

0,1814 0,1340 0,2051 0,2455 0,2008 0,1740 0,2089

0,2595 0,1470 0,2674 0,1701 0,2055 0,2215 0,2080

0,1848 0,2184 0,2254 0,1573 0,1696 0,2262 0,1950

0,1965 0,1773 0,1340 0,2237 0,1996 0,1463 0,1917

0,2593 0,1799 0,2585 0,2153 0,2365 0,1629 0,1875

0,2657 0,2666 0,2535 0,1874 0,1869 0,2266 0,2143

0,1399 0,2790 0,1988 0,1904 0,1911 0,2186 0,1606

18

Fica mais fcil interpretar os dados se dividirmos a faixa total dos pesos em inter-

valos menores e contarmos os caroos situados dentro de cada intervalo. Com os valores

extremos que observamos, a faixa 0,10-0,32 g suficiente para acomodar todos os valores da

Tabela 2.2. Dividindo-a em intervalos de largura igual a 0,02 g e atribuindo cada peso

medido ao intervalo apropriado, obtemos os resultados que aparecem na Tabela 2.3. Percor-

rendo a coluna do meio, verificamos imediatamente que os intervalos ao redor de 0,20 g so

mesmo os que contm mais caroos.

Dividindo o nmero de caroos em um certo intervalo pelo nmero total de caroos

pesados, obtemos a freqncia relativa correspondente a esse intervalo. No intervalo 0,26 -0,28 g, por exemplo, foram observados sete caroos, de um total de 140. A freqncia relativa

portanto 7 + 140, ou 0,050. Isso significa que 5% dos pesos medidos ficaram entre 0,26 e

0,28 g.

Tabela 2.3 Distribuio dos pesos de 140 caroos extrados aleatoriamente de um pacote de1 kg de feijo preto.

Intervalo (g) N de caroos Freqncia(*)

0,10 - 0,12 1 0,007

0,12 - 0,14 4 0,029

0,14 - 0,16 11 0,079

0,16 - 0,18 24 0,171

0,18 - 0,20 32 0,229

0,20 - 0,22 27 0,193

0,22 - 0,24 17 0,121

0,24 - 0,26 15 0,107

0,26 - 0,28 7 0,050

0,28 - 0,30 1 0,007

0,30 - 0,32 1 0,007

Total 140 1,000

(*) Nmero de caroos no intervalo dividido pelo nmero total de caroos, 140.

19

vuanoo as coisas func~onam norma~mente

As freqncias calculadas para todos os onze intervalos aparecem na ltima coluna

da Tabela 2.3. prefervel analisar a distribuio dos pesos dos caroos em termos de fre-qncias, porque as distribuies estatsticas tericas so distribuies de freqncias, no

de nmeros absolutos de observaes. Conhecendo as freqncias, podemos determinar as

probabilidades de que certos valores de interesse venham a ser observados. Com essas pro-

babilidades podemos ento testar hipteses sobre a populao, como veremos logo mais.

Exerccio 2.4Use os dados da Tabela 2.3 para confirmar que 54,3% dos caroos observados tm peso entre

0,18 g e 0,24 g.

Qualquer conjunto de dados fica mais fcil de analisar se for representado grafica-mente. No grfico tradicional para uma distribuio de freqncias, cada intervalo repre-

sentado por um retngulo, cuja base coincide com a largura do prprio intervalo e cuja rea idntica, ou pelo menos proporcional, sua freqncia. A figura geomtrica obtida dessa

forma chamada de histograma Como a soma de todas as freqncias tem de ser igual a um

(isto , a soma de todas as percentagens tem de dar 100%), a rea total do histograma tam-bm igual a um, quando a rea de cada retngulo for igual freqncia do intervalo cor-

respondente. A Figura 2.2 mostra um histograma das freqncias da Tabela 2.3. Para

0.28

0.24

0.20

tU 0.16'uc

cO):::Jo-O) 0.12Li:

0.08

0.04 .

0.000,11 0,15 0,19 0,23

Peso (g)0,27 0,31

Figura 2.2 Histograma dos pesos de 140 caroos extrados aleatoriamente de umpacote de 1 kg de feijo preto. O significado dos smbolos explicado no texto.

20

facilitar a comparao com os dados da tabela, fizemos a altura de cada retngulo, e no a

sua rea, igual freqncia do intervalo. Isso no altera o aspecto geral do histograma, jque as bases dos retngulos so todas iguais.

As vantagens da representao grfica so evidentes. A concentrao dos pesos

dos caroos em torno do valor 0,20 g percebida imediatamente, assim como o escassea-

mento progressivo dos dados medida que nos afastamos desse valor, em ambas as dire-

es. Tambm podemos notar uma simetria na distribuio: a parte que fica direita da

regio central mais ou menos a imagem especular da parte que fica esquerda. Essa

caracterstica seria muito difcil de perceber se a representao dos dados se limitasse

Tabela 2.2.

Fica portanto o conselho: quando temos um conjunto de dados para analisar, dese-nhar um grfico uma das primeiras coisas que devemos fazer. Esta uma regra geral da

estatstica, equivalente ao velho ditado que diz que uma imagem vale mil palavras.

Exerccio 2.5Construa um histograma para os dados da Tabela 2.1. A literatura em geral recomenda

que o nmero de barras seja aproximadamente igual raiz quadrada do nmero totalde observaes. Como a tabela tem 20 valores, seu histograma deve ter 4 ou 5 barras.Prefira cinco, que um nmero mpar, e lhe permitir enxergar melhor possveis

simetrias.

o histograma da Figura 2.2 uma representao grfica de todos os 140 valores

numricos da nossa amostra. Suas caractersticas bsicas so

a localizao do conjunto de observaes numa certa regio do eixo horizontal;

sua disperso, ou espalhamento, ao longo dessa regio.

Estas caractersticas podem ser representadas numericamente, de forma abreviada,por vrias grandezas estatsticas. As mais usadas nas cincias fsicas, onde as variveis nor-

malmente assumem valores numa faixa contnua, so a mdia aritmtica e o desvio padro,respectivamente.

A mdia aritmtim de um conjunto de dados, que uma medida da sua localizao,ou tendncia central, simplesmente a soma de todos os valores, dividida pelo nmero totalde elementos no conjunto. Este o conceito de mdia que utilizaremos neste livro. Daqui emdiante nos referiremos a ele empregando apenas o termo "mdia", ficando o adjetivo "arit-mtica" subentendido.

21

QuandO as coisas funcionam norma~mente

o valor mdio numa amostra costuma ser indicado por uma barra colocadasobre o smbolo que representa os elementos da amostra. Se usarmos o smbolo x para

representar o peso de um caroo, a mdia no nosso exemplo ser representada por x, e

dada por

x = _1_ (0,1188 + 0,2673 + ... + 0,1606 )140

= 0,2024 g.

Com esse valor3 podemos estimar que o quilo de feijo contm cerca de 1.000 g +0,2024 g/caroo = 4.940 caroos. Essa estimativa, no entanto, foi obtida a partir da obser-

vao de apenas 140 caroos, isto , menos de 3% do total, supondo-se que haja mesmo cercade 5.000 caroos no pacote. Por isso, no deve corresponder ao valor exato. Trata-se apenas

de uma mdia amostrai, e no da mdia populacional. Veremos adiante como proceder para

estimar sua incerteza.

MdiaAmostraJ:

1 NX = - LXi

N i=l

Xi =i - simo valorN =Nmero total de valores na amostra

(2.1)

Para obter nossa medida do espalhamento das observaes em torno da mdia, que

o desvio padro, primeiro calculamos a diferena, ou desvio, de cada valor individual em re-

lao mdia amostraI:

Em seguida somamos os quadrados de todos os desvios e dividimos o total por N - 1. Oresultado dessas operaes a varincia do conjunto de observaes, representada pelo sm-bolo 8 2 :

3 O costume calcular a mdia com uma casa decimal a mais que os dados originais. No nossoexemplo, com quatro algarismos significativos, isso no tem importncia prtica.

22

Varincia anwstral:

2 1 ~ 2 1 ~( -)2V(X) =8 =-- ~di =-- k..J Xi- XN -1 i=l N -1 i=l

Xi = i - simo valorN =Nmero total de valores na amostrax =Mdia amostraI

(2.2)

Note que a varincia uma espcie de mdia dos quadrados dos desvios, s que o

denominador no o nmero total de observaes, N, e sim N -1. Para entender a razodessa mudana, devemos lembrar que as observaes originais, obtidas por amostragem

aleatria, eram todas independentes. Mesmo conhecendo os pesos de todos os 139 primeiros

caroos, no teramos como prever exatamente qual seria o peso do prximo caroo, o 140.

Usando a linguagem da Estatstica, dizemos que esse conjunto tem 140 graus de liberdade. um grupo de 140 valores totalmente independentes, em que um valor individual qualquerno depende dos valores restantes.

Com os desvios a situao um pouco diferente. Vejamos o que acontece quandosomamos os valores de todos eles (os somatrios todos so feitos de i = 1 at i = N ):

Ldi = L(xi -x)= LXi - LX = LXi -Nx.i i i i i

Lembrando que a mdia definida por fi =~ f Xi , podemos substituir o termo N fi peloN i=l

somatrio L Xi , e portantoi

(2.3)

Ou seja: os 140 desvios no so todos independentes. Se conhecermos 139 deles, o valorque falta estar automaticamente determinado: aquele que torna o total igual a zero.

A restrio expressada pela Equao 2.3, que vem do clculo da mdia, retira um grau

de liberdade do conjunto de desvios. J que, dos N desvios, s N -1 podem flutuaraleatoriamente, natural que o denominador na definio da varincia seja N -1, eno N.

O conceito de grau de liberdade muito importante. Mais tarde veremos exemplosem que vrias restries como esta so impostas a um determinado conjunto de valores. Sehouver p restries diferentes, o nmero de graus de liberdade se reduzir de N, o total de

23

elementos do conjunto, para v = N - p. Esse ltimo valor que ser usado como denomina-dor, numa mdia quadrtim semelhante Equao 2.2.

Em nossa amostra, onde x = 0,2024 g, a varincia , de acordo com a Equao 2.2,

S 2 =_1_ [(0,1188 _ 0,2024)2 + (0,2673 _ 0,2024)2139

+ ... + (0,1606 -0,2024)2]== 0,0132g 2

Enquanto a mdia tem as mesmas unidades que as observaes originais, as unidades da

varincia so, pela prpria definio, o quadrado das unidades de partida. Para que as

medidas de disperso e de posio tenham as mesmas unidades, costumamos substituir a

varincia pela sua raiz quadrada, que chamada de desvio padro. No nosso exemplo, o

desvio padro

s = ~(O,00132 g2 ) = 0,0363 g .

Desvio padro amostraI:~~~-~---'~~~~1

: ~ :

I : ~ ..: ~.::: ~ ~.:.: 1S 2 =Varincia das observaes na amostra

(2.4)

Exerccio 2.6Calcule a mdia e o desvio padro dos dez primeiros valores da Tabela 2.2 (de 0,1188 g at0,1409 g).

o desvio padro geralmente usado para definir intervalos em torno da mdia4 .

Em nossa amostra de 140 caroos, por exemplo, os limites do intervalo definido por um

desvio padro em torno da mdia so 0,2024 0,0363, ou 0,1661 g e 0,2387 g. A regio

compreendida entre esses dois valores (Figura 2.2) corresponde a 66,6% da rea totaldo histograma, o que significa que nela caem dois teros de todos os pesos observados.

J a regio definida por dois desvios padro tem como limites 0,1298 g e 0,2750 g, e

contm 96,8% da rea total. Dentro de certas suposies, que discutiremos adiante,

4 O desvio padro costuma ser calculado com duas casas decimais a mais que os dados de partida.Aqui tambm no estamos nos importando com esse detalhe.

24

esses intervalos amostrais podem ser utilizados para testar hipteses a respeito da

populao.

Estas contas por extenso foram feitas a bem da didtica. Voc no deve preocupar-se

com a perspectiva de calcular somatrios interminveis para poder determinar mdias e

desvios padro. Qualquer calculadora cientfica j vem da fbrica programada para realizartodas as operaes necessrias. Alm disso, existem vrios programas para microcomputado-

res, de fcil acesso, capazes de realizar no s estes como muitos outros clculos estatsticos.

Quanto mais cedo voc aprender a usar um desses programas, melhor. A estatstica lheparecer bem mais leve.

Exerccio 2.7Calcule a mdia e o desvio padro do conjunto de valores da Tabela 2.1 e determine os limitesdo intervalo.definido por dois desvios padro em torno da mdia. Compare com o intervalo de

confiana dado no texto para os valores da titulao.

Os valores x = 0,2024 g e 8 = 0,0363 g foram obtidos a partir dos 140 pesos indi-

viduais e portanto representam a amostra: so estimativas amostrais. Os valores que nos

interessam, porm, so os parmetros populacionais. Queremos saber quantos caroosexistem em todo o quilo de feijo, no numa pequena amostra.

Os estatsticos costumam empregar smbolos latinos para representar valores amos-

trais, reservando o alfabeto grego para os parmetros populacionais. Seguindo essa con-

veno, vamos representar a mdia e o desvio padro populacionais do nosso exemplo pelas

letras gregas J.1 e 0', respectivamente. O que podemos inferir a respeito desses valores, dis-

pondo apenas dos valores amostrais x e 8?

2.3 A distribuio normal

Suponhamos que os caroos cujos pesos aparecem na Tabela 2.2 sejam separados do restodo pacote, e passem a ser tratados como uma minipopulao de 140 elementos. J vimos,

na Tabela 2.3, que 5% desses elementos pesam entre 0,26 g e 0,28 g. Isso nos permite

dizer que a probabilidade de retirarmos aleatoriamente um caroo com o peso na faixa

0,26 - 0,28 g exatamente 5%. Temos condies de fazer essa afirmao porque conhe-cemos a distribuio exata das freqncias dos pesos nessa pequena populao. Podera-

mos fazer o mesmo com um caroo retirado ao acaso do pacote de um quilo, ou seja, da pr-pria populao original, se conhecssemos exatamente a distribuio populacional, e no

25

UUiH1:00 as co~sas funcionam normzdrnente

somente a amostraI. Infelizmente, para isso seria necessrio pesar todos os caroos, um

por um.

Imagine agora que tivssemos nossa disposio um modelo que fosse adequadopara a distribuio dos pesos de todos os caroos do pacote. Nesse caso, no precisaramos

mais pesar cada caroo para fazer inferncias sobre a populao. Poderamos tirar nossas

concluses do prprio modelo, sem ter de fazer nenhum esforo experimental a mais.

Esta idia - usar um modelo para representar uma dada populao - o tema

central deste livro. Ela estar presente, implcita ou explicitamente, em todas as tcnicas

estatsticas que vamos discutir. Mesmo que em certos casos a gente no diga expressamente

qual o modelo adotado, pelo contexto voc saber do que estamos falando. claro que nossasinferncias a respeito da populao s podero estar corretas se o modelo escolhido for

vlido. Em qualquer situao, porm, o procedimento que devemos seguir ser sempre o

mesmo:

Postular um modelo para representar os dados extrados da populao na qual estamos

interessados;

Verificar se essa representao satisfatria;

Nesse caso, tirar as concluses apropriadas; caso contrrio, trocar de modelo e tentar

novamente.

Um dos modelos estatsticos mais importantes - talvez o mais importante - a

distribuio normal (ou gaussiana), que o famoso matemtico Karl F. Gauss props no inciodo sculo XIX, para calcular probabilidades de ocorrncia de erros em medies. Tantos

foram - e continuam sendo - os conjuntos de dados que podem ser bem representados peladistribuio normal, que ela passou a ser considerada o comportamento natural de qualquer

tipo de erro experimental: da o adjetivo normal. Se alguma vez se constatasse que adistribuio dos erros no seguia uma gaussiana, a culpa era jogada na coleta dos dados.Depois ficou claro que existem muitas situaes experimentais em que a distribuio nor-

mal de fato no " vlida, mas ela permanece sendo um dos modelos fundamentais da

estatstica.

Muitos dos resultados que apresentaremos daqui em diante s so rigorosamente

vlidos quando os dados obedecem distribuio normal. Na prtica, isto no uma res-

trio muito sria, porque quase todos os testes que veremos continuam eficientes na pre-

sena de desvios moderados da normalidade.

26

2.3 (a) Como calcular probabilidades de ocorrncia

Uma distribuio estatstica uma funo que descreve o comportamento de uma varivel

aleatria. Uma varivel aleatria uma grandeza que pode assumir qualquer valor dentro

do conjunto de valores possveis para o sistema a que ela se refere, s que cada valor dessestem uma certa probabilidade de ocorrncia, governada por uma determinada distribuio de

probabilidades. Se tivermos como descobrir ou estimar qual essa distribuio, poderemoscalcular a probabilidade de ocorrncia de qualquer valor de interesse. Ou seja: teremos umamodesta bola de cristal estatstica, que poderemos usar para fazer previses. Logo mais

veremos como fazer isso com a distribuio normal.

A distribuio normal uma distribuio oontnua, isto , uma distribuio em que a

varivel pode assumir qualquer valor dentro de um intervalo previamente definido. Para

uma varivel normalmente distribuda, o intervalo (-00 +00), o que significa que ela podeassumir, pelo menos em princpio, qualquer valor real.

Uma distribuio contnua da varivel x definida pela sua densidade de

probabilidade f(x), que uma expresso matemtica contendo um certo nmero deparmetros. Na distribuio normal os parmetros so, por definio, apenas dois: a mdia ea varincia populacionais (Equao 2.5).

Para indicar que uma varivel aleatria x se distribui normalmente, com mdia J1 e

varincia (J"2, empregaremos a notao x ::: N (JI, (J"2 ), onde o sinal ::: pode ser lido como"distribui-se de acordo com". Se x tiver mdia zero e varincia igual a um, por exemplo,

escreveremos x ~ N (0,1). Nesse caso, diremos tambm que x segue a distribuio normalpadro (ou padronizada).

Distribuio lrormal:

-(x-J1f1 --f(x )dx - r:::- e 20" 2 dxa...;2n

f(x )=Densidade de probabilidade da varivel aleatria xJ.1 = Mdia populacional

a 2 =Varincia populacional

27

(2.5)

Quando as coisas funcJonam norma~mente

A Figura 2.3 mostra a famosa curva em forma de sino que o grfico da densidade

de probabilidade de uma distribuio normal padro,

_x 21 -f(x)= - e 2 5 (2.5a)

Note que a curva perfeitamente simtrica em torno do ponto central, que a

mdia J..l (aqui, igual a zero). O valor da densidade mximo sobre a mdia, e cairapidamente quando nos afastamos dela, em ambas as direes. A trs desvios padro

de distncia da mdia, a densidade de probabilidade praticamente reduz-se a zero.

So caractersticas parecidas com as que vimos no histograma dos 140 caroos, na

Figura 2.2.

O produto f(x )dx , por definio, a probabilidade de ocorrncia de um valor davarivel aleatria no intervalo de largura dx em torno do ponto x. Em termos prticos, isso

significa que, ao extrairmos aleatoriamente da populao um valor de x, as chances de que

esse valor esteja no intervalo de largura infinitesimal que vai de x a x + dx so dadas porf(x )dx . Para obter probabilidades correspondentes a intervalos finitos, que so os nicoscom sentido fsico, temos de integrar a densidade de probabilidade entre os limites

apropriados. A integral a rea sob a curva f(xJ entre esses limites, o que equivale a dizerque a Figura 2.3 tambm um histograma. Como a varivel aleatria agora contnua, as

probabilidades passam a ser calculadas por integrais, e no mais por somatrios. Essa

formulao terica torna automaticamente nula a probabilidade de se observar

exatamente (no sentido matemtico do termo) um determinado valor, j que issocorresponderia a fazer dx igual a zero. Para uma distribuio contnua, portanto, no fazdiferena se o intervalo de que estamos falando aberto ou fechado. A probabilidade de

que a ::::; x ::::; b igual probabilidade de que a < x < b:

bP(a < x < b) = P(a ::::; x ::::; b) = f f( xJdx

a

= Probabilidade de que o valor da varivel aleatria de densidade deprobabilidade f(xJ seja observado no intervalo [a, b].

28

0,6

0,5

0,4

~ 0,3~

0,2

0,1

0,0-4 -3 -2 -1

2 3 4

X

Figura 2.3 Distribuio de freqncias de uma varivel aleatria x ~ N(O, 1).Note que x o afastamento em relao mdia (que zero), em nmero dedesvios padro.

Como vemos na Figura 2.3, a maior parte da rea sob uma gaussiana est contida no

intervalo definido por um desvio padro em torno da mdia, e praticamente toda ela est

situada entre J1 - 30' e J1 + 3a . Para obter os valores numricos correspondentes a esses

fatos, integramos, entre os limites apropriados, a expresso de f(x) dada pela Equao 2.5:

ji+aP(u - a < x < J1 + a) = f f( x )dx = 0,6826 (isto , 68,26%);

ji-a

ji +3aP(u - 3a < x < J1 + 3a) = f f(x)dx = 0,9973 (99,73%).

ji-3a

Calculando integrais semelhantes, podemos obter as probabilidades correspondentes a

quaisquer limites de interesse. Na prtica, felizmente, no precisamos calcular integral

nenhuma, porque podemos consultar na Tabela A.l (pgina 392) os valores das integraispara vrios intervalos de uma varivel z ~ N (O, 1 ). Apesar de corresponderem distribuio padro, com mdia zero e varincia um, esses valores podem ser usados para

fazermos inferncias a respeito de qualquer distribuio normal.

Para explicar como se utiliza a Tabela A.l, precisamos introduzir o conceito de padro-

~o. Por definio, padronizar uma varivel aleatria x de mdia J1 e varincia a 2 cons-truir a partir dela uma nova varivel aleatria z, cujos valores so obtidos subtraindo-se decada valor de x a mdia populacional e dividindo-se o resultado pelo desvio padro:

29

Varivel1Wrmalpadronizada:

zx-J.1

a(2.6)

x = Varivel aleatria com distribuio Neu, (j2)z = Varivel aleatria com distribuio N(O,l)

Para dar um exemplo, vamos admitir que o peso de um caroo de feijo se distribuanormalmente, com J.1 = 0,2024 g e a = 0,0363 g. Com isto estamos fazendo duas suposies

questionveis:

Que os pesos seguem uma distribuio normal;

Que os parmetros populacionais so iguais aos valores que calculamos para a amostra.

Na verdade, estamos tentando descrever os dados experimentais com nosso primeiro modelo.

Chegar a hora de nos perguntarmos se ele adequado. Por enquanto, vamos admitir quesim.

o peso padronizado ser simplesmente, de acordo com a Equao 2.6,

x - 0,2024gz =-----

0,0363g

onde x o peso de um caroo. Como o numerador e o denominador tm as mesmas unidades,

z adimensional.

o valor numrico de z representa o afastamento do valor de x em relao mdia

populacional J.1, medido em desvios padro, o que fica claro quando reescrevemos a Equao

2.6 como x = J.1 + za . Fazendo z = - 2 , por exemplo, temos x = J.l. - 2a , ou seja, o valor dex est dois desvios padro abaixo da mdia. No nosso exemplo, o peso do caroo

correspondente a z = - 2 seria x =0,2024g - 2 x 0,0363g =0,1298 g .

Exerccio 2.8Use os resultados do Exerccio 2.7 para padronizar (no sentido estatstico que acabamos dever) o resultado de uma titulao. Que concentrao seria obtida numa titulao cujoresultado estivesse 2,5 desvios padro acima da mdia?

o efeito da padronizao torna-se evidente quando utilizamos a definio de varivelpadronizada para substituir x por z, na expresso geral da distribuio normal. Da Equao

30

2.6 temos x = J.1 + z(J , como j vimos, e conseqentemente dx = (J dz . Substituindo estasduas expresses na Equao 2.5, temos

-(/l+za-/lff(x )dx = ~ e 2(}"2 a dz .

(Jv2n

Com a eliminao de J.1 e (J , essa expresso se reduz a_Z2

1 -f(z )dz = r;;- e 2 dz ,'\j2n

onde escrevemos f(z )dz do lado esquerdo, porque a expresso agora uma funo de z, e node x. A equao ficou idntica Equao 2.5a. A padronizao simplesmente alterou a escalae deslocou a origem do eixo da varivel aleatria, transformando a varivel original x, que se

distribua de acordo com N (Jl, ( 2 ), numa nova varivel z que segue a distribuio padro,z ::::: N (O, 1 ). Como essa transformao no depende dos valores numricos de J.1 e de (J,sempre poderemos usar a distribuio normal padro para discutir o comportamento de uma

distribuio normal qualquer.

2.3 (b) Como usar as caudas da distribuio normal padro

A Tabela A.l contm, para valores de z que vo de 0,00 a 3,99, o que se chama de rea dacauda ( direita) da distribuio normal padro. A primeira coluna d o valor de z at aprimeira casa decimal, enquanto a linha superior da tabela d a segunda casa. Para saber a

rea da cauda correspondente a um certo z temos de procurar na tabela o valor localizado na

interseo da linha e da coluna apropriadas. O valor correspondente a z = 1,96, por exemplo,

est na interseo da linha referente a z = 1,9 com a coluna encabeada por 0,06. Esse

valor, 0,0250, a frao da rea total sob a curva que est localizada direita de z =1,96. Como a curva simtrica em torno da mdia, uma rea idntica est situada

esquerda de z = - 1,96 na outra metade da gaussiana (Figura 2.4). A soma dessas duascaudas, a da direita e a da esquerda, d 5% da rea total. Da conclumos que os 95%restantes esto entre z =- 1,96 e z = 1,96. Se extrairmos aleatoriamente um valor de z, h

uma chance em cada vinte (5%) de que esse valor fique abaixo de - 1,96, ou acima de 1,96.Nas outras dezenove vezes a probabilidade de que ele esteja no intervalo [-1,96, 1,96].

Aceitando o modelo normal como uma representao adequada da distribuio popu-lacional dos pesos dos caroos, podemos usar a Tabela A.l, juntamente com os valores dos

31

uu~an~ao as coisas funcionam normalmente

parmetros amostrais, para responder a questes sobre a probabilidade de ocorrncia de

valores de interesse. Por exemplo:

Qual a probabilidade de um caroo retirado ao acaso pesar entre 0,18 g e 0,25 g?

Em primeiro lugar, precisamos padronizar os valores dos pesos:

z = O,18g - 0,2024g = _621 00363 ', g

z = O,25g - 0,2024g =1 312 00363 ', g

Com isto a pergunta no se refere mais aos pesos, e sim a z. O que queremos saber agora

"qual a probabilidade de z cair no intervalo [-0,62, 1,31 ]?"

432o-1

r",/ : \.... /" \/ \

/ \ \

I \ .l .... \ ..: ...: \

....... /. ..... \ ...../ \I \/ \

.. .. 1". .. A .. I \

! \I \

..:../. .. ... ....\.. i .....

-2

0.6

0.5

0.4

~ 0.3~

0.2 .

0.1

0.0-4 -3

z

Figura 2.4 Intervalo simtrico em torno da mdia, contendo 95% da rea totalsob a curva da distribuio normal padro.

Essa probabilidade corresponde rea situada entre os limites indicados pela seta

na Figura 2.5. Ela a rea total, que um, menos as reas das duas caudas, a que fica

acima de 1,31 e a que fica abaixo de - 0,62. A da direita podemos ler diretamente na Tabela

A.l, procurando o valor correspondente a z = 1,31, que 0,0951. A rea da cauda daesquerda no pode ser tirada diretamente da tabela, porque ela no contm valores

negativos. No entanto, por causa da simetria da curva, a rea que fica abaixo de - 0,62 temde ser igual que est localizada acima de 0,62. Encontramos assim o valor 0,2676.

32

0.6

0.5

0.4

~ 0.3

0.2

0.1

0.0-4 -3 -2 -1 O

z

3 4

Figura 2.5 rea correspondente a P(-0,62 < z < 1,31).

Subtraindo da rea total as reas das duas caudas, temos finalmente a probabili-

dade desejada: (1,0 - 0,0951 - 0,2676) = 0,6373. A resposta nossa questo inicial, portanto, que 63,73% dos caroos (cerca de dois teros) devem pesar de 0,18 g a 0,25 g. No devemosnos esquecer, porm, de que essa resposta se baseia na validade de nossas duas suposies: a

de que a distribuio dos pesos dos caroos normal e a de que os parmetros populacionais

so iguais aos valores amostrais.

Exerccio 2.9(a) Qual a probabilidade de um caroo pesar mais de 0,18 g?(b) Defina os pesos limites de um intervalo que contenha 95% dos caroos.(c) Sua resposta para o Exerccio 2.2 pode ser transformada numa estimativa do peso mdio

de um caroo. Com base no que vimos at agora, quais as chances de voc encontrar um

caroo com um peso maior ou igual a esse?

Exerccio 2.10A rea da cauda esquerda de um ponto chamada de probabilidade cumulativa desse ponto,e representa a probabilidade de que o valor observado para a varivel aleatria seja nomximo igual ao valor definido pelo ponto. As probabilidades cumulativas vo ser utilizadas

no prximo captulo, quando fizermos anlises baseadas nos chamados grficos normais. Usea Tabela A.l para calcular as probabilidades cumulativas dos seguintes valores numadistribuio normal:

(a) - 00; (b) J.1; (c) J.1- a; (d) J.1 + a; (e) + 00.Que aspecto deve ter a curva de probabilidades cumulativas de uma distribuio normal?

33

OUiZU1(10 as coisas ftH1Cionam normalmente

o histograma da Figura 2.2 tem uma aparncia bastante simtrica. primeiravista, no d para perceber nele nada que realmente contradiga a hiptese de que a amostra

tenha vindo de uma populao normal.

Uma maneira de testar quantitativamente se essa hiptese adequada comparar

as freqncias observadas com as freqncias previstas pela teoria. Como nossa amostra

consiste em um nmero razovel de observaes (140), podemos imaginar que ela seja umaboa aproximao da distribuio populacional dos pesos dos caroos de feijo. Se a populao-os pesos de todos os caroos no pacote de 1 kg - se desviar muito da normalidade, devemos

ter condies de descobrir alguma evidncia desse comportamento nas freqncias amos-

trais. Ou seja, elas devem afastar-se das freqncias previstas pela distribuio normal.

Usando os valores amostrais x = 0,2024 g e s = 0,0363 g para determinar os limites

dos intervalos [x - s, x + s], [x - 2s, x + 2s] e [x - 3s, x + 3s], verificamos que elescorrespondem, respectivamente, a 66,6%, 96,8% e 100% da rea total do histograma

amostraI. Para uma varivel aleatria realmente normal, os intervalos populacionais

correspondentes, Lu - a, /1 + a], [/1 - 20", /1 + 2a] e [/1 - 3a, J1 + 3a], contm 68,3%, 95,4% e99,7% de todas as observaes. Esses valores esto em tima concordncia com os valores

amostrais. A pior diferena no chega a 2%. A julgar por isso, podemos continuar aceitandoa distribuio normal para descrever nossa amostra. A comparao, porm, subjetiva. Noespecificamos de quanto deveria ser a diferena para que passssemos a rejeitar a hiptesenormal.

A discusso de critrios mais objetivos foge ao mbito deste livro. No captulo 5 apre-sentaremos um teste alternativo, em que precisaremos decidir se determinado grfico sufi-

cientemente retilneo. Como teremos de tomar a deciso olhando a disposio dos pontos no

grfico, esse teste tambm encerra sua carga de subjetividade, e desse ponto de vista norepresenta um avano em relao ao primeiro.

2.3 (C) Porque a distribuio normal to importante?

Felizmente existe uma boa razo para no nos preocuparmos demais com a ausncia (nestelivro) de um teste rigoroso para verificar se a distribuio normal: as tcnicas estatsticasque apresentaremos so robustas em relao a desvios da normalidade. Mesmo que a popu-lao de interesse no se distribua normalmente, as tcnicas podem ser usadas, porque con-

tinuam aproximadamente vlidas.

34

Essa robustez vem, em ltima anlise, do teorema do limite central, um dos teo-remas fundamentais da estatstica, que diz essencialmente o seguinte:

Se a flutuao total numa certa varivel aleatria for o resultado da soma das

flutuaes de muitas variveis independentes e de importncia mais ou menos igual,

a sua distribuio tender para a normalidade, no importa qual seja a natureza dasdistribuies das variveis individuais.

o exemplo clssico das implicaes do teorema do limite central o jogo de dados. Adistribuio das probabilidades de observarmos um certo nmero de pontos, jogando umdado no viciado, mostrada na Figura 2.6(a). Os valores possveis so os inteiros de 1 a 6, claro, e se o dado for honesto todos eles tm as mesmas chances de ocorrer, levando a uma

distribuio que no tem nada de normal.

Suponhamos agora que sejam jogados cinco dados, ao invs de um, ou que o mesmodado seja jogado cinco vezes consecutivas, e a mdia dos cinco valores observados seja cal-culada. Essa mdia uma funo de cinco variveis aleatrias, cada uma se distribuindo

independentemente das demais, j que o valor observado para um certo dado ou jogada noafeta os valores observados para os outros. Alm disso, o nmero de pontos de cada dado

contribui com o mesmo peso para o resultado final - nenhuma das cinco observaes mais

importante que as outras quatro. As duas premissas do teorema do limite central, (1) flu-tuaes independentes e (2) de igual importncia, so portanto satisfeitas, e o resultado apa-rece na Figura 2.6(b): a distribuio das mdias j se parece com a distribuio normal.Quando o nmero de observaes que compem o resultado final cresce, a tendncia para anormalidade torna-se mais pronunciada, como mostra a distribuio da mdia dos pontos dedez dados [Figura 2.6(c)].

Muitas vezes, o erro final de um valor obtido experimentalmente vem da agregao

de vrios erros individuais mais ou menos independentes, sem que nenhum deles seja domi-nante. Na titulao, por exemplo, lembramos o erro de leitura na bureta, o erro causado por

uma gota que fica na pipeta, o erro devido a uma tonalidade diferente no ponto final, e assim

por diante. Com os caroos de feijo mais ou menos a mesma coisa: o peso de cada umdepende do grau de desidratao, da ao das pragas, da prpria carga gentica do feijo,etc. A priori, no temos motivo para imaginar que esses erros - tanto nos feijes quanto natitulao - sigam distribuies normais, mas tambm no devemos supor que eles sejamdependentes uns dos outros, ou que um deles seja muito mais importante que os demais. Oteorema do limite central nos diz ento que o erro final se distribuir de formaaproximadamente normal, e tanto mais normal quanto mais numerosas forem as fontes de

35

Quando as coisas funcionam norma~mente

erros individuais. Como situaes desse tipo so muito comuns na prtica, podemos nos dar

por satisfeitos com a hiptese normal na maioria dos casos, e deixar para fazer testes mais

sofisticados quando existir muita evidncia em contrrio. Talvez o teorema do limite central

explique o entusiasmo de 8ir Francis Galton, o inventor da regresso linear: "Dificilmenteexistir algo to impressionante para a imaginao como a admirvel forma da ordem

csmica expressa pela Lei da Freqncia do Erro (isto , a distribuio normal). Se os gregosa tivessem conhecido, certamente a teriam personificado e endeusado."

I I I I I I.2 3

(a) Um dado4 5 6

(b) Cinco dados

____......",.........11.......11&_11........11 ......-...-_2 3 4 5 6

(c) Dez dados

Figura 2.6 Distribuio de freqncias para um jogo de dados no viciados.

2.3 (d) Como calcular um intervalo de confiana para a mdiao principal motivo para querermos um modelo a perspectiva de us-lo para fazer infe-

rncias sobre os parmetros populacionais. Esqueamos por um momento que foram pesados

140 caroos. Suponhamos q

Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR

Documents

Transcript of Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR