Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR
Click here to load reader
-
Upload
alex-trevelin -
Category
Documents
-
view
1.529 -
download
72
Transcript of Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR
-
Bencio de Barros NetoIeda Spacino Scarminio
Roy Edward Bruns
COMO FAZER EXPERIMENTOSPESQUISA E DESENVOLVIMENTO NA
CINCIA E NA INDSTRIA
-
FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA CENTRAL DA UNICAMP
Barros Neto, Bencio deB278c Como fazer experimentos: pesquisa e desenvolvimento
na cincia e na indstria I Bencio de Barros Neto, IedaSpacino Scarminio, Roy Edward Bruns. -- Campinas, SP :Editora da Unicamp, 2001.
(Coleo Livro-Texto)1. Qumica - Mtodos estatsticos. 2. Planejamento
experimental. 3. Modelos matemticos. 4. Otimizaomatemtica. I Scarminio, Ieda Spacino. 11. Bruns, RoyEdward. 111. Ttulo.
ISBN: 85-268-0544-4
20. CDD - 540.28- 519.5- 511.8- 519.7
ndices para Catlogo Sistemtico:
1. Qumica - Mtodos estatsticos2. Planejamento experimental3. Modelos matemticos4. Otimizao matemtica.
540.28519.5511.8519.7
Copyright by Editora da Unicalnp, 2001
Coleo Livro-Texto
Nenhuma parte desta publicao pode ser gravada, armazenada em sistema eletrnico, fotocopiada,reproduzida por meios mecnicos ou outros quaisquer sem autorizao prvia do editor.
Secretria executivaElisabeth Regina Marchetti
Assessor de produo editorialVlademir Jos de Camargo
Preparao e revisoBenicio de Barros Neto
Supervisora de editorao eletrnicaSilvia Helena P. C. Gonalves
Editorao eletrnicaRossana Cristina Barbosa
Designer de capaBenicio de Barros Neto
Arte-final de capaAdailton Clayton dos Santos
Acompanhamento grficoEdnilson Tristo
Assessor de informticaCarlos Leonardo Lamari
Associao Brasileira deEditoras Universitrias
2001Editora da UnicampCaixa Postal 6074
Cidade Universitria - Baro GeraldoCEP 13083-970 - Campinas - SP - Brasil
Tel.: (19) 3788-1015 - Tel./Fax: (19) 3788-1100www.editora.unicamp.br
-
Prefcio
1 Como a Estatstica pode ajudar1.1 Em que a Estatstica pode ajudar1.2 Modelos empricos
1.3 Planejamento e otimizao de experimentos
2 Quando as coisas funcionam normalmente
2.1 Erros
2.1(a) Tipos de erros2. 2 Populaes, amostras e distribuies
2.2(a) Como descrever as caractersticas da amostra2.3 A distribuio normal
2.3(a) Como calcular probabilidades de ocorrncia2.3(b) Como usar as caudas da distribuio normal padro2.3(c) Porque a distribuio normal to importante?2.3(d) Como calcular um intervalo de confiana para a mdia2.3(e) Como interpretar um intervalo de confiana
2.4 Covarincia e correlao
2.5 Combinaes lineares de variveis aleatrias2.6 Amostragem aleatria em populaes normais
2.7 Aplicando a distribuio normal
2.7(a) Como fazer comparaes com um valor de referncia2.7(b) Como determinar o tamanho da amostra2.7(c) Como fazer o controle estatstico de processos2.7(d) Como comparar dois tratamentos
Como comparar duas mdias
Como fazer comparaes emparelhadas
Como comparar duas varincias
Sumrio
1
2
4
5
9
1011
1518
25
27
31
34
36
38
38
43
48
56
56
58
60
64
64
67
69
-
Sumrio
2A Aplicaes
2A.1 De casa para o trabalho2A.2 Bioequivalncia de medicamentos genricos e de marca2A.3 Mais feijes?2A.4 Produtividade de algas marinhas
3 Como variar tudo ao mesmo tempo
3.1 Um planejamento fatorial 22
3.1(a) Clculo dos efeitos3.1(b) Interpretao geomtrica dos efeitos3.1(c) Estimativa do erro experimental3.1(d) Interpretao dos resultados3.1(e) Um algoritmo para o clculo dos efeitos3.1(f) O modelo estatstico
3.2 Um planejamento fatorial 233.2(a) Clculo dos efeitos3.2(b) Estimativa do erro3.2(c) Interpretao dos resultados3.2(d) O modelo estatstico
3.3 Um planejamento fatorial 243.3(a) Clculo dos efeitos3.3(b) Estimativa do erro
3.4 Anlise por meio de grficos normais
3.5 Operao evolucionria com fatoriais de dois nveis
3.6 Blocagem em planejamentos fatoriais3A Aplicaes
3A.1 Hidrlise de resinas3A.2 Voltametria cclica do azul de metileno3A.3 Tempo de reteno em cromatografia lquida3A.4 Separao de gases por adsoro3A.5 Melhorando funes de onda3A.6 Desempenho de eletrodos de Ti!I'i023A.7 Controlando a espuma3A.8 Desenvolvimento de um detergente
7171778082
83
8587
89919496
100
105106108109112
113
114
115117123
126130
130131
133
135137140
144
146
-
4 Quando as variveis so muitas
4.1 Fraes meias de planejamentos fatoriais4.1(a) Como construir uma frao meia4.1(b) Relaes geradoras de fatoriais fracionrios
4.2 O conceito de resoluo4.2(a) Fatoriais fracionrio's de resoluo quatro4.2(b) Fatoriais fracionrios de resoluo cinco4.2(c) Variveis inertes e fatoriais embutidos em fraes4.2(d) Fraes meias com resoluo mxima
4.3 Triagem de variveis
4.3(a) Fatoriais fracionrios de resoluo trs4.3(b) Planejamentos saturados4.3(c) Como construir uma frao de resoluo trs4.3(d) Como construir uma frao 2~V4 a partir de uma frao 21iI4
4.3(e) Planejamentos saturados de Plackett e Burman4.3(f) Tcnicas de Taguchi para engenharia de qualidade
4A Aplicaes
4A.l Adsoro em slicas organofuncionalizadas4A.2 Termogravimetria do oxalato de clcio4A.3 Anlise cromatogrfica de gases4A.4 Resposta cataltica da Mn-porfirina4A.5 Escoamento de xidos na indstria siderrgica4A.6 Produo de violacena por bactrias4A.7 Cura de uma resina polister
5 Como constr~ir modelos empricos
5.1 Um modelo para y = f(T)5.2 Anlise da varincia
5.3 Intervalos de confiana5.4 Significncia estatstica da regresso5.5 Um novo modelo para y = f(T)5.6 Falta de ajuste e erro puro5.7 Correlao e regresso5A Aplicaes
Sumrio
149
150
155157159159
161163
166166166169177
177
179180
185185
187190
191
193
195
198
201
201
212
217223
224
227
235238
-
Sumrio
5A.15A.2
5A.3
5A.45A.5
5A.6
A flexibilidade do arCalibrao em cromatografiaCalibrao multivariadaIntervalo de energias proibidas em semicondutoresDeterminao de um calor de vaporizaoOutra calibrao
238
241
244
245246
248
6 Andando na superfcie de resposta
6.1 Metodologia de superfcies de resposta6.1(a) Modelagem inicial6.1(b) Como determinar o caminho de mxima inclinao6.1(c) Localizao do ponto timo
6.2 A importncia do planejamento inicial6.3 Um experimento com trs fatores e duas respostas6.4 Como tratar problemas com muitas variveis6.5 Planejamentos compostos centrais6A Aplicaes
6A.1 Resposta cataltica do Mo(VI)6A.2 Desidratao osmtica de frutas6A.3 Diminuindo o colesterol6A.4 Produo de lacase6A.5 Aumentando o oxignio do ar
7 Como modelar misturas
7.1 Misturas de dois componentes
7.2 Misturas de trs componentes
7.3 Um exemplo: misturas de trs componentes7.4 Modelos cbicos para misturas de trs componentes
7.5 Avaliao de modelos
7.6 Pseudocomponentes
7.7 Outros planejamentos7.8 Misturas com mais de trs componentes7A Aplicaes
7A.1 Influncia do solvente na complexao do on Fe(III)7A.2 Resistncia trao de misturas polimricas
251
251252
256261264
266
275280
286
286
288
291
294
296
301
304
309
313
317
320
323
325329333
333
335
-
7A.37A.4
7A.5
Determinao cataltica de Cr(VI)Condutividade de uma blenda polimricaNo precisa comer para conhecer o pudim
Sumrio
339341
344
8 Otimizao simplex
8.1 o simplex bsico8.2 o simplex modificado8.3 O simplex supermodificado
Referncias bibliogrficas
Respostas aos exerccios
Tabelas
ndice Remissivo
349
350355
366
371
375
391
399
-
Prefcio
A utilidade deve ser a principal inteno de qualquer publicao. Onde quer que essainteno no aparea claramente, nem os livros nem seus autores tm o menor direito aprovao da humanidade. Assim escreveu William Smellie no prefcio primeira edio daEncyclopaedia Britannica, publicada em 1768.
Nosso livro tem a modesta inteno de ser til s pessoas que desejarem - ouprecisarem - fazer experimentos. A edio que voc est lendo uma verso considera-velmente revista, corrigida e ampliada do nosso texto anterior, Planejamento e Otimizaode Experimentos, que esgotou trs tiragens. Como foram muitas as mudanas que fizemos,conclumos que seria apropriado mudar tambm o ttulo, para torn-lo uma descrio maisfiel do contedo e do propsito do livro.
Na preparao desta edio cada sentena foi reconsiderada, com o objetivo de tornaro texto mais claro. Todos os erros que conseguimos descobrir, ou que os leitores tiveram abondade de nos apontar, foram corrigidos. A principal mudana, porm, que vrios novosassuntos foram includos, enquanto outros tantos passaram a ter um tratamento maisaprofundado.
Entre as novidades, gostaramos de chamar a ateno para o captulo dedicado metodologia de superfcies de resposta, e para as sees contendo aplicaes reais das vriastcnicas de planejamento e anlise que discutimos no texto principal. Muitos leitores daprimeira edio comentaram conosco que gostariam de ver menos teoria e mais prtica. Os35 exemplos reais que agora inclumos (quase 80 novas pginas dedicadas a eles, no total)representam um esforo no sentido de, seno diminuir a teoria, pelo menos temper-la combastante prtica. As pessoas que usaram a edio anterior notaro ainda que o projetogrfico tambm foi modificado, na esperana de tornar a leitura mais agradvel.
Nos 15 anos em que nos dedicamos a tentar ensinar quimiometria - isto , oemprego de tcnicas estatsticas, matemticas e grficas para resolver problemas qumicos -tivemos centenas de alunos e alunas, tanto nas nossas prprias universidades quanto emoutras instituies de ensino e pesquisa, bem como em diversas empresas. Esses estudantesvinham principalmente das cincias exatas e das engenharias, mas vrias outras profissesestiveram representadas, da administrao medicina, passando pela biologia, pela far-mcia e pela tecnologia de alimentos, para mencionar as primeiras que nos ocorrem agora.Essa diversidade nos faz acreditar que as tcnicas que apresentamos podem ser aprendidase usadas, com maior ou menor esforo, por qualquer profissional que tenha de realizarexperimentos.
Gostaramos de reiterar que a estatstica no faz milagres, e que no pode substituirde forma alguma o conhecimento tcnico especializado. O que continuamos esperando
xi
-
Prefcio
demonstrar, com esta nova edio, que um profissional que junte conhecimentos deplanejamento de experimentos e de anlise de dados a uma slida formao tcnica em suarea torna-se um profissional mais competente, e por isso mesmo mais competitivo.
Ns mesmos somos qumicos, no estatsticos, e talvez seja isso que diferencie onosso livro de outros com um contedo semelhante. Embora no acreditemos que algumpossa dominar as tcnicas de planejamento e anlise de experimentos sem um certoconhecimento dos fundamentos da Estatstica, neste livro procuramos reduzir a discussodessa base ao mnimo que consideramos necessrio, e passar logo para o que interessa -problemas de pesquisa e desenvolvimento. Por outro lado, como sabemos que a Estatsticano costuma figurar entre as disciplinas mais populares na formao de diversas categoriasprofissionais, partimos do princpio de que nossos leitores no tm nenhum conhecimentoprvio dessa cincia. Mesmo assim, chegamos mais cedo aos problemas experimentais commuitas variveis do que os textos mais tradicionais.
Um nmero muito grande de pessoas contribuiu para que este livro se tornasserealidade. Se na primeira edio a lista j era extensa demais para que citssemos a todosnominalmente, temos a satisfao de reconhecer que de l para c ela s fez ampliar-se, enossa gratido aumentou na mesma proporo. Queremos, porm, agradecer especialmentequeles cujo trabalho permitiu que inclussemos tantas aplicaes na presente edio. Essesso chamados pelo nome quando discutimos seus respectivos dados.
As universidades em que trabalhamos so muito distantes uma da outra, e a nossacolaborao tem se beneficiado do apoio da Fapesp, da Faep-Unicamp e do CNPq, pelo quetambm somos muito gratos.
Por uma coisa somos os nicos responsveis: os defeitos que no conseguimos reme-diar. Contamos com a ajuda dos leitores para resolver esse problema de otimizao. Nossosendereos eletrnicos esto a embaixo. Se voc sabe como poderamos melhorar o livro,ficaremos muitos satisfeitos em ouvir sua opinio.
Campinas, janeiro de 2001.B. B. Neto ([email protected])Departamento de Qumica FundamentalUniversidade Federal de Pernambuco
l. S. Scarminio ([email protected])Departamento de QumicaUniversidade Estadual de Londrina
R. E. Bruns (brunsigm.unicamp.br)Departamento de Fsico-QumicaInstituto de Qumica - Unicamp
XII
-
1Como a Estatstica pode ajudar
... Porque ter a mente boa no o bastante; o principal aplic-la bem. Asmaiores almas so capazes tanto das maiores virtudes quanto dos maioresvcios, e aqueles que marcham lentamente podem avanar muito mais, seseguirem o caminho certo, do que os que correm porm dele se afastam.Descartes, Discurso sobre o mtodo, parte I.
Este um livro sobre o bom senso. Mais especificamente, sobre o bom senso na realizao de
experimentos e na anlise de seus resultados. No incio do Discurso sobre o mtodo, umpouco antes da citao acima, Descartes diz que, de todas as coisas no mundo, a mais bem
distribuda o bom senso, porque "todos se acham to abundantemente providos [de bomsenso] que mesmo aqueles mais difceis de se contentar em outros assuntos comumente nodesejam mais bom senso do que j tm" (Descartes, 1637). Se voc acredita nisso (Descartesobviamente no acreditava), este livro no para voc.
Digamos, porm, que voc esteja de acordo com Descartes - afinal, voc continuoulendo - e ache que nem tudo que parece bvio to bvio assim. Nesse caso, se voc estiver
envolvido com experimentao, seja na vida acadmica, seja na indstria, seja numlaboratrio de pesquisa ou desenvolvimento, este livro poder lhe ser bastante til. Com ele
voc poder aprender a realizar seus experimentos e tirar suas concluses de forma maiseconmica e eficaz.
Nos captulos seguintes apresentaremos algumas tcnicas relativamente simples e
fceis de empregar. Como o ovo de Colombo, essas tcnicas podero at parecer bvias depois
que voc refletir um pouco sobre elas, mas isso no lhes tira o mrito nem a eficcia. Paradeixar mais claro o que queremos dizer, vamos considerar um exemplo prtico, muito fcil de
encontrar na vida real, principalmente na indstria, onde a relao custo!benefcio sempreuma questo importante.
Digamos que um qumico deseje obter o rendimento mximo em uma certa reao, eque essa reao seja controlada por apenas duas variveis: a temperatura e a concentraode um determinado reagente. Na nomenclatura que adotaremos neste livro, a propriedade
de interesse, que neste caso o rendimento, chamada de resposta. As variveis que emprincpio influenciam a resposta (isto , a temperatura e a concentrao) so os fatores, e a
1
-
Como a Estatstica
funo que descreve essa influncia chamada de superficie de resposta. O objetivo dopesquisador descobrir quais os valores - os nveis - dos dois fatores que produzem a maiorresposta possvel. Como voc faria para resolver esse problema?
Eis uma sugesto. Para manter as coisas sob controle, fixamos um dos fatores num
certo nvel e variamos o outro at descobrir qual o nvel desse outro fator que produz o maior
rendimento. Variando s um dos fatores estaremos nos assegurando de que qualquer
mudana na resposta ter sido causada pela modificao do nvel desse fator. Depois,
mantendo esse fator no nvel timo encontrado, variamos o nvel do primeiro fator (o quetinha sido fixado), at descobrir o valor dele que tambm produz um rendimento mximo.Pronto. O experimento acabou, e descobrimos os valores timos que estvamos procurando,
certo?
Errado! Esse pode ser o senso comum, mas certamente no bom senso. Quase todasas pessoas a quem perguntamos concordaram que o procedimento que acabamos de
descrever era "o mais lgico", e no entanto existe uma maneira muito mais eficaz de fazer o
experimento. Alis, com esse "senso comum" o rendimento mximo s seria descoberto em
circunstncias muito especiais. Ao contrrio do que se poderia esperar, muito melhor fazer
variar todos os fatores ao mesmo tempo. A razo para isso que as variveis podem seinfluenciar mutuamente, e o valor ideal para uma delas pode depender do valor da outra.
Esse comportamento, que chamamos de intera~o entre os fatores, um fenmeno queocorre com muita freqncia. Raras so as situaes em que dois fatores atuam de forma
realmente independente.
Este apenas um exemplo de como o senso comum pode ser enganoso. Voltaremos a
ele nos captulos seguintes, para um tratamento detalhado. Neste captulo vamos apenas in-
troduzir algumas noes bsicas de modelagem e apresentar sumariamente as tcnicas que
discutiremos ao longo do livro, tentando mostrar a utilidade de cada uma delas na vida real.
1.1 Em que a Estatstica pode ajudar
comum, especialmente em indstrias qumicas, aparecerem problemas em que precisamosestudar vrias propriedades ao mesmo tempo e estas, por sua vez, so afetadas por um
grande nmero de fatores experimentais. Como investigar os efeitos de todos esses fatores
sobre todas as propriedades, minimizando o trabalho necessrio e o custo dos experimentos?
Como melhorar a qualidade do produto resultante? Que fatores experimentais devemoscontrolar para que a qualidade do produto seja assegurada?
2
-
As pesquisas realizadas com o objetivo de fornecer respostas a essas perguntasmuitas vezes tomam vrios meses de trabalho de pesquisadores e tcnicos, a um custo
bastante alto em termos de salrios, reagentes, anlises qumicas e testes fsicos. O principal
objetivo deste livro mostrar que o emprego de conhecimentos estatsticos pode ajudar aresponder a essas perguntas de forma racional e econmica. Usando planejamentosexperimentais baseados em princpios estatsticos, os pesquisadores podem extrair do
sistema em estudo o mximo de informao til, fazendo um nmero mnimo de
experimentos.
Os mtodos mais eficazes que podem ser usados por cientistas e engenheiros para
melhorar ou otimizar sistemas, produtos e processos so apresentados nos captulos
seguintes. Esses mtodos so ferramentas poderosas, com as quais vrios objetivosespecficos podem ser alcanados. Podemos fabricar produtos com melhores caractersticas,
diminuir seu tempo de desenvolvimento, aumentar a produtividade de processos, minimizar
a sensibilidade dos produtos s variaes nas condies ambientais, e assim por diante.
Voltando ao nosso exemplo inicial, vejamos algumas questes especficas em que oplanejamento experimental pode ajudar o pesquisador a atingir seus objetivos mais rapida-mente e a um custo menor. Digamos que ele j saiba que a temperatura e a concentrao,bem como o tipo de catalisador, afetam o rendimento. Como seria possvel ajustar os valoresda temperatura e da concentrao para obter uma quantidade maior do produto? Variando
esses fatores, seria possvel maximizar o rendimento? As mudanas nesses valores provo-
cariam mudanas semelhantes nos rendimentos se o catalisador fosse outro? Que expe-rimentos devemos realizar para obter mais informaes sobre o sistema? Como podemos
quantificar a eficincia dos catalisadores para as diferentes combinaes de temperatura e
concentrao? Como os valores dos fatores experimentais podem ser mudados para obtermos
o maior rendimento possvel sem que as propriedades mecnicas do produto final deixem de
satisfazer s suas especificaes? Nos captulos restantes discutiremos tcnicas estatsticas
de planejamento e anlise capazes de nos auxiliar a encontrar respostas confiveis paratodas estas questes.
Os mtodos que veremos independem da natureza do problema a que so aplicados.
Servem para estudar reaes qumicas, sistemas biolgicos, processos mecnicos (entremuitos outros), e tambm podem varrer todas as possveis escalas de interesse, desde umanica reao em bancada at um processo industrial operando em larga escala. O
denominador comum so os princpios estatsticos envolvidos, que so sempre os mesmos. claro que isso no significa menosprezar o conhecimento tcnico que o especialista j detmsobre o sistema em estudo. Como j dissemos no prefcio, ele insubstituvel. As ferra-
3
-
Come a Estatistica
mentas estatsticas, embora valiosas, so apenas um complemento a esse conhecimento. O
ideal que as duas coisas - conhecimento bsico do problema e estatstica - andem juntas.
1.2 Modelos empricos
Quando se trata de modelar dados resultantes de experimentos ou observaes, importantefazer a distino entre modelos empricos e modelos mecansticos. Tentaremos esclarecer
essa diferena considerando dois exemplos prticos.
Imaginemos que um astrnomo queira calcular a hora em que vai ocorrer o prximo
eclipse da Lua. Como sabemos, os fatos acumulados ao longo de sculos de observao e
especulao levaram, no final do sculo XVII, a uma teoria que explica perfeitamente os
fenmenos astronmicos no-relativsticos: a mecnica newtoniana. A partir das leis de
Newton possvel deduzir o comportamento dos corpos celestes como uma conseqncia
inevitvel das suas interaes gravitacionais. Este um modelo mecanstioo: com elepodemos prever as trajetrias dos astros porque sabemos as causas que as provocam, isto, conhecemos o mecanismo por trs de seu comportamento. O astrnomo s precisa
aplicar a mecnica newtoniana s suas observaes e fazer as dedues necessrias. Ele
no tem, alis, de ficar restrito ao sistema solar: as leis de Newton aplicam-se univer-
salmente. Em outras palavras, a mecnica newtoniana tambm um modelo global.
Agora consideremos uma situao bem diferente e mais prxima de ns. Um qumico
encarregado de projetar uma fbrica piloto baseada numa determinada reao recm-desenvolvida em bancada. Ele sabe que o comportamento dessa reao pode ser
influenciado por muitos fatores: as quantidades iniciais dos reagentes, o pH do meio, o
tempo de reao, a carga de catalisador, a velocidade com que os reagentes so
introduzidos no reator, a presena ou ausncia de luz, e assim por diante. Mesmo que
exista um modelo cintico para a reao em questo, dificilmente ele poder levar em
conta a influncia de todos esses fatores, alm de outros mais que costumam aparecer
quando se muda da escala de laboratrio para a escala piloto. Numa fbrica em larga
escala, ento, que normalmente o objetivo de longo prazo, a situao ainda maiscomplexa. Surgem elementos imponderveis, como o nvel de impurezas da matria-
prima, a flutuao de fatores ambientais (umidade, por exemplo), a estabilidade doprocesso como um todo, e at mesmo o prprio envelhecimento do equipamento. Trata-se
de uma situao muito complicada, para a qual difcil ser otimista quanto possibi-
lidade de se descobrir um modelo mecanstico to abrangente e eficaz como a mecnica
newtoniana. Num caso destes, o pesquisador deve recorrer forosamente a modelos
4
-
empricos, isto , modelos que procuram apenas descrever, com base na evidnciaexperimental, o comportamento do processo estudado. Isto totalmente diferente de
tentar explicar a partir de umas poucas leis o que est se passando, que o que procurafazer um modelo mecanstico. Mesmo conseguir descrever, dito assim sem nenhuma
adjetivao, pode ser em muitos casos uma tarefa ambiciosa demais. Na modelagememprica j nos damos por satisfeitos se somos capazes de descrever o processo estudadona regio experimental investigada. Isto quer dizer que modelos empricos so tambmmodelos lomis. Sua utilizao para fazer previses para situaes desconhecidas corre por
conta e risco do usurio.
Para resumir o contedo deste livro numa nica frase, podemos dizer que o seu
objetivo ensinar as tcnicas mais empregadas para desenvolver modelos empricos.
1.3 Planejamento e otimizao de experimentosAs pessoas normalmente se lembram da Estatstica quando se vem diante de grandes
quantidades de informao. Na percepo do chamado senso comum, o emprego de mtodos
estatsticos seria algo semelhante prtica da minerao. 1 Um estatstico seria um tipo de
minerador bem-sucedido, capaz de explorar e processar montanhas de nmeros e delas
extrair valiosas concluses. Como tanta coisa associada ao senso comum, esta tambm uma
impresso falsa, ou no mnimo parcial. A atividade estatstica mais importante no a
anlise de dados, e sim o planejamento dos experimentos em que esses dados devem serobtidos. Quando isso no feito da forma apropriada, o resultado muitas vezes umamontanha de nmeros estreis, da qual estatstico algum conseguiria arrancar quaisquer
concluses.
A essncia de um bom planejamento consiste em projetar um experimento de formaque ele seja capaz de fornecer exatamente o tipo de informao que procuramos. Para issoprecisamos saber, em primeiro lugar, o que mesmo que estamos procurando. Mais uma
vez, parece bvio, mas no bem assim. Podemos mesmo dizer que um bom experimentador
, antes de tudo, uma pessoa que sabe o que quer. Dependendo do que ele queira, algumas
tcnicas sero mais vantajosas, enquanto outras sero simplesmente incuas. Se voc quertornar-se um bom planejador, portanto, comece perguntando a si mesmo:
1 Alis, o termo data mining est se tornando cada vez mais comum para descrever investigaesexploratrias em grandes bancos de dados, normalmente de interesse comercial.
5
-
Como a Estatstica
O que eu gostaria de fimr sabendo quando o experimento tiver terminado?
Yogi Berra, o astro do beisebol americano, tambm era conhecido por suas tiradas
espirituosas, e s vezes paradoxais. Uma delas se aplica perfeitamente neste contexto: Se
voc no sabe para onde est indo, vai terminar batendo em outro lugar.
Imaginemos um eixo que descreva o progresso de uma investigao experimental,
desde uma situao de praticamente nenhuma informao at a construo de um (hipot-tico) modelo mecanstico global. Caminhar ao longo desse eixo corresponderia a ir descendoas linhas da Tabela 1.1, que mostra um sumrio do contedo do livro. Na primeira linha,
numa situao de pouca informao, sequer sabemos quais so as variveis mais impor-
tantes para o sistema que estamos estudando. Nosso conhecimento talvez se limite a uma
pequena experincia prtica ou a alguma informao bibliogrfica. Nessas condies, a pri-meira coisa a fazer realizar uma triagem e descartar as variveis no significativas, para
no perder mais tempo e dinheiro com elas no laboratrio. O uso de planejamentos fatoriaisfracionrios, discutidos no Captulo 4, uma maneira de alcanar esse objetivo. Os planeja-mentos fracionrios so extremamente econmicos e podem ser usados para estudar dezenasde fatores de uma s vez.
Tabela 1.1. A evoluo de um estudo emprico. O conhecimento do sistema estu-dado aumenta medida que percorremos a tabela de cima para baixo.
Objetivo
Triagem de variveis
Avaliao da influncia de variveis
Construo de modelos empricos
Otimizao
Tcnica
Planejamentos fracionrios
Planejamentos fatoriaiscompletos
Modelagem por mnimosquadrados
RSM, simplex
Captulo
4
3
5,7
6,8
Construo de modelos mecansticos Deduo a partir de princpiosgerais
Tendo selecionado os fatores importantes, nosso prximo passo seria avaliar
quantitativamente sua influncia sobre a resposta de interesse, bem como as possveis inte-
raes de uns fatores com os outros. Para fazer isso com o mnimo de experimentos, podemos
empregar planejamentos fatoriais completos, que so tratados no Captulo 3. Ultrapassandoessa etapa e desejando obter uma descrio mais detalhada, isto , obter modelos maissofisticados, podemos passar a empregar a modelagem por mnimos quadrados, que o
6
-
assunto tratado no Captulo 5. Esse provavelmente o captulo mais importante de todos,porque algumas das tcnicas discutidas em outros captulos nada mais so que casos
particulares da modelagem por mnimos quadrados. Um exemplo o Captulo 7, dedicado
modelagem de misturas. Modelos de misturas tm algumas peculiaridades, mas no fundo
so modelos ajustados pelo mtodo dos mnimos quadrados.
s vezes nosso objetivo principal otimizar nosso sistema, isto , maximizar ouminimizar algum tipo de resposta. Pode ocorrer que ao mesmo tempo ns tambm tenhamos
de satisfazer determinados critrios. Por exemplo: produzir a mxima quantidade de um
determinado produto, ao menor custo possvel, e sem fugir das especificaes. Nessa situao
uma tcnica conveniente a metodologia de superficies de resposta (RSM), apresentada noCaptulo 6 e tambm baseada na modelagem por mnimos quadrados. Mais adiante, no
Captulo 8, apresentamos uma tcnica de otimizao diferente, o simplex seqencial, em que
o objetivo simplesmente chegar ao ponto timo, dispensando-se a construo de um modelo.
Construir modelos empricos no basta. Precisamos tambm avaliar se eles so
realmente adequados ao sistema que estamos querendo descrever. S ento tem cabimento
procurar extrair concluses desses modelos. Um modelo mal ajustado faz parte da ficocientfica, no da cincia.
impossvel fazer uma avaliao da qualidade do ajuste de um modelo sem recorrera alguns conceitos bsicos de estatstica. Isto no significa, porm, que voc tenha de se
tornar um especialista em estatstica para poder se valer das tcnicas que apresentamos
neste livro. Algumas noes baseadas na famosa distribuio normal so suficientes. Essas
noes so apresentadas no Captulo 2, e so muito importantes para a compreenso e a
aplicao dos mtodos de planejamento e anlise apresentados nos demais captulos. Paratentar amenizar a costumeira aridez com que so discutidos tais conceitos, baseamos nosso
tratamento na soluo de um problema prtico, de alguma relevncia para a culinrianacional.
A utilizao de todos os mtodos descritos neste livro praticamente invivel sem aajuda de um microcomputador para fazer clculos e grficos. Quando escrevemos a primeiraedio, distribuamos junto com o livro um disquete com vrios programas escritos com essafinalidade. Hoje a abundncia de programas muito mais sofisticados, vrios dos quais dedomnio pblico, no s para Windows como para Linux, tornou o nosso disquete obsoleto. Se
mesmo assim voc estiver interessado nos tais programas (que so para o sistema DOS),pode obt-los gratuitamente na pgina do Instituto de Qumica da Unicamp(www.igm.unicamp.br). a partir do link chemkeys.
7
-
jj
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
-
2Quando as coisas funcionam normalmente
o que leva um pesquisador a fazer experimentos o desejo de encontrar a soluo de deter-minados problemas. Escrevemos este livro para mostrar como qualquer pesquisador (ou pes-quisadora, naturalmente), aplicando as tcnicas estatsticas apropriadas, pode resolver seusproblemas experimentais de forma mais eficiente. Queremos ensinar ao leitor o que fazerpara tirar o melhor proveito dessas tcnicas, no s na anlise dos resultados experimentais,
mas principalmente no prprio planejamento dos experimentos, antes de fazer qualquermedio.
Estatstica um termo que, merecidamente ou no, goza de pouca popularidade
entre os qumicos, e entre pesquisadores e engenheiros em geral. Quem ouve falar noassunto pensa logo num grande volume de dados, valores, percentagens ou tabelas, onde
esto escondidas as concluses que buscamos, e que esperamos que os mtodos estatsticos
nos ajudem a descobrir. Na verdade, analisar os dados apenas uma parte da Estatstica. Aoutra parte, to importante quanto - se no mais - planejar os experimentos queproduziro os dados. Muita gente j descobriu, da forma mais dolorosa, que um descuido noplanejamento pode levar um experimento, feito com a melhor das intenes, a terminar emresultados inteis, dos quais nem a anlise mais sofisticada consegue concluir nada. R. A.
Fisher, o criador de muitas das tcnicas que discutiremos, escreveu uma advertncia elo-
qente: "Chamar o especialista em estatstica depois que o experimento foi feito pode ser o
mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi
que o experimento morreu."
Felizmente essa situao desagradvel pode ser evitada. Basta que voc planejecuidadosamente a realizao do seu experimento, em todos os detalhes e usando as ferra-
mentas estatsticas apropriadas. Com essa precauo, alm de minimizar os custos ope-
racionais, voc ter a garantia de que os resultados do experimento iro conter informaes
relevantes para a soluo do problema de partida. Com experimentos bem planejados, ficamuito fcil extrair concluses vlidas. A anlise dos resultados passa a ser trivial.
A recproca verdadeira. Um pesquisador que desconhea a metodologia do planeja-mento experimental corre o risco de chegar a concluses duvidosas. Pior ainda, pode acabar
9
-
uu:an:on as coisas funcionam normahnente
realizando experimentos que no levem a concluso alguma, duvidosa ou no, e cujo nicoresultado prtico seja o desperdcio de tempo e dinheiro.
Neste livro apresentaremos vrias tcnicas de planejamento e anlise que, com umpouco de esforo, podem ser usadas por qualquer pesquisador no seu dia-a-dia. Para discuti-
las corretamente, precisamos de alguns conceitos de estatstica, todos baseados, em ltima
anlise, na famosa distribuio normal. por isso que resolvemos dar a este captulo o ttuloque ele tem.
Existem vrios excelentes livros de estatstica, em todos os nveis de dificuldade,
desde o muito elementar at o muito avanado. Muitos so voltados para reas especficas -
cincias sociais, cincias humanas, cincias da sade e, claro, tambm cincias fsicas e
engenharia. Em geral eles tratam de muitos assuntos importantes do ponto de vista
puramente estatstico, mas no totalmente relevantes para o nosso estudo do planejamentoe da otimizao de experimentos. Como o nosso objetivo chegar o quanto antes s apli-caes prticas, vamos apresentar neste captulo somente os conceitos estatsticos essenciais
para o trabalho do engenheiro ou do pesquisador, seja no laboratrio ou no campo.
Por aborrecida que s vezes parea, a estatstica fundamental para que ns possa-
mos planejar e realizar experimentos de forma eficiente. Para aproveitar todo o potencialdas tcnicas apresentadas no restante do livro, muito importante que voc tenha uma com-
preenso correta do contedo deste captulo.
2.1 Erros
Para obter dados experimentais confiveis, precisamos executar um procedimento bem defi-
nido, com detalhes operacionais que dependem da finalidade do experimento.
Imaginemos que nosso problema experimental seja determinar a concentrao decido actico numa amostra de vinagre. O procedimento tradicional para resolv-lo fazer
uma titulao cido-base. Seguindo o mtodo usual, precisamos
(a) preparar a soluo do padro primrio;
(b) us-la para padronizar a soluo de hidrxido de sdio de concentraoapropriada;
(c) realizar a titulao propriamente dita.
Cada uma dessas etapas, por sua vez, envolver um certo nmero de operaes bsicas,
como pesagens, diluies e leituras de volume.
10
-
Determinaes como esta fazem parte da rotina dos laboratrios bromatolgicos, que
as usam para verificar se o vinagre est de acordo com o estabelecido pela legislao (4% decido actico, no mnimo).
Suponhamos que, ao titular duas amostras de procedncias diferentes, um analista
tenha encontrado 3,80% de cido actico para a amostra A e 4,20% para a amostra B. Isso
quer dizer que ele deve aceitar a segunda amostra, por estar acima do limite, e condenar a
primeira, por conter menos cido que o mnimo determinado por lei?
No sabemos, pelo menos por enquanto. No podemos dar uma resposta justa semter uma estimativa da incerteza associada a esses valores, porque cada uma das operaes
de laboratrio envolvidas na titulao est sujeita a erros, e esses erros todos iro se juntarpara influenciar o resultado final - e portanto nossas concluses - numa extenso que ainda
no temos como avaliar. O resultado insatisfatrio pode no ser culpa da amostra, e sim das
variaes inerentes ao procedimento analtico. O mesmo se pode dizer do resultado aparente-
mente bom.
Digamos que neste exemplo os erros sejam de tal monta que no tenhamos condiesde obter um resultado final com preciso superior a 0,30%.1 Sendo assim, o verdadeiro va-
lor da concentrao da primeira amostra pode estar entre 3,50% e 4,10%. O valor observado,3,80%, seria apenas o ponto mdio desse intervalo. O resultado dessa nica titulao no
excluiria a possibilidade de o verdadeiro teor de cido estar acima de 4%, e portanto enqua-
drar-se na lei. Da mesma forma, a verdadeira concentrao da segunda amostra pode estarabaixo de 4%. Sem uma indicao da incerteza experimental, os valores 3,80% e 4,20% po-
dem levar a concluses - e talvez a atitudes, como a rejeio do lote de vinagre - no auto-rizadas pelos fatos.
2.1 (a) Tipos de erro
Todos sabemos que qualquer medida est sempre afetada por erros - so coisas da vida. Se
os erros forem insignificantes, timo. Se no forem, corremos o risco de fazer inferncias
incorretas a partir de nossos resultados experimentais, e possivelmente chegar a uma
resposta falsa para o nosso problema. Para evitar esse final infeliz, precisamos saber como
levar na devida conta os erros experimentais. Isso importante no s na anlise do resulta-
1 Calma, companheiros qumicos. Sabemos muito bem que esta uma preciso absurda para umaanlise volumtrica que se preze. O exagero nos erros est sendo cometido no interesse da didtica.
11
-
do final, mas tambm - e principalmente - no prprio planejamento do experimento, como jdissemos. No existe anlise que possa salvar um experimento mal planejado.
Suponhamos que na titulao do vinagre nosso qumico se distraia e se esquea de
acrescentar o indicador (fenolftalena, como sabemos, porque o ponto de equivalncia vai cairem pH bsico). A conseqncia que a viragem no vai ocorrer nunca, no importa quantabase seja adicionada. Isso evidentemente um erro dos grandes, que os estatsticos carido-samente chamam de grosseiro. Os responsveis pelo experimento costumam usar outros
adjetivos, que no ficam bem num livro de famlia.
A estatstica no se ocupa desses erros. Alis, ainda no foi inventada a cincia
capaz de trat-los. Num caso desses no h o que fazer, exceto aprender a lio e prestar
mais ateno ao que se faz, para no reincidir. Todos cometemos enganos. O experimentadorconsciencioso deve fazer o possvel para comet-los cada vez menos.
Imaginemos agora que acabou o estoque de fenolftalena e o qumico decide usar
outro indicador que esteja disponvel. O vermelho de metila, por exemplo. Como a faixa deviragem do vermelho de metila fica em pH abaixo de sete, o ponto final da titulao vai
ocorrer antes que todo o cido actico tenha sido neutralizado, e com isso o vinagre parecer
ter uma concentrao inferior verdadeira. Se vrias amostras forem tituladas dessa ma-
neira, em todas elas o valor encontrado para a concentrao de cido actico ser inferior ao
valor real, por causa da viragem prematura. Nosso qumico estar cometendo agora somente
erros sistemticos, isto , erros que afetam o resultado sempre na mesma direo, seja paramais, seja para menos. Usando vermelho de metila ao invs de fenolftalena, sempre obte-remos uma concentrao de cido menor que a verdadeira, nunca maior.
fcil imaginar outras fontes de erros sistemticos: o padro primrio pode estaradulterado, a balana pode estar descalibrada, a pipeta pode ter sido aferida erroneamente,
quem est titulando pode olhar o menisco de um ngulo incorreto, e assim por diante. Cada
um desses fatores exercer individualmente sua influncia sobre o resultado final, fazendo-o
tender para uma certa direo.
Com um pequeno esforo, os erros sistemticos tambm podem ser evitados. Uma
vez que todos os instrumentos estejam funcionando perfeitamente, s seguir risca o pro-cedimento estipulado. Por exemplo, se para voc usar fenolftalena, use fenolftalena mes-
mo, e ponto final.
Depois de certificar-se de que todos os erros sistemticos foram eliminados, e alm
disso prestando muita ateno no procedimento, nosso persistente qumico decide titular
duas amostras retiradas do mesmo lote de vinagre. Como tudo no processo agora est sob
12
-
controle, natural esperar que as duas titulaes produzam o mesmo resultado, j que setrata do mesmo vinagre. Ao comparar os dois valores encontrados, porm, o qumico verifica
que, apesar de bem parecidos, eles no so idnticos. Isso s pode significar que nem tudoestava realmente controlado. Alguma fonte de erro, ainda que aparentemente pequena,
continua afetando os resultados.
Para investigar esses erros, o qumico resolve ento fazer vrias titulaes em
outras amostras retiradas do mesmo lote. Os resultados obtidos em 20 titulaes so mos-
trados na Tabela 2.1 e tambm na Figura 2.1.
Examinando os resultados das vinte titulaes repetidas, percebemos que:
Os valores obtidos flutuam, mas tendem a concentrar-se em torno de um certo valor in-
termedirio.
A flutuao em torno do valor central ocorre aparentemente ao acaso. Sabendo que de-
terminada titulao resultou num valor abaixo da mdia, por exemplo, no conseguimos
prever em que direo se deslocar o valor da prxima titulao, nem de quanto ser o
seu desvio em relao mdia.
Parece que a amostra est mesmo fora da especificao, j que a maioria dos valoresdeterminados est abaixo de 4%.
Tabela 2.1 Resultados de vinte titulaes feitas no mesmo lote de vinagre.
Titulao nQ Concentrao (%) Titulao nQ Concentrao (%)
1 3,91 11 3,96
2 4,01 12 3,85
3 3,61 13 3,67
4 3,83 14 3,83
5 3,75 15 3,77
6 3,91 16 3,51
7 3,82 17 3,85
8 3,70 18 4,04
9 3,50 19 3,74
10 3,77 20 3,97
13
-
OUiZU1~dO as coisas funcionam normairnente
Situaes como esta so corriqueiras nas mais variadas determinaes experimen-
tais. Por mais que a gente tente controlar todas as variveis, algumas fontes de erro sempre
terminam permanecendo. Alm disso, esses erros, que em geral so pequenos, se manifes-
tam de forma aparentemente aleatria, como na segunda concluso acima. Ora alteram o re-
sultado para mais, ora para menos, mas o seu efeito parece se dar ao acaso.
Consideremos a titulao. Mesmo que o procedimento experimental seja rigorosa-mente obedecido e todas as operaes sejam feitas com todo o cuidado, sempre existiro flu-tuaes imprevisveis. Uma pequena variao no ngulo de leitura da bureta, uma gotinha
que fica na pipeta, uma tonalidade diferente na viragem, e l vai o resultado se modificar.
Como no conseguimos controlar essas variaes, no podemos saber em que direo o resul-
tado ser alterado. Atuando em conjunto, essas perturbaes provocaro erros que parecemdevidos ao acaso, e por isso so chamados de aleatrios.
4,1
O4,0 r.
O3,9 () o
~ O O O OOo 3,8
lct'S O O~'E 3,7 0Q)u Oco 3,6 ()
3,5 ()
3,4o 5 10 15 20
Titulao n-
Figura 2.1 Resultados de vinte titulaes feitas na mesma amostra devinagre.
Basta refletir um pouco para ver que impossvel controlar rigidamente todos os
fatores envolvidos num experimento, por mais simples que seja. Conseqentemente, qual-quer determinao experimental estar afetada, em maior ou menor grau, por erros aleat-
rios. Se queremos chegar a concluses sensatas, esses erros precisam ser levados em conta.
por isso, entre outros motivos, que precisamos de estatstica.2
2 Erro, neste terceiro sentido, no deve ser entendido como um termo pejorativo, e sim como umacaracterstica com a qual teremos de conviver.
14
-
Exerccio 2.1Pense num experimento simples e procure identificar alguns dos fatores que impedem o seuresultado de ser obtido rigorosamente sem erro.
2.2 Populaes, amostras e distribuies
o primeiro passo para tratar estatisticamente os erros aleatrios admitir alguma hiptese
sobre sua distribuio. O mais comum, quando se trata de medies, supor que a distri-
buio dos erros gaussiana ou, como tambm chamada, normal. Nesta seo vamosdiscutir em termos prticos essa hiptese e suas importantes conseqncias, partindo do
seguinte problema:
Com quantos gros se faz uma feijoada?
Evidentemente a resposta depende, entre outras coisas, do tamanho da feijoada.Vamos admitir, de sada, que a nossa receita leva um quilo de feijo. Assim o problema setransforma em descobrir quantos caroos existem nessa quantidade da leguminosa.
Uma possvel soluo seria contar todos os caroos, um por um. Ela ser descartada
desde j, porque estamos interessados numa abordagem estatstica da questo. Adotaremosuma soluo alternativa, que descobrir primeiro quanto pesa um caroo, e em seguida
dividir 1.000 g por esse valor. O resultado da diviso dar o nmero de caroos contidos em
um quilo.
Exerccio 2.2Tente adivinhar quantos caroos existem em um quilo de feijo preto. bvio que este no omtodo recomendado para resolver nosso problema (a no ser que voc tenha poderesparapsicolgicos), mas seu palpite servir para um teste estatstico, mais adiante.
Pesando numa balana analtica um caroo retirado ao acaso de um pacote de feijopreto, os autores obtiveram o valor 0,1188 g. Pesando um segundo caroo, tambm escolhido
ao acaso, encontraram 0,2673 g. Se todos os caroos fossem iguais ao primeiro, haveria 1.000
g/0,1188 g, ou cerca de 8.418 caroos no quilo de feijo. Se fossem como o segundo, esse n-mero cairia para 3.741. Qual desses valores a resposta que procuramos?
Em princpio, nenhum dos dois. Como o peso varia de um caroo para outro, no de-
vemos usar pesos individuais nas nossas contas, e sim o peso mdio do conjunto de todos oscaroos. Para obter o peso mdio, s dividir o peso total do pacote de feijo (1 kg) pelo n-mero de caroos que ele contm. Infelizmente isso nos traz de volta estaca zero: para des-
15
-
UUian:QO as coisas fl.HlCionam normahrH:~nte
cobrir, com esse mtodo, quantos caroos existem em um quilo de feijo, precisamos saberprimeiro... quantos caroos existem em um quilo de feijo.
Se todos os caroos fossem idnticos, o peso mdio seria igual ao peso de um caroo
qualquer. Era s pesar um deles que a questo estaria resolvida. O problema que, como
vimos, o peso varia de caroo para caroo. Mais que isso, varia - vejam s - de modo impre-visvel. Quem poderia adivinhar que, tendo retirado do pacote um caroo com 0,1188 g, agente iria encontrar logo depois um outro pesando exatamente 0,2673 g?
Apesar de no sabermos prever qual ser o peso de um caroo extrado ao acaso,
podemos usar o bom senso para estabelecer alguns limites. Por exemplo: o peso no pode ser
inferior a zero, e evidentemente deve ser muito menor que um quilo. Tambm no deve
flutuar muito. Existem caroos maiores e caroos menores, mas s olhar para um pacote defeijo para ver que a maioria tem mais ou menos o mesmo tamanho. Ou seja, estamos numasituao parecida com a da titulao. Os valores individuais flutuam, mas flutuam em torno de
um certo valor central. Agora, porm, a variao se deve ao elemento de acaso presente na
escolha dos caroos, e no mais a problemas de medio ou instrumentao.
O conjunto de todos os valores possveis numa dada situao o que se chama emestatstica de populao. O alvo de qualquer investigao experimental sempre uma
populao. Nosso objetivo, ao coletar e analisar os dados, chegar a concluses sobre ela.
importante definir claramente, em qualquer caso, qual a populao de queestamos falando. Muitas vezes, por incrvel que parea, nem isto est suficientemente claro
para o pesquisador, que corre ento o risco de estender suas concluses a sistemas mais
amplos do que os realmente estudados pelo experimento. Na nossa abordagem "gravim-
trica" do problema dos feijes, por exemplo, a populao o conjunto dos pesos individuais detodos os caroos do pacote. A resposta que procuramos se refere ao pacote como um todo,
mesmo que os caroos no sejam investigados um por um. E, a menos que a gente introduzaalguma hiptese a mais (como, por exemplo, que o pacote representativo de toda uma co-lheita), se refere a esse pacote em particular, e s a ele.
Pesando individualmente todos os caroos no pacote, teramos a distribuio exata
dos pesos na populao. Poderamos ento calcular a verdadeira mdia populacional, que se-
ria o peso mdio, correto, de um caroo no pacote. No entanto, se j descartamos a idia decontar todos os caroos, porque agora iramos pes-los? Evidentemente a soluo no vir
por a.
Ao invs de nos preocuparmos com a verdadeira mdia, que s poderamos descobrir
examinando todos os caroos, tentaremos nos contentar com uma estimativa, calculada a
16
-
Catutuh12
partir de apenas alguns deles, isto , a partir de uma amostra da populao. Se a amostra
for suficientemente representativa, a mdia amostraI dever ser uma boa aproximao da
mdia populacional, e poderemos us-la para concluir alguma coisa sobre a populao.
Populao: Qualquer coleo de indivduos ou valores, finita ou infinita.
Amostra: Uma parte da populao, normalmente selecionada com oobjetivo de se fazer inferncias sobre a populao.
Exerccio 2.3No exemplo dos feijes a populao finita: o nmero total de caroos pode ser grande, mas limitado. O conjunto de todas as concentraes que podem em princpio ser obtidas natitulao de uma dada amostra constitui uma populao finita ou infinita? (Note a expresso"em princpio". Imagine que possvel fazer quantas titulaes voc quiser, sem correr o risco
de esgotar os estoques da amostra e dos reagentes.)
Para que a amostra seja uma representao realista, no tendenciosa, da populaocompleta, necessrio que seus elementos sejam escolhidos de forma rigorosamentealeatria. No caso dos feijes, por exemplo, preciso que a chance de um caroo ser pesadoseja exatamente a mesma para todos eles. Depois de escolher um caroo ao acaso e pes-lo,devemos coloc-lo de volta no pacote e mistur-lo aos outros, para que volte a ter uma
chance igual deles de ser escolhido. Se no tomarmos essa precauo, a populao se modi-
fica medida que os caroos so retirados e a amostra no poder mais representar de forma
fidedigna a populao original. Esta condio muito importante na prtica, porque as
inferncias estatsticas sempre supem que as amostras so representativas da populao.
Por isso, ao realizar um experimento, devemos sempre tomar cuidado para coletar os dados
de modo que a hiptese de aleatoriedade seja, se no rigorosamente, pelo menos aproxima-damente obedecida.
,. Amostra representativa: Apresenta as caractersticas relevantes da populaoI na mesma proporo em que elas ocorrem na prpria populao.:. Amostra aleatria: Amostra de N valores ou indivduos obtida de tal forma que
todos os possveis conjuntos de N valores na populao tenhama mesma chance de ser escolhidos.
17
-
as coisas flH1cionam norma~mente
2.2 (a) Como descrever as caractersticas da amostra
A Tabela 2.2 mostra os pesos individuais de 140 caroos retirados aleatoriamente de um
pacote contendo um quilo de feijo preto. Examinando com ateno esses dados, podemosconfirmar nossa expectativa de uma flutuao mais ou menos restrita. O maior valor obser-
vado 0,3043 g (quinto valor na penltima coluna), o menor 0,1188 g (o primeiro de todos),e a maioria dos caroos parece ter um peso ao redor de 0,20 g.
Tabela 2.2 Pesos de caroos extrados aleatoriamente de um pacote de 1 kg de feijo preto(em gramas).
0,1188 0,2673 0,1795 0,2369 0,1826 0,1860 0,2045
0,1795 0,1910 0,1409 0,1733 0,2146 0,1965 0,2326
0,2382 0,2091 0,2660 0,2126 0,2048 0,2058 0,1666
0,2505 0,1823 0,1590 0,1722 0,1462 0,1985 0,1769
0,1810 0,2126 0,1596 0,2504 0,2285 0,3043 0,1683
0,2833 0,2380 0,1930 0,1980 0,1402 0,2060 0,2097
0,2309 0,2458 0,1496 0,1865 0,2087 0,2335 0,2173
0,1746 0,1677 0,2456 0,1828 0,1663 0,1971 0,2341
0,2327 0,2137 0,1793 0,2423 0,2012 0,1968 0,2433
0,2311 0,1902 0,1970 0,1644 0,1935 0,1421 0,1202
0,2459 0,2098 0,1817 0,1736 0,2296 0,2200 0,2025
0,1996 0,1995 0,1732 0,1987 0,2482 0,1708 0,2465
0,2096 0,2054 0,1561 0,1766 0,2620 0,1642 0,2507
0,1814 0,1340 0,2051 0,2455 0,2008 0,1740 0,2089
0,2595 0,1470 0,2674 0,1701 0,2055 0,2215 0,2080
0,1848 0,2184 0,2254 0,1573 0,1696 0,2262 0,1950
0,1965 0,1773 0,1340 0,2237 0,1996 0,1463 0,1917
0,2593 0,1799 0,2585 0,2153 0,2365 0,1629 0,1875
0,2657 0,2666 0,2535 0,1874 0,1869 0,2266 0,2143
0,1399 0,2790 0,1988 0,1904 0,1911 0,2186 0,1606
18
-
Fica mais fcil interpretar os dados se dividirmos a faixa total dos pesos em inter-
valos menores e contarmos os caroos situados dentro de cada intervalo. Com os valores
extremos que observamos, a faixa 0,10-0,32 g suficiente para acomodar todos os valores da
Tabela 2.2. Dividindo-a em intervalos de largura igual a 0,02 g e atribuindo cada peso
medido ao intervalo apropriado, obtemos os resultados que aparecem na Tabela 2.3. Percor-
rendo a coluna do meio, verificamos imediatamente que os intervalos ao redor de 0,20 g so
mesmo os que contm mais caroos.
Dividindo o nmero de caroos em um certo intervalo pelo nmero total de caroos
pesados, obtemos a freqncia relativa correspondente a esse intervalo. No intervalo 0,26 -0,28 g, por exemplo, foram observados sete caroos, de um total de 140. A freqncia relativa
portanto 7 + 140, ou 0,050. Isso significa que 5% dos pesos medidos ficaram entre 0,26 e
0,28 g.
Tabela 2.3 Distribuio dos pesos de 140 caroos extrados aleatoriamente de um pacote de1 kg de feijo preto.
Intervalo (g) N de caroos Freqncia(*)
0,10 - 0,12 1 0,007
0,12 - 0,14 4 0,029
0,14 - 0,16 11 0,079
0,16 - 0,18 24 0,171
0,18 - 0,20 32 0,229
0,20 - 0,22 27 0,193
0,22 - 0,24 17 0,121
0,24 - 0,26 15 0,107
0,26 - 0,28 7 0,050
0,28 - 0,30 1 0,007
0,30 - 0,32 1 0,007
Total 140 1,000
(*) Nmero de caroos no intervalo dividido pelo nmero total de caroos, 140.
19
-
vuanoo as coisas func~onam norma~mente
As freqncias calculadas para todos os onze intervalos aparecem na ltima coluna
da Tabela 2.3. prefervel analisar a distribuio dos pesos dos caroos em termos de fre-qncias, porque as distribuies estatsticas tericas so distribuies de freqncias, no
de nmeros absolutos de observaes. Conhecendo as freqncias, podemos determinar as
probabilidades de que certos valores de interesse venham a ser observados. Com essas pro-
babilidades podemos ento testar hipteses sobre a populao, como veremos logo mais.
Exerccio 2.4Use os dados da Tabela 2.3 para confirmar que 54,3% dos caroos observados tm peso entre
0,18 g e 0,24 g.
Qualquer conjunto de dados fica mais fcil de analisar se for representado grafica-mente. No grfico tradicional para uma distribuio de freqncias, cada intervalo repre-
sentado por um retngulo, cuja base coincide com a largura do prprio intervalo e cuja rea idntica, ou pelo menos proporcional, sua freqncia. A figura geomtrica obtida dessa
forma chamada de histograma Como a soma de todas as freqncias tem de ser igual a um
(isto , a soma de todas as percentagens tem de dar 100%), a rea total do histograma tam-bm igual a um, quando a rea de cada retngulo for igual freqncia do intervalo cor-
respondente. A Figura 2.2 mostra um histograma das freqncias da Tabela 2.3. Para
0.28
0.24
0.20
tU 0.16'uc
cO):::Jo-O) 0.12Li:
0.08
0.04 .
0.000,11 0,15 0,19 0,23
Peso (g)0,27 0,31
Figura 2.2 Histograma dos pesos de 140 caroos extrados aleatoriamente de umpacote de 1 kg de feijo preto. O significado dos smbolos explicado no texto.
20
-
facilitar a comparao com os dados da tabela, fizemos a altura de cada retngulo, e no a
sua rea, igual freqncia do intervalo. Isso no altera o aspecto geral do histograma, jque as bases dos retngulos so todas iguais.
As vantagens da representao grfica so evidentes. A concentrao dos pesos
dos caroos em torno do valor 0,20 g percebida imediatamente, assim como o escassea-
mento progressivo dos dados medida que nos afastamos desse valor, em ambas as dire-
es. Tambm podemos notar uma simetria na distribuio: a parte que fica direita da
regio central mais ou menos a imagem especular da parte que fica esquerda. Essa
caracterstica seria muito difcil de perceber se a representao dos dados se limitasse
Tabela 2.2.
Fica portanto o conselho: quando temos um conjunto de dados para analisar, dese-nhar um grfico uma das primeiras coisas que devemos fazer. Esta uma regra geral da
estatstica, equivalente ao velho ditado que diz que uma imagem vale mil palavras.
Exerccio 2.5Construa um histograma para os dados da Tabela 2.1. A literatura em geral recomenda
que o nmero de barras seja aproximadamente igual raiz quadrada do nmero totalde observaes. Como a tabela tem 20 valores, seu histograma deve ter 4 ou 5 barras.Prefira cinco, que um nmero mpar, e lhe permitir enxergar melhor possveis
simetrias.
o histograma da Figura 2.2 uma representao grfica de todos os 140 valores
numricos da nossa amostra. Suas caractersticas bsicas so
a localizao do conjunto de observaes numa certa regio do eixo horizontal;
sua disperso, ou espalhamento, ao longo dessa regio.
Estas caractersticas podem ser representadas numericamente, de forma abreviada,por vrias grandezas estatsticas. As mais usadas nas cincias fsicas, onde as variveis nor-
malmente assumem valores numa faixa contnua, so a mdia aritmtica e o desvio padro,respectivamente.
A mdia aritmtim de um conjunto de dados, que uma medida da sua localizao,ou tendncia central, simplesmente a soma de todos os valores, dividida pelo nmero totalde elementos no conjunto. Este o conceito de mdia que utilizaremos neste livro. Daqui emdiante nos referiremos a ele empregando apenas o termo "mdia", ficando o adjetivo "arit-mtica" subentendido.
21
-
QuandO as coisas funcionam norma~mente
o valor mdio numa amostra costuma ser indicado por uma barra colocadasobre o smbolo que representa os elementos da amostra. Se usarmos o smbolo x para
representar o peso de um caroo, a mdia no nosso exemplo ser representada por x, e
dada por
x = _1_ (0,1188 + 0,2673 + ... + 0,1606 )140
= 0,2024 g.
Com esse valor3 podemos estimar que o quilo de feijo contm cerca de 1.000 g +0,2024 g/caroo = 4.940 caroos. Essa estimativa, no entanto, foi obtida a partir da obser-
vao de apenas 140 caroos, isto , menos de 3% do total, supondo-se que haja mesmo cercade 5.000 caroos no pacote. Por isso, no deve corresponder ao valor exato. Trata-se apenas
de uma mdia amostrai, e no da mdia populacional. Veremos adiante como proceder para
estimar sua incerteza.
MdiaAmostraJ:
1 NX = - LXi
N i=l
Xi =i - simo valorN =Nmero total de valores na amostra
(2.1)
Para obter nossa medida do espalhamento das observaes em torno da mdia, que
o desvio padro, primeiro calculamos a diferena, ou desvio, de cada valor individual em re-
lao mdia amostraI:
Em seguida somamos os quadrados de todos os desvios e dividimos o total por N - 1. Oresultado dessas operaes a varincia do conjunto de observaes, representada pelo sm-bolo 8 2 :
3 O costume calcular a mdia com uma casa decimal a mais que os dados originais. No nossoexemplo, com quatro algarismos significativos, isso no tem importncia prtica.
22
-
Varincia anwstral:
2 1 ~ 2 1 ~( -)2V(X) =8 =-- ~di =-- k..J Xi- XN -1 i=l N -1 i=l
Xi = i - simo valorN =Nmero total de valores na amostrax =Mdia amostraI
(2.2)
Note que a varincia uma espcie de mdia dos quadrados dos desvios, s que o
denominador no o nmero total de observaes, N, e sim N -1. Para entender a razodessa mudana, devemos lembrar que as observaes originais, obtidas por amostragem
aleatria, eram todas independentes. Mesmo conhecendo os pesos de todos os 139 primeiros
caroos, no teramos como prever exatamente qual seria o peso do prximo caroo, o 140.
Usando a linguagem da Estatstica, dizemos que esse conjunto tem 140 graus de liberdade. um grupo de 140 valores totalmente independentes, em que um valor individual qualquerno depende dos valores restantes.
Com os desvios a situao um pouco diferente. Vejamos o que acontece quandosomamos os valores de todos eles (os somatrios todos so feitos de i = 1 at i = N ):
Ldi = L(xi -x)= LXi - LX = LXi -Nx.i i i i i
Lembrando que a mdia definida por fi =~ f Xi , podemos substituir o termo N fi peloN i=l
somatrio L Xi , e portantoi
(2.3)
Ou seja: os 140 desvios no so todos independentes. Se conhecermos 139 deles, o valorque falta estar automaticamente determinado: aquele que torna o total igual a zero.
A restrio expressada pela Equao 2.3, que vem do clculo da mdia, retira um grau
de liberdade do conjunto de desvios. J que, dos N desvios, s N -1 podem flutuaraleatoriamente, natural que o denominador na definio da varincia seja N -1, eno N.
O conceito de grau de liberdade muito importante. Mais tarde veremos exemplosem que vrias restries como esta so impostas a um determinado conjunto de valores. Sehouver p restries diferentes, o nmero de graus de liberdade se reduzir de N, o total de
23
-
elementos do conjunto, para v = N - p. Esse ltimo valor que ser usado como denomina-dor, numa mdia quadrtim semelhante Equao 2.2.
Em nossa amostra, onde x = 0,2024 g, a varincia , de acordo com a Equao 2.2,
S 2 =_1_ [(0,1188 _ 0,2024)2 + (0,2673 _ 0,2024)2139
+ ... + (0,1606 -0,2024)2]== 0,0132g 2
Enquanto a mdia tem as mesmas unidades que as observaes originais, as unidades da
varincia so, pela prpria definio, o quadrado das unidades de partida. Para que as
medidas de disperso e de posio tenham as mesmas unidades, costumamos substituir a
varincia pela sua raiz quadrada, que chamada de desvio padro. No nosso exemplo, o
desvio padro
s = ~(O,00132 g2 ) = 0,0363 g .
Desvio padro amostraI:~~~-~---'~~~~1
: ~ :
I : ~ ..: ~.::: ~ ~.:.: 1S 2 =Varincia das observaes na amostra
(2.4)
Exerccio 2.6Calcule a mdia e o desvio padro dos dez primeiros valores da Tabela 2.2 (de 0,1188 g at0,1409 g).
o desvio padro geralmente usado para definir intervalos em torno da mdia4 .
Em nossa amostra de 140 caroos, por exemplo, os limites do intervalo definido por um
desvio padro em torno da mdia so 0,2024 0,0363, ou 0,1661 g e 0,2387 g. A regio
compreendida entre esses dois valores (Figura 2.2) corresponde a 66,6% da rea totaldo histograma, o que significa que nela caem dois teros de todos os pesos observados.
J a regio definida por dois desvios padro tem como limites 0,1298 g e 0,2750 g, e
contm 96,8% da rea total. Dentro de certas suposies, que discutiremos adiante,
4 O desvio padro costuma ser calculado com duas casas decimais a mais que os dados de partida.Aqui tambm no estamos nos importando com esse detalhe.
24
-
esses intervalos amostrais podem ser utilizados para testar hipteses a respeito da
populao.
Estas contas por extenso foram feitas a bem da didtica. Voc no deve preocupar-se
com a perspectiva de calcular somatrios interminveis para poder determinar mdias e
desvios padro. Qualquer calculadora cientfica j vem da fbrica programada para realizartodas as operaes necessrias. Alm disso, existem vrios programas para microcomputado-
res, de fcil acesso, capazes de realizar no s estes como muitos outros clculos estatsticos.
Quanto mais cedo voc aprender a usar um desses programas, melhor. A estatstica lheparecer bem mais leve.
Exerccio 2.7Calcule a mdia e o desvio padro do conjunto de valores da Tabela 2.1 e determine os limitesdo intervalo.definido por dois desvios padro em torno da mdia. Compare com o intervalo de
confiana dado no texto para os valores da titulao.
Os valores x = 0,2024 g e 8 = 0,0363 g foram obtidos a partir dos 140 pesos indi-
viduais e portanto representam a amostra: so estimativas amostrais. Os valores que nos
interessam, porm, so os parmetros populacionais. Queremos saber quantos caroosexistem em todo o quilo de feijo, no numa pequena amostra.
Os estatsticos costumam empregar smbolos latinos para representar valores amos-
trais, reservando o alfabeto grego para os parmetros populacionais. Seguindo essa con-
veno, vamos representar a mdia e o desvio padro populacionais do nosso exemplo pelas
letras gregas J.1 e 0', respectivamente. O que podemos inferir a respeito desses valores, dis-
pondo apenas dos valores amostrais x e 8?
2.3 A distribuio normal
Suponhamos que os caroos cujos pesos aparecem na Tabela 2.2 sejam separados do restodo pacote, e passem a ser tratados como uma minipopulao de 140 elementos. J vimos,
na Tabela 2.3, que 5% desses elementos pesam entre 0,26 g e 0,28 g. Isso nos permite
dizer que a probabilidade de retirarmos aleatoriamente um caroo com o peso na faixa
0,26 - 0,28 g exatamente 5%. Temos condies de fazer essa afirmao porque conhe-cemos a distribuio exata das freqncias dos pesos nessa pequena populao. Podera-
mos fazer o mesmo com um caroo retirado ao acaso do pacote de um quilo, ou seja, da pr-pria populao original, se conhecssemos exatamente a distribuio populacional, e no
25
-
UUiH1:00 as co~sas funcionam normzdrnente
somente a amostraI. Infelizmente, para isso seria necessrio pesar todos os caroos, um
por um.
Imagine agora que tivssemos nossa disposio um modelo que fosse adequadopara a distribuio dos pesos de todos os caroos do pacote. Nesse caso, no precisaramos
mais pesar cada caroo para fazer inferncias sobre a populao. Poderamos tirar nossas
concluses do prprio modelo, sem ter de fazer nenhum esforo experimental a mais.
Esta idia - usar um modelo para representar uma dada populao - o tema
central deste livro. Ela estar presente, implcita ou explicitamente, em todas as tcnicas
estatsticas que vamos discutir. Mesmo que em certos casos a gente no diga expressamente
qual o modelo adotado, pelo contexto voc saber do que estamos falando. claro que nossasinferncias a respeito da populao s podero estar corretas se o modelo escolhido for
vlido. Em qualquer situao, porm, o procedimento que devemos seguir ser sempre o
mesmo:
Postular um modelo para representar os dados extrados da populao na qual estamos
interessados;
Verificar se essa representao satisfatria;
Nesse caso, tirar as concluses apropriadas; caso contrrio, trocar de modelo e tentar
novamente.
Um dos modelos estatsticos mais importantes - talvez o mais importante - a
distribuio normal (ou gaussiana), que o famoso matemtico Karl F. Gauss props no inciodo sculo XIX, para calcular probabilidades de ocorrncia de erros em medies. Tantos
foram - e continuam sendo - os conjuntos de dados que podem ser bem representados peladistribuio normal, que ela passou a ser considerada o comportamento natural de qualquer
tipo de erro experimental: da o adjetivo normal. Se alguma vez se constatasse que adistribuio dos erros no seguia uma gaussiana, a culpa era jogada na coleta dos dados.Depois ficou claro que existem muitas situaes experimentais em que a distribuio nor-
mal de fato no " vlida, mas ela permanece sendo um dos modelos fundamentais da
estatstica.
Muitos dos resultados que apresentaremos daqui em diante s so rigorosamente
vlidos quando os dados obedecem distribuio normal. Na prtica, isto no uma res-
trio muito sria, porque quase todos os testes que veremos continuam eficientes na pre-
sena de desvios moderados da normalidade.
26
-
2.3 (a) Como calcular probabilidades de ocorrncia
Uma distribuio estatstica uma funo que descreve o comportamento de uma varivel
aleatria. Uma varivel aleatria uma grandeza que pode assumir qualquer valor dentro
do conjunto de valores possveis para o sistema a que ela se refere, s que cada valor dessestem uma certa probabilidade de ocorrncia, governada por uma determinada distribuio de
probabilidades. Se tivermos como descobrir ou estimar qual essa distribuio, poderemoscalcular a probabilidade de ocorrncia de qualquer valor de interesse. Ou seja: teremos umamodesta bola de cristal estatstica, que poderemos usar para fazer previses. Logo mais
veremos como fazer isso com a distribuio normal.
A distribuio normal uma distribuio oontnua, isto , uma distribuio em que a
varivel pode assumir qualquer valor dentro de um intervalo previamente definido. Para
uma varivel normalmente distribuda, o intervalo (-00 +00), o que significa que ela podeassumir, pelo menos em princpio, qualquer valor real.
Uma distribuio contnua da varivel x definida pela sua densidade de
probabilidade f(x), que uma expresso matemtica contendo um certo nmero deparmetros. Na distribuio normal os parmetros so, por definio, apenas dois: a mdia ea varincia populacionais (Equao 2.5).
Para indicar que uma varivel aleatria x se distribui normalmente, com mdia J1 e
varincia (J"2, empregaremos a notao x ::: N (JI, (J"2 ), onde o sinal ::: pode ser lido como"distribui-se de acordo com". Se x tiver mdia zero e varincia igual a um, por exemplo,
escreveremos x ~ N (0,1). Nesse caso, diremos tambm que x segue a distribuio normalpadro (ou padronizada).
Distribuio lrormal:
-(x-J1f1 --f(x )dx - r:::- e 20" 2 dxa...;2n
f(x )=Densidade de probabilidade da varivel aleatria xJ.1 = Mdia populacional
a 2 =Varincia populacional
27
(2.5)
-
Quando as coisas funcJonam norma~mente
A Figura 2.3 mostra a famosa curva em forma de sino que o grfico da densidade
de probabilidade de uma distribuio normal padro,
_x 21 -f(x)= - e 2 5 (2.5a)
Note que a curva perfeitamente simtrica em torno do ponto central, que a
mdia J..l (aqui, igual a zero). O valor da densidade mximo sobre a mdia, e cairapidamente quando nos afastamos dela, em ambas as direes. A trs desvios padro
de distncia da mdia, a densidade de probabilidade praticamente reduz-se a zero.
So caractersticas parecidas com as que vimos no histograma dos 140 caroos, na
Figura 2.2.
O produto f(x )dx , por definio, a probabilidade de ocorrncia de um valor davarivel aleatria no intervalo de largura dx em torno do ponto x. Em termos prticos, isso
significa que, ao extrairmos aleatoriamente da populao um valor de x, as chances de que
esse valor esteja no intervalo de largura infinitesimal que vai de x a x + dx so dadas porf(x )dx . Para obter probabilidades correspondentes a intervalos finitos, que so os nicoscom sentido fsico, temos de integrar a densidade de probabilidade entre os limites
apropriados. A integral a rea sob a curva f(xJ entre esses limites, o que equivale a dizerque a Figura 2.3 tambm um histograma. Como a varivel aleatria agora contnua, as
probabilidades passam a ser calculadas por integrais, e no mais por somatrios. Essa
formulao terica torna automaticamente nula a probabilidade de se observar
exatamente (no sentido matemtico do termo) um determinado valor, j que issocorresponderia a fazer dx igual a zero. Para uma distribuio contnua, portanto, no fazdiferena se o intervalo de que estamos falando aberto ou fechado. A probabilidade de
que a ::::; x ::::; b igual probabilidade de que a < x < b:
bP(a < x < b) = P(a ::::; x ::::; b) = f f( xJdx
a
= Probabilidade de que o valor da varivel aleatria de densidade deprobabilidade f(xJ seja observado no intervalo [a, b].
28
-
0,6
0,5
0,4
~ 0,3~
0,2
0,1
0,0-4 -3 -2 -1
2 3 4
X
Figura 2.3 Distribuio de freqncias de uma varivel aleatria x ~ N(O, 1).Note que x o afastamento em relao mdia (que zero), em nmero dedesvios padro.
Como vemos na Figura 2.3, a maior parte da rea sob uma gaussiana est contida no
intervalo definido por um desvio padro em torno da mdia, e praticamente toda ela est
situada entre J1 - 30' e J1 + 3a . Para obter os valores numricos correspondentes a esses
fatos, integramos, entre os limites apropriados, a expresso de f(x) dada pela Equao 2.5:
ji+aP(u - a < x < J1 + a) = f f( x )dx = 0,6826 (isto , 68,26%);
ji-a
ji +3aP(u - 3a < x < J1 + 3a) = f f(x)dx = 0,9973 (99,73%).
ji-3a
Calculando integrais semelhantes, podemos obter as probabilidades correspondentes a
quaisquer limites de interesse. Na prtica, felizmente, no precisamos calcular integral
nenhuma, porque podemos consultar na Tabela A.l (pgina 392) os valores das integraispara vrios intervalos de uma varivel z ~ N (O, 1 ). Apesar de corresponderem distribuio padro, com mdia zero e varincia um, esses valores podem ser usados para
fazermos inferncias a respeito de qualquer distribuio normal.
Para explicar como se utiliza a Tabela A.l, precisamos introduzir o conceito de padro-
~o. Por definio, padronizar uma varivel aleatria x de mdia J1 e varincia a 2 cons-truir a partir dela uma nova varivel aleatria z, cujos valores so obtidos subtraindo-se decada valor de x a mdia populacional e dividindo-se o resultado pelo desvio padro:
29
-
Varivel1Wrmalpadronizada:
zx-J.1
a(2.6)
x = Varivel aleatria com distribuio Neu, (j2)z = Varivel aleatria com distribuio N(O,l)
Para dar um exemplo, vamos admitir que o peso de um caroo de feijo se distribuanormalmente, com J.1 = 0,2024 g e a = 0,0363 g. Com isto estamos fazendo duas suposies
questionveis:
Que os pesos seguem uma distribuio normal;
Que os parmetros populacionais so iguais aos valores que calculamos para a amostra.
Na verdade, estamos tentando descrever os dados experimentais com nosso primeiro modelo.
Chegar a hora de nos perguntarmos se ele adequado. Por enquanto, vamos admitir quesim.
o peso padronizado ser simplesmente, de acordo com a Equao 2.6,
x - 0,2024gz =-----
0,0363g
onde x o peso de um caroo. Como o numerador e o denominador tm as mesmas unidades,
z adimensional.
o valor numrico de z representa o afastamento do valor de x em relao mdia
populacional J.1, medido em desvios padro, o que fica claro quando reescrevemos a Equao
2.6 como x = J.1 + za . Fazendo z = - 2 , por exemplo, temos x = J.l. - 2a , ou seja, o valor dex est dois desvios padro abaixo da mdia. No nosso exemplo, o peso do caroo
correspondente a z = - 2 seria x =0,2024g - 2 x 0,0363g =0,1298 g .
Exerccio 2.8Use os resultados do Exerccio 2.7 para padronizar (no sentido estatstico que acabamos dever) o resultado de uma titulao. Que concentrao seria obtida numa titulao cujoresultado estivesse 2,5 desvios padro acima da mdia?
o efeito da padronizao torna-se evidente quando utilizamos a definio de varivelpadronizada para substituir x por z, na expresso geral da distribuio normal. Da Equao
30
-
2.6 temos x = J.1 + z(J , como j vimos, e conseqentemente dx = (J dz . Substituindo estasduas expresses na Equao 2.5, temos
-(/l+za-/lff(x )dx = ~ e 2(}"2 a dz .
(Jv2n
Com a eliminao de J.1 e (J , essa expresso se reduz a_Z2
1 -f(z )dz = r;;- e 2 dz ,'\j2n
onde escrevemos f(z )dz do lado esquerdo, porque a expresso agora uma funo de z, e node x. A equao ficou idntica Equao 2.5a. A padronizao simplesmente alterou a escalae deslocou a origem do eixo da varivel aleatria, transformando a varivel original x, que se
distribua de acordo com N (Jl, ( 2 ), numa nova varivel z que segue a distribuio padro,z ::::: N (O, 1 ). Como essa transformao no depende dos valores numricos de J.1 e de (J,sempre poderemos usar a distribuio normal padro para discutir o comportamento de uma
distribuio normal qualquer.
2.3 (b) Como usar as caudas da distribuio normal padro
A Tabela A.l contm, para valores de z que vo de 0,00 a 3,99, o que se chama de rea dacauda ( direita) da distribuio normal padro. A primeira coluna d o valor de z at aprimeira casa decimal, enquanto a linha superior da tabela d a segunda casa. Para saber a
rea da cauda correspondente a um certo z temos de procurar na tabela o valor localizado na
interseo da linha e da coluna apropriadas. O valor correspondente a z = 1,96, por exemplo,
est na interseo da linha referente a z = 1,9 com a coluna encabeada por 0,06. Esse
valor, 0,0250, a frao da rea total sob a curva que est localizada direita de z =1,96. Como a curva simtrica em torno da mdia, uma rea idntica est situada
esquerda de z = - 1,96 na outra metade da gaussiana (Figura 2.4). A soma dessas duascaudas, a da direita e a da esquerda, d 5% da rea total. Da conclumos que os 95%restantes esto entre z =- 1,96 e z = 1,96. Se extrairmos aleatoriamente um valor de z, h
uma chance em cada vinte (5%) de que esse valor fique abaixo de - 1,96, ou acima de 1,96.Nas outras dezenove vezes a probabilidade de que ele esteja no intervalo [-1,96, 1,96].
Aceitando o modelo normal como uma representao adequada da distribuio popu-lacional dos pesos dos caroos, podemos usar a Tabela A.l, juntamente com os valores dos
31
-
uu~an~ao as coisas funcionam normalmente
parmetros amostrais, para responder a questes sobre a probabilidade de ocorrncia de
valores de interesse. Por exemplo:
Qual a probabilidade de um caroo retirado ao acaso pesar entre 0,18 g e 0,25 g?
Em primeiro lugar, precisamos padronizar os valores dos pesos:
z = O,18g - 0,2024g = _621 00363 ', g
z = O,25g - 0,2024g =1 312 00363 ', g
Com isto a pergunta no se refere mais aos pesos, e sim a z. O que queremos saber agora
"qual a probabilidade de z cair no intervalo [-0,62, 1,31 ]?"
432o-1
r",/ : \.... /" \/ \
/ \ \
I \ .l .... \ ..: ...: \
....... /. ..... \ ...../ \I \/ \
.. .. 1". .. A .. I \
! \I \
..:../. .. ... ....\.. i .....
-2
0.6
0.5
0.4
~ 0.3~
0.2 .
0.1
0.0-4 -3
z
Figura 2.4 Intervalo simtrico em torno da mdia, contendo 95% da rea totalsob a curva da distribuio normal padro.
Essa probabilidade corresponde rea situada entre os limites indicados pela seta
na Figura 2.5. Ela a rea total, que um, menos as reas das duas caudas, a que fica
acima de 1,31 e a que fica abaixo de - 0,62. A da direita podemos ler diretamente na Tabela
A.l, procurando o valor correspondente a z = 1,31, que 0,0951. A rea da cauda daesquerda no pode ser tirada diretamente da tabela, porque ela no contm valores
negativos. No entanto, por causa da simetria da curva, a rea que fica abaixo de - 0,62 temde ser igual que est localizada acima de 0,62. Encontramos assim o valor 0,2676.
32
-
0.6
0.5
0.4
~ 0.3
0.2
0.1
0.0-4 -3 -2 -1 O
z
3 4
Figura 2.5 rea correspondente a P(-0,62 < z < 1,31).
Subtraindo da rea total as reas das duas caudas, temos finalmente a probabili-
dade desejada: (1,0 - 0,0951 - 0,2676) = 0,6373. A resposta nossa questo inicial, portanto, que 63,73% dos caroos (cerca de dois teros) devem pesar de 0,18 g a 0,25 g. No devemosnos esquecer, porm, de que essa resposta se baseia na validade de nossas duas suposies: a
de que a distribuio dos pesos dos caroos normal e a de que os parmetros populacionais
so iguais aos valores amostrais.
Exerccio 2.9(a) Qual a probabilidade de um caroo pesar mais de 0,18 g?(b) Defina os pesos limites de um intervalo que contenha 95% dos caroos.(c) Sua resposta para o Exerccio 2.2 pode ser transformada numa estimativa do peso mdio
de um caroo. Com base no que vimos at agora, quais as chances de voc encontrar um
caroo com um peso maior ou igual a esse?
Exerccio 2.10A rea da cauda esquerda de um ponto chamada de probabilidade cumulativa desse ponto,e representa a probabilidade de que o valor observado para a varivel aleatria seja nomximo igual ao valor definido pelo ponto. As probabilidades cumulativas vo ser utilizadas
no prximo captulo, quando fizermos anlises baseadas nos chamados grficos normais. Usea Tabela A.l para calcular as probabilidades cumulativas dos seguintes valores numadistribuio normal:
(a) - 00; (b) J.1; (c) J.1- a; (d) J.1 + a; (e) + 00.Que aspecto deve ter a curva de probabilidades cumulativas de uma distribuio normal?
33
-
OUiZU1(10 as coisas ftH1Cionam normalmente
o histograma da Figura 2.2 tem uma aparncia bastante simtrica. primeiravista, no d para perceber nele nada que realmente contradiga a hiptese de que a amostra
tenha vindo de uma populao normal.
Uma maneira de testar quantitativamente se essa hiptese adequada comparar
as freqncias observadas com as freqncias previstas pela teoria. Como nossa amostra
consiste em um nmero razovel de observaes (140), podemos imaginar que ela seja umaboa aproximao da distribuio populacional dos pesos dos caroos de feijo. Se a populao-os pesos de todos os caroos no pacote de 1 kg - se desviar muito da normalidade, devemos
ter condies de descobrir alguma evidncia desse comportamento nas freqncias amos-
trais. Ou seja, elas devem afastar-se das freqncias previstas pela distribuio normal.
Usando os valores amostrais x = 0,2024 g e s = 0,0363 g para determinar os limites
dos intervalos [x - s, x + s], [x - 2s, x + 2s] e [x - 3s, x + 3s], verificamos que elescorrespondem, respectivamente, a 66,6%, 96,8% e 100% da rea total do histograma
amostraI. Para uma varivel aleatria realmente normal, os intervalos populacionais
correspondentes, Lu - a, /1 + a], [/1 - 20", /1 + 2a] e [/1 - 3a, J1 + 3a], contm 68,3%, 95,4% e99,7% de todas as observaes. Esses valores esto em tima concordncia com os valores
amostrais. A pior diferena no chega a 2%. A julgar por isso, podemos continuar aceitandoa distribuio normal para descrever nossa amostra. A comparao, porm, subjetiva. Noespecificamos de quanto deveria ser a diferena para que passssemos a rejeitar a hiptesenormal.
A discusso de critrios mais objetivos foge ao mbito deste livro. No captulo 5 apre-sentaremos um teste alternativo, em que precisaremos decidir se determinado grfico sufi-
cientemente retilneo. Como teremos de tomar a deciso olhando a disposio dos pontos no
grfico, esse teste tambm encerra sua carga de subjetividade, e desse ponto de vista norepresenta um avano em relao ao primeiro.
2.3 (C) Porque a distribuio normal to importante?
Felizmente existe uma boa razo para no nos preocuparmos demais com a ausncia (nestelivro) de um teste rigoroso para verificar se a distribuio normal: as tcnicas estatsticasque apresentaremos so robustas em relao a desvios da normalidade. Mesmo que a popu-lao de interesse no se distribua normalmente, as tcnicas podem ser usadas, porque con-
tinuam aproximadamente vlidas.
34
-
Essa robustez vem, em ltima anlise, do teorema do limite central, um dos teo-remas fundamentais da estatstica, que diz essencialmente o seguinte:
Se a flutuao total numa certa varivel aleatria for o resultado da soma das
flutuaes de muitas variveis independentes e de importncia mais ou menos igual,
a sua distribuio tender para a normalidade, no importa qual seja a natureza dasdistribuies das variveis individuais.
o exemplo clssico das implicaes do teorema do limite central o jogo de dados. Adistribuio das probabilidades de observarmos um certo nmero de pontos, jogando umdado no viciado, mostrada na Figura 2.6(a). Os valores possveis so os inteiros de 1 a 6, claro, e se o dado for honesto todos eles tm as mesmas chances de ocorrer, levando a uma
distribuio que no tem nada de normal.
Suponhamos agora que sejam jogados cinco dados, ao invs de um, ou que o mesmodado seja jogado cinco vezes consecutivas, e a mdia dos cinco valores observados seja cal-culada. Essa mdia uma funo de cinco variveis aleatrias, cada uma se distribuindo
independentemente das demais, j que o valor observado para um certo dado ou jogada noafeta os valores observados para os outros. Alm disso, o nmero de pontos de cada dado
contribui com o mesmo peso para o resultado final - nenhuma das cinco observaes mais
importante que as outras quatro. As duas premissas do teorema do limite central, (1) flu-tuaes independentes e (2) de igual importncia, so portanto satisfeitas, e o resultado apa-rece na Figura 2.6(b): a distribuio das mdias j se parece com a distribuio normal.Quando o nmero de observaes que compem o resultado final cresce, a tendncia para anormalidade torna-se mais pronunciada, como mostra a distribuio da mdia dos pontos dedez dados [Figura 2.6(c)].
Muitas vezes, o erro final de um valor obtido experimentalmente vem da agregao
de vrios erros individuais mais ou menos independentes, sem que nenhum deles seja domi-nante. Na titulao, por exemplo, lembramos o erro de leitura na bureta, o erro causado por
uma gota que fica na pipeta, o erro devido a uma tonalidade diferente no ponto final, e assim
por diante. Com os caroos de feijo mais ou menos a mesma coisa: o peso de cada umdepende do grau de desidratao, da ao das pragas, da prpria carga gentica do feijo,etc. A priori, no temos motivo para imaginar que esses erros - tanto nos feijes quanto natitulao - sigam distribuies normais, mas tambm no devemos supor que eles sejamdependentes uns dos outros, ou que um deles seja muito mais importante que os demais. Oteorema do limite central nos diz ento que o erro final se distribuir de formaaproximadamente normal, e tanto mais normal quanto mais numerosas forem as fontes de
35
-
Quando as coisas funcionam norma~mente
erros individuais. Como situaes desse tipo so muito comuns na prtica, podemos nos dar
por satisfeitos com a hiptese normal na maioria dos casos, e deixar para fazer testes mais
sofisticados quando existir muita evidncia em contrrio. Talvez o teorema do limite central
explique o entusiasmo de 8ir Francis Galton, o inventor da regresso linear: "Dificilmenteexistir algo to impressionante para a imaginao como a admirvel forma da ordem
csmica expressa pela Lei da Freqncia do Erro (isto , a distribuio normal). Se os gregosa tivessem conhecido, certamente a teriam personificado e endeusado."
I I I I I I.2 3
(a) Um dado4 5 6
(b) Cinco dados
____......",.........11.......11&_11........11 ......-...-_2 3 4 5 6
(c) Dez dados
Figura 2.6 Distribuio de freqncias para um jogo de dados no viciados.
2.3 (d) Como calcular um intervalo de confiana para a mdiao principal motivo para querermos um modelo a perspectiva de us-lo para fazer infe-
rncias sobre os parmetros populacionais. Esqueamos por um momento que foram pesados
140 caroos. Suponhamos q