INTRODUÇÃO À BIOESTATÍSTICA · estatística descritiva, que cuida basicamente da organização...

INTRODUÇÃO À BIOESTATÍSTICA

NOTAS DE AULA

Para aprender, primeiramente você precisa desejar ser ensinado. - Reeves

PROFESSOR: CARLOS FEITOSA LUNA

SUMÁRIO

STATÍSTICA .....................................................................................2

........................................................................................16

.........................................................................................................53

ILIDADE .....................................................................75

......................................................................................84

..................................................................................................................96

...........................................................................................110

.....................................................................................139

.....................................................................................................................149

I. INTRODUÇÃO À E

II. ESTATÍSTICA DESCRITIVA

III. PROBABILIDADE

IV. DISTRIBUIÇÃO DE PROBAB

V. ESTATÍSTICA INFERENCIAL

VI. ESTIMAÇÃO

VII. TESTES DE HIPÓTESES

VIII. ANÁLISE DE REGRESSÃO

IX. TABELAS

1

I. INTRODUÇÃO À ESTATÍSTICA

2

“Podemos considerar a Estatística como um conjunto de métodos e processos

quantitativos que serve para estudar e medir os fenômenos coletivos”. O objetivo de reunir dados é o de fornecer informações sobre as características de

grupos de pessoas ou coisas. As informações têm por objetivo “conhecer o problema” e, desta forma, servir de base para a escolha dos procedimentos mais adequados para resolvê-lo.

Quando um cardiologista, por exemplo, solicita do seu paciente informações referentes ao seu histórico familiar sobre doenças cardiovasculares, DCV, está levantando um dado que já mostrou, a partir de dados referentes a outros pacientes, apresentar uma possível relação com o seu prognóstico cardiológico. Essa e outras informações, como tipo de alimentação, exposições a tensões e sedentarismo, irão auxiliar a compor um quadro dos fatores que podem contribuir para melhorar ou prejudicar a saúde do paciente. Essas informações são de natureza estatística, aplicas, neste caso, à medicina.

Evidentemente, trata-se de fornecer a informação da forma mais inteligível e completa possível. Desta forma, são utilizadas rotinas e meios que permitam um bom atendimento das informações, organizando os dados. A organização de vários grupos de dados dá origem aos bancos de dados.

Define-se como primeiro (porém não mais importante) objetivo da estatística tornar a informação clara e precisa ao receptor, valendo-se do ferramental disponível. Atualmente, os recursos automáticos e gráficos da microcomputação são ferramentas indispensáveis para o tratamento da informação e, por extensão, para a estatística.

1. CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA

1.1 CONCEITOS E OBJETIVOS

1.2 HISTÓRICO

O desenvolvimento da estatística, como ciência, é relativamente recente. Entretanto,

algumas, tarefas do trabalho estatístico foram já realizadas pelo homem há milhares de anos. É o caso, por exemplo, dos levantamentos populacionais, ou Censos, cuja existência remonta às cidades estado gregas, e que tinham como principal objetivo a verificação da capacidade militar delas próprias. Deste modo, os primeiros registros estatísticos eram de pessoas (pela finalidade, inclusive, contavam-se somente as do sexo masculino e em idade adulta), animais (principalmente cavalos) e armas. Tempo depois os governantes descobriram que o registro do numero de habitantes do seu estado tinha importância do ponto de vista fiscal, pois, se cada habitante era taxado com um determinado tributo, para estimar a receita total do estado era necessário dispor de informações sobre a população total. Por esta razão, a etimologia do termo estatística está associada à raiz stat (ou “estat”), e o seu significado estrito seria “coisas do estado” ou “notícias do estado” sentido no qual o termo foi pela primeira vez utilizado documentalmente, em 1749, por Achenwall, referindo-se à coleção de informações acerca do Estado.

3

Em termos de registros mais concretos, Schott cita a primeira estatística da população em Nüremberg, em 1449. No século XVI, surgem descrições estatísticas na Itália e Espanha. Entre 1624 e 1640 são publicadas as Descrições estatísticas de Jan de Laet, intituladas “Republicae Elzevirianae”. Mais próximo das estatísticas de saúde, e a primeira obra neste sentido que se tem registro é a obra “Natural und political observations upon the bills of mortality”, de John Graunt, no ano de 1662. Anos mais tarde, em 1693 é registrada a publicação da primeira tabela de mortalidade, por Halley. A partir do final da primeira metade do século XVIII, são efetuados censos em várias cidades alemãs e, em 1749, inicia-se, na Suécia, o trabalho de levantamento estatístico demográfico com caráter regular. Em 1741, o dinamarquês Anchersen faz a primeira exposição estatística utilizando tabelas, que irão permitir a reorganização do trabalho de descrição de dados. Em 1782, em Giessen, Crone emprega pela primeira vez as representações gráficas. Em 1790, por mandato da Constituição, os Estados Unidos realizam seu primeiro censo populacional, que será repetido de dez em dez anos. Nos anos seguintes as nações mais desenvolvidas utilizam a estatística com regularidade. Em 1834 é fundada a Statistical Society, em Londres. Na Alemanha, nos anos subseqüentes, são efetuados diversos tipos de censos (industriais, profissionais, comerciais, etc.). Em 1885 é fundado o Instituto Internacional de estatística. É necessário notar que em todos esses estudos, predomina a estatística de observação, ou estatística descritiva, que cuida basicamente da organização das informações.

A estatística ganha um novo status quando aliada ao ramo da matemática, conhecido como Teoria das Probabilidades, e passa então a tratar dos erros decorrentes da chamada ciência indutiva1. A partir desse momento, torna-se uma ferramenta importante nos ramos da ciência em que este mecanismo de conhecimento é empregado, e pode ser observada nos currículos de cursos diversos, tais como, Medicina, Engenharia, Economia, Administração, Física, Psicologia e outros.

Bioestatística é a estatística aplicada às ciências que estudam aspectos vitais

(referentes à vida), como a Medicina, Biologia, Odontologia ou Psicologia. Na medicina, especificamente, pode ser entendida em dois ambientes. O primeiro,

referente ao levantamento de informações, como registro de doenças, surtos, endemias, epidemias, e de registros de qualidade de vida, como condições de alimentação, sanitárias, habitacionais, de prevenção a doenças, educação, etc. Denomina-se este ambiente de Ambiente Macro, e tem a ver fundamentalmente com a identificação, a planificação e a execução de ações de Saúde Pública. Neste caso, constitui-se num ferramental fundamental para cadeiras do curso de medicina como Epidemiologia, Medicina Preventiva, Organização de Sistemas de Saúde, etc.

O segundo ambiente refere-se à elaboração de experiências e pesquisa científica, tais como testes de vacinas, avaliação de terapêuticas e tratamentos, testes de medicamentos etc. Denomina-se este ambiente de Ambiente Micro, e tem a ver, naturalmente, com a pesquisa laboratorial e científica. Relaciona-se principalmente por esse motivo com as disciplinas de Imunologia, FIsiologia e Farmacologia, dentro do ciclo de formação básica do médico, e

1 O método indutivo, que é a base de uma ciência indutiva, busca a construção de leis gerais a partir do conhecimento de uma parcela do universo. Por exemplo: observando algumas características de um grupo de fumantes, assumir que essas características são típicas de todos os fumantes.

1.3 BIOESTATÍSTICA

4

com todas as demais áreas clínicas, em maior ou menor medida, como Pediatria, Cardiologia, Neurologia, Pneumologia, Psiquiatria, Gastroenterologia, etc., toda vez que é indispensávelà compreensão da grande maioria das publicações de artigos científicos nessas especialidades.

A Bioestatística, pela sua importância para a pesquisa médica, é disciplina obrigatória da maioria das especialidades de pós-graduação em medicina.

1.4 POPULAÇÃO E AMOSTRA

Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos

nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a "população" e a "amostra".

POPULAÇÃO (ou Universo) É o conjunto dos seres, objetos ou informações que interessam ao estudo de um

fenômeno coletivo segundo alguma(s) característica(s). É, portanto, um conjunto definido de informações relativas a qualquer área de interesse, podendo, quanto ao número de elementos, ser: finita (tamanho N) ou infinita. Assim, a população do bairro da Cidade Universitária é exemplo de uma população finita, já o número e pacientes internados no Hospital das Clínicas da Universidade Federal de Pernambuco é exemplo de uma população considerada infinita ou impossível de enumerar.

Na maioria das vezes, não é conveniente, ou mesmo possível realizar o levantamento dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da população, isto é amostramos.

AMOSTRA É um subconjunto não vazio ou parte da população. Duas considerações devem ser

feitas sobre o estudo amostral dos fenômenos. Uma diz respeito aos cuidados que se deve tomar para assegurar que a amostra seja representativa da população. Para atender a essa exigência, deve-se selecionar os elementos de forma aleatória, de modo que todo e qualquer elemento da população tenha a mesma chance de participar da amostra. A outra exigência diz respeito à precisão dos dados coletados, buscando minimizar os erros que poderiam induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado o tamanho da amostra, e denotado por n.

Parâmetro, Estimador e Estimativa

a) Uma característica numérica estabelecida para toda uma população é denominada parâmetro.

b) Uma característica numérica estabelecida para uma amostra é denominada estimador.

c) O valor numérico assumido pelo estimador numa determinada amostra é denominada estimativa.

5

Por exemplo: no fenômeno coletivo eleição para prefeito do município de João Pessoa, a população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 1.000 eleitores selecionados em todo o município. Um estimador é a proporção de votos do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa.

Em aplicações efetivas, onde aplica-se o processo de amostragem, o número de

elementos componentes de uma amostra é, geralmente, bastante reduzido em relação ao número de elementos componentes da população.

- PROCESSOS ESTATÍSTICOS DE ABORDAGEM

Quando solicitados a estudar um fenômeno coletivo podemos optar entre os seguintes processos estatísticos:

a) CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes da população.

Propriedades Principais do Censo: Admite erro processual zero e tem confiabilidade 100% - É caro.

É lento - É quase sempre desatualizado - Nem sempre é viável. b) AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base

em um estimador através do cálculo das probabilidades.

Propriedades Principais da Estimação: Admite erro processual positivo e tem confiabilidade menor que 100% - É barata - É rápida - É atualizada - É sempre viável.

No sentido de disciplina, a Estatística ensina métodos racionais para a obtenção de

informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através de alguma(s) característica(s) de valores numéricos observados.

Desta forma, a Estatística pode ser dividida em duas grandes áreas: Descritiva e

Inferencial. I) ESTATÍSTICA DESCRITIVA - é a parte da Estatística que tem por objetivo

descrever os dados observados. São atribuições da Estatística Descritiva: a) A organização dos dados. b) A redução dos dados. c) A representação dos dados. d) A obtenção de algumas informações que auxiliam a descrição do fenômeno observado.

• A organização dos dados consiste na ordenação e crítica quanto à correção dos

valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc. • Redução dos dados - O entendimento e compreensão de grande quantidade de

dados através de simples leitura de seus valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experimentado pesquisador, portanto deveremos tabular os dados.

6

• A representação dos dados - Os dados estatísticos podem ser mais facilmente compreendidos quando apresentados através de uma representação gráfica, a qual permite uma visualização instantânea de todos os dados. Os gráficos quando bem representativos, tornam-se importantes instrumentos de trabalho.

• A obtenção de algumas informações que sumarizam os dados, facilitando a descrição dos fenômenos observados.

Isto encerra as atribuições da Estatística Descritiva.

II) ESTATÍSTICA INFERENCIAL (ou Indutiva) - é a parte da Estatística que tem

por objetivo obter e generalizar conclusões para a população a partir de uma amostra.

Complementando o processamento estatístico, no caso de uma estimação, a

Estatística Indutiva estuda os parâmetros a partir do uso de estimadores usando o cálculo das probabilidades, elemento este que viabiliza a inferência estatística.

Em resumo, um estudo estatístico completo que recorra às técnicas de Estatística Inferencial irá envolver também, direta ou indiretamente, tópicos de Estatística Descritiva, Cálculo das Probabilidades e Amostragem. Logo, para se desenvolver um curso completo e razoável de Estatística, todos esses assuntos devem ser abordados. No diagrama abaixo está indicado como essas áreas estão relacionadas.

Amostragem

Estatística Descritiva

Cálculo das Probabilidades

Estatística Inferencial

Figura 1: Esquema Geral de um Curso de Estatística - DADOS e VARIÁVEIS ESTATÍSTICAS

Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar com grande quantidade de valores numéricos resultantes de um censo ou de uma amostragem. Estes valores numéricos são chamados dados estatísticos.

As informações ou dados característicos dos fenômenos ou populações são denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas características particulares, podem ser classificadas como: Quantitativas e Qualitativas.

7

QUANTITATIVAS - São aquelas que podem ser expressas em termos numéricos. Em geral são as resultantes de medições, enumerações ou contagens. São subdivididas em contínuas e discretas.

- Contínuas - são aquelas que podem assumir qualquer valor num certo

intervalo de medida, podendo ser associados ao conjunto dos números reais, ou seja, seus valores possíveis formam um conjunto não enumerável. Entre outras, enquadram-se nesta categoria as medidas de tempo, comprimento, espessura, área, volume, peso e velocidade.

- Discretas (ou descontínuas) - quando só podem assumir determinados valores num certo intervalo, podendo ser associadas ao conjunto dos números inteiros, ou seja, seus possíveis valores formam um conjunto finito ou enumerável. Em geral, representam números inteiros resultantes do processo de contagem, como o número de alunos por sala, de créditos por disciplinas, de pacientes atendidos diariamente num hospital, etc.

De modo geral, as medições dão origem as variáveis contínuas e as contagens ou

enumerações, as variáveis discretas. Designamos estas variáveis por letras latinas, em geral, as últimas: X, Y, Z.

QUALITATIVAS - Nem sempre os elementos de uma população são exclusivamente

contáveis. Muitas vezes, eles podem ser qualificados também segundo algumas de suas características típicas. Nesses casos, as variáveis podem ser agrupadas em nominais ou ordinais (por postos).

- Nominais - quando puderem ser reunidas em categorias ou espécies com idênticos atributos. Aqui se incluem os agrupamentos por sexo, área de estudo, desempenho, cor, raça, nacionalidade e religião.

- Ordinais - quando os elementos forem reunidos segundo a ordem em que aparecem dispostos numa lista ou rol. São típicos desta forma de agrupamento, as listas classificatórias de concursos e as tabelas de campeonatos.

Em geral, uma mesma população pode ser caracterizada por mais de um tipo de

variável. Assim os inscritos num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o sexo ou área de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.

8

2. FASES DO MÉTODO OU TRABALHO ESTATÍSTICO

Em linhas gerais, podemos distinguir na análise estatística as seguintes etapas:

Planejamento, Coleta, Crítica, Apuração e Exposição dos dados, além da análise dos dados.

PLANEJAMENTO

É o trabalho inicial de coordenação no qual define-se a população a ser estudada estatisticamente, formulando-se o trabalho de pesquisa através da elaboração de questionário, entrevistas, etc.

A organização do plano geral implica em obter respostas para uma série tradicional de perguntas, antes mesmo do exame das informações disponíveis sobre o assunto, perguntas que procuram justificar a necessidade efetiva da pesquisa, a saber:

- "quem", "o que", "sempre", "por que", "para que", "para quando".

Imaginemos, por exemplo, que a Biblioteca Central da UFPE tenha necessidade de

obter informações acerca dos usuários em potencial que utilizam-na. O primeiro trabalho da equipe encarregada da pesquisa, será evidentemente, o de

obter resposta para aquelas perguntas. Seriam então: - Quem deseja as informações? - O que devemos perguntar no questionário? - Será executada sempre? A pesquisa será periódica ou ocasional? - Por que desejam as informações? - Para que desejam as informações? - Quando deverá estar concluída a pesquisa? - Qual a época oportuna para a aplicação dos questionários? - Como aplicar o questionário? Ainda na fase do planejamento, temos: O EXAME DAS INFORMAÇÕES DISPONÍVEIS, ou seja, análise da reunião de

tudo que foi publicado sobre o assunto, obtendo-se relatórios sobre atividades semelhantes ou correlatas.

A DEFINIÇÃO DO UNIVERSO, isto é, saber qual o conjunto a ser pesquisado, distribuindo, classificando ou agrupando os elementos desse conjunto em populações, para permitir um trabalho mais fácil, mais lógico, mais racional.

O tipo de levantamento, CENSO ou AMOSTRAGEM, deverá ser decidido com a devida antecedência e a necessária análise das vantagens e desvantagens de um e de outro, em virtude do custo financeiro e do prazo determinado para a conclusão do trabalho.

COLETA DE DADOS Após cuidadoso planejamento e a devida determinação das características

mensuráveis do fenômeno coletivamente típico que se quer pesquisar, damos início à coleta dos dados numéricos necessários à sua descrição.

A coleta dos dados poderá ser feita de diversas formas. A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos e a precisão previamente estipulados. No seu planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes.

9

Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá

ser realizada mediante respostas a questionários previamente elaborados. Esses questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados, devidamente treinados.

Os dados ou informações representativas dos fenômenos ou problema em estudo podem ser obtidos de duas formas: por via direta ou por via indireta.

Por via direta - quando feita sobre elementos informativos de registro obrigatório (p. ex.: nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os dados são coletados pelo próprio pesquisador através de entrevistas ou questionários.

A coleta direta de dados, com relação ao fator tempo, pode ser classificada em: a) contínua, também denominada registro, é feita continuamente, tal como a de

nascimentos, óbitos, etc.;

b) periódica, quando feita em intervalos constantes de tempo, como os censos(de 10 em 10 anos), os balanços de uma empresa comercial, etc.;

c) ocasional, quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos

Por via indireta - quando é inferida de elementos conhecidos (coleta direta) e/ou

conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos via coleta direta.

CRÍTICA DOS DADOS Os dados colhidos por qualquer via ou forma e não previamente organizados são

chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito, devem ser "criticados", visando eliminar valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo.

A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação de somas de valores anotados.

APURAÇÃO OU PROCESSAMENTO DOS DADOS Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao

processamento adequado aos fins pretendidos. A apuração ou processamento dos dados pode ser manual ou eletrônica. Os processos e métodos estatísticos a que um conjunto de dados pode ser submetido serão nosso objeto de estudo nas seções seguintes.

10

EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS

Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser

apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas.

No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria dos casos, à simples apresentação dos dados, assim entendida a exposição organizada e resumida das informações coletadas através de tabelas ou quadros, bem como dos gráficos resultantes.

ANÁLISE DOS RESULTADOS

Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões.

11

3. O USO DE COMPUTADORES EM ESTATÍSTICA

Foi mencionado anteriormente que o desenvolvimento da indústria de

computadores deu grande impulso ao uso da Estatística. Vários programas computacionais de uso comum contém rotinas estatísticas incorporadas às suas funções básicas. É o caso das planilhas eletrônicas, usualmente pré-instaladas em computadores novos. Programas especificamente desenvolvidos para efetuar análises estatísticas são conhecidos como pacotes estatísticos. Existe um número considerável de pacotes, alguns voltados para análises mais comuns na área de humanidades, outros para a área de biomédicas; alguns são extremamente simples de se utilizar através de menus, outros pressupõem conhecimento de uma linguagem de programação específica ao programa. Qualquer que seja o programa a ser utilizado, três são as etapas que envolvem seu uso:

1. Entrada de Dados 2. Execução da Análise Estatística 3. Interpretação de Resultados A Entrada de Dados deve assumir certas convenções. Apesar de certos programas

terem rotinas desenvolvidas de forma a simplificar a criação do banco de dados, intrinsecamente o que se tem é a criação de uma matriz, em que cada linha corresponde a uma unidade experimental e cada coluna a uma variável.

Por unidade experimental, entende-se o elemento da população ou amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1, abaixo, observamos 50 unidades experimentais, os estudantes, nos quais foram observadas 14 variáveis. Assim, os dados podem ser representados por uma matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas não terão problema em visualizar esta situação. Assim, quando estudamos uma única variável, consideramos a coluna correspondente. Se estamos interessados em saber o comportamento desta variável em dois grupos diferentes, precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informação dos grupos.

A fase da execução da análise estatística pressupõe o conhecimento de como o programa que está sendo utilizado trabalha as informações. Torna-se assim importante se ter acesso ao manual do programa. A maioria dos programas tem rotinas de ajuda on-line.

Após as informações terem sido trabalhadas, vem a fase da interpretação dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que houver dúvida se o que foi calculado relaciona-se, de fato, à análise estatística desejada. Em seguida, dá-se a interpretação das características observadas a fim de ver se verificar se resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e certifique-se de ter executado a análise correta para os dados em questão. Em muitos casos, a fase de interpretação é a mais difícil e interessante, pois envolve o equacionamento das características apresentadas na análise com vistas a responder as questões inicialmente colocadas.

12

Tabela 1 – Informações de questionário estudantil – dados brutos

Id Turma Sexo Idade Alt Peso Filho Fuma Toler Exerc Cine OpCine TV OpTV1 A F 17 1,6 60,5 2 NAO P 0 1 B 16 R 2 A F 18 1,69 55 1 NAO M 0 1 B 7 R 3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 5 A F 19 1,58 55 1 NAO M 2 2 B 5 R 6 A M 19 1,76 60 3 NAO M 2 1 B 2 R 7 A F 20 1,6 58 1 NAO P 3 1 B 7 R 8 A F 18 1,64 47 1 SIM I 2 2 M 10 R 9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R

10 A F 17 1,64 58 2 NAO M 2 2 M 10 R 11 A F 18 1,72 70 1 SIM I 10 2 B 8 N 12 A F 18 1,66 54 3 NAO M 0 2 B 0 R 13 A F 21 1,7 58 2 NAO M 6 1 M 30 R 14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 17 A F 17 1,82 66 1 NAO P 3 1 B 10 N 18 A M 18 1,8 85,2 2 NAO P 3 4 B 10 R 19 A F 20 1,6 54,5 1 NAO P 3 2 B 5 R 20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 21 A F 21 1,7 60 2 NAO P 8 2 B 5 R 22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 24 A F 20 1,55 48 1 SIM I 0 1 M 28 R 25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 26 A F 19 1,54 57 2 NAO I 6 2 B 5 R 27 B F 23 1,62 63 2 NAO M 8 2 M 5 R 28 B F 18 1,62 52 1 NAO P 1 1 M 10 R 29 B F 18 1,57 49 2 NAO P 3 1 B 12 R 30 B F 25 1,65 59 4 NAO M 1 2 M 2 R 31 B F 18 1,61 52 1 NAO P 2 2 M 6 N 32 B M 17 1,71 73 1 NAO P 1 1 B 20 R 33 B F 17 1,65 56 3 NAO M 2 1 B 14 R 34 B F 17 1,67 58 1 NAO M 4 2 B 10 R 35 B M 18 1,73 87 1 NAO M 7 1 B 25 B 36 B F 18 1,6 47 1 NAO P 5 1 M 14 R 37 B M 17 1,7 95 1 NAO P 10 2 M 12 N 38 B M 21 1,85 84 1 SIM I 6 4 B 10 R 39 B F 18 1,7 60 1 NAO P 5 2 B 12 R 40 B M 18 1,73 73 1 NAO M 4 1 B 2 R 41 B F 17 1,7 55 1 NAO I 5 4 B 10 B 42 B F 23 1,45 44 2 NAO M 2 2 B 25 R 43 B M 24 1,76 75 2 NAO I 7 8 M 14 N 44 B F 18 1,68 55 1 NAO P 5 1 B 8 R 45 B F 18 1,55 49 1 NAO M 0 1 M 10 R 46 B F 19 1,7 50 7 NAO M 0 1 B 8 R 47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 48 B F 18 1,6 50 1 NAO P 2 1 B 5 R 49 B M 17 1,8 71 1 NAO P 7 0 M 14 R 50 B M 18 1,83 86 1 NAO P 7 7 M 20 B

13

EXERCÍCIOS

1. O que você entende por estatística?

2. Quais os dois conjuntos de dados fundamentais manipulados pela estatística?

3. Qual o conceito de amostra e suas principais características?

4. Como podemos garantir que uma amostra qualquer, extraída de uma população,

serve para um estudo?

5. Quais as vantagens de desvantagens de um censo e de uma amostra?

6. O que é um parâmetro?

7. O que você entende por variável?

8. Como se classificação as variáveis? Dê exemplos.

9. Quais as etapas de um trabalho estatístico? Explique cada uma.

10. Classifique em verdadeiro ou falso as seguintes afirmações:

a) Estatística é um conjunto de técnicas destinadas a organizar um conjunto de valores numéricos.

b) Sempre que estivermos trabalhando com números, deveremos utilizar a Inferência Estatística.

c) A Estatística Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou não, com a finalidade de conhecermos o fenômeno de interesse.

d) Qualquer amostra representa, de forma adequada, uma população. e) As técnicas estatísticas não são adequadas para casos que envolvam experimentos

destrutivos como, por exemplo, queima de equipamentos, destruição de corpos de provas, etc.

11. Para as situações descritas a seguir, identifique a população e a amostra

correspondente e discuta a validade do processo de inferência estatística para cada um dos casos.

a) Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200

mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em São Paulo, foram perguntadas a respeito da última vez que vacinaram seus filhos.

b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c) Para verificar a audiência de um programa de TV, 563 indivíduos foram

entrevistados por telefone com relação ao canal em que estavam sintonizados. d) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas

foram entrevistadas em Brasília.

12. Discuta para cada um dos casos abaixo, os cuidados que precisam ser tomados para garantir uma boa conclusão a partir da amostra.

a) Um grupo de crianças será escolhido para receber uma nova vacina contra

menigite. b) Uma fábrica deseja saber se sua produção de biscoitos está com o sabor previsto. c) Aceitação popular de um certo projeto do governo.

14

13. Classifique cada uma das variáveis abaixo em qualitativa (nominal/ ordinal) ou quantitativa

(discreta/ contínua): a) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são as

possíveis respostas para esta variável). b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de

não sabe). c) Perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte). d) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente

(valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). 14. Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as

informações da tabela 1, construa um banco de dados para os 50 indivíduos. Utilize algum método para validar a digitação.

15. Considerando o banco de dados criado no exercício anterior, construa as tabelas de

freqüências e os histogramas de cada variável e descreva os resultados.

16. Ainda considerando o banco de dados criado, divida a idade em três categorias (<18, 18 a 21 e >21 anos). Construa a tabela de freqüência e gráfico desta variável e refaça as análises da questão anterior estratificada por essa nova variável.

15

II. ESTATÍSTICA DESCRITIVA

16

1. DISTRIBUIÇÕES DE FREQUÊNCIAS

Os dados numéricos, depois de coletados são colocados em série e apresentados em

tabelas ou quadros. No estudo de uma variável (seja esta qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa idéia global sobre esses valores, ou seja, de sua distribuição.

Consideremos, para efeito de estudo, o quadro (banco de dados) apresentado abaixo, o qual apresenta indivíduos que foram contaminados pelo veneno de um certo tipo de inseto e submetidos a três tipos de tratamento. Neste está apresentado o número de identificação dos pacientes, a idade (em anos) do pacientes no momento da admissão, o tempo (em horas) gasto entre o contato com o inseto e a administração do tratamento, o tempo (em horas) entre a administração do tratamento e a recuperação, o tipo de tratamento administrado e a presença de coágulos no momento da admissão. QUADRO 1.1 – Indivíduos contaminados pelo veneno de um certo tipo de inseto e submetidos

a três tipos de tratamento.

No. idade Tempo Recuperação tratamento coágulos 2 9 42 39 I 0 3 33 53 46 I 1 4 30 52 45 I 0 5 11 46 42 I 0 6 34 59 51 II 0 7 27 53 46 I 1 8 10 44 40 I 1 9 21 58 50 II 1 10 36 54 47 I 1 11 35 55 47 I 0 12 31 10 4 II 1 13 32 9 3 II 0 14 21 3 2 II 0 15 31 9 3 II 0 16 40 20 11 III 1 17 39 12 5 II 1 18 31 9 3 II 1 19 28 7 3 II 0 20 24 3 1 II 0 21 21 1 2 II 1 22 39 17 8 III 1 23 38 30 22 III 1 24 46 13 11 III 1 25 47 13 12 III 1 26 54 18 16 III 0 27 56 30 23 III 1

17

Uma distribuição de freqüências pode ser apresentada nas seguintes maneiras:

- DISTRIBUIÇÃO DE FREQUÊNCIAS POR VALORES (variável qualitativa ou

quantitativa discreta)

É construída considerando-se todos os diferentes valores ou categorias, levando em consideração suas respectivas repetições. Por exemplo, a tabela 1.1 apresenta a distribuição de freqüência da variável TRATAMENTO, usando-se os dados do quadro 1.1.

Tabela 1.1 - Freqüências e percentuais dos 26 pacientes segundo o tipo de tratamento recebido.

Tratamento N % I 8 30,8 II 11 42,3 III 7 26,9 Total 26 100,0

FONTE: Quadro1.1 - DISTRIBUIÇÃO DE FREQUÊNCIAS POR INTEVALOS OU CLASSES (variável

quantitativa discreta ou contínua)

Constroem-se classes de valores, quando a variabilidade dos dados é grande, levando em consideração o número de valores que pertencem a cada classe. A construção de tabelas de freqüências para variáveis contínuas necessita de certos cuidados. Por exemplo, a tabela 1.2 apresenta a distribuição de freqüências da variável IDADE (em anos), usando-se os dados do quadro 1.1.

Tabela 1.2 - Freqüências e percentuais das IDADES dos 26 pacientes.

IDADE (em anos) N % 09,0 |-- 18,5 3 11,5 18,5 |-- 28,0 5 19,2 28,0 |-- 37,5 10 38,6 37,5 |-- 47,0 5 19,2 47,0 |-- 56,5 3 11,5 Total 26 100,0

FONTE: Quadro1.1

OBSERVAÇÃO: 1) De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém

referindo-se a uma coleção de dados numéricos a uma determinada ordem de classificação):

i) Elementos essenciais:

Título: Indicação que precede a tabela e que contém a designação do fato observado, o local e a época em foi registrado.

Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.

18

Corpo da tabela: Conjunto de colunas e linhas que contém as informações sobre a variável em estudo.

ii) Elementos complementares:

Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.

Notas: Informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.

Chamadas: Informações de natureza específica sobre determinada parte da tabela, destinada a conceituar ou a esclarecer dados.

2) As tabelas apresentadas oficialmente devem atender às normas do IBGE. Regras básicas para Elaboração de uma distribuição de freqüências por intervalos - (Dados Agrupados) Passo 1: Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de

grandeza) nos Dados Brutos (aqueles ainda não organizados numericamente). Passo 2: Determina-se a AMPLITUDE TOTAL dos dados

AT = Xmáx - Xmín,

onde Xmáx : maior valor observado e Xmín : menor valor observado Passo 3: Escolhe-se convenientemente o número de classes K (no. inteiro) , 5 15≤ ≤K

onde podemos tomar K n≅ ou a fórmula de Sturges K n≅ + ⋅1 3 3, log , (total de observações). Se possível determina-se, ou seja, constrói-se classes de

mesma amplitude, tomando

n ≥ 25

h ATK

≅ .

Passo 4: Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as FREQUÊNCIAS SIMPLES DE CLASSES, elaborando-se, portanto, a tabela de distribuição de freqüências.

Por exemplo, podemos elaborar uma tabela de distribuição de freqüências (dados agrupados) da variável IDADE (em anos) dos 26 pacientes apresentados no quadro 1.1, conforme Dados Brutos abaixo:

DADOS BRUTOS ROL ESTATÍSTICO (crescente) 9 33 30 11 34 27 10 21 36

35 31 32 21 31 40 39 31 28 24 21 39 38 46 47 54 56

9 10 11 21 21 21 24 27 28 30 31 31 31 32 33 34 35 36 38 39 39 40 46 47 54 56

Passo 1: Efetuar o Rol Estatístico Passo 2: Amplitude Total => AT = 56 - 9 = 47

19

Passo 3: Número de classes => 526 ≈=k (aproximação por falta)

e Amplitude de classe => 5,9547

≅=≈k

ATh anos

Passo 4: AGRUPAMENTO EM CLASSES + FREQUÊNCIAS SIMPLES DE CLASSES

Tabela 1.3 - distribuição de freqüências (dados agrupados) da variável IDADE (em

anos) dos 26 pacientes apresentados no quadro 1.1

IDADE (em anos) N 09,0 |-- 18,5 3 18,5 |-- 28,0 5 28,0 |-- 37,5 10 37,5 |-- 47,0 5 47,0 |-- 56,5 3 Total 26

FONTE: Quadro 1.1 A seguir, analisaremos alguns CONCEITOS ESSENCIAIS numa Distribuição de

Freqüência por Intervalos ou Classes. 1. LIMITES DE CLASSES: Li : Limite inferior de classe ; Ls : Limite superior de classe Classe ou Intervalo de classe -------> Li (incluir) |------ Ls (excluir)

Por exemplo, distribuição das Idades, tabela 1.3:

1a classe --> Li = 9 |----- Ls = 18,5 2a classe --> Li = 18,5 |----- Ls = 28,0 etc.

2. AMPLITUDE DE CLASSE: hi = Ls - Li, amplitude da i-ésima classe. Por exemplo, distribuição das Idades, tabela 1.5: 1a classe --> h1 = 18,5 - 9 = 9,5 2a classe --> h2 = 28,0 - 18,5 = 9,5 M 5a classe --> h5 = 56,5 - 47,0 = 9,5 Como as classes têm mesma amplitude denominamos, simplesmente, por h = Li - Ls = 9,5

3. PONTO MÉDIO DE CLASSE: X L Li

i= s+2

, ponto médio da i-ésima classe.

Por exemplo, distribuição das Idades, tabela 1.5:

1a classe ---> 75,132

5,1891 =

+=X

2a classe ---> 25,232

0,285,182 =

+=X

No caso de classes com mesma amplitude h, tomamos: X X hi i+ = +1 , por exemplo.:

20

2a classe -----> X1 + h = 13,75 + 9,5 = 23,25 3a classe -----> X2 + h = 23,25 + 9,5 = 32,75 etc.

4. FREQUÊNCIA SIMPLES OU ABSOLUTA DE CLASSE: fi = freqüência simples da i-

ésima classe (número de observações)

f fii

k

i=∑ ∑= =

1

n (número total de observações)

Por exemplo: f1 = 3 f2 = 5 f3 = 10 f4 = 5 f5 = 3

26==∑ nfi 5. FREQUÊNCIA RELATIVA E PERCENTUAL DE CLASSE

- FREQUÊNCIA RELATIVA (i-ésima classe ou valor):

frfni

i= (Razão entre a freqüência simples e o total de observações)

fri =∑ 1 (soma das freqüências relativas) - FREQUÊNCIA PERCENTUAL (i-ésima classe ou valor):

f fri i% = ⋅100 ou f fni

i% = ⋅100

fi % =∑ 100 (soma das freqüências percentuais) 6. FREQUÊNCIA SIMPLES ACUMULADA

F f f f fi i , freqüência simples acumulada da i-ésima classe ou valor = + + + ⋅⋅⋅ +1 2 3 7. FREQUÊNCIA RELATIVA E PERCENTUAL ACUMULADA

Fr fr fr fr fri i= + + + ⋅⋅⋅ +1 2 3 , Freqüência relativa acumulada da i-ésima classe ou valor F f f f fi i% % % %= + + + ⋅⋅⋅ %+1 2 3 , Freqüência percentual acumulada da i-ésima classe ou valor

Tabela 1.4 (estendida) - DISTRIBUIÇÃO DE FREQUÊNCIAS DAS ALTURAS

F.A.C. F.A.D. Idades (em anos) N %

N % N % P.M.

09,0 |-- 18,5 3 11,5 3 11,5 26 100,0 13,75 18,5 |-- 28,0 5 19,2 8 30,7 23 88,5 23,25 28,0 |-- 37,5 10 38,6 18 69,3 18 69,3 32,75 37,5 |-- 47,0 5 19,2 23 88,5 8 30,7 42,25 47,0 |-- 56,5 3 11,5 26 100 3 11,5 51,75 Total 26 100,0 - - - - -

21

2. TABELAS DE CONTINGÊNCIA

Uma tabela de contingência é um arranjo de números naturais, em forma matricial, com r linhas e k colunas, onde estes números representam quantidade ou freqüência. Assim, existem r totais em linha, c totais em colunas e um total geral n.

Uma tabela de contingência pode ser usada para apresentar uma tabulação dos dados contidos em várias amostras onde os dados são apresentados numa escala no mínimo nominal.

Um outro uso da tabela de contingência kr × é quando observa-se uma única amostra de tamanho n, onde cada elemento pode ser classificado em uma de r categorias, de acordo com um critério e em uma de c outras categorias de acordo com um segundo critério.

Para o estudo de medidas de associação entre duas variáveis X e Y, apresentadas em tabelas de contingência, os dados são arrumados da seguinte forma:

Variável B

Variável A Categoria 1

Categoria 2

... Categoria k

Totais

Categoria 1 O11 O12 ... O1k A1Categoria 2 O21 O22 ... O2k A2... ... ... ... ... ... Categoria r Or1 Or2 ... Ork ArTotais B1 B2 ... Bk N

N= A1+...Ar = B1+...+Bk

Exemplo: Quinhentos escolares de primeiro grau menor foram classificados em uma tabela criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:

Grupo sócio-econômico Defeito na fala Superior Médio

superior Médio baixo Baixo TOTAL

Presente 8 24 32 27 91 Ausente 42 121 138 108 409 Total 50 145 170 135 500

22

EXERCÍCIOS

1. Em um experimento para verificar a relação entre crises de asma e incidência de gripe

150 crianças foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde do bairro. Os dados referentes há uma semana são apresentados na tabela abaixo.

Asma \ Gripe Sim Não Total Sim 27 34 61 Não 42 47 89 Total 69 81 150

Você acha que a ocorrência de asma e a ocorrência de gripe estão associadas?

2. Responda certo ou errado, justificando. a) Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100

e outra de tamanho 200. Então, a amostra de tamanho maior é mais representativa da população.

b) Duas variáveis diferentes podem apresentar histogramas idênticos. c) Duas variáveis com box-plot iguais não podem ter valores diferentes.

3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou

sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi o seguinte: 2, 3, 2, 1,2, 1,2, 1,2,3, 1, 1, 1,2,2,3, 1, 1, 1, 1,2, 1, 1,2,2, 1,2, 1,2 e 3.

a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Admitindo que essa amostra represente bem o comportamento do usuário paulistano,

você acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande?

4. Um novo medicamento para cicatrização está sendo testado e um experimento é feito

para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.

a) Organize uma tabela de freqüência. b) Que porcentagem das observações estão abaixo de 16 dias? c) Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e como lenta as

demais. Faça um diagrama circular indicando as porcentagens para cada classificação.

5. O Posto de Saúde de um certo bairro mantém um arquivo com o número de crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 e 2.

a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Você identifica valores muito discrepantes? Que fazer com eles?

23

Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e

distribuições de freqüências. Aqui, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida.

Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as Medidas de Tendência Central, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos:

• a Média aritmética ou Média; • a Moda; • a Mediana. As outras medidas de posição são as SEPARATRIZES, que englobam:

• a própria mediana; • os quartis; • os decis. • os percentis.

3.1. MÉDIA ARITMÉTICA (ou simplesmente MÉDIA)

Definição 3.1: (a) Dada uma população constituída de N elementos, X1, X2, ..., XN sua média,

denotada por µ , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e definida por:

µ =+ + +X X X

NN1 2 ... ou µ = ∑ X

Ni ( Média populacional ) Eq. (1)

(b) Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média,

denotada X , será definida por:

n

XXXX n+⋅⋅⋅++

= 21 ou X = X

ni∑ ( Média amostral ) Eq. (2)

Exemplo: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8, 10, 11

Logo, 8,75

1110873X =++++

== ∑nX i

3. MEDIDAS DE TENDÊNCIA CENTRAL E SEPARATRIZES

24

VANTAGENS E DESVANTAGENS DA MÉDIA

1. É uma medida de tendência central que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos valores extremos (grandes) do conjunto.

2. Não pode ser calculada para distribuições de freqüências com limites indeterminados

(indefinidos). Exemplo: É impossível calcular a média da distribuição abaixo, representativa das idades de um grupo de 300 pessoas.

IDADES (Anos) No de Pessoas (fi)Menos de 33 1 33 |------- 35 21 35 |------- 37 52 37 |------- 39 186 39 |------- 41 38 41 ou mais 2 Total 300

3. É o promédio mais conhecido e de maior emprego. 4. É facilmente calculável. 5. Pode ser tratada algebricamente (ver propriedades). 6. Serve para compararmos conjuntos semelhantes. 7. É particularmente indicada para séries (conjuntos) que possuem os valores simétricos

em relação a um valor médio e de freqüência máxima. 8. Depende de todos os valores do conjunto de dados. Propriedades:

1 - A soma dos desvios tomados em relação à média é nula, isto é, ( )X Xii

n

− ==∑

10.

2 - Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a

média do conjunto fica aumentada ou diminuída dessa constante, isto é, Y X c Y X ci i= ± ⇒ = ± .

3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante

(c), a média do conjunto fica multiplicada ou dividida por essa constante, isto é, Y X c Y Xi i= ∗ ⇒ = ∗c ou Y X , para c≠0. c Y X ci i= ÷ ⇒ = ÷

Desprezando as classes abertas, isto é, co

mlimites indeterminados, aí sim, poderíamoscalcular a referida média.

25

3.2. MODA Definição 3.2: Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre

com maior freqüência, ou seja, é o valor mais frequente do conjunto de dados.

OBS: i) A moda de um conjunto de dados pode não existir (figura (a)) ii) A moda de um conjunto de dados pode não ser única (figura (c))

Exemplo: Determine a moda dos seguintes conjuntos de dados abaixo a) 2, 2, 3, 3, 5, 5, 8, 8 ⇒ Não existe moda. b) 2, 2, 3, 5, 5, 5, 8, 8 ⇒ Mo = 5 c) 2, 2, 2, 3, 3, 5, 5, 5, 8 ⇒ Mo = 2 e Mo = 5 VANTAGENS E DESVANTAGENS DA MODA 1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar

com a modificação de alguns deles. 2. Não é influenciada por valores extremos (grandes) do conjunto de dados. 3. Pode ser calculada para distribuições com limites indeterminados (indefinidos) na

maioria dos casos.

26

3.3. MEDIANA Definição 3.3: Considere uma série (conjunto de dados) ordenada, constituída de n

valores. A mediana, denotada Md, é o valor que divide o conjunto em duas partes iguais (isto é, em duas partes de 50% cada).

Exemplos: a) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13 (n = 7)

Md = 8 (termo de ordem central) b) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13, 15 (n = 8)

5,82

98=⎟

⎠⎞

⎜⎝⎛ +

=Md (Média aritmética dos termos de ordens centrais)

Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e

sendo n o número de elementos da série, o valor mediano será:

- o termo de ordem central n +12

, 2

1+= nXMd se n for ímpar;

- a média aritmética dos termos de ordem n n2 2

1e + , 2

122

++

=nn XX

Md se n for par.

PROPRIEDADES DA MEDIANA i) A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto

de dados. ii) A mediana de uma série de dados agrupados de classes extremas indefinidas pode ser

calculada.

27

3.4. QUARTIS Definição 3.4: Considere uma série (conjunto de dados) ordenada, constituída de n

valores. Os quartis, denotados por Qi,, são os valores que dividem o conjunto em quatro partes iguais (isto é, em quatro partes de 25% cada).

Podem ser obtidos através da aplicação da seguinte expressão:

⎥⎦⎤

⎢⎣⎡ +

×=21

4nii XQ

Exemplo: encontre os quartis da seguinte série bruta de dados : 1, 3, 2, 6, 5, 9. Para encontrar os quartis, valores que dividem a série ordenada em quatro partes iguais, torna-se necessário a obtenção do Rol : 1, 2, 3, 5, 6, e 9. Temos então:

[ ]221

4611 XXQ ==

⎥⎦⎤

⎢⎣⎡ +

× => o primeiro quartil é igual segundo elemento da série ordenada,

que é igual a 2.

[ ]5,321

4622 XXQ ==

⎥⎦⎤

⎢⎣⎡ +

× => o segundo quartil é igual ao elemento 3,5 (entre o elemento3 e o

elemento 4) da série ordenada, que é igual a média entre 3 e 5, que é igual a 4.

[ ]5

21

4633 XXQ ==

⎥⎦⎤

⎢⎣⎡ +

× => o terceiro quartil é igual ao elemento 5 da série ordenada, que é

igual a 6.

28

3.5. DECIS Definição 3.5: Considere uma série (conjunto de dados) ordenada, constituída de n

valores. Os decis, denotados por Di,, são os valores que dividem o conjunto em dez partes iguais (isto é, em dez partes de 10% cada).


⎥⎦⎤

⎢⎣⎡ +

×=21

10nii XD

3.6. PERCENTIS Definição 3.6: Considere uma série (conjunto de dados) ordenada, constituída de n

valores. Os percentis, denotados por Pi,, são os valores que dividem o conjunto em cem partes iguais (isto é, em cem partes de 1% cada).


⎥⎦⎤

⎢⎣⎡ +

×=21

100nii XP

29

EXERCÍCIOS

1) Os dados abaixo são referentes a taxa de glicose, em miligramas por 100 ml de sangue, em ratos machos da raça Wistar, com 20 dias de idade. Calcule a taxa média de glicose desse conjunto de ratos.

100,0 – 100,0 – 97,5 – 80,0 – 97,5 – 85,0 – 85,0 – 80,0

2) Os dados abaixo são referentes ao peso corporal, em gramas, de ratos machos com 25

dias de idade. Determine mediana deste conjunto de dados.

76 – 84 – 91 – 87 – 81 – 78 - 83

3) Foram coletadas 150 observações de uma variável X, a qual representa o número de vestibulares FUVEST (um por ano) que um mesmo número de estudantes prestaram. Assim foi observado que 75 estudantes prestaram um vestibular, e assim por diante. Os dados estão na tabela abaixo:

X n 1 75 2 47 3 21 4 7

Total 150

Para este conjunto determine a média, moda e mediana. 4) Para o quadro abaixo calcule o peso médio ao nascer.

Quadro – Nascidos vivos segundo o Peso ao nascer, em quilogramas

CLASSE FREQÜÊNCIA1,5 |-- 2,0 3 2,0 |-- 2,5 16 2,5 |-- 3,0 31 3,0 |-- 3,5 34 3,5 |-- 4,0 11 4,0 |-- 4,5 4 4,5 |-- 5,0 1

5) O quadro abaixo apresenta a distribuição de um grupo de indivíduos segundo o tipo de sangue. Para esta calcule a moda.

TIPO DE SANGUE FREQÜÊNCIA

O 547 A 441 B 123

AB 25

30

6) Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente as escolhas.

a) Estão disponíveis dados mensais sobre incidência de envenenamento por picada de

cobras. Deseja-se planejar a compra mensal de antídoto. b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi

anotado. Pretende-se utilizar esta informação para dimensionar a frota em circulação. c) Um laboratório deseja divulgar o tempo de efeito de um novo anestésico. Para isso

aplicou o anestésico em 100 pessoas e o tempo de efeito foi anotado. d) Num vôo internacional uma companhia serve dois tipos de pratos no jantar: peixe ou

frango. Um banco de dados contendo os pedidos feitos nos últimos 200 vôos é obtido. Pretende-se planejar o número de cada tipo de prato que deve se colocar à disposição dos passageiros.

7) Os níveis de ácido úrico, em (mg/ 100 ml), encontrados nos exames bioquímicos de

sangue de 10 pacientes do Laboratório de Pesquisas Clínicas do Hospital Escola da FMIt, são os seguintes:

Paciente AJF CHJ WT APC MD SEG HS BET RM CR Ácido úrico (mg%) 4,0 5,2 6,5 5,0 4,5 9,0 5,5 4,5 6,0 7,0

Com base nessas informações, pede-se:

a) Calcular a taxa média de ácido úrico no sangue dos dez pacientes. b) Calcular a mediana dos valores referidos no quadro. c) Calcular a moda das taxas de ácido úrico. d) Qual das três medidas acima poderia ser convenientemente adotada com valor típico ou

referencial do grupo de pacientes. Por quê? 8) As amostras de exames bioquímicos de sangue de três diferentes laboratórios

apresentaram os níveis de creatinina (mg%) mostrados no quadro abaixo. Pede-se:

Exame 1 2 3 4 5 6 7 Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 - Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3 Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9

a) Calcular a média, moda e mediana para os dados do laboratório A. b) Calcular a média, moda e mediana para os dados do laboratório B. c) Calcular a média, moda e mediana para os dados do laboratório C. d) Calcular a MÉDIA GLOBAL dos dados. e) Calcular a MEDIANA GLOBAL dos dados. f) Calcular a MODA GLOBAL dos dados. g) Os problemas verificados com a média, no caso dos dados do laboratório C, continuam

no caso da média de todos os dados?

31

Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de

posição representativas de um determinado conjunto de dados, onde destacamos a média, a moda e a mediana.

Sejam quatro conjuntos A, B, C e D com os seguintes valores: Conjunto A => 7, 7, 7, 7, 7 Conjunto B => 5, 6, 7, 8, 9 Conjunto C => 4, 5, 7, 9, 10 Conjunto D => 0, 5, 10, 10, 10 Para representarmos cada conjunto, podemos calcular a sua respectiva média

(Eq.(1)),encontrando X X X XA B C D= = = = 7 . Vemos assim que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética.

Observando-os mais detalhadamente, notamos que em cada grupo os valores se distribuem diferentemente em relação à média 7. Necessitamos assim de uma medida estatística complementar para melhor caracterizar cada conjunto apresentado.

As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. 4.1 A AMPLITUDE TOTAL

Medida já apresentada na elaboração de uma distribuição de freqüências com dados agrupados em classes denotamos AT.

AT X Xmáx mín= − , onde, Xmáx = maior valor do conjunto Xmín = menor valor do conjunto. Exemplo 1: Para as idades do quadro 1.1 temos que a amplitude AT = 56-9=47 4.2 VARIÂNCIA

A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação.

Definição 4.1:

a) Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua variância denotada σ2 , é definida por:

( )

σµ2

2

=−∑ X

Ni Eq (5) , onde µ = ∑ X

Ni é a média populacional

4. MEDIDAS DE DISPERSÃO

32

b) Seja um conjunto (amostra) constituído de n elementos X1, X2, . . . , Xn. Sua variância,

denotada S2 , é definida por:

( )S

X Xn

i2

2

1=

−

−∑

Eq (6) , onde XX

ni=

∑ é a média amostral

OBS: A equação (6) é utilizada quando nosso interesse não se restringe à descrição dos

dados, mas partindo da amostra, visamos tirar inferências válidas para sua respectiva população. No caso de estarmos interessados apenas na descrição dos dados, podemos usar no divisor n em lugar de n - 1

Exemplo 2: Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8. De acordo com a equação (6) temos:

XX

ni= =

∑ 255

5=

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5,64

264

3202315

5857555352 22222222222 ==

+++−+−=

−−+−+−+−+−

=S

4.3 DESVIO PADRÃO

É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância.

Desvio Padrão = + Variância (Raiz quadrada positiva da Variância)

Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o desvio padrão dado por:

População =>( )

σµ

=−∑ X

Ni

2

Amostra => ( )

SX Xn

i=−

−∑

1

2

Exemplo 3: Para o exemplo anterior, temos que o desvio padrão é dado por

55,25,6 ==S 4.4 COEFICIENTE DE VARIAÇÃO

É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de

dados de unidades diferentes. Mede a "DISPERSÃO RELATIVA" de um conjunto de dados. É expresso, usualmente, em percentagem (%).

População ==> CV = ×σµ

100 , sendo que µ ≠ 0

Amostra ==> CVSX

= × 100 , sendo que X ≠ 0.

33

Exemplo 4: Calcule o coeficiente de variação (dispersão relativa) os dados do exemplo 2. Temos que a média é 5=X e o desvio padrão é 55,2=S

Portanto, ====> 0,5110000,555,2100 =×=×=

XSCV , ou seja %0,51=CV

34

EXERCÍCIOS 1) Determinar a amplitude total de cada um dos conjuntos de números:

a) 12 – 6 – 7 – 3 –15 – 10 – 18 – 5 b) 9 – 3 – 8 – 8 –9 – 8 – 9 – 18

2) Os resultados de 12 provas de coagulação, encontrados em exames hematológicos de

pacientes do HE-FMIt., são os seguintes:

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Tempo de coagulação (min) 6 5 6 7 9 6 8 7 4 10 6 12

Com base nesses dados, pede-se que se calcule: a) a Variância. b) o Desvio Padrão. c) o Coeficiente de Variação dos tempos de coagulação.

3) Seja os dados abaixo referentes às alturas de 22 alunos do curso de Bioestatística.

1,73 – 1,68 – 1,64 – 1,55 – 1,60 – 1,65 – 1,60 – 1,72 – 1,55 – 1,75 – 1,63 1,65 – 1,80 – 1,75 – 1,84 – 1,73 – 1,80 – 1,80 – 1,74 – 1,70 – 1,79 – 1,77

Para estes: a) Construa uma tabela de distribuição de freqüência em intervalos de mesmo tamanho. b) Construa o histograma. c) Calcule a média, moda e mediana. d) Calcule a tabela de quartis. e) Calcule o coeficiente de variação. 4) Um hospital maternidade está planejando a ampliação dos leitos para recém nascidos.

Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o número de dias que os bebês permaneceram no hospital, antes de terem alta. Os dados, já ordenados, são apresentados a seguir.

Número de dias Freqüência

1 3 2 11 3 16 4 9 5 6 6 1 7 2 8 1 15 1

a) Calcule a média, moda e mediana. b) Determine o desvio padrão. c) Dentre as medidas de posição calculadas em (a), discuta quais delas seria mais

adequada para este conjunto. d) Você identificou algum valor excepcional dentre os que foram observados. Se sim,

remova-o e recalcule os itens (a) e (b). Comente as diferenças encontradas.

35

5. APLICAÇÕES NO EXCEL

36

os e sua utilização pode ser visto nos livros

O gráfico estatísticoobjetivo é o de produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápidos que as séries (tabelas).

Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os termos da série e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional.

A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais:

a) Simplicidade

6 ÃO GRÁFICA DE DADOS. APRESENTAÇ

Uma forma lúdica e bastante interessante de apresentar dados consiste no uso de

gráficos. A seguir são apresentados alguns dos principais tipos de gráficos empregados na statística. Uma maior explicação sobre gráfice

indicados. é uma forma de apresentação dos dados estatísticos, cujo

- indispensável devido à necessidade de levar a uma rápida apreensão do sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de importância secundária.

b) Clareza - o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo.

c) Veracidade - indispensável qualquer comentário, posto que, se não representa uma realidade, o gráfico perde sua finalidade.

Os principais tipos de gráficos estatísticos para as distribuições de freqüências são os geométricos de, no máximo duas dimensões. Para

a cartesiano.

- Variável Qualitativa

os DIAGRAMAS, os quais são gráficua construção, em geral, fazemos uso do sistems

Dentre os principais tipos de diagramas destacamos, segundo a variável em estudo:

- GRÁFICOS EM- GRÁFICOS EM SETORES

- Variável Quantitativa

- GRÁFICOS EM BARRAS

COLUNAS

- Distribuição por valores

- GRÁFICOS EM BARRAS - GRÁFICOS EM COLUNAS - BOXPLOT - DIAGRAMA DE DISPERSÃO - GRÀFICO DE LINHA OU CURVA - GRÁFICO EM ÁREA

- Distribuição por intervalos

- HISTOGRAMA - POLÍGONO DE FREQUÊNCIAS

38

6.1 BOXPLOT

velando a mediana e os quartis (medidas de osição a serem apresentadas mais a seguir no texto). Infelizmente, este gráfico não é isponi atísticos

(como o

Gráfico 1 – Notas de matemática de turmas turmas de uma escola X.

Representa a dispersão dos dados, re

pd bilizado pelo Excel, embora esteja presente em quase todos os softwares est

SPSS, S-PLUS, Minitab, etc.).

0

2

4

6

8

10

12

14

16

18

20

Turma A Turma B

Not

as d

e m

atem

átic

a

6.2 DIAGRAMA DE DISPERSÃO

será aprofundada no seg

Relação entre concentração da substância e ganho de peso após 30 dias de 15

bois de uma dada região de Bocaina, SP.

Mostra a relação gráfica existente entre duas variáveis numéricas. Sua análise

undo módulo de estatística.

Gráfico 2 –

0

5

10

15

20

25

30

0 1 2 3 4 5 6 7

Concentração da Substância (mL)

Gan

ho d

e Pe

so (K

g)

39

6.3 GRÁFICO DE LINHA OU CURVA

3 - Incidência de Tuberculose (Todas as Formas). Pernambuco e

Brasil, 1980 – 2000

Gráfico

Incidência de Tuberculose(todas as formas)

40,0

50,0

60,0

70,0

80,0

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

Anos

Taxa

(por

100

000

hab)

BrasilPernambuco

6.4 GRÁFICO EM ÁREA

Gráfico 4 - Proporção de casos de aids por ano de diagnóstico e subcategoria de exposição, no Rio Grande do Norte, de 1990 a 1999.

0%

20%

40%

60%

80%

100%

90 91 92 93 94 95 96 97 98 99

Ano de diagnóstico

HTS HSH UDI Sangue Perinatal Ignorado

40

6.5 GRÁFICO EM COLUNAS

É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas).

Gráfico 5a – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

0

200

400

600

800

1000

1200

1400

87 88 89 90 91

Gráfico 5b – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

0

200

400

600

800

1000

1200

87 88 89 90 91

41

6.6 GRÁFICO EM COLUNAS JUSTAPOSTAS

Gráfico 6a – Distribuição por tipo de casos de meningites bacterianas em l, 1987-1991

maiores de 15 anos, Brasil, 1987-1991

maiores de 15 anos, Brasi

0

100

200

300

400

600

87 88 89 90 91

500

HAEMOPHILUS DM PNEUMOCOCO OUTROS

Gráfico 6b – Distribuição por tipo de casos de meningites bacterianas em

0

100

200

300

400

500

87 88 89 90 91


600

42

6.7 GRÁFICO EM COLUNAS SUPERPOSTAS

Gráfico 7a – Distribuição por tipo de casos de meningites bacterianas em


0

200

400

600

800

1000

1200

1400

87 88 89 90 91




0

200

400

600

800

1000

1200

87 88 89 90 91


43

6.8 GRÁFICO EM BARRAS

É a representação de uma série por meio de retângulos, dispostos horizontalmente em barras).

Gráfico 8a – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

Gráfico 8b –

(

Total de casos de meningites bacterianas em maiores de 15 anos,

Brasil, 1987-1991

87

88

89

90

91

0 200 400 600 800 1000 1200 1400

0 200 400 600 800 1000 1200

87

88

89

90

91

44

6.9 GRÁFICO EM BARRAS JUSTAPOSTAS

Gráfico 9a – Dis s bacterianas em maiores de 15 anos, Brasil, 1987-1991


tribuição por tipo de casos de meningite

0 100 200 300 400 500 600

87

88

89

90

91



0 100 200 300 400 500 600

87

88

89

90

91


45

6.10 GRÁFICO EM BARRAS SUPERPOSTAS

Gráfico 10a – Distribuição por tipo de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991

0 200 400 600 800 1000 1200 1400

87

88

89

90

91




0 200 400 600 800 1000 1200

87

88

89

90

91


46

6.11 G

É o gráfico que representa as partes de um todo, por setores de um círculo, isando justamente comparar estas partes entre si e em relação ao todo.

Gráfico 11a – Distribu idos, HE-FMIt, 1996

RÁFICO EM SETOR OU SECTOGRAMA (PIZZA)

v

ição por sexo de 9 recém-nasc6

52,1%47,9%

Masculino Feminino

Gráfico 11b – Distribuição por sexo de 96 recém-nascidos, HE-FMIt, 1996

52,1%

47,9%

Masculino Feminino

47

6.12 HISTOGRAMA

É a representação gráfica de uma distribuição de freqüências de uma variável quantitativa (dados agrupados) por meio de retângulos justapostos centrados nos pontos

édios das classes e cujas áreas são proporcionais às freqüências das classes.

Gráfico 12 – Histograma de freqüência das idades em classes dos 26 pacientes

apresentados no quadro 1.1

.13 GR

ordenadas: da de

Distribuição da fr e das idades em classes dos 26 pacientes apresentados no quadro 1.1

m

6 ÁFICO DA FREQUÊNCIA ACUMULADA CRESCENTE

Representa o histograma, com base em classes de freqüênciamenor freqüência para a de maior freqüência.

eqüência acumulada crescentGráfico 13 –

0

2

4

6

8

10

12

4,25 13,75 23,25 3 42,25 51,75 61,25

Idade

Freq

üênc

ia a

bsol

uta

2,75

0

5

10

15

20

25

30

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Freq

üênc

ia a

bsol

uta

48

6.14 GRÁFICO DA FREQUÊNCIA ACUMULADA DECRESCENTE

da freqüência acumulada decrescente das idades em classes dos 26 pacientes apresentados no quadro 1.1

6.15 POLÍGONO DE FREQUÊNCIAS

É a representação gráfica de uma distribuição de freqüências por meio de uma linha poligonal fechada ou polígono, cuja área total é igual a do histograma. Gráfico 15 – Histograma e polígono de freqüência das idades em classes dos 26 pacientes

apresentados no quadro 1.1

Representa o histograma, com base em classes de freqüência ordenadas: da de

maior freqüência para a de menor freqüência. Exemplo Gráfico5. Gráfico 14 – Distribuição

0

5

10

15

20

25

4,25 13,75 23,25 32,75 42,25 51,75 61,25

Idade

Freq

üênc

ia a

bsol

uta

30

0

2

12

4,25 13,75 23,25 32,75 42,25 51,75 61,25

4

6

Freq

üênc

ia a

bsol

uta

8

10

Idade

49

6.

dispoplanilha onde estão dos dados que se deseja representar em gráficos, basta seguir as etapas o Assistente de Gráfico.

16 APLICAÇÕES NO EXCEL

O uso de gráficos no Excel é facilitado pelo emprego do Assistente de Gráfico, nibilizado na barra de ferramentas. Havendo selecionado previamente a área da

d

As opções de gráficos no Excel são bastante variadas: colunas, barras, linhas,

dispersão, etc.

50

EXERCÍCIOS

1. s de uma clínica de ortopedia foram entrevistados quanto ao número

de as após o tra dio (M) ou baixo (B). Os da

Pacientes 1 2 3 9 10 11 12 13 14 15

Quinze pacientemeses previstos de fisioterapia, se haverá (S) ou não (N) seqüel

tamento e o grau de complexidade da cirurgia realizada: alto (A), médos ão apresentados na tabela abaixo: s

4 5 6 7 8 Fisoterapia 7 8 5 7 6 8 6 5 5 4 5 6 4 5 7 Seqüelas S S N N N S S N S N N Cirurgia A M A A M B M B B M M A

N N SM M B

S

a) Classifique cada uma das variáveis. b) Para cada variável, construa a tabela de freqüência e faça uma representação

gráfica. c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de

barras para a variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse grupo?

2.

as fatais, assim distribuídos: 11712 pedestres, 7116 passageiros e 8478 condutores. Faça uma tabela para apresentar esses dados. Apresente as freqüências re s da

3. Represente graficamente:

De acordo com o IBGE(1988), em 1986 ocorreram, em acidentes de trânsito, 27306 casos de vítim

lativas e o total. Faça um gráfico de barras e um de setores para representar estedos.

Tabela 1 – Número e proporção de óbitos, segundo regiões. Brasil, 1996 e 1999.

Região N % Norte 16.117 4,9 NSudeste 170.050

ordeste 69.811 21,4

Su 48.921 C O ste 21.830

52,0

0l 15,entro- e 6,7

Tabela 2

Masculino ini

– Número e proporção de óbitos, segundo sexo e regiões. Brasil, 1996 e 1999.

Fem no Regi N % ão N % Norte 10.857 4,9 5.260 5,1 Nordeste 46.242 20,7 23.569 22,9 Sudeste 118.774 52,9 51.276 49,9 Sul 33.113 14,8 15.808 15,4 Centro-Oeste 14.958 6,7 6.872 6,7

Tabela 3 – Suicidas segundo o sexo. Brasil, 1986

Sexo N % Masculino 3.562 74,9 Feminino 1.192 25,1

51

4. Faça um histograma e um polígono de freqüências para os dados apresentados no

quadro abaixo.

Cães adultos anestesiados e após laparotomia, segundo a pressão arterial, em milímetros de mercúrio

Classe Freq.

Quadro 1 –

80 |-- 90 1 90 |-- 100 4 100 |-- 110 16 110 |-- 120 8 120 |-- 130 9 130 |-- 140 7 140 |-- 150 3 150 |-- 160 1

5. Os dados referem-se ao peso, em quilogramas, de cães. Para estes construa uma tabela de distribuição de freqüências completa. Depois construa o histograma de freqüências.

23,0 – 19,0 – 23,8 – 15,0 – 20,0 – 22,7 – 19,5 – 22,0 – 14,9 – 18,3 – 21,2 – 20,1 – 18,7 – 15,1 – 22,3 – 21,5 – 25,5 – 19,5 – 22,2 – 24,0 – 17,0 – 24,1 – 28,0 – 13,6 – 15,8 – 28,4 – 23,0 – 15,0 – 16,1 – 16,0 – 19,0 – 18,0 – 18,8 – 18,0 – 15,0 – 14,5 – 19,0 – 20,5 – 16,0 –

16,0 – 16,0

6. Um a da desnutrição (medida pelo peso, em quilos, das pessoas) em aior que em uma região in a em cada região, forne

Região A Região B

estudo pretende verificar se o problem uma região agrícola (denotada região A), é m

dustrial (Região B). para tanto, uma amostra foi tomadcendo a tabela de freqüências a seguir:

Peso N % Peso N % < 40 46 43,0 < 40 10 3,1 40 |--50 22 20,6 40 |--50 34 10,7 50 |-- 60 18 16,8 50 |-- 60 109 34,2 60 |-- 70 12 11,2 60 |-- 70 111 34,8 70 e + 9 8,4 70 e + 55 17,2 Total 107 100,0 Total 319 100,0

Os dados apresentados sugerem que o grau de desnutrição é diferente nas duas regiões? (Note que o total de observações difere em cada região).

7. Utilize o banco de dados construído no exercício 14 da seção1 e faça uma análise

descritiva das variáveis avaliadas.

52

III. PROBABILIDADE

53

PROBABILIDADE E PROPRIEDADES EPIDEMIOLÓGICAS

1. CONCEITO

Embora o conceito de probabilidade esteja estreitamente relacionado à forma pela

qual esta é definida, é consensual interpretar a p babilidade como a possibilidade de um determinado fato vir a ocorrer, avaliada num em termos percentuais.

roericamente e

2. A MENSURAÇÃO DA PROBABILIDADE Ao definir o conceito de probabilidade, foi visto que a idéia passa pela mensuração

u avaliação das chances de um certo acontecimento. Existem duas maneiras pelas quais sta ava

observação do comportamento passado do fato e das circunstâncias nas

rocesso implica de es que de alguma forma poderiam sso ão de probabilidade dita a priori.

xija uma avaliação exata da probabilidade de uma a situações muito particulares, como os jogos. completamente diferente.Consiste em trabalhar

com o da

meno.Contudo, é aquela que pode ser aplicada aos problemas do mundo real e, especificamente, à Medicina.

Para ilustrar as duas formas de pensar o conceito de probabilidade, suponha o guinte exemplo: Imagine a avaliação da probabilidade de um individuo sofrer um infarto.

Utilizan

mericamente a conjunção de todos esses fatores. Ainda mais, se a tolerância de cada indivíduo em particular a estes fatores não é conhecida. Em síntese, é praticamente impossível pensar, neste exemplo em avaliação a priori de probabilidade. Por outro lado, consupossíve

a ocorrer. Por outro lado, tomando um eterminado número de pacientes, é possível conhecer a freqüência com que determinados

ência do infarto.Desta forma, conhecendo as aracterísticas de um determinado paciente, seria possível verificar com qual intensidade stes fat

oe liação pode ser feita:

• Pela observação e conhecimento completo dos fatores que influenciam o fato; • Pela

quais ocorreu. O primeiro p finir todos os fator

conduz a definiçafetar o resultado final. Este proceEmbora esta definição de probabilidade eocorrência, sua aplicabilidade está restrita

O segundo processo é de natureza conceito de freqüência relativa, que é próprio da probabilidade dita a posteriori. A

probabilidade baseada em freqüência relativa impõe, evidentemente, uma estimativa verdadeira probabilidade de ocorrência de um determinado fenô

sedo um critério a priori, seria necessário listar todos os fatores que poderiam

conduzir ao infarto.Embora os estudos que existem sobre o assunto, no estágio atual da ciência médica, sejam razoavelmente completos – o que permitem indicar dezenas de fatores de risco, tais como: idade, sexo, hereditariedade, estresse, fumo, dieta, condição física etc.- ,dificilmente seria possível colocar nu

ltando arquivos de dados cardiológicos, é l verificar o número de casos de infarto em indivíduos com características próximas

daqueles cuja probabilidade quer-se avaliar e, assim, tomar este dado como um indicativo da possibilidade de o fato efetivamente vir dfatores estão associados com a ocorrce ores estão presentes e, dessa forma, chegar a um prognóstico sobre seu risco de infartar. 3. PROBABILIDADE COMO UM NÚMERO

Quando o conceito de probabilidade foi definido, deixou-se claro que a probabilidade é expressa numérica e percentualmente. Assim, a probabilidade a priori de um acontecimento “A” vir a ocorrer pode ser posta:

54

( ) [ ][ ] s

Aadespossibiliddetotalnúmero

AafavoráveisidadesdepossibilnúmeroAP ==""

Onde A é um subconjunto do conjunto universal de todas as possibilidades de

ocorrência, s. O conjunto s é também denominado espaço amostral e cada parte elementar ou elemento dele é um ponto amostral.

Como corolário imediato, vem que A estará sempre contido em s e, conseqüentemente, para qualquer A, ( ) 10 ≤≤ AP . De modo geral, denotando probabilidade por p, 10 ≤≤ p ou %100%0 ≤≤ P .

Em termos de probabilidade a posteriori, coloca-se:

As observações anteriores, referentes à probabilidade a priori, são também válidas para esse caso.

eda. A probabilidade a priori seria calculada a seguinte forma:

O evento: A = resultado cara no lançamento de uma moeda é constituído por um abilidade de A ocorrer é igual a:

Exemplo: Suponha o lançamento de uma mod

S = {c, k}, onde: s = espaço amostral = 2 elementos; c = cara = ponto amostral = 1 elemento; k = coroa = ponto amostral = 1 elemento.

único elemento. Portanto, a prob

( ) %.505,02

ouAP ==

1

O cálculo da probabilidade a posteriori implicaria ter efetuado um número n de experiências de lançamento da moeda. Suponha-se que foram feitas 100 experiências. Então n = 100. Suponha-se ainda que destas 100 experiências, 48 resultaram “cara” e 52 resultaram “coroa”. Desta forma, pode-se concluir que a probabilidade de ocorrer o evento A, tal como foi definido anteriormente, é igual a:

( ) %.4848,010048 ouAP ==

Por extensão, conclui-se que o evento B = resultado coroa no lançamento de uma

moeda é de 52%. Ainda, definido o evento C = resultado “cair em pé” no lançamento de ma moeda, é possível concluir que P(C) = 0%. u

4. PROBABILIDADE NA MEDICINA

Pelo exposto até agora, é possível perceber que os dois processos de mensuração não levam necessariamente a resultados iguais. Ainda, no exemplo da moeda, é possível intuir que o resultado obtido ao se fazer o cálculo pelo primeiro processo é correto, enquanto o cálculo a posteriori é tomado com algo estranho (afinal, todo mundo sabe que

oincidentes, podendo as diferenças (os erros) com

oq chance de sair cara é 50%). De fato, a probabilidade verdadeira, ou real, naquele caso é de 50%. Ainda, se outras séries de experiências forem efetuadas com a mesma moeda, em condições absolutamente iguais, os resultados obtidos em termo de avaliação de probabilidade não terão por que ser c

( ) [ ][ ] n

Arealizadafoieriênciaaquevezesdenúmero

ocoreuAquevezesdenúmeroAP ==exp

55

respeito

pergunta que se faz, então, é por que não se utiliza sempre o primeiro processo e se descarta o segundo.Ocorre que na ciência de modo geral e, por extensão, na medicina, a

lação entre causas e efeitos é extremamente complexa, de forma que os resultados são previsív

ca é conduzida. Conclui-se que, de modo geral, os resultados da ciência médica não são cem por

de erro nas avaliações ou conjecturas é infelizmente, ciência que trata de como controlar estes erros, auxiliar a

esquis

à probabilidade real serem maiores ou menores e estarem para baixo ou pra cima deste valor.

A

reeis com um grau variável de certeza e, desta forma, não é possível construir

corretamente os espaços amostrais necessários ao cálculo da probabilidade a priori. Conseqüentemente, as probabilidades são avaliadas historicamente ou por experimentação e,os resultados,são estimativas de probabilidade sujeitas a erros de maior ou menor magnitude, dependendo da forma como a pesquisa científi

cento exatos e que a presença nevitável. A estatística, enquantoi

p a médica na construção de toda a base de conhecimentos dedutivos da medicina, como é possível constatar em grande parte do material que promove a sua divulgação e difusão. 5. CÁLCULO DAS PROBABILIDADES

oi visto que a estimativa de uma probabilidade é obtida como uma proporção, indepen

Fdentemente do seu critério de definição. Entretanto, uma vez estabelecida à

probabilidade de um ou de vários eventos, existem diversos cálculos de probabilidades que podem ser feitos, combinando-se os resultados.Algumas situações clássicas são vistas a seguir.

5.1 LEI MULTIPLICATIVA

Dado um evento A, com probabilidade P(A), a probabilidade de que esses evento se repita n vezes é dada por:

( ) ( ) ( ) ( )nn APAPAPAAAP ....... 2121 =∩∩∩

A sentença acima pode se de de que ocorra o evento A na primeira vez e na seg igual ao produto das probabilidades de ele ocorrer em cada uma das vezes”.

r lida: “A probabilidaunda vez e assim por diante até a enésima vez é

Se a ocorrência do evento A em cada uma das vezes não for afetada pelas ocorrências anteriores, diz-se que as ocorrências de A em cada uma das vezes são independentes, e a expressão anterior pode ser escrita:

( ) ( )n

n APAAAP =∩∩∩ ...21 5.2 LEI ASSOCIATIVA

Dados dois eventos, A e B, a probabisto é, que ocorra A ou B, é dada por:

ilidade de que ocorra um destes dois eventos,

( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪

que pode ser lido: “A probabilidade de ocorrência de A ou B é dada pela soma das probabilidades de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de que ambos ocorram simultaneamente.”

56

Evidentemente, se A e B não tiverem elementos em comum, serão representados por conjuntos disjuntos, e a expressão anterior passa a:

( ) ( ) ( )BPAPBAP +=∪

tos cuja ocorrência

simultânea não é possível, diz-se que os eventos são mutuamente excludentes, ou seja, ocorre

Em um determinado momento, se forem definidos dois even

um ou ocorre o outro. É o caso, por exemplo, do lançamento de um dado e os 6 e B = resultado 5. Sabe-se que P(A) = 1/6 e P(B) = 1/6, mas a

probabilidade de ocorrer A

eventos A = resultadoe B simplesmente não existe.

6. EVENTOS DEPENDENTES

Quando a ocorrência de um evento a depende da ocorrência prévia de um outro evento B, diz-se que o evento A depende de B, e denota-se (A|B). É comum ler a sentença (A|B) como “A dado B”.

Para que dois eventos sejam dependentes, basta verificar a desigualdade

( ) ( ) ( )BPAPBAP .≠∩

Em outras palavras, a probabilidade do número de ocorrências que satisfazem ambas as condições (A e B) é diferente do produto das probabilidades dos eventos A e B tomadas isoladamente. Obviamente, os eventos serão independentes se

( ) ( ) ( )BAP ∩ BPAP .= .

Exemplo: Suponha que um levantamento estatístico efetuado em certa população verificou que 23% de indivíduos do sexo masculino e 18% do sexo feminino são hipertensos. Se nessa mesma população o número de casais hipertensos é de 7,2%, então existe dependência (ou associação) entre o fato de o homem e a mulher do casal apresentarem hipertens o, pois, denotan sa, ter-se-ia

P(H∩M)=P(H).P(M) P(H∩M)=0,23 . 0,18 = 0,0414 = 4,14% ≠ 7,2%

Observe-se que não estão sendo nem procurad analisadas as razões por que

se o prim bro do casal é hipertenso, o outro tem mais chances de ser hipertenso do que se presenta-se este fato a partir das estatíst ertensos. Quanto aos motivos para esta de ndência, eles ocurados, ras variáveis ligadas ao sexo e à hipertensão. Nu campo, poder-se-ia sugerir que sejam verificadas características do casal no que diz respeito ao NaCl, a

ã do H = homem hipertenso e M = mulher hiperten

as nemeiro mem

o primeiro não for hipertenso. Simplesmente aas do número de homens, mulheres e casais hipic

pe devem ser pr analisando-se outm estudo de

tipo de alimentação, teor diário ingerido de mbiente familiar, ambiente de trabalho, etc.

7. PRO ABIL E COB IDAD NDICIONADA 7.1 CONCEITO

Quando existem d ocorrência de um deles é afetada pelo fato de outro ter ou não ter ocorrido. Se estes eventos são os eventos A e B, qua

ois eventos dependentes, a probabilidade de

ndo se diz que a probabilidade de ocorrência de A está condicionada à ocorrênciade B, está-se querendo dizer que as chances de ocorrer A dependem de B.

57

De modo geral, a probabilidade de A condicionada a B é dada por:

( ) ( )( )BP

BAPBAP ∩=|

u condicionada

.

Onde P(A|B) = probabilidade de A dado o a B. A relação anterior pode ser compreendida, observando-se a Fig. 1

Fig.1 - Probabilidade Condicionada

Na Fig.1, os eventos A e B possuem entos comuns. A probabilidade de ocorrer dado B implica a ocorrência prévia de B. De ta forma, o espaço amostral se reduz de U

ocorrer, associando-se dois eventos, ou quando um mesmo e os pelos resultados anteriores.

omo por exemplo do primeiro caso, im conjunto de indivíduos.O to, A segundo, B, “alcoólatra”. È possível estimar, de acordo a esses dados, a probabilidade de um indivíduo ter cirrose dado que é alcoólatra.Para isto, de acordo à de ição dada asta verificar o número de indivíduos que apresentam s mente as duas características P(A∩B) e dividir pelo número total de indivíduos que apresentam

r olocado em forma de tabelas conjuntas de freqüências, ou tabelas conjuntas de

probabilidades, dependendo e os dados são valores absolutos (primeira denominação) ou relativos (segunda denominação). Uma tabela conjunta simples (Tabela 1), de dimensão 2x2, é mostrada a seguir:

Tabela 1 - Associação de eventos dependentes.

Eventos B B’ Totais

elem

sApara B e as ocorrências favoráveis ao evento Apara a interseção de A com B, resultando a expressão mostrada anteriormente.

As probabilidades condicionadas podemvento é repetido e os seus resultados são o afetad

C agine dois eventos associados a um, seria “cirrose”; o primeiro even

fin , bimultanea

a segunda característica P(B). Este tipo de problema costuma ser colocado em forma de tabelas conjuntas se

c

A AB AB’ A A ‘ A’B A’B’ A’ Totais B B’ T

No exemplo que vem sendo analisado, ter-se-ia:

latra

A = cirrose A’= não-cirrose B = alcoólatra B’= não-alcoó

58

Evidentemente, os eventos associados são:

T = total de indivíduos, ou probabilidade total.

o A={a1, a2,..., ak} e cada um destes resultados está condicionado à ocorrência do evento B, tem-se

(A k

AB = cirrose e alcoólatra; AB’ = cirrose e não-alcoólatra; A’B = não-cirrose e alcoólatra; A’B’ = não-cirrose e não-alcoólatra;

De m do geral, se o evento A pode ocorrer de k maneiras diferentes

P(A1\B) + P 2\B) + ... + P(A \B) = 1

larmente, se k = 2, então

articu

) e P(A2\B) = 1- P(A1\B)

O risco relativo pode ser calculado a partir das tabelas conjuntas de freqüência ou de prob

r uma aracterística particular (B). No exemplo em que A = cirrose e B = alcoólatra, o risco

se em relação a um indivíduo não-alcoólatra.

P P(A1\B) =1- P(A2\B

abilidades que foram apresentadas para definir a probabilidade condicionada. É um conceito bastante empregado em medicina e pode ser entendido como risco adicional de estar em uma determinada condição patológica (A) devido ao fato de apresentacrelativo de um alcoólatra em relação à cirrose representa a probabilidade adicional de um alcoólatra desenvolver cirro

Genericamente, empregando a notação da Tabela 1 pode-se escrever:

Exemplo: Suponha que os valores para o exemplo da Tabela 3.1, num estudo efetuado com 80 pacientes, sejam os mostrados na Tabela 3.2.

Tabela 2 - Associação entre cirrose e alcoolismo

Alcoolismo (B) Cirrose (A) Sim Não

Presente 9 2 Ausente 26 43

Empregando a notação sugerida, o risco de um alcoólatra apresentar cirrose é de

( ) 2571,0269

9'| =+

=BAP

59

O risco de cirrose entre os não-alcoólatras resulta

( ) 0444,0432

2'| =+

=BAP

O risco relativo resulta então

79,50444,02571,0

==RR

ste valor indica que o risco de um alcoólatra desenvolver cirrose, em comparação a

um indivíduo não-alcoólatra, é 4,79 (5,79 – 1) vezes maior.

E

7.2 COEFICIENTE DE ASSOCIAÇÃO DE YULE

Ainda trabalhando em tabelas de freqüência do tipo 2 x 2, pode-se desejar avaliar a associ ção entre as dua a, por exemplo, as variáveis ingestão

e NaCl e pressão arte 3.3. Neste caso, o coeficiente de ediria o onsumo de sal de cozinha e a

PAS.

a

a s variáveis estudadas. Suponhrial sistólica. Veja a tabelad

associação de Yule m grau de associação entre o c

T bela 3 - Associação entre consumo de sal comum e PAS.

PAS Consumo de Sal

≤ 120 mmHg > 120 mmHg ≤ 5 g/dia 24 (a) 4 (b) > 5 g/dia 11 (c) 19 (d)

O coeficiente de associação de Yule pode ser calculado através da expressão:

bcadbcadY

+−

=

us valores variam de associação entre -1 e + 1, e quanto mais próximo de ±1,

mais forte a associação. Y=0 indica ausência de associação.Valores positivos de Y indicam relação direta entre as variáveis estudadas e valores negativos de Y, relação inversa. Exemplo: De acordo com a Tabela 3.3, a associação entre o consumo de sal comum e a pressão sistólica resultaria

Se

824,0500412

11419241141924

==×+××−×

=Y

omo o valor de associação é positivo, indica que um aumento no consumo de sal

provocaelevado, rando uma associação forte entre consumo de sal e PAS.

C também um aumento na PAS. Quanto ao grau de associação, verifica-se que é Y > 0,8, most

60

61

7.4 APLICAÇÕES DA PROBABILIDADE CONDICIONAL: TEOREMA DE BAYES

Suponha que a ocorrência (ou não) de um determinado evento A possa ter sido originado de “k” diversas maneiras c , c ,..., c (Fig. 2). 1 2 k

1, c2, ..., ck são eventos mutuamente exclusivos, ou a, o conjunto A pode ser escrito como

2 kcA∩ . Em termos de probabilidades PAP

Fig. 3.2 Causas d evento A.

Fig. 2 – Causas do evento A

Observe que as causas cΦ=∩∩ kcc ...21 . Desta form

...)() cAc ∪∪∩∪∩c

)((AA = 1

)(...)()( 21 kcAPcAPcA)( ∩++∩+∩ . Lembrando a definição de p= robabilidade

condicional, pode-se escrever:

)( icP)(

)|( ii

cAPcAP

∩=

de onde vem

)|().()( iii cAPcPcAP =∩ Então, a probabilidade do evento A, P(A), resulta igual à expressão

)|().(...)|().()|().()( 2211 kk cAPcPcAPcPcAPcPAP +++=

ou

∑=

=k

iii cAPcPAP

1)|().()(

Então, a probabilidade de que o evento A tenha sido originado pela causa ci,

, é dada por:

)|( AcP i

∑=

== k

iii

iii

iii

cAPcP

cAPcPAcPou

APcAPcP

AcP

1)|().(

)|().()|(

)()|().(

)|(

final do Teorema de Bayes, também chamada de Teorema das ausas. Possui aplicação direta em vários problemas relacionados ao diagnóstico de oença

3) + P(P4).P(A|P4) P(A) = 0,63.0,023 + 0,18.0,093 + 0,14.0,171 = 0,0617 ou 6,17%

Então, o risco HIV+ é de 6,17% A chance de HIV+ pertencer ao grupo heterossexual pode ser posta:

Esta é a expressão

Cd s. É também base para o desenvolvimento de um conjunto de indicadores em Epidemiologia, que serão descritos de forma resumida na Seção 8. Exemplo: Suponha que em um levantamento de dados uma determinada população foi classificada de acordo com uma das características abaixo:

P1 Heterossexuais 63% P2 Homossexuais 18%

P3 Hemofílicos 5% P4 Usuários de drogas injetáveis 14%

Ainda, imagine que levantamentos estatísticos anteriores permitam presumir que o

risco de transmissão de HIV entre os heterossexuais é de ordem de 2,3%; entre a população homossexual 9,3%; entre os hemofílicos 12% e entre os usuários de drogas 17,1%.

Como estas informações seria possível determinar, por exemplo, a probabilidade de transmissão do HIV e, também, a chance de um HIV+ ser proveniente do grupo de heterossexuais. No primeiro caso: Seja A = HIV+ e A’= HIV– então,

P(A) = P(P1).P(A|P1) + P(P2).P(A|P2) + P(P3).P(A|P + 0,05.0,12

.

)()|().

)|( 11 AP

APPAPP

(= 1P

P

2163,0067,0

01449,0067,0

023,0.63,0)|(PP 1 ===A ou 21,63%

+, a probabilidade de ele pertencer ao grupo heterossexual é de 21,63%. Este resultado é interesse (!), pois o valor calculado é aparentem

En o de HIVtão, dado um cas

ente alto diante da pequena taxa de risco dos heterossexuais (2,3%).

62

8. APLICAÇÕES DO CÁLCULO DE PROBABILIDADES: NOÇÕES DE

EPIDEMIOLOGIA

O cálculo de probabilidades está presente na Medicina, direta ou indiretamente, em o de situações. Contudo, em algumas situações, a base do conhecimento é de

atureza nitidamente probabilística. É o caso dos indicadores epidemiológicos, que serão abord

um sem-númern

ados brevemente a seguir.

8.1 AVALIAÇÃO DA QUALIDADE DE UM EXAME DIAGNÓSTICO

Uma importante aplicação da teoria das probabilidades na medicina está relacionada me tem de acertar o verdadeiro

iagnóstico. A limitação dos diagnósticos está condicionada aos meios em que o médico ispõe para a sua elaboração. Assim, se um médico deve efetuar um diagnóstico sobre a

o de anemia em uma criança, dispondo das informações de um exame línico, suas conclusões serão mais ou menos corretas em função da capacidade que o

ame o, diz-se que o diagnóstico é provável. Quando

não existem dúvidas sobre o diagnóstico, o exame é denominado diagnóstico de certeza ou prova de ouro e o mesmo é definitivo. A precisão de um exame diagnóstico é avaliada, omparando seus resultados com os de um exame definitivo e verificando sua capacidade

ociados à comparação do resultado

Quadro 1

Diagnóstico de certeza

à avaliação da capacidade que um determinado exaddpresença ou nãcex clínico tem de detectar a anemia. Quando é sabido que o tipo de exame que está sendo empregado não é totalmente precis

cde acerto. O quadro 1 mostra os possíveis resultados ass

o exame que está sendo avaliado e o resultado definitivo. d

Resultado do exame Sim Não Total

Sim a b a+b Não c d c+d Total a+c b+d a+b+c+d

De modo geral, podem ser listadas quatro formas de se estabelecer um teste

-

Dependendo do caso, qualquer uma dessas formas de diagnóstico pode ser avaliada, comparando-a com outra forma tida como mais precisa. Do quadro 2 é possível extrair os conceitos e as relações descritos a seguir:

also-positivo

diagnóstico: - Exame clínico Exame laboratorial

- Exame anátomo-patológico - Exame por imagem

F

.

also-negativo

Indivíduos sadios cujo exame resultou positivo. No quadro 2, corresponde a letra b

F

Indivíduos doentes cujo exame resultou negativo. No quadro 2, corresponde a letra c.

63

8.1.1 PROPRIEDADES ESTÁVEIS

Quando as proporções diferentes de pacientes sadios e doentes são testadas, os seus valores não se alteram. São duas estas propriedades: Sensibilidade

É definida como a proporção entre o número de indivíduos, cujo exame resultou ositivo e tem a doença, e o número total de doentes. p

caaadeSensibilid+

=

OBS: quanto mais próximo de 1 melhor será este teste.

specificidaE de ero de ind resulto ivo, e o núm de indivíduos sadios. Então

Proporção entre o número total

ivíduos sadios, cujo exame u negat,

dbddadeEspecifici+

=

OBS

: quanto mais próximo de 1 melhor será este teste.

8.1.2 PROPRIEDADES INSTÁVEIS Valor preditivo positivo

É a proporção entr s com exame positivo e o número total de exames pos

e o número de indivíduos doenteitivos.

baa positivo preditivo Valor+

=

Valor preditivo negativo

É a proporção entre o número de indivíduos sadios com exame negativo e o número total de exames negativos. Este valor dá a eficiência com que o resultado negativo de um exame exclui a doença em questão.

dcd negativo preditivo Valor+

=

Acuidade Esta propriedade verifica a proporção de acerto do exame diagnóstico sobre o diagnóstico de certeza. Por esta razão, alguns autores a chamam de eficiência global do teste, ou simplesmente eficiência.

dcbada Acuidade

++++

=

64

Prevalência É o total de pacientes doentes sobre o total de pacientes, ou simplesmente, proporção de pacientes doentes. Para se Ter esta propriedade, é necessário dispor do diagnóstico de certeza.

dcbaca aPrevalênci

++++

=

Exemplo: Temos que o quadro 2 foi extraído da publicação “Como ler revistas Médicas”,

pidemiologia Clínica e Bioestatística do Centro de Ciências da Saúde da Universidade de MacMaster da cidade de Hamilton, Ontario, Canadá, para o programa brasileiro de Epidemiologia desenvolvido com o apoio da SEPLAN e do CNPq.

diograma de esforço como um indicador etenose das coronárias

quando a doença está presente em metade dos homens examinados

Mais de 75% de Estenose

do Departamento de E

Quadro 2 – Eletrocar

Eletrocardiograma de esforço Presente Ausente Total

+ 55 7 62 - 49 84 133

Total 104 91 195 Obs: o diagnóstico de certeza foi obtido por arterioscopia

Com base nesses dados, foi possível calcular, para o exame ECG

Sensibilidade = 0,5288 Especificidade = 0,9231 Valor preditivo positivo = 0,8871

reditivo ne ,6316 e = 0

Prevalência = Pode s do que os resultados aplicação do ECG de esforço não são muito onfiáveis. O resultado da Sensibilidade do teste, que mostra a proporção de falso-

os doentes, é exageradamente alto (47,12%). A eficiência global do teste, cuidade, também não nos oferece resultados muito alentadores. O teste possui falha de

diagnóstico nos sentidos do falso-positivo e falso-negativo; portanto, deve ser complementado com maiores informações antes de uma exploração das artérias, se for o aso.

Valor pAcuidad

gativo = 0,7128 0,5333

er nota da cnegativos entreA

c 8.2 ODDS RATIO (OR)

É uma medida de probabilidade, definida como o quociente de duas probabilidades, complementares entre si. Na tabela, o odds de presença de exposição ao fator, entre os casos, é a/c; o odds de presença de exposição ao fator, entre os controles, é b/d. O quociente entre estes dois odds é o odds ratio. É também denominado “razão dos produtos cruzados”. Em português, odds ratio pode ser traduzido, literalmente, como “razão do quociente das probabilidades”.

É uma estimativa de máxima verossimilhança de todos os valores possíveis de razões de chance na população. Este valor é aquele que teria a maior probabilidade de ter originado os dados da amostra.

65

A associação entre o fator de risco e a doença pode ser especificada como positiva ou teste estatístico monocaudal; não sendo especificada, tem-

um teste bicaudal. ,

poden

negativa, situação que leva a umse

OR=1 indica que probabilidade de doença nos expostos ao fator de risco e nos nãoexpostos são equivalentes. OR>1 indica que a exposição ao fator em estudo é de risco

do implicar em relação causa efeito. A decisão estatística é baseada na estatística χ2 (qui-quadrado), com um grau de liberdade. Se o nível de significância for α = 5% e o teste for bicaudal, χ2 é comparado com 3,84; se maior indica uma associação estatísticamente significante. Estimativa Pontual

bcad

db

ca

chances de razão OR ===

Estimativa Intervalar

alo de confiança para a OR é dada por: Uma estimativa do interv

⎥⎦

⎤⎡=

+− σσ αα22

)ln()ln(

,zORzOR

eeIC , onde⎢⎣ dcba

1111+=σ ++

Exemplo: Apresenta-se um estudo de c trole, conduzido em São Paulo, para

vestigar a possível associação causal entre consumo de bebida destilada e câncer de aso-con

inesôfago (Gimeno et alii). Os casos foram obtidos em hospitais, não tendo sido incluídos pacientes com câncer no trato digestivo. Considerando-se apenas a exposição ou não a álcool, os dados estão dispostos na tabela abaixo e o resultado do teste de hipóteses e o intervalo da estimativa da odds ratio, com 95% de confiança, são apresentados a seguir:

Condição Exposição ao álcool Caso C e ontrol Total

Presente 75 152 227 Ausente 10 140 150 Total 85 292 377

SOLUÇÃO:

91,610152

14075=

××

==OR bcad

[ ] [ ]9,13;4,391,6;91,691,6, 356,096,1356,096,1)ln()ln(

222 =××=⎥⎦

⎢⎣

356,0140

1101

1521

7511111

=+++=+++=dcba

σ

⎤⎡×=⎥

⎦

⎤⎢⎣

⎡= ×+×−

±+−

eeeeeICzzORzOR σσσ ααα

66

8.3 RISCO RELATIVO (RR)

O R

ulas para cálculo do intervalo de confiança do RR estão disponíveis para testar sua significância estatística. Este procedimento é indicado para aqueles estudos onde o tempo estudo. Estimativa Pontual

isco Relativo é definido como “a razão (ou quociente) entre a taxa de incidência da doença no grupo exposto e a taxa de incidência da doença no grupo não-exposto”.

Um RR = 1 indica não haver associação entre o fator de risco e a enfermidade; a medida em que o valor do RR aumenta (afasta-se de 1), aumenta também a “força” desta associação. A magnitude do RR reflete, portanto, a força da associação fator de risco-doença. Fórm

de seguimento é uniforme e constante para todos os participantes no

dcc

baa

R co elativoRis RR

+

+==

Estimati a Intv ervalar Uma esti

mativa do intervalo de confiança para a RR é dada por:

⎥⎦⎣

⎤⎢⎡

=+− σσ αα

22

)ln()ln(

,zRRzRR

eeIC , ondedccbaa + +

−+−=1111σ

Exemplo: Em um estudo de Coorte (hipotético) para investigar o desenvolvimento de tuberculo infecção pelo M. tuberculosis (exposição) com e sem infecção pelo HIV (variável de confusão), o Risco Relativo e o seu respectivo intervalo de confiança ao nível de significância de 5% estão apresentados abaixo:

se pulmonar em indivíduos com

Tuberculose PulmonarInfecção M. tuberculosis Sim Não Total

Presente 39 701 740 Ausente 27 1244 1271 Total 66 1945 2011

48,4 2=27

7 039

=+ bac

RR =

1271+ dc

a

⎥⎦

⎤+− σσ αα )ln()ln( zRRzRR

⎢⎣

⎡= 22 ,eeIC =[1,53; 4,02].

67

8.4 COEFICIENTE KAPPA (K)

No item 8.1 foi visto como é possível avaliar a precisão de um exame ou método diagnóstico, comparando-o com um diagnóstico-referência. Pode-se também desejar comparar métodos diagnósticos iguais , elaborados por dois especialistas diferentes. O coeficiente de Kappa é utilizado para verificar a concordância entre os diagnósticos de dois especialistas. O Quadro 3 mostra as possíveis combinações dos diagnósticos de dois especialistas.

D

Quadro 3 - Concordância entre o diagnóstico de dois especialistas.

iagnóstico Médico 2Diagnóstico Médico 1 (+) (-) Totais

(+) a b a +b (-) c d c+d Totais a+c b+d a+b+c+d

No Quadro 3.2, a proporção da concordância observada é calculada, fazendo-se

Denomina-se proporção da concordância casual ao quociente

ndap +

=0

2

)).(()).((n

dbdccabapc+++++

=

O coeficiente de Kappa resulta

c

c

ppp

Kappa−−

=1

0

A concordância total entre os diagnósticos dos especialistas resulta num valor de Kappa igual a 1 (um), enquanto a total discordância é igual a 0(zero). Exemplo: Em uma determinada experiência, foi avaliado o grau de lesão do tecido hepático em 20 cobaias às quais foi administrada uma certa substância tóxica. Os resultados dos exames efetuados por dois patologistas foram o seguinte:

Cobaia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Patologista1 + + + + + + - + + + + + + - - + - + + - Patologista2 + + - + + + - - + + - + + - - - - - + - Obs: + indica presença de lesão e -, ausência de lesão.

Com base nesses resultados, é possível construir o Quadro 4:

Quadro 4

Patologista 2Patologista 1 (+) (-)Totais

(+) 10 5 15(-) 0 5 5Totais 10 10 20

68

Então

75,0200 =

510 +=p

5,040020200

2 ==)55).(50()010).(510( +++++

=cp

5,05,025,0

5,015,075,0

==−

−=Kappa

Adotando a classificação:

Kappa < 0,4 concordância leve ≤4,0 Kappa < 0,8 concordância moderada ≤8,0 Kappa < 1 concordância forte Kappa = 1 concordância perfeita

clui-se que existe uma concordância apenas moderada entre os diagnósticos dos atologistas.

Con

p

69

EXERCÍCIOS

1. a) ) o segundo filho ser homem, dado que o primeiro é homem?

2. A probabilidad nado teste ar resu egativo em portadores

de anticorpos o vírus é 10% ondo que os negativos ocorrem independentem probabilidad m portador de anticorpos contra o vírus da AIDS, que se apresentou três vezes para o teste, ter tido, nas três vezes, resultado

. Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é de 40%, ser A é

ponha ainda que a probabilidade de Rh+ é de 90% e o fator Rh independe do tipo sangüíneo. Nestas condições, qual é a probabilidade de uma

a) b)

stectomia no SCG do HE-FMIt no período de 1987 a 1993 e

entre o número de tumores encontrados e o

abela – Pacientes submetidos à Colecistectomia – Serviço de Cirurgia Geral do HE-FMIt.

Um casal tem dois filhos. Qual a probabilidade de: o segundo filho ser homem?

b

e de determi para AIDS d ltado n contra . Sup falsente, qual é a e de u

negativo?

3de 30% e ser B é de 20%. Su

pessoa tomada ao acaso da população ser: O+? AB-?

4. Em um artigo apresentado na XIV Semana Médica da FMIt, Pinotti, A.L. relata 527

acasos operados de Colecios resultados em termos de detecção de Tumores da Vesícula. Dentre as análises realizadas, foi efetuado um cruzamentosexo, como está sintetizado na tabela abaixo.

T

Tumores da Vesícula Biliar Sexo TotalPresente Ausente

Masculino 5 274 279 Feminino 20 228 248 Total 25 502 527

Definindo os eventos: A={TVB presente} e B={sexo masculino}, estimar, com base nos dados apresentados:

) P( A ) a

b) P( A | B) c) )B|A(P d) P( B ) ) P( B | A) e

f) )A|B(P Qual o significado da relação entre os resultados dos itens (b) e (c)? g)

% de seus habitantes sofrem de algum tipo de saúde pública. Sendo alérgico, a

ara os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa dessa população teve reação ao ingerir o

tico, qual a probabilidade de:

) Ser do grupo não alérgico? b) Ser do grupo alérgico?

5. Acredita-se que numa certa população, 20

alergia e são classificados como alérgicos para fins deprobabilidade de ter reação a um certo antibiótico é de 0,5. P

antibió a

70

6. 2 anos do departamento estadual de estradas são aprese daEstatísticas dos últimos nta s

na tabela a seguir, contendo o número de acidentes com vítimas, fatais ou não, e as condições do principal motorista

Vítim

envolvido, sóbrio ou alcoolizado.

as Motoristas Não Fatais Fatais Sóbrio 1228 275 Alcoolizado 2393 762

Você diria que o fato do motorista está ou não alcoolizado interfere na ocorrência de

EXE 7. O D

afeta entre 3 a 10% das crianças em atividade escolar. Assumindo que esta ar.

ao acaso, as duas apresentem DHDA.

) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso,

menos uma apresente DHDA.

olução: ) Seja o evento A = “criança em idade escolar com DHDA”. Então,

(A) = 6,6% ou 0,066, e

====∩ esposta:

vítimas fatais?

CÍCIOS RESOLVIDOS R

istúrbio de Hiperatividade com Déficit de Atenção, DHDA, é uma desordem que

probabilidade seja 6,6%, estim ) A probabilidade de que, entre duas crianças em idade escolar escolhidasa

bnenhuma das duas apresentem DHDA.

c) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, pelo

Sa P

%4356,0004356,0066,0)()2().1()21( 22 ouAPAPAPAAPR 0,004356 ou 0,4356%

) Denotando o evento “não-A” por A’, tem-se:

(A1’∩A2’) = (1 – 0,066)2 = (0,934)2 =0,872 ta:

b PRespos 0,872 ou 87,2%

. Ainda no tema da questão 7, imagine que em um dia de consultas, um neurologista tem na sua agenda 8 pacientes, dos quais 2 possuem DHDA. Calcular a probabilidade de:

túrbio. ) O segundo ter DHDA dado que o primeiro não tinha.

HDA dado que os dois primeiros tinham.

olução: o usada no problema 1, tem-se:

8

a) O primeiro paciente apresentar disbc) O terceiro não ter D

SMantendo a notaçã

71

a) %2525,082)1( ouAP == Resposta: 0,25 ou 25%.

%1,27271,072)'1\2( AAP =b) ou= Resposta: 0,271 ou 27,1%.

c) %100166)21'\3( ouAAAP ==∩ Resposta: 1 ou 100%.

9. Sabe

a) Qual a prevalência do DHDA no sexo feminino? E no sexo masculino? b) Com base na letra a do problema 1, calcular a probabilidade pedida sendo os dois

casos, um do sexo masculino e outro do sexo feminino. c) Construa uma tabela 2x2, cruzando a presença ou ausência de DHDA e o sexo, para

um total hipotético de 1.000 crianças, usando todos os dados apresentados nos itens anteriores.

o . Graficamente, é possível colocar o problema da seguinte forma (Fig. 3.3):

Onde:

’m xo masculino; ’f

a

P(Am)+P(Af) = P(A) Sabe-se ainda que

P(Am) = P(A).P(m)

ndo que o DHDA ocorre cerca de dez vezes mais em crianças do sexo masculino, e lembrando os dados do exercício 7,

Soluçã1

Am = DHDA no sexo masculino; Af = DHDA no sexo feminino;

= não-DHDA no seAA = não-DHDA no sexo feminino.

D Fig. 3.3, vê-se que:

72

P(Af) = P(A).P(f)

e forma que

Ainda, pelos dados do problema, tem-se que P(Am) = 10.P(Af). Então, considerando as proporções iguais de crianças do sexo masculino e do

sexo feminino, é possível escrever:

D

P(A) = P(A).P(m) + P(A).P(f)

%6,62

)()(

,6,6)(1)(21

=+ ouAfPAmP2

=+ AfPAmP

Então

%2,1%6,6.2)(%6,6)()(.10==∴=

+ AfPAfPAfP 112

ta:

A probabilidade para o sexo masculino será:

P(Am) = 10.P(Af) = 10.1,2% = 12% Respos A probabilidade de uma criança do sexo feminino apresentar DHDA é de 1,2%.

ara o sexo masculino, esta probabilidade é de 12%.

Tabela 3.5

DHDA

P

c) A tabela conjunta de freqüências resulta em (Tabela 3.5):

Sexo Presente Ausente Totais

Masculino 60 440 500Feminino 6 494 500Totais 66 934 1.000

dos casos de pessoas com o vírus e em 5% dos casos em pessoas sadias. Considerando essas informações:

a) Qual seria a probabilidade de ocorrer um falso-positivo? b) E de ocorrer um falso-negativo?

10. Para detectar a presença do vírus Z no organismo é efetuado o teste X. Sabe-se que o vírus Z está presente em 0,1% da população, enquanto o teste X acusa + em 99%

73

Solução ) Adotando a notação:

V = vírus; V’ = não-vírus; R+ = exame positivo; R- = exame negativo.

elos dados do problema, têm-se P(V) = 0,001, P(R+|V) = 0,99 e P(R+|V’) = 0,05. falso-positivo, de acordo com a notação que foi convencionada, pode ser escrito como (V’|R+). Então, pelo Teorema de Bayes:

cálculo da probabilidade de um exame positivo pode ser feito empregando-se o teorema a multiplicação de probabilidades. Assim

a

POP

Od

)'|().'()|().()( VRPVPVRPVPRP +++=+ 05094,005,0.999,099,0.001,0)( =+=+RP

Finalmente,

%05,989805,005094,0

05,0.999,0)|'( ouVP ==+

R

)()'|().'()|'(

++

=+RP

VRPVPRVP

esposta: Falso-positivo = 98,05%. A chance de um falso-positivo é surpreendentemente rande! g

Explicação: Se o teste fosse perfeito, detectaria um em cada mil casos, que é a incidência verdadeira do vírus. Entretanto, o teste acusa cinco em cada cem pessoas testadas. Portanto, dos indivíduos que o teste declara positivos, a maioria efetivamente não tem o vírus. b) O falso-negativo, de acordo com a notação que foi convencionada, é dado por P(V|R-). Dos dados do problema, é possível inferir P(R-|V) = 0,01; P(R-|V’) = 0,95. Pelo Teorema de Bayes:

)()|().()|(

−−

=−RP

VRPVPRVP

Então )'|().'()|().()( VRPVPVRPVPRP −+−=−

94906,095,0.999,001,0.001,0)( =+=−RP

%00105,00000105,094906,0

01,0.001,0)|'( ouVP ==+

Resposta: Falso-negativo = 0,001%, aproximadamente. A chance de um indivíduo efetivamente ter o vírus e o teste falhar é mínima. O teste, clinicamente é muito bom.

74

IV. DISTRIBUIÇÃO DE PROBABILIDADE

75

1. CONCEITO

Seja a variável aleatória (v.a.) X, que pode assumir os valores correspondentes ao conjunto

X = {x1, x2,..., xn}. A relação

( )ii xfx →

define uma correspondência entre todos os valores que a variável aleatória pode assumir, xi e suas respectivas probabilidades de ocorrência f unção de probabilidade da variável

período de tempo, são:

nde: X = 0

f(0) = 0,3164 f(1) = 0,4219 f(2) = 0,2109

é possível construir a função mostrada no quadro 1,

Quadro 1 X 0 1 2 3 4 Soma

(xi). Esta relação é a aleatória X.

f

Exemplo: Suponha que o número máximo de leitos que uma unidade de terapia intensiva comporte seja 4. Definido a variável aleatória X como “número de óbitos (na UTI)”, os valores que a v.a. pode assumir, num certo

X = {0, 1, 2, 3, 4}

osignifica nenhum óbito (quatros pacientes vivos); X = 1 (um) óbito (três pacientes

vivos) e assim por diante.

Supondo que as probabilidades associadas a cada um destes possíveis resultados sejam1

f(3) = 0,0461 f(4) = 0,0039

f(x) 0,3164 0,4219 0,2109 0,0461 0,0039 1

que é a função de probabilidade do número de óbitos, tomando quatro leitos (n = 4). Note que a soma

( ) 11

=∑k

=

para a v.a. X. Veja a Fig. 1.

iixf

é o resultado esperado, uma vez que estão sendo consideradas todas as possibilidades de ocorrência

76

0

0,050,1

0,4

0,45

0,20,25

0,3

0,35

0,15

0 1 2 3 4

densidade

. 1 - Distribuição de probabilidades.

N e resenta a função de probabilidade é igual a 1 m correspondência entre a área sob a função e a probabilidade de ocorrência da v.a. X.

Fig

ot que a soma das áreas sob a curva que rep ou 100%. Fica assi estabelecida uma

2. CONSTRUÇÃO DA FUNÇÃO DE PROBABILIDADE DADA A PROBABILIDADE DE UMA OCORRÊNCIA

Suponha que a probabilidade do óbito de um paciente, ao dar entrada na terapia

intensiva de 25% (risco de vida). Definindo a v.a. X como no exemplo anterior (número de óbitos), se um paciente

de entrada no CTI (n = 1), tem-se ( ){ } ( )⎩

⎨ ==

25,011,0

fX

⎧ = 75,00f

Se dois pacientes ingressarem no CTI (n = 2),

( ) ( ) ( )

{ } ( ) ( ) ( )⎪

⎪⎪⎨ ⇒

⎧ ==→= 3750,0

251875,025,0.75,0.

12,1,0 21 opvpfX ( ) ( )

( ) ( ) ( )⎪

⎧

⎩⎨ ==

==→

1875,075,0.,0.

5625,075,0.75,0.0

21

21

vpop

vpvpf

o índice indica o paciente (1 ou 2), p(o) e p(v) são as probabilidades de óbito e de sobrevida.

Evidentemente, a construção de f(x) para um número maior de casos é uma tarefa

repetitiva e trabalhosa. Uma forma sistemática de se calcular a probabilidade de um determinado número de ocorrências em n casos pode ser feita a partir da distribuição binomial.

⎩ ==→ 0625,025,0.25,0.2 21 opopf

77

3. DISTRIBUIÇÃO BINOMIAL

Seja uma variável aleatória definida em termos binários.Então a v.a.X tem duas possibilidades de ocorrência. Denominando a probabilidade de ocorrência de X de p

ão ocorrer X de q, tem-se p + q = 1.

a de k ocorrências da v.a.X em n casos é dada por:

nkXP −⎟

⎞⎜⎛

== )(

e a de n

A probabilid de

knk qpk ⎟

⎠⎜⎝

lembrando que e 0! = 1

Os parâmetros ad distribuição de probabilidade gerada por esta função são

• Média = valor esperado =E [X] = µ = n.p • Variância = σ2 n.p.q = n.p.(1- p)

• Desvio padrão = σ = O e binomial depende de p e de n

exclusivamen Exemplo: Suponha que a probabilidade de um indivíduo do sexo masculino, com mais de

ofra doenças cardiovasculares no período determinado pode ser calculada da seguinte forma:

= indivíduo, masculino, +60, sedentário, fumante, DCV n = 10 p = 0,4

sulta

bs rve que o formato da distribuição te.

60 anos, vida sedentária e fumante ativo de desenvolver uma doença cardiovascular nos próximos 8 anos seja de 40%. A partir de um estudo controle com dez indivíduos com essas características, a probabilidade de que nenhum destes indivíduos s

X

Então a probabilidade de nenhuma DCV re

O número esperado de casos de DVC no estudo final é igual a µ = 10.0,4 = 4 casos,

com um desvio padrão de σ = .

A probabilidade de se ter menos de três indivíduos com DVC seria calculada:

78

A probabilidade de mais de dois indivíduos afetados por DVC no período seria, analogamente,

Contudo, como é possível escrever

ntão,

E

4. DISTRIBUIÇÃO POISSON

A função de probabilidade de Poisson é dada por

lembrando e = 2,71828...

Substituindo por µ vem

Esta última expressão dá uma aproximação da distribuição binomial, tanto mais

precisa quanto menor o valor de p .Desta forma, sua aplicação em Medicina está relacionada a patologias raras (valor de p baixo).

Os parâmetros da função de probabilidade de Poisson são os seguintes

• Média = valor esperado =E [X] = µ = λ • ariância = σ2 λ • Desvio padrão = σ =

Exemplo: Suponha que uma a cada mil pessoas que utilizam determinado anestésico sofra ma reação negativa (choque). Num total de 500 cirurgias em que se empregou esse

anestésico, a probabilidade de que 1 pessoa sofra a reação pode ser calculada

µ =

u

λ= n.p = 500.0,001 = 0,5

0,3033 = 30,33%

A probabilidade de nenhuma reação seria

0,6065 = 60,65%

A probabilidade de mais de uma reação:

5. DISTRIBUIÇÃO NORMAL OU DE GAUSS 5.1. CONCEITO

79

A distribuição Normal ou de Gauss é dada pela função

curva normal deve ser igual a 1 ou 100%, ou seja Como a distribuição de Gauss é uma distribuição de probabilidade, a área sob a

5.2. CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL

•

Assintótica em relação ao eixo das abscissas. Simétrica em torno ao seu valor central (média = mediana = moda). Valores concentrados em torno da tendência central. As áreas (probabilidades) para

um, dois e três desvios padrões em torno da média são, respectivamente:

•

•

Para caracterizar a distribu média e o desvio padrão. Por esta

razão, quando se quer informar que uma variável se distribui normalmente, ição normal basta a

costuma-se escrever: N[µ,σ]. 5.3. VARIÁVEL ALEATÓRIA PADRONIZADA

Para calcular probabilidades associadas à distribuição normal, costuma-se converter a variável original do problema, X, em unidades reduzidas ou padronizadas, z. Esta transformação é efetuada por meio da relação:

variável aleatória padronizada, VAP

, tem média e desvio padrão a 0 e 1, respectivamente. Desta forma N[0,1] indica a VAP da distribuição normal. As áreas sob a distribuição normal, em função da VAP, encontram-se na Tabela da Normal Padrão (tabela1/ver Apêndice), com

A

o mostra a Fig. 4.2.

80

Fig. 2 - Área sob a curva normal de acordo com a tabela da normal padrão (Tabela 1).

Pela figura pode-se notar que a tabela fornece a área sob a curva normal para

valores menores ou iguais a z (área sombreada). Para encontrar áreas è direita de determinada valor da VAP, ou entre dois valores de Z, devem ser efetuadas composições de áreas, como é mostrado no exemplo a seguir.

Exemplo: Suponha que o comprimento de recém-nascidos do sexo feminino não-portadores de anormalidade congênitas seja uma variável aleatória com distribuição aproximadamente normal de média 48,54cm e desvio padrão 2,5cm.

A probabilidade estimada de um recém-nascido, escolhido ao acaso de ter

comprimento superior à média, 48,54cm, é de 50%, uma vez que a distribuição normal é simétrica e a média corresponde ao eixo de simetria da curva. A VAP, neste resulta igual a zero:

= 0

Na Tabela 1, para z = 0, a área sob a curva é igual a 0,5 ou 50%. A probabilidade do comprimento ser inferior a 44,79cm pode ser encontrada da

seguinte forma

Na Tabela 1, para z = -1,5, a área sob a curva é igual a 0,0668. Portanto,

A probabilidade de o comprimento ser superior a 47,29cm, por exemplo, pode ser encontrada

%68,6)79,44( =≤XP .

5,05,2

54,4829,47−=

−=z

81

Na mesma tabela, para , a área sob a curva é igual a 0,3085. Este valor -0,5z =corresponde à área à esquerda de -0,5z = , o que representa valores menores do que

7,29cm. Como se deseja a probabilidade de uma criança com comprimento maior que 47,29c

5

4m, a área desejada está à direita de z = -0,5. Como a área total sob a curva é igual a 1

ou 100%, basta fazer

( ) 308,0129,47 −=≥XP %.15,696915,0 ==

ara calcular a probabilidade entre 46,04 e 51,04cm, deve-se fazer

P

15,2

−==z 54,4804,46 − 15,2

+=54,4804,51 −

=z

Para z = -1, a área sob a curva é igual a 0,1587. Para z = +1, a área resulta 0,8643.

Então: ( ) %.56,707056,01587,08643,004,5104,46 ==−=≤≤ XP

Um outro cálculo que pode ser efetuado a partir da normal é determinar o limite

ferio e

ncontrar o valor 0,9500 (95%). Este valor corresponde a um valor correspondente a um valor de z igual a +1,65 (aproximadamente). Então:

in r d , por exemplo, as 5% das crianças de maior comprimento. Este valor corresponde, no caso, ao percentil 95. Este cálculo é útil na construção de curvas de crescimento ou pôndero-estaturais (peso, estatura, perímetro cefálico etc.).

No caso, deve-se procurar no interior da tabela 1 até e

cmxx 67,5254,485,2.65,154,4865,1 =+=∴5,2

−=+

Este limite que apenas 5% das crianças nascem com comprimento superior a

52,67cm.

6. DISTRIBUIÇÃO t-STUDENT

O uso da distribuição de t-Student, ou simplesmente distribuição t, está associado estudos com pequenas amostras. Considera-se uma pequena amostra, uma amostra com n 30. Em medicina, este tipo de situação é bastante freqüente, pelas limitações muitas ezes encontradas na obtenção de dados clínicos. Quando a amostra é grande, a istribuição de t-Student se aproxima da distribuição Normal. Na prática, para n > 100, as istribuições são quase iguais. De modo geral, a distribuição de Student depende de

função de probabilidade = f(t, v)

nde t é o valor de abscissa (assim como z na distribuição normal) e v é o que se denomina e graus de liberdade.

Quanto maior o valor de v, mais achatada se torna a curva de t-Student. Para valores de v próximos a cem, a curva de t-Student é quase igual à curva de Gauss.

a<vdd

od

82

7. DISTRIBUIÇÃO DE FISHER

A distribuição de Fisher, ou distribuição F, está geralmente associada a estudos elacionados à variância de dados. Como será visto mais adiante, ao se desejar provar uma ipótese referente à comparação de conjuntos numéricos, a determinação de relação entre s variâncias desses conjuntos é fundamental.

De modo geral, a distribuição de Fisher, ou distribuição F, depende de

função de probabilidade F = f(u, v1,v2)

nde u é o valor de abscissa da distribuição de Fisher , v1 e v2 são os graus de liberdade da istribuição.

Assim como ocorre com a distribuição de t-Student, a distribuição de Fisher às plicações diretas, como no caso da distribuição Normal, não são interessantes. Suas plicações estão relacionadas com testes estatísticos.

rha

od

aa

8. DISTRIBUIÇÃO QUI-QUADRADO

A distribuição de Qui-quadrado, ou χ2, corresponde à distribuição de robabilidade da soma dos quadrados de n variáveis aleatórias independentes, distribuídas ormalmente e padronizadas(média 0 e desvio padrão 1).Ou seja,

22

χ2 = f(x,v)

onde x é o valor de abscissa e v os graus de liberdade.

Assim como as distribuições t e F, a distribuição e Qui-quadrado tem aplicações nas

realizações de teste de hipóteses, que serão desenvolvidos posteriormente. Os valores da distribuição de χ2 estão no final da apostila.

pn

2221 ... nxxx +=χ

A distribuição de Qui-quadrado é função de função de probabilidade

83

V. ESTATÍSTICA INFERENCIAL

84

1. NOÇÕES ELEMENTARES DE AMOSTRAGEM Dizemos que em determinadas ocasiões, há de se proceder a coleta de dados diretamente da origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo. Entretanto, quando é impossível se observar toda a população em que desejamos studar o fenômeno, recorremos às técnicas de amostragem, em que nos limitamos a uma

população, que irá fornecer formações que serão generalizadas para a população. Para que esta generalização seja

ossível, os integrantes da amostra devem ser escolhidos adequadamente. e elementos para os quais devem ser

bservadas e/ou mensuradas as variáveis de interesse dentro da questão ou problema

eamostra do Universo.

Damos início a determinação de uma fração dainp Existe a necessidade de definirmos o conjunto doestabelecido. Vamos, então, definir alguns termos necessários. Conceitos Básicos: População Objeto: É a população total de interesse sobre a qual desejamos obter

formações. Por exemplo, as peças produzidas por uma fábrica.

opulação de Estudo: É o conjunto de indivíduos de interesse específico. Ex: as peças que

opulacional: Este é o aspecto da população que interessa ser medido. Ex: diâmetro das peças.

Unidade Amostral: Deve ser definida de acordo com o interesse do estudo, podendo ser uma peça, um indivíduo, uma família, uma fazenda, etc. A escolha deve ser feita no início

Vantagens e Desvantagens da Amostragem em Relação ao Censo

in Ppermanecem no estoque. Característica PO

da investigação. Estrutura Amostral: É a fonte do nosso estudo, ou seja, é o conjunto de unidades amostrais. Ex: O conjunto das peças selecionadas.

Vantagens:

b)

os amostragem, consideramos pecializado, concorrendo para que

a) Economia: É evidente que ao utilizarmos apenas uma fração de uma população,

estaremos economizando dinheiro, material, pessoal, etc. Rapidez: Quando desejamos urgência nas informações a economia de tempo será indiscutível.

c) Maior amplitude do Universo: Com o mesmo custo do CENSO, temos condições de pesquisar uma área muito maior.

d) aior exatidão: Num planejamento em que utilizamque o pessoal a ser utilizado é mais treinado e esM

os resultados encontrados sejam mais detalhados, o que não ocorre com o CENSO. Desvantagens:

Em uma população com número menor que 100 (cem) elementos, a utilização de

amostragem não será vantajosa. Neste caso procederemos ao Censo. A principal desvantagem seria a de que não proporciona informação sobre todos os

lementos da população. e

85

Tipos de Amostragem: Amostragem Probabilística: É o procedimento através do qual existe uma probabilidade conhecida e diferente de zero para cada elemento da população vir a ser selecionado para constituir a amostra. Também é dita amostragem aleatória. Amostragem Não Probabilística (ou Não Aleatória): Quando, no processo de seleção, não existe nenhum mecanismo de probabilidade associado. Procedimentos Amostrais Probabilísticos Simples Segundo a definição de amostragem probabilística, existe a suposição de sorteio

uja realização só será possível se a população for finita e talmente acessível. Essa amostragem probabilística é a melhor garantia da

represe

osição: É um procedimento de amostragem tal que cada elemento

Dada uma população finita com Ν elementos consideremos a seleção de n < Ν

ssíveis, nestas circunstâncias é:

com regras bem determinadas, cto

ntatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre a população e a amostra.

População Finita: É um conjunto de Ν elementos, onde Ν é um número natural inteiro. Amostragem Sem Repselecionado não retorna à população até que o tamanho pré-definido para a amostra tenha se completado. Os principais tipos de amostragens probabilísticas são:

I - Amostragem Casual Simples (A.C.S) ou Amostragem Aleatória Simples (A.A.S). elementos para constituir uma amostra, sem reposição. Pode-se demonstrar que o número total de amostras po

CNn N

nN

n N n=

⎛⎝⎜

⎞⎠⎟ =

−!

!( )! ,

efinição 1.1: Um procedimento de amostragem é dito CASUAL SIMPLES, SEM DREPOSIÇÃO, se cada uma das possíveis amostras têm a mesma probabilidade de seleção.

ma, é possível demonstrar que, cada elemento A partir da definição aci , na

de de ser selecionada na amostra. Por isso, tal fato tem do utilizado para caracterizar uma amostragem casual simples.

ocedimento Prático para Selecionar uma A.C.S.

população, tem a mesma probabilidasi

Pr

Para poder distribuir, a cada elemento na população, a mesma probabilidade de ser ssário, inicialmente, estabelecer a identificação de cada

elemento através de um rótulo. Isto constitui a operação de listagem da população de estudo.

selecionado, sem reposição, é nece

Em geral, a listagem é estabelecida identificando, cada elemento na população, por um número. Por exemplo, se a população tem tamanho Ν = 350 então, os elementos são identificados pelos números: 001; 002; 003; . . . . .; 348; 349; 350.

86

S ou pela geração de números aleatórios em algum program

os men

uma população de N = 500 elementos ordenados, retirar uma amostra

Uma vez listada a população poder-se-ia utilizar procedimentos mecânicos para selecionar a amostra, digamos, de tamanho n = 10. Poderíamos utilizar, por exemplo, uma roleta (não viciada) com números de 001 a 350 e girá-la 10 vezes anotando os números de parada da roleta (e excluindo as possíveis repetições). Os elementos populacionais rotulados com tais números seriam os componentes da amostra. Alternativamente, poderíamos colocar 350 bolas numeradas de 001 a 350, em uma urna e selecionar 10 bolas numeradas. Outros procedimentos mecânicos poderiam ser imaginados.

No entanto, tais procedimentos são, operacionalmente complexos principalmente para grandes populações. A questão é resolvida, de modo mais simples, através do uso da TABELA DE DÍGITOS ALEATÓRIO

a computacional. A tabela é constituída de tal forma que cada um dos dígitos de 0 a 9 tem a mesma probabilidade de aparecer, em uma dada posição, que qualquer outro, na referida tabela. II - Amostragem Sistemática.

É realizada quando os elementos da população estão ordenados e a retirada dos elementos da amostra é feita periodicamente, ou sistematicamente.

Suponhamos que se deseja selecionar uma amostra de tamanho n de uma população finita de tamanho Ν. Suponhamos que o quociente (Ν / n) = κ seja um número inteiro. Uma amostra sistemática, de intervalo κ, consiste em selecionar 1 a cada κ elementos da população de interesse. O caráter aleatório ou casual é dado pela seleção do INÍCIO CASUAL. Este é determinado selecionando-se, aleatoriamente, um número entre 1 e κ. Este número corresponde ao primeiro elemento selecionado para compor a amostra. Os demais são obtidos adicionando-se κ ao início casual. Por exemplo: κ = 5. Início casual 3. Então,ele tos selecionados serão os elementos numerados pelos números 3, 8, 13, 18, ... A amostragem sistemática é extremamente simples para ser operacionada em trabalho de campo, razão pela qual, em muitas circunstâncias é utilizada em substituição da amostragem aleatória simples. EXEMPLO: De sistemática de 100.

5100500

=⎥⎦⎤

⎢⎣⎡=k

Seja 1 ≤ k ≤ 5. Suponhamos que k = 3. Logo temos:

º elem1 ento da amostra: 3º 2º elemento da amostra: 3 + 5 = 8º 3º elemento da amostra: 8 + 5 = 13º . . .

0º ele10 mento da amostra: 493 + 5 = 498º III - Amostragem Estratificada.

A estratificação de uma população correspondente a uma subdivisão da mesma, em

subpopulações, de tal forma que haja a maior homogeneidade possível dentro e a maior heterogeneidade possível entre tais subpopulações. Cada uma destas subpopulações constitui um estrato.

87

Um exemplo prático disso ocorre ao supor que um tipo de opinião pública de uma idade pudesse depender da renda do opinante, isto é, ser influenciado pelo bairro de

amostra leatória simples ou uma amostra sistemática, dentro de cada bairro. Dizemos, neste caso,

O foi ESTRA

tomando-as como variáveis de estratificação. IV - Amostragem por Conglomerados

Uma amostragem por conglomerado é uma amostra aleatória simples na qual cada s. Este esquema amostral é

ação em grupos que sejam bastante ortes discrepâncias dentro dos grupos, de modo que cada

co. A esses

O primeiro passo para se usar este processo é especificar conglomerados apropriados. Os elementos entre os conglomerados devem ter características similares.

relação a Tconglomentretant e cada grupo (estrato),

ecionam-se amostras aleatórias simples dos conglomerados selecionados farão

parte da amostra. Para o exemplo da amostragem nos bairros da cidade, teríamos os bairros como ESTRATOS e as CASAS como CONGLOMERADOS. Uma vez feita a escolha do Bairro, selecio

strução, etc. A amostragem por conglomerado é recomendada quando: a) Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; b) O custo da obtenção de informações cresce com o aumento da distância entre os elementos. Observ

abilidade. Por outro lado, antes de iniciar qualquer análise dos dados através dos métodos estatísticos da estatística indutiva, é preciso organizá-los, o que é feito com as técnicas da estatística descritiva. Um outro problema que surge paralelamente é o da escolha da amostra, pois nossas conclusões, referentes à população, vão basear-se nos resultados dessa amostra. Certos cuidados devem ser tomados no processo de obtenção dessa amostra, ou seja, no processo de “amostragem”, pois muitas vezes erros grosseiros e conclusões falsas ocorrem devido à falhas nesse processo.

cresidência do opinante. Uma amostra casual simples, entre a grande quantidade de amostras possíveis, poderia favorecer o aparecimento de todos os opinantes de um bairro só e nenhum dos demais, produzindo um viés nos resultados. Para evitar tal fato e garantir a presença de elementos de todos os bairros ligados à área de influência em questão, podemos subdividir a população por bairro de residência e, então, selecionar uma aque o bairro é a VARIÁVEL DE ESTRATIFICAÇÃO, ou que a POPULAÇÃ

TIFICADA POR BAIRROS. Sempre que em uma investigação existe uma ou mais variáveis que podem interferir

nos resultados da variável sob análise é conveniente controlar o efeito de tais variáveis

unidade amostral é um grupo, ou conglomerado, de elementoutilizado quando há uma subdivisão da populsemelhantes entre si, mas com fum possa ser uma pequena representação da população de interesse específigrupos dar-se o nome de CONGLOMERADOS.

Como regra geral, o número de elementos em um conglomerado deve ser pequeno em o tamanho da população, e o número de conglomerados razoavelmente grande. anto no caso da amostragem estratificada, como no da amostragem por erado, a população deve está dividida em grupos. Na amostragem estratificada, o, seleciona-se uma amostra aleatória simples dentro d

enquanto que na amostragem por conglomerado selde grupos (conglomerados), e todos os itens dentro

na-se ao acaso as casas que farão parte da amostra. Uma vez escolhida a casa, todos os seus moradores devem fazer parte da amostra. Desta forma, existe uma homogeneidade entre as casas do mesmo bairro, devido às condições sócio-econômicas que levaram seus moradores para lá, e uma heterogeneidade entre os moradores da casa em termos de idade, sexo, renda, nível de in

ação: A inferência estatística é embasada em conceitos e resultados da Teoria da Prob

88

Cálculo do Tamanho da Amostra

ara se fazer inferência faz-se necessário saber o número mínimo de elementos s amostrais) que devem ser selecionados na população para dar seguimento ao essa forma, pode-se utilizar fórmulas desenvolvidas para o cálculo do tamanho da e acordo com o tipo de estudo ou

P(unidadeestudo. Damostra d parâmetros a serem estimados. A seguir temos

ois exemplos para cálculo do tamanho de uma amostra se estimar uma proporção.

anho da amostra, para variáveis dicotômicas, segue os mesmos princíp

d I. Cálculo do tamanho da amostra para avaliar a sensibilidade e especificidade

O cálculo do tamios estabelecidos em estudos descritivos, sendo necessária as seguintes informações:

2

2

0)1(

dppzn −

=

onde:

p = proporção esperada da variável de interesse na população

rgem de erro ou precisão

te positivo iloto). Quantos indivíduos com malária deverão ser

ar um intervalo de 95% de confiança para a sensibilidade do teste com uma margem de erro de 0,04?

SOLUÇÃO: p = 0,8, d = 0,04 e z = 1,96 (IC 95%)

d = ma

z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)

EX 1.1: Em um estudo para determinar a sensibilidade de um novo teste diagnóstico para malária, espera-se que 80% dos pacientes com malária tenham tes(resultado de um estudo pincluídos no estudo para se estim

38504,0

)8,01(8,096,1)1(2

2

2

2

0 =−××

=−

=d

ppzn

Se mais de 10% da população é amostrada é necessário fazer uma correção. Esta consiste em multiplicar a variância por (1-f)½ onde f = n/N (1-f Correção para a o finita). A correção para a população finita também pode ser aplicado a n, assim passa a ser:

correção populaçãa fórmula

⎟⎞

⎜⎛ +

=n

n01

⎠⎝ N

n0

Se no exemplo 1, tivéssemos a informação que o número de pessoas na população onde será aplicado o teste é de 1.000 pessoas. O tamanho de amostra agora passaria a ser de:

278

000.13851

385

1 0

0 ==n

n =⎟⎠⎞

⎜⎝⎛ +⎟

⎠⎞

⎜⎝⎛ +

Nn

89

EX 1.2: Para encontrar o tamanho da amostra capaz de determinar a especificidade do teste utiliza-se a mesma metodologia. Por exemplo, se o investigador espera que

alária tenham teste negativo, para a determinação de uma especificidade de 90% com margem de erro de 0,04 e um intervalo de

valência obtida depende do tamanho de amostra. Assim, a plitu

90% dos indivíduos sem m

confiança de 95%, temos que aproximadamente 216 indivíduos sem malária deveriam ser incluídos no estudo.

II. Cálculo do tamanho da amostra para detectar uma prevalência

Enquanto a amostragem probabilística viabiliza a validade interna do estudo, a precisão na estimativa da pream de do intervalo de confiança (estimativa por intervalo da prevalência populacional) reflete o grau de precisão decorrente do tamanho da amostra fixado. O cálculo do tamanho da amostra é dado por:

2

2

0)1(

dppzn −

=

onde:

p = prevalência esperada da variável de interesse na população

d = margem de erro ou precisão

z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)

E a correção para população finita é

⎟⎠⎞

⎜⎝⎛ +

=

Nn

nn

0

0

1

EX 1.3: Para se estimar a soropositividade ao vírus da dengue em uma população de aproximadamente 1.000.000 habitantes tendo como parâmetro uma prevalência esperada de 15% (p=0,15), com amplitude do IC de 95% de 12% (d=0,06), o número de pessoas a serem investigadas seria:

SOLUÇÃO: p = 0,15, d = 0,06 e z = 1,96 (IC 95%)

13606,0

)15,01(15,096,1)1(2

2

2

2

0 =−××

=−

=d

ppzn

Na maioria dos estudos, será necessário aumentar cerca de 10% o tamanho da amostra, para levar em consideração os não respondedores, isto é, indivíduos não selecionados que se recusaram a participar.

90

2. DISTRIBUIÇÃO AMOSTRAL Como já sabemos, o problema de Inferência Estatística é fazer uma afirmação sobre os parâmetro da população através da a ostra. Digamos que nossa afirmação deva ser feita sobre um parâmetro θ da população (édia, variância ou qualquer outra medida). Decidimos que será usada a amostragem aleatória simples (a.a.s.), de n elementos sorteados dessa população. Também decidimos que nossa decisão será baseada na estatística T, que será um

s m

elhor compreendida se soubéssemos o que acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado. Isto é, qual a distribuição de T quando

assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da estatística T e desempenha papel fundamental na teoria de Inferência Estatística. Esquematicamente, teríamos o procedimento representado na figura abaixo, onde temos: i. Um um certo parâmetro θ de interesse. ii. Todas as amostras retiradas da população, de acordo com um certo procedimento. iii. Para cada amostra, calculamos o valor t da estatística T. iv. Os valores de t formam uma nova população, cuja distribuição recebe o nome de

distribuição amostral de T.

a função da amostra ( , , ... , )X X X n1 2 . Colhida uma amostra, teremos observado um particular valor de T, digamos to, e baseado nesse valor é que faremos a afirmação sobre θ, o parâmetro populacional. validade de nossa afirmação seria mA

( , , ... , )X X X n1 2

a população X, com

91

92

2.1. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA

Vamos estudar agora a distribuição a l da estatística X mostra , a média amostral. C siderem m u id ca áv p tr dia po ulacion

on os u a pop lação entifi da pela vari el X, cujos arâme os mép al µ e v cia la o am c d m irar

to s as po s a as is les de tam dessa população, e para cada uma ca ular a

ariân popu cional 2σ , sã supost ente onheci os. Va os retda ssívei mostr casua simp anho nlc média X . Em a tr a bu am l e uas

pr priedadSej a la o a 20 cé ci P st am

m surado pe o r. is ão p do ém id gue se undo ap ad gr b

Par ã s p d e 2 3 am ss mos

ret ar toda os a s a 5, , 0 o o om a distribuição amo a .

=5

édiaP

1

3177 3161 3617 2510 2847 2891 2207 3764 2979 2948 3140 2837 2967 3048 2861 2889 2559 2882 3319 2903 3617 3141 2798 3265 3130 3161 3433 3473 2848 2823 2847 2773 3351 2755 3143 3177 2682 3022 3806 3145 2798 3048 3422 2640 2759 2798 3108 2953 2965 2819 2594 2722 2896 3130 3433 2961 3152 3143 3121 3095 2631 2877 3585 2722 2807 3088 2649 2525 2883 3079 3122 3174 3143 2783 2370 3594 3183 2963 2961 2906 2979 3165 3046 2965 2903 3319 3124 3070 2699 3522 Média 2949 2937 3179 2904 2944 3051 2946 3098 3080 3100 DP 325,8 239,5 294,6 258,6 293,2 278,2 397,1 335,9 312,9 312,1

seguid , cons uamos distri ição ostra e estud mos so es.

a um popu ção c mpost por 0 re m-nas dos. ara e es foren s os sos a nasce A d tribuiç dos esos s rec -nasc os seg resent o no áfico a aixo.

a esta populaç o temo que o eso mé io é d 982 ± 11 gr as. A im vair s as p síveis mostra de tam nhos 10, 15 20 e 4 e ver que ac ntece c

stral d média

N 3183 2666 3131 3174 2933 2667 2857 2936 2856 3392 3012 3143 2547 2902 2861 2903 3124 2889 3017 2631 2953 2312 3046 2996 2510 3103 2783 3585 3024 2394 3255 2896 2937 3079 3123 2312 2547 2547 2969 3161 3422 2558 3125 3454 2995 3014 2699 2837 3123 3351 M 3.165 2.715 2.957 3.121 2.884 2.800 2.802 2.959 2.998 2.986 D 189,0 318,4 242,3 211,6 230,4 317,8 213,7 381,4 97,0 448,7

N= 0 2589 2471 2963 3222 3189 2631 3360 3189 3222 3764

0

90

80

70

60

20

10

30

40

= 2 50 550 50 315 345

Pe

N

50

< 250 22 - 2550 2 - 2850 28 - 3150

so (kg)

0 - 3450 0 - 3750 >3750

N=15 2948 3108 3319 2948 3419 2737 2837 2234 3041 3039

édia

2

édia

3161 3210 3174 3473 3222 2883 2666 3594 2967 2649 3145 2953 3130 2889 3255 2234 3351 3176 2821 3108 3270 3376 2967 2471 3145 2370 2767 2414 3226 2909 2495 3041 3056 2661 3376 2821 2635 3177 3058 3210 2965 2891 3567 2821 3639 2763 3394 3178 3319 3329 3143 2847 3641 3012 3174 3222 2838 3210 3567 3246 2617 3048 3360 2967 2759 3152 3255 3108 3123 2823 3394 2889 3546 3293 2776 3268 2873 2877 3346 3046 2631 2423 3806 3070 3072 2819 3012 2682 2423 3376 3346 2883 2414 3329 2661 2953 2805 3165 3433 2861 3070 2666 3041 3015 2595 3210 3070 2635 2672 3764 3121 3319 2902 2883 3024 2995 2902 2631 3183 2819 3546 2776 3103 3106 2856 2525 2394 2823 3230 3301 2903 3130 3376 3246 2856 3394 3641 3015 2979 2312 M 3.050 2.971 3.227 3.012 3.055 2.890 2.963 2.928 3.093 3.053 DP 298,3 248,6 348,3 260,4 302,3 335,6 329,6 358,5 296,9 347,5

N= 0 2903 3246 3058 2279 3061 3131 3346 3276 3473 3123 2547 3088 3298 2414 2722 3210 3255 2635 3106 2995 2984 2547 2776 2965 2414 2763 3174 2810 2595 2965 2778 2783 2903 3319 2312 3058 3594 2996 2889 2948 3481 2933 2961 3070 3130 3048 3268 2873 3123 2837 3222 3152 3068 3456 3070 3233 3293 2539 2882 3065 3070 2661 3072 2837 2234 3456 2857 2961 3639 3124 2847 3061 3226 3265 3140 2672 3030 2778 3124 3070 2798 2423 2805 3230 3639 3319 3061 2891 2967 3268 3088 3451 3473 2967 2924 2902 2558 2902 3222 3050 3585 2891 3177 3124 2423 2764 3319 2661 3376 2823 3329 3022 3143 2975 3419 2857 3276 2889 2778 2672 2877 3046 3222 3012 2975 3014 2952 2882 2807 2889 2882 3546 2975 3108 3125 3124 2894 2821 2279 2819 2969 3265 2924 3293 3022 3030 2937 3293 3265 3246 3015 2856 2414 2933 2495 2755 3360 2798 2821 3178 2649 3178 2234 3123 3124 2510 3567 2763 2759 3106 2559 2778 3617 2952 2767 2783 2882 3301 2370 2589 2558 2838 3433 2623 3145 3226 2936 2819 2798 3079 3454 2773 2782 3125 3456 2635 3143 3246 2963 3177 M 2.980 2.977 3.028 3.004 2.930 2.975 3.135 2.907 2.962 3.001 DP 308,9 286,1 333,5 292,3 392,1 252,9 258,1 219,1 342,8 183,3

93

N=40 3178 2547 3346 2933 2857 2394 2902 2821 3014 3419 2847 2894 2937 3130 2996 2737 3806 2967 3070 2847 3268 3165 3130 2969 3106 3222 3022 3454 3050 3319 3226 2782 2965 2794 3396 3070 2810 2933 3046 2967 3270 2984 2821 2963 2279 2312 3176 2285 2821 2495 2778 3293 3068 3161 3041 2906 3594 3130 2963 3070 3385 3015 3140 2798 2810 3145 3088 3015 2759 2471 2794 2969 2667 3017 2394 2967 2423 3394 3385 2635 3617 3255 2640 2894 3178 2525 3079 2903 3103 3130 3124 3329 3046 3079 2471 3522 2234 2672 3177 2525 3301 2394 3210 2617 2722 3276 3183 3246 2783 2953 3233 2856 2975 3189 3222 3268 2995 2937 2207 3255 3046 3806 2848 2623 2582 2370 3177 2773 2937 2207 3764 2856 2953 2856 2763 3070 3061 2967 3143 3124 2595 3183 2948 3639 2495 3210 2936 2819 2995 2953 3174 3265 3106 2471 3072 2649 2967 2716 3130 3276 2924 2889 2279 2857 2767 3141 3106 2701 2672 2823 2882 2764 3351 3360 2863 3451 2819 2759 2856 2794 2995 2883 2495 3061 3145 3079 3639 3268 2961 3265 2617 3122 3293 2961 2755 2701 2699 2883 2279 3641 2807 3056 3639 2996 2666 3270 3617 2279 3639 3177

3070 2525 3048 3056 2617 2961 2207 2312 2820 2965 3141 3124 3124 3178

2221 3161 2861 2856 2877 2207 3451 3594 3176 2863 2861 2782 3106 2783 2776 3268 3233

2594 2782 3121 2722 2819 3210

2666 2737 2778 2906 2781 3124 2539 3108 3121 2525 2965 2722 2819 2221 2821 2471 3293 3070 2936 2539

2967 2896 3617 3058 2547 2547 2805 3319 2896 2883 2234 2967 3298 2847 3293 3125 3255 2539 3764 2821 2963 2837 2889 2995 3015 2821 3585 2906 2764 2640 Média 3.035 2.958 2.985 2.906 2.880 2.946 3.015 2.955 2.976 2.969 DP 333,6 268,3 346,0 284,3 265,5 355,5 363,0 287,5 322,7 2.958

2894 2539 2672 3022 3130 3056 2682 2953 3065 2778 3017 2820 3422 2495 2847 3124 2963 2882 2882 2782 2776 2776 3072 2783 2891 3419 3014 2810 2967 3039 2969 3174 3454 2394 3140 2810

3106 3168 3022 3103 2781 3451 3226 3068 2975 2764 2781 3276 2558 2807 3161 3276 3079 3022 3143 2856 2667 2889 2883 3246 3222 2883 2948 3806 2961 3456 3121 2631 3594 2394 3050 2838 3210 3061 2794 2953 2906 3265 3454 2312 3422 3641 3176

3546 2471 2595 3123 3168 2896 2755 2649 2525 3293 3070 3270 2370 3301 2924 2909 3070 2906 2471 3268

94

Gráfico 2.1 – Convergência da média amostral

Dessa forma tem uito grande, infinito ou ainda a amostragem for feita com reposição, a média de todas as médias amostrais é µ e o

desvio padrão é dados por

os que se o tamanho da população for m

nσ .

Teorema do Limite Central Vimos anteriormente que se conhecemos a distribuição dos dados podemos fazer diversas inferências. Já conhecemos a média e o desvio padrão das médias amostrais. Resta-nos conhecer pois a distribuição das médias amostrais. Enunciemos então o teorema do limite central: 1. Se a população de onde se retira uma amostra possui distribuição normal, a distribuição das médias amostrais será também normal para qualquer que seja o tamanho da amostra. 2. Se a população de onde se retira uma amostra possui distribuição não-normal, a distribuição das médias amostrais será praticamente normal para grandes amostras. Entendam-se por grandes amostras, aquelas com mais de 30 elementos. Este teorema é de fundamental importância, uma vez que independentemente da distribuição de probabilidade contínua que a variável aleatória estudada assume, normal ou não, para amostras grandes, a distribuição das médias amostrais tem distribuição normal. Isto é de grande valor para muitos casos em estatística.

95

VI. ESTIMAÇÃO

96

1. INTRODUÇÃO

O problema de estimação é informalmente definido por: Assuma que alguma característica dos elementos da população possa ser representada por uma variável aleatória X, a qual tem densidade f xX ( ; )θ , onde a forma da densidade é conhecida, mas o parâmetro θ é desconhecido (se θ fosse conhecido, a função de probabilidade seria completamente especificada, e não haveria necessidade de fazer inferência). Assuma que os valores x x xn1 2, , ... , de uma amostra aleatória X X X n1 2, , ... , de f xX ( ; )θ possa ser observada. Em base dos valores amostrais observados x x x é desejável estimar o n1 2, , ... ,valor do parâmetro desconhecido θ ou o valor de alguma função do parâmetro desconhecido. Esta estimação pode ser feita de duas maneiras. A primeira, chamada de estimação pontual, é o valor que alguma estatística, digamos T ( ,X X X n, )1 2 ... , , assume ou estima,

desconhecido θ. Tal estatística é chamada de estimador pontual. A segunda, chamada de oestimação por intervalo, é definida por duas estatísticas, digamos T1 1X X X n2( , , ) ... , e

n1 2, , . . . , )T X X X n2 1 2( , , ) ... , , onde T X X X Tn1 1 2 2( , , . . . , ) ( X X X , tal que intervalo com probabilidade

<

( )T X X X T X X Xn n1 1 2 2 1 2( , , . . . , ), ( , , . . . , ) constitua um conhecida de conter o desconhecido θ. 2. ESTIMAÇÃO PONTUAL Lembrando o que já foi dito na primeira unidade, chama-se estimador, à quantidade alculada em função da amostra, que sendo uma função amostral, é considerada uma

estaprobabnúmeri

otação: θ é o parâmetro de interesse. T é um estimador de θ estimadportant que satisfazem propriedades de um bom es

ctística, e como tal é uma variável aleatória, caracterizada por uma distribuição de

ilidade e seus respectivos parâmetros próprios. Estimativa é um particular valor co assumido por um estimador.

N

To é uma estimativa de θ

Quando falamos em um estimador queremos frisar que podem existir vários ores para o mesmo parâmetro, determinado por algum método estatístico. Sendo,

o, a escolha do melhor, feita através de critériostimador. A seguir descrevemos algumas das principais propriedades.

2.1. PROPRIEDADES DOS ESTIMADORES No exemplo abaixo, procuraremos mostrar como as propriedades de um estimador podem ajudar-nos a analisá-lo.

ar um rifle e, após algumas seleções, restou-nos 4 alternativas que chamaremos de rifles A, B, C e D. Foi-nos permitido

estão ilustrados na figura abaixo.

EXEMPLO 2.1.: Desejamos compr

fazer um teste com cada rifle. Este teste consistiu em fixar o rifle num cavalete, mirar o centro do alvo e disparar 15 tiros. Repetiu-se o procedimento para cada rifle e os resultados

97

Figura 2.1: Resultados de 15 tiros dados por 4 rifles

, talvez essa não fosse a arm promisso entre todas as propriedades.

um estimador encioso se “em média acerta o alvo”. Chamaremos de precisão à proximidade de cada observação de sua própria média. Acurácia mede a proximidade de cada observação ao valor alvo que se procura atingir.

D

da. muito acurada. co acurada.

cia de se defi eis para

Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o critério de “em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de “não ser muito dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C é aquela que reúne as duas propriedades e, segundo esses critérios, essa seria a melhor arma. Mas, se outro critério fosse introduzido (por exemplo, preço)

a mais interessante. Às vezes, a solução deve ser um com

Esse exemplo nos permite introduzir alguns conceitos informalmente. Diremos que é não tend

esse modo, podemos descrever cada arma do seguinte modo: Arma A: Não tendenciosa, baixa precisão e pouco acurada. Arma B: Tendenciosa, baixa precisão e pouco acuraArma C: Não tendenciosa, boa precisão eArma D: Tendenciosa, alta precisão e pou Do exposto acima, notamos a importân nir propriedades desejáv estimadores. O primeiro critério que iremos abordar é o de não tendenciosidade.

a) Não-Tendenciosidade (Sem Vício): Diz-se que um estimador T é não viciado (ou ainda não tendencioso) de θ, quando seu valor esperado é o próprio parâmetro populacional que ele pretende estimar θ.

98

b) Consistência: Diz-se que uma sequência de estimadores Tn é consistente se, além

de ser não viciado, sua variância tende a zero, quando o tamanho da amostra (n) é suficientemente grande. Isto significa que, sendo T um estimador consistente, pode-

se aumentar significativamente o tamanho da amostra, de modo a tornar o erro de estimação tão próximo a zero quanto se deseje.

c) Eficiência: Sejam T1 e T2 dois estimadores não viciados de θ, e ainda a Var T Var T( ) ( ),1 2< então, T1 é dito mais eficiente que T2.

Por exemplo, pode-se mostrar que a média e a mediana são estimadores não tendenciosos para a média de uma população Normal, mas X é mais eficiente, pois a sua variância é menor. 2.2. ESTIMADORES PONTUAIS Para se proceder à estimação pontual, deve-se escolher o melhor estimador possível, colher a amostra e, em função de seus elementos, verificar a estimativa obtida, a qual corresponderá a um ponto sobre o eixo de variação da variável. MÉDIA: O melhor estimador da média populacional, µ , é a média amostral X , isto é,

$µ = = =∑

Xx

n

ii

n

1

Pode-se provar que este estimador satisfaz as propriedades de um bom estimador: Pela distribuição amostral da média observa-se facilmente que este é um estimador não-tendencioso e consistente. Além disso, podemos provar que também é eficiente. VARIÂNCIA: Quando a média µ é desconhecida, que é a situação mais comum

rática, deve-se substituir o valor de na

p µ por X , a média amostral, e estimar a variância pela expressão:

2.1

2.2

2.3

e o desvio padrao por:

$( )

~

$( )

σ

σ

2 2

2

1

2

1

1

1

= =−

−

= =−

−

=

=

∑

∑

Sx X

n

Sx X

n

ii

n

ii

n

Observe que o denominador nas expressões (2.2) e (2.3) é n-1 ao invés de n. Embora para grandes amostras seja indiferente o uso de n ou n-1. Estes estimadores também satisfazem algumas propriedades de um bom estimador: É não tendencioso, consistente e eficiente para . Observe a distribuição amostral da variância para se convencer que este é um estimador não-tendencioso e consistente.

σ 2

99

PROPORÇÃO: O estimador da proporção populacional, p é dado pela proporção

amostral,

nSp n=ˆ

onde é o número de elementos que apresentam uma determinada característica entre os n elementos da amostra. Observando-se a distribuição amostral da proporção, verifica-se que é um estimador não-tendencioso e consistente.

Sn

3. ESTIMAÇÃO POR INTERVALO Assuma que uma amostra aleatória , que tem densidade X X X n1 2, , ... , f xX ( ; )θ possa ser observada. Com base nos valores amostrais observados, estimamos o valor do parâmetro desconhecido θ, ou o valor de alguma função do parâmetro desconhecido. Entretanto, por melhores que sejam as qualidades do estimador utilizado, não devemos esperar que essa estimativa coincida com o verdadeiro valor do parâmetro. Na verdade, a probabilidade de que isto aconteça é extremamente pequena, sendo igual a zero, quando T for uma variável aleatória contínua. Então, é desejável que a estimativa pontual seja acompanhada por alguma medida do erro possível da estimativa. É nesse sentido que a estimação por intervalo complementa a estimação pontual. Na verdade, procuramos um intervalo em torno da estimativa, onde este intervalo é produzido pelo estimador pontual acompanhado de uma medida de confiabilidade de que o verdadeiro valor do parâmetro pertença ao intervalo encontrado. Então, a amplitude desse intervalo é uma medida natural da precisão da estimativa. Esses intervalos são chamados Intervalo de Confiança, e a probabilidade de que esse intervalo contenha o verdadeiro valor do parâmetro, denomina-se Nível de Confiança ou Grau de Confiança, sendo representado por (1-α ). Logo, α será a probabilidade de erro ao se afirmar que o intervalo contém o verdadeiro valor do parâmetro.

Por exemplo, se retomarmos a população composta por 200 recém-nascidos para os quais foram mensurados os pesos ao nascer, podemos verificar que as estimações intervalares de modo geral “sempre” contém o parâmetro verdadeiro. Assim, considerando que a média populacional é de 2982g e o desvio padrão populacional é de 311g temos:

2400

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

3500

1 2 3 4 5 6 7 8 9 10

Amostra (n=5)

Peso

(em

gra

mas

)

2.4

100

2400

3500

2500

2600

2700

2800

2900

3000

3100

3200

3300

3400

1 2 3 4 5 6 7 8 9 10

Amostra (n=10)

Peso

(em

gra

mas

)

3500

2400

2500

1 2 3 4 5 6

2600

2700

3400

7 8 9 10

Peso

(em

gra

mas

) 3200

3300

3000

3100

2800

2900

Amostra (n=15)

2400

2500

2600

2700

2800

2900

3000

3100

3400

7 8 9 10

ostra (n=20)

Peso

(em

gra

mas

)

3200

3300

1 2 3 4 5 6

Am

101

2400

2500

2600

2700

2800

Peso

(em

gra

mas

)2900

3100

3200

1 2 3 4 5 6 7 8 9 10

Amostra (n=40)

3000

3.1. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO Duas situ de

onfiança para ações são consideradas quando desejamos estabelecer um Intervalo

C µ , a média da população: Quando a variância populacional é ou não iderar também Xconhecida. Vamos cons que a distribuição de é Normal, sendo esta

dos elementos da população ou através de grandes amostras, isto é, estamos considerando que a população que origina suposição feita ou a partir da distribuição

X é Normal ou que, o tamanho da amostra, n > 30.

I. O Intervalo de Confiança para a média populacional µ quando a variância populacional é conhecida ao nível de 95% de confiança, é dado por:

I.C.(

σ 2

µ ) = ⎜⎜⎝

⎛ σ−

nX 96,1 ; ⎟⎟

⎠

⎞σ+

nX 96,1

EXEMPLO 3.1:

a) Para uma am io de colesterol de 120 ntervalo de co diminuir a am valo encontrado em (a) quais seriam

suas alternativas. SOLUÇÃO: n = 46,

Num certo grupo de pacientes, o nível de colesterol é uma variável aleatória com distribuição normal, de média µ desconhecida e variância σ2 = 64(mg/ml)2.

ostra de 46 indivíduos, a qual teve nível médmg/ml, construa o i nfiança de 95%.

b) Se você desejasse plitude do inter

120=X , σ = 8 e 1- α = 0,95

a) ( )31,122;69,117468*96,1120;

468*96,1120)( =⎟⎟

⎠

⎞⎜⎜⎝

⎛+−=µIC

b) Aumentar o tamanho da amostra, diminuir o nível de confiança ou aumentar o nível de significância.

Isto significa dizer que, com probabilidade 0,95 o verdadeiro valor da taxa média de colesterol pertence ao intervalo (117,7mg/ml;122,3mg/ml).

102

l µ quando a variância

populacional não é conhecida para um nível de significância α qualquer, é dado por: .

II. O Intervalo de Confiança para a média populacionaσ 2

I.C.( µ ) = ⎜⎜⎝

−n

tX ; ⎛ S⎟⎟⎠

+n

tX e P(t⎞S(n-1) < t) = 1−

2α

EXEMPLO 3.2: Os pulsos em repouso de 920 pesso ias fo a os, e uma

média de 72,9 batidas por minuto (bpm) e um desvio padrão de 11,0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a

SOLUÇÃO: n = 9

as sad ram tom d

pulsação média em repouso de pessoas sadias com base nesses dados.

20, 11 e 9,72 == SX , com 1-α = 0,95 96,1 0,0252 05,0 )025,0;920( =⇒ t =⇒= αα

)6,73;2,72(920

*96,196,19,72)( =⎟⎟⎞

⎜⎜⎝

⎛−−=µIC

de pessoas es

119,72;920

* 11 ⎠

Logo, com 95% de confiança o número de batidas médias por minuto deste grupo

tá entre 72 e 74.

3.2. INTERVALO DE CONFIANÇA PARA A PROPORÇÃO DA POPULAÇÃO O intervalo de confiança para uma proporção p, ao nível de 95% de confiança, é dado por:

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+

−−

nppp

nppp

ˆ1(ˆ96,1ˆ;

ˆ1(ˆ96,1ˆ (otimista)

ou

I.C.(p) =

⎟⎟⎠

⎞⎜⎜⎝

⎛+−

np

np

4196,1ˆ;

4196,1ˆI.C.(p) = (conservador).

EXEMPLO 3.3: Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 350

como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.

SOLUÇÃO: n = 1000, $ ,p = =350

10000 35 e 1- α = 0,95

α αα= ⇒ = ⇒ =0 05 0 025 1 962

, , 2 z

,

IC p( ) , , *, ( , )

; , , *, ( , )

( , ; , )= −−

+−⎛

⎝⎜

⎞

⎠⎟ =0 35 1 96

0 35 1 0 351000

0 35 1 960 35 1 0 35

10000 32 0 38

Então, a proporção de eleitores do candidato está entre 32% e 38% com 95% de confiança. EXEMPLO 3.4: Num experimento científico, doentes contaminados com cercaria, que é

uma das formas do verme da esquistossomose, recebem um certo

103

medicamento e observa-se a proporção p de cura. Em 200 pacientes 60 são curados. Determine com 95% de confiança a

verdadeira proporção de cura do medicamento. verifica-se que 1

SOLUÇÃO: n = 200, 8,0200160ˆ ==p e 1- α = 0,95

α αα= ⇒ = ⇒ =0 05 0 025 1 962

, , , 2 z

)855,0;745,0(200

)8,01(8,0*96,18,0;200

)8,01(8,0*96,18,0)( =⎟⎟⎠

⎞⎜⎜⎝

⎛ −+

−−=pIC

Então, a proporção de cura do medicamento está entre 75% e 86% com 95% de confiança.

104

3.3. INTERVALO DE CONFIANÇA PARA DUAS MÉDIAS 3.3.1. AMOSTRAS INDEPENDENTES

O intervalo de confiança associado a um determinado grau de confiança (1-α)%, para a diferença entre duas médias populacionais A e B, é dado por:

( )⎥⎥⎦

⎤

⎢⎢⎣

⎡±−=−

B

BABA n

SnStIC

2

)( µµµ e P( <t)=1−+A2

ABµ 2nn BA

t −+ 2α .

XEMPLO 3.5: Imagine que se deseja determinar se as taxas médias de creatinina dos

grupos A=pacientes com insuficiência renal aguda (IRA) e B=pacientes sem IRA, são iguais. Sejam as médias, variâncias e o número de indivíduos em cada grupo:

Grupo N Média Variância A=IRA 7 2,47 1,13 B=não-IRA 5 0,76 0,13

Determine um i alo co 5% d nfiança.

SOLUÇÃO: Isto equivale, de certa forma, a verificar se existe associação entre IRA e as taxas de creatinina. O lor da tística

B −+ para 95% de confiança e 10 (7+5-2) graus de liberdade é 2,23. Assim tevalo de confiança é dado por:

E

nterv m 9 e co

va esta nAt 2n

o in

[ ] [ 67,2;75,043,023,271,1 ]13,013,1IC =×±=⎥⎦

⎤⎡

Observe que o limite inferior do intervalo de confiança das diferenças, para este nível de confiança é 0,75>0. Desta forma, poder-se-ia dizer que a este nível de confiança não é possível admitir que a média das taxas de creatinina do grupo IRA seja igual a do grupo sem RA.

5723,2)76,047,2()( BA ⎢

⎣+×±−=− µµ

I

105

3.3.2. AMOSTRAS PAREADAS

Amostras pareadas ou pares de amostras são dados referentes a um mesmo conjunto indivíduos (elementos), tomados em duas situaçd

de ões diferentes. Genericamente, estas uas situações são denominadas antes e depois. De modo geral, deseja-se verificar se estas

a uações antes e depois seriam caracterizadas

dealg

o

duas situações podem ser consideradas iguais ou não. Por exemplo, se ao mesmo grupo de cientes foi administrado um antitérmico, as sitp

pelos conjuntos de temperaturas corporais verificadas antes e depois da administração do antitérmico. O objetivo, naturalmente, é o de comprar ambos os conjuntos de dados para

terminar se são diferentes, o que equivaleria a verificar se o antitérmico está tendo uma influência (e quanto) na temperatura corporal. Esta situação pode ser generalizada seguinte modo: d

Antes Depois di

1,Ax 1,Bx 1,Ax - 1,Bx

2,Ax 2,Bx 2,Ax - 2,BxM M M

n,Ax n,Bx n,Ax - n,Bx

Ax Bx d onde i,Ax representa um valor genérico da variável X na situação “antes”, enquanto i,Bx se

ere à situação “depois”. ref

I.C.(

O intervalo de confiança, associado a um determinado grau de confiança (1-α), resulta neste caso:

BA µµ − ) = ⎟⎟⎠

⎞⎜⎜⎝

⎛±

nS

td d , com ( )∑

= −= i

d 1nS e P(t(n-1) < t) =1−

−n 2dd2α .

1i

É interessante notar que, empregando-se os mesmo dados, o intervalo para amostras pade ontes

e variação dos dados, já que os resultados do experimento provêm dos mesmos

co

EXEMPLO 3.6: A Amiodarona é um antirrítm em gad ara trata ento dos distúrbios do ritmo de origem v tricu em paci es m Insuficiência Cardíaca. Apesar de seus vários efeitos colaterais, é

que age sobre a musculatura lisa dos vasos de resistência, provocando

adequado.Uma experiência hipotética, baseada em um estudo publicado nos Anais da Academia nacional de Medicina, tem por objetivo avaliar

readas possui amplitude menor que o intervalo para amostras independentes. Tal situação corre do fato de que, ao se empregarem amostras aos pares, eliminam-se eventuais f

dindivíduos. Em pesquisa médica, quando é possível montar experiências aos pares, suas

nclusões são preferidas às de outro tipos de desenho experimental.

ico pre o p o men lar ent co

considerado como o melhor antirrítmico, além de ser uma substância

vasodilatação e diminuição da pressão arterial, bem como a diminuição do ritmo cardíaco. A insuficiência cardíaca é uma das principais causas de mortalidade, atingindo 70% ao cabo de dois anos. A taquiarritmia ventricular mata de forma súbita um terço desses pacientes, o que explica a importância do pronto diagnóstico e tratamento

os efeitos da Amiodarona sobre uma das manifestações clínicas da Insuficiência Cardíaca de pacientes portadores de prótese valvar

106

normofuncional: a freqüência cardíaca. Abaixo estão os resultados de 6 pacientes de ambos os sexos e variadas faixas etárias.

Antes Depois

128 83 106 72 113 80 135 86 92 68 140 85

ritmo rona, com um grau de confiança de 95%.

Antes Depois di

Com base nesses dados, elabore uma estimativa comentada para a alteração do cardíaco provocada pela Amioda

SOLUÇÃO: Construa inicialmente o vetor de diferenças

128 83 45 10 7 6 2 34 113 80 33 135 86 49 9 2 68 24140 85 55

Depois calcule a sua média e desvio padrão: 40=id

( )59,11

11

2

=−−

= ∑=

n

i

id n

ddS

E por fim substitua na fórmula:

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛+−=−

659,1140;

659,1140 ttIC BA µµ

( )73,457,240;73,457,240 ×+×−=

( )16,52;84,27=

107

EXERCÍCIOS

. Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 450 como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.

. Uma pessoa jogou uma moeda 100 vezes e dessas apareceram 64 caras. A moeda é

honesta? (Use o nível de confiança de 95%)

. Em uma experiência sobre percepção extra-sensorial (P.E.S.) um indivíduo, em uma sala, é solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de um baralho. Se o sujeito identifica corretamente 32 cartas, há alguma evidência de que este possua percepção extra-sensorial? (Use o nível de confiança de 95%)

. O tempo de reação de um novo medicamento, por analogia a produtos similares, pode ser considerado como tendo distribuição normal com média desconhecida (µ) e desvio padrão σ, também desconhecido. Vinte pacientes foram sorteados, receberam o medicamento e tiveram o seu tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9 – 3,4 – 3,5 – 4,1 – 4,6 – 4,7 – 4,5 – 3,8 – 5,3 – 4,9 – 4,8 – 5,7 – 5,8 – 5,0 – 3,4 – 5,9 – 6,3 – 4,6 – 5,5 e 6,2. Obtenha um intervalo com 95% de confiança que contenha o verdadeiro tempo médio de ração dessa população.

. Repita a questão anterior ao nível de confiança de 95% e utilizando o desvio padrão populacional, o qual é de 2 minutos.

. Um experimento com 6 pacientes que apresentaram o diagnóstico de rubéola e em estado febril proporcionou as temperaturas corpóreas sublinguais apresentadas abaixo:

Paciente 1 2 3 4 5 6

1

2

3

4

5

6

Temperatura (ºC) 38,6 37,5 38,0 37,3 38,6 39,0

Encontre o intervalo de confiança paras as temperaturas corpóreas de todos os pacientes com diagnóstico de rubéola e em estado febril. (Use o nível de confiança de 95%)

7. São apresentados no quadro abaixo os valores de Amilase encontrados em esxames

químicos de urina de um grupo de 10 pacientes com insuficiência renal, em (u/ml):

Paciente 1 2 3 4 5 6 7 8 9 10 Amilase (u/ml) 6 12 8 4 5 9 3 4 5 4

Calcule o intervalo com 95% de confiança para a taxa média populacional de Amilase.

8. Em uma pesquisa sobre Doenças Sexuais Transmissíveis (DST), foi perguntado aos

entrevistados do sexo masculino se sentiam alguma dificuldade no uso de preservativos. Na amostra de 150 indivíduos do sexo masculino, escolhidos aleatoriamente na população, 68 responderam afirmativamente a essa questão. Determine o intervalo de 95% de confiança para a proporção de indivíduos com dificuldades no uso de preservativos.

9. A prescrição de anticoncepcionais orais deve ser efetuada após uma avaliação completa

da paciente, uma vez que seu uso pode alterar diversas funções normais do organismo.

108

Suponha que uma experiência, com dois grupos de mulheres, apresentou os seguintes ressão arterial sistólica (PAS):

(PAS, mmHg) (PAS, mmHg)

dados relativos à p

Grupo N Média Desvio

Tratamento 19 120,4 8,31 Controle 25 115,6 16,22

Com base nos dados experimentais apresentados: a)

ontrole. b) A experiência para testar o Anticoncepcional Oral poderia ter sido formulada de

Construa o intervalo de confiança de 95% para as diferenças das médias da PAS dos grupos Tratamento e C

maneira diferente? (Justifique). 10. Para se avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram

escolhidos e sua pulsação foram mensuradas antes e após o exame. Segundo os valores estão apresentados abaixo:

Estudante Instante da Medição 1 2 3 4 5 6 7 8 9 10 11 12

Antes 87 78 85 93 76 80 82 77 91 74 76 79 Depois 83 84 79 88 75 81 74 71 78 73 76 71

Verifique ao nível de 95% de confiança se existe maior tensão (isto é, maior

pulsação) antes da realização dos exames.

109

E HIPÓTESES

VII. TESTES D

110

1. INTRODUÇÃO Estudaremos uma forma de tratar o problema de fazer uma afirmação sobre o

arâmetro desconhecidoθp associado a uma variável aleatória X, baseado em uma amostra

lo

aleatória simples, extraída da população. Em vez de procurarmos uma estimativa pontual do parâmetro ou um intervalo de confiança deste parâmetro, freqüentemente nos parecerá conveniente admitir um va r

ipotético para o parâmetroθ , e depois utilh izar a informação da amostra para confirmar ou ita

estes de hipóteses, precisamos introduzir algumas notações e as definições.

reje r esse valor hipotético. Antes de falarmos de tdarmos algum 2. CONCEITOS FUNDAMENTAIS Define-se or 0 a hipótese existe hipótese nula, a ser testada e por

a hipótese alternativa. O teste irá levar a aceitação ou rejeição de , o que d à rejeição ou aceitação de , respectivamente. Entretanto, para manter a

em termos da hipótese , ou seja

Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. Para facilitar linguagem, necessitamos das seguintes definições:

Erro tipo I: rejeitar a hipótese nula, quando esta é verdadeira. Chamamos de

p H nte, chamada H H0

H1

correspon e 1

uniformidade enuncia-se o resultado final sempre H0

aceitar ou rejeitar H0 . a

α a ade de cometer esse erro, isto é,

probabilid

α = P(erro tipo I) = P(rejeitar é verdadeira)

rro tipo II: não rejeitar quando é falsa. A probabilidade de cometer esse erro é indicada por

H0 / H0

E H0 H0

β , logo, β = P(erro tipo II) = P(não rejeitar é falsa)

ossas decisões em um teste de hipótese podem ser resumidas na seguinte tabela:

Tabela 1 - Acertos e Erros nas decisões tomadas em um teste de hipótese

Realidade

H0 / H0

N

H0 é Verdade H0 é Falsa (=H1)

População

Aceita H0 Decisão Correta (1-α) Erro tipo II (β)

Amostra

Decisão Rejeita H0 Erro tipo I (α) Decisão Correta (1-β)

A probabilidade α de cometer um erro de primeira espécie é um valor arbitrário e recebe o nome de Nível de Significância do teste. O resultado da amostra é cada vez mais

sses valores são

ilidade β ão o p metro sob e 1- Potência do Teste, ou seja é a capacidade de rejeitar quando é

falsa, é uma medida de qualidade do teste. Um teste de hipótese que fornece uma regra de decisão com uma função potência maior que outro é dito mais poderoso.

significante para rejeitar H0 quanto menor for esse nível. Usualmente, efixados em 10%, 5% ou 1%.

ab é uma funç que depende dos valores d arâ A prob é denominado de

H1

β H0 H0

111

Note que na prática não conhecemos a realidade. Jamais saberemos se a decisão

quando nossa dedecisão for aceitaaquele em que a é possível, pois aversa. No entantaumentando o tam

itidas, o

do onjunto Crítico ou Região ítica, denotado por RC. O complemento de RC é chamado de Conjunto de Aceitação Região de Aceitação.

tomada foi certa ou errada. O certo é que podemos cometer dois tipos de erro: o erro tipo I cisão é rejeitar H0 sendo H0 verdadeira e o erro tipo II quando nossa r H0 sendo H0 falsa. Pensamos então que um teste de hipótese ideal é

regra de decisão que ele oferece torna mínimo os erros tipo I e II. Isto não o tentar minimizar o erro tipo I estamos aumentando o erro tipo II e vice-o, quando fixamos o erro tipo I, conseguiremos diminuir o erro tipo II

anho da amostra o máximo possível, dentro das limitações, de tempo e . custo, perm

Sendo um teste de hipótese uma regra de decisão, e esta é Aceitar ou Rejeitar conjunto de valores que levam a rejeitar H é chama de C

H0

0

Crou 3. PASSOS PARA CONSTRUÇÃO DE UM TESTE DE HIPÓTESES Vimos, na seção anterior, o procedimento que se deve usar para realizar um teste de

s abaixo uma seqüência que pode ser sada sistematicamente para qualquer teste de hipóteses.

Primeiro Passo: Formule as hipóteses nula e alternativa. No nosso caso: A alternativa mais geral seria:

(a)

eríamos ainda ter alternativas da forma: 0

::

θθθθ

HH

(b)

ou ≤ 00 : θθH

Segundo Passo: Especifique o nível de significância

hipótese, discutindo as notações técnicas. Daremou

⎩⎨⎧

≠=

01

00

::

θθθθ

HH

Pod

⎩⎨⎧

<≥

01

0

⎩⎨ > 01 : θθH

(c) ⎧

dependendo das informações que o problema traz.

α . Em geral, 0,01; 0,05 ou 0,10. Terceiro Passo: Use a teoria estatística e as informações disponíveis para decidir qual

estatística será usada para julgar . Não se esqueça de identificar a distribuição amostral adequada.

Quarto Passo: Determine a região crítica do teste, RC. Quinto Passo: Use as informações fornecidas pela amostra para encontrar o valor da

estatística do teste do terceiro passo. Sexto Passo: Se o valor da estatística observada da amostra não pertencer à região crítica,

aceite ; caso contrário, rejeite. Sétimo Passo: Concluir a respeito do problema em estudo.

H0

H0

112

4. STES DE SIGNIFICÂNTE CIA PARA UMA AMOSTRA 4.1 TESTES PARA UMA MÉDIA Vejam a aplicação dos sete passotestar a hipótese de que a média de uma

os agora um s, definidos na seção anterior, para população µ é igual a um número fixado µ0 .

Vamos dividir este estudo em duas partes:

) conhecida ou n > 30:

1. Hipóteses:

H (a)

H (b) (c)

2a σ

⎩H ⎩H≠=

01

00

::

µµµµ

⎨⎧

<≥

01

00

::

µµµµ

⎩⎨⎧

>≤

01

00

::

µµµµ

HH

⎨⎧

2. Fixar α . 3. Estatística do teste X tem distribuição Normal.

. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

) ⎨⎧ ≤ 00 : µµH

5. Calcular a Estatística

4

-z z

a) ⎩⎨⎧

≠=

01

00

::

µµµµ

HH

-z

⎩⎨⎧

<≥

01

00

::

µµµµ

HH

b)

c ⎩ > 01 : µµH

z

Zx

nc =

− µσ

0

6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se

H0

Z RCc ∈ , rejeita-se . Caso contrário, aceita-se . 7. Conclusão

H0 H0

113

EXEMPLO 4.1: Para estudar o efeito de uma certa substância em seres vivos, um

experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a um estímulo elétrico e têm seus tempos de

o (em segundos) anotados. Obtivemos os valores: 9,1 9,3 7,2 7,5 13,3 10,9 7,2 9,9 8,0 10,4. Admite-se que o tempo de reação segue o modelo Normal com média 8 e desvio padrão de 2 segundos. O pesquisador desconfia que o tempo médio sofre alteração influência da substância. Teste ao nível de significância de 0,01.

n = 10

reaçã

SOLUÇÃO: 28,9=x segundos, σ = 2,0 e µ0 = 8,0 1. 0,8:0 =µH 0,8:1 ≠µH 2. α α= ⇒ =0 01 2 0 005, , 3. Estatística do teste X tem distribuição Normal. 4. Da tabela da distribuição Normal, obtemos que: -z = -2,58 e z = 2,58.

-2,58 +2,58

5. Calcular a estatística: 02,22

0,828,9=

10

−=cZ

6. Como , a nossa decisão será não rejeitar .

7. Ao nível de significância de 1%, não podemos afirmar que o tempo de reação foi

alterado por influência da substância.

RCZ c ∉= )02,2( H0

114

1. Hipóteses:

(a) (b) (c)

b)σ 2 desconhecida e n < 30:

⎩⎨⎧

≠=

01

00

::

µµµµ

HH

⎩⎨⎧

<≥

01

00

::

µµµµ

HH

⎩⎨⎧

>≤

01

00

::

µµµµ

HH

2. Fixar α .

X3. Estatística do teste tem t-Student com n-1 graus de liberdade. 4. A Região Crítica irá depender da hipótese alternativa. Então,

µµ

)

)

tatística

a) ⎨ ≠00

: µµH ⎧ :H =

-t t

⎩ 01

-t

⎩⎨⎧

<≥

01

00

::

µµµµ

HH

b

t

⎩⎨⎧

>≤

01

00

::

µµµµ

HH

c

txS

nc =

− µ0 5. Calcular a Es

6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se C , rejeita-se . Caso contrário, aceita-se .

H0

t Rc ∈ H0 H0

7. Conclusão

115

EXEMPLO 4.2: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de

Ao nível de 5%, o SOLUÇÃO: n =

nicotina. Uma amostra de 25 cigarros forneceu média de 31,5mg e desvio padrão de 3mg. s dados refutam ou não a afirmação do fabricante?

25, x mg S mg= =315 3, e , α = 0,05 1. 30:0 ≤µH H1 30:µ >

α = 0 05, 2. 3. E testatística do ste X tem distribuição t-Student com 24 graus de liberdade

a tabela da stribuição t-Student, obtemos que t = 1,71. 4. D di (24;0,05)

Logo, RC = { t t∈c cℜ >/ , }1 71

5. tc =−

=315 30

3 252 5

,,

6. Como C ( , )t Rc = ∈2 5 , a nossa decisão será de rejeitar .

Ao nível de significância de 5%, há evidência de que os cigarros contenham mais que 30mg de nicotina.

1,71

H0

7.

116

4.2. TESTES PARA UMA PROPORÇÃO Vamos usar os passos descritos na seção 3 para mostrar a construção do teste para proporções. Temos uma população, e temos uma hipótese sobre a proporção p de indivíduos portadores de uma certa característica. Essa hipótese afirma que essa proporção é igual a um certo número p0. Então, o problema deve fornecer informações sobre a forma da alternativa. Que terá uma das três formas abaixo: 1. Hipóteses:

⎩⎨⎧

≠=

01

00

::

ppHppH

(a) ⎩⎨⎧

<≥

01

00

::

ppHppH

(b) ⎩⎨⎧

>≤

01

00

::

ppHppH

(c)

2. Fixar α . 3. Estatística do Teste tem distribuição Normal. 4. A Região Crítica irá depender da hipótese alternativa. Então,

a)

b)


$p

⎩⎨⎧

≠=

01

00

::

ppHppH

-z z

⎩⎨⎧

<≥

01

00

::

ppHppH

c) ⎩⎨⎧

>≤

01

00

::

ppHppH

z

-z

npp

ppZc )1(

ˆ

00

0

−

−=

6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se C

H0

Z Rc ∈ , rejeita-se . Caso contrário, aceita-se . H0 H0

7. Conclusão

117

sulfa, a

porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o emprego das sulfas diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações. Admitindo que os pacientes são comparáveis em tudo, exceto quanto ao tratamento, teste a hipótese de que a proporção de casos com complicações entre os pacientes tratados com sulfas é significativamente menor que os não tratados (considere

EXEMPLO 4.3: Entre milhares de casos de pneumonia não tratados com

α = 0 05, ).

n = 120

.

SOLUÇÃO: 1. 10,0:0 ≥pH 10,0:1 <pH 2 α = 0 05,

3. Estatística do Teste tem distribuição Normal.

. Da tabela da distribuição Normal, obtemos que z = -1,65.

$p 4

5. 05,0120

6ˆ ==p

83,1

1209,01,010,005,ˆ −− pp 0

)0

0 −=×

=−

=

np

Zc

6. Como , a nossa decisão será rejeitar . 7. Ao nível de 5% de significância, podemos dizer que há evidências de que a proporção de

casos de pneumonia com complicações tratados com sulfa seja menor que os não tratados.

-z =-1,65

1(0p

RCZ c ∈−= )83,1( H0

118

5. TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS

Suponhamdiferença entre os níveis de um marcador bioquímico sangüíneo de homens que moram em

ma região (RA) quando comparado à outra (RB), sem indicar qual grupo teria maior ou a hipótese? A resposta a princípio parece

mples: toma-se uma amostra de tamanho nA da população A e de tamanho nB da população B, faz-se o exame de sangue e calcula-se a média para cada região. A questão é,

ente uns indivíduos da amostra da região RA terão valores diferentes da RB, uns maiores e outros menores, assim como haverá, também, variação entre os indivíduos de uma mesma região. Sendo assim, é muito provável que as médias não sejam exatamente

uais. A pergunta é: as médias não são iguais por que as populações realmente apresentam f u por causa das variações casuais intrínsecas à amostragem? Lembre-se m mostrais tendem a diferir uma da outra!

os a seguinte situação: Um pesquisador acredita que existe alguma

umenor. Como ele pode fazer para testar susi

certam

igvalores di erentes o

e que as édias ad 5.1 TESTES DE SIGN CIA PARA DUAS AMOSIFICÂN TRAS INDEPENDENTES

Lembremos do conceito de distribuição de médias amostrais e suas relações com istribuição normal e distribuição t. Se agora pensarmos em uma distribuição para a iferenças entre as médias amostrais, poderíamos definir uma curva de distribuição para ssas diferenças, e, então, estipularmos um intervalo de confiança para a diferença ser nula. to significa dizer que dentro de uma faixa de valores consideraremos nossa “diferença”

omo “igual” e fora da faixa, como “diferente”. Quem define se a diferença de médias está entro ou fora da faixa é o índice de significância (α). Se a nossa diferença de médias pode r considerada como tendo distribuição normal podemos recorrer a esta estatística z ou

fazer nosso teste. A figura a seguir ilustra o que falamos. A nossa variável aleatória

ddeIscdsemesmo à estatística t para

21 xx − tem distribuição normal e podemos calcular a probabilidade de 21 xx − assumir valores que onsideraremos “zero”. A região em cinza na curva mostra a região de aceitação para a

ra região, consideraremos ue as médias são diferentes. Observe que � é a probabilidade que estamos admitindo para

cometer o erro tipo I (dizer que as médias são diferentes quando na verdade elas são iguais). Como a hipótese alternativa é a de médias diferentes temos que considerar metade

ara cada lado.

cnossa hipótese nula ao compararmos as médias de A e B. Fo daq

p

119

5.1.1 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS CONHECIDAS

2. Fixar

1. Hipóteses: ⎧ = 210 : µµH

⎩ ≠ 211 : µµH⎨

α .

3. Estatística do Teste: 21 XX − tem distribuição Normal.

4. A Região Crítica:

. Calcular a Estatística

4

2

22

1

21

21

nn

xxZcσσ

+

−=

não Depende da Região Crítica do passo 4. 6. Decisão: Rejeita-se ou Se Z RC

H0 ?c ∈ , rejeita-se . Caso contrário, aceita-se .

7. Conclusão

H0 H0

-z z

120

1. Hipóteses:

⎧≠= 210

::

µµµµ

HH

2.

EXEMPLO 5.1: Suponha que a freqüência cardíaca de uma amostra de 45 mulheres tenha média de 70 bpm, e de 50 homens tenha média 72 bpm. Considerando que o desvio padrão populacional de mulheres é de e 8 bpm e, de homens, 5 bpm. Podemos afirmar que, para o grupo estudado existe diferença entre as FC basais de homens e mulheres com 5% de chance de erro?

SOLUÇÃO:

⎩ 211

⎨

Fixar α =0,05. 3. Estatística do Teste: 21 XX − tem distribuição Normal.

Da tabela da distribuição Normal, obtemos que Z = 1,96.

5. Calcular a estatística:

3.

-z = -1,96 z = 1,96

04,1

458

505

707222

2

22

1

21

21 =

+

−=

+

−=

nn

xxZcσσ

6. Como , a nossa decisão será não rejeitar 7. nifica dizer que, neste exemplo hipotético, não existe diferença significativa

entre a freqüência cardíaca basal de homens e mulheres.

RCZ c ∉= )04,1( H0 .

Isto sig

121

5.1.2 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS NÃO CONHECIDAS

O teste z exige que conheçamos o desvio padrão populacional, e isto não ocorre na maioria dos casos. Se não conhecemos o desvio padrão populacional devemos recorrer à distribuição t. Realizaremos então o teste t (na verdade, o teste t será o mais utilizado, pois raramente se conhece o desvio padrão populacional). 1. Hipóteses:

=

1

210

:: µµ

HH

⎩⎨⎧

≠ 21 µµ 2. Fixar α .

21 XX −3. Estatística do Teste: tem distribuição t-Student com (n1+n2–2) graus de liberdade

4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,


-t t

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−+−+−

−=

2121

2221

21

21

112

)1()1(nnnn

nsns

xxTc

. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4.

6 H0 ? Se RCTc ∈ , rejeita-se . Caso contrário, aceita-se . 7. Conclusão

H0 H0

122

EXEMPLO 5.2: Para o VO2max de uma amostra de 12 mulheres encontrou-se o VO2max

de 52,8 ml/kg para a média e de 3,2 ml/kg para o desvio padrão, e, de uma amostra de 12 homens, um valor de 58,2 para média, e de 4,4 para o desvio padrão. Testar a hipótese de que homens têm VO2max maior que mulheres para uma significância de 5%.

SOLUÇÃO:

1. Hipótes

4. Fixar

es:

⎩⎨⎧

≠=

211

210

::

µµµµ

HH

α =0,05. 5. Estatística do Teste: 2X 1X − tem distribuição t-Student com +n2–2) graus de

liberdade

6. Da tabela da t-student com (12 + 12 - 2) temo tα = 2,07


(n1

s que

t = 2,07 -t = 2,07

4,3 4

121

121

21212)12,3)112

2,582

=

⎟⎠⎞

⎜⎝⎛ +

−+

+− 12( −(4,48,52

2

−=cT

6. Como 4( , a nossa decisão será rejeitar 7. Podemos dizer que Homens O2max maior que mulheres ao nível de significância

de 5%.

H0 . RCTc ∈= )4,3

têm V

123

5.2 TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS RELACIONADAS

No exemplo acima, as amostras são independentes, ou seja não existem, por pressuposto, características comuns a ambas as amostras. Na verdade, para amostras independentes queremos saber se as médias provêm de uma única população.

Suponhamos agora o caso do teste do efeito de um medicamento. Mensuramos os alores da nossa amostra antes e depois de tomar o medicamento. Devemos agora aplicar m teste que leve em consideração a dependência entre os resultados obtidos, uma vez que

e que não queremos avaliar da nossa amostra “não variaram”, ou seja, ossas amostras são dependentes. Neste caso, utilizamos o teste t para amostras

dependentes. Este teste calcula a estatística T, baseado na média e no desvio padrão das

aticamente, significa expressar dida antes e depois de uma intervenção, para

ber se houve efeito da intervenção na nossa variável. Assim, temos:

. Hipóteses:

0 dif

H

H

µ

µ

2. Fixar

emplo acima, as amostras são independentes, ou seja não existem, por pressuposto, características comuns a ambas as amostras. Na verdade, para amostras independentes queremos saber se as médias provêm de uma única população.

Suponhamos agora o caso do teste do efeito de um medicamento. Mensuramos os alores da nossa amostra antes e depois de tomar o medicamento. Devemos agora aplicar m teste que leve em consideração a dependência entre os resultados obtidos, uma vez que

e que não queremos avaliar da nossa amostra “não variaram”, ou seja, ossas amostras são dependentes. Neste caso, utilizamos o teste t para amostras

dependentes. Este teste calcula a estatística T, baseado na média e no desvio padrão das

aticamente, significa expressar dida antes e depois de uma intervenção, para

ber se houve efeito da intervenção na nossa variável. Assim, temos:

. Hipóteses:

≠

=

0:

0:0 dif

H

H

µ

µ

2. Fixar

vvuuas caract rísticas as caract rísticas nn

diferenças entre os valores medidos antes e depois. Matemue, dada uma amostra de tamanho n, me

diferenças entre os valores medidos antes e depois. Matemue, dada uma amostra de tamanho n, meqa

qass

1 1

⎪⎪⎨⎪⎪⎨⎩ 1 dif

⎩ 1 dif

⎧⎧

≠

=

0:

0:

α . 3. Estatística do teste difX te


m distribuição t-Student com n-1 graus de liberdade. 4. A Região Crítica será:

n

Sx

tdif

difc =

6. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4. Se C , rejeita-se . Caso contrário, aceita-se . 7. Conclusão

H0 ?t Rc ∈ H0 H0

-t t

124

trado uma substância que pode

reduzir o colesterol (LDL) sangüíneo. Para tanto submeteu 29 indivíduos EXEMPLO 5.3: Suponha que um laboratório tenha encon

ao teste do medicamento. Mediu o colesterol antes e depois de dar o medicamento. Os resultados estão na tabela a seguir (próxima página). Testar se o medicamento reduziu o colesterol para um nível de significância de 1%.

Individuo LDL (antes) LDL (depois) Diferença (Antes - Depois)

1 142 131 11 2 149 143 6 3 160 122 38 4 142 137 5

38 147 -9 6 151 139 12 7 -2 8 158 136 22 9 10 151 130 1

153 -6 151 141 10

13 170 146 24 14 145 152 -7

137 121 16 158 136 22

17 142 135 7 18 153 132 21 19 145 140 5 20 159 157 2 21 159 142 17 22 150 154 -4

-7 12

25 1 37 26 1 16 27 134 -6

149

50,00 140,0 9,93

5 1

152 154

145 119 26 2

11 147 12

15 16

23 128 135 24 154 142

71 134 64 148

140 14728

29 144 151

4 -5

Média 1 7 Desvio 10,05 9,98 13,11

125

≠ 0:1

0

dif

dif

H µ

SOLUÇÃO: 1. Hipóteses:

⎧ = 0:H µ

⎪⎩

⎪⎨

2. Fixar α =0,01. 3. Estatística do teste difX tem distribuição t-Student com 28 graus de liberdade. 4. Da tabela da t-student temos que t = 2,76

3. Calcular a Estatística 078,4

2911,1393,9

==ct

6. Como , a nossa decisão será rejeitar . 7. Logo temos que o medicamento produziu redução significativa do colesterol para um

índice de significância de 0,01.

RCtc ∈= )078,4( H0

t = 2,76 -t = -2,76

126

6. TESTE PARA PROPORÇÕES (QUI-QUADRADO) Apresentamos aqui um teste de hipóteses estatística que utiliza o modelo Qui-Quadrado e por esta r om , de testes Qui-Quadrado. O objetivo dos teste para dados categorizados é determina ndo ritéri lido de decisão, se o fator discriminante exerce alguma influência sobre or dis nado. As hipóteses são onstruídas como de costume, H0: pA1 = pA2 = ... = pAr, ou seja, que as categorias de A

exerçam a mesma influência sobre as categorias de B, contra H1 de que pelo m a categoria apresenta diferenças em relação a B. Neste caso particular, é importante salientar

ue as tabelas do tipo 2x2 (duas classificações para cada variável) são as que apresentam resultados mais claros, uma vez que, provada a existência de uma diferença, ela somente

ode existir entre as duas categorias de A. Teste Qui-Quadrado Clássico

azão são den inadosr, segu algum c o vá

o fat crimic

enos um

q

p

Tabela 1 - Valores Observados

Variável B Variável A Categoria Categori ... Categoria

1 2 k Totais a

Categoria 1 O11 O12 ... O1k A1Categoria 2 O21 O22 ... O2k A2... ... ... ... ... ... Categoria r Or1 Or2 ... Ork ArTotais B1 B2 ... Bk N

Partindo da tabela de contingência gerada através do cruzamento das duas variáveis

em estudo (Tabela 1), o primeiro passo consiste em construir a tabela de valores esperados, de dimensões kr × . Os valores desta tabela são calculados da seguinte forma:

kjrinBA

E jiij ,...,1 e ,...,1, ===

Tabela 2 - Valores Esperados

Variável B

Assim podemos formar a seguinte tabela:

Variável A Categoria 1

Categoria 2

... Categoria k

Totais

Categoria 1 E11 E12 ... E1k A1Categoria 2 E21 E22 ... E2k A2... ... ... ... ... ... Categoria r Er1 Er2 ... Erk ArTotais B1 B2 ... Bk n

Posteriormente, calcula-se a estatística de teste:

( )

∑∑= =

−=

r

i

k

j ij

ijijc E

EO

1 1

22χ

127

Essa expressão corresponde ao teste Qui-Quadrado de independência clássico. Sua ico pode ser

sado quando o número total de observações é maior que 40. Se o número de dados estiver ntre 2

utilização, contudo, não pode ser indiscriminada. O teste Qui-Quadrado clássue 0 e 40, e o valor esperado das células for maior do que 5, o teste Qui-Quadrado pode ser empregado utilizando-se a expressão:

( )∑∑

= =

denominada correção de Yates. O valor obtido é comparado com o valor Qui-quadrado referência (tabelado ou obtido computacionalmente), versus . O valor tabelado está associado a um determinado número de graus de liberdade e de nível de significância. Os graus de liberdade são calculados fazendo G.L. = (r-1)(k-1). Aplica-se, então, a seguinte regra de decisão:

i

inal

−−=

r

i

k

j ij

ijijc E

EO

1 1

2

25,0

χ

2cχ 2

TABχ

Se ∈2

cχ RC, então, H0 deve ser rejeitada, caso contrário aceito H0. EXEMPLO 6.1: A tabela abaixo mostra os resultados de um ensaio com 154 pacientes que

apresentavam dor abdominal, tratada pela administração de brometo de pinavério (dois comprimidos/ d a), grupo tratamento. Ao grupo controle foi administrado um placebo.

Ingestão de brometo de pinavério e alívio da dor abdominal

Dor abdom

RC

Grupo Total Sim Não Tratamento 6 57 63 Controle 30 61 91 Total 36 118 154

Para testar a eficiência do uso do sal no tratamento da dor abdominal, pode ser

efetuado o teste Qui-Quadrado Clássico. (n>40) 1º pass

TC PPH :1

A hipótese nula refere que os resultados dos grupos tratamento e controle são iguais.

Dessa forma, do ponto de vista clínico, interessa rejeição de H0 (aceitação de H1), que indicaria a eficiência da droga.

o: Hipóteses Nesse caso, as hipóteses seriam, ⎧ = TC PPH :0 ⎩⎨ ≠

128

129

2º passo: Construção da matriz de valores esperados

Dor abdominal Grupo Sim Não Total

Tratamento 14,73 48,27 63 Controle 21,27 69,73 91 Total 36 118 154

73,14

1543663

11 =×

=E , 27,48154

1186312 =

×=E , 27,21

15436 73,69

15411891

22 =×

=E 9121 =

×=E e

3º passo: Quantificação das diferenças entre as tabelas de valores Observados e Esperados:

( )4290,11)73,6961()27,2130()27,4857(

73,14)73,146( 222

1 1

222 =

−+

−+

−+

−=

−= ∑∑ 73,6927,2127,48= =

4º passo: Decisão estatística O número de graus de liberdade para uma tabela 2x2 é igual a 1. para estes graus de liberdade, os níveis clássicos de significância têm valores:

Como o valor calculado é maior que o valor tabelado ao nível de significância de 1%, então, H0 deve ser rejeitada. Assim fica comprovado o efeito terapêutico do brometo de pinavério no alívio das dores abdominias.

xiste uma variação deste teste que é chamado teste Exato de Fisher e é utilizado em tab

r

i

k

j ij

ijijc E

EOχ

0,01

6354,62TAB =χ

Eelas 2x2 quando o número total de casos é inferior a 20.

7. TESTES DE SIGNIFICÂNCIA PARA MAIS DE DUAS AMOSTRAS

Geralmente, é comum o pesquisador se deparar com situações em que se desejavaliar a diferença entre mais de duas médias. Por exemplo, suponha que al

a guém suspeite

que a população brasileira, em termos de altura, não é homogênea ao se comparar às regiões: sul (1), sudeste (2) e nordeste (3). Tomaríamos uma amostra de cada região e mensuraríamos a altura. Por fim, o que faríamos para testar se a região influência na altura?

Inicialmente, parece razoável fazer testes t, dois a dois para verificar as diferenças. Entreta nimos a significância ou região de rejeição para o teste t, o fazemos r o erro do tipo I. Cada teste teria um índice de s m índice de significância único para

nto, lembre-se de que quando defi, baseados na probabilidade de comete

ignificância α. Ou seja, não podemos estabelecer uar baseado nas hipót test a hipótese H0: 21 µµ == 3µ ese formuladas nos testes

t. Portanto, usar testes t dois a dois não resolve nosso problema, pois não saberemos quando aceitar ou rejeitar a hipótese nula original que é 321 µµµ == .

7.1 TESTES DE SIGNIFICÂNCIA PARA MÚLTIPLA MÉDIAS

Não existe um teste para a diferença entre mais de duas médias baseadas apenas nas regado então é a análise de variância ou ANOVA (do inglês,

nalysis of variance). A esta altura pode-se perguntar: como que vou testar as médias variâncias? Em primeiro lugar, lembre-se de que um dos pressupostos à

utilização dos testes paramétricos é que as variâncias sejam iguais. Se H0 é verdadeira, conceitualmente, é como se todas as amostras tivessem sido tiradas de uma mesma população, se falsa vêm de populações diferentes, mesmo assim, devem ter variâncias

os então entender como avaliar a diferença entre as médias baseado nas s tre as variâncias de nossas amostras.

sist es individuais e todos os fatores ue não são explicados pela parte sistemática. Matematicamente, temos

médias. O teste a ser empabaseados nas

iguais. Vamdiferença en

Para estudarmos a situação apresentada anteriormente consideramos um modelo estatístico, onde cada observação Yi pode ser decomposta em duas componentes:

emática e aleatória, esta última representando variaçõq

ii eY += µ , .,,1 ni K= Assim, se Yi representa a observação associada ao i-ésimo indivíduo, a parte

ca µ pode ser vista como a média populacional que é fixa e a parte aleatória ei o indivíduo e outros fatores que podem influir nas

bservações e não são modelados por µ. Assim, suponha que estamos interessados em s médias de K s, isto é, testar:

ji umm pelo para j ,32

µµµµ

Para tanto, obtemos K amostras independentes, com víduos cad Nesta indivíduo, da i-

Modelo 1:

sistemáticomo a informação referente aocomparar a⎧ =H : 10 µ

populaçõe queremos

⎩ i1⎨H : ≠≠

= enos

nk indi a.

situação, temos que de um modo geral, o modelo estatístico para o j-ésimoésima população é dado por:

ijiij eY += µ , ki ,,1K= ; .,,1 knj K=

Caso a hipótese H0 seja verdadeira, então teremos que todas as médias para as K

populações serão iguais, digamos, a µ, e o modelo pode então ser escrito como:

130

Modelo 0: *ijij eY += µ , ki ,,1K= ; .,,1 knj K=

Note que, em ambos os modelos, temos alguma informação que não está sendo explicada pela parte sistemática que, para o j-ésimo indivíduo do grupo i está sendo deixada em ije no Modelo 1 e em *

ije no Modelo 0. Uma forma de levar em conta estas quantidades para todos os indivíduos é através das somas de quadrados:

∑∑= =

−= iji

ij Ye1 1

2

j

i

Y1 1

2

1µ

]Essas expressões envolvem as quantidades desconhecidas µi, e µ.

Utilizaremos os dados para obter as estima corres ntes. L ando-se em conta que no Modelo 1 estam ndo ntes s paras as K populações, consideremos os

a dessas populações para estimar a correspondente média. ssim, segundo o Modelo 1 temos:

( )∑∑= =i j1 1

K ni

iµ eK ni

j

2 ( )∑∑∑∑= == =

−=K

i

n

jij

K

i

ni2*

ije1

)(

ki ,,1K=tivas ponde ev

os po su difere médiadados oriundos de cada umA

ii

n

jij

i Yn

Yi

==∑

=1µ com ki ,,1K=

e para o Modelo 0:

YYn

K

i

n

jij

i

== ∑∑= =1 1

1µ com .1 knnn ++= K

Assim, definimos as quantidades SQD, SQT e SQE, dadas por:

( ) ( )∑∑ ∑∑ ∑∑∑= = = = == = i j i j i

iiijiiji j

iij1 1 1 1 11 1

−=−=−=K

YnYYYYSQD 2222µ K n K nK n i ii

( ) ∑∑∑∑= == =

−=−=K

i

n

jij

K

i

n

jij

ii

YnYYSQT1 1

22

1 1

2µ

( ) ∑∑=

=−=i

nSQDSQTSQE1 =

−=−i

ii

K

iji YnYnYY1

222 .

siglas SQT, S baseiam inte in QT co ponde total dos da ma c variab presente dentro dos

grupos e SQE a variabilidade tre os grupos. a das som de quadrado idas envolv certo núm ro de

ades que estão send timadas. Por o, SQT conté

K

As à variação

QD e SQE dos; SQD é u

-se na seguombinação da

terpretação. Silidade

rres

enCada um as s defin e um e

quantid o es exempl m Y , SQD contém iY , i k,,1K , etc. A fim de levar este fato em con

drados médios: = sideração, definimos os correspondentes uaq

1−=

SQTQMT ; quadrado médio total; n

KnSQDMD = ; quadrado médio dentro; e Q

−

1−=

KSQEQME ; quadrado médio entre.

O teste estatístico para testar a hipótese H0 deve envolver estas quantidades. Se a

hipótese H0 não for verdadeira, então, o Modelo 1 deve ser mais adequado aos dados do que o Modelo 0. Em outras palavras, os resíduos produzidos pelo Modelo 1 serão menores

131

que os do Modelo 0. Dessa forma podemos interpretar QME como sendo a quantificação da informação contida nos dados que é captada pelo Modelo 1 e QMD a quantificação da parte que não é explicada pelo Modelo 1. Portanto, se QME for grande quando comparado a QMD, a parte sistemática do Modelo 1 estará captando grande parte da informação dos dados e a hipótese H0 deverá ser rejeitada. Assim temos a estatística de teste:

QMDQMEF =

Quanto maior for o valor de F, maior será QME comparado a QMD e assim maiores as evidências contra H0. Por fim, precisamos encontrar a distribuição de probabilidade da estatística F.

Supondo as seguintes condições: são variáveis aleatórias independentes, Todas as K populações têm variâncias iguais a σ2, tem distribuição Normal.

Pode ser mostrado que a estatística de teste F tem distribuição de Fisher-Snedecor

com (K-1) graus de liberdade no numerador e (n-K) graus de liberdade no denominador. Das três suposições a mais importante é a de homocedasticidade, ou seja, de que as

variâncias são iguais, e a suposição de normalidade pode ser relaxada se n for grande. Passos do teste ANOVA. 1. Hipóteses:

2. Fixar

ijY

ijY

⎩⎨⎧

≠≠==

ji um menos pelo para HH

ji ,::

1

3210

µµµµµ

α . 3. Estatística do Teste: F tem distribuição de Fisher com K-1 graus de liberdade no

numerador e n-K graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

4. Calcular a estatística de teste: Fonte de Variação

Graus de Liberdade

Soma de Quadrados

Quadrado Médio FC

Entre K –1 SQE QME QME/QMDDentro n – K SQD QMD - Total n-1 SQT QMT - 6. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4. Se

H0 ?RCFc ∈ , rejeita-se . Caso contrário, aceita-se .

7. Conclusão

Fα

H0 H0

132

EXEMPLO: Três treinadores de voleibol discutiam sobre as suas formas diferentes de melhorar a altura do salto vertical de atletas. Para testar a eficiência de um método sobre o outmediraConsidse exiscontend

geral

ro, cada um treinou 5 indivíduos com o seu método particular. Depois do treinamento, m a altura que cada indivíduo saltava. A resposta está apresentada na tabela abaixo. erando a variável altura do salto vertical como tendo distribuição normal, verificar te um método melhor que outro para uma significância de 5%. A seguir a tabela o a altura atingida pelos atletas em metros nos três métodos de treinamento.

Atleta Método 1 Método 2 Método 3 Média

1 43,4 46,6 46,1 2 45,1 47,2 47,5 3 45,3 44,5 46,4 4 45,2 45,8 48,5 5 46,1 45,7 46,6

Média 45,0 46,0 47,0 46,0 SO 1. Hipó

≠≠==

spel para HH

ji ,::

1

3210

µµµµµ

. Fixa

LUÇÃO:

teses:

⎩⎨⎧

ji um meno o

2 r α =0,05.

tística do Teste: F tem dis 3. Esta tribuição de Fisher com 2 graus de liberdade no

numerador e 12 graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,

ular a estatística de teste:

Fα=3,88

7. Calc Fonte de Variação

Graus de Libe

Quadrado dio FC

Soma de Q ados rdade uadr Mé

Entre 10,01 1 5,04 2 5,0Dentro 12 1 99 - Total 14 21,92 - -

11,9 0,

8. Decisão: Como FC > F�, então rejeitamos 0. A altura do salto vertical dos atletas diferem em função dos métodos 1, 2 e 3.

U

H

ma pergunta a seguir seria: Qual é o melhor?

133

Realmente desejamos saber qual método produziu saltos mais altos. Sem entrar em s, existem testes post hoc para nos dar tal informação. Um deles é o de Tukey. Se os para as m

detalheolharm édias, parece que a média do método 3 é a maior. Basicamente, o teste

e Tukey calcula a diferença mínima a ser considerada significativa a partir de uma estatística que se utiliza da variância total, e a com as d ntre as médias, calculadas duas a duas. Se a diferença for maior que a mínim nsidera-se que a diferença é significativa. Podemos perguntar então, por que não fazTukey? Lem Tukey só faz sentido se a diferença for significativa pela ANOVA.

Para o exemplo acima, fazendo o teste de Tukey via método computacional (os método e ferramenta para resolver nossas questões),

ríamos que, o método 3 foi maior que o método 2 e que o método 1, e que não houve iferen

dpara com iferenças e

a, coemos direto o teste de

bremos que o teste de

s computacionais são uma excelentted ça entre o método 2 e o método 1.

134

EXER

1) Para um certo tipo de lesã a recuperação completa é quase certa. O Dr. Vertebroni, suspeita que o tempo de recuperação está relacionado à terapia administrada. De 50 pacientes que ele tratou por métodos físicos, somente 38 recuperaram-se durante o prime e 12 rec am-se durante o segundo ano. De 75 pacien ele tratou ma com de drogas e repouso, 43 recuperaram-se durante o prime e 32 d o segundo ano. Estes resultados dão suport à teoria do nível de significância de 1%?

2) O tempo de permanê cia de psicó ecém form no 1º emprego, em anos,

foi estudado considerando um m média e variância desconhecidas. Por analogia com outras categorias profissionais, deseja-se testar se

3)

a am stra al ór om 2 ár , r strando o tempo (e o g por cada um n n o novo prod

5 , 9 1

4)

omprovar a alegação do laboratório, um organismo de controle testou em 180 pacientes, verificando a ação da droga em 147 casos. O teste a eficiência

lo , ao nível de significâ % 5) Uma vacina que se supõe eficaz para prevenir os resfriados, foi testada em 500

uos comp ano, com os onde 500 indivíduos não vacinad . Os resu os seguintes:

s Obse das

Nenhum Resfriado

Um resfriado

ais de uResfriad

CÍCIOS

o da coluna vertebral,

iro ano uperartes que com u binação

iro ano urantee Dr. Vertebroni com

n logos rodelo Norm

ados al com

o tempo médio é superior a 2 anos. Para uma amostra de 15 psicólogos, a média obtida foi de 2,7 anos e o desvio padrão de 1,4 anos. Ao nível de significância de 1%, qual a conclusão do teste?

Uma empresa de informática lança um novo software no mercado. Com o objetivo de estimar o tempo médio para aprender a usar o software, a empresa utiliza um

o eat ia c 1 usu ios egi m h ras) asto dos selecio ados para apre der a usar uto:

1,7 2 25 2,40 1, 0 ,50 2,752,15 2,25 1,80 2,20 3,25 2,60

Supondo que o tempo de aprendizado tem distribuição normal, teste a hipótese de que o tempo médio de aprendizado do novo software é menor que 2,5 horas, ao nível de 4% de significância.

Obs: Pode usar, para facilitar nos cálculos, as seguintes aproximações:

Suponha que um laboratório alegue que uma determinada droga que ele comercializa é eficiente em pelo menos 80% dos casos em que é utilizada. Suponha que, para c

e 8,2612

1i

12

1= ∑∑

==iix

alegada pe laboratório ncia de 10 .

indivíd e os resultados foram arados, durante umcorresp ntes a os ltados foram

Freqüência rvaM m Total

o Vacinado 145 103 500 s 252 Não vacinados 224 136 140 500 476 281 243 1.000

Há evidências quanto à eficiência da vacina ao nível de significância de 5%?

6) A cada elemento de uma amostra de 250 homens de uma população de suspeitos de

possuírem enfermidade nas articulações foi perguntado qual de três sintomas o

135

incomodava mais. A mesma questão foi perguntada a uma amostra de 300 a mesma suspeita de enfermidades. Os resultados foram os

seguintes:

Homens Mulheres

mulheres com

Sintoma que mais incomodava Rigidez matinal 111 102 Dor noturna 59 73 Articulação inchada 80 125 TOTAL 250 300

7) Quinhentos escolares de primeiro grau menor foram classificados em uma tabela

criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:

Grupo Sócio Econômico

Os sintomas diferem entre os sexos?

Defeito da Fala Superior Médio Superior

Médio Baixo

Baixo TOTAL

Presente 8 24 32 27 91 Ausente 42 121 138 108 409 TOTAL 50 145 170 135 500

Então estes dados compatíveis com a hipótese que o defeito na fala é não correlacionado com o status sócio-econômico?

8) Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor

expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de acordo com um curso televisionado. As notas alcançadas pelos alunos no final de um único teste foram:

Sala de aula 68 69 74 79 80 84 Pela TV 60 64 65 66 67 70 72 73 76 77 78 81

O ensino televisionado é mais proveitoso que o ensino ao vivo? (Use α=0,05).

9) Os dados da tabela a seguir são escores de autoritarismo de uma amostra aleatória de 14 estudantes de uma escola pública e de 14 estudantes de uma escola da rede particular de ensino. Suponha que um estudante que tem um escore, digamos 93, é mais autoritário do que um estudante que tem um escore, digamos 88:

Pública 60 80 65 100 95 88 70 104 75 85 110 55 40 45 Particular 98 87 133 115 93 140 67 134 106 81 111 56 41 42

É razoável assumir a um nível de significância de 1% que os estudantes da escola particular são mais autoritários que os estudantes das escolas públicas?

10) Uma loja de departamentos está interessada em saber se existem diferenças entre

as quantias faturadas em três formas de pagamento: dinheiro(D), cheque(C) e cartão de crédito(CC). Um levantamento das vendas em um dado período de tempo foi feito, produzindo os dados apresentados na tabela a seguir que representam o

136

valor de algumas vendas em reais. Existe diferença entre os tipos de vendas? (Use o nível de significância de 5%).

Formas de pagamento

D C CC 52,10 80,90 73,25 20,99 54,29 56,65 32,38 40,95 126,21 28,64 72,65 56,50

132,47 39,29 65,32 44,65 60,00 39,64

11) Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de que o tratamento empregado não contribui para a diminuição do peso. O advogado de defesa contratou um estatístico, que selecionou aleatoriamente 12 prontuários que continham informação a respeito dos pesos dos pacientes, tomados no início e no final do tratamento. Os dados obtidos foram (em kg):

1 2 3 4 5 6 7 8 9 10 11 12 Início 82 104 94 63 70 80 103 56 79 84 81 78 Final 78 93 87 61 71 82 94 65 79 80 81 82

12) Fatores de risco para infecção chagástica – um estudo de caso-controle (2:1) de

base populacional foi delineado para avaliar fatores de risco associados à infecção pelo T. cruzi na infância, em municípios do nordeste do Estado de Goiás/ Brasil. Para tal 1990 crianças de 7-12 anos foram triadas sorologicamente para seleção de 149 crianças soropositivas (casos) e 298 soronegativas (controles). Casos e controles foram pareados por sexo, freqüência de idade e localidade. A base de dados “dadosch.txt” que está localizado na pasta “\Bioestatística\” possui as variáveis:

Variável Descrição Código Descrição do Código

Verifique se alegação procede ao nível de significância de 5%.

Grupo Caso/ Controle 1 2

Caso Controle

Idade Idade em anos completos 7 a 12 Sexo Sexo 1

2 Masculino Feminino

Munres Município de Residência 1 2 3

Posse Guarani de Goiás Simolândia

Morb Antecedentes mórbidos 1 2 9

Não Sim Sem informação

Hosp Hospitalização 1 2 9

Não Sim Sem informação

137

a) Crie uma variável nova chamada faixa etária (faixa) distribuindo as crianças em

io de residência, antecedentes mórbidos e hospitalização. Transcreva as tabelas geradas para a folha de prova bem os p-valores e os testes utilizados em cada tabela.

c) Com base nas tabelas geradas, interprete os resultados obtidos.

Então:

dois grupos: 7 a 9 anos e 10 a 12 anos. b) Faça um estudo comparativo entre casos e controles. Construa tabelas com as

características dos casos e controles, incluindo sexo, faixa etária, idade, municíp

138

VIII. ANÁLISE DE REGRESSÃO

139

1. REGRESSÃO LINEAR SIMPLES

Estamos interessados em saber se existe relação entre duas variáveis, mas, além disso, temos interesse em verificar sua relação de casualidade, isto é, queremos quantificar qual é a mudança observada em uma das variáveis quando variamos os valores da outra. Exemplo 1:Em uma dada Região Bocaina, SP, acredita-se que o gado que permanece em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada para melhorar o ganho de peso dos bovinos, Foram escolhidos 15 bois de uma mesma raça e idade. Cada animal recebeu uma determinada concentração de substância X (em ml/l) e o ganho de peso G, em kg, após 30 dias foi anotado. Os dados obtidos foram:

X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 G 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 25,5 24,7 23,1

Observando a tabela de dados notamos que, de fato, à medida que aumenta a concentração da substância, ocorre um aumento no ganho de peso. Calculando o coeficiente de correlação linear entre a concentração de X e o ganho de peso, obtemos 0.98 de forma que a variação de uma das variáveis é sensivelmente influenciada pela variação da outra, confirmando a relação entre elas.

X ocorre aumento no ganho de peso dos animais, o que é confirmado pelo sinal positivo do coeficiente de correlação.

Para observarmos como as variáveis se relacionam, construímos um gráfico de dispersão apresentado na Figura_1, onde nota-se que os pontos tendem a se alinhar sobre uma reta. Como mencionamos anteriormente, a figura mostra que a medida que aumenta a concentração de

0,0

5,0

10,0

15,0

20,0

25,0

30,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0

Concentração da Substância (mL/l)

Gan

ho d

e Pe

so (k

g)

Relação entre concentração da substância e peso

Figura 1 –

140

U nd desentiliza o o volvimento da Análise de Variância apresentada na seção nterior, iremos estudar situações como a apresentada no último exemplo. Dado o conjunto e valores representado por (Xi, Yi), i = 1,...,n, o modelo estatístico que iremos utilizar é

dados por Yi = g(Xi) + ei

to é, o comportamento de Yi é explicado em parte por Xi, através da função g(Xi) e o que ão é captado por essa função, é representado por ei . Várias opções para g(Xi) podem ser tilizadas mas a que define o modelo de regressão linear simples é

g(Xi) = α + β Xi

Portanto, dado um valor pré-fixado xi para Xi, o modelo pode ser reescrito como Yi = α + β Xi + ei

Além disso, assumimos que os termos ei , i = 1,..., n, são independentes e istribuídos conforme um modelo Normal de média 0 e variância σ2.

Em modelos de regressão, a variável Yi é comumente denominada de variável resposta ou variável dependente, ao passo que cada variável Xi é chamada de variável independente, explicativa ou ainda covariável.

Como conseqüência da definição, temos que para Xi = xi , i = 1,...,n, as variáveis Yi são independentes e

Yi ~N(α + βXi , σ 2), i = 1,…,n.

Os parâmetros do modelo sobre em que temos o maior interesse α e β. Além de dar a forma matemática do modelo, eles têm interpretações muito úteis na prática. O parâmetro α é o valor esperado par a variável dependente Yi quando Xi é igual a zero. Para melhor interpretar o parâmetro β, considere dois valores para Xi , dados por x e x + 1 e represente por E(Y | X = x) ao valor esperado da variável resposta quando X = x. Então,

E(Yi | X = x + 1) = α + β(x + 1) = (α + βx) + β = E(Yi | Xi = x ) + β

os a desenvolver: a estimação dos parâmetros do odelo

es. Note que caso o ajuste fosse perfeito, todos os pontos todos iguais a zero.

ad

isnu

d

Assim, vemos que β = E(Yi | X = x + 1) - E(Yi | Xi = x ) representa o acréscimo esperado na variável resposta, quando a covariável é acrescida em uma unidade. Isto nos fornece uma idéia a respeito da intensidade com a qual a covariável atua na resposta.

Temos agora que dois procedimentm e o desenvolvimento de testes de hipótese de interesse.

A estimação de α e β pode ser feita através do método dos mínimos quadrados, que consiste em minimizar a soma de quadrados dos resíduos obtidos através da diferença entre valores observados y e valores esperados E(Y | X = x ) calculados para cada X = x. A

igura_2 ilustra essas quantidadFestariam alinhados sobre a reta e os resíduos e seriam

141

Portanto, dado que em geral os pontos estão perfeitamente alinhados, escolhemos a melhor” reta possível no sentido de minimizar, com relação a α e a β, a soma de

quadrados SQ(α, β), dada por

2

ontas a cargo do leitor, apresentando qui a solução para o sistema, que fornecerá os estimadores de mínimos quadrados para α β, dados por

“

( )( )2

1|),( ∑

=

=−=n

iiiii xXYEySQ βα

( ) ∑∑==

−−=n

ii

n

iii exy

1

2

1βα

Matematicamente, temos que resolver o sistema de equações envolvendo as erivadas SQ(α,β) em relação a α e β. Deixemos as c

=

dae

∑

∑

=

=

−

−= += exy ˆˆ βα n

ii

n

iii

xnx

yxnyx

1

22

1β

xemplo2: E Vimos no exemplo anterior que uma reta pode ser utilizada para representar a o efeito da concentração X no ganho de peso. Para obtermos essa reta, utilizamos as

estimativas α ˆ e β . Temos que n = 15, ∑ ∑= =

=x2 70,2;39,63 e ==i i

iii xyx1 1

1;35,790n n

.21,16=y Logo,

48 ,270,239,163

1670,2

1

22=

×−×

=−

=

∑

∑

=

n

ii

n

i

nx

e assim,

1521,21535,790 ×−β 1

−=

ii yxnyx

x

52,970,248,221,16ˆˆ =×−=−= xy βα

Portanto, dado X = xi , temos que a reta ajustada fornece valores dados por

iy

142

iii xxy 48,242,9ˆˆˆ +=+= βα

A Figura_3 moo modelo de regressão linear simples ap

stra os dados originais e a reta ajustada que foi obtida. Observe que resenta um ajuste adequado aos dados

apresentados.

A interpretação dos valores estimados é feita da seguinte formue não recebem a substância X é 9,52kg (obtido

a. O ganho de peso substituindo Xi = 0

c utro ume na con tração de X implica e ho es ,48k

T teses en vendo os p os do m regress r simples baseiam- mposição da variação total discutida na seção anterior.

O principal teste de interesse é se a covariável influencia na resposta, o que é quivalente a testar a hipótese:

Por outro lado, caso a hipótese seja rejeitada, o modelo é:

Modelo 1: Yi = α + βXi + ei i = 1,...,n

esperado em bovinos qna equaç da aão calcula

m um ganima). Por oerado de 2

lado, um ag.

nto de 1mg/l cenp

este de hipó vol arâmetr odelo de ão linease na deco

e

H0: β = 0

Caso está hipótese não seja rejeitada, temos o modelo dado por:

Modelo 0: Yi = µ + ei i = 1,..., n

143

O Modelo 0 gera a soma de quadrados total, dada por

( ) ,1

2∑=

que contém a variação total contida os dados. Por outro lado, o Modelo 1 gera a soma de quadrados residual, dada por

−=n

Ii yySQT

( ) ,ˆˆRe1

∑2

=

n

que contém a variação dos dados que não é explicada pelo modelo. A difd

−−=i

ii yysSQ βα

erença entre as uas fornece a chamada soma de quadrados da regressão, dada por

−= ( )∑

=

−×=n

ii xx

1

22β

sSQSQTgSQ ReRe

Note que SQT envolve a média y , e assim, temos n-1 graus de liberdade

associados a essa quantidade; vo vas, β , αs nSQ Re e lve duas estimati e e im temo n-2 graus de liberdade. Logo, para tem n – 1 – (n - 2) = 1 grau de liberdade. Conseqüentemente, definim édios por

ass sgSQ Re os

os quadrados m

21 −− nn

Re,2==sSQSSQTQMT Re =sQM e Re gSQ

1

Onde, dessa forma, a razão dada por

Re gQM =

sQMgQMF

ReRe

=

a estatística de teste para verificar a hipótese de interesse. Pode ser mostrado que F tem

distribuição de Fisher com 1 e n-2 graus de lio on uí s b d N A ar m e

éberdade.

Em resum , c str mo a a t ela e A OV p a o od lo Y iii eX ++= βα , da

e Quadrado Médio

F

da por:

Fonte de Variação

Grau de Liberdade

Soma dQuadrados

Regressão 1 gSQ Re gQM Re sQMgQM ReReResidual - 2−n sSQ Re sQM Re

Total - 1−n SQT QMT

144

Exemplo3: Para o Exemplo1, que estuda o ganho de peso de bovinos, a evidência cia da concentração de X no ganho de peso é obtida através

o teste de hipótese: estatística a respeito da influênd 0:0 =βH contra 0:1 ≠βH .

Para obter os valores de gQM Re e sQM Re pode-se usar a planilha eletrônica.

Temos,

( ) 5448,2ˆRe 222 ×=−= ∑n

i xxgSQ β 37,33204,1

==i

2

=−−= ∑( ) ;34,12ˆˆ1=

n

ii yy βα i

Re sSQ

em que as contas intermediárias são apresentadas na tabela a seguir.

i ( )2ˆˆ ii yy βα −− ( )2xxi − 1 0,25 6,25 2 0,58 4,84 3 1,92 4,41 4 0,95 4,00 5 0,00 2,89 6 0,24 1,44 7 0,02 0,49 8 0,39 0,04 9 0,40 0,09 10 0,18 0,64 11 0,34 1,69 12 0,40 3,24 13 2,68 5,29 14 2,54 7,84 15 1,46 10,89

Total 12,34 54,04

Variação Liberdade Soma de

Quadrados Quadrado

Médio F

A tabela da variância para o modelo de regressão proposto fica

Fonte de Grau de

Regressão 1 332,37 332,37 349,86 Residual 13 12,34 0,95

Total 14 344,71 24,62

O valor crítico é obtido da distribuição de Fisher com 1 e 13 graus de liberdade. aso, considerando um nível de significância α = 0,01 obtemos f = 9,07.

Nesse c

Como 86,349=obsF pertence a RC, então, rejeitamos a hipótese nula e concluímos stem evidências estatísticas de que a concentração da substância

f = 9,07

qpeso.

ue exi X altera o ganho de

145

EXERCÍCIOS

1. Um estudo deseja avaliar o efeito de determinado treinamento no tempo de reação de atatletaatribuído, denotado por X e o tempo de reação denotado por Y, foi medido (em ms). Uma reta de mínimos quadrados foi ajustada aos dados, fornecendo a equação.

letas. O treinamento consiste na repetição de certo movimento e uma amostra de 37 s foi utilizada no experimento. Para cada atleta, um certo número de repetições foi

nixy ii ,,190,05,80 K=−=

Interprete as estimativas, dos parâmetros do modelo, obtidas.

. Para verificar o efeito da variável X sobre a variável Y, foi realizado um experimento, que forneceu os pares ( )ii yx , d

2ados por ( ) ( ) ( )9,15;5,3,24;7,3,13;3 ,

)( ) ( ) ( ) ( ( ) ( ) ( ) ( ).6,4;1,0, Obtenha 12;2,,3,23;5,5,14;3,5,2;2 a reta aj a. Faç o baseando-se nos pares de valores fornecidos e sobreponha à reta ajustada. Baseando-se apenas no gráfico você diria que o ajuste é adequado?

3. Para verificar se existe relação entre a renda familiar (em salários mínimos) e o número de f oi coletada um amílias em uma cidade. Os resultados obtidos es tabel

Renda Familiar

6,32;829;7,6,99,8,12;ustad a o diagrama de dispersã

ilhos, ftão na

a amostra de 8 fa a seguir:

12 14 15 17 23 27 34 43 Filhos 3 2 2 1 1 0 0 0

a. m um diagrama de dispersão e no

bda influi no número de filhos, considerando α = 5%.

4 Um

corretamente. No experimento realizado, 15 pessoas foram selecionadas ao acaso e a cada uma delas perguntou-se os pesos, que depois foram aferidos em balanças devidamente calibradas. Os resultados são apresentados a seguir:

Indivíduo

Que conclusões podem ser tiradas baseando-se ecoeficiente de correlação?

. Calcule a reta de mínimos quadrados e interprete os parâmetros. Realize o teste statístico para verificar se a rene

. estudo foi conduzido para verificar se as pessoas estimam os prórpios pesos

Peso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Estimado 82 58 69 70 54 62 92 75 45 81 78 65 56 63 70 Real 83 57 73 76 55 60 98 74 44 82 76 67 54 60 71

O que pode ser concluído a partir dos dados?

146

EXERCÍCIOS PRÁTICOS

ara responder as questões 1, 2 e 3 utilize um computador. O software utilizado para tal ica a seu critério, sendo necessário apenas transcrever os testes utilizados bem como esultados obtidos, para a folha de resolução da prova. Para resolução deste dois xercícios utilize o banco de dados “cancer.txt” que está localizado na pasta “\Meus ocumentos\Bioestatística\”. O banco “cancer.txt” contém os dados de uma pesquisa sobre cidência de câncer e possui as seguintes variáveis:

D: Identificação do paciente. rupo: Diagnóstico 1-Falso-negativo: diagnosticados como não tendo a doença quando na verdade a tinham. 2-Negativo: diagnosticados como não tendo a doença quando de fato não a tinham. 3-Positivo: diagnosticados corretamente como tendo a doença. 4-Falso-positivo: diagnosticados como tendo a doença quando na verdade não tinham.

ade: Idade do paciente.

itrogenio: Nitrogênio na uréia.

. O objetivo aqui é verificar se ao nível de significância de 5%:

a. Os níveis de nitrogê ntre diagnósticos (grupo)? Justifique.

b. A idade difere em média entre diagnósticos (grupo)? Justifique.

2. Deseja-se agora verificar se conforme aumenta a idade, muda a concentração de nitrogênio na uréia. Para tal responda as perguntas abaixo:

a. A partir do banco total, selecione apenas os pacientes que têm a doença (isto é,

consideremos o grupo formado por pacientes cujo diagnósticos é Falso-negativo ou Positivo). Construa um gráfico de dispersão para idade e concentração de nitrogênio e calcule o coeficiente de correlação de Pearson. O que pode ser dito?

b. (Ainda utilizando o conjunto dos Falso-negativo ou Positivo). Suponha que a variável dependente é a concentração de nitrogênio e que a variável independente é a idade do paciente, estime um modelo de regressão linear simples. Qual é a interpretação de b nesse caso?

c. (Ainda utilizando o conjunto dos Falso-negativo ou Positivo). Ao nível de

significância de 5%, se existe evidência estatística de que a idade influencia na concentração de nitrogênio? (Ou seja, o modelo é significativo?)

d. A partir do banco total, selecione agora apenas os pacientes que não têm a

doença (diagnóstico Negativo ou Falso-positivo). Construa um gráfico de dispersão para idade e concentração de nitrogênio e calcule o coeficiente de correlação de Pearson. O que pode ser dito?

e. (Ainda utilizando o conjunto dos negativo ou falso-positivo). Suponha que a

variável dependente é a concentração de nitrogênio e que a variável independente é a idade do paciente, estime um modelo de regressão linear simples. Qual é a interpretação de b nesse caso?

PfreDin

Ig

idn 1

nio na uréia diferem em média e

147

f. (Ainda utilizando o conjunto dos negativo ou falso-positivo). Ao nível de ca de que a idade influencia na

concentração de nitrogênio? (Ou seja, o modelo é significativo?)

g. Com base nos itens anteriores, você diria que o efeito da idade na concentração de nitrogênio difere entre pacientes com e sem doença? Compare os resultados nos itens (b) e (e).

A fim de verificar a evolução média anual dos coeficientes de mortalidade por Doenças

o Aparelho Circulatório (DAC) foi conduzido um estudo utilizando dados do Sistema de formações de Mortalidade – SIM/DATASUS, no período de 1980 a 2002. Na construção

d co nte mo os o número de óbitos por DAC nos anos de 1980 a 2002, e procedemos ao cálculo do coeficiente de m

nco de dados “dac.txt” que se encontra na t \” u i

i o D o i

significância de 5%, se existe evidência estatísti

3. dIn

os eficie s de rtalidade por regiões, utilizamortalidade por 100.000

habitantes. As séries estão apresentadas no bapasta “\Bioes atística e poss i as var áveis:

Variável Descr ção Códig escriçã do Cód go An e o a o Ano d registro dos óbit s 1980 2002 Regiao Região ê N

Nordeste SSC e

de resid ncia dos óbitos 1 2 3 4 5

orte

udeste ul entro-O ste

Coef Coefic100.00

i m d ente de 0 habitan

ortalidates

e por

Para estes dados faça:

ii

i. r d s o. cr re s

e et u

. e e v n s en o if

. d s a i o ?

Const ua um modelo e regres ão linear para cada regiã Trans eva os sultadopara a folha d prova e interpr e os res ltados.

O qu pode s r dito sobre a ariação média a ual do coefici tes por DAC n

período estudado. Just ique.

iii Há in ícios de que as variaçõe médias nuais d ferem p r região

148

I

X. TABELAS

149

150

Tabela 1a – TABELA DA DISTRIBUIÇÃO NORMAL

z 0,06 0,04 1 0,09 0,08 0,07 0,05 0,03 0,02 0,0 0 ...

-3,7 . 0 0,0001 011 .. etc <0,0001 0,00-3,6 0, 000 ,00 0,00013 0 0,00014 5 15 0,00016 00011 0, 12 0 012 0,00013 ,00014 0,0001 0,000-3,5 0, 17 0,000 ,00 0,00019 2 2 023 000 17 0 018 0,00019 0,0002 0,00021 0,0002 0,000 2 0,00-3,4 0, 24 0,000 ,00 0,00028 0 0,0003 1 3 034 000 25 0 026 0,00027 ,00029 0,0003 0,000 2 0,00-3,3 0, 000 ,00 0,0004 0 5 4 048 00035 0, 36 0 038 0,00039 ,00042 0,00043 0,0004 0,000 7 0,00-3,2 0 000 ,00 0,00058 4 6,0005 0, 52 0 054 0,00056 0,0006 0,00062 0,0006 0,000 6 0,00069 -3,1 0, 000 ,00 0,00082 0 9 097 00071 0, 74 0 076 0,00079 ,00084 0,00087 0,0009 0,000 4 0,00-3,0 001 ,00 0,00114 0 6 3 135 0,001 0, 04 0 107 0,00111 ,00118 0,00122 0,0012 0,001 1 0,00-2,9 0 3 001 ,00 ,0 0,00159 0 5 8 187 ,001 9 0, 44 0 149 0 0154 ,00164 0,00169 0,0017 0,001 1 0,00-2,8 0 001 ,00 ,0 0,00219 0 4 256 ,00193 0, 99 0 205 0 0212 ,00226 0,00233 0,0024 0,002 8 0,00-2,7 0,00264 0,00272 0,0028 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 0,00347 -2,6 0 003 ,00 ,0 0,00402 0 45 466 ,00357 0, 68 0 379 0 0391 ,00415 0,00427 0,0044 0,00 3 0,00-2,5 004 ,00 0,00539 0 7 0 621 0,0048 0, 94 0 508 0,00523 ,00554 0,0057 0,0058 0,006 4 0,00-2,4 0 006 ,00 ,0 0,00714 0,00734 0,00755 79 82 ,00639 0, 57 0 676 0 0695 0,00776 0,00 8 0,00-2,3 0 00866 0,00 ,0 0,00939 0 7 4 072 ,00842 0, 889 0 0914 ,00964 0,0099 0,0101 0,010 4 0,01-2,2 0 ,01 ,0 0,01222 0 1 5 39 ,01101 0 13 0 116 0,01191 ,01255 0,01287 0,0132 0,013 5 0,01-2,1 0 014 0, ,0 0,01578 0 43 0,01786 ,01426 0, 63 015 0 1539 ,01618 0,01659 0,017 0,017-2,0 0,018 018 ,0 , 0,02018 0 9 2 275 31 0, 76 0 1923 0 0197 ,02068 0,02118 0,0216 0,022 2 0,02-1,9 023 ,0 0 0,02559 0 3 0,0280 872 0,0233 0, 85 0 2442 ,025 ,02619 0,0268 0,0274 7 0,02-1,8 0 03 0 ,0 0,03216 0 8 1 593 ,02938 0, 005 0, 3074 0 3144 ,03288 0,03362 0,0343 0,035 5 0,03-1,7 0 73 0,03 0 , 0,04006 0 2 6 457 ,036 754 0, 3836 0 0392 ,04093 0,04182 0,0427 0,043 3 0,04-1,6 0 04 0 0,04947 0,05262 37 0,0548 ,04551 0, 648 0, 4746 0,04846 0,0505 0,05155 0,05-1,5 0 05 0 ,0 0,06057 0 6 5 681 ,05592 0, 705 0, 5821 0 5938 ,06178 0,06301 0,0642 0,065 2 0,06-1,4 0 6 0 ,0 0,07353 0 2 076 ,06811 0,0 944 0, 7078 0 7215 ,07493 0,07636 0,0778 0,079 7 0,08-1,3 0,08226 0,08379 0,08534 0,0 0,08851 0 2 51 68 8692 ,09012 0,09176 0,0934 0,09 0,09-1,2 0 0 1 ,1 0,10565 0 3 0,1131 507 ,09853 0,1 027 0, 0204 0 0383 ,10749 0,10935 0,1112 4 0,11-1,1 0 ,1 , 0,12507 0,12714 0,12924 0,13136 35 567 ,11702 0 19 0 121 0,12302 0,13 0,13-1,0 0 4 1 0,14686 0,14917 0,15151 0,15386 25 0,15866 ,13786 0,1 007 0, 4231 0,14457 0,156-0,9 0,16109 0,16354 0,16602 0,16853 0,17106 0 0,17619 9 41 0,18406 ,17361 0,1787 0,181-0,8 0 7 9 92 9 ,1 0,20045 0,20327 7 86 ,186 3 0,18 43 0,1 15 0,1 489 0 9766 0,20611 0,2089 0,211-0,7 0,2147 7 20 2 0,22965 0,2327 5 96 6 0,21 7 0,2 65 0,2 363 0,22663 0,23576 0,2388 0,241-0,6 0,2451 0,248 51 5 0,26109 0,26435 3 25 25 0,2 43 0,2 463 0,25785 0,26763 0,2709 0,274-0,5 0,2776 0 84 8 0 0 54 0,28 96 0,2 34 0,2 774 0,29116 ,2946 ,29806 0,30153 0,30503 0,308-0,4 0 07 0,315 19 2 ,3 0,32997 0,3336 58 ,312 61 0,3 18 0,3 276 0 2636 0,33724 0,3409 0,344-0,3 0,3482 1 55 5 , 0,36693 0,3707 09 7 0,35 97 0,3 69 0,3 942 0 36317 0,37448 0,37828 0,382-0,2 0,3859 9 93 9 , 0,40517 0,40905 74 1 0,38 74 0,3 58 0,3 743 0 40129 0,41294 0,41683 0,420-0,1 0,4246 858 0,43 3644 0, 0,44433 0,44828 17 5 0,42 251 0,4 44038 0,45224 0,4562 0,460

0 0,46414 0,46812 0,4721 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 0,5 z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0

Tabela 1b – TABELA DA DISTRIBUIÇÃO NORMAL

z 01 5 0 0,08 0,09 0 0, 0,02 0,03 0,04 0,0 0, 6 0,07 0 0,5 0,50399 0,51197 9 3 ,53188 0,53586 0,50798 0,515 5 0,51994 0,52 92 0,5279 0

0,1 0,5 8 2 6 3 ,57142 0,57535 39 3 0,5438 0,54776 0,5517 0,555 7 0,55962 0,56 56 0,56749 00,2 0,5 5 8 2 ,61026 0,61409 7926 0,58317 0,58706 0,5909 0,594 3 0,59871 0,60 57 0,60642 00,3 0,6 07 0,636 0 ,64803 0,65173 1791 0,62172 0,62552 0,6293 0,633 83 0,64 58 0,64431 00,4 0,6 4 0 7 ,68439 0,68793 55 2 0,6591 0,66276 0,6664 0,670 3 0,67364 0,67 24 0,68082 00,5 0, 4 4 2 ,71904 0,7224 69146 0,69497 0,69847 0,7019 0,705 0,70884 0,71 26 0,71566 00,6 0,725 5 9 5 ,75175 0,7549 75 0,72907 0,73237 0,7356 0,738 1 0,74215 0,74 37 0,74857 00,7 0, 3 3 76 ,7823 0,78524 75804 0,76115 0,76424 0,7673 0,770 5 0,773 7 0,7 37 0,77935 00,8 0, 3 55 234 0,805 ,81057 0,81327 78814 0,79103 0,79389 0,7967 0,799 0,80 11 0,80785 00,9 0, 1 3 9 31 ,83646 0,83891 81594 0,81859 0,82121 0,8238 0,826 9 0,828 4 0,8 47 0,83398 01,0 0, 9 8 543 0,8 ,85993 0,86214 84134 0,84375 0,84614 0,8484 0,850 3 0,85314 0,85 5769 01,1 0, 6 8 6 879 0,881 0,88298 86433 0,8665 0,86864 0,8707 0,872 6 0,87493 0,87 98 0,1,2 0, 5 5 6 ,89973 0,90147 88493 0,88686 0,88877 0,8906 0,892 1 0,89435 0,89 17 0,89796 01,3 0,903 4 88 1 3 ,91621 0,91774 2 0,9049 0,90658 0,9082 0,909 0,91 49 0,91 08 0,91466 01,4 0,919 4 07 6 7 ,93056 0,93189 24 0,92073 0,9222 0,9236 0,925 0,92 47 0,92 85 0,92922 01,5 0,93319 0,93448 0,93574 9 2 0 ,94295 0,94408 0,9369 0,938 2 0,93943 0,94 62 0,94179 01,6 0 5 5 1 ,95352 0,95449 ,9452 0,9463 0,94738 0,9484 0,949 0,95053 0,95 54 0,95254 01,7 0, 8 0 6 ,96246 0,96327 95543 0,95637 0,95728 0,9581 0,959 7 0,95994 0,9 08 0,96164 01,8 0, 0,96638 1 8 ,96995 0,97062 96407 0,96485 0,96562 0,967 2 0,96784 0,96 56 0,96926 01,9 0, 8 7 ,97615 0,9767 97128 0,97193 0,97257 0,9732 0,973 1 0,97441 0,9 5 0,97558 02,0 0, 2 3 82 0,980 ,98124 0,98169 97725 0,97778 0,97831 0,9788 0,979 2 0,979 3 0,98077 02,1 0, 1 8 461 0, ,98537 0,98574 98214 0,98257 0,983 0,9834 0,983 2 0,98422 0,98 985 02,2 0 , 3 4 8 0,98899 ,9861 0,98645 0 98679 0,9871 0,987 5 0,98778 0,98 09 0,9884 0,9887 2,3 0, 3 0 9111 0,99134 0,99158 98928 0,98956 0,98983 0,9901 0,990 6 0,99061 0,99 86 0,92,4 0 5 6 3 ,99343 0,99361 ,9918 0,99202 0,99224 0,9924 0,992 6 0,99286 0,99 05 0,99324 02,5 0,99379 0,99396 0,99413 4 4 ,99506 0,9952 0,9943 0,994 6 0,99461 0,99 77 0,99492 02,6 0, 3 0,9958 6 ,99632 0,99643 99534 0,99547 0,9956 0,9957 5 0,99598 0,99 09 0,99621 02,7 0, 5 9 3 9 7 ,99728 0,99736 996 3 0,9 664 0,99674 0,9968 0,996 3 0,99702 0,99 11 0,9972 02,8 0, 7 74 7 788 0,9 ,99801 0,99807 99744 0,99752 0,9976 0,9976 0,997 0,99 81 0,99 9795 02,9 0, 1 3 846 0,9 ,99856 0,99861 99813 0,99819 0,99825 0,9983 0,998 6 0,99841 0,99 9851 03,0 0, 8 8 8 9893 0,99896 0,999 99865 0,99869 0,99874 0,9987 0,998 2 0,99886 0,99 89 0,93,1 0, 3 1 9 999903 0,99906 0,9991 0,9991 0,999 6 0,99918 0,99 21 0,9 924 0,99926 0,99929 3,2 0,999 8 4 9 9 0,9995 31 0,99934 0,99936 0,9993 0,999 0,99942 0,99 44 0,9 946 0,99948 3,3 0, 7 5 9 9 ,99964 0,99965 99952 0,99953 0,99955 0,9995 0,999 8 0,99 6 0,99 61 0,99962 03,4 0,99966 0,99968 0,99969 7 7 99 ,99975 0,99976 0,9997 0,999 1 0,999 2 0,9 73 0,99974 03,5 0,99977 0,99978 0,99978 9 8 8 99 ,99983 0,99983 0,9997 0,999 0,999 1 0,9 81 0,99982 03,6 0 0,99986 8 8 99 ,99988 0,99989 ,99984 0,99985 0,99985 0,999 6 0,999 7 0,9 87 0,99988 03,7 0 8 ,999 9 0,9999 >0,99990 etc... ... z 5 0,0 0,08 0,09 0 0,01 0,02 0,03 0,04 0,0 6 0,07

151

152

Tabela 2– TABELA DA DISTRIBUIÇÃO QUI-QUADRADO

α 0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001 1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827 2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815 3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515 6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321 8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124 9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877

10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527 14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698 16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252 17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268 23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728 24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179 25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619 26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051 27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301 30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 40 20.707 24.433 29.051 39.335 51.805 55.758 59.342 63.691 66.766 73.40350 27.991 32.357 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.66060 35.534 40.482 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.60870 43.275 48.758 55.329 69.334 85.527 90.531 95.023 100.425 104.215 112.31780 51.172 57.153 64.278 79.334 96.578 101.879 106.629 112.329 116.321 124.83990 59.196 65.647 73.291 89.334 107.565 113.145 118.136 124.116 128.299 137.208

100 67.328 74.222 82.358 99.334 118.498 124.342 129.561 135.807 140.170 149.449120 83.852 91.573 100.624 119.334 140.233 146.567 152.211 158.950 163.648 173.618

153

Tabela 3 – TABELA DA DISTRIBUIÇÃO t-STUDENT

α 0,2 0,15 0,1 0,05 0,025 0,02 0,015 0,01 0,005 tB0.800 B tB0.850 B tB0.900 B tB0.950 B tB0.975 B tB0.980 B tB0.985 B tB0.990 B tB0.995 B

d.f.1 1,37638 1,96261 3,07768 6,31375 12,70615 15,89447 21,20505 31,82096 63,6559

2 1,06066 1,38621 1,88562 2,91999 4,30266 4,84873 5,6428 6,96455 9,92499

3 0,97847 1,24978 1,63775 2,35336 3,18245 3,48191 3,89606 4,54071 5,84085

4 0,94096 1,18957 1,53321 2,13185 2,77645 2,99853 3,29763 3,74694 4,60408

5 0,91954 1,15577 1,47588 2,01505 2,57058 2,75651 3,00288 3,36493 4,03212

6 0,9057 1,13416 1,43976 1,94318 2,44691 2,61224 2,82893 3,14267 3,70743

7 0,89603 1,11916 1,41492 1,89458 2,36462 2,51675 2,71457 2,99795 3,49948

8 0,88889 1,10815 1,39682 1,85955 2,30601 2,44899 2,63381 2,89647 3,35538

9 0,8834 1,09972 1,38303 1,83311 2,26216 2,39844 2,57381 2,82143 3,24984

10 0,87|906 1,09306 1,37218 1,81246 2,22814 2,35931 2,52749 2,76377 3,16926

11 0,87553 1,08767 1,36343 1,79588 2,20099 2,32814 2,49067 2,71808 3,10582

12 0,87261 1,08321 1,35622 1,78229 2,17881 2,30272 2,4607 2,68099 3,05454

13 0,87015 1,07947 1,35017 1,77093 2,16037 2,2816 2,43585 2,6503 3,01228

14 0,86805 1,07628 1,34503 1,76131 2,14479 2,26378 2,4149 2,62449 2,97685

15 0,86624 1,07353 1,34061 1,75305 2,13145 2,24854 2,39701 2,60248 2,94673

16 0,86467 1,07114 1,33676 1,74588 2,1199 2,23536 2,38155 2,58349 2,92079

17 0,86328 1,06903 1,33338 1,73961 2,10982 2,22384 2,36805 2,56694 2,89823

18 0,86205 1,06717 1,33039 1,73406 2,10092 2,2137 2,35618 2,55238 2,87844

19 0,86095 1,06551 1,32773 1,72913 2,09302 2,2047 2,34565 2,53948 2,86094

20 0,85996 1,06402 1,32534 1,72472 2,08596 2,19666 2,33625 2,52798 2,84534

21 0,85907 1,06267 1,32319 1,72074 2,07961 2,18943 2,32779 2,51765 2,83137

22 0,85827 1,06145 1,32124 1,71714 2,07388 2,18289 2,32016 2,50832 2,81876

23 0,85753 1,06034 1,31946 1,71387 2,06865 2,17696 2,31323 2,49987 2,80734

24 0,85686 1,05932 1,31784 1,71088 2,0639 2,17155 2,30692 2,49216 2,79695

25 0,85624 1,05838 1,31635 1,70814 2,05954 2,16659 2,30113 2,4851 2,78744

26 0,85567 1,05752 1,31497 1,70562 2,05553 2,16203 2,29581 2,47863 2,77872

27 0,85514 1,05673 1,3137 1,70329 2,05183 2,15782 2,29092 2,47266 2,77068

28 0,85465 1,05599 1,31253 1,70113 2,04841 2,15394 2,28638 2,46714 2,76326

29 0,85419 1,0553 1,31143 1,69913 2,04523 2,15033 2,28218 2,46202 2,75639

30 0,85377 1,05466 1,31042 1,69726 2,04227 2,14697 2,27827 2,45726 2,74998

35 0,85201 1,05202 1,30621 1,68957 2,03011 2,13316 2,26219 2,43772 2,72381

40 0,8507 1,05005 1,30308 1,68385 2,02107 2,12291 2,25027 2,42326 2,70446

45 0,84968 1,04852 1,30065 1,67943 2,0141 2,115 2,24109 2,41212 2,68959

50 0,84887 1,04729 1,29871 1,67591 2,00856 2,10872 2,23378 2,40327 2,67779

60 0,84765 1,04547 1,29582 1,67065 2,0003 2,09936 2,22292 2,39012 2,66027

70 0,84679 1,04417 1,29376 1,66692 1,99444 2,09273 2,21523 2,3808 2,6479

80 0,84614 1,04319 1,29222 1,66413 1,99007 2,08778 2,20949 2,37387 2,6387

90 0,84563 1,04244 1,29103 1,66196 1,98667 2,08394 2,20504 2,3685 2,63157

100 0,84523 1,04184 1,29008 1,66023 1,98397 2,08088 2,2015 2,36421 2,62589

110 0,8449 1,04134 1,2893 1,65882 1,98177 2,07839 2,1986 2,36072 2,62127

120 0,84463 1,04093 1,28865 1,65765 1,97993 2,07631 2,1962 2,35783 2,61742

140 0,8442 1,04029 1,28763 1,65581 1,97706 2,07306 2,19244 2,35328 2,6114

160 0,84387 1,0398 1,28686 1,65443 1,9749 2,07063 2,18962 2,34988 2,6069

180 0,84362 1,03943 1,28627 1,65336 1,97323 2,06874 2,18743 2,34724 2,60341

200 0,84342 1,03913 1,2858 1,65251 1,97189 2,06723 2,18569 2,34513 2,60063

INFINITO 0,84198 1,03697 1,2824 1,64638 1,96234 2,05643 2,17319 2,33008 2,58075

α 0,2 0,15 0,1 0,05 0,025 0,02 0,015 0,01 0,005 tB0.800 B tB0.850 B tB0.900 B tB0.950 B tB0.975 B tB0.980 B tB0.985 B tB0.990 B tB0.995 B

154

Tabela 4 – TABELA DA DISTRIBUIÇÃO F

INTRODUÇÃO À BIOESTATÍSTICA · estatística descritiva, que cuida basicamente da organização...

Documents

Transcript of INTRODUÇÃO À BIOESTATÍSTICA · estatística descritiva, que cuida basicamente da organização...