INTRODUÇÃO À BIOESTATÍSTICA · estatística descritiva, que cuida basicamente da organização...
-
Upload
duongduong -
Category
Documents
-
view
248 -
download
0
Transcript of INTRODUÇÃO À BIOESTATÍSTICA · estatística descritiva, que cuida basicamente da organização...
INTRODUÇÃO À BIOESTATÍSTICA
NOTAS DE AULA
Para aprender, primeiramente você precisa desejar ser ensinado. - Reeves
PROFESSOR: CARLOS FEITOSA LUNA
SUMÁRIO
STATÍSTICA .....................................................................................2
........................................................................................16
.........................................................................................................53
ILIDADE .....................................................................75
......................................................................................84
..................................................................................................................96
...........................................................................................110
.....................................................................................139
.....................................................................................................................149
I. INTRODUÇÃO À E
II. ESTATÍSTICA DESCRITIVA
III. PROBABILIDADE
IV. DISTRIBUIÇÃO DE PROBAB
V. ESTATÍSTICA INFERENCIAL
VI. ESTIMAÇÃO
VII. TESTES DE HIPÓTESES
VIII. ANÁLISE DE REGRESSÃO
IX. TABELAS
1
I. INTRODUÇÃO À ESTATÍSTICA
2
“Podemos considerar a Estatística como um conjunto de métodos e processos
quantitativos que serve para estudar e medir os fenômenos coletivos”. O objetivo de reunir dados é o de fornecer informações sobre as características de
grupos de pessoas ou coisas. As informações têm por objetivo “conhecer o problema” e, desta forma, servir de base para a escolha dos procedimentos mais adequados para resolvê-lo.
Quando um cardiologista, por exemplo, solicita do seu paciente informações referentes ao seu histórico familiar sobre doenças cardiovasculares, DCV, está levantando um dado que já mostrou, a partir de dados referentes a outros pacientes, apresentar uma possível relação com o seu prognóstico cardiológico. Essa e outras informações, como tipo de alimentação, exposições a tensões e sedentarismo, irão auxiliar a compor um quadro dos fatores que podem contribuir para melhorar ou prejudicar a saúde do paciente. Essas informações são de natureza estatística, aplicas, neste caso, à medicina.
Evidentemente, trata-se de fornecer a informação da forma mais inteligível e completa possível. Desta forma, são utilizadas rotinas e meios que permitam um bom atendimento das informações, organizando os dados. A organização de vários grupos de dados dá origem aos bancos de dados.
Define-se como primeiro (porém não mais importante) objetivo da estatística tornar a informação clara e precisa ao receptor, valendo-se do ferramental disponível. Atualmente, os recursos automáticos e gráficos da microcomputação são ferramentas indispensáveis para o tratamento da informação e, por extensão, para a estatística.
1. CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA
1.1 CONCEITOS E OBJETIVOS
1.2 HISTÓRICO
O desenvolvimento da estatística, como ciência, é relativamente recente. Entretanto,
algumas, tarefas do trabalho estatístico foram já realizadas pelo homem há milhares de anos. É o caso, por exemplo, dos levantamentos populacionais, ou Censos, cuja existência remonta às cidades estado gregas, e que tinham como principal objetivo a verificação da capacidade militar delas próprias. Deste modo, os primeiros registros estatísticos eram de pessoas (pela finalidade, inclusive, contavam-se somente as do sexo masculino e em idade adulta), animais (principalmente cavalos) e armas. Tempo depois os governantes descobriram que o registro do numero de habitantes do seu estado tinha importância do ponto de vista fiscal, pois, se cada habitante era taxado com um determinado tributo, para estimar a receita total do estado era necessário dispor de informações sobre a população total. Por esta razão, a etimologia do termo estatística está associada à raiz stat (ou “estat”), e o seu significado estrito seria “coisas do estado” ou “notícias do estado” sentido no qual o termo foi pela primeira vez utilizado documentalmente, em 1749, por Achenwall, referindo-se à coleção de informações acerca do Estado.
3
Em termos de registros mais concretos, Schott cita a primeira estatística da população em Nüremberg, em 1449. No século XVI, surgem descrições estatísticas na Itália e Espanha. Entre 1624 e 1640 são publicadas as Descrições estatísticas de Jan de Laet, intituladas “Republicae Elzevirianae”. Mais próximo das estatísticas de saúde, e a primeira obra neste sentido que se tem registro é a obra “Natural und political observations upon the bills of mortality”, de John Graunt, no ano de 1662. Anos mais tarde, em 1693 é registrada a publicação da primeira tabela de mortalidade, por Halley. A partir do final da primeira metade do século XVIII, são efetuados censos em várias cidades alemãs e, em 1749, inicia-se, na Suécia, o trabalho de levantamento estatístico demográfico com caráter regular. Em 1741, o dinamarquês Anchersen faz a primeira exposição estatística utilizando tabelas, que irão permitir a reorganização do trabalho de descrição de dados. Em 1782, em Giessen, Crone emprega pela primeira vez as representações gráficas. Em 1790, por mandato da Constituição, os Estados Unidos realizam seu primeiro censo populacional, que será repetido de dez em dez anos. Nos anos seguintes as nações mais desenvolvidas utilizam a estatística com regularidade. Em 1834 é fundada a Statistical Society, em Londres. Na Alemanha, nos anos subseqüentes, são efetuados diversos tipos de censos (industriais, profissionais, comerciais, etc.). Em 1885 é fundado o Instituto Internacional de estatística. É necessário notar que em todos esses estudos, predomina a estatística de observação, ou estatística descritiva, que cuida basicamente da organização das informações.
A estatística ganha um novo status quando aliada ao ramo da matemática, conhecido como Teoria das Probabilidades, e passa então a tratar dos erros decorrentes da chamada ciência indutiva1. A partir desse momento, torna-se uma ferramenta importante nos ramos da ciência em que este mecanismo de conhecimento é empregado, e pode ser observada nos currículos de cursos diversos, tais como, Medicina, Engenharia, Economia, Administração, Física, Psicologia e outros.
Bioestatística é a estatística aplicada às ciências que estudam aspectos vitais
(referentes à vida), como a Medicina, Biologia, Odontologia ou Psicologia. Na medicina, especificamente, pode ser entendida em dois ambientes. O primeiro,
referente ao levantamento de informações, como registro de doenças, surtos, endemias, epidemias, e de registros de qualidade de vida, como condições de alimentação, sanitárias, habitacionais, de prevenção a doenças, educação, etc. Denomina-se este ambiente de Ambiente Macro, e tem a ver fundamentalmente com a identificação, a planificação e a execução de ações de Saúde Pública. Neste caso, constitui-se num ferramental fundamental para cadeiras do curso de medicina como Epidemiologia, Medicina Preventiva, Organização de Sistemas de Saúde, etc.
O segundo ambiente refere-se à elaboração de experiências e pesquisa científica, tais como testes de vacinas, avaliação de terapêuticas e tratamentos, testes de medicamentos etc. Denomina-se este ambiente de Ambiente Micro, e tem a ver, naturalmente, com a pesquisa laboratorial e científica. Relaciona-se principalmente por esse motivo com as disciplinas de Imunologia, FIsiologia e Farmacologia, dentro do ciclo de formação básica do médico, e
1 O método indutivo, que é a base de uma ciência indutiva, busca a construção de leis gerais a partir do conhecimento de uma parcela do universo. Por exemplo: observando algumas características de um grupo de fumantes, assumir que essas características são típicas de todos os fumantes.
1.3 BIOESTATÍSTICA
4
com todas as demais áreas clínicas, em maior ou menor medida, como Pediatria, Cardiologia, Neurologia, Pneumologia, Psiquiatria, Gastroenterologia, etc., toda vez que é indispensávelà compreensão da grande maioria das publicações de artigos científicos nessas especialidades.
A Bioestatística, pela sua importância para a pesquisa médica, é disciplina obrigatória da maioria das especialidades de pós-graduação em medicina.
1.4 POPULAÇÃO E AMOSTRA
Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos
nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a "população" e a "amostra".
POPULAÇÃO (ou Universo) É o conjunto dos seres, objetos ou informações que interessam ao estudo de um
fenômeno coletivo segundo alguma(s) característica(s). É, portanto, um conjunto definido de informações relativas a qualquer área de interesse, podendo, quanto ao número de elementos, ser: finita (tamanho N) ou infinita. Assim, a população do bairro da Cidade Universitária é exemplo de uma população finita, já o número e pacientes internados no Hospital das Clínicas da Universidade Federal de Pernambuco é exemplo de uma população considerada infinita ou impossível de enumerar.
Na maioria das vezes, não é conveniente, ou mesmo possível realizar o levantamento dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da população, isto é amostramos.
AMOSTRA É um subconjunto não vazio ou parte da população. Duas considerações devem ser
feitas sobre o estudo amostral dos fenômenos. Uma diz respeito aos cuidados que se deve tomar para assegurar que a amostra seja representativa da população. Para atender a essa exigência, deve-se selecionar os elementos de forma aleatória, de modo que todo e qualquer elemento da população tenha a mesma chance de participar da amostra. A outra exigência diz respeito à precisão dos dados coletados, buscando minimizar os erros que poderiam induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado o tamanho da amostra, e denotado por n.
Parâmetro, Estimador e Estimativa
a) Uma característica numérica estabelecida para toda uma população é denominada parâmetro.
b) Uma característica numérica estabelecida para uma amostra é denominada estimador.
c) O valor numérico assumido pelo estimador numa determinada amostra é denominada estimativa.
5
Por exemplo: no fenômeno coletivo eleição para prefeito do município de João Pessoa, a população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 1.000 eleitores selecionados em todo o município. Um estimador é a proporção de votos do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa.
Em aplicações efetivas, onde aplica-se o processo de amostragem, o número de
elementos componentes de uma amostra é, geralmente, bastante reduzido em relação ao número de elementos componentes da população.
- PROCESSOS ESTATÍSTICOS DE ABORDAGEM
Quando solicitados a estudar um fenômeno coletivo podemos optar entre os seguintes processos estatísticos:
a) CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes da população.
Propriedades Principais do Censo: Admite erro processual zero e tem confiabilidade 100% - É caro.
É lento - É quase sempre desatualizado - Nem sempre é viável. b) AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base
em um estimador através do cálculo das probabilidades.
Propriedades Principais da Estimação: Admite erro processual positivo e tem confiabilidade menor que 100% - É barata - É rápida - É atualizada - É sempre viável.
No sentido de disciplina, a Estatística ensina métodos racionais para a obtenção de
informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através de alguma(s) característica(s) de valores numéricos observados.
Desta forma, a Estatística pode ser dividida em duas grandes áreas: Descritiva e
Inferencial. I) ESTATÍSTICA DESCRITIVA - é a parte da Estatística que tem por objetivo
descrever os dados observados. São atribuições da Estatística Descritiva: a) A organização dos dados. b) A redução dos dados. c) A representação dos dados. d) A obtenção de algumas informações que auxiliam a descrição do fenômeno observado.
• A organização dos dados consiste na ordenação e crítica quanto à correção dos
valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc. • Redução dos dados - O entendimento e compreensão de grande quantidade de
dados através de simples leitura de seus valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experimentado pesquisador, portanto deveremos tabular os dados.
6
• A representação dos dados - Os dados estatísticos podem ser mais facilmente compreendidos quando apresentados através de uma representação gráfica, a qual permite uma visualização instantânea de todos os dados. Os gráficos quando bem representativos, tornam-se importantes instrumentos de trabalho.
• A obtenção de algumas informações que sumarizam os dados, facilitando a descrição dos fenômenos observados.
Isto encerra as atribuições da Estatística Descritiva.
II) ESTATÍSTICA INFERENCIAL (ou Indutiva) - é a parte da Estatística que tem
por objetivo obter e generalizar conclusões para a população a partir de uma amostra.
Complementando o processamento estatístico, no caso de uma estimação, a
Estatística Indutiva estuda os parâmetros a partir do uso de estimadores usando o cálculo das probabilidades, elemento este que viabiliza a inferência estatística.
Em resumo, um estudo estatístico completo que recorra às técnicas de Estatística Inferencial irá envolver também, direta ou indiretamente, tópicos de Estatística Descritiva, Cálculo das Probabilidades e Amostragem. Logo, para se desenvolver um curso completo e razoável de Estatística, todos esses assuntos devem ser abordados. No diagrama abaixo está indicado como essas áreas estão relacionadas.
Amostragem
Estatística Descritiva
Cálculo das Probabilidades
Estatística Inferencial
Figura 1: Esquema Geral de um Curso de Estatística - DADOS e VARIÁVEIS ESTATÍSTICAS
Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar com grande quantidade de valores numéricos resultantes de um censo ou de uma amostragem. Estes valores numéricos são chamados dados estatísticos.
As informações ou dados característicos dos fenômenos ou populações são denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas características particulares, podem ser classificadas como: Quantitativas e Qualitativas.
7
QUANTITATIVAS - São aquelas que podem ser expressas em termos numéricos. Em geral são as resultantes de medições, enumerações ou contagens. São subdivididas em contínuas e discretas.
- Contínuas - são aquelas que podem assumir qualquer valor num certo
intervalo de medida, podendo ser associados ao conjunto dos números reais, ou seja, seus valores possíveis formam um conjunto não enumerável. Entre outras, enquadram-se nesta categoria as medidas de tempo, comprimento, espessura, área, volume, peso e velocidade.
- Discretas (ou descontínuas) - quando só podem assumir determinados valores num certo intervalo, podendo ser associadas ao conjunto dos números inteiros, ou seja, seus possíveis valores formam um conjunto finito ou enumerável. Em geral, representam números inteiros resultantes do processo de contagem, como o número de alunos por sala, de créditos por disciplinas, de pacientes atendidos diariamente num hospital, etc.
De modo geral, as medições dão origem as variáveis contínuas e as contagens ou
enumerações, as variáveis discretas. Designamos estas variáveis por letras latinas, em geral, as últimas: X, Y, Z.
QUALITATIVAS - Nem sempre os elementos de uma população são exclusivamente
contáveis. Muitas vezes, eles podem ser qualificados também segundo algumas de suas características típicas. Nesses casos, as variáveis podem ser agrupadas em nominais ou ordinais (por postos).
- Nominais - quando puderem ser reunidas em categorias ou espécies com idênticos atributos. Aqui se incluem os agrupamentos por sexo, área de estudo, desempenho, cor, raça, nacionalidade e religião.
- Ordinais - quando os elementos forem reunidos segundo a ordem em que aparecem dispostos numa lista ou rol. São típicos desta forma de agrupamento, as listas classificatórias de concursos e as tabelas de campeonatos.
Em geral, uma mesma população pode ser caracterizada por mais de um tipo de
variável. Assim os inscritos num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o sexo ou área de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.
8
2. FASES DO MÉTODO OU TRABALHO ESTATÍSTICO
Em linhas gerais, podemos distinguir na análise estatística as seguintes etapas:
Planejamento, Coleta, Crítica, Apuração e Exposição dos dados, além da análise dos dados.
PLANEJAMENTO
É o trabalho inicial de coordenação no qual define-se a população a ser estudada estatisticamente, formulando-se o trabalho de pesquisa através da elaboração de questionário, entrevistas, etc.
A organização do plano geral implica em obter respostas para uma série tradicional de perguntas, antes mesmo do exame das informações disponíveis sobre o assunto, perguntas que procuram justificar a necessidade efetiva da pesquisa, a saber:
- "quem", "o que", "sempre", "por que", "para que", "para quando".
Imaginemos, por exemplo, que a Biblioteca Central da UFPE tenha necessidade de
obter informações acerca dos usuários em potencial que utilizam-na. O primeiro trabalho da equipe encarregada da pesquisa, será evidentemente, o de
obter resposta para aquelas perguntas. Seriam então: - Quem deseja as informações? - O que devemos perguntar no questionário? - Será executada sempre? A pesquisa será periódica ou ocasional? - Por que desejam as informações? - Para que desejam as informações? - Quando deverá estar concluída a pesquisa? - Qual a época oportuna para a aplicação dos questionários? - Como aplicar o questionário? Ainda na fase do planejamento, temos: O EXAME DAS INFORMAÇÕES DISPONÍVEIS, ou seja, análise da reunião de
tudo que foi publicado sobre o assunto, obtendo-se relatórios sobre atividades semelhantes ou correlatas.
A DEFINIÇÃO DO UNIVERSO, isto é, saber qual o conjunto a ser pesquisado, distribuindo, classificando ou agrupando os elementos desse conjunto em populações, para permitir um trabalho mais fácil, mais lógico, mais racional.
O tipo de levantamento, CENSO ou AMOSTRAGEM, deverá ser decidido com a devida antecedência e a necessária análise das vantagens e desvantagens de um e de outro, em virtude do custo financeiro e do prazo determinado para a conclusão do trabalho.
COLETA DE DADOS Após cuidadoso planejamento e a devida determinação das características
mensuráveis do fenômeno coletivamente típico que se quer pesquisar, damos início à coleta dos dados numéricos necessários à sua descrição.
A coleta dos dados poderá ser feita de diversas formas. A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos e a precisão previamente estipulados. No seu planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes.
9
Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá
ser realizada mediante respostas a questionários previamente elaborados. Esses questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados, devidamente treinados.
Os dados ou informações representativas dos fenômenos ou problema em estudo podem ser obtidos de duas formas: por via direta ou por via indireta.
Por via direta - quando feita sobre elementos informativos de registro obrigatório (p. ex.: nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os dados são coletados pelo próprio pesquisador através de entrevistas ou questionários.
A coleta direta de dados, com relação ao fator tempo, pode ser classificada em: a) contínua, também denominada registro, é feita continuamente, tal como a de
nascimentos, óbitos, etc.;
b) periódica, quando feita em intervalos constantes de tempo, como os censos(de 10 em 10 anos), os balanços de uma empresa comercial, etc.;
c) ocasional, quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos
Por via indireta - quando é inferida de elementos conhecidos (coleta direta) e/ou
conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos via coleta direta.
CRÍTICA DOS DADOS Os dados colhidos por qualquer via ou forma e não previamente organizados são
chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito, devem ser "criticados", visando eliminar valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação de somas de valores anotados.
APURAÇÃO OU PROCESSAMENTO DOS DADOS Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao
processamento adequado aos fins pretendidos. A apuração ou processamento dos dados pode ser manual ou eletrônica. Os processos e métodos estatísticos a que um conjunto de dados pode ser submetido serão nosso objeto de estudo nas seções seguintes.
10
EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas.
No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria dos casos, à simples apresentação dos dados, assim entendida a exposição organizada e resumida das informações coletadas através de tabelas ou quadros, bem como dos gráficos resultantes.
ANÁLISE DOS RESULTADOS
Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões.
11
3. O USO DE COMPUTADORES EM ESTATÍSTICA
Foi mencionado anteriormente que o desenvolvimento da indústria de
computadores deu grande impulso ao uso da Estatística. Vários programas computacionais de uso comum contém rotinas estatísticas incorporadas às suas funções básicas. É o caso das planilhas eletrônicas, usualmente pré-instaladas em computadores novos. Programas especificamente desenvolvidos para efetuar análises estatísticas são conhecidos como pacotes estatísticos. Existe um número considerável de pacotes, alguns voltados para análises mais comuns na área de humanidades, outros para a área de biomédicas; alguns são extremamente simples de se utilizar através de menus, outros pressupõem conhecimento de uma linguagem de programação específica ao programa. Qualquer que seja o programa a ser utilizado, três são as etapas que envolvem seu uso:
1. Entrada de Dados 2. Execução da Análise Estatística 3. Interpretação de Resultados A Entrada de Dados deve assumir certas convenções. Apesar de certos programas
terem rotinas desenvolvidas de forma a simplificar a criação do banco de dados, intrinsecamente o que se tem é a criação de uma matriz, em que cada linha corresponde a uma unidade experimental e cada coluna a uma variável.
Por unidade experimental, entende-se o elemento da população ou amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1, abaixo, observamos 50 unidades experimentais, os estudantes, nos quais foram observadas 14 variáveis. Assim, os dados podem ser representados por uma matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas não terão problema em visualizar esta situação. Assim, quando estudamos uma única variável, consideramos a coluna correspondente. Se estamos interessados em saber o comportamento desta variável em dois grupos diferentes, precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informação dos grupos.
A fase da execução da análise estatística pressupõe o conhecimento de como o programa que está sendo utilizado trabalha as informações. Torna-se assim importante se ter acesso ao manual do programa. A maioria dos programas tem rotinas de ajuda on-line.
Após as informações terem sido trabalhadas, vem a fase da interpretação dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que houver dúvida se o que foi calculado relaciona-se, de fato, à análise estatística desejada. Em seguida, dá-se a interpretação das características observadas a fim de ver se verificar se resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e certifique-se de ter executado a análise correta para os dados em questão. Em muitos casos, a fase de interpretação é a mais difícil e interessante, pois envolve o equacionamento das características apresentadas na análise com vistas a responder as questões inicialmente colocadas.
12
Tabela 1 – Informações de questionário estudantil – dados brutos
Id Turma Sexo Idade Alt Peso Filho Fuma Toler Exerc Cine OpCine TV OpTV1 A F 17 1,6 60,5 2 NAO P 0 1 B 16 R 2 A F 18 1,69 55 1 NAO M 0 1 B 7 R 3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R 4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 5 A F 19 1,58 55 1 NAO M 2 2 B 5 R 6 A M 19 1,76 60 3 NAO M 2 1 B 2 R 7 A F 20 1,6 58 1 NAO P 3 1 B 7 R 8 A F 18 1,64 47 1 SIM I 2 2 M 10 R 9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R
10 A F 17 1,64 58 2 NAO M 2 2 M 10 R 11 A F 18 1,72 70 1 SIM I 10 2 B 8 N 12 A F 18 1,66 54 3 NAO M 0 2 B 0 R 13 A F 21 1,7 58 2 NAO M 6 1 M 30 R 14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N 15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R 17 A F 17 1,82 66 1 NAO P 3 1 B 10 N 18 A M 18 1,8 85,2 2 NAO P 3 4 B 10 R 19 A F 20 1,6 54,5 1 NAO P 3 2 B 5 R 20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M 21 A F 21 1,7 60 2 NAO P 8 2 B 5 R 22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R 23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R 24 A F 20 1,55 48 1 SIM I 0 1 M 28 R 25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N 26 A F 19 1,54 57 2 NAO I 6 2 B 5 R 27 B F 23 1,62 63 2 NAO M 8 2 M 5 R 28 B F 18 1,62 52 1 NAO P 1 1 M 10 R 29 B F 18 1,57 49 2 NAO P 3 1 B 12 R 30 B F 25 1,65 59 4 NAO M 1 2 M 2 R 31 B F 18 1,61 52 1 NAO P 2 2 M 6 N 32 B M 17 1,71 73 1 NAO P 1 1 B 20 R 33 B F 17 1,65 56 3 NAO M 2 1 B 14 R 34 B F 17 1,67 58 1 NAO M 4 2 B 10 R 35 B M 18 1,73 87 1 NAO M 7 1 B 25 B 36 B F 18 1,6 47 1 NAO P 5 1 M 14 R 37 B M 17 1,7 95 1 NAO P 10 2 M 12 N 38 B M 21 1,85 84 1 SIM I 6 4 B 10 R 39 B F 18 1,7 60 1 NAO P 5 2 B 12 R 40 B M 18 1,73 73 1 NAO M 4 1 B 2 R 41 B F 17 1,7 55 1 NAO I 5 4 B 10 B 42 B F 23 1,45 44 2 NAO M 2 2 B 25 R 43 B M 24 1,76 75 2 NAO I 7 8 M 14 N 44 B F 18 1,68 55 1 NAO P 5 1 B 8 R 45 B F 18 1,55 49 1 NAO M 0 1 M 10 R 46 B F 19 1,7 50 7 NAO M 0 1 B 8 R 47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R 48 B F 18 1,6 50 1 NAO P 2 1 B 5 R 49 B M 17 1,8 71 1 NAO P 7 0 M 14 R 50 B M 18 1,83 86 1 NAO P 7 7 M 20 B
13
EXERCÍCIOS
1. O que você entende por estatística?
2. Quais os dois conjuntos de dados fundamentais manipulados pela estatística?
3. Qual o conceito de amostra e suas principais características?
4. Como podemos garantir que uma amostra qualquer, extraída de uma população,
serve para um estudo?
5. Quais as vantagens de desvantagens de um censo e de uma amostra?
6. O que é um parâmetro?
7. O que você entende por variável?
8. Como se classificação as variáveis? Dê exemplos.
9. Quais as etapas de um trabalho estatístico? Explique cada uma.
10. Classifique em verdadeiro ou falso as seguintes afirmações:
a) Estatística é um conjunto de técnicas destinadas a organizar um conjunto de valores numéricos.
b) Sempre que estivermos trabalhando com números, deveremos utilizar a Inferência Estatística.
c) A Estatística Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou não, com a finalidade de conhecermos o fenômeno de interesse.
d) Qualquer amostra representa, de forma adequada, uma população. e) As técnicas estatísticas não são adequadas para casos que envolvam experimentos
destrutivos como, por exemplo, queima de equipamentos, destruição de corpos de provas, etc.
11. Para as situações descritas a seguir, identifique a população e a amostra
correspondente e discuta a validade do processo de inferência estatística para cada um dos casos.
a) Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200
mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em São Paulo, foram perguntadas a respeito da última vez que vacinaram seus filhos.
b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c) Para verificar a audiência de um programa de TV, 563 indivíduos foram
entrevistados por telefone com relação ao canal em que estavam sintonizados. d) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas
foram entrevistadas em Brasília.
12. Discuta para cada um dos casos abaixo, os cuidados que precisam ser tomados para garantir uma boa conclusão a partir da amostra.
a) Um grupo de crianças será escolhido para receber uma nova vacina contra
menigite. b) Uma fábrica deseja saber se sua produção de biscoitos está com o sabor previsto. c) Aceitação popular de um certo projeto do governo.
14
13. Classifique cada uma das variáveis abaixo em qualitativa (nominal/ ordinal) ou quantitativa
(discreta/ contínua): a) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não são as
possíveis respostas para esta variável). b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de
não sabe). c) Perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte). d) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente
(valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). 14. Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as
informações da tabela 1, construa um banco de dados para os 50 indivíduos. Utilize algum método para validar a digitação.
15. Considerando o banco de dados criado no exercício anterior, construa as tabelas de
freqüências e os histogramas de cada variável e descreva os resultados.
16. Ainda considerando o banco de dados criado, divida a idade em três categorias (<18, 18 a 21 e >21 anos). Construa a tabela de freqüência e gráfico desta variável e refaça as análises da questão anterior estratificada por essa nova variável.
15
II. ESTATÍSTICA DESCRITIVA
16
1. DISTRIBUIÇÕES DE FREQUÊNCIAS
Os dados numéricos, depois de coletados são colocados em série e apresentados em
tabelas ou quadros. No estudo de uma variável (seja esta qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa idéia global sobre esses valores, ou seja, de sua distribuição.
Consideremos, para efeito de estudo, o quadro (banco de dados) apresentado abaixo, o qual apresenta indivíduos que foram contaminados pelo veneno de um certo tipo de inseto e submetidos a três tipos de tratamento. Neste está apresentado o número de identificação dos pacientes, a idade (em anos) do pacientes no momento da admissão, o tempo (em horas) gasto entre o contato com o inseto e a administração do tratamento, o tempo (em horas) entre a administração do tratamento e a recuperação, o tipo de tratamento administrado e a presença de coágulos no momento da admissão. QUADRO 1.1 – Indivíduos contaminados pelo veneno de um certo tipo de inseto e submetidos
a três tipos de tratamento.
No. idade Tempo Recuperação tratamento coágulos 2 9 42 39 I 0 3 33 53 46 I 1 4 30 52 45 I 0 5 11 46 42 I 0 6 34 59 51 II 0 7 27 53 46 I 1 8 10 44 40 I 1 9 21 58 50 II 1 10 36 54 47 I 1 11 35 55 47 I 0 12 31 10 4 II 1 13 32 9 3 II 0 14 21 3 2 II 0 15 31 9 3 II 0 16 40 20 11 III 1 17 39 12 5 II 1 18 31 9 3 II 1 19 28 7 3 II 0 20 24 3 1 II 0 21 21 1 2 II 1 22 39 17 8 III 1 23 38 30 22 III 1 24 46 13 11 III 1 25 47 13 12 III 1 26 54 18 16 III 0 27 56 30 23 III 1
17
Uma distribuição de freqüências pode ser apresentada nas seguintes maneiras:
- DISTRIBUIÇÃO DE FREQUÊNCIAS POR VALORES (variável qualitativa ou
quantitativa discreta)
É construída considerando-se todos os diferentes valores ou categorias, levando em consideração suas respectivas repetições. Por exemplo, a tabela 1.1 apresenta a distribuição de freqüência da variável TRATAMENTO, usando-se os dados do quadro 1.1.
Tabela 1.1 - Freqüências e percentuais dos 26 pacientes segundo o tipo de tratamento recebido.
Tratamento N % I 8 30,8 II 11 42,3 III 7 26,9 Total 26 100,0
FONTE: Quadro1.1 - DISTRIBUIÇÃO DE FREQUÊNCIAS POR INTEVALOS OU CLASSES (variável
quantitativa discreta ou contínua)
Constroem-se classes de valores, quando a variabilidade dos dados é grande, levando em consideração o número de valores que pertencem a cada classe. A construção de tabelas de freqüências para variáveis contínuas necessita de certos cuidados. Por exemplo, a tabela 1.2 apresenta a distribuição de freqüências da variável IDADE (em anos), usando-se os dados do quadro 1.1.
Tabela 1.2 - Freqüências e percentuais das IDADES dos 26 pacientes.
IDADE (em anos) N % 09,0 |-- 18,5 3 11,5 18,5 |-- 28,0 5 19,2 28,0 |-- 37,5 10 38,6 37,5 |-- 47,0 5 19,2 47,0 |-- 56,5 3 11,5 Total 26 100,0
FONTE: Quadro1.1
OBSERVAÇÃO: 1) De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém
referindo-se a uma coleção de dados numéricos a uma determinada ordem de classificação):
i) Elementos essenciais:
Título: Indicação que precede a tabela e que contém a designação do fato observado, o local e a época em foi registrado.
Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.
18
Corpo da tabela: Conjunto de colunas e linhas que contém as informações sobre a variável em estudo.
ii) Elementos complementares:
Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.
Notas: Informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.
Chamadas: Informações de natureza específica sobre determinada parte da tabela, destinada a conceituar ou a esclarecer dados.
2) As tabelas apresentadas oficialmente devem atender às normas do IBGE. Regras básicas para Elaboração de uma distribuição de freqüências por intervalos - (Dados Agrupados) Passo 1: Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de
grandeza) nos Dados Brutos (aqueles ainda não organizados numericamente). Passo 2: Determina-se a AMPLITUDE TOTAL dos dados
AT = Xmáx - Xmín,
onde Xmáx : maior valor observado e Xmín : menor valor observado Passo 3: Escolhe-se convenientemente o número de classes K (no. inteiro) , 5 15≤ ≤K
onde podemos tomar K n≅ ou a fórmula de Sturges K n≅ + ⋅1 3 3, log , (total de observações). Se possível determina-se, ou seja, constrói-se classes de
mesma amplitude, tomando
n ≥ 25
h ATK
≅ .
Passo 4: Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as FREQUÊNCIAS SIMPLES DE CLASSES, elaborando-se, portanto, a tabela de distribuição de freqüências.
Por exemplo, podemos elaborar uma tabela de distribuição de freqüências (dados agrupados) da variável IDADE (em anos) dos 26 pacientes apresentados no quadro 1.1, conforme Dados Brutos abaixo:
DADOS BRUTOS ROL ESTATÍSTICO (crescente) 9 33 30 11 34 27 10 21 36
35 31 32 21 31 40 39 31 28 24 21 39 38 46 47 54 56
9 10 11 21 21 21 24 27 28 30 31 31 31 32 33 34 35 36 38 39 39 40 46 47 54 56
Passo 1: Efetuar o Rol Estatístico Passo 2: Amplitude Total => AT = 56 - 9 = 47
19
Passo 3: Número de classes => 526 ≈=k (aproximação por falta)
e Amplitude de classe => 5,9547
≅=≈k
ATh anos
Passo 4: AGRUPAMENTO EM CLASSES + FREQUÊNCIAS SIMPLES DE CLASSES
Tabela 1.3 - distribuição de freqüências (dados agrupados) da variável IDADE (em
anos) dos 26 pacientes apresentados no quadro 1.1
IDADE (em anos) N 09,0 |-- 18,5 3 18,5 |-- 28,0 5 28,0 |-- 37,5 10 37,5 |-- 47,0 5 47,0 |-- 56,5 3 Total 26
FONTE: Quadro 1.1 A seguir, analisaremos alguns CONCEITOS ESSENCIAIS numa Distribuição de
Freqüência por Intervalos ou Classes. 1. LIMITES DE CLASSES: Li : Limite inferior de classe ; Ls : Limite superior de classe Classe ou Intervalo de classe -------> Li (incluir) |------ Ls (excluir)
Por exemplo, distribuição das Idades, tabela 1.3:
1a classe --> Li = 9 |----- Ls = 18,5 2a classe --> Li = 18,5 |----- Ls = 28,0 etc.
2. AMPLITUDE DE CLASSE: hi = Ls - Li, amplitude da i-ésima classe. Por exemplo, distribuição das Idades, tabela 1.5: 1a classe --> h1 = 18,5 - 9 = 9,5 2a classe --> h2 = 28,0 - 18,5 = 9,5 M 5a classe --> h5 = 56,5 - 47,0 = 9,5 Como as classes têm mesma amplitude denominamos, simplesmente, por h = Li - Ls = 9,5
3. PONTO MÉDIO DE CLASSE: X L Li
i= s+2
, ponto médio da i-ésima classe.
Por exemplo, distribuição das Idades, tabela 1.5:
1a classe ---> 75,132
5,1891 =
+=X
2a classe ---> 25,232
0,285,182 =
+=X
No caso de classes com mesma amplitude h, tomamos: X X hi i+ = +1 , por exemplo.:
20
2a classe -----> X1 + h = 13,75 + 9,5 = 23,25 3a classe -----> X2 + h = 23,25 + 9,5 = 32,75 etc.
4. FREQUÊNCIA SIMPLES OU ABSOLUTA DE CLASSE: fi = freqüência simples da i-
ésima classe (número de observações)
f fii
k
i=∑ ∑= =
1
n (número total de observações)
Por exemplo: f1 = 3 f2 = 5 f3 = 10 f4 = 5 f5 = 3
26==∑ nfi 5. FREQUÊNCIA RELATIVA E PERCENTUAL DE CLASSE
- FREQUÊNCIA RELATIVA (i-ésima classe ou valor):
frfni
i= (Razão entre a freqüência simples e o total de observações)
fri =∑ 1 (soma das freqüências relativas) - FREQUÊNCIA PERCENTUAL (i-ésima classe ou valor):
f fri i% = ⋅100 ou f fni
i% = ⋅100
fi % =∑ 100 (soma das freqüências percentuais) 6. FREQUÊNCIA SIMPLES ACUMULADA
F f f f fi i , freqüência simples acumulada da i-ésima classe ou valor = + + + ⋅⋅⋅ +1 2 3 7. FREQUÊNCIA RELATIVA E PERCENTUAL ACUMULADA
Fr fr fr fr fri i= + + + ⋅⋅⋅ +1 2 3 , Freqüência relativa acumulada da i-ésima classe ou valor F f f f fi i% % % %= + + + ⋅⋅⋅ %+1 2 3 , Freqüência percentual acumulada da i-ésima classe ou valor
Tabela 1.4 (estendida) - DISTRIBUIÇÃO DE FREQUÊNCIAS DAS ALTURAS
F.A.C. F.A.D. Idades (em anos) N %
N % N % P.M.
09,0 |-- 18,5 3 11,5 3 11,5 26 100,0 13,75 18,5 |-- 28,0 5 19,2 8 30,7 23 88,5 23,25 28,0 |-- 37,5 10 38,6 18 69,3 18 69,3 32,75 37,5 |-- 47,0 5 19,2 23 88,5 8 30,7 42,25 47,0 |-- 56,5 3 11,5 26 100 3 11,5 51,75 Total 26 100,0 - - - - -
21
2. TABELAS DE CONTINGÊNCIA
Uma tabela de contingência é um arranjo de números naturais, em forma matricial, com r linhas e k colunas, onde estes números representam quantidade ou freqüência. Assim, existem r totais em linha, c totais em colunas e um total geral n.
Uma tabela de contingência pode ser usada para apresentar uma tabulação dos dados contidos em várias amostras onde os dados são apresentados numa escala no mínimo nominal.
Um outro uso da tabela de contingência kr × é quando observa-se uma única amostra de tamanho n, onde cada elemento pode ser classificado em uma de r categorias, de acordo com um critério e em uma de c outras categorias de acordo com um segundo critério.
Para o estudo de medidas de associação entre duas variáveis X e Y, apresentadas em tabelas de contingência, os dados são arrumados da seguinte forma:
Variável B
Variável A Categoria 1
Categoria 2
... Categoria k
Totais
Categoria 1 O11 O12 ... O1k A1Categoria 2 O21 O22 ... O2k A2... ... ... ... ... ... Categoria r Or1 Or2 ... Ork ArTotais B1 B2 ... Bk N
N= A1+...Ar = B1+...+Bk
Exemplo: Quinhentos escolares de primeiro grau menor foram classificados em uma tabela criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:
Grupo sócio-econômico Defeito na fala Superior Médio
superior Médio baixo Baixo TOTAL
Presente 8 24 32 27 91 Ausente 42 121 138 108 409 Total 50 145 170 135 500
22
EXERCÍCIOS
1. Em um experimento para verificar a relação entre crises de asma e incidência de gripe
150 crianças foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde do bairro. Os dados referentes há uma semana são apresentados na tabela abaixo.
Asma \ Gripe Sim Não Total Sim 27 34 61 Não 42 47 89 Total 69 81 150
Você acha que a ocorrência de asma e a ocorrência de gripe estão associadas?
2. Responda certo ou errado, justificando. a) Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100
e outra de tamanho 200. Então, a amostra de tamanho maior é mais representativa da população.
b) Duas variáveis diferentes podem apresentar histogramas idênticos. c) Duas variáveis com box-plot iguais não podem ter valores diferentes.
3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou
sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi o seguinte: 2, 3, 2, 1,2, 1,2, 1,2,3, 1, 1, 1,2,2,3, 1, 1, 1, 1,2, 1, 1,2,2, 1,2, 1,2 e 3.
a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Admitindo que essa amostra represente bem o comportamento do usuário paulistano,
você acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande?
4. Um novo medicamento para cicatrização está sendo testado e um experimento é feito
para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.
a) Organize uma tabela de freqüência. b) Que porcentagem das observações estão abaixo de 16 dias? c) Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e como lenta as
demais. Faça um diagrama circular indicando as porcentagens para cada classificação.
5. O Posto de Saúde de um certo bairro mantém um arquivo com o número de crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 e 2.
a) Organize uma tabela de freqüência. b) Faça uma representação gráfica. c) Você identifica valores muito discrepantes? Que fazer com eles?
23
Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e
distribuições de freqüências. Aqui, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida.
Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as Medidas de Tendência Central, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos:
• a Média aritmética ou Média; • a Moda; • a Mediana. As outras medidas de posição são as SEPARATRIZES, que englobam:
• a própria mediana; • os quartis; • os decis. • os percentis.
3.1. MÉDIA ARITMÉTICA (ou simplesmente MÉDIA)
Definição 3.1: (a) Dada uma população constituída de N elementos, X1, X2, ..., XN sua média,
denotada por µ , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade, e definida por:
µ =+ + +X X X
NN1 2 ... ou µ = ∑ X
Ni ( Média populacional ) Eq. (1)
(b) Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média,
denotada X , será definida por:
n
XXXX n+⋅⋅⋅++
= 21 ou X = X
ni∑ ( Média amostral ) Eq. (2)
Exemplo: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8, 10, 11
Logo, 8,75
1110873X =++++
== ∑nX i
3. MEDIDAS DE TENDÊNCIA CENTRAL E SEPARATRIZES
24
VANTAGENS E DESVANTAGENS DA MÉDIA
1. É uma medida de tendência central que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos valores extremos (grandes) do conjunto.
2. Não pode ser calculada para distribuições de freqüências com limites indeterminados
(indefinidos). Exemplo: É impossível calcular a média da distribuição abaixo, representativa das idades de um grupo de 300 pessoas.
IDADES (Anos) No de Pessoas (fi)Menos de 33 1 33 |------- 35 21 35 |------- 37 52 37 |------- 39 186 39 |------- 41 38 41 ou mais 2 Total 300
3. É o promédio mais conhecido e de maior emprego. 4. É facilmente calculável. 5. Pode ser tratada algebricamente (ver propriedades). 6. Serve para compararmos conjuntos semelhantes. 7. É particularmente indicada para séries (conjuntos) que possuem os valores simétricos
em relação a um valor médio e de freqüência máxima. 8. Depende de todos os valores do conjunto de dados. Propriedades:
1 - A soma dos desvios tomados em relação à média é nula, isto é, ( )X Xii
n
− ==∑
10.
2 - Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a
média do conjunto fica aumentada ou diminuída dessa constante, isto é, Y X c Y X ci i= ± ⇒ = ± .
3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante
(c), a média do conjunto fica multiplicada ou dividida por essa constante, isto é, Y X c Y Xi i= ∗ ⇒ = ∗c ou Y X , para c≠0. c Y X ci i= ÷ ⇒ = ÷
Desprezando as classes abertas, isto é, co
mlimites indeterminados, aí sim, poderíamoscalcular a referida média.
25
3.2. MODA Definição 3.2: Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre
com maior freqüência, ou seja, é o valor mais frequente do conjunto de dados.
OBS: i) A moda de um conjunto de dados pode não existir (figura (a)) ii) A moda de um conjunto de dados pode não ser única (figura (c))
Exemplo: Determine a moda dos seguintes conjuntos de dados abaixo a) 2, 2, 3, 3, 5, 5, 8, 8 ⇒ Não existe moda. b) 2, 2, 3, 5, 5, 5, 8, 8 ⇒ Mo = 5 c) 2, 2, 2, 3, 3, 5, 5, 5, 8 ⇒ Mo = 2 e Mo = 5 VANTAGENS E DESVANTAGENS DA MODA 1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar
com a modificação de alguns deles. 2. Não é influenciada por valores extremos (grandes) do conjunto de dados. 3. Pode ser calculada para distribuições com limites indeterminados (indefinidos) na
maioria dos casos.
26
3.3. MEDIANA Definição 3.3: Considere uma série (conjunto de dados) ordenada, constituída de n
valores. A mediana, denotada Md, é o valor que divide o conjunto em duas partes iguais (isto é, em duas partes de 50% cada).
Exemplos: a) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13 (n = 7)
Md = 8 (termo de ordem central) b) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13, 15 (n = 8)
5,82
98=⎟
⎠⎞
⎜⎝⎛ +
=Md (Média aritmética dos termos de ordens centrais)
Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e
sendo n o número de elementos da série, o valor mediano será:
- o termo de ordem central n +12
, 2
1+= nXMd se n for ímpar;
- a média aritmética dos termos de ordem n n2 2
1e + , 2
122
++
=nn XX
Md se n for par.
PROPRIEDADES DA MEDIANA i) A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto
de dados. ii) A mediana de uma série de dados agrupados de classes extremas indefinidas pode ser
calculada.
27
3.4. QUARTIS Definição 3.4: Considere uma série (conjunto de dados) ordenada, constituída de n
valores. Os quartis, denotados por Qi,, são os valores que dividem o conjunto em quatro partes iguais (isto é, em quatro partes de 25% cada).
Podem ser obtidos através da aplicação da seguinte expressão:
⎥⎦⎤
⎢⎣⎡ +
×=21
4nii XQ
Exemplo: encontre os quartis da seguinte série bruta de dados : 1, 3, 2, 6, 5, 9. Para encontrar os quartis, valores que dividem a série ordenada em quatro partes iguais, torna-se necessário a obtenção do Rol : 1, 2, 3, 5, 6, e 9. Temos então:
[ ]221
4611 XXQ ==
⎥⎦⎤
⎢⎣⎡ +
× => o primeiro quartil é igual segundo elemento da série ordenada,
que é igual a 2.
[ ]5,321
4622 XXQ ==
⎥⎦⎤
⎢⎣⎡ +
× => o segundo quartil é igual ao elemento 3,5 (entre o elemento3 e o
elemento 4) da série ordenada, que é igual a média entre 3 e 5, que é igual a 4.
[ ]5
21
4633 XXQ ==
⎥⎦⎤
⎢⎣⎡ +
× => o terceiro quartil é igual ao elemento 5 da série ordenada, que é
igual a 6.
28
3.5. DECIS Definição 3.5: Considere uma série (conjunto de dados) ordenada, constituída de n
valores. Os decis, denotados por Di,, são os valores que dividem o conjunto em dez partes iguais (isto é, em dez partes de 10% cada).
Podem ser obtidos através da aplicação da seguinte expressão:
⎥⎦⎤
⎢⎣⎡ +
×=21
10nii XD
3.6. PERCENTIS Definição 3.6: Considere uma série (conjunto de dados) ordenada, constituída de n
valores. Os percentis, denotados por Pi,, são os valores que dividem o conjunto em cem partes iguais (isto é, em cem partes de 1% cada).
Podem ser obtidos através da aplicação da seguinte expressão:
⎥⎦⎤
⎢⎣⎡ +
×=21
100nii XP
29
EXERCÍCIOS
1) Os dados abaixo são referentes a taxa de glicose, em miligramas por 100 ml de sangue, em ratos machos da raça Wistar, com 20 dias de idade. Calcule a taxa média de glicose desse conjunto de ratos.
100,0 – 100,0 – 97,5 – 80,0 – 97,5 – 85,0 – 85,0 – 80,0
2) Os dados abaixo são referentes ao peso corporal, em gramas, de ratos machos com 25
dias de idade. Determine mediana deste conjunto de dados.
76 – 84 – 91 – 87 – 81 – 78 - 83
3) Foram coletadas 150 observações de uma variável X, a qual representa o número de vestibulares FUVEST (um por ano) que um mesmo número de estudantes prestaram. Assim foi observado que 75 estudantes prestaram um vestibular, e assim por diante. Os dados estão na tabela abaixo:
X n 1 75 2 47 3 21 4 7
Total 150
Para este conjunto determine a média, moda e mediana. 4) Para o quadro abaixo calcule o peso médio ao nascer.
Quadro – Nascidos vivos segundo o Peso ao nascer, em quilogramas
CLASSE FREQÜÊNCIA1,5 |-- 2,0 3 2,0 |-- 2,5 16 2,5 |-- 3,0 31 3,0 |-- 3,5 34 3,5 |-- 4,0 11 4,0 |-- 4,5 4 4,5 |-- 5,0 1
5) O quadro abaixo apresenta a distribuição de um grupo de indivíduos segundo o tipo de sangue. Para esta calcule a moda.
TIPO DE SANGUE FREQÜÊNCIA
O 547 A 441 B 123
AB 25
30
6) Discuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente as escolhas.
a) Estão disponíveis dados mensais sobre incidência de envenenamento por picada de
cobras. Deseja-se planejar a compra mensal de antídoto. b) O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi
anotado. Pretende-se utilizar esta informação para dimensionar a frota em circulação. c) Um laboratório deseja divulgar o tempo de efeito de um novo anestésico. Para isso
aplicou o anestésico em 100 pessoas e o tempo de efeito foi anotado. d) Num vôo internacional uma companhia serve dois tipos de pratos no jantar: peixe ou
frango. Um banco de dados contendo os pedidos feitos nos últimos 200 vôos é obtido. Pretende-se planejar o número de cada tipo de prato que deve se colocar à disposição dos passageiros.
7) Os níveis de ácido úrico, em (mg/ 100 ml), encontrados nos exames bioquímicos de
sangue de 10 pacientes do Laboratório de Pesquisas Clínicas do Hospital Escola da FMIt, são os seguintes:
Paciente AJF CHJ WT APC MD SEG HS BET RM CR Ácido úrico (mg%) 4,0 5,2 6,5 5,0 4,5 9,0 5,5 4,5 6,0 7,0
Com base nessas informações, pede-se:
a) Calcular a taxa média de ácido úrico no sangue dos dez pacientes. b) Calcular a mediana dos valores referidos no quadro. c) Calcular a moda das taxas de ácido úrico. d) Qual das três medidas acima poderia ser convenientemente adotada com valor típico ou
referencial do grupo de pacientes. Por quê? 8) As amostras de exames bioquímicos de sangue de três diferentes laboratórios
apresentaram os níveis de creatinina (mg%) mostrados no quadro abaixo. Pede-se:
Exame 1 2 3 4 5 6 7 Laboratório A 0,6 0,4 0,5 0,8 0,2 0,8 - Laboratório B 0,7 0,8 0,6 0,9 0,5 1,1 0,3 Laboratório C 0,6 0,7 2,0 0,5 0,8 0,9 0,9
a) Calcular a média, moda e mediana para os dados do laboratório A. b) Calcular a média, moda e mediana para os dados do laboratório B. c) Calcular a média, moda e mediana para os dados do laboratório C. d) Calcular a MÉDIA GLOBAL dos dados. e) Calcular a MEDIANA GLOBAL dos dados. f) Calcular a MODA GLOBAL dos dados. g) Os problemas verificados com a média, no caso dos dados do laboratório C, continuam
no caso da média de todos os dados?
31
Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de
posição representativas de um determinado conjunto de dados, onde destacamos a média, a moda e a mediana.
Sejam quatro conjuntos A, B, C e D com os seguintes valores: Conjunto A => 7, 7, 7, 7, 7 Conjunto B => 5, 6, 7, 8, 9 Conjunto C => 4, 5, 7, 9, 10 Conjunto D => 0, 5, 10, 10, 10 Para representarmos cada conjunto, podemos calcular a sua respectiva média
(Eq.(1)),encontrando X X X XA B C D= = = = 7 . Vemos assim que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética.
Observando-os mais detalhadamente, notamos que em cada grupo os valores se distribuem diferentemente em relação à média 7. Necessitamos assim de uma medida estatística complementar para melhor caracterizar cada conjunto apresentado.
As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. 4.1 A AMPLITUDE TOTAL
Medida já apresentada na elaboração de uma distribuição de freqüências com dados agrupados em classes denotamos AT.
AT X Xmáx mín= − , onde, Xmáx = maior valor do conjunto Xmín = menor valor do conjunto. Exemplo 1: Para as idades do quadro 1.1 temos que a amplitude AT = 56-9=47 4.2 VARIÂNCIA
A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação.
Definição 4.1:
a) Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua variância denotada σ2 , é definida por:
( )
σµ2
2
=−∑ X
Ni Eq (5) , onde µ = ∑ X
Ni é a média populacional
4. MEDIDAS DE DISPERSÃO
32
b) Seja um conjunto (amostra) constituído de n elementos X1, X2, . . . , Xn. Sua variância,
denotada S2 , é definida por:
( )S
X Xn
i2
2
1=
−
−∑
Eq (6) , onde XX
ni=
∑ é a média amostral
OBS: A equação (6) é utilizada quando nosso interesse não se restringe à descrição dos
dados, mas partindo da amostra, visamos tirar inferências válidas para sua respectiva população. No caso de estarmos interessados apenas na descrição dos dados, podemos usar no divisor n em lugar de n - 1
Exemplo 2: Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8. De acordo com a equação (6) temos:
XX
ni= =
∑ 255
5=
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5,64
264
3202315
5857555352 22222222222 ==
+++−+−=
−−+−+−+−+−
=S
4.3 DESVIO PADRÃO
É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expresso na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância.
Desvio Padrão = + Variância (Raiz quadrada positiva da Variância)
Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o desvio padrão dado por:
População =>( )
σµ
=−∑ X
Ni
2
Amostra => ( )
SX Xn
i=−
−∑
1
2
Exemplo 3: Para o exemplo anterior, temos que o desvio padrão é dado por
55,25,6 ==S 4.4 COEFICIENTE DE VARIAÇÃO
É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de
dados de unidades diferentes. Mede a "DISPERSÃO RELATIVA" de um conjunto de dados. É expresso, usualmente, em percentagem (%).
População ==> CV = ×σµ
100 , sendo que µ ≠ 0
Amostra ==> CVSX
= × 100 , sendo que X ≠ 0.
33
Exemplo 4: Calcule o coeficiente de variação (dispersão relativa) os dados do exemplo 2. Temos que a média é 5=X e o desvio padrão é 55,2=S
Portanto, ====> 0,5110000,555,2100 =×=×=
XSCV , ou seja %0,51=CV
34
EXERCÍCIOS 1) Determinar a amplitude total de cada um dos conjuntos de números:
a) 12 – 6 – 7 – 3 –15 – 10 – 18 – 5 b) 9 – 3 – 8 – 8 –9 – 8 – 9 – 18
2) Os resultados de 12 provas de coagulação, encontrados em exames hematológicos de
pacientes do HE-FMIt., são os seguintes:
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Tempo de coagulação (min) 6 5 6 7 9 6 8 7 4 10 6 12
Com base nesses dados, pede-se que se calcule: a) a Variância. b) o Desvio Padrão. c) o Coeficiente de Variação dos tempos de coagulação.
3) Seja os dados abaixo referentes às alturas de 22 alunos do curso de Bioestatística.
1,73 – 1,68 – 1,64 – 1,55 – 1,60 – 1,65 – 1,60 – 1,72 – 1,55 – 1,75 – 1,63 1,65 – 1,80 – 1,75 – 1,84 – 1,73 – 1,80 – 1,80 – 1,74 – 1,70 – 1,79 – 1,77
Para estes: a) Construa uma tabela de distribuição de freqüência em intervalos de mesmo tamanho. b) Construa o histograma. c) Calcule a média, moda e mediana. d) Calcule a tabela de quartis. e) Calcule o coeficiente de variação. 4) Um hospital maternidade está planejando a ampliação dos leitos para recém nascidos.
Para tal, fez um levantamento dos últimos 50 nascimentos obtendo a informação sobre o número de dias que os bebês permaneceram no hospital, antes de terem alta. Os dados, já ordenados, são apresentados a seguir.
Número de dias Freqüência
1 3 2 11 3 16 4 9 5 6 6 1 7 2 8 1 15 1
a) Calcule a média, moda e mediana. b) Determine o desvio padrão. c) Dentre as medidas de posição calculadas em (a), discuta quais delas seria mais
adequada para este conjunto. d) Você identificou algum valor excepcional dentre os que foram observados. Se sim,
remova-o e recalcule os itens (a) e (b). Comente as diferenças encontradas.
35
5. APLICAÇÕES NO EXCEL
36
37
os e sua utilização pode ser visto nos livros
O gráfico estatísticoobjetivo é o de produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápidos que as séries (tabelas).
Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os termos da série e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional.
A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais:
a) Simplicidade
6 ÃO GRÁFICA DE DADOS. APRESENTAÇ
Uma forma lúdica e bastante interessante de apresentar dados consiste no uso de
gráficos. A seguir são apresentados alguns dos principais tipos de gráficos empregados na statística. Uma maior explicação sobre gráfice
indicados. é uma forma de apresentação dos dados estatísticos, cujo
- indispensável devido à necessidade de levar a uma rápida apreensão do sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de importância secundária.
b) Clareza - o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo.
c) Veracidade - indispensável qualquer comentário, posto que, se não representa uma realidade, o gráfico perde sua finalidade.
Os principais tipos de gráficos estatísticos para as distribuições de freqüências são os geométricos de, no máximo duas dimensões. Para
a cartesiano.
- Variável Qualitativa
os DIAGRAMAS, os quais são gráficua construção, em geral, fazemos uso do sistems
Dentre os principais tipos de diagramas destacamos, segundo a variável em estudo:
- GRÁFICOS EM- GRÁFICOS EM SETORES
- Variável Quantitativa
- GRÁFICOS EM BARRAS
COLUNAS
- Distribuição por valores
- GRÁFICOS EM BARRAS - GRÁFICOS EM COLUNAS - BOXPLOT - DIAGRAMA DE DISPERSÃO - GRÀFICO DE LINHA OU CURVA - GRÁFICO EM ÁREA
- Distribuição por intervalos
- HISTOGRAMA - POLÍGONO DE FREQUÊNCIAS
38
6.1 BOXPLOT
velando a mediana e os quartis (medidas de osição a serem apresentadas mais a seguir no texto). Infelizmente, este gráfico não é isponi atísticos
(como o
Gráfico 1 – Notas de matemática de turmas turmas de uma escola X.
Representa a dispersão dos dados, re
pd bilizado pelo Excel, embora esteja presente em quase todos os softwares est
SPSS, S-PLUS, Minitab, etc.).
0
2
4
6
8
10
12
14
16
18
20
Turma A Turma B
Not
as d
e m
atem
átic
a
6.2 DIAGRAMA DE DISPERSÃO
será aprofundada no seg
Relação entre concentração da substância e ganho de peso após 30 dias de 15
bois de uma dada região de Bocaina, SP.
Mostra a relação gráfica existente entre duas variáveis numéricas. Sua análise
undo módulo de estatística.
Gráfico 2 –
0
5
10
15
20
25
30
0 1 2 3 4 5 6 7
Concentração da Substância (mL)
Gan
ho d
e Pe
so (K
g)
39
6.3 GRÁFICO DE LINHA OU CURVA
3 - Incidência de Tuberculose (Todas as Formas). Pernambuco e
Brasil, 1980 – 2000
Gráfico
Incidência de Tuberculose(todas as formas)
40,0
50,0
60,0
70,0
80,0
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
Anos
Taxa
(por
100
000
hab)
BrasilPernambuco
6.4 GRÁFICO EM ÁREA
Gráfico 4 - Proporção de casos de aids por ano de diagnóstico e subcategoria de exposição, no Rio Grande do Norte, de 1990 a 1999.
0%
20%
40%
60%
80%
100%
90 91 92 93 94 95 96 97 98 99
Ano de diagnóstico
HTS HSH UDI Sangue Perinatal Ignorado
40
6.5 GRÁFICO EM COLUNAS
É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas).
Gráfico 5a – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991
0
200
400
600
800
1000
1200
1400
87 88 89 90 91
Gráfico 5b – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991
0
200
400
600
800
1000
1200
87 88 89 90 91
41
6.6 GRÁFICO EM COLUNAS JUSTAPOSTAS
Gráfico 6a – Distribuição por tipo de casos de meningites bacterianas em l, 1987-1991
maiores de 15 anos, Brasil, 1987-1991
maiores de 15 anos, Brasi
0
100
200
300
400
600
87 88 89 90 91
500
HAEMOPHILUS DM PNEUMOCOCO OUTROS
Gráfico 6b – Distribuição por tipo de casos de meningites bacterianas em
0
100
200
300
400
500
87 88 89 90 91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
600
42
6.7 GRÁFICO EM COLUNAS SUPERPOSTAS
Gráfico 7a – Distribuição por tipo de casos de meningites bacterianas em
maiores de 15 anos, Brasil, 1987-1991
0
200
400
600
800
1000
1200
1400
87 88 89 90 91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
Gráfico 7b – Distribuição por tipo de casos de meningites bacterianas em
maiores de 15 anos, Brasil, 1987-1991
0
200
400
600
800
1000
1200
87 88 89 90 91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
43
6.8 GRÁFICO EM BARRAS
É a representação de uma série por meio de retângulos, dispostos horizontalmente em barras).
Gráfico 8a – Total de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991
Gráfico 8b –
(
Total de casos de meningites bacterianas em maiores de 15 anos,
Brasil, 1987-1991
87
88
89
90
91
0 200 400 600 800 1000 1200 1400
0 200 400 600 800 1000 1200
87
88
89
90
91
44
6.9 GRÁFICO EM BARRAS JUSTAPOSTAS
Gráfico 9a – Dis s bacterianas em maiores de 15 anos, Brasil, 1987-1991
Gráfico 9b – Distribuição por tipo de casos de meningites bacterianas em
tribuição por tipo de casos de meningite
0 100 200 300 400 500 600
87
88
89
90
91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
maiores de 15 anos, Brasil, 1987-1991
0 100 200 300 400 500 600
87
88
89
90
91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
45
6.10 GRÁFICO EM BARRAS SUPERPOSTAS
Gráfico 10a – Distribuição por tipo de casos de meningites bacterianas em maiores de 15 anos, Brasil, 1987-1991
0 200 400 600 800 1000 1200 1400
87
88
89
90
91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
Gráfico 10b – Distribuição por tipo de casos de meningites bacterianas em
maiores de 15 anos, Brasil, 1987-1991
0 200 400 600 800 1000 1200
87
88
89
90
91
HAEMOPHILUS DM PNEUMOCOCO OUTROS
46
6.11 G
É o gráfico que representa as partes de um todo, por setores de um círculo, isando justamente comparar estas partes entre si e em relação ao todo.
Gráfico 11a – Distribu idos, HE-FMIt, 1996
RÁFICO EM SETOR OU SECTOGRAMA (PIZZA)
v
ição por sexo de 9 recém-nasc6
52,1%47,9%
Masculino Feminino
Gráfico 11b – Distribuição por sexo de 96 recém-nascidos, HE-FMIt, 1996
52,1%
47,9%
Masculino Feminino
47
6.12 HISTOGRAMA
É a representação gráfica de uma distribuição de freqüências de uma variável quantitativa (dados agrupados) por meio de retângulos justapostos centrados nos pontos
édios das classes e cujas áreas são proporcionais às freqüências das classes.
Gráfico 12 – Histograma de freqüência das idades em classes dos 26 pacientes
apresentados no quadro 1.1
.13 GR
ordenadas: da de
Distribuição da fr e das idades em classes dos 26 pacientes apresentados no quadro 1.1
m
6 ÁFICO DA FREQUÊNCIA ACUMULADA CRESCENTE
Representa o histograma, com base em classes de freqüênciamenor freqüência para a de maior freqüência.
eqüência acumulada crescentGráfico 13 –
0
2
4
6
8
10
12
4,25 13,75 23,25 3 42,25 51,75 61,25
Idade
Freq
üênc
ia a
bsol
uta
2,75
0
5
10
15
20
25
30
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
Freq
üênc
ia a
bsol
uta
48
6.14 GRÁFICO DA FREQUÊNCIA ACUMULADA DECRESCENTE
da freqüência acumulada decrescente das idades em classes dos 26 pacientes apresentados no quadro 1.1
6.15 POLÍGONO DE FREQUÊNCIAS
É a representação gráfica de uma distribuição de freqüências por meio de uma linha poligonal fechada ou polígono, cuja área total é igual a do histograma. Gráfico 15 – Histograma e polígono de freqüência das idades em classes dos 26 pacientes
apresentados no quadro 1.1
Representa o histograma, com base em classes de freqüência ordenadas: da de
maior freqüência para a de menor freqüência. Exemplo Gráfico5. Gráfico 14 – Distribuição
0
5
10
15
20
25
4,25 13,75 23,25 32,75 42,25 51,75 61,25
Idade
Freq
üênc
ia a
bsol
uta
30
0
2
12
4,25 13,75 23,25 32,75 42,25 51,75 61,25
4
6
Freq
üênc
ia a
bsol
uta
8
10
Idade
49
6.
dispoplanilha onde estão dos dados que se deseja representar em gráficos, basta seguir as etapas o Assistente de Gráfico.
16 APLICAÇÕES NO EXCEL
O uso de gráficos no Excel é facilitado pelo emprego do Assistente de Gráfico, nibilizado na barra de ferramentas. Havendo selecionado previamente a área da
d
As opções de gráficos no Excel são bastante variadas: colunas, barras, linhas,
dispersão, etc.
50
EXERCÍCIOS
1. s de uma clínica de ortopedia foram entrevistados quanto ao número
de as após o tra dio (M) ou baixo (B). Os da
Pacientes 1 2 3 9 10 11 12 13 14 15
Quinze pacientemeses previstos de fisioterapia, se haverá (S) ou não (N) seqüel
tamento e o grau de complexidade da cirurgia realizada: alto (A), médos ão apresentados na tabela abaixo: s
4 5 6 7 8 Fisoterapia 7 8 5 7 6 8 6 5 5 4 5 6 4 5 7 Seqüelas S S N N N S S N S N N Cirurgia A M A A M B M B B M M A
N N SM M B
S
a) Classifique cada uma das variáveis. b) Para cada variável, construa a tabela de freqüência e faça uma representação
gráfica. c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de
barras para a variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse grupo?
2.
as fatais, assim distribuídos: 11712 pedestres, 7116 passageiros e 8478 condutores. Faça uma tabela para apresentar esses dados. Apresente as freqüências re s da
3. Represente graficamente:
De acordo com o IBGE(1988), em 1986 ocorreram, em acidentes de trânsito, 27306 casos de vítim
lativas e o total. Faça um gráfico de barras e um de setores para representar estedos.
Tabela 1 – Número e proporção de óbitos, segundo regiões. Brasil, 1996 e 1999.
Região N % Norte 16.117 4,9 NSudeste 170.050
ordeste 69.811 21,4
Su 48.921 C O ste 21.830
52,0
0l 15,entro- e 6,7
Tabela 2
Masculino ini
– Número e proporção de óbitos, segundo sexo e regiões. Brasil, 1996 e 1999.
Fem no Regi N % ão N % Norte 10.857 4,9 5.260 5,1 Nordeste 46.242 20,7 23.569 22,9 Sudeste 118.774 52,9 51.276 49,9 Sul 33.113 14,8 15.808 15,4 Centro-Oeste 14.958 6,7 6.872 6,7
Tabela 3 – Suicidas segundo o sexo. Brasil, 1986
Sexo N % Masculino 3.562 74,9 Feminino 1.192 25,1
51
4. Faça um histograma e um polígono de freqüências para os dados apresentados no
quadro abaixo.
Cães adultos anestesiados e após laparotomia, segundo a pressão arterial, em milímetros de mercúrio
Classe Freq.
Quadro 1 –
80 |-- 90 1 90 |-- 100 4 100 |-- 110 16 110 |-- 120 8 120 |-- 130 9 130 |-- 140 7 140 |-- 150 3 150 |-- 160 1
5. Os dados referem-se ao peso, em quilogramas, de cães. Para estes construa uma tabela de distribuição de freqüências completa. Depois construa o histograma de freqüências.
23,0 – 19,0 – 23,8 – 15,0 – 20,0 – 22,7 – 19,5 – 22,0 – 14,9 – 18,3 – 21,2 – 20,1 – 18,7 – 15,1 – 22,3 – 21,5 – 25,5 – 19,5 – 22,2 – 24,0 – 17,0 – 24,1 – 28,0 – 13,6 – 15,8 – 28,4 – 23,0 – 15,0 – 16,1 – 16,0 – 19,0 – 18,0 – 18,8 – 18,0 – 15,0 – 14,5 – 19,0 – 20,5 – 16,0 –
16,0 – 16,0
6. Um a da desnutrição (medida pelo peso, em quilos, das pessoas) em aior que em uma região in a em cada região, forne
Região A Região B
estudo pretende verificar se o problem uma região agrícola (denotada região A), é m
dustrial (Região B). para tanto, uma amostra foi tomadcendo a tabela de freqüências a seguir:
Peso N % Peso N % < 40 46 43,0 < 40 10 3,1 40 |--50 22 20,6 40 |--50 34 10,7 50 |-- 60 18 16,8 50 |-- 60 109 34,2 60 |-- 70 12 11,2 60 |-- 70 111 34,8 70 e + 9 8,4 70 e + 55 17,2 Total 107 100,0 Total 319 100,0
Os dados apresentados sugerem que o grau de desnutrição é diferente nas duas regiões? (Note que o total de observações difere em cada região).
7. Utilize o banco de dados construído no exercício 14 da seção1 e faça uma análise
descritiva das variáveis avaliadas.
52
III. PROBABILIDADE
53
PROBABILIDADE E PROPRIEDADES EPIDEMIOLÓGICAS
1. CONCEITO
Embora o conceito de probabilidade esteja estreitamente relacionado à forma pela
qual esta é definida, é consensual interpretar a p babilidade como a possibilidade de um determinado fato vir a ocorrer, avaliada num em termos percentuais.
roericamente e
2. A MENSURAÇÃO DA PROBABILIDADE Ao definir o conceito de probabilidade, foi visto que a idéia passa pela mensuração
u avaliação das chances de um certo acontecimento. Existem duas maneiras pelas quais sta ava
observação do comportamento passado do fato e das circunstâncias nas
rocesso implica de es que de alguma forma poderiam sso ão de probabilidade dita a priori.
xija uma avaliação exata da probabilidade de uma a situações muito particulares, como os jogos. completamente diferente.Consiste em trabalhar
com o da
meno.Contudo, é aquela que pode ser aplicada aos problemas do mundo real e, especificamente, à Medicina.
Para ilustrar as duas formas de pensar o conceito de probabilidade, suponha o guinte exemplo: Imagine a avaliação da probabilidade de um individuo sofrer um infarto.
Utilizan
mericamente a conjunção de todos esses fatores. Ainda mais, se a tolerância de cada indivíduo em particular a estes fatores não é conhecida. Em síntese, é praticamente impossível pensar, neste exemplo em avaliação a priori de probabilidade. Por outro lado, consupossíve
a ocorrer. Por outro lado, tomando um eterminado número de pacientes, é possível conhecer a freqüência com que determinados
ência do infarto.Desta forma, conhecendo as aracterísticas de um determinado paciente, seria possível verificar com qual intensidade stes fat
oe liação pode ser feita:
• Pela observação e conhecimento completo dos fatores que influenciam o fato; • Pela
quais ocorreu. O primeiro p finir todos os fator
conduz a definiçafetar o resultado final. Este proceEmbora esta definição de probabilidade eocorrência, sua aplicabilidade está restrita
O segundo processo é de natureza conceito de freqüência relativa, que é próprio da probabilidade dita a posteriori. A
probabilidade baseada em freqüência relativa impõe, evidentemente, uma estimativa verdadeira probabilidade de ocorrência de um determinado fenô
sedo um critério a priori, seria necessário listar todos os fatores que poderiam
conduzir ao infarto.Embora os estudos que existem sobre o assunto, no estágio atual da ciência médica, sejam razoavelmente completos – o que permitem indicar dezenas de fatores de risco, tais como: idade, sexo, hereditariedade, estresse, fumo, dieta, condição física etc.- ,dificilmente seria possível colocar nu
ltando arquivos de dados cardiológicos, é l verificar o número de casos de infarto em indivíduos com características próximas
daqueles cuja probabilidade quer-se avaliar e, assim, tomar este dado como um indicativo da possibilidade de o fato efetivamente vir dfatores estão associados com a ocorrce ores estão presentes e, dessa forma, chegar a um prognóstico sobre seu risco de infartar. 3. PROBABILIDADE COMO UM NÚMERO
Quando o conceito de probabilidade foi definido, deixou-se claro que a probabilidade é expressa numérica e percentualmente. Assim, a probabilidade a priori de um acontecimento “A” vir a ocorrer pode ser posta:
54
( ) [ ][ ] s
Aadespossibiliddetotalnúmero
AafavoráveisidadesdepossibilnúmeroAP ==""
Onde A é um subconjunto do conjunto universal de todas as possibilidades de
ocorrência, s. O conjunto s é também denominado espaço amostral e cada parte elementar ou elemento dele é um ponto amostral.
Como corolário imediato, vem que A estará sempre contido em s e, conseqüentemente, para qualquer A, ( ) 10 ≤≤ AP . De modo geral, denotando probabilidade por p, 10 ≤≤ p ou %100%0 ≤≤ P .
Em termos de probabilidade a posteriori, coloca-se:
As observações anteriores, referentes à probabilidade a priori, são também válidas para esse caso.
eda. A probabilidade a priori seria calculada a seguinte forma:
O evento: A = resultado cara no lançamento de uma moeda é constituído por um abilidade de A ocorrer é igual a:
Exemplo: Suponha o lançamento de uma mod
S = {c, k}, onde: s = espaço amostral = 2 elementos; c = cara = ponto amostral = 1 elemento; k = coroa = ponto amostral = 1 elemento.
único elemento. Portanto, a prob
( ) %.505,02
ouAP ==
1
O cálculo da probabilidade a posteriori implicaria ter efetuado um número n de experiências de lançamento da moeda. Suponha-se que foram feitas 100 experiências. Então n = 100. Suponha-se ainda que destas 100 experiências, 48 resultaram “cara” e 52 resultaram “coroa”. Desta forma, pode-se concluir que a probabilidade de ocorrer o evento A, tal como foi definido anteriormente, é igual a:
( ) %.4848,010048 ouAP ==
Por extensão, conclui-se que o evento B = resultado coroa no lançamento de uma
moeda é de 52%. Ainda, definido o evento C = resultado “cair em pé” no lançamento de ma moeda, é possível concluir que P(C) = 0%. u
4. PROBABILIDADE NA MEDICINA
Pelo exposto até agora, é possível perceber que os dois processos de mensuração não levam necessariamente a resultados iguais. Ainda, no exemplo da moeda, é possível intuir que o resultado obtido ao se fazer o cálculo pelo primeiro processo é correto, enquanto o cálculo a posteriori é tomado com algo estranho (afinal, todo mundo sabe que
oincidentes, podendo as diferenças (os erros) com
oq chance de sair cara é 50%). De fato, a probabilidade verdadeira, ou real, naquele caso é de 50%. Ainda, se outras séries de experiências forem efetuadas com a mesma moeda, em condições absolutamente iguais, os resultados obtidos em termo de avaliação de probabilidade não terão por que ser c
( ) [ ][ ] n
Arealizadafoieriênciaaquevezesdenúmero
ocoreuAquevezesdenúmeroAP ==exp
55
respeito
pergunta que se faz, então, é por que não se utiliza sempre o primeiro processo e se descarta o segundo.Ocorre que na ciência de modo geral e, por extensão, na medicina, a
lação entre causas e efeitos é extremamente complexa, de forma que os resultados são previsív
ca é conduzida. Conclui-se que, de modo geral, os resultados da ciência médica não são cem por
de erro nas avaliações ou conjecturas é infelizmente, ciência que trata de como controlar estes erros, auxiliar a
esquis
à probabilidade real serem maiores ou menores e estarem para baixo ou pra cima deste valor.
A
reeis com um grau variável de certeza e, desta forma, não é possível construir
corretamente os espaços amostrais necessários ao cálculo da probabilidade a priori. Conseqüentemente, as probabilidades são avaliadas historicamente ou por experimentação e,os resultados,são estimativas de probabilidade sujeitas a erros de maior ou menor magnitude, dependendo da forma como a pesquisa científi
cento exatos e que a presença nevitável. A estatística, enquantoi
p a médica na construção de toda a base de conhecimentos dedutivos da medicina, como é possível constatar em grande parte do material que promove a sua divulgação e difusão. 5. CÁLCULO DAS PROBABILIDADES
oi visto que a estimativa de uma probabilidade é obtida como uma proporção, indepen
Fdentemente do seu critério de definição. Entretanto, uma vez estabelecida à
probabilidade de um ou de vários eventos, existem diversos cálculos de probabilidades que podem ser feitos, combinando-se os resultados.Algumas situações clássicas são vistas a seguir.
5.1 LEI MULTIPLICATIVA
Dado um evento A, com probabilidade P(A), a probabilidade de que esses evento se repita n vezes é dada por:
( ) ( ) ( ) ( )nn APAPAPAAAP ....... 2121 =∩∩∩
A sentença acima pode se de de que ocorra o evento A na primeira vez e na seg igual ao produto das probabilidades de ele ocorrer em cada uma das vezes”.
r lida: “A probabilidaunda vez e assim por diante até a enésima vez é
Se a ocorrência do evento A em cada uma das vezes não for afetada pelas ocorrências anteriores, diz-se que as ocorrências de A em cada uma das vezes são independentes, e a expressão anterior pode ser escrita:
( ) ( )n
n APAAAP =∩∩∩ ...21 5.2 LEI ASSOCIATIVA
Dados dois eventos, A e B, a probabisto é, que ocorra A ou B, é dada por:
ilidade de que ocorra um destes dois eventos,
( ) ( ) ( ) ( )BAPBPAPBAP ∩−+=∪
que pode ser lido: “A probabilidade de ocorrência de A ou B é dada pela soma das probabilidades de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de que ambos ocorram simultaneamente.”
56
Evidentemente, se A e B não tiverem elementos em comum, serão representados por conjuntos disjuntos, e a expressão anterior passa a:
( ) ( ) ( )BPAPBAP +=∪
tos cuja ocorrência
simultânea não é possível, diz-se que os eventos são mutuamente excludentes, ou seja, ocorre
Em um determinado momento, se forem definidos dois even
um ou ocorre o outro. É o caso, por exemplo, do lançamento de um dado e os 6 e B = resultado 5. Sabe-se que P(A) = 1/6 e P(B) = 1/6, mas a
probabilidade de ocorrer A
eventos A = resultadoe B simplesmente não existe.
6. EVENTOS DEPENDENTES
Quando a ocorrência de um evento a depende da ocorrência prévia de um outro evento B, diz-se que o evento A depende de B, e denota-se (A|B). É comum ler a sentença (A|B) como “A dado B”.
Para que dois eventos sejam dependentes, basta verificar a desigualdade
( ) ( ) ( )BPAPBAP .≠∩
Em outras palavras, a probabilidade do número de ocorrências que satisfazem ambas as condições (A e B) é diferente do produto das probabilidades dos eventos A e B tomadas isoladamente. Obviamente, os eventos serão independentes se
( ) ( ) ( )BAP ∩ BPAP .= .
Exemplo: Suponha que um levantamento estatístico efetuado em certa população verificou que 23% de indivíduos do sexo masculino e 18% do sexo feminino são hipertensos. Se nessa mesma população o número de casais hipertensos é de 7,2%, então existe dependência (ou associação) entre o fato de o homem e a mulher do casal apresentarem hipertens o, pois, denotan sa, ter-se-ia
P(H∩M)=P(H).P(M) P(H∩M)=0,23 . 0,18 = 0,0414 = 4,14% ≠ 7,2%
Observe-se que não estão sendo nem procurad analisadas as razões por que
se o prim bro do casal é hipertenso, o outro tem mais chances de ser hipertenso do que se presenta-se este fato a partir das estatíst ertensos. Quanto aos motivos para esta de ndência, eles ocurados, ras variáveis ligadas ao sexo e à hipertensão. Nu campo, poder-se-ia sugerir que sejam verificadas características do casal no que diz respeito ao NaCl, a
ã do H = homem hipertenso e M = mulher hiperten
as nemeiro mem
o primeiro não for hipertenso. Simplesmente aas do número de homens, mulheres e casais hipic
pe devem ser pr analisando-se outm estudo de
tipo de alimentação, teor diário ingerido de mbiente familiar, ambiente de trabalho, etc.
7. PRO ABIL E COB IDAD NDICIONADA 7.1 CONCEITO
Quando existem d ocorrência de um deles é afetada pelo fato de outro ter ou não ter ocorrido. Se estes eventos são os eventos A e B, qua
ois eventos dependentes, a probabilidade de
ndo se diz que a probabilidade de ocorrência de A está condicionada à ocorrênciade B, está-se querendo dizer que as chances de ocorrer A dependem de B.
57
De modo geral, a probabilidade de A condicionada a B é dada por:
( ) ( )( )BP
BAPBAP ∩=|
u condicionada
.
Onde P(A|B) = probabilidade de A dado o a B. A relação anterior pode ser compreendida, observando-se a Fig. 1
Fig.1 - Probabilidade Condicionada
Na Fig.1, os eventos A e B possuem entos comuns. A probabilidade de ocorrer dado B implica a ocorrência prévia de B. De ta forma, o espaço amostral se reduz de U
ocorrer, associando-se dois eventos, ou quando um mesmo e os pelos resultados anteriores.
omo por exemplo do primeiro caso, im conjunto de indivíduos.O to, A segundo, B, “alcoólatra”. È possível estimar, de acordo a esses dados, a probabilidade de um indivíduo ter cirrose dado que é alcoólatra.Para isto, de acordo à de ição dada asta verificar o número de indivíduos que apresentam s mente as duas características P(A∩B) e dividir pelo número total de indivíduos que apresentam
r olocado em forma de tabelas conjuntas de freqüências, ou tabelas conjuntas de
probabilidades, dependendo e os dados são valores absolutos (primeira denominação) ou relativos (segunda denominação). Uma tabela conjunta simples (Tabela 1), de dimensão 2x2, é mostrada a seguir:
Tabela 1 - Associação de eventos dependentes.
Eventos B B’ Totais
elem
sApara B e as ocorrências favoráveis ao evento Apara a interseção de A com B, resultando a expressão mostrada anteriormente.
As probabilidades condicionadas podemvento é repetido e os seus resultados são o afetad
C agine dois eventos associados a um, seria “cirrose”; o primeiro even
fin , bimultanea
a segunda característica P(B). Este tipo de problema costuma ser colocado em forma de tabelas conjuntas se
c
A AB AB’ A A ‘ A’B A’B’ A’ Totais B B’ T
No exemplo que vem sendo analisado, ter-se-ia:
latra
A = cirrose A’= não-cirrose B = alcoólatra B’= não-alcoó
58
Evidentemente, os eventos associados são:
T = total de indivíduos, ou probabilidade total.
o A={a1, a2,..., ak} e cada um destes resultados está condicionado à ocorrência do evento B, tem-se
(A k
AB = cirrose e alcoólatra; AB’ = cirrose e não-alcoólatra; A’B = não-cirrose e alcoólatra; A’B’ = não-cirrose e não-alcoólatra;
De m do geral, se o evento A pode ocorrer de k maneiras diferentes
P(A1\B) + P 2\B) + ... + P(A \B) = 1
larmente, se k = 2, então
articu
) e P(A2\B) = 1- P(A1\B)
O risco relativo pode ser calculado a partir das tabelas conjuntas de freqüência ou de prob
r uma aracterística particular (B). No exemplo em que A = cirrose e B = alcoólatra, o risco
se em relação a um indivíduo não-alcoólatra.
P P(A1\B) =1- P(A2\B
abilidades que foram apresentadas para definir a probabilidade condicionada. É um conceito bastante empregado em medicina e pode ser entendido como risco adicional de estar em uma determinada condição patológica (A) devido ao fato de apresentacrelativo de um alcoólatra em relação à cirrose representa a probabilidade adicional de um alcoólatra desenvolver cirro
Genericamente, empregando a notação da Tabela 1 pode-se escrever:
Exemplo: Suponha que os valores para o exemplo da Tabela 3.1, num estudo efetuado com 80 pacientes, sejam os mostrados na Tabela 3.2.
Tabela 2 - Associação entre cirrose e alcoolismo
Alcoolismo (B) Cirrose (A) Sim Não
Presente 9 2 Ausente 26 43
Empregando a notação sugerida, o risco de um alcoólatra apresentar cirrose é de
( ) 2571,0269
9'| =+
=BAP
59
O risco de cirrose entre os não-alcoólatras resulta
( ) 0444,0432
2'| =+
=BAP
O risco relativo resulta então
79,50444,02571,0
==RR
ste valor indica que o risco de um alcoólatra desenvolver cirrose, em comparação a
um indivíduo não-alcoólatra, é 4,79 (5,79 – 1) vezes maior.
E
7.2 COEFICIENTE DE ASSOCIAÇÃO DE YULE
Ainda trabalhando em tabelas de freqüência do tipo 2 x 2, pode-se desejar avaliar a associ ção entre as dua a, por exemplo, as variáveis ingestão
e NaCl e pressão arte 3.3. Neste caso, o coeficiente de ediria o onsumo de sal de cozinha e a
PAS.
a
a s variáveis estudadas. Suponhrial sistólica. Veja a tabelad
associação de Yule m grau de associação entre o c
T bela 3 - Associação entre consumo de sal comum e PAS.
PAS Consumo de Sal
≤ 120 mmHg > 120 mmHg ≤ 5 g/dia 24 (a) 4 (b) > 5 g/dia 11 (c) 19 (d)
O coeficiente de associação de Yule pode ser calculado através da expressão:
bcadbcadY
+−
=
us valores variam de associação entre -1 e + 1, e quanto mais próximo de ±1,
mais forte a associação. Y=0 indica ausência de associação.Valores positivos de Y indicam relação direta entre as variáveis estudadas e valores negativos de Y, relação inversa. Exemplo: De acordo com a Tabela 3.3, a associação entre o consumo de sal comum e a pressão sistólica resultaria
Se
824,0500412
11419241141924
==×+××−×
=Y
omo o valor de associação é positivo, indica que um aumento no consumo de sal
provocaelevado, rando uma associação forte entre consumo de sal e PAS.
C também um aumento na PAS. Quanto ao grau de associação, verifica-se que é Y > 0,8, most
60
61
7.4 APLICAÇÕES DA PROBABILIDADE CONDICIONAL: TEOREMA DE BAYES
Suponha que a ocorrência (ou não) de um determinado evento A possa ter sido originado de “k” diversas maneiras c , c ,..., c (Fig. 2). 1 2 k
1, c2, ..., ck são eventos mutuamente exclusivos, ou a, o conjunto A pode ser escrito como
2 kcA∩ . Em termos de probabilidades PAP
Fig. 3.2 Causas d evento A.
Fig. 2 – Causas do evento A
Observe que as causas cΦ=∩∩ kcc ...21 . Desta form
...)() cAc ∪∪∩∪∩c
)((AA = 1
)(...)()( 21 kcAPcAPcA)( ∩++∩+∩ . Lembrando a definição de p= robabilidade
condicional, pode-se escrever:
)( icP)(
)|( ii
cAPcAP
∩=
de onde vem
)|().()( iii cAPcPcAP =∩ Então, a probabilidade do evento A, P(A), resulta igual à expressão
)|().(...)|().()|().()( 2211 kk cAPcPcAPcPcAPcPAP +++=
ou
∑=
=k
iii cAPcPAP
1)|().()(
Então, a probabilidade de que o evento A tenha sido originado pela causa ci,
, é dada por:
)|( AcP i
∑=
== k
iii
iii
iii
cAPcP
cAPcPAcPou
APcAPcP
AcP
1)|().(
)|().()|(
)()|().(
)|(
final do Teorema de Bayes, também chamada de Teorema das ausas. Possui aplicação direta em vários problemas relacionados ao diagnóstico de oença
3) + P(P4).P(A|P4) P(A) = 0,63.0,023 + 0,18.0,093 + 0,14.0,171 = 0,0617 ou 6,17%
Então, o risco HIV+ é de 6,17% A chance de HIV+ pertencer ao grupo heterossexual pode ser posta:
Esta é a expressão
Cd s. É também base para o desenvolvimento de um conjunto de indicadores em Epidemiologia, que serão descritos de forma resumida na Seção 8. Exemplo: Suponha que em um levantamento de dados uma determinada população foi classificada de acordo com uma das características abaixo:
P1 Heterossexuais 63% P2 Homossexuais 18%
P3 Hemofílicos 5% P4 Usuários de drogas injetáveis 14%
Ainda, imagine que levantamentos estatísticos anteriores permitam presumir que o
risco de transmissão de HIV entre os heterossexuais é de ordem de 2,3%; entre a população homossexual 9,3%; entre os hemofílicos 12% e entre os usuários de drogas 17,1%.
Como estas informações seria possível determinar, por exemplo, a probabilidade de transmissão do HIV e, também, a chance de um HIV+ ser proveniente do grupo de heterossexuais. No primeiro caso: Seja A = HIV+ e A’= HIV– então,
P(A) = P(P1).P(A|P1) + P(P2).P(A|P2) + P(P3).P(A|P + 0,05.0,12
.
)()|().
)|( 11 AP
APPAPP
(= 1P
P
2163,0067,0
01449,0067,0
023,0.63,0)|(PP 1 ===A ou 21,63%
+, a probabilidade de ele pertencer ao grupo heterossexual é de 21,63%. Este resultado é interesse (!), pois o valor calculado é aparentem
En o de HIVtão, dado um cas
ente alto diante da pequena taxa de risco dos heterossexuais (2,3%).
62
8. APLICAÇÕES DO CÁLCULO DE PROBABILIDADES: NOÇÕES DE
EPIDEMIOLOGIA
O cálculo de probabilidades está presente na Medicina, direta ou indiretamente, em o de situações. Contudo, em algumas situações, a base do conhecimento é de
atureza nitidamente probabilística. É o caso dos indicadores epidemiológicos, que serão abord
um sem-númern
ados brevemente a seguir.
8.1 AVALIAÇÃO DA QUALIDADE DE UM EXAME DIAGNÓSTICO
Uma importante aplicação da teoria das probabilidades na medicina está relacionada me tem de acertar o verdadeiro
iagnóstico. A limitação dos diagnósticos está condicionada aos meios em que o médico ispõe para a sua elaboração. Assim, se um médico deve efetuar um diagnóstico sobre a
o de anemia em uma criança, dispondo das informações de um exame línico, suas conclusões serão mais ou menos corretas em função da capacidade que o
ame o, diz-se que o diagnóstico é provável. Quando
não existem dúvidas sobre o diagnóstico, o exame é denominado diagnóstico de certeza ou prova de ouro e o mesmo é definitivo. A precisão de um exame diagnóstico é avaliada, omparando seus resultados com os de um exame definitivo e verificando sua capacidade
ociados à comparação do resultado
Quadro 1
Diagnóstico de certeza
à avaliação da capacidade que um determinado exaddpresença ou nãcex clínico tem de detectar a anemia. Quando é sabido que o tipo de exame que está sendo empregado não é totalmente precis
cde acerto. O quadro 1 mostra os possíveis resultados ass
o exame que está sendo avaliado e o resultado definitivo. d
Resultado do exame Sim Não Total
Sim a b a+b Não c d c+d Total a+c b+d a+b+c+d
De modo geral, podem ser listadas quatro formas de se estabelecer um teste
-
Dependendo do caso, qualquer uma dessas formas de diagnóstico pode ser avaliada, comparando-a com outra forma tida como mais precisa. Do quadro 2 é possível extrair os conceitos e as relações descritos a seguir:
also-positivo
diagnóstico: - Exame clínico Exame laboratorial
- Exame anátomo-patológico - Exame por imagem
F
.
also-negativo
Indivíduos sadios cujo exame resultou positivo. No quadro 2, corresponde a letra b
F
Indivíduos doentes cujo exame resultou negativo. No quadro 2, corresponde a letra c.
63
8.1.1 PROPRIEDADES ESTÁVEIS
Quando as proporções diferentes de pacientes sadios e doentes são testadas, os seus valores não se alteram. São duas estas propriedades: Sensibilidade
É definida como a proporção entre o número de indivíduos, cujo exame resultou ositivo e tem a doença, e o número total de doentes. p
caaadeSensibilid+
=
OBS: quanto mais próximo de 1 melhor será este teste.
specificidaE de ero de ind resulto ivo, e o núm de indivíduos sadios. Então
Proporção entre o número total
ivíduos sadios, cujo exame u negat,
dbddadeEspecifici+
=
OBS
: quanto mais próximo de 1 melhor será este teste.
8.1.2 PROPRIEDADES INSTÁVEIS Valor preditivo positivo
É a proporção entr s com exame positivo e o número total de exames pos
e o número de indivíduos doenteitivos.
baa positivo preditivo Valor+
=
Valor preditivo negativo
É a proporção entre o número de indivíduos sadios com exame negativo e o número total de exames negativos. Este valor dá a eficiência com que o resultado negativo de um exame exclui a doença em questão.
dcd negativo preditivo Valor+
=
Acuidade Esta propriedade verifica a proporção de acerto do exame diagnóstico sobre o diagnóstico de certeza. Por esta razão, alguns autores a chamam de eficiência global do teste, ou simplesmente eficiência.
dcbada Acuidade
++++
=
64
Prevalência É o total de pacientes doentes sobre o total de pacientes, ou simplesmente, proporção de pacientes doentes. Para se Ter esta propriedade, é necessário dispor do diagnóstico de certeza.
dcbaca aPrevalênci
++++
=
Exemplo: Temos que o quadro 2 foi extraído da publicação “Como ler revistas Médicas”,
pidemiologia Clínica e Bioestatística do Centro de Ciências da Saúde da Universidade de MacMaster da cidade de Hamilton, Ontario, Canadá, para o programa brasileiro de Epidemiologia desenvolvido com o apoio da SEPLAN e do CNPq.
diograma de esforço como um indicador etenose das coronárias
quando a doença está presente em metade dos homens examinados
Mais de 75% de Estenose
do Departamento de E
Quadro 2 – Eletrocar
Eletrocardiograma de esforço Presente Ausente Total
+ 55 7 62 - 49 84 133
Total 104 91 195 Obs: o diagnóstico de certeza foi obtido por arterioscopia
Com base nesses dados, foi possível calcular, para o exame ECG
Sensibilidade = 0,5288 Especificidade = 0,9231 Valor preditivo positivo = 0,8871
reditivo ne ,6316 e = 0
Prevalência = Pode s do que os resultados aplicação do ECG de esforço não são muito onfiáveis. O resultado da Sensibilidade do teste, que mostra a proporção de falso-
os doentes, é exageradamente alto (47,12%). A eficiência global do teste, cuidade, também não nos oferece resultados muito alentadores. O teste possui falha de
diagnóstico nos sentidos do falso-positivo e falso-negativo; portanto, deve ser complementado com maiores informações antes de uma exploração das artérias, se for o aso.
Valor pAcuidad
gativo = 0,7128 0,5333
er nota da cnegativos entreA
c 8.2 ODDS RATIO (OR)
É uma medida de probabilidade, definida como o quociente de duas probabilidades, complementares entre si. Na tabela, o odds de presença de exposição ao fator, entre os casos, é a/c; o odds de presença de exposição ao fator, entre os controles, é b/d. O quociente entre estes dois odds é o odds ratio. É também denominado “razão dos produtos cruzados”. Em português, odds ratio pode ser traduzido, literalmente, como “razão do quociente das probabilidades”.
É uma estimativa de máxima verossimilhança de todos os valores possíveis de razões de chance na população. Este valor é aquele que teria a maior probabilidade de ter originado os dados da amostra.
65
A associação entre o fator de risco e a doença pode ser especificada como positiva ou teste estatístico monocaudal; não sendo especificada, tem-
um teste bicaudal. ,
poden
negativa, situação que leva a umse
OR=1 indica que probabilidade de doença nos expostos ao fator de risco e nos nãoexpostos são equivalentes. OR>1 indica que a exposição ao fator em estudo é de risco
do implicar em relação causa efeito. A decisão estatística é baseada na estatística χ2 (qui-quadrado), com um grau de liberdade. Se o nível de significância for α = 5% e o teste for bicaudal, χ2 é comparado com 3,84; se maior indica uma associação estatísticamente significante. Estimativa Pontual
bcad
db
ca
chances de razão OR ===
Estimativa Intervalar
alo de confiança para a OR é dada por: Uma estimativa do interv
⎥⎦
⎤⎡=
+− σσ αα22
)ln()ln(
,zORzOR
eeIC , onde⎢⎣ dcba
1111+=σ ++
Exemplo: Apresenta-se um estudo de c trole, conduzido em São Paulo, para
vestigar a possível associação causal entre consumo de bebida destilada e câncer de aso-con
inesôfago (Gimeno et alii). Os casos foram obtidos em hospitais, não tendo sido incluídos pacientes com câncer no trato digestivo. Considerando-se apenas a exposição ou não a álcool, os dados estão dispostos na tabela abaixo e o resultado do teste de hipóteses e o intervalo da estimativa da odds ratio, com 95% de confiança, são apresentados a seguir:
Condição Exposição ao álcool Caso C e ontrol Total
Presente 75 152 227 Ausente 10 140 150 Total 85 292 377
SOLUÇÃO:
91,610152
14075=
××
==OR bcad
[ ] [ ]9,13;4,391,6;91,691,6, 356,096,1356,096,1)ln()ln(
222 =××=⎥⎦
⎢⎣
356,0140
1101
1521
7511111
=+++=+++=dcba
σ
⎤⎡×=⎥
⎦
⎤⎢⎣
⎡= ×+×−
±+−
eeeeeICzzORzOR σσσ ααα
66
8.3 RISCO RELATIVO (RR)
O R
ulas para cálculo do intervalo de confiança do RR estão disponíveis para testar sua significância estatística. Este procedimento é indicado para aqueles estudos onde o tempo estudo. Estimativa Pontual
isco Relativo é definido como “a razão (ou quociente) entre a taxa de incidência da doença no grupo exposto e a taxa de incidência da doença no grupo não-exposto”.
Um RR = 1 indica não haver associação entre o fator de risco e a enfermidade; a medida em que o valor do RR aumenta (afasta-se de 1), aumenta também a “força” desta associação. A magnitude do RR reflete, portanto, a força da associação fator de risco-doença. Fórm
de seguimento é uniforme e constante para todos os participantes no
dcc
baa
R co elativoRis RR
+
+==
Estimati a Intv ervalar Uma esti
mativa do intervalo de confiança para a RR é dada por:
⎥⎦⎣
⎤⎢⎡
=+− σσ αα
22
)ln()ln(
,zRRzRR
eeIC , ondedccbaa + +
−+−=1111σ
Exemplo: Em um estudo de Coorte (hipotético) para investigar o desenvolvimento de tuberculo infecção pelo M. tuberculosis (exposição) com e sem infecção pelo HIV (variável de confusão), o Risco Relativo e o seu respectivo intervalo de confiança ao nível de significância de 5% estão apresentados abaixo:
se pulmonar em indivíduos com
Tuberculose PulmonarInfecção M. tuberculosis Sim Não Total
Presente 39 701 740 Ausente 27 1244 1271 Total 66 1945 2011
48,4 2=27
7 039
=+ bac
RR =
1271+ dc
a
⎥⎦
⎤+− σσ αα )ln()ln( zRRzRR
⎢⎣
⎡= 22 ,eeIC =[1,53; 4,02].
67
8.4 COEFICIENTE KAPPA (K)
No item 8.1 foi visto como é possível avaliar a precisão de um exame ou método diagnóstico, comparando-o com um diagnóstico-referência. Pode-se também desejar comparar métodos diagnósticos iguais , elaborados por dois especialistas diferentes. O coeficiente de Kappa é utilizado para verificar a concordância entre os diagnósticos de dois especialistas. O Quadro 3 mostra as possíveis combinações dos diagnósticos de dois especialistas.
D
Quadro 3 - Concordância entre o diagnóstico de dois especialistas.
iagnóstico Médico 2Diagnóstico Médico 1 (+) (-) Totais
(+) a b a +b (-) c d c+d Totais a+c b+d a+b+c+d
No Quadro 3.2, a proporção da concordância observada é calculada, fazendo-se
Denomina-se proporção da concordância casual ao quociente
ndap +
=0
2
)).(()).((n
dbdccabapc+++++
=
O coeficiente de Kappa resulta
c
c
ppp
Kappa−−
=1
0
A concordância total entre os diagnósticos dos especialistas resulta num valor de Kappa igual a 1 (um), enquanto a total discordância é igual a 0(zero). Exemplo: Em uma determinada experiência, foi avaliado o grau de lesão do tecido hepático em 20 cobaias às quais foi administrada uma certa substância tóxica. Os resultados dos exames efetuados por dois patologistas foram o seguinte:
Cobaia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Patologista1 + + + + + + - + + + + + + - - + - + + - Patologista2 + + - + + + - - + + - + + - - - - - + - Obs: + indica presença de lesão e -, ausência de lesão.
Com base nesses resultados, é possível construir o Quadro 4:
Quadro 4
Patologista 2Patologista 1 (+) (-)Totais
(+) 10 5 15(-) 0 5 5Totais 10 10 20
68
Então
75,0200 =
510 +=p
5,040020200
2 ==)55).(50()010).(510( +++++
=cp
5,05,025,0
5,015,075,0
==−
−=Kappa
Adotando a classificação:
Kappa < 0,4 concordância leve ≤4,0 Kappa < 0,8 concordância moderada ≤8,0 Kappa < 1 concordância forte Kappa = 1 concordância perfeita
clui-se que existe uma concordância apenas moderada entre os diagnósticos dos atologistas.
Con
p
69
EXERCÍCIOS
1. a) ) o segundo filho ser homem, dado que o primeiro é homem?
2. A probabilidad nado teste ar resu egativo em portadores
de anticorpos o vírus é 10% ondo que os negativos ocorrem independentem probabilidad m portador de anticorpos contra o vírus da AIDS, que se apresentou três vezes para o teste, ter tido, nas três vezes, resultado
. Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é de 40%, ser A é
ponha ainda que a probabilidade de Rh+ é de 90% e o fator Rh independe do tipo sangüíneo. Nestas condições, qual é a probabilidade de uma
a) b)
stectomia no SCG do HE-FMIt no período de 1987 a 1993 e
entre o número de tumores encontrados e o
abela – Pacientes submetidos à Colecistectomia – Serviço de Cirurgia Geral do HE-FMIt.
Um casal tem dois filhos. Qual a probabilidade de: o segundo filho ser homem?
b
e de determi para AIDS d ltado n contra . Sup falsente, qual é a e de u
negativo?
3de 30% e ser B é de 20%. Su
pessoa tomada ao acaso da população ser: O+? AB-?
4. Em um artigo apresentado na XIV Semana Médica da FMIt, Pinotti, A.L. relata 527
acasos operados de Colecios resultados em termos de detecção de Tumores da Vesícula. Dentre as análises realizadas, foi efetuado um cruzamentosexo, como está sintetizado na tabela abaixo.
T
Tumores da Vesícula Biliar Sexo TotalPresente Ausente
Masculino 5 274 279 Feminino 20 228 248 Total 25 502 527
Definindo os eventos: A={TVB presente} e B={sexo masculino}, estimar, com base nos dados apresentados:
) P( A ) a
b) P( A | B) c) )B|A(P d) P( B ) ) P( B | A) e
f) )A|B(P Qual o significado da relação entre os resultados dos itens (b) e (c)? g)
% de seus habitantes sofrem de algum tipo de saúde pública. Sendo alérgico, a
ara os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa dessa população teve reação ao ingerir o
tico, qual a probabilidade de:
) Ser do grupo não alérgico? b) Ser do grupo alérgico?
5. Acredita-se que numa certa população, 20
alergia e são classificados como alérgicos para fins deprobabilidade de ter reação a um certo antibiótico é de 0,5. P
antibió a
70
6. 2 anos do departamento estadual de estradas são aprese daEstatísticas dos últimos nta s
na tabela a seguir, contendo o número de acidentes com vítimas, fatais ou não, e as condições do principal motorista
Vítim
envolvido, sóbrio ou alcoolizado.
as Motoristas Não Fatais Fatais Sóbrio 1228 275 Alcoolizado 2393 762
Você diria que o fato do motorista está ou não alcoolizado interfere na ocorrência de
EXE 7. O D
afeta entre 3 a 10% das crianças em atividade escolar. Assumindo que esta ar.
ao acaso, as duas apresentem DHDA.
) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso,
menos uma apresente DHDA.
olução: ) Seja o evento A = “criança em idade escolar com DHDA”. Então,
(A) = 6,6% ou 0,066, e
====∩ esposta:
vítimas fatais?
CÍCIOS RESOLVIDOS R
istúrbio de Hiperatividade com Déficit de Atenção, DHDA, é uma desordem que
probabilidade seja 6,6%, estim ) A probabilidade de que, entre duas crianças em idade escolar escolhidasa
bnenhuma das duas apresentem DHDA.
c) A probabilidade de que, entre duas crianças em idade escolar escolhidas ao acaso, pelo
Sa P
%4356,0004356,0066,0)()2().1()21( 22 ouAPAPAPAAPR 0,004356 ou 0,4356%
) Denotando o evento “não-A” por A’, tem-se:
(A1’∩A2’) = (1 – 0,066)2 = (0,934)2 =0,872 ta:
b PRespos 0,872 ou 87,2%
. Ainda no tema da questão 7, imagine que em um dia de consultas, um neurologista tem na sua agenda 8 pacientes, dos quais 2 possuem DHDA. Calcular a probabilidade de:
túrbio. ) O segundo ter DHDA dado que o primeiro não tinha.
HDA dado que os dois primeiros tinham.
olução: o usada no problema 1, tem-se:
8
a) O primeiro paciente apresentar disbc) O terceiro não ter D
SMantendo a notaçã
71
a) %2525,082)1( ouAP == Resposta: 0,25 ou 25%.
%1,27271,072)'1\2( AAP =b) ou= Resposta: 0,271 ou 27,1%.
c) %100166)21'\3( ouAAAP ==∩ Resposta: 1 ou 100%.
9. Sabe
a) Qual a prevalência do DHDA no sexo feminino? E no sexo masculino? b) Com base na letra a do problema 1, calcular a probabilidade pedida sendo os dois
casos, um do sexo masculino e outro do sexo feminino. c) Construa uma tabela 2x2, cruzando a presença ou ausência de DHDA e o sexo, para
um total hipotético de 1.000 crianças, usando todos os dados apresentados nos itens anteriores.
o . Graficamente, é possível colocar o problema da seguinte forma (Fig. 3.3):
Onde:
’m xo masculino; ’f
a
P(Am)+P(Af) = P(A) Sabe-se ainda que
P(Am) = P(A).P(m)
ndo que o DHDA ocorre cerca de dez vezes mais em crianças do sexo masculino, e lembrando os dados do exercício 7,
Soluçã1
Am = DHDA no sexo masculino; Af = DHDA no sexo feminino;
= não-DHDA no seAA = não-DHDA no sexo feminino.
D Fig. 3.3, vê-se que:
72
P(Af) = P(A).P(f)
e forma que
Ainda, pelos dados do problema, tem-se que P(Am) = 10.P(Af). Então, considerando as proporções iguais de crianças do sexo masculino e do
sexo feminino, é possível escrever:
D
P(A) = P(A).P(m) + P(A).P(f)
%6,62
)()(
,6,6)(1)(21
=+ ouAfPAmP2
=+ AfPAmP
Então
%2,1%6,6.2)(%6,6)()(.10==∴=
+ AfPAfPAfP 112
ta:
A probabilidade para o sexo masculino será:
P(Am) = 10.P(Af) = 10.1,2% = 12% Respos A probabilidade de uma criança do sexo feminino apresentar DHDA é de 1,2%.
ara o sexo masculino, esta probabilidade é de 12%.
Tabela 3.5
DHDA
P
c) A tabela conjunta de freqüências resulta em (Tabela 3.5):
Sexo Presente Ausente Totais
Masculino 60 440 500Feminino 6 494 500Totais 66 934 1.000
dos casos de pessoas com o vírus e em 5% dos casos em pessoas sadias. Considerando essas informações:
a) Qual seria a probabilidade de ocorrer um falso-positivo? b) E de ocorrer um falso-negativo?
10. Para detectar a presença do vírus Z no organismo é efetuado o teste X. Sabe-se que o vírus Z está presente em 0,1% da população, enquanto o teste X acusa + em 99%
73
Solução ) Adotando a notação:
V = vírus; V’ = não-vírus; R+ = exame positivo; R- = exame negativo.
elos dados do problema, têm-se P(V) = 0,001, P(R+|V) = 0,99 e P(R+|V’) = 0,05. falso-positivo, de acordo com a notação que foi convencionada, pode ser escrito como (V’|R+). Então, pelo Teorema de Bayes:
cálculo da probabilidade de um exame positivo pode ser feito empregando-se o teorema a multiplicação de probabilidades. Assim
a
POP
Od
)'|().'()|().()( VRPVPVRPVPRP +++=+ 05094,005,0.999,099,0.001,0)( =+=+RP
Finalmente,
%05,989805,005094,0
05,0.999,0)|'( ouVP ==+
R
)()'|().'()|'(
++
=+RP
VRPVPRVP
esposta: Falso-positivo = 98,05%. A chance de um falso-positivo é surpreendentemente rande! g
Explicação: Se o teste fosse perfeito, detectaria um em cada mil casos, que é a incidência verdadeira do vírus. Entretanto, o teste acusa cinco em cada cem pessoas testadas. Portanto, dos indivíduos que o teste declara positivos, a maioria efetivamente não tem o vírus. b) O falso-negativo, de acordo com a notação que foi convencionada, é dado por P(V|R-). Dos dados do problema, é possível inferir P(R-|V) = 0,01; P(R-|V’) = 0,95. Pelo Teorema de Bayes:
)()|().()|(
−−
=−RP
VRPVPRVP
Então )'|().'()|().()( VRPVPVRPVPRP −+−=−
94906,095,0.999,001,0.001,0)( =+=−RP
%00105,00000105,094906,0
01,0.001,0)|'( ouVP ==+
Resposta: Falso-negativo = 0,001%, aproximadamente. A chance de um indivíduo efetivamente ter o vírus e o teste falhar é mínima. O teste, clinicamente é muito bom.
74
IV. DISTRIBUIÇÃO DE PROBABILIDADE
75
1. CONCEITO
Seja a variável aleatória (v.a.) X, que pode assumir os valores correspondentes ao conjunto
X = {x1, x2,..., xn}. A relação
( )ii xfx →
define uma correspondência entre todos os valores que a variável aleatória pode assumir, xi e suas respectivas probabilidades de ocorrência f unção de probabilidade da variável
período de tempo, são:
nde: X = 0
f(0) = 0,3164 f(1) = 0,4219 f(2) = 0,2109
é possível construir a função mostrada no quadro 1,
Quadro 1 X 0 1 2 3 4 Soma
(xi). Esta relação é a aleatória X.
f
Exemplo: Suponha que o número máximo de leitos que uma unidade de terapia intensiva comporte seja 4. Definido a variável aleatória X como “número de óbitos (na UTI)”, os valores que a v.a. pode assumir, num certo
X = {0, 1, 2, 3, 4}
osignifica nenhum óbito (quatros pacientes vivos); X = 1 (um) óbito (três pacientes
vivos) e assim por diante.
Supondo que as probabilidades associadas a cada um destes possíveis resultados sejam1
f(3) = 0,0461 f(4) = 0,0039
f(x) 0,3164 0,4219 0,2109 0,0461 0,0039 1
que é a função de probabilidade do número de óbitos, tomando quatro leitos (n = 4). Note que a soma
( ) 11
=∑k
=
para a v.a. X. Veja a Fig. 1.
iixf
é o resultado esperado, uma vez que estão sendo consideradas todas as possibilidades de ocorrência
76
0
0,050,1
0,4
0,45
0,20,25
0,3
0,35
0,15
0 1 2 3 4
densidade
. 1 - Distribuição de probabilidades.
N e resenta a função de probabilidade é igual a 1 m correspondência entre a área sob a função e a probabilidade de ocorrência da v.a. X.
Fig
ot que a soma das áreas sob a curva que rep ou 100%. Fica assi estabelecida uma
2. CONSTRUÇÃO DA FUNÇÃO DE PROBABILIDADE DADA A PROBABILIDADE DE UMA OCORRÊNCIA
Suponha que a probabilidade do óbito de um paciente, ao dar entrada na terapia
intensiva de 25% (risco de vida). Definindo a v.a. X como no exemplo anterior (número de óbitos), se um paciente
de entrada no CTI (n = 1), tem-se ( ){ } ( )⎩
⎨ ==
25,011,0
fX
⎧ = 75,00f
Se dois pacientes ingressarem no CTI (n = 2),
( ) ( ) ( )
{ } ( ) ( ) ( )⎪
⎪⎪⎨ ⇒
⎧ ==→= 3750,0
251875,025,0.75,0.
12,1,0 21 opvpfX ( ) ( )
( ) ( ) ( )⎪
⎧
⎩⎨ ==
==→
1875,075,0.,0.
5625,075,0.75,0.0
21
21
vpop
vpvpf
o índice indica o paciente (1 ou 2), p(o) e p(v) são as probabilidades de óbito e de sobrevida.
Evidentemente, a construção de f(x) para um número maior de casos é uma tarefa
repetitiva e trabalhosa. Uma forma sistemática de se calcular a probabilidade de um determinado número de ocorrências em n casos pode ser feita a partir da distribuição binomial.
⎩ ==→ 0625,025,0.25,0.2 21 opopf
77
3. DISTRIBUIÇÃO BINOMIAL
Seja uma variável aleatória definida em termos binários.Então a v.a.X tem duas possibilidades de ocorrência. Denominando a probabilidade de ocorrência de X de p
ão ocorrer X de q, tem-se p + q = 1.
a de k ocorrências da v.a.X em n casos é dada por:
nkXP −⎟
⎞⎜⎛
== )(
e a de n
A probabilid de
knk qpk ⎟
⎠⎜⎝
lembrando que e 0! = 1
Os parâmetros ad distribuição de probabilidade gerada por esta função são
• Média = valor esperado =E [X] = µ = n.p • Variância = σ2 n.p.q = n.p.(1- p)
• Desvio padrão = σ = O e binomial depende de p e de n
exclusivamen Exemplo: Suponha que a probabilidade de um indivíduo do sexo masculino, com mais de
ofra doenças cardiovasculares no período determinado pode ser calculada da seguinte forma:
= indivíduo, masculino, +60, sedentário, fumante, DCV n = 10 p = 0,4
sulta
bs rve que o formato da distribuição te.
60 anos, vida sedentária e fumante ativo de desenvolver uma doença cardiovascular nos próximos 8 anos seja de 40%. A partir de um estudo controle com dez indivíduos com essas características, a probabilidade de que nenhum destes indivíduos s
X
Então a probabilidade de nenhuma DCV re
O número esperado de casos de DVC no estudo final é igual a µ = 10.0,4 = 4 casos,
com um desvio padrão de σ = .
A probabilidade de se ter menos de três indivíduos com DVC seria calculada:
78
A probabilidade de mais de dois indivíduos afetados por DVC no período seria, analogamente,
Contudo, como é possível escrever
ntão,
E
4. DISTRIBUIÇÃO POISSON
A função de probabilidade de Poisson é dada por
lembrando e = 2,71828...
Substituindo por µ vem
Esta última expressão dá uma aproximação da distribuição binomial, tanto mais
precisa quanto menor o valor de p .Desta forma, sua aplicação em Medicina está relacionada a patologias raras (valor de p baixo).
Os parâmetros da função de probabilidade de Poisson são os seguintes
• Média = valor esperado =E [X] = µ = λ • ariância = σ2 λ • Desvio padrão = σ =
Exemplo: Suponha que uma a cada mil pessoas que utilizam determinado anestésico sofra ma reação negativa (choque). Num total de 500 cirurgias em que se empregou esse
anestésico, a probabilidade de que 1 pessoa sofra a reação pode ser calculada
µ =
u
λ= n.p = 500.0,001 = 0,5
0,3033 = 30,33%
A probabilidade de nenhuma reação seria
0,6065 = 60,65%
A probabilidade de mais de uma reação:
5. DISTRIBUIÇÃO NORMAL OU DE GAUSS 5.1. CONCEITO
79
A distribuição Normal ou de Gauss é dada pela função
curva normal deve ser igual a 1 ou 100%, ou seja Como a distribuição de Gauss é uma distribuição de probabilidade, a área sob a
5.2. CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL
•
Assintótica em relação ao eixo das abscissas. Simétrica em torno ao seu valor central (média = mediana = moda). Valores concentrados em torno da tendência central. As áreas (probabilidades) para
um, dois e três desvios padrões em torno da média são, respectivamente:
•
•
Para caracterizar a distribu média e o desvio padrão. Por esta
razão, quando se quer informar que uma variável se distribui normalmente, ição normal basta a
costuma-se escrever: N[µ,σ]. 5.3. VARIÁVEL ALEATÓRIA PADRONIZADA
Para calcular probabilidades associadas à distribuição normal, costuma-se converter a variável original do problema, X, em unidades reduzidas ou padronizadas, z. Esta transformação é efetuada por meio da relação:
variável aleatória padronizada, VAP
, tem média e desvio padrão a 0 e 1, respectivamente. Desta forma N[0,1] indica a VAP da distribuição normal. As áreas sob a distribuição normal, em função da VAP, encontram-se na Tabela da Normal Padrão (tabela1/ver Apêndice), com
A
o mostra a Fig. 4.2.
80
Fig. 2 - Área sob a curva normal de acordo com a tabela da normal padrão (Tabela 1).
Pela figura pode-se notar que a tabela fornece a área sob a curva normal para
valores menores ou iguais a z (área sombreada). Para encontrar áreas è direita de determinada valor da VAP, ou entre dois valores de Z, devem ser efetuadas composições de áreas, como é mostrado no exemplo a seguir.
Exemplo: Suponha que o comprimento de recém-nascidos do sexo feminino não-portadores de anormalidade congênitas seja uma variável aleatória com distribuição aproximadamente normal de média 48,54cm e desvio padrão 2,5cm.
A probabilidade estimada de um recém-nascido, escolhido ao acaso de ter
comprimento superior à média, 48,54cm, é de 50%, uma vez que a distribuição normal é simétrica e a média corresponde ao eixo de simetria da curva. A VAP, neste resulta igual a zero:
= 0
Na Tabela 1, para z = 0, a área sob a curva é igual a 0,5 ou 50%. A probabilidade do comprimento ser inferior a 44,79cm pode ser encontrada da
seguinte forma
Na Tabela 1, para z = -1,5, a área sob a curva é igual a 0,0668. Portanto,
A probabilidade de o comprimento ser superior a 47,29cm, por exemplo, pode ser encontrada
%68,6)79,44( =≤XP .
5,05,2
54,4829,47−=
−=z
81
Na mesma tabela, para , a área sob a curva é igual a 0,3085. Este valor -0,5z =corresponde à área à esquerda de -0,5z = , o que representa valores menores do que
7,29cm. Como se deseja a probabilidade de uma criança com comprimento maior que 47,29c
5
4m, a área desejada está à direita de z = -0,5. Como a área total sob a curva é igual a 1
ou 100%, basta fazer
( ) 308,0129,47 −=≥XP %.15,696915,0 ==
ara calcular a probabilidade entre 46,04 e 51,04cm, deve-se fazer
P
15,2
−==z 54,4804,46 − 15,2
+=54,4804,51 −
=z
Para z = -1, a área sob a curva é igual a 0,1587. Para z = +1, a área resulta 0,8643.
Então: ( ) %.56,707056,01587,08643,004,5104,46 ==−=≤≤ XP
Um outro cálculo que pode ser efetuado a partir da normal é determinar o limite
ferio e
ncontrar o valor 0,9500 (95%). Este valor corresponde a um valor correspondente a um valor de z igual a +1,65 (aproximadamente). Então:
in r d , por exemplo, as 5% das crianças de maior comprimento. Este valor corresponde, no caso, ao percentil 95. Este cálculo é útil na construção de curvas de crescimento ou pôndero-estaturais (peso, estatura, perímetro cefálico etc.).
No caso, deve-se procurar no interior da tabela 1 até e
cmxx 67,5254,485,2.65,154,4865,1 =+=∴5,2
−=+
Este limite que apenas 5% das crianças nascem com comprimento superior a
52,67cm.
6. DISTRIBUIÇÃO t-STUDENT
O uso da distribuição de t-Student, ou simplesmente distribuição t, está associado estudos com pequenas amostras. Considera-se uma pequena amostra, uma amostra com n 30. Em medicina, este tipo de situação é bastante freqüente, pelas limitações muitas ezes encontradas na obtenção de dados clínicos. Quando a amostra é grande, a istribuição de t-Student se aproxima da distribuição Normal. Na prática, para n > 100, as istribuições são quase iguais. De modo geral, a distribuição de Student depende de
função de probabilidade = f(t, v)
nde t é o valor de abscissa (assim como z na distribuição normal) e v é o que se denomina e graus de liberdade.
Quanto maior o valor de v, mais achatada se torna a curva de t-Student. Para valores de v próximos a cem, a curva de t-Student é quase igual à curva de Gauss.
a<vdd
od
82
7. DISTRIBUIÇÃO DE FISHER
A distribuição de Fisher, ou distribuição F, está geralmente associada a estudos elacionados à variância de dados. Como será visto mais adiante, ao se desejar provar uma ipótese referente à comparação de conjuntos numéricos, a determinação de relação entre s variâncias desses conjuntos é fundamental.
De modo geral, a distribuição de Fisher, ou distribuição F, depende de
função de probabilidade F = f(u, v1,v2)
nde u é o valor de abscissa da distribuição de Fisher , v1 e v2 são os graus de liberdade da istribuição.
Assim como ocorre com a distribuição de t-Student, a distribuição de Fisher às plicações diretas, como no caso da distribuição Normal, não são interessantes. Suas plicações estão relacionadas com testes estatísticos.
rha
od
aa
8. DISTRIBUIÇÃO QUI-QUADRADO
A distribuição de Qui-quadrado, ou χ2, corresponde à distribuição de robabilidade da soma dos quadrados de n variáveis aleatórias independentes, distribuídas ormalmente e padronizadas(média 0 e desvio padrão 1).Ou seja,
22
χ2 = f(x,v)
onde x é o valor de abscissa e v os graus de liberdade.
Assim como as distribuições t e F, a distribuição e Qui-quadrado tem aplicações nas
realizações de teste de hipóteses, que serão desenvolvidos posteriormente. Os valores da distribuição de χ2 estão no final da apostila.
pn
2221 ... nxxx +=χ
A distribuição de Qui-quadrado é função de função de probabilidade
83
V. ESTATÍSTICA INFERENCIAL
84
1. NOÇÕES ELEMENTARES DE AMOSTRAGEM Dizemos que em determinadas ocasiões, há de se proceder a coleta de dados diretamente da origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo. Entretanto, quando é impossível se observar toda a população em que desejamos studar o fenômeno, recorremos às técnicas de amostragem, em que nos limitamos a uma
população, que irá fornecer formações que serão generalizadas para a população. Para que esta generalização seja
ossível, os integrantes da amostra devem ser escolhidos adequadamente. e elementos para os quais devem ser
bservadas e/ou mensuradas as variáveis de interesse dentro da questão ou problema
eamostra do Universo.
Damos início a determinação de uma fração dainp Existe a necessidade de definirmos o conjunto doestabelecido. Vamos, então, definir alguns termos necessários. Conceitos Básicos: População Objeto: É a população total de interesse sobre a qual desejamos obter
formações. Por exemplo, as peças produzidas por uma fábrica.
opulação de Estudo: É o conjunto de indivíduos de interesse específico. Ex: as peças que
opulacional: Este é o aspecto da população que interessa ser medido. Ex: diâmetro das peças.
Unidade Amostral: Deve ser definida de acordo com o interesse do estudo, podendo ser uma peça, um indivíduo, uma família, uma fazenda, etc. A escolha deve ser feita no início
Vantagens e Desvantagens da Amostragem em Relação ao Censo
in Ppermanecem no estoque. Característica PO
da investigação. Estrutura Amostral: É a fonte do nosso estudo, ou seja, é o conjunto de unidades amostrais. Ex: O conjunto das peças selecionadas.
Vantagens:
b)
os amostragem, consideramos pecializado, concorrendo para que
a) Economia: É evidente que ao utilizarmos apenas uma fração de uma população,
estaremos economizando dinheiro, material, pessoal, etc. Rapidez: Quando desejamos urgência nas informações a economia de tempo será indiscutível.
c) Maior amplitude do Universo: Com o mesmo custo do CENSO, temos condições de pesquisar uma área muito maior.
d) aior exatidão: Num planejamento em que utilizamque o pessoal a ser utilizado é mais treinado e esM
os resultados encontrados sejam mais detalhados, o que não ocorre com o CENSO. Desvantagens:
Em uma população com número menor que 100 (cem) elementos, a utilização de
amostragem não será vantajosa. Neste caso procederemos ao Censo. A principal desvantagem seria a de que não proporciona informação sobre todos os
lementos da população. e
85
Tipos de Amostragem: Amostragem Probabilística: É o procedimento através do qual existe uma probabilidade conhecida e diferente de zero para cada elemento da população vir a ser selecionado para constituir a amostra. Também é dita amostragem aleatória. Amostragem Não Probabilística (ou Não Aleatória): Quando, no processo de seleção, não existe nenhum mecanismo de probabilidade associado. Procedimentos Amostrais Probabilísticos Simples Segundo a definição de amostragem probabilística, existe a suposição de sorteio
uja realização só será possível se a população for finita e talmente acessível. Essa amostragem probabilística é a melhor garantia da
represe
osição: É um procedimento de amostragem tal que cada elemento
Dada uma população finita com Ν elementos consideremos a seleção de n < Ν
ssíveis, nestas circunstâncias é:
com regras bem determinadas, cto
ntatividade da amostra, pois o acaso será o único responsável por eventuais discrepâncias entre a população e a amostra.
População Finita: É um conjunto de Ν elementos, onde Ν é um número natural inteiro. Amostragem Sem Repselecionado não retorna à população até que o tamanho pré-definido para a amostra tenha se completado. Os principais tipos de amostragens probabilísticas são:
I - Amostragem Casual Simples (A.C.S) ou Amostragem Aleatória Simples (A.A.S). elementos para constituir uma amostra, sem reposição. Pode-se demonstrar que o número total de amostras po
CNn N
nN
n N n=
⎛⎝⎜
⎞⎠⎟ =
−!
!( )! ,
efinição 1.1: Um procedimento de amostragem é dito CASUAL SIMPLES, SEM DREPOSIÇÃO, se cada uma das possíveis amostras têm a mesma probabilidade de seleção.
ma, é possível demonstrar que, cada elemento A partir da definição aci , na
de de ser selecionada na amostra. Por isso, tal fato tem do utilizado para caracterizar uma amostragem casual simples.
ocedimento Prático para Selecionar uma A.C.S.
população, tem a mesma probabilidasi
Pr
Para poder distribuir, a cada elemento na população, a mesma probabilidade de ser ssário, inicialmente, estabelecer a identificação de cada
elemento através de um rótulo. Isto constitui a operação de listagem da população de estudo.
selecionado, sem reposição, é nece
Em geral, a listagem é estabelecida identificando, cada elemento na população, por um número. Por exemplo, se a população tem tamanho Ν = 350 então, os elementos são identificados pelos números: 001; 002; 003; . . . . .; 348; 349; 350.
86
S ou pela geração de números aleatórios em algum program
os men
uma população de N = 500 elementos ordenados, retirar uma amostra
Uma vez listada a população poder-se-ia utilizar procedimentos mecânicos para selecionar a amostra, digamos, de tamanho n = 10. Poderíamos utilizar, por exemplo, uma roleta (não viciada) com números de 001 a 350 e girá-la 10 vezes anotando os números de parada da roleta (e excluindo as possíveis repetições). Os elementos populacionais rotulados com tais números seriam os componentes da amostra. Alternativamente, poderíamos colocar 350 bolas numeradas de 001 a 350, em uma urna e selecionar 10 bolas numeradas. Outros procedimentos mecânicos poderiam ser imaginados.
No entanto, tais procedimentos são, operacionalmente complexos principalmente para grandes populações. A questão é resolvida, de modo mais simples, através do uso da TABELA DE DÍGITOS ALEATÓRIO
a computacional. A tabela é constituída de tal forma que cada um dos dígitos de 0 a 9 tem a mesma probabilidade de aparecer, em uma dada posição, que qualquer outro, na referida tabela. II - Amostragem Sistemática.
É realizada quando os elementos da população estão ordenados e a retirada dos elementos da amostra é feita periodicamente, ou sistematicamente.
Suponhamos que se deseja selecionar uma amostra de tamanho n de uma população finita de tamanho Ν. Suponhamos que o quociente (Ν / n) = κ seja um número inteiro. Uma amostra sistemática, de intervalo κ, consiste em selecionar 1 a cada κ elementos da população de interesse. O caráter aleatório ou casual é dado pela seleção do INÍCIO CASUAL. Este é determinado selecionando-se, aleatoriamente, um número entre 1 e κ. Este número corresponde ao primeiro elemento selecionado para compor a amostra. Os demais são obtidos adicionando-se κ ao início casual. Por exemplo: κ = 5. Início casual 3. Então,ele tos selecionados serão os elementos numerados pelos números 3, 8, 13, 18, ... A amostragem sistemática é extremamente simples para ser operacionada em trabalho de campo, razão pela qual, em muitas circunstâncias é utilizada em substituição da amostragem aleatória simples. EXEMPLO: De sistemática de 100.
5100500
=⎥⎦⎤
⎢⎣⎡=k
Seja 1 ≤ k ≤ 5. Suponhamos que k = 3. Logo temos:
º elem1 ento da amostra: 3º 2º elemento da amostra: 3 + 5 = 8º 3º elemento da amostra: 8 + 5 = 13º . . .
0º ele10 mento da amostra: 493 + 5 = 498º III - Amostragem Estratificada.
A estratificação de uma população correspondente a uma subdivisão da mesma, em
subpopulações, de tal forma que haja a maior homogeneidade possível dentro e a maior heterogeneidade possível entre tais subpopulações. Cada uma destas subpopulações constitui um estrato.
87
Um exemplo prático disso ocorre ao supor que um tipo de opinião pública de uma idade pudesse depender da renda do opinante, isto é, ser influenciado pelo bairro de
amostra leatória simples ou uma amostra sistemática, dentro de cada bairro. Dizemos, neste caso,
O foi ESTRA
tomando-as como variáveis de estratificação. IV - Amostragem por Conglomerados
Uma amostragem por conglomerado é uma amostra aleatória simples na qual cada s. Este esquema amostral é
ação em grupos que sejam bastante ortes discrepâncias dentro dos grupos, de modo que cada
co. A esses
O primeiro passo para se usar este processo é especificar conglomerados apropriados. Os elementos entre os conglomerados devem ter características similares.
relação a Tconglomentretant e cada grupo (estrato),
ecionam-se amostras aleatórias simples dos conglomerados selecionados farão
parte da amostra. Para o exemplo da amostragem nos bairros da cidade, teríamos os bairros como ESTRATOS e as CASAS como CONGLOMERADOS. Uma vez feita a escolha do Bairro, selecio
strução, etc. A amostragem por conglomerado é recomendada quando: a) Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; b) O custo da obtenção de informações cresce com o aumento da distância entre os elementos. Observ
abilidade. Por outro lado, antes de iniciar qualquer análise dos dados através dos métodos estatísticos da estatística indutiva, é preciso organizá-los, o que é feito com as técnicas da estatística descritiva. Um outro problema que surge paralelamente é o da escolha da amostra, pois nossas conclusões, referentes à população, vão basear-se nos resultados dessa amostra. Certos cuidados devem ser tomados no processo de obtenção dessa amostra, ou seja, no processo de “amostragem”, pois muitas vezes erros grosseiros e conclusões falsas ocorrem devido à falhas nesse processo.
cresidência do opinante. Uma amostra casual simples, entre a grande quantidade de amostras possíveis, poderia favorecer o aparecimento de todos os opinantes de um bairro só e nenhum dos demais, produzindo um viés nos resultados. Para evitar tal fato e garantir a presença de elementos de todos os bairros ligados à área de influência em questão, podemos subdividir a população por bairro de residência e, então, selecionar uma aque o bairro é a VARIÁVEL DE ESTRATIFICAÇÃO, ou que a POPULAÇÃ
TIFICADA POR BAIRROS. Sempre que em uma investigação existe uma ou mais variáveis que podem interferir
nos resultados da variável sob análise é conveniente controlar o efeito de tais variáveis
unidade amostral é um grupo, ou conglomerado, de elementoutilizado quando há uma subdivisão da populsemelhantes entre si, mas com fum possa ser uma pequena representação da população de interesse específigrupos dar-se o nome de CONGLOMERADOS.
Como regra geral, o número de elementos em um conglomerado deve ser pequeno em o tamanho da população, e o número de conglomerados razoavelmente grande. anto no caso da amostragem estratificada, como no da amostragem por erado, a população deve está dividida em grupos. Na amostragem estratificada, o, seleciona-se uma amostra aleatória simples dentro d
enquanto que na amostragem por conglomerado selde grupos (conglomerados), e todos os itens dentro
na-se ao acaso as casas que farão parte da amostra. Uma vez escolhida a casa, todos os seus moradores devem fazer parte da amostra. Desta forma, existe uma homogeneidade entre as casas do mesmo bairro, devido às condições sócio-econômicas que levaram seus moradores para lá, e uma heterogeneidade entre os moradores da casa em termos de idade, sexo, renda, nível de in
ação: A inferência estatística é embasada em conceitos e resultados da Teoria da Prob
88
Cálculo do Tamanho da Amostra
ara se fazer inferência faz-se necessário saber o número mínimo de elementos s amostrais) que devem ser selecionados na população para dar seguimento ao essa forma, pode-se utilizar fórmulas desenvolvidas para o cálculo do tamanho da e acordo com o tipo de estudo ou
P(unidadeestudo. Damostra d parâmetros a serem estimados. A seguir temos
ois exemplos para cálculo do tamanho de uma amostra se estimar uma proporção.
anho da amostra, para variáveis dicotômicas, segue os mesmos princíp
d I. Cálculo do tamanho da amostra para avaliar a sensibilidade e especificidade
O cálculo do tamios estabelecidos em estudos descritivos, sendo necessária as seguintes informações:
2
2
0)1(
dppzn −
=
onde:
p = proporção esperada da variável de interesse na população
rgem de erro ou precisão
te positivo iloto). Quantos indivíduos com malária deverão ser
ar um intervalo de 95% de confiança para a sensibilidade do teste com uma margem de erro de 0,04?
SOLUÇÃO: p = 0,8, d = 0,04 e z = 1,96 (IC 95%)
d = ma
z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)
EX 1.1: Em um estudo para determinar a sensibilidade de um novo teste diagnóstico para malária, espera-se que 80% dos pacientes com malária tenham tes(resultado de um estudo pincluídos no estudo para se estim
38504,0
)8,01(8,096,1)1(2
2
2
2
0 =−××
=−
=d
ppzn
Se mais de 10% da população é amostrada é necessário fazer uma correção. Esta consiste em multiplicar a variância por (1-f)½ onde f = n/N (1-f Correção para a o finita). A correção para a população finita também pode ser aplicado a n, assim passa a ser:
correção populaçãa fórmula
⎟⎞
⎜⎛ +
=n
n01
⎠⎝ N
n0
Se no exemplo 1, tivéssemos a informação que o número de pessoas na população onde será aplicado o teste é de 1.000 pessoas. O tamanho de amostra agora passaria a ser de:
278
000.13851
385
1 0
0 ==n
n =⎟⎠⎞
⎜⎝⎛ +⎟
⎠⎞
⎜⎝⎛ +
Nn
89
EX 1.2: Para encontrar o tamanho da amostra capaz de determinar a especificidade do teste utiliza-se a mesma metodologia. Por exemplo, se o investigador espera que
alária tenham teste negativo, para a determinação de uma especificidade de 90% com margem de erro de 0,04 e um intervalo de
valência obtida depende do tamanho de amostra. Assim, a plitu
90% dos indivíduos sem m
confiança de 95%, temos que aproximadamente 216 indivíduos sem malária deveriam ser incluídos no estudo.
II. Cálculo do tamanho da amostra para detectar uma prevalência
Enquanto a amostragem probabilística viabiliza a validade interna do estudo, a precisão na estimativa da pream de do intervalo de confiança (estimativa por intervalo da prevalência populacional) reflete o grau de precisão decorrente do tamanho da amostra fixado. O cálculo do tamanho da amostra é dado por:
2
2
0)1(
dppzn −
=
onde:
p = prevalência esperada da variável de interesse na população
d = margem de erro ou precisão
z = nível de confiança (1,96 para um nível de confiança de 95% ou IC de 95%)
E a correção para população finita é
⎟⎠⎞
⎜⎝⎛ +
=
Nn
nn
0
0
1
EX 1.3: Para se estimar a soropositividade ao vírus da dengue em uma população de aproximadamente 1.000.000 habitantes tendo como parâmetro uma prevalência esperada de 15% (p=0,15), com amplitude do IC de 95% de 12% (d=0,06), o número de pessoas a serem investigadas seria:
SOLUÇÃO: p = 0,15, d = 0,06 e z = 1,96 (IC 95%)
13606,0
)15,01(15,096,1)1(2
2
2
2
0 =−××
=−
=d
ppzn
Na maioria dos estudos, será necessário aumentar cerca de 10% o tamanho da amostra, para levar em consideração os não respondedores, isto é, indivíduos não selecionados que se recusaram a participar.
90
2. DISTRIBUIÇÃO AMOSTRAL Como já sabemos, o problema de Inferência Estatística é fazer uma afirmação sobre os parâmetro da população através da a ostra. Digamos que nossa afirmação deva ser feita sobre um parâmetro θ da população (édia, variância ou qualquer outra medida). Decidimos que será usada a amostragem aleatória simples (a.a.s.), de n elementos sorteados dessa população. Também decidimos que nossa decisão será baseada na estatística T, que será um
s m
elhor compreendida se soubéssemos o que acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado. Isto é, qual a distribuição de T quando
assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da estatística T e desempenha papel fundamental na teoria de Inferência Estatística. Esquematicamente, teríamos o procedimento representado na figura abaixo, onde temos: i. Um um certo parâmetro θ de interesse. ii. Todas as amostras retiradas da população, de acordo com um certo procedimento. iii. Para cada amostra, calculamos o valor t da estatística T. iv. Os valores de t formam uma nova população, cuja distribuição recebe o nome de
distribuição amostral de T.
a função da amostra ( , , ... , )X X X n1 2 . Colhida uma amostra, teremos observado um particular valor de T, digamos to, e baseado nesse valor é que faremos a afirmação sobre θ, o parâmetro populacional. validade de nossa afirmação seria mA
( , , ... , )X X X n1 2
a população X, com
91
92
2.1. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Vamos estudar agora a distribuição a l da estatística X mostra , a média amostral. C siderem m u id ca áv p tr dia po ulacion
on os u a pop lação entifi da pela vari el X, cujos arâme os mép al µ e v cia la o am c d m irar
to s as po s a as is les de tam dessa população, e para cada uma ca ular a
ariân popu cional 2σ , sã supost ente onheci os. Va os retda ssívei mostr casua simp anho nlc média X . Em a tr a bu am l e uas
pr priedadSej a la o a 20 cé ci P st am
m surado pe o r. is ão p do ém id gue se undo ap ad gr b
Par ã s p d e 2 3 am ss mos
ret ar toda os a s a 5, , 0 o o om a distribuição amo a .
=5
édiaP
1
3177 3161 3617 2510 2847 2891 2207 3764 2979 2948 3140 2837 2967 3048 2861 2889 2559 2882 3319 2903 3617 3141 2798 3265 3130 3161 3433 3473 2848 2823 2847 2773 3351 2755 3143 3177 2682 3022 3806 3145 2798 3048 3422 2640 2759 2798 3108 2953 2965 2819 2594 2722 2896 3130 3433 2961 3152 3143 3121 3095 2631 2877 3585 2722 2807 3088 2649 2525 2883 3079 3122 3174 3143 2783 2370 3594 3183 2963 2961 2906 2979 3165 3046 2965 2903 3319 3124 3070 2699 3522 Média 2949 2937 3179 2904 2944 3051 2946 3098 3080 3100 DP 325,8 239,5 294,6 258,6 293,2 278,2 397,1 335,9 312,9 312,1
seguid , cons uamos distri ição ostra e estud mos so es.
a um popu ção c mpost por 0 re m-nas dos. ara e es foren s os sos a nasce A d tribuiç dos esos s rec -nasc os seg resent o no áfico a aixo.
a esta populaç o temo que o eso mé io é d 982 ± 11 gr as. A im vair s as p síveis mostra de tam nhos 10, 15 20 e 4 e ver que ac ntece c
stral d média
N 3183 2666 3131 3174 2933 2667 2857 2936 2856 3392 3012 3143 2547 2902 2861 2903 3124 2889 3017 2631 2953 2312 3046 2996 2510 3103 2783 3585 3024 2394 3255 2896 2937 3079 3123 2312 2547 2547 2969 3161 3422 2558 3125 3454 2995 3014 2699 2837 3123 3351 M 3.165 2.715 2.957 3.121 2.884 2.800 2.802 2.959 2.998 2.986 D 189,0 318,4 242,3 211,6 230,4 317,8 213,7 381,4 97,0 448,7
N= 0 2589 2471 2963 3222 3189 2631 3360 3189 3222 3764
0
90
80
70
60
20
10
30
40
= 2 50 550 50 315 345
Pe
N
50
< 250 22 - 2550 2 - 2850 28 - 3150
so (kg)
0 - 3450 0 - 3750 >3750
N=15 2948 3108 3319 2948 3419 2737 2837 2234 3041 3039
édia
2
édia
3161 3210 3174 3473 3222 2883 2666 3594 2967 2649 3145 2953 3130 2889 3255 2234 3351 3176 2821 3108 3270 3376 2967 2471 3145 2370 2767 2414 3226 2909 2495 3041 3056 2661 3376 2821 2635 3177 3058 3210 2965 2891 3567 2821 3639 2763 3394 3178 3319 3329 3143 2847 3641 3012 3174 3222 2838 3210 3567 3246 2617 3048 3360 2967 2759 3152 3255 3108 3123 2823 3394 2889 3546 3293 2776 3268 2873 2877 3346 3046 2631 2423 3806 3070 3072 2819 3012 2682 2423 3376 3346 2883 2414 3329 2661 2953 2805 3165 3433 2861 3070 2666 3041 3015 2595 3210 3070 2635 2672 3764 3121 3319 2902 2883 3024 2995 2902 2631 3183 2819 3546 2776 3103 3106 2856 2525 2394 2823 3230 3301 2903 3130 3376 3246 2856 3394 3641 3015 2979 2312 M 3.050 2.971 3.227 3.012 3.055 2.890 2.963 2.928 3.093 3.053 DP 298,3 248,6 348,3 260,4 302,3 335,6 329,6 358,5 296,9 347,5
N= 0 2903 3246 3058 2279 3061 3131 3346 3276 3473 3123 2547 3088 3298 2414 2722 3210 3255 2635 3106 2995 2984 2547 2776 2965 2414 2763 3174 2810 2595 2965 2778 2783 2903 3319 2312 3058 3594 2996 2889 2948 3481 2933 2961 3070 3130 3048 3268 2873 3123 2837 3222 3152 3068 3456 3070 3233 3293 2539 2882 3065 3070 2661 3072 2837 2234 3456 2857 2961 3639 3124 2847 3061 3226 3265 3140 2672 3030 2778 3124 3070 2798 2423 2805 3230 3639 3319 3061 2891 2967 3268 3088 3451 3473 2967 2924 2902 2558 2902 3222 3050 3585 2891 3177 3124 2423 2764 3319 2661 3376 2823 3329 3022 3143 2975 3419 2857 3276 2889 2778 2672 2877 3046 3222 3012 2975 3014 2952 2882 2807 2889 2882 3546 2975 3108 3125 3124 2894 2821 2279 2819 2969 3265 2924 3293 3022 3030 2937 3293 3265 3246 3015 2856 2414 2933 2495 2755 3360 2798 2821 3178 2649 3178 2234 3123 3124 2510 3567 2763 2759 3106 2559 2778 3617 2952 2767 2783 2882 3301 2370 2589 2558 2838 3433 2623 3145 3226 2936 2819 2798 3079 3454 2773 2782 3125 3456 2635 3143 3246 2963 3177 M 2.980 2.977 3.028 3.004 2.930 2.975 3.135 2.907 2.962 3.001 DP 308,9 286,1 333,5 292,3 392,1 252,9 258,1 219,1 342,8 183,3
93
N=40 3178 2547 3346 2933 2857 2394 2902 2821 3014 3419 2847 2894 2937 3130 2996 2737 3806 2967 3070 2847 3268 3165 3130 2969 3106 3222 3022 3454 3050 3319 3226 2782 2965 2794 3396 3070 2810 2933 3046 2967 3270 2984 2821 2963 2279 2312 3176 2285 2821 2495 2778 3293 3068 3161 3041 2906 3594 3130 2963 3070 3385 3015 3140 2798 2810 3145 3088 3015 2759 2471 2794 2969 2667 3017 2394 2967 2423 3394 3385 2635 3617 3255 2640 2894 3178 2525 3079 2903 3103 3130 3124 3329 3046 3079 2471 3522 2234 2672 3177 2525 3301 2394 3210 2617 2722 3276 3183 3246 2783 2953 3233 2856 2975 3189 3222 3268 2995 2937 2207 3255 3046 3806 2848 2623 2582 2370 3177 2773 2937 2207 3764 2856 2953 2856 2763 3070 3061 2967 3143 3124 2595 3183 2948 3639 2495 3210 2936 2819 2995 2953 3174 3265 3106 2471 3072 2649 2967 2716 3130 3276 2924 2889 2279 2857 2767 3141 3106 2701 2672 2823 2882 2764 3351 3360 2863 3451 2819 2759 2856 2794 2995 2883 2495 3061 3145 3079 3639 3268 2961 3265 2617 3122 3293 2961 2755 2701 2699 2883 2279 3641 2807 3056 3639 2996 2666 3270 3617 2279 3639 3177
3070 2525 3048 3056 2617 2961 2207 2312 2820 2965 3141 3124 3124 3178
2221 3161 2861 2856 2877 2207 3451 3594 3176 2863 2861 2782 3106 2783 2776 3268 3233
2594 2782 3121 2722 2819 3210
2666 2737 2778 2906 2781 3124 2539 3108 3121 2525 2965 2722 2819 2221 2821 2471 3293 3070 2936 2539
2967 2896 3617 3058 2547 2547 2805 3319 2896 2883 2234 2967 3298 2847 3293 3125 3255 2539 3764 2821 2963 2837 2889 2995 3015 2821 3585 2906 2764 2640 Média 3.035 2.958 2.985 2.906 2.880 2.946 3.015 2.955 2.976 2.969 DP 333,6 268,3 346,0 284,3 265,5 355,5 363,0 287,5 322,7 2.958
2894 2539 2672 3022 3130 3056 2682 2953 3065 2778 3017 2820 3422 2495 2847 3124 2963 2882 2882 2782 2776 2776 3072 2783 2891 3419 3014 2810 2967 3039 2969 3174 3454 2394 3140 2810
3106 3168 3022 3103 2781 3451 3226 3068 2975 2764 2781 3276 2558 2807 3161 3276 3079 3022 3143 2856 2667 2889 2883 3246 3222 2883 2948 3806 2961 3456 3121 2631 3594 2394 3050 2838 3210 3061 2794 2953 2906 3265 3454 2312 3422 3641 3176
3546 2471 2595 3123 3168 2896 2755 2649 2525 3293 3070 3270 2370 3301 2924 2909 3070 2906 2471 3268
94
Gráfico 2.1 – Convergência da média amostral
Dessa forma tem uito grande, infinito ou ainda a amostragem for feita com reposição, a média de todas as médias amostrais é µ e o
desvio padrão é dados por
os que se o tamanho da população for m
nσ .
Teorema do Limite Central Vimos anteriormente que se conhecemos a distribuição dos dados podemos fazer diversas inferências. Já conhecemos a média e o desvio padrão das médias amostrais. Resta-nos conhecer pois a distribuição das médias amostrais. Enunciemos então o teorema do limite central: 1. Se a população de onde se retira uma amostra possui distribuição normal, a distribuição das médias amostrais será também normal para qualquer que seja o tamanho da amostra. 2. Se a população de onde se retira uma amostra possui distribuição não-normal, a distribuição das médias amostrais será praticamente normal para grandes amostras. Entendam-se por grandes amostras, aquelas com mais de 30 elementos. Este teorema é de fundamental importância, uma vez que independentemente da distribuição de probabilidade contínua que a variável aleatória estudada assume, normal ou não, para amostras grandes, a distribuição das médias amostrais tem distribuição normal. Isto é de grande valor para muitos casos em estatística.
95
VI. ESTIMAÇÃO
96
1. INTRODUÇÃO
O problema de estimação é informalmente definido por: Assuma que alguma característica dos elementos da população possa ser representada por uma variável aleatória X, a qual tem densidade f xX ( ; )θ , onde a forma da densidade é conhecida, mas o parâmetro θ é desconhecido (se θ fosse conhecido, a função de probabilidade seria completamente especificada, e não haveria necessidade de fazer inferência). Assuma que os valores x x xn1 2, , ... , de uma amostra aleatória X X X n1 2, , ... , de f xX ( ; )θ possa ser observada. Em base dos valores amostrais observados x x x é desejável estimar o n1 2, , ... ,valor do parâmetro desconhecido θ ou o valor de alguma função do parâmetro desconhecido. Esta estimação pode ser feita de duas maneiras. A primeira, chamada de estimação pontual, é o valor que alguma estatística, digamos T ( ,X X X n, )1 2 ... , , assume ou estima,
desconhecido θ. Tal estatística é chamada de estimador pontual. A segunda, chamada de oestimação por intervalo, é definida por duas estatísticas, digamos T1 1X X X n2( , , ) ... , e
n1 2, , . . . , )T X X X n2 1 2( , , ) ... , , onde T X X X Tn1 1 2 2( , , . . . , ) ( X X X , tal que intervalo com probabilidade
<
( )T X X X T X X Xn n1 1 2 2 1 2( , , . . . , ), ( , , . . . , ) constitua um conhecida de conter o desconhecido θ. 2. ESTIMAÇÃO PONTUAL Lembrando o que já foi dito na primeira unidade, chama-se estimador, à quantidade alculada em função da amostra, que sendo uma função amostral, é considerada uma
estaprobabnúmeri
otação: θ é o parâmetro de interesse. T é um estimador de θ estimadportant que satisfazem propriedades de um bom es
ctística, e como tal é uma variável aleatória, caracterizada por uma distribuição de
ilidade e seus respectivos parâmetros próprios. Estimativa é um particular valor co assumido por um estimador.
N
To é uma estimativa de θ
Quando falamos em um estimador queremos frisar que podem existir vários ores para o mesmo parâmetro, determinado por algum método estatístico. Sendo,
o, a escolha do melhor, feita através de critériostimador. A seguir descrevemos algumas das principais propriedades.
2.1. PROPRIEDADES DOS ESTIMADORES No exemplo abaixo, procuraremos mostrar como as propriedades de um estimador podem ajudar-nos a analisá-lo.
ar um rifle e, após algumas seleções, restou-nos 4 alternativas que chamaremos de rifles A, B, C e D. Foi-nos permitido
estão ilustrados na figura abaixo.
EXEMPLO 2.1.: Desejamos compr
fazer um teste com cada rifle. Este teste consistiu em fixar o rifle num cavalete, mirar o centro do alvo e disparar 15 tiros. Repetiu-se o procedimento para cada rifle e os resultados
97
Figura 2.1: Resultados de 15 tiros dados por 4 rifles
, talvez essa não fosse a arm promisso entre todas as propriedades.
um estimador encioso se “em média acerta o alvo”. Chamaremos de precisão à proximidade de cada observação de sua própria média. Acurácia mede a proximidade de cada observação ao valor alvo que se procura atingir.
D
da. muito acurada. co acurada.
cia de se defi eis para
Para analisar qual a melhor arma, podemos fixar critérios. Por exemplo, segundo o critério de “em média acertar o alvo”, escolheríamos as armas A e C. Segundo o critério de “não ser muito dispersivo” (variância pequena), a escolha recairia nas armas C e D. A arma C é aquela que reúne as duas propriedades e, segundo esses critérios, essa seria a melhor arma. Mas, se outro critério fosse introduzido (por exemplo, preço)
a mais interessante. Às vezes, a solução deve ser um com
Esse exemplo nos permite introduzir alguns conceitos informalmente. Diremos que é não tend
esse modo, podemos descrever cada arma do seguinte modo: Arma A: Não tendenciosa, baixa precisão e pouco acurada. Arma B: Tendenciosa, baixa precisão e pouco acuraArma C: Não tendenciosa, boa precisão eArma D: Tendenciosa, alta precisão e pou Do exposto acima, notamos a importân nir propriedades desejáv estimadores. O primeiro critério que iremos abordar é o de não tendenciosidade.
a) Não-Tendenciosidade (Sem Vício): Diz-se que um estimador T é não viciado (ou ainda não tendencioso) de θ, quando seu valor esperado é o próprio parâmetro populacional que ele pretende estimar θ.
98
b) Consistência: Diz-se que uma sequência de estimadores Tn é consistente se, além
de ser não viciado, sua variância tende a zero, quando o tamanho da amostra (n) é suficientemente grande. Isto significa que, sendo T um estimador consistente, pode-
se aumentar significativamente o tamanho da amostra, de modo a tornar o erro de estimação tão próximo a zero quanto se deseje.
c) Eficiência: Sejam T1 e T2 dois estimadores não viciados de θ, e ainda a Var T Var T( ) ( ),1 2< então, T1 é dito mais eficiente que T2.
Por exemplo, pode-se mostrar que a média e a mediana são estimadores não tendenciosos para a média de uma população Normal, mas X é mais eficiente, pois a sua variância é menor. 2.2. ESTIMADORES PONTUAIS Para se proceder à estimação pontual, deve-se escolher o melhor estimador possível, colher a amostra e, em função de seus elementos, verificar a estimativa obtida, a qual corresponderá a um ponto sobre o eixo de variação da variável. MÉDIA: O melhor estimador da média populacional, µ , é a média amostral X , isto é,
$µ = = =∑
Xx
n
ii
n
1
Pode-se provar que este estimador satisfaz as propriedades de um bom estimador: Pela distribuição amostral da média observa-se facilmente que este é um estimador não-tendencioso e consistente. Além disso, podemos provar que também é eficiente. VARIÂNCIA: Quando a média µ é desconhecida, que é a situação mais comum
rática, deve-se substituir o valor de na
p µ por X , a média amostral, e estimar a variância pela expressão:
2.1
2.2
2.3
e o desvio padrao por:
$( )
~
$( )
σ
σ
2 2
2
1
2
1
1
1
= =−
−
= =−
−
=
=
∑
∑
Sx X
n
Sx X
n
ii
n
ii
n
Observe que o denominador nas expressões (2.2) e (2.3) é n-1 ao invés de n. Embora para grandes amostras seja indiferente o uso de n ou n-1. Estes estimadores também satisfazem algumas propriedades de um bom estimador: É não tendencioso, consistente e eficiente para . Observe a distribuição amostral da variância para se convencer que este é um estimador não-tendencioso e consistente.
σ 2
99
PROPORÇÃO: O estimador da proporção populacional, p é dado pela proporção
amostral,
nSp n=ˆ
onde é o número de elementos que apresentam uma determinada característica entre os n elementos da amostra. Observando-se a distribuição amostral da proporção, verifica-se que é um estimador não-tendencioso e consistente.
Sn
3. ESTIMAÇÃO POR INTERVALO Assuma que uma amostra aleatória , que tem densidade X X X n1 2, , ... , f xX ( ; )θ possa ser observada. Com base nos valores amostrais observados, estimamos o valor do parâmetro desconhecido θ, ou o valor de alguma função do parâmetro desconhecido. Entretanto, por melhores que sejam as qualidades do estimador utilizado, não devemos esperar que essa estimativa coincida com o verdadeiro valor do parâmetro. Na verdade, a probabilidade de que isto aconteça é extremamente pequena, sendo igual a zero, quando T for uma variável aleatória contínua. Então, é desejável que a estimativa pontual seja acompanhada por alguma medida do erro possível da estimativa. É nesse sentido que a estimação por intervalo complementa a estimação pontual. Na verdade, procuramos um intervalo em torno da estimativa, onde este intervalo é produzido pelo estimador pontual acompanhado de uma medida de confiabilidade de que o verdadeiro valor do parâmetro pertença ao intervalo encontrado. Então, a amplitude desse intervalo é uma medida natural da precisão da estimativa. Esses intervalos são chamados Intervalo de Confiança, e a probabilidade de que esse intervalo contenha o verdadeiro valor do parâmetro, denomina-se Nível de Confiança ou Grau de Confiança, sendo representado por (1-α ). Logo, α será a probabilidade de erro ao se afirmar que o intervalo contém o verdadeiro valor do parâmetro.
Por exemplo, se retomarmos a população composta por 200 recém-nascidos para os quais foram mensurados os pesos ao nascer, podemos verificar que as estimações intervalares de modo geral “sempre” contém o parâmetro verdadeiro. Assim, considerando que a média populacional é de 2982g e o desvio padrão populacional é de 311g temos:
2400
2500
2600
2700
2800
2900
3000
3100
3200
3300
3400
3500
1 2 3 4 5 6 7 8 9 10
Amostra (n=5)
Peso
(em
gra
mas
)
2.4
100
2400
3500
2500
2600
2700
2800
2900
3000
3100
3200
3300
3400
1 2 3 4 5 6 7 8 9 10
Amostra (n=10)
Peso
(em
gra
mas
)
3500
2400
2500
1 2 3 4 5 6
2600
2700
3400
7 8 9 10
Peso
(em
gra
mas
) 3200
3300
3000
3100
2800
2900
Amostra (n=15)
2400
2500
2600
2700
2800
2900
3000
3100
3400
7 8 9 10
ostra (n=20)
Peso
(em
gra
mas
)
3200
3300
1 2 3 4 5 6
Am
101
2400
2500
2600
2700
2800
Peso
(em
gra
mas
)2900
3100
3200
1 2 3 4 5 6 7 8 9 10
Amostra (n=40)
3000
3.1. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO Duas situ de
onfiança para ações são consideradas quando desejamos estabelecer um Intervalo
C µ , a média da população: Quando a variância populacional é ou não iderar também Xconhecida. Vamos cons que a distribuição de é Normal, sendo esta
dos elementos da população ou através de grandes amostras, isto é, estamos considerando que a população que origina suposição feita ou a partir da distribuição
X é Normal ou que, o tamanho da amostra, n > 30.
I. O Intervalo de Confiança para a média populacional µ quando a variância populacional é conhecida ao nível de 95% de confiança, é dado por:
I.C.(
σ 2
µ ) = ⎜⎜⎝
⎛ σ−
nX 96,1 ; ⎟⎟
⎠
⎞σ+
nX 96,1
EXEMPLO 3.1:
a) Para uma am io de colesterol de 120 ntervalo de co diminuir a am valo encontrado em (a) quais seriam
suas alternativas. SOLUÇÃO: n = 46,
Num certo grupo de pacientes, o nível de colesterol é uma variável aleatória com distribuição normal, de média µ desconhecida e variância σ2 = 64(mg/ml)2.
ostra de 46 indivíduos, a qual teve nível médmg/ml, construa o i nfiança de 95%.
b) Se você desejasse plitude do inter
120=X , σ = 8 e 1- α = 0,95
a) ( )31,122;69,117468*96,1120;
468*96,1120)( =⎟⎟
⎠
⎞⎜⎜⎝
⎛+−=µIC
b) Aumentar o tamanho da amostra, diminuir o nível de confiança ou aumentar o nível de significância.
Isto significa dizer que, com probabilidade 0,95 o verdadeiro valor da taxa média de colesterol pertence ao intervalo (117,7mg/ml;122,3mg/ml).
102
l µ quando a variância
populacional não é conhecida para um nível de significância α qualquer, é dado por: .
II. O Intervalo de Confiança para a média populacionaσ 2
I.C.( µ ) = ⎜⎜⎝
−n
tX ; ⎛ S⎟⎟⎠
+n
tX e P(t⎞S(n-1) < t) = 1−
2α
EXEMPLO 3.2: Os pulsos em repouso de 920 pesso ias fo a os, e uma
média de 72,9 batidas por minuto (bpm) e um desvio padrão de 11,0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a
SOLUÇÃO: n = 9
as sad ram tom d
pulsação média em repouso de pessoas sadias com base nesses dados.
20, 11 e 9,72 == SX , com 1-α = 0,95 96,1 0,0252 05,0 )025,0;920( =⇒ t =⇒= αα
)6,73;2,72(920
*96,196,19,72)( =⎟⎟⎞
⎜⎜⎝
⎛−−=µIC
de pessoas es
119,72;920
* 11 ⎠
Logo, com 95% de confiança o número de batidas médias por minuto deste grupo
tá entre 72 e 74.
3.2. INTERVALO DE CONFIANÇA PARA A PROPORÇÃO DA POPULAÇÃO O intervalo de confiança para uma proporção p, ao nível de 95% de confiança, é dado por:
⎟⎟⎠
⎞⎜⎜⎝
⎛ −+
−−
nppp
nppp
ˆ1(ˆ96,1ˆ;
ˆ1(ˆ96,1ˆ (otimista)
ou
I.C.(p) =
⎟⎟⎠
⎞⎜⎜⎝
⎛+−
np
np
4196,1ˆ;
4196,1ˆI.C.(p) = (conservador).
EXEMPLO 3.3: Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 350
como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.
SOLUÇÃO: n = 1000, $ ,p = =350
10000 35 e 1- α = 0,95
α αα= ⇒ = ⇒ =0 05 0 025 1 962
, , 2 z
,
IC p( ) , , *, ( , )
; , , *, ( , )
( , ; , )= −−
+−⎛
⎝⎜
⎞
⎠⎟ =0 35 1 96
0 35 1 0 351000
0 35 1 960 35 1 0 35
10000 32 0 38
Então, a proporção de eleitores do candidato está entre 32% e 38% com 95% de confiança. EXEMPLO 3.4: Num experimento científico, doentes contaminados com cercaria, que é
uma das formas do verme da esquistossomose, recebem um certo
103
medicamento e observa-se a proporção p de cura. Em 200 pacientes 60 são curados. Determine com 95% de confiança a
verdadeira proporção de cura do medicamento. verifica-se que 1
SOLUÇÃO: n = 200, 8,0200160ˆ ==p e 1- α = 0,95
α αα= ⇒ = ⇒ =0 05 0 025 1 962
, , , 2 z
)855,0;745,0(200
)8,01(8,0*96,18,0;200
)8,01(8,0*96,18,0)( =⎟⎟⎠
⎞⎜⎜⎝
⎛ −+
−−=pIC
Então, a proporção de cura do medicamento está entre 75% e 86% com 95% de confiança.
104
3.3. INTERVALO DE CONFIANÇA PARA DUAS MÉDIAS 3.3.1. AMOSTRAS INDEPENDENTES
O intervalo de confiança associado a um determinado grau de confiança (1-α)%, para a diferença entre duas médias populacionais A e B, é dado por:
( )⎥⎥⎦
⎤
⎢⎢⎣
⎡±−=−
B
BABA n
SnStIC
2
)( µµµ e P( <t)=1−+A2
ABµ 2nn BA
t −+ 2α .
XEMPLO 3.5: Imagine que se deseja determinar se as taxas médias de creatinina dos
grupos A=pacientes com insuficiência renal aguda (IRA) e B=pacientes sem IRA, são iguais. Sejam as médias, variâncias e o número de indivíduos em cada grupo:
Grupo N Média Variância A=IRA 7 2,47 1,13 B=não-IRA 5 0,76 0,13
Determine um i alo co 5% d nfiança.
SOLUÇÃO: Isto equivale, de certa forma, a verificar se existe associação entre IRA e as taxas de creatinina. O lor da tística
B −+ para 95% de confiança e 10 (7+5-2) graus de liberdade é 2,23. Assim tevalo de confiança é dado por:
E
nterv m 9 e co
va esta nAt 2n
o in
[ ] [ 67,2;75,043,023,271,1 ]13,013,1IC =×±=⎥⎦
⎤⎡
Observe que o limite inferior do intervalo de confiança das diferenças, para este nível de confiança é 0,75>0. Desta forma, poder-se-ia dizer que a este nível de confiança não é possível admitir que a média das taxas de creatinina do grupo IRA seja igual a do grupo sem RA.
5723,2)76,047,2()( BA ⎢
⎣+×±−=− µµ
I
105
3.3.2. AMOSTRAS PAREADAS
Amostras pareadas ou pares de amostras são dados referentes a um mesmo conjunto indivíduos (elementos), tomados em duas situaçd
de ões diferentes. Genericamente, estas uas situações são denominadas antes e depois. De modo geral, deseja-se verificar se estas
a uações antes e depois seriam caracterizadas
dealg
o
duas situações podem ser consideradas iguais ou não. Por exemplo, se ao mesmo grupo de cientes foi administrado um antitérmico, as sitp
pelos conjuntos de temperaturas corporais verificadas antes e depois da administração do antitérmico. O objetivo, naturalmente, é o de comprar ambos os conjuntos de dados para
terminar se são diferentes, o que equivaleria a verificar se o antitérmico está tendo uma influência (e quanto) na temperatura corporal. Esta situação pode ser generalizada seguinte modo: d
Antes Depois di
1,Ax 1,Bx 1,Ax - 1,Bx
2,Ax 2,Bx 2,Ax - 2,BxM M M
n,Ax n,Bx n,Ax - n,Bx
Ax Bx d onde i,Ax representa um valor genérico da variável X na situação “antes”, enquanto i,Bx se
ere à situação “depois”. ref
I.C.(
O intervalo de confiança, associado a um determinado grau de confiança (1-α), resulta neste caso:
BA µµ − ) = ⎟⎟⎠
⎞⎜⎜⎝
⎛±
nS
td d , com ( )∑
= −= i
d 1nS e P(t(n-1) < t) =1−
−n 2dd2α .
1i
É interessante notar que, empregando-se os mesmo dados, o intervalo para amostras pade ontes
e variação dos dados, já que os resultados do experimento provêm dos mesmos
co
EXEMPLO 3.6: A Amiodarona é um antirrítm em gad ara trata ento dos distúrbios do ritmo de origem v tricu em paci es m Insuficiência Cardíaca. Apesar de seus vários efeitos colaterais, é
que age sobre a musculatura lisa dos vasos de resistência, provocando
adequado.Uma experiência hipotética, baseada em um estudo publicado nos Anais da Academia nacional de Medicina, tem por objetivo avaliar
readas possui amplitude menor que o intervalo para amostras independentes. Tal situação corre do fato de que, ao se empregarem amostras aos pares, eliminam-se eventuais f
dindivíduos. Em pesquisa médica, quando é possível montar experiências aos pares, suas
nclusões são preferidas às de outro tipos de desenho experimental.
ico pre o p o men lar ent co
considerado como o melhor antirrítmico, além de ser uma substância
vasodilatação e diminuição da pressão arterial, bem como a diminuição do ritmo cardíaco. A insuficiência cardíaca é uma das principais causas de mortalidade, atingindo 70% ao cabo de dois anos. A taquiarritmia ventricular mata de forma súbita um terço desses pacientes, o que explica a importância do pronto diagnóstico e tratamento
os efeitos da Amiodarona sobre uma das manifestações clínicas da Insuficiência Cardíaca de pacientes portadores de prótese valvar
106
normofuncional: a freqüência cardíaca. Abaixo estão os resultados de 6 pacientes de ambos os sexos e variadas faixas etárias.
Antes Depois
128 83 106 72 113 80 135 86 92 68 140 85
ritmo rona, com um grau de confiança de 95%.
Antes Depois di
Com base nesses dados, elabore uma estimativa comentada para a alteração do cardíaco provocada pela Amioda
SOLUÇÃO: Construa inicialmente o vetor de diferenças
128 83 45 10 7 6 2 34 113 80 33 135 86 49 9 2 68 24140 85 55
Depois calcule a sua média e desvio padrão: 40=id
( )59,11
11
2
=−−
= ∑=
n
i
id n
ddS
E por fim substitua na fórmula:
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+−=−
659,1140;
659,1140 ttIC BA µµ
( )73,457,240;73,457,240 ×+×−=
( )16,52;84,27=
107
EXERCÍCIOS
. Uma amostra aleatória de 1000 eleitores de certo distrito eleitoral dá 450 como favoráveis a certo candidato. Determine um intervalo de confiança ao nível de 95% para a proporção de eleitores favoráveis ao candidato.
. Uma pessoa jogou uma moeda 100 vezes e dessas apareceram 64 caras. A moeda é
honesta? (Use o nível de confiança de 95%)
. Em uma experiência sobre percepção extra-sensorial (P.E.S.) um indivíduo, em uma sala, é solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de um baralho. Se o sujeito identifica corretamente 32 cartas, há alguma evidência de que este possua percepção extra-sensorial? (Use o nível de confiança de 95%)
. O tempo de reação de um novo medicamento, por analogia a produtos similares, pode ser considerado como tendo distribuição normal com média desconhecida (µ) e desvio padrão σ, também desconhecido. Vinte pacientes foram sorteados, receberam o medicamento e tiveram o seu tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9 – 3,4 – 3,5 – 4,1 – 4,6 – 4,7 – 4,5 – 3,8 – 5,3 – 4,9 – 4,8 – 5,7 – 5,8 – 5,0 – 3,4 – 5,9 – 6,3 – 4,6 – 5,5 e 6,2. Obtenha um intervalo com 95% de confiança que contenha o verdadeiro tempo médio de ração dessa população.
. Repita a questão anterior ao nível de confiança de 95% e utilizando o desvio padrão populacional, o qual é de 2 minutos.
. Um experimento com 6 pacientes que apresentaram o diagnóstico de rubéola e em estado febril proporcionou as temperaturas corpóreas sublinguais apresentadas abaixo:
Paciente 1 2 3 4 5 6
1
2
3
4
5
6
Temperatura (ºC) 38,6 37,5 38,0 37,3 38,6 39,0
Encontre o intervalo de confiança paras as temperaturas corpóreas de todos os pacientes com diagnóstico de rubéola e em estado febril. (Use o nível de confiança de 95%)
7. São apresentados no quadro abaixo os valores de Amilase encontrados em esxames
químicos de urina de um grupo de 10 pacientes com insuficiência renal, em (u/ml):
Paciente 1 2 3 4 5 6 7 8 9 10 Amilase (u/ml) 6 12 8 4 5 9 3 4 5 4
Calcule o intervalo com 95% de confiança para a taxa média populacional de Amilase.
8. Em uma pesquisa sobre Doenças Sexuais Transmissíveis (DST), foi perguntado aos
entrevistados do sexo masculino se sentiam alguma dificuldade no uso de preservativos. Na amostra de 150 indivíduos do sexo masculino, escolhidos aleatoriamente na população, 68 responderam afirmativamente a essa questão. Determine o intervalo de 95% de confiança para a proporção de indivíduos com dificuldades no uso de preservativos.
9. A prescrição de anticoncepcionais orais deve ser efetuada após uma avaliação completa
da paciente, uma vez que seu uso pode alterar diversas funções normais do organismo.
108
Suponha que uma experiência, com dois grupos de mulheres, apresentou os seguintes ressão arterial sistólica (PAS):
(PAS, mmHg) (PAS, mmHg)
dados relativos à p
Grupo N Média Desvio
Tratamento 19 120,4 8,31 Controle 25 115,6 16,22
Com base nos dados experimentais apresentados: a)
ontrole. b) A experiência para testar o Anticoncepcional Oral poderia ter sido formulada de
Construa o intervalo de confiança de 95% para as diferenças das médias da PAS dos grupos Tratamento e C
maneira diferente? (Justifique). 10. Para se avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram
escolhidos e sua pulsação foram mensuradas antes e após o exame. Segundo os valores estão apresentados abaixo:
Estudante Instante da Medição 1 2 3 4 5 6 7 8 9 10 11 12
Antes 87 78 85 93 76 80 82 77 91 74 76 79 Depois 83 84 79 88 75 81 74 71 78 73 76 71
Verifique ao nível de 95% de confiança se existe maior tensão (isto é, maior
pulsação) antes da realização dos exames.
109
E HIPÓTESES
VII. TESTES D
110
1. INTRODUÇÃO Estudaremos uma forma de tratar o problema de fazer uma afirmação sobre o
arâmetro desconhecidoθp associado a uma variável aleatória X, baseado em uma amostra
lo
aleatória simples, extraída da população. Em vez de procurarmos uma estimativa pontual do parâmetro ou um intervalo de confiança deste parâmetro, freqüentemente nos parecerá conveniente admitir um va r
ipotético para o parâmetroθ , e depois utilh izar a informação da amostra para confirmar ou ita
estes de hipóteses, precisamos introduzir algumas notações e as definições.
reje r esse valor hipotético. Antes de falarmos de tdarmos algum 2. CONCEITOS FUNDAMENTAIS Define-se or 0 a hipótese existe hipótese nula, a ser testada e por
a hipótese alternativa. O teste irá levar a aceitação ou rejeição de , o que d à rejeição ou aceitação de , respectivamente. Entretanto, para manter a
em termos da hipótese , ou seja
Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. Para facilitar linguagem, necessitamos das seguintes definições:
Erro tipo I: rejeitar a hipótese nula, quando esta é verdadeira. Chamamos de
p H nte, chamada H H0
H1
correspon e 1
uniformidade enuncia-se o resultado final sempre H0
aceitar ou rejeitar H0 . a
α a ade de cometer esse erro, isto é,
probabilid
α = P(erro tipo I) = P(rejeitar é verdadeira)
rro tipo II: não rejeitar quando é falsa. A probabilidade de cometer esse erro é indicada por
H0 / H0
E H0 H0
β , logo, β = P(erro tipo II) = P(não rejeitar é falsa)
ossas decisões em um teste de hipótese podem ser resumidas na seguinte tabela:
Tabela 1 - Acertos e Erros nas decisões tomadas em um teste de hipótese
Realidade
H0 / H0
N
H0 é Verdade H0 é Falsa (=H1)
População
Aceita H0 Decisão Correta (1-α) Erro tipo II (β)
Amostra
Decisão Rejeita H0 Erro tipo I (α) Decisão Correta (1-β)
A probabilidade α de cometer um erro de primeira espécie é um valor arbitrário e recebe o nome de Nível de Significância do teste. O resultado da amostra é cada vez mais
sses valores são
ilidade β ão o p metro sob e 1- Potência do Teste, ou seja é a capacidade de rejeitar quando é
falsa, é uma medida de qualidade do teste. Um teste de hipótese que fornece uma regra de decisão com uma função potência maior que outro é dito mais poderoso.
significante para rejeitar H0 quanto menor for esse nível. Usualmente, efixados em 10%, 5% ou 1%.
ab é uma funç que depende dos valores d arâ A prob é denominado de
H1
β H0 H0
111
Note que na prática não conhecemos a realidade. Jamais saberemos se a decisão
quando nossa dedecisão for aceitaaquele em que a é possível, pois aversa. No entantaumentando o tam
itidas, o
do onjunto Crítico ou Região ítica, denotado por RC. O complemento de RC é chamado de Conjunto de Aceitação Região de Aceitação.
tomada foi certa ou errada. O certo é que podemos cometer dois tipos de erro: o erro tipo I cisão é rejeitar H0 sendo H0 verdadeira e o erro tipo II quando nossa r H0 sendo H0 falsa. Pensamos então que um teste de hipótese ideal é
regra de decisão que ele oferece torna mínimo os erros tipo I e II. Isto não o tentar minimizar o erro tipo I estamos aumentando o erro tipo II e vice-o, quando fixamos o erro tipo I, conseguiremos diminuir o erro tipo II
anho da amostra o máximo possível, dentro das limitações, de tempo e . custo, perm
Sendo um teste de hipótese uma regra de decisão, e esta é Aceitar ou Rejeitar conjunto de valores que levam a rejeitar H é chama de C
H0
0
Crou 3. PASSOS PARA CONSTRUÇÃO DE UM TESTE DE HIPÓTESES Vimos, na seção anterior, o procedimento que se deve usar para realizar um teste de
s abaixo uma seqüência que pode ser sada sistematicamente para qualquer teste de hipóteses.
Primeiro Passo: Formule as hipóteses nula e alternativa. No nosso caso: A alternativa mais geral seria:
(a)
eríamos ainda ter alternativas da forma: 0
::
θθθθ
HH
(b)
ou ≤ 00 : θθH
Segundo Passo: Especifique o nível de significância
hipótese, discutindo as notações técnicas. Daremou
⎩⎨⎧
≠=
01
00
::
θθθθ
HH
Pod
⎩⎨⎧
<≥
01
0
⎩⎨ > 01 : θθH
(c) ⎧
dependendo das informações que o problema traz.
α . Em geral, 0,01; 0,05 ou 0,10. Terceiro Passo: Use a teoria estatística e as informações disponíveis para decidir qual
estatística será usada para julgar . Não se esqueça de identificar a distribuição amostral adequada.
Quarto Passo: Determine a região crítica do teste, RC. Quinto Passo: Use as informações fornecidas pela amostra para encontrar o valor da
estatística do teste do terceiro passo. Sexto Passo: Se o valor da estatística observada da amostra não pertencer à região crítica,
aceite ; caso contrário, rejeite. Sétimo Passo: Concluir a respeito do problema em estudo.
H0
H0
112
4. STES DE SIGNIFICÂNTE CIA PARA UMA AMOSTRA 4.1 TESTES PARA UMA MÉDIA Vejam a aplicação dos sete passotestar a hipótese de que a média de uma
os agora um s, definidos na seção anterior, para população µ é igual a um número fixado µ0 .
Vamos dividir este estudo em duas partes:
) conhecida ou n > 30:
1. Hipóteses:
H (a)
H (b) (c)
2a σ
⎩H ⎩H≠=
01
00
::
µµµµ
⎨⎧
<≥
01
00
::
µµµµ
⎩⎨⎧
>≤
01
00
::
µµµµ
HH
⎨⎧
2. Fixar α . 3. Estatística do teste X tem distribuição Normal.
. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
) ⎨⎧ ≤ 00 : µµH
5. Calcular a Estatística
4
-z z
a) ⎩⎨⎧
≠=
01
00
::
µµµµ
HH
-z
⎩⎨⎧
<≥
01
00
::
µµµµ
HH
b)
c ⎩ > 01 : µµH
z
Zx
nc =
− µσ
0
6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se
H0
Z RCc ∈ , rejeita-se . Caso contrário, aceita-se . 7. Conclusão
H0 H0
113
EXEMPLO 4.1: Para estudar o efeito de uma certa substância em seres vivos, um
experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a um estímulo elétrico e têm seus tempos de
o (em segundos) anotados. Obtivemos os valores: 9,1 9,3 7,2 7,5 13,3 10,9 7,2 9,9 8,0 10,4. Admite-se que o tempo de reação segue o modelo Normal com média 8 e desvio padrão de 2 segundos. O pesquisador desconfia que o tempo médio sofre alteração influência da substância. Teste ao nível de significância de 0,01.
n = 10
reaçã
SOLUÇÃO: 28,9=x segundos, σ = 2,0 e µ0 = 8,0 1. 0,8:0 =µH 0,8:1 ≠µH 2. α α= ⇒ =0 01 2 0 005, , 3. Estatística do teste X tem distribuição Normal. 4. Da tabela da distribuição Normal, obtemos que: -z = -2,58 e z = 2,58.
-2,58 +2,58
5. Calcular a estatística: 02,22
0,828,9=
10
−=cZ
6. Como , a nossa decisão será não rejeitar .
7. Ao nível de significância de 1%, não podemos afirmar que o tempo de reação foi
alterado por influência da substância.
RCZ c ∉= )02,2( H0
114
1. Hipóteses:
(a) (b) (c)
b)σ 2 desconhecida e n < 30:
⎩⎨⎧
≠=
01
00
::
µµµµ
HH
⎩⎨⎧
<≥
01
00
::
µµµµ
HH
⎩⎨⎧
>≤
01
00
::
µµµµ
HH
2. Fixar α .
X3. Estatística do teste tem t-Student com n-1 graus de liberdade. 4. A Região Crítica irá depender da hipótese alternativa. Então,
µµ
)
)
tatística
a) ⎨ ≠00
: µµH ⎧ :H =
-t t
⎩ 01
-t
⎩⎨⎧
<≥
01
00
::
µµµµ
HH
b
t
⎩⎨⎧
>≤
01
00
::
µµµµ
HH
c
txS
nc =
− µ0 5. Calcular a Es
6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se C , rejeita-se . Caso contrário, aceita-se .
H0
t Rc ∈ H0 H0
7. Conclusão
115
EXEMPLO 4.2: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de
Ao nível de 5%, o SOLUÇÃO: n =
nicotina. Uma amostra de 25 cigarros forneceu média de 31,5mg e desvio padrão de 3mg. s dados refutam ou não a afirmação do fabricante?
25, x mg S mg= =315 3, e , α = 0,05 1. 30:0 ≤µH H1 30:µ >
α = 0 05, 2. 3. E testatística do ste X tem distribuição t-Student com 24 graus de liberdade
a tabela da stribuição t-Student, obtemos que t = 1,71. 4. D di (24;0,05)
Logo, RC = { t t∈c cℜ >/ , }1 71
5. tc =−
=315 30
3 252 5
,,
6. Como C ( , )t Rc = ∈2 5 , a nossa decisão será de rejeitar .
Ao nível de significância de 5%, há evidência de que os cigarros contenham mais que 30mg de nicotina.
1,71
H0
7.
116
4.2. TESTES PARA UMA PROPORÇÃO Vamos usar os passos descritos na seção 3 para mostrar a construção do teste para proporções. Temos uma população, e temos uma hipótese sobre a proporção p de indivíduos portadores de uma certa característica. Essa hipótese afirma que essa proporção é igual a um certo número p0. Então, o problema deve fornecer informações sobre a forma da alternativa. Que terá uma das três formas abaixo: 1. Hipóteses:
⎩⎨⎧
≠=
01
00
::
ppHppH
(a) ⎩⎨⎧
<≥
01
00
::
ppHppH
(b) ⎩⎨⎧
>≤
01
00
::
ppHppH
(c)
2. Fixar α . 3. Estatística do Teste tem distribuição Normal. 4. A Região Crítica irá depender da hipótese alternativa. Então,
a)
b)
5. Calcular a Estatística
$p
⎩⎨⎧
≠=
01
00
::
ppHppH
-z z
⎩⎨⎧
<≥
01
00
::
ppHppH
c) ⎩⎨⎧
>≤
01
00
::
ppHppH
z
-z
npp
ppZc )1(
ˆ
00
0
−
−=
6. Decisão: Rejeita-se ou não ? Depende da Região Crítica do passo 4. Se C
H0
Z Rc ∈ , rejeita-se . Caso contrário, aceita-se . H0 H0
7. Conclusão
117
sulfa, a
porcentagem que desenvolveu complicações foi de 10%. Com o intuito de saber se o emprego das sulfas diminuiria essa porcentagem, 120 casos de pneumonia foram tratados com sulfapiridina e destes, 6 apresentaram complicações. Admitindo que os pacientes são comparáveis em tudo, exceto quanto ao tratamento, teste a hipótese de que a proporção de casos com complicações entre os pacientes tratados com sulfas é significativamente menor que os não tratados (considere
EXEMPLO 4.3: Entre milhares de casos de pneumonia não tratados com
α = 0 05, ).
n = 120
.
SOLUÇÃO: 1. 10,0:0 ≥pH 10,0:1 <pH 2 α = 0 05,
3. Estatística do Teste tem distribuição Normal.
. Da tabela da distribuição Normal, obtemos que z = -1,65.
$p 4
5. 05,0120
6ˆ ==p
83,1
1209,01,010,005,ˆ −− pp 0
)0
0 −=×
=−
=
np
Zc
6. Como , a nossa decisão será rejeitar . 7. Ao nível de 5% de significância, podemos dizer que há evidências de que a proporção de
casos de pneumonia com complicações tratados com sulfa seja menor que os não tratados.
-z =-1,65
1(0p
RCZ c ∈−= )83,1( H0
118
5. TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS
Suponhamdiferença entre os níveis de um marcador bioquímico sangüíneo de homens que moram em
ma região (RA) quando comparado à outra (RB), sem indicar qual grupo teria maior ou a hipótese? A resposta a princípio parece
mples: toma-se uma amostra de tamanho nA da população A e de tamanho nB da população B, faz-se o exame de sangue e calcula-se a média para cada região. A questão é,
ente uns indivíduos da amostra da região RA terão valores diferentes da RB, uns maiores e outros menores, assim como haverá, também, variação entre os indivíduos de uma mesma região. Sendo assim, é muito provável que as médias não sejam exatamente
uais. A pergunta é: as médias não são iguais por que as populações realmente apresentam f u por causa das variações casuais intrínsecas à amostragem? Lembre-se m mostrais tendem a diferir uma da outra!
os a seguinte situação: Um pesquisador acredita que existe alguma
umenor. Como ele pode fazer para testar susi
certam
igvalores di erentes o
e que as édias ad 5.1 TESTES DE SIGN CIA PARA DUAS AMOSIFICÂN TRAS INDEPENDENTES
Lembremos do conceito de distribuição de médias amostrais e suas relações com istribuição normal e distribuição t. Se agora pensarmos em uma distribuição para a iferenças entre as médias amostrais, poderíamos definir uma curva de distribuição para ssas diferenças, e, então, estipularmos um intervalo de confiança para a diferença ser nula. to significa dizer que dentro de uma faixa de valores consideraremos nossa “diferença”
omo “igual” e fora da faixa, como “diferente”. Quem define se a diferença de médias está entro ou fora da faixa é o índice de significância (α). Se a nossa diferença de médias pode r considerada como tendo distribuição normal podemos recorrer a esta estatística z ou
fazer nosso teste. A figura a seguir ilustra o que falamos. A nossa variável aleatória
ddeIscdsemesmo à estatística t para
21 xx − tem distribuição normal e podemos calcular a probabilidade de 21 xx − assumir valores que onsideraremos “zero”. A região em cinza na curva mostra a região de aceitação para a
ra região, consideraremos ue as médias são diferentes. Observe que � é a probabilidade que estamos admitindo para
cometer o erro tipo I (dizer que as médias são diferentes quando na verdade elas são iguais). Como a hipótese alternativa é a de médias diferentes temos que considerar metade
ara cada lado.
cnossa hipótese nula ao compararmos as médias de A e B. Fo daq
p
119
5.1.1 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS CONHECIDAS
2. Fixar
1. Hipóteses: ⎧ = 210 : µµH
⎩ ≠ 211 : µµH⎨
α .
3. Estatística do Teste: 21 XX − tem distribuição Normal.
4. A Região Crítica:
. Calcular a Estatística
4
2
22
1
21
21
nn
xxZcσσ
+
−=
não Depende da Região Crítica do passo 4. 6. Decisão: Rejeita-se ou Se Z RC
H0 ?c ∈ , rejeita-se . Caso contrário, aceita-se .
7. Conclusão
H0 H0
-z z
120
1. Hipóteses:
⎧≠= 210
::
µµµµ
HH
2.
EXEMPLO 5.1: Suponha que a freqüência cardíaca de uma amostra de 45 mulheres tenha média de 70 bpm, e de 50 homens tenha média 72 bpm. Considerando que o desvio padrão populacional de mulheres é de e 8 bpm e, de homens, 5 bpm. Podemos afirmar que, para o grupo estudado existe diferença entre as FC basais de homens e mulheres com 5% de chance de erro?
SOLUÇÃO:
⎩ 211
⎨
Fixar α =0,05. 3. Estatística do Teste: 21 XX − tem distribuição Normal.
Da tabela da distribuição Normal, obtemos que Z = 1,96.
5. Calcular a estatística:
3.
-z = -1,96 z = 1,96
04,1
458
505
707222
2
22
1
21
21 =
+
−=
+
−=
nn
xxZcσσ
6. Como , a nossa decisão será não rejeitar 7. nifica dizer que, neste exemplo hipotético, não existe diferença significativa
entre a freqüência cardíaca basal de homens e mulheres.
RCZ c ∉= )04,1( H0 .
Isto sig
121
5.1.2 TESTES PARA DUAS MÉDIAS COM VARIÂNCIAS NÃO CONHECIDAS
O teste z exige que conheçamos o desvio padrão populacional, e isto não ocorre na maioria dos casos. Se não conhecemos o desvio padrão populacional devemos recorrer à distribuição t. Realizaremos então o teste t (na verdade, o teste t será o mais utilizado, pois raramente se conhece o desvio padrão populacional). 1. Hipóteses:
=
1
210
:: µµ
HH
⎩⎨⎧
≠ 21 µµ 2. Fixar α .
21 XX −3. Estatística do Teste: tem distribuição t-Student com (n1+n2–2) graus de liberdade
4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
5. Calcular a Estatística
-t t
⎟⎟⎠
⎞⎜⎜⎝
⎛+
−+−+−
−=
2121
2221
21
21
112
)1()1(nnnn
nsns
xxTc
. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4.
6 H0 ? Se RCTc ∈ , rejeita-se . Caso contrário, aceita-se . 7. Conclusão
H0 H0
122
EXEMPLO 5.2: Para o VO2max de uma amostra de 12 mulheres encontrou-se o VO2max
de 52,8 ml/kg para a média e de 3,2 ml/kg para o desvio padrão, e, de uma amostra de 12 homens, um valor de 58,2 para média, e de 4,4 para o desvio padrão. Testar a hipótese de que homens têm VO2max maior que mulheres para uma significância de 5%.
SOLUÇÃO:
1. Hipótes
4. Fixar
es:
⎩⎨⎧
≠=
211
210
::
µµµµ
HH
α =0,05. 5. Estatística do Teste: 2X 1X − tem distribuição t-Student com +n2–2) graus de
liberdade
6. Da tabela da t-student com (12 + 12 - 2) temo tα = 2,07
5. Calcular a Estatística
(n1
s que
t = 2,07 -t = 2,07
4,3 4
121
121
21212)12,3)112
2,582
=
⎟⎠⎞
⎜⎝⎛ +
−+
+− 12( −(4,48,52
2
−=cT
6. Como 4( , a nossa decisão será rejeitar 7. Podemos dizer que Homens O2max maior que mulheres ao nível de significância
de 5%.
H0 . RCTc ∈= )4,3
têm V
123
5.2 TESTES DE SIGNIFICÂNCIA PARA DUAS AMOSTRAS RELACIONADAS
No exemplo acima, as amostras são independentes, ou seja não existem, por pressuposto, características comuns a ambas as amostras. Na verdade, para amostras independentes queremos saber se as médias provêm de uma única população.
Suponhamos agora o caso do teste do efeito de um medicamento. Mensuramos os alores da nossa amostra antes e depois de tomar o medicamento. Devemos agora aplicar m teste que leve em consideração a dependência entre os resultados obtidos, uma vez que
e que não queremos avaliar da nossa amostra “não variaram”, ou seja, ossas amostras são dependentes. Neste caso, utilizamos o teste t para amostras
dependentes. Este teste calcula a estatística T, baseado na média e no desvio padrão das
aticamente, significa expressar dida antes e depois de uma intervenção, para
ber se houve efeito da intervenção na nossa variável. Assim, temos:
. Hipóteses:
0 dif
H
H
µ
µ
2. Fixar
emplo acima, as amostras são independentes, ou seja não existem, por pressuposto, características comuns a ambas as amostras. Na verdade, para amostras independentes queremos saber se as médias provêm de uma única população.
Suponhamos agora o caso do teste do efeito de um medicamento. Mensuramos os alores da nossa amostra antes e depois de tomar o medicamento. Devemos agora aplicar m teste que leve em consideração a dependência entre os resultados obtidos, uma vez que
e que não queremos avaliar da nossa amostra “não variaram”, ou seja, ossas amostras são dependentes. Neste caso, utilizamos o teste t para amostras
dependentes. Este teste calcula a estatística T, baseado na média e no desvio padrão das
aticamente, significa expressar dida antes e depois de uma intervenção, para
ber se houve efeito da intervenção na nossa variável. Assim, temos:
. Hipóteses:
≠
=
0:
0:0 dif
H
H
µ
µ
2. Fixar
vvuuas caract rísticas as caract rísticas nn
diferenças entre os valores medidos antes e depois. Matemue, dada uma amostra de tamanho n, me
diferenças entre os valores medidos antes e depois. Matemue, dada uma amostra de tamanho n, meqa
qass
1 1
⎪⎪⎨⎪⎪⎨⎩ 1 dif
⎩ 1 dif
⎧⎧
≠
=
0:
0:
α . 3. Estatística do teste difX te
5. Calcular a Estatística
m distribuição t-Student com n-1 graus de liberdade. 4. A Região Crítica será:
n
Sx
tdif
difc =
6. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4. Se C , rejeita-se . Caso contrário, aceita-se . 7. Conclusão
H0 ?t Rc ∈ H0 H0
-t t
124
trado uma substância que pode
reduzir o colesterol (LDL) sangüíneo. Para tanto submeteu 29 indivíduos EXEMPLO 5.3: Suponha que um laboratório tenha encon
ao teste do medicamento. Mediu o colesterol antes e depois de dar o medicamento. Os resultados estão na tabela a seguir (próxima página). Testar se o medicamento reduziu o colesterol para um nível de significância de 1%.
Individuo LDL (antes) LDL (depois) Diferença (Antes - Depois)
1 142 131 11 2 149 143 6 3 160 122 38 4 142 137 5
38 147 -9 6 151 139 12 7 -2 8 158 136 22 9 10 151 130 1
153 -6 151 141 10
13 170 146 24 14 145 152 -7
137 121 16 158 136 22
17 142 135 7 18 153 132 21 19 145 140 5 20 159 157 2 21 159 142 17 22 150 154 -4
-7 12
25 1 37 26 1 16 27 134 -6
149
50,00 140,0 9,93
5 1
152 154
145 119 26 2
11 147 12
15 16
23 128 135 24 154 142
71 134 64 148
140 14728
29 144 151
4 -5
Média 1 7 Desvio 10,05 9,98 13,11
125
≠ 0:1
0
dif
dif
H µ
SOLUÇÃO: 1. Hipóteses:
⎧ = 0:H µ
⎪⎩
⎪⎨
2. Fixar α =0,01. 3. Estatística do teste difX tem distribuição t-Student com 28 graus de liberdade. 4. Da tabela da t-student temos que t = 2,76
3. Calcular a Estatística 078,4
2911,1393,9
==ct
6. Como , a nossa decisão será rejeitar . 7. Logo temos que o medicamento produziu redução significativa do colesterol para um
índice de significância de 0,01.
RCtc ∈= )078,4( H0
t = 2,76 -t = -2,76
126
6. TESTE PARA PROPORÇÕES (QUI-QUADRADO) Apresentamos aqui um teste de hipóteses estatística que utiliza o modelo Qui-Quadrado e por esta r om , de testes Qui-Quadrado. O objetivo dos teste para dados categorizados é determina ndo ritéri lido de decisão, se o fator discriminante exerce alguma influência sobre or dis nado. As hipóteses são onstruídas como de costume, H0: pA1 = pA2 = ... = pAr, ou seja, que as categorias de A
exerçam a mesma influência sobre as categorias de B, contra H1 de que pelo m a categoria apresenta diferenças em relação a B. Neste caso particular, é importante salientar
ue as tabelas do tipo 2x2 (duas classificações para cada variável) são as que apresentam resultados mais claros, uma vez que, provada a existência de uma diferença, ela somente
ode existir entre as duas categorias de A. Teste Qui-Quadrado Clássico
azão são den inadosr, segu algum c o vá
o fat crimic
enos um
q
p
Tabela 1 - Valores Observados
Variável B Variável A Categoria Categori ... Categoria
1 2 k Totais a
Categoria 1 O11 O12 ... O1k A1Categoria 2 O21 O22 ... O2k A2... ... ... ... ... ... Categoria r Or1 Or2 ... Ork ArTotais B1 B2 ... Bk N
Partindo da tabela de contingência gerada através do cruzamento das duas variáveis
em estudo (Tabela 1), o primeiro passo consiste em construir a tabela de valores esperados, de dimensões kr × . Os valores desta tabela são calculados da seguinte forma:
kjrinBA
E jiij ,...,1 e ,...,1, ===
Tabela 2 - Valores Esperados
Variável B
Assim podemos formar a seguinte tabela:
Variável A Categoria 1
Categoria 2
... Categoria k
Totais
Categoria 1 E11 E12 ... E1k A1Categoria 2 E21 E22 ... E2k A2... ... ... ... ... ... Categoria r Er1 Er2 ... Erk ArTotais B1 B2 ... Bk n
Posteriormente, calcula-se a estatística de teste:
( )
∑∑= =
−=
r
i
k
j ij
ijijc E
EO
1 1
22χ
127
Essa expressão corresponde ao teste Qui-Quadrado de independência clássico. Sua ico pode ser
sado quando o número total de observações é maior que 40. Se o número de dados estiver ntre 2
utilização, contudo, não pode ser indiscriminada. O teste Qui-Quadrado clássue 0 e 40, e o valor esperado das células for maior do que 5, o teste Qui-Quadrado pode ser empregado utilizando-se a expressão:
( )∑∑
= =
denominada correção de Yates. O valor obtido é comparado com o valor Qui-quadrado referência (tabelado ou obtido computacionalmente), versus . O valor tabelado está associado a um determinado número de graus de liberdade e de nível de significância. Os graus de liberdade são calculados fazendo G.L. = (r-1)(k-1). Aplica-se, então, a seguinte regra de decisão:
i
inal
−−=
r
i
k
j ij
ijijc E
EO
1 1
2
25,0
χ
2cχ 2
TABχ
Se ∈2
cχ RC, então, H0 deve ser rejeitada, caso contrário aceito H0. EXEMPLO 6.1: A tabela abaixo mostra os resultados de um ensaio com 154 pacientes que
apresentavam dor abdominal, tratada pela administração de brometo de pinavério (dois comprimidos/ d a), grupo tratamento. Ao grupo controle foi administrado um placebo.
Ingestão de brometo de pinavério e alívio da dor abdominal
Dor abdom
RC
Grupo Total Sim Não Tratamento 6 57 63 Controle 30 61 91 Total 36 118 154
Para testar a eficiência do uso do sal no tratamento da dor abdominal, pode ser
efetuado o teste Qui-Quadrado Clássico. (n>40) 1º pass
TC PPH :1
A hipótese nula refere que os resultados dos grupos tratamento e controle são iguais.
Dessa forma, do ponto de vista clínico, interessa rejeição de H0 (aceitação de H1), que indicaria a eficiência da droga.
o: Hipóteses Nesse caso, as hipóteses seriam, ⎧ = TC PPH :0 ⎩⎨ ≠
128
129
2º passo: Construção da matriz de valores esperados
Dor abdominal Grupo Sim Não Total
Tratamento 14,73 48,27 63 Controle 21,27 69,73 91 Total 36 118 154
73,14
1543663
11 =×
=E , 27,48154
1186312 =
×=E , 27,21
15436 73,69
15411891
22 =×
=E 9121 =
×=E e
3º passo: Quantificação das diferenças entre as tabelas de valores Observados e Esperados:
( )4290,11)73,6961()27,2130()27,4857(
73,14)73,146( 222
1 1
222 =
−+
−+
−+
−=
−= ∑∑ 73,6927,2127,48= =
4º passo: Decisão estatística O número de graus de liberdade para uma tabela 2x2 é igual a 1. para estes graus de liberdade, os níveis clássicos de significância têm valores:
Como o valor calculado é maior que o valor tabelado ao nível de significância de 1%, então, H0 deve ser rejeitada. Assim fica comprovado o efeito terapêutico do brometo de pinavério no alívio das dores abdominias.
xiste uma variação deste teste que é chamado teste Exato de Fisher e é utilizado em tab
r
i
k
j ij
ijijc E
EOχ
0,01
6354,62TAB =χ
Eelas 2x2 quando o número total de casos é inferior a 20.
7. TESTES DE SIGNIFICÂNCIA PARA MAIS DE DUAS AMOSTRAS
Geralmente, é comum o pesquisador se deparar com situações em que se desejavaliar a diferença entre mais de duas médias. Por exemplo, suponha que al
a guém suspeite
que a população brasileira, em termos de altura, não é homogênea ao se comparar às regiões: sul (1), sudeste (2) e nordeste (3). Tomaríamos uma amostra de cada região e mensuraríamos a altura. Por fim, o que faríamos para testar se a região influência na altura?
Inicialmente, parece razoável fazer testes t, dois a dois para verificar as diferenças. Entreta nimos a significância ou região de rejeição para o teste t, o fazemos r o erro do tipo I. Cada teste teria um índice de s m índice de significância único para
nto, lembre-se de que quando defi, baseados na probabilidade de comete
ignificância α. Ou seja, não podemos estabelecer uar baseado nas hipót test a hipótese H0: 21 µµ == 3µ ese formuladas nos testes
t. Portanto, usar testes t dois a dois não resolve nosso problema, pois não saberemos quando aceitar ou rejeitar a hipótese nula original que é 321 µµµ == .
7.1 TESTES DE SIGNIFICÂNCIA PARA MÚLTIPLA MÉDIAS
Não existe um teste para a diferença entre mais de duas médias baseadas apenas nas regado então é a análise de variância ou ANOVA (do inglês,
nalysis of variance). A esta altura pode-se perguntar: como que vou testar as médias variâncias? Em primeiro lugar, lembre-se de que um dos pressupostos à
utilização dos testes paramétricos é que as variâncias sejam iguais. Se H0 é verdadeira, conceitualmente, é como se todas as amostras tivessem sido tiradas de uma mesma população, se falsa vêm de populações diferentes, mesmo assim, devem ter variâncias
os então entender como avaliar a diferença entre as médias baseado nas s tre as variâncias de nossas amostras.
sist es individuais e todos os fatores ue não são explicados pela parte sistemática. Matematicamente, temos
médias. O teste a ser empabaseados nas
iguais. Vamdiferença en
Para estudarmos a situação apresentada anteriormente consideramos um modelo estatístico, onde cada observação Yi pode ser decomposta em duas componentes:
emática e aleatória, esta última representando variaçõq
ii eY += µ , .,,1 ni K= Assim, se Yi representa a observação associada ao i-ésimo indivíduo, a parte
ca µ pode ser vista como a média populacional que é fixa e a parte aleatória ei o indivíduo e outros fatores que podem influir nas
bservações e não são modelados por µ. Assim, suponha que estamos interessados em s médias de K s, isto é, testar:
ji umm pelo para j ,32
µµµµ
Para tanto, obtemos K amostras independentes, com víduos cad Nesta indivíduo, da i-
Modelo 1:
sistemáticomo a informação referente aocomparar a⎧ =H : 10 µ
populaçõe queremos
⎩ i1⎨H : ≠≠
= enos
nk indi a.
situação, temos que de um modo geral, o modelo estatístico para o j-ésimoésima população é dado por:
ijiij eY += µ , ki ,,1K= ; .,,1 knj K=
Caso a hipótese H0 seja verdadeira, então teremos que todas as médias para as K
populações serão iguais, digamos, a µ, e o modelo pode então ser escrito como:
130
Modelo 0: *ijij eY += µ , ki ,,1K= ; .,,1 knj K=
Note que, em ambos os modelos, temos alguma informação que não está sendo explicada pela parte sistemática que, para o j-ésimo indivíduo do grupo i está sendo deixada em ije no Modelo 1 e em *
ije no Modelo 0. Uma forma de levar em conta estas quantidades para todos os indivíduos é através das somas de quadrados:
∑∑= =
−= iji
ij Ye1 1
2
j
i
Y1 1
2
1µ
]Essas expressões envolvem as quantidades desconhecidas µi, e µ.
Utilizaremos os dados para obter as estima corres ntes. L ando-se em conta que no Modelo 1 estam ndo ntes s paras as K populações, consideremos os
a dessas populações para estimar a correspondente média. ssim, segundo o Modelo 1 temos:
( )∑∑= =i j1 1
K ni
iµ eK ni
j
2 ( )∑∑∑∑= == =
−=K
i
n
jij
K
i
ni2*
ije1
)(
ki ,,1K=tivas ponde ev
os po su difere médiadados oriundos de cada umA
ii
n
jij
i Yn
Yi
==∑
=1µ com ki ,,1K=
e para o Modelo 0:
YYn
K
i
n
jij
i
== ∑∑= =1 1
1µ com .1 knnn ++= K
Assim, definimos as quantidades SQD, SQT e SQE, dadas por:
( ) ( )∑∑ ∑∑ ∑∑∑= = = = == = i j i j i
iiijiiji j
iij1 1 1 1 11 1
−=−=−=K
YnYYYYSQD 2222µ K n K nK n i ii
( ) ∑∑∑∑= == =
−=−=K
i
n
jij
K
i
n
jij
ii
YnYYSQT1 1
22
1 1
2µ
( ) ∑∑=
=−=i
nSQDSQTSQE1 =
−=−i
ii
K
iji YnYnYY1
222 .
siglas SQT, S baseiam inte in QT co ponde total dos da ma c variab presente dentro dos
grupos e SQE a variabilidade tre os grupos. a das som de quadrado idas envolv certo núm ro de
ades que estão send timadas. Por o, SQT conté
K
As à variação
QD e SQE dos; SQD é u
-se na seguombinação da
terpretação. Silidade
rres
enCada um as s defin e um e
quantid o es exempl m Y , SQD contém iY , i k,,1K , etc. A fim de levar este fato em con
drados médios: = sideração, definimos os correspondentes uaq
1−=
SQTQMT ; quadrado médio total; n
KnSQDMD = ; quadrado médio dentro; e Q
−
1−=
KSQEQME ; quadrado médio entre.
O teste estatístico para testar a hipótese H0 deve envolver estas quantidades. Se a
hipótese H0 não for verdadeira, então, o Modelo 1 deve ser mais adequado aos dados do que o Modelo 0. Em outras palavras, os resíduos produzidos pelo Modelo 1 serão menores
131
que os do Modelo 0. Dessa forma podemos interpretar QME como sendo a quantificação da informação contida nos dados que é captada pelo Modelo 1 e QMD a quantificação da parte que não é explicada pelo Modelo 1. Portanto, se QME for grande quando comparado a QMD, a parte sistemática do Modelo 1 estará captando grande parte da informação dos dados e a hipótese H0 deverá ser rejeitada. Assim temos a estatística de teste:
QMDQMEF =
Quanto maior for o valor de F, maior será QME comparado a QMD e assim maiores as evidências contra H0. Por fim, precisamos encontrar a distribuição de probabilidade da estatística F.
Supondo as seguintes condições: são variáveis aleatórias independentes, Todas as K populações têm variâncias iguais a σ2, tem distribuição Normal.
Pode ser mostrado que a estatística de teste F tem distribuição de Fisher-Snedecor
com (K-1) graus de liberdade no numerador e (n-K) graus de liberdade no denominador. Das três suposições a mais importante é a de homocedasticidade, ou seja, de que as
variâncias são iguais, e a suposição de normalidade pode ser relaxada se n for grande. Passos do teste ANOVA. 1. Hipóteses:
2. Fixar
ijY
ijY
⎩⎨⎧
≠≠==
ji um menos pelo para HH
ji ,::
1
3210
µµµµµ
α . 3. Estatística do Teste: F tem distribuição de Fisher com K-1 graus de liberdade no
numerador e n-K graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
4. Calcular a estatística de teste: Fonte de Variação
Graus de Liberdade
Soma de Quadrados
Quadrado Médio FC
Entre K –1 SQE QME QME/QMDDentro n – K SQD QMD - Total n-1 SQT QMT - 6. Decisão: Rejeita-se ou não Depende da Região Crítica do passo 4. Se
H0 ?RCFc ∈ , rejeita-se . Caso contrário, aceita-se .
7. Conclusão
Fα
H0 H0
132
EXEMPLO: Três treinadores de voleibol discutiam sobre as suas formas diferentes de melhorar a altura do salto vertical de atletas. Para testar a eficiência de um método sobre o outmediraConsidse exiscontend
geral
ro, cada um treinou 5 indivíduos com o seu método particular. Depois do treinamento, m a altura que cada indivíduo saltava. A resposta está apresentada na tabela abaixo. erando a variável altura do salto vertical como tendo distribuição normal, verificar te um método melhor que outro para uma significância de 5%. A seguir a tabela o a altura atingida pelos atletas em metros nos três métodos de treinamento.
Atleta Método 1 Método 2 Método 3 Média
1 43,4 46,6 46,1 2 45,1 47,2 47,5 3 45,3 44,5 46,4 4 45,2 45,8 48,5 5 46,1 45,7 46,6
Média 45,0 46,0 47,0 46,0 SO 1. Hipó
≠≠==
spel para HH
ji ,::
1
3210
µµµµµ
. Fixa
LUÇÃO:
teses:
⎩⎨⎧
ji um meno o
2 r α =0,05.
tística do Teste: F tem dis 3. Esta tribuição de Fisher com 2 graus de liberdade no
numerador e 12 graus de liberdade no denominador. 4. A Região Crítica irá depender da hipótese alternativa (Região Grifada). Então,
ular a estatística de teste:
Fα=3,88
7. Calc Fonte de Variação
Graus de Libe
Quadrado dio FC
Soma de Q ados rdade uadr Mé
Entre 10,01 1 5,04 2 5,0Dentro 12 1 99 - Total 14 21,92 - -
11,9 0,
8. Decisão: Como FC > F�, então rejeitamos 0. A altura do salto vertical dos atletas diferem em função dos métodos 1, 2 e 3.
U
H
ma pergunta a seguir seria: Qual é o melhor?
133
Realmente desejamos saber qual método produziu saltos mais altos. Sem entrar em s, existem testes post hoc para nos dar tal informação. Um deles é o de Tukey. Se os para as m
detalheolharm édias, parece que a média do método 3 é a maior. Basicamente, o teste
e Tukey calcula a diferença mínima a ser considerada significativa a partir de uma estatística que se utiliza da variância total, e a com as d ntre as médias, calculadas duas a duas. Se a diferença for maior que a mínim nsidera-se que a diferença é significativa. Podemos perguntar então, por que não fazTukey? Lem Tukey só faz sentido se a diferença for significativa pela ANOVA.
Para o exemplo acima, fazendo o teste de Tukey via método computacional (os método e ferramenta para resolver nossas questões),
ríamos que, o método 3 foi maior que o método 2 e que o método 1, e que não houve iferen
dpara com iferenças e
a, coemos direto o teste de
bremos que o teste de
s computacionais são uma excelentted ça entre o método 2 e o método 1.
134
EXER
1) Para um certo tipo de lesã a recuperação completa é quase certa. O Dr. Vertebroni, suspeita que o tempo de recuperação está relacionado à terapia administrada. De 50 pacientes que ele tratou por métodos físicos, somente 38 recuperaram-se durante o prime e 12 rec am-se durante o segundo ano. De 75 pacien ele tratou ma com de drogas e repouso, 43 recuperaram-se durante o prime e 32 d o segundo ano. Estes resultados dão suport à teoria do nível de significância de 1%?
2) O tempo de permanê cia de psicó ecém form no 1º emprego, em anos,
foi estudado considerando um m média e variância desconhecidas. Por analogia com outras categorias profissionais, deseja-se testar se
3)
a am stra al ór om 2 ár , r strando o tempo (e o g por cada um n n o novo prod
5 , 9 1
4)
omprovar a alegação do laboratório, um organismo de controle testou em 180 pacientes, verificando a ação da droga em 147 casos. O teste a eficiência
lo , ao nível de significâ % 5) Uma vacina que se supõe eficaz para prevenir os resfriados, foi testada em 500
uos comp ano, com os onde 500 indivíduos não vacinad . Os resu os seguintes:
s Obse das
Nenhum Resfriado
Um resfriado
ais de uResfriad
CÍCIOS
o da coluna vertebral,
iro ano uperartes que com u binação
iro ano urantee Dr. Vertebroni com
n logos rodelo Norm
ados al com
o tempo médio é superior a 2 anos. Para uma amostra de 15 psicólogos, a média obtida foi de 2,7 anos e o desvio padrão de 1,4 anos. Ao nível de significância de 1%, qual a conclusão do teste?
Uma empresa de informática lança um novo software no mercado. Com o objetivo de estimar o tempo médio para aprender a usar o software, a empresa utiliza um
o eat ia c 1 usu ios egi m h ras) asto dos selecio ados para apre der a usar uto:
1,7 2 25 2,40 1, 0 ,50 2,752,15 2,25 1,80 2,20 3,25 2,60
Supondo que o tempo de aprendizado tem distribuição normal, teste a hipótese de que o tempo médio de aprendizado do novo software é menor que 2,5 horas, ao nível de 4% de significância.
Obs: Pode usar, para facilitar nos cálculos, as seguintes aproximações:
Suponha que um laboratório alegue que uma determinada droga que ele comercializa é eficiente em pelo menos 80% dos casos em que é utilizada. Suponha que, para c
e 8,2612
1i
12
1= ∑∑
==iix
alegada pe laboratório ncia de 10 .
indivíd e os resultados foram arados, durante umcorresp ntes a os ltados foram
Freqüência rvaM m Total
o Vacinado 145 103 500 s 252 Não vacinados 224 136 140 500 476 281 243 1.000
Há evidências quanto à eficiência da vacina ao nível de significância de 5%?
6) A cada elemento de uma amostra de 250 homens de uma população de suspeitos de
possuírem enfermidade nas articulações foi perguntado qual de três sintomas o
135
incomodava mais. A mesma questão foi perguntada a uma amostra de 300 a mesma suspeita de enfermidades. Os resultados foram os
seguintes:
Homens Mulheres
mulheres com
Sintoma que mais incomodava Rigidez matinal 111 102 Dor noturna 59 73 Articulação inchada 80 125 TOTAL 250 300
7) Quinhentos escolares de primeiro grau menor foram classificados em uma tabela
criada, por grupo sócio-econômico e a presença ou ausência de um certo defeito na fala. Os resultados foram os seguintes:
Grupo Sócio Econômico
Os sintomas diferem entre os sexos?
Defeito da Fala Superior Médio Superior
Médio Baixo
Baixo TOTAL
Presente 8 24 32 27 91 Ausente 42 121 138 108 409 TOTAL 50 145 170 135 500
Então estes dados compatíveis com a hipótese que o defeito na fala é não correlacionado com o status sócio-econômico?
8) Seis estudantes aprenderam álgebra pelo método padrão de ensino, com o professor
expondo o assunto na sala de aula e doze outros estudantes aprenderam álgebra de acordo com um curso televisionado. As notas alcançadas pelos alunos no final de um único teste foram:
Sala de aula 68 69 74 79 80 84 Pela TV 60 64 65 66 67 70 72 73 76 77 78 81
O ensino televisionado é mais proveitoso que o ensino ao vivo? (Use α=0,05).
9) Os dados da tabela a seguir são escores de autoritarismo de uma amostra aleatória de 14 estudantes de uma escola pública e de 14 estudantes de uma escola da rede particular de ensino. Suponha que um estudante que tem um escore, digamos 93, é mais autoritário do que um estudante que tem um escore, digamos 88:
Pública 60 80 65 100 95 88 70 104 75 85 110 55 40 45 Particular 98 87 133 115 93 140 67 134 106 81 111 56 41 42
É razoável assumir a um nível de significância de 1% que os estudantes da escola particular são mais autoritários que os estudantes das escolas públicas?
10) Uma loja de departamentos está interessada em saber se existem diferenças entre
as quantias faturadas em três formas de pagamento: dinheiro(D), cheque(C) e cartão de crédito(CC). Um levantamento das vendas em um dado período de tempo foi feito, produzindo os dados apresentados na tabela a seguir que representam o
136
valor de algumas vendas em reais. Existe diferença entre os tipos de vendas? (Use o nível de significância de 5%).
Formas de pagamento
D C CC 52,10 80,90 73,25 20,99 54,29 56,65 32,38 40,95 126,21 28,64 72,65 56,50
132,47 39,29 65,32 44,65 60,00 39,64
11) Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a alegação de que o tratamento empregado não contribui para a diminuição do peso. O advogado de defesa contratou um estatístico, que selecionou aleatoriamente 12 prontuários que continham informação a respeito dos pesos dos pacientes, tomados no início e no final do tratamento. Os dados obtidos foram (em kg):
1 2 3 4 5 6 7 8 9 10 11 12 Início 82 104 94 63 70 80 103 56 79 84 81 78 Final 78 93 87 61 71 82 94 65 79 80 81 82
12) Fatores de risco para infecção chagástica – um estudo de caso-controle (2:1) de
base populacional foi delineado para avaliar fatores de risco associados à infecção pelo T. cruzi na infância, em municípios do nordeste do Estado de Goiás/ Brasil. Para tal 1990 crianças de 7-12 anos foram triadas sorologicamente para seleção de 149 crianças soropositivas (casos) e 298 soronegativas (controles). Casos e controles foram pareados por sexo, freqüência de idade e localidade. A base de dados “dadosch.txt” que está localizado na pasta “\Bioestatística\” possui as variáveis:
Variável Descrição Código Descrição do Código
Verifique se alegação procede ao nível de significância de 5%.
Grupo Caso/ Controle 1 2
Caso Controle
Idade Idade em anos completos 7 a 12 Sexo Sexo 1
2 Masculino Feminino
Munres Município de Residência 1 2 3
Posse Guarani de Goiás Simolândia
Morb Antecedentes mórbidos 1 2 9
Não Sim Sem informação
Hosp Hospitalização 1 2 9
Não Sim Sem informação
137
a) Crie uma variável nova chamada faixa etária (faixa) distribuindo as crianças em
io de residência, antecedentes mórbidos e hospitalização. Transcreva as tabelas geradas para a folha de prova bem os p-valores e os testes utilizados em cada tabela.
c) Com base nas tabelas geradas, interprete os resultados obtidos.
Então:
dois grupos: 7 a 9 anos e 10 a 12 anos. b) Faça um estudo comparativo entre casos e controles. Construa tabelas com as
características dos casos e controles, incluindo sexo, faixa etária, idade, municíp
138
VIII. ANÁLISE DE REGRESSÃO
139
1. REGRESSÃO LINEAR SIMPLES
Estamos interessados em saber se existe relação entre duas variáveis, mas, além disso, temos interesse em verificar sua relação de casualidade, isto é, queremos quantificar qual é a mudança observada em uma das variáveis quando variamos os valores da outra. Exemplo 1:Em uma dada Região Bocaina, SP, acredita-se que o gado que permanece em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada para melhorar o ganho de peso dos bovinos, Foram escolhidos 15 bois de uma mesma raça e idade. Cada animal recebeu uma determinada concentração de substância X (em ml/l) e o ganho de peso G, em kg, após 30 dias foi anotado. Os dados obtidos foram:
X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 G 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 25,5 24,7 23,1
Observando a tabela de dados notamos que, de fato, à medida que aumenta a concentração da substância, ocorre um aumento no ganho de peso. Calculando o coeficiente de correlação linear entre a concentração de X e o ganho de peso, obtemos 0.98 de forma que a variação de uma das variáveis é sensivelmente influenciada pela variação da outra, confirmando a relação entre elas.
X ocorre aumento no ganho de peso dos animais, o que é confirmado pelo sinal positivo do coeficiente de correlação.
Para observarmos como as variáveis se relacionam, construímos um gráfico de dispersão apresentado na Figura_1, onde nota-se que os pontos tendem a se alinhar sobre uma reta. Como mencionamos anteriormente, a figura mostra que a medida que aumenta a concentração de
0,0
5,0
10,0
15,0
20,0
25,0
30,0
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0
Concentração da Substância (mL/l)
Gan
ho d
e Pe
so (k
g)
Relação entre concentração da substância e peso
Figura 1 –
140
U nd desentiliza o o volvimento da Análise de Variância apresentada na seção nterior, iremos estudar situações como a apresentada no último exemplo. Dado o conjunto e valores representado por (Xi, Yi), i = 1,...,n, o modelo estatístico que iremos utilizar é
dados por Yi = g(Xi) + ei
to é, o comportamento de Yi é explicado em parte por Xi, através da função g(Xi) e o que ão é captado por essa função, é representado por ei . Várias opções para g(Xi) podem ser tilizadas mas a que define o modelo de regressão linear simples é
g(Xi) = α + β Xi
Portanto, dado um valor pré-fixado xi para Xi, o modelo pode ser reescrito como Yi = α + β Xi + ei
Além disso, assumimos que os termos ei , i = 1,..., n, são independentes e istribuídos conforme um modelo Normal de média 0 e variância σ2.
Em modelos de regressão, a variável Yi é comumente denominada de variável resposta ou variável dependente, ao passo que cada variável Xi é chamada de variável independente, explicativa ou ainda covariável.
Como conseqüência da definição, temos que para Xi = xi , i = 1,...,n, as variáveis Yi são independentes e
Yi ~N(α + βXi , σ 2), i = 1,…,n.
Os parâmetros do modelo sobre em que temos o maior interesse α e β. Além de dar a forma matemática do modelo, eles têm interpretações muito úteis na prática. O parâmetro α é o valor esperado par a variável dependente Yi quando Xi é igual a zero. Para melhor interpretar o parâmetro β, considere dois valores para Xi , dados por x e x + 1 e represente por E(Y | X = x) ao valor esperado da variável resposta quando X = x. Então,
E(Yi | X = x + 1) = α + β(x + 1) = (α + βx) + β = E(Yi | Xi = x ) + β
os a desenvolver: a estimação dos parâmetros do odelo
es. Note que caso o ajuste fosse perfeito, todos os pontos todos iguais a zero.
ad
isnu
d
Assim, vemos que β = E(Yi | X = x + 1) - E(Yi | Xi = x ) representa o acréscimo esperado na variável resposta, quando a covariável é acrescida em uma unidade. Isto nos fornece uma idéia a respeito da intensidade com a qual a covariável atua na resposta.
Temos agora que dois procedimentm e o desenvolvimento de testes de hipótese de interesse.
A estimação de α e β pode ser feita através do método dos mínimos quadrados, que consiste em minimizar a soma de quadrados dos resíduos obtidos através da diferença entre valores observados y e valores esperados E(Y | X = x ) calculados para cada X = x. A
igura_2 ilustra essas quantidadFestariam alinhados sobre a reta e os resíduos e seriam
141
Portanto, dado que em geral os pontos estão perfeitamente alinhados, escolhemos a melhor” reta possível no sentido de minimizar, com relação a α e a β, a soma de
quadrados SQ(α, β), dada por
2
ontas a cargo do leitor, apresentando qui a solução para o sistema, que fornecerá os estimadores de mínimos quadrados para α β, dados por
“
( )( )2
1|),( ∑
=
=−=n
iiiii xXYEySQ βα
( ) ∑∑==
−−=n
ii
n
iii exy
1
2
1βα
Matematicamente, temos que resolver o sistema de equações envolvendo as erivadas SQ(α,β) em relação a α e β. Deixemos as c
=
dae
∑
∑
=
=
−
−= += exy ˆˆ βα n
ii
n
iii
xnx
yxnyx
1
22
1β
xemplo2: E Vimos no exemplo anterior que uma reta pode ser utilizada para representar a o efeito da concentração X no ganho de peso. Para obtermos essa reta, utilizamos as
estimativas α ˆ e β . Temos que n = 15, ∑ ∑= =
=x2 70,2;39,63 e ==i i
iii xyx1 1
1;35,790n n
.21,16=y Logo,
48 ,270,239,163
1670,2
1
22=
×−×
=−
=
∑
∑
=
n
ii
n
i
nx
e assim,
1521,21535,790 ×−β 1
−=
ii yxnyx
x
52,970,248,221,16ˆˆ =×−=−= xy βα
Portanto, dado X = xi , temos que a reta ajustada fornece valores dados por
iy
142
iii xxy 48,242,9ˆˆˆ +=+= βα
A Figura_3 moo modelo de regressão linear simples ap
stra os dados originais e a reta ajustada que foi obtida. Observe que resenta um ajuste adequado aos dados
apresentados.
A interpretação dos valores estimados é feita da seguinte formue não recebem a substância X é 9,52kg (obtido
a. O ganho de peso substituindo Xi = 0
c utro ume na con tração de X implica e ho es ,48k
T teses en vendo os p os do m regress r simples baseiam- mposição da variação total discutida na seção anterior.
O principal teste de interesse é se a covariável influencia na resposta, o que é quivalente a testar a hipótese:
Por outro lado, caso a hipótese seja rejeitada, o modelo é:
Modelo 1: Yi = α + βXi + ei i = 1,...,n
esperado em bovinos qna equaç da aão calcula
m um ganima). Por oerado de 2
lado, um ag.
nto de 1mg/l cenp
este de hipó vol arâmetr odelo de ão linease na deco
e
H0: β = 0
Caso está hipótese não seja rejeitada, temos o modelo dado por:
Modelo 0: Yi = µ + ei i = 1,..., n
143
O Modelo 0 gera a soma de quadrados total, dada por
( ) ,1
2∑=
que contém a variação total contida os dados. Por outro lado, o Modelo 1 gera a soma de quadrados residual, dada por
−=n
Ii yySQT
( ) ,ˆˆRe1
∑2
=
n
que contém a variação dos dados que não é explicada pelo modelo. A difd
−−=i
ii yysSQ βα
erença entre as uas fornece a chamada soma de quadrados da regressão, dada por
−= ( )∑
=
−×=n
ii xx
1
22β
sSQSQTgSQ ReRe
Note que SQT envolve a média y , e assim, temos n-1 graus de liberdade
associados a essa quantidade; vo vas, β , αs nSQ Re e lve duas estimati e e im temo n-2 graus de liberdade. Logo, para tem n – 1 – (n - 2) = 1 grau de liberdade. Conseqüentemente, definim édios por
ass sgSQ Re os
os quadrados m
21 −− nn
Re,2==sSQSSQTQMT Re =sQM e Re gSQ
1
Onde, dessa forma, a razão dada por
Re gQM =
sQMgQMF
ReRe
=
a estatística de teste para verificar a hipótese de interesse. Pode ser mostrado que F tem
distribuição de Fisher com 1 e n-2 graus de lio on uí s b d N A ar m e
éberdade.
Em resum , c str mo a a t ela e A OV p a o od lo Y iii eX ++= βα , da
e Quadrado Médio
F
da por:
Fonte de Variação
Grau de Liberdade
Soma dQuadrados
Regressão 1 gSQ Re gQM Re sQMgQM ReReResidual - 2−n sSQ Re sQM Re
Total - 1−n SQT QMT
144
Exemplo3: Para o Exemplo1, que estuda o ganho de peso de bovinos, a evidência cia da concentração de X no ganho de peso é obtida através
o teste de hipótese: estatística a respeito da influênd 0:0 =βH contra 0:1 ≠βH .
Para obter os valores de gQM Re e sQM Re pode-se usar a planilha eletrônica.
Temos,
( ) 5448,2ˆRe 222 ×=−= ∑n
i xxgSQ β 37,33204,1
==i
2
=−−= ∑( ) ;34,12ˆˆ1=
n
ii yy βα i
Re sSQ
em que as contas intermediárias são apresentadas na tabela a seguir.
i ( )2ˆˆ ii yy βα −− ( )2xxi − 1 0,25 6,25 2 0,58 4,84 3 1,92 4,41 4 0,95 4,00 5 0,00 2,89 6 0,24 1,44 7 0,02 0,49 8 0,39 0,04 9 0,40 0,09 10 0,18 0,64 11 0,34 1,69 12 0,40 3,24 13 2,68 5,29 14 2,54 7,84 15 1,46 10,89
Total 12,34 54,04
Variação Liberdade Soma de
Quadrados Quadrado
Médio F
A tabela da variância para o modelo de regressão proposto fica
Fonte de Grau de
Regressão 1 332,37 332,37 349,86 Residual 13 12,34 0,95
Total 14 344,71 24,62
O valor crítico é obtido da distribuição de Fisher com 1 e 13 graus de liberdade. aso, considerando um nível de significância α = 0,01 obtemos f = 9,07.
Nesse c
Como 86,349=obsF pertence a RC, então, rejeitamos a hipótese nula e concluímos stem evidências estatísticas de que a concentração da substância
f = 9,07
qpeso.
ue exi X altera o ganho de
145
EXERCÍCIOS
1. Um estudo deseja avaliar o efeito de determinado treinamento no tempo de reação de atatletaatribuído, denotado por X e o tempo de reação denotado por Y, foi medido (em ms). Uma reta de mínimos quadrados foi ajustada aos dados, fornecendo a equação.
letas. O treinamento consiste na repetição de certo movimento e uma amostra de 37 s foi utilizada no experimento. Para cada atleta, um certo número de repetições foi
nixy ii ,,190,05,80 K=−=
Interprete as estimativas, dos parâmetros do modelo, obtidas.
. Para verificar o efeito da variável X sobre a variável Y, foi realizado um experimento, que forneceu os pares ( )ii yx , d
2ados por ( ) ( ) ( )9,15;5,3,24;7,3,13;3 ,
)( ) ( ) ( ) ( ( ) ( ) ( ) ( ).6,4;1,0, Obtenha 12;2,,3,23;5,5,14;3,5,2;2 a reta aj a. Faç o baseando-se nos pares de valores fornecidos e sobreponha à reta ajustada. Baseando-se apenas no gráfico você diria que o ajuste é adequado?
3. Para verificar se existe relação entre a renda familiar (em salários mínimos) e o número de f oi coletada um amílias em uma cidade. Os resultados obtidos es tabel
Renda Familiar
6,32;829;7,6,99,8,12;ustad a o diagrama de dispersã
ilhos, ftão na
a amostra de 8 fa a seguir:
12 14 15 17 23 27 34 43 Filhos 3 2 2 1 1 0 0 0
a. m um diagrama de dispersão e no
bda influi no número de filhos, considerando α = 5%.
4 Um
corretamente. No experimento realizado, 15 pessoas foram selecionadas ao acaso e a cada uma delas perguntou-se os pesos, que depois foram aferidos em balanças devidamente calibradas. Os resultados são apresentados a seguir:
Indivíduo
Que conclusões podem ser tiradas baseando-se ecoeficiente de correlação?
. Calcule a reta de mínimos quadrados e interprete os parâmetros. Realize o teste statístico para verificar se a rene
. estudo foi conduzido para verificar se as pessoas estimam os prórpios pesos
Peso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Estimado 82 58 69 70 54 62 92 75 45 81 78 65 56 63 70 Real 83 57 73 76 55 60 98 74 44 82 76 67 54 60 71
O que pode ser concluído a partir dos dados?
146
EXERCÍCIOS PRÁTICOS
ara responder as questões 1, 2 e 3 utilize um computador. O software utilizado para tal ica a seu critério, sendo necessário apenas transcrever os testes utilizados bem como esultados obtidos, para a folha de resolução da prova. Para resolução deste dois xercícios utilize o banco de dados “cancer.txt” que está localizado na pasta “\Meus ocumentos\Bioestatística\”. O banco “cancer.txt” contém os dados de uma pesquisa sobre cidência de câncer e possui as seguintes variáveis:
D: Identificação do paciente. rupo: Diagnóstico 1-Falso-negativo: diagnosticados como não tendo a doença quando na verdade a tinham. 2-Negativo: diagnosticados como não tendo a doença quando de fato não a tinham. 3-Positivo: diagnosticados corretamente como tendo a doença. 4-Falso-positivo: diagnosticados como tendo a doença quando na verdade não tinham.
ade: Idade do paciente.
itrogenio: Nitrogênio na uréia.
. O objetivo aqui é verificar se ao nível de significância de 5%:
a. Os níveis de nitrogê ntre diagnósticos (grupo)? Justifique.
b. A idade difere em média entre diagnósticos (grupo)? Justifique.
2. Deseja-se agora verificar se conforme aumenta a idade, muda a concentração de nitrogênio na uréia. Para tal responda as perguntas abaixo:
a. A partir do banco total, selecione apenas os pacientes que têm a doença (isto é,
consideremos o grupo formado por pacientes cujo diagnósticos é Falso-negativo ou Positivo). Construa um gráfico de dispersão para idade e concentração de nitrogênio e calcule o coeficiente de correlação de Pearson. O que pode ser dito?
b. (Ainda utilizando o conjunto dos Falso-negativo ou Positivo). Suponha que a variável dependente é a concentração de nitrogênio e que a variável independente é a idade do paciente, estime um modelo de regressão linear simples. Qual é a interpretação de b nesse caso?
c. (Ainda utilizando o conjunto dos Falso-negativo ou Positivo). Ao nível de
significância de 5%, se existe evidência estatística de que a idade influencia na concentração de nitrogênio? (Ou seja, o modelo é significativo?)
d. A partir do banco total, selecione agora apenas os pacientes que não têm a
doença (diagnóstico Negativo ou Falso-positivo). Construa um gráfico de dispersão para idade e concentração de nitrogênio e calcule o coeficiente de correlação de Pearson. O que pode ser dito?
e. (Ainda utilizando o conjunto dos negativo ou falso-positivo). Suponha que a
variável dependente é a concentração de nitrogênio e que a variável independente é a idade do paciente, estime um modelo de regressão linear simples. Qual é a interpretação de b nesse caso?
PfreDin
Ig
idn 1
nio na uréia diferem em média e
147
f. (Ainda utilizando o conjunto dos negativo ou falso-positivo). Ao nível de ca de que a idade influencia na
concentração de nitrogênio? (Ou seja, o modelo é significativo?)
g. Com base nos itens anteriores, você diria que o efeito da idade na concentração de nitrogênio difere entre pacientes com e sem doença? Compare os resultados nos itens (b) e (e).
A fim de verificar a evolução média anual dos coeficientes de mortalidade por Doenças
o Aparelho Circulatório (DAC) foi conduzido um estudo utilizando dados do Sistema de formações de Mortalidade – SIM/DATASUS, no período de 1980 a 2002. Na construção
d co nte mo os o número de óbitos por DAC nos anos de 1980 a 2002, e procedemos ao cálculo do coeficiente de m
nco de dados “dac.txt” que se encontra na t \” u i
i o D o i
significância de 5%, se existe evidência estatísti
3. dIn
os eficie s de rtalidade por regiões, utilizamortalidade por 100.000
habitantes. As séries estão apresentadas no bapasta “\Bioes atística e poss i as var áveis:
Variável Descr ção Códig escriçã do Cód go An e o a o Ano d registro dos óbit s 1980 2002 Regiao Região ê N
Nordeste SSC e
de resid ncia dos óbitos 1 2 3 4 5
orte
udeste ul entro-O ste
Coef Coefic100.00
i m d ente de 0 habitan
ortalidates
e por
Para estes dados faça:
ii
i. r d s o. cr re s
e et u
. e e v n s en o if
. d s a i o ?
Const ua um modelo e regres ão linear para cada regiã Trans eva os sultadopara a folha d prova e interpr e os res ltados.
O qu pode s r dito sobre a ariação média a ual do coefici tes por DAC n
período estudado. Just ique.
iii Há in ícios de que as variaçõe médias nuais d ferem p r região
148
I
X. TABELAS
149
150
Tabela 1a – TABELA DA DISTRIBUIÇÃO NORMAL
z 0,06 0,04 1 0,09 0,08 0,07 0,05 0,03 0,02 0,0 0 ...
-3,7 . 0 0,0001 011 .. etc <0,0001 0,00-3,6 0, 000 ,00 0,00013 0 0,00014 5 15 0,00016 00011 0, 12 0 012 0,00013 ,00014 0,0001 0,000-3,5 0, 17 0,000 ,00 0,00019 2 2 023 000 17 0 018 0,00019 0,0002 0,00021 0,0002 0,000 2 0,00-3,4 0, 24 0,000 ,00 0,00028 0 0,0003 1 3 034 000 25 0 026 0,00027 ,00029 0,0003 0,000 2 0,00-3,3 0, 000 ,00 0,0004 0 5 4 048 00035 0, 36 0 038 0,00039 ,00042 0,00043 0,0004 0,000 7 0,00-3,2 0 000 ,00 0,00058 4 6,0005 0, 52 0 054 0,00056 0,0006 0,00062 0,0006 0,000 6 0,00069 -3,1 0, 000 ,00 0,00082 0 9 097 00071 0, 74 0 076 0,00079 ,00084 0,00087 0,0009 0,000 4 0,00-3,0 001 ,00 0,00114 0 6 3 135 0,001 0, 04 0 107 0,00111 ,00118 0,00122 0,0012 0,001 1 0,00-2,9 0 3 001 ,00 ,0 0,00159 0 5 8 187 ,001 9 0, 44 0 149 0 0154 ,00164 0,00169 0,0017 0,001 1 0,00-2,8 0 001 ,00 ,0 0,00219 0 4 256 ,00193 0, 99 0 205 0 0212 ,00226 0,00233 0,0024 0,002 8 0,00-2,7 0,00264 0,00272 0,0028 0,00289 0,00298 0,00307 0,00317 0,00326 0,00336 0,00347 -2,6 0 003 ,00 ,0 0,00402 0 45 466 ,00357 0, 68 0 379 0 0391 ,00415 0,00427 0,0044 0,00 3 0,00-2,5 004 ,00 0,00539 0 7 0 621 0,0048 0, 94 0 508 0,00523 ,00554 0,0057 0,0058 0,006 4 0,00-2,4 0 006 ,00 ,0 0,00714 0,00734 0,00755 79 82 ,00639 0, 57 0 676 0 0695 0,00776 0,00 8 0,00-2,3 0 00866 0,00 ,0 0,00939 0 7 4 072 ,00842 0, 889 0 0914 ,00964 0,0099 0,0101 0,010 4 0,01-2,2 0 ,01 ,0 0,01222 0 1 5 39 ,01101 0 13 0 116 0,01191 ,01255 0,01287 0,0132 0,013 5 0,01-2,1 0 014 0, ,0 0,01578 0 43 0,01786 ,01426 0, 63 015 0 1539 ,01618 0,01659 0,017 0,017-2,0 0,018 018 ,0 , 0,02018 0 9 2 275 31 0, 76 0 1923 0 0197 ,02068 0,02118 0,0216 0,022 2 0,02-1,9 023 ,0 0 0,02559 0 3 0,0280 872 0,0233 0, 85 0 2442 ,025 ,02619 0,0268 0,0274 7 0,02-1,8 0 03 0 ,0 0,03216 0 8 1 593 ,02938 0, 005 0, 3074 0 3144 ,03288 0,03362 0,0343 0,035 5 0,03-1,7 0 73 0,03 0 , 0,04006 0 2 6 457 ,036 754 0, 3836 0 0392 ,04093 0,04182 0,0427 0,043 3 0,04-1,6 0 04 0 0,04947 0,05262 37 0,0548 ,04551 0, 648 0, 4746 0,04846 0,0505 0,05155 0,05-1,5 0 05 0 ,0 0,06057 0 6 5 681 ,05592 0, 705 0, 5821 0 5938 ,06178 0,06301 0,0642 0,065 2 0,06-1,4 0 6 0 ,0 0,07353 0 2 076 ,06811 0,0 944 0, 7078 0 7215 ,07493 0,07636 0,0778 0,079 7 0,08-1,3 0,08226 0,08379 0,08534 0,0 0,08851 0 2 51 68 8692 ,09012 0,09176 0,0934 0,09 0,09-1,2 0 0 1 ,1 0,10565 0 3 0,1131 507 ,09853 0,1 027 0, 0204 0 0383 ,10749 0,10935 0,1112 4 0,11-1,1 0 ,1 , 0,12507 0,12714 0,12924 0,13136 35 567 ,11702 0 19 0 121 0,12302 0,13 0,13-1,0 0 4 1 0,14686 0,14917 0,15151 0,15386 25 0,15866 ,13786 0,1 007 0, 4231 0,14457 0,156-0,9 0,16109 0,16354 0,16602 0,16853 0,17106 0 0,17619 9 41 0,18406 ,17361 0,1787 0,181-0,8 0 7 9 92 9 ,1 0,20045 0,20327 7 86 ,186 3 0,18 43 0,1 15 0,1 489 0 9766 0,20611 0,2089 0,211-0,7 0,2147 7 20 2 0,22965 0,2327 5 96 6 0,21 7 0,2 65 0,2 363 0,22663 0,23576 0,2388 0,241-0,6 0,2451 0,248 51 5 0,26109 0,26435 3 25 25 0,2 43 0,2 463 0,25785 0,26763 0,2709 0,274-0,5 0,2776 0 84 8 0 0 54 0,28 96 0,2 34 0,2 774 0,29116 ,2946 ,29806 0,30153 0,30503 0,308-0,4 0 07 0,315 19 2 ,3 0,32997 0,3336 58 ,312 61 0,3 18 0,3 276 0 2636 0,33724 0,3409 0,344-0,3 0,3482 1 55 5 , 0,36693 0,3707 09 7 0,35 97 0,3 69 0,3 942 0 36317 0,37448 0,37828 0,382-0,2 0,3859 9 93 9 , 0,40517 0,40905 74 1 0,38 74 0,3 58 0,3 743 0 40129 0,41294 0,41683 0,420-0,1 0,4246 858 0,43 3644 0, 0,44433 0,44828 17 5 0,42 251 0,4 44038 0,45224 0,4562 0,460
0 0,46414 0,46812 0,4721 0,47608 0,48006 0,48405 0,48803 0,49202 0,49601 0,5 z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0
Tabela 1b – TABELA DA DISTRIBUIÇÃO NORMAL
z 01 5 0 0,08 0,09 0 0, 0,02 0,03 0,04 0,0 0, 6 0,07 0 0,5 0,50399 0,51197 9 3 ,53188 0,53586 0,50798 0,515 5 0,51994 0,52 92 0,5279 0
0,1 0,5 8 2 6 3 ,57142 0,57535 39 3 0,5438 0,54776 0,5517 0,555 7 0,55962 0,56 56 0,56749 00,2 0,5 5 8 2 ,61026 0,61409 7926 0,58317 0,58706 0,5909 0,594 3 0,59871 0,60 57 0,60642 00,3 0,6 07 0,636 0 ,64803 0,65173 1791 0,62172 0,62552 0,6293 0,633 83 0,64 58 0,64431 00,4 0,6 4 0 7 ,68439 0,68793 55 2 0,6591 0,66276 0,6664 0,670 3 0,67364 0,67 24 0,68082 00,5 0, 4 4 2 ,71904 0,7224 69146 0,69497 0,69847 0,7019 0,705 0,70884 0,71 26 0,71566 00,6 0,725 5 9 5 ,75175 0,7549 75 0,72907 0,73237 0,7356 0,738 1 0,74215 0,74 37 0,74857 00,7 0, 3 3 76 ,7823 0,78524 75804 0,76115 0,76424 0,7673 0,770 5 0,773 7 0,7 37 0,77935 00,8 0, 3 55 234 0,805 ,81057 0,81327 78814 0,79103 0,79389 0,7967 0,799 0,80 11 0,80785 00,9 0, 1 3 9 31 ,83646 0,83891 81594 0,81859 0,82121 0,8238 0,826 9 0,828 4 0,8 47 0,83398 01,0 0, 9 8 543 0,8 ,85993 0,86214 84134 0,84375 0,84614 0,8484 0,850 3 0,85314 0,85 5769 01,1 0, 6 8 6 879 0,881 0,88298 86433 0,8665 0,86864 0,8707 0,872 6 0,87493 0,87 98 0,1,2 0, 5 5 6 ,89973 0,90147 88493 0,88686 0,88877 0,8906 0,892 1 0,89435 0,89 17 0,89796 01,3 0,903 4 88 1 3 ,91621 0,91774 2 0,9049 0,90658 0,9082 0,909 0,91 49 0,91 08 0,91466 01,4 0,919 4 07 6 7 ,93056 0,93189 24 0,92073 0,9222 0,9236 0,925 0,92 47 0,92 85 0,92922 01,5 0,93319 0,93448 0,93574 9 2 0 ,94295 0,94408 0,9369 0,938 2 0,93943 0,94 62 0,94179 01,6 0 5 5 1 ,95352 0,95449 ,9452 0,9463 0,94738 0,9484 0,949 0,95053 0,95 54 0,95254 01,7 0, 8 0 6 ,96246 0,96327 95543 0,95637 0,95728 0,9581 0,959 7 0,95994 0,9 08 0,96164 01,8 0, 0,96638 1 8 ,96995 0,97062 96407 0,96485 0,96562 0,967 2 0,96784 0,96 56 0,96926 01,9 0, 8 7 ,97615 0,9767 97128 0,97193 0,97257 0,9732 0,973 1 0,97441 0,9 5 0,97558 02,0 0, 2 3 82 0,980 ,98124 0,98169 97725 0,97778 0,97831 0,9788 0,979 2 0,979 3 0,98077 02,1 0, 1 8 461 0, ,98537 0,98574 98214 0,98257 0,983 0,9834 0,983 2 0,98422 0,98 985 02,2 0 , 3 4 8 0,98899 ,9861 0,98645 0 98679 0,9871 0,987 5 0,98778 0,98 09 0,9884 0,9887 2,3 0, 3 0 9111 0,99134 0,99158 98928 0,98956 0,98983 0,9901 0,990 6 0,99061 0,99 86 0,92,4 0 5 6 3 ,99343 0,99361 ,9918 0,99202 0,99224 0,9924 0,992 6 0,99286 0,99 05 0,99324 02,5 0,99379 0,99396 0,99413 4 4 ,99506 0,9952 0,9943 0,994 6 0,99461 0,99 77 0,99492 02,6 0, 3 0,9958 6 ,99632 0,99643 99534 0,99547 0,9956 0,9957 5 0,99598 0,99 09 0,99621 02,7 0, 5 9 3 9 7 ,99728 0,99736 996 3 0,9 664 0,99674 0,9968 0,996 3 0,99702 0,99 11 0,9972 02,8 0, 7 74 7 788 0,9 ,99801 0,99807 99744 0,99752 0,9976 0,9976 0,997 0,99 81 0,99 9795 02,9 0, 1 3 846 0,9 ,99856 0,99861 99813 0,99819 0,99825 0,9983 0,998 6 0,99841 0,99 9851 03,0 0, 8 8 8 9893 0,99896 0,999 99865 0,99869 0,99874 0,9987 0,998 2 0,99886 0,99 89 0,93,1 0, 3 1 9 999903 0,99906 0,9991 0,9991 0,999 6 0,99918 0,99 21 0,9 924 0,99926 0,99929 3,2 0,999 8 4 9 9 0,9995 31 0,99934 0,99936 0,9993 0,999 0,99942 0,99 44 0,9 946 0,99948 3,3 0, 7 5 9 9 ,99964 0,99965 99952 0,99953 0,99955 0,9995 0,999 8 0,99 6 0,99 61 0,99962 03,4 0,99966 0,99968 0,99969 7 7 99 ,99975 0,99976 0,9997 0,999 1 0,999 2 0,9 73 0,99974 03,5 0,99977 0,99978 0,99978 9 8 8 99 ,99983 0,99983 0,9997 0,999 0,999 1 0,9 81 0,99982 03,6 0 0,99986 8 8 99 ,99988 0,99989 ,99984 0,99985 0,99985 0,999 6 0,999 7 0,9 87 0,99988 03,7 0 8 ,999 9 0,9999 >0,99990 etc... ... z 5 0,0 0,08 0,09 0 0,01 0,02 0,03 0,04 0,0 6 0,07
151
152
Tabela 2– TABELA DA DISTRIBUIÇÃO QUI-QUADRADO
α 0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001 1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827 2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815 3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515 6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321 8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124 9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877
10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527 14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698 16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252 17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268 23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728 24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179 25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619 26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051 27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301 30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 40 20.707 24.433 29.051 39.335 51.805 55.758 59.342 63.691 66.766 73.40350 27.991 32.357 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.66060 35.534 40.482 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.60870 43.275 48.758 55.329 69.334 85.527 90.531 95.023 100.425 104.215 112.31780 51.172 57.153 64.278 79.334 96.578 101.879 106.629 112.329 116.321 124.83990 59.196 65.647 73.291 89.334 107.565 113.145 118.136 124.116 128.299 137.208
100 67.328 74.222 82.358 99.334 118.498 124.342 129.561 135.807 140.170 149.449120 83.852 91.573 100.624 119.334 140.233 146.567 152.211 158.950 163.648 173.618
153
Tabela 3 – TABELA DA DISTRIBUIÇÃO t-STUDENT
α 0,2 0,15 0,1 0,05 0,025 0,02 0,015 0,01 0,005 tB0.800 B tB0.850 B tB0.900 B tB0.950 B tB0.975 B tB0.980 B tB0.985 B tB0.990 B tB0.995 B
d.f.1 1,37638 1,96261 3,07768 6,31375 12,70615 15,89447 21,20505 31,82096 63,6559
2 1,06066 1,38621 1,88562 2,91999 4,30266 4,84873 5,6428 6,96455 9,92499
3 0,97847 1,24978 1,63775 2,35336 3,18245 3,48191 3,89606 4,54071 5,84085
4 0,94096 1,18957 1,53321 2,13185 2,77645 2,99853 3,29763 3,74694 4,60408
5 0,91954 1,15577 1,47588 2,01505 2,57058 2,75651 3,00288 3,36493 4,03212
6 0,9057 1,13416 1,43976 1,94318 2,44691 2,61224 2,82893 3,14267 3,70743
7 0,89603 1,11916 1,41492 1,89458 2,36462 2,51675 2,71457 2,99795 3,49948
8 0,88889 1,10815 1,39682 1,85955 2,30601 2,44899 2,63381 2,89647 3,35538
9 0,8834 1,09972 1,38303 1,83311 2,26216 2,39844 2,57381 2,82143 3,24984
10 0,87|906 1,09306 1,37218 1,81246 2,22814 2,35931 2,52749 2,76377 3,16926
11 0,87553 1,08767 1,36343 1,79588 2,20099 2,32814 2,49067 2,71808 3,10582
12 0,87261 1,08321 1,35622 1,78229 2,17881 2,30272 2,4607 2,68099 3,05454
13 0,87015 1,07947 1,35017 1,77093 2,16037 2,2816 2,43585 2,6503 3,01228
14 0,86805 1,07628 1,34503 1,76131 2,14479 2,26378 2,4149 2,62449 2,97685
15 0,86624 1,07353 1,34061 1,75305 2,13145 2,24854 2,39701 2,60248 2,94673
16 0,86467 1,07114 1,33676 1,74588 2,1199 2,23536 2,38155 2,58349 2,92079
17 0,86328 1,06903 1,33338 1,73961 2,10982 2,22384 2,36805 2,56694 2,89823
18 0,86205 1,06717 1,33039 1,73406 2,10092 2,2137 2,35618 2,55238 2,87844
19 0,86095 1,06551 1,32773 1,72913 2,09302 2,2047 2,34565 2,53948 2,86094
20 0,85996 1,06402 1,32534 1,72472 2,08596 2,19666 2,33625 2,52798 2,84534
21 0,85907 1,06267 1,32319 1,72074 2,07961 2,18943 2,32779 2,51765 2,83137
22 0,85827 1,06145 1,32124 1,71714 2,07388 2,18289 2,32016 2,50832 2,81876
23 0,85753 1,06034 1,31946 1,71387 2,06865 2,17696 2,31323 2,49987 2,80734
24 0,85686 1,05932 1,31784 1,71088 2,0639 2,17155 2,30692 2,49216 2,79695
25 0,85624 1,05838 1,31635 1,70814 2,05954 2,16659 2,30113 2,4851 2,78744
26 0,85567 1,05752 1,31497 1,70562 2,05553 2,16203 2,29581 2,47863 2,77872
27 0,85514 1,05673 1,3137 1,70329 2,05183 2,15782 2,29092 2,47266 2,77068
28 0,85465 1,05599 1,31253 1,70113 2,04841 2,15394 2,28638 2,46714 2,76326
29 0,85419 1,0553 1,31143 1,69913 2,04523 2,15033 2,28218 2,46202 2,75639
30 0,85377 1,05466 1,31042 1,69726 2,04227 2,14697 2,27827 2,45726 2,74998
35 0,85201 1,05202 1,30621 1,68957 2,03011 2,13316 2,26219 2,43772 2,72381
40 0,8507 1,05005 1,30308 1,68385 2,02107 2,12291 2,25027 2,42326 2,70446
45 0,84968 1,04852 1,30065 1,67943 2,0141 2,115 2,24109 2,41212 2,68959
50 0,84887 1,04729 1,29871 1,67591 2,00856 2,10872 2,23378 2,40327 2,67779
60 0,84765 1,04547 1,29582 1,67065 2,0003 2,09936 2,22292 2,39012 2,66027
70 0,84679 1,04417 1,29376 1,66692 1,99444 2,09273 2,21523 2,3808 2,6479
80 0,84614 1,04319 1,29222 1,66413 1,99007 2,08778 2,20949 2,37387 2,6387
90 0,84563 1,04244 1,29103 1,66196 1,98667 2,08394 2,20504 2,3685 2,63157
100 0,84523 1,04184 1,29008 1,66023 1,98397 2,08088 2,2015 2,36421 2,62589
110 0,8449 1,04134 1,2893 1,65882 1,98177 2,07839 2,1986 2,36072 2,62127
120 0,84463 1,04093 1,28865 1,65765 1,97993 2,07631 2,1962 2,35783 2,61742
140 0,8442 1,04029 1,28763 1,65581 1,97706 2,07306 2,19244 2,35328 2,6114
160 0,84387 1,0398 1,28686 1,65443 1,9749 2,07063 2,18962 2,34988 2,6069
180 0,84362 1,03943 1,28627 1,65336 1,97323 2,06874 2,18743 2,34724 2,60341
200 0,84342 1,03913 1,2858 1,65251 1,97189 2,06723 2,18569 2,34513 2,60063
INFINITO 0,84198 1,03697 1,2824 1,64638 1,96234 2,05643 2,17319 2,33008 2,58075
α 0,2 0,15 0,1 0,05 0,025 0,02 0,015 0,01 0,005 tB0.800 B tB0.850 B tB0.900 B tB0.950 B tB0.975 B tB0.980 B tB0.985 B tB0.990 B tB0.995 B
154
Tabela 4 – TABELA DA DISTRIBUIÇÃO F